博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
PornNet:色情视频内容识别网络
阅读量:2167 次
发布时间:2019-05-01

本文共 1694 字,大约阅读时间需要 5 分钟。

图片

导读: 色情视频内容已经严重危害互联网安全,色情内容常以图像和音频两种形式存在,本文介绍了基于图像和音频的色情视频内容识别方法。

全文1653字,预计阅读时间5分钟。

一、背景

随着移动互联网的发展, 短视频成为人们日常娱乐的主要方式,每天有大量的用户通过互联网上传和下载短视频。但有些短视频中存在涉黄内容,这不但对青少年的心理健康产生严重影响,也是引起社会不安全的因素之一。

色情视频的内容识别是个多模的问题,包括:色情图像识别和色情语音识别。在色情图像识别领域,尽管色情图像领域有人研究,但是色情图像识别仍然是一项具有挑战性的任务。例如:色情区域在图像中占比较少,难以召回 和 低俗和色情图像从视觉角度比较近似,难以区分等难题。有些色情视频的画面是正常的,需要靠色情语音才能判别,目前没有色情语音识别的理论研究

二、色情视频内容识别的技术问题

在色情图像识别领域,常见的算法包括基于手工特征的传统机器学习方法和基于深度学习的色情图像的识别。基于手工特征的传统机器学习方法常采用的是颜色直方图,纹路信息等特征用于检测图像中肤色区域,其缺点是:无法区分低俗图像和色情图像。随着深度学习的发展,图像分类和物体检测也被用于色情图像识别,其缺点是:模型结构比较简单,解决问题能力有限。

目前没有关于色情语音分类相关理论,我们参考了语音分类相关理论。基于原始音频和一维卷积的声音模型识别,效果比较差,逐渐被抛弃基于音频频谱特征和二维卷积的声音模型识别。

三、色情视频内容识别框架详解

为了解决视频的多模的问题,采用图像和音频两个模态来判断定视频是否色情。

整体架构包括三部分:

1、色情图像识别模型

2、色情音频识别模型

3、图像和音频两个模型结果融合

整体解决方案如下图所示:

图片

1、色情图像识别模型

为了捕获图像中的局部和整体的特征,我们提出来DCNet,整体结构有分类分支与检测分支组成,用来捕获图像的整体和局部信息。其中,整体结构有分类分支与检测分支组成,用来捕获图像的整体和局部信息。检测分支,相对于传统的检测网络,我们做了两个优化:

(1)采用BiFPN做特征融合,特点是:不同的feature map赋予不同的权重,同时可以双向融合,能有效的提高检测效果;

(2)任务分支采用anchor free的思想,其特点:采用fcn的思想,更细粒度的多目前检测,能够加强对小区域信息检测,同时加入中心点分支,来降低误检。

色情图像识别模型的结构图如下:

图片

2、色情音频模型

目前没有关于色情语音分类相关理论,借鉴了语音分类相关理论,常用的方法是先将音频的wav变成二维的频谱图,再将频谱图输入到二维卷积中,在此基础上,我们采用log Mel-spectrograms作为音频的频谱特征,并提出了RANet,其特点包括。

(1)将音频转化成log Mel-spectrograms特征:一秒音频对应一张log Mel-spectrogram特征图,其信息是一张二维的图像。

(2)基于tsn架构捕获音频之间的时序信息,将音频从时间维度等间隔分段,每一段提取一张特征图。

(3)采用频率attention模块捕获声音的关键信息,attention块由两个卷积层组成, 插在Resnet 网络中layer的两端。

色情音频识别模型的结构图如下:

图片

3、图像和音频两个模型结果融合

图片

四、实验结果

在我们3k测试集上,模型准确率达到93.4%。

图片

本文是作者于2021年发表与开源期刊 Applied Sciences 上的论文,现翻译了部分内容,供大家参考。

原文地址:https://www.mdpi.com/2076-3417/11/7/3066

招聘信息:

欢迎出色的C++ 工程师加入百度,与大神一起成长。关注同名公众号百度Geek说,输入内推即可,我们期待你的加入!

推荐阅读:

---------- END ----------

百度Geek说

百度官方技术公众号上线啦!

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

欢迎各位同学关注

转载地址:http://zrszb.baihongyu.com/

你可能感兴趣的文章
进程和线程的概念、区别和联系
查看>>
CMake 入门实战
查看>>
绑定CPU逻辑核心的利器——taskset
查看>>
Linux下perf性能测试火焰图只显示函数地址不显示函数名的问题
查看>>
c结构体、c++结构体和c++类的区别以及错误纠正
查看>>
Linux下查看根目录各文件内存占用情况
查看>>
A星算法详解(个人认为最详细,最通俗易懂的一个版本)
查看>>
利用栈实现DFS
查看>>
逆序对的数量(递归+归并思想)
查看>>
数的范围(二分查找上下界)
查看>>
算法导论阅读顺序
查看>>
Windows程序设计:直线绘制
查看>>
linux之CentOS下文件解压方式
查看>>
Django字段的创建并连接MYSQL
查看>>
div标签布局的使用
查看>>
HTML中表格的使用
查看>>
(模板 重要)Tarjan算法解决LCA问题(PAT 1151 LCA in a Binary Tree)
查看>>
(PAT 1154) Vertex Coloring (图的广度优先遍历)
查看>>
(PAT 1115) Counting Nodes in a BST (二叉查找树-统计指定层元素个数)
查看>>
(PAT 1143) Lowest Common Ancestor (二叉查找树的LCA)
查看>>