FacebookYouTube都会遇到的内容审核难题,今日头条是怎么解决的?

在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图文类内容,音频、长视频和短视频,以及直播的比例在不断增加,这对于那些那些既追求实时性(发布速度和用户体验)、又追求不出问题(举报率和负面事件)的内容平台审核管理,提出了巨大而严峻的挑战。

包括Facebook和Youtube在内的国际顶级UGC平台,如今在这类老生常谈的问题上依然十分吃力,尤其是发达国家最为在意的低龄内容、种族歧视和跨国文化/多语言等问题,它俩其实一直未能交出一份让各方满意的答卷。而国内今年比较知名的互联网内容社区类产品里,下架甚至关停的已经不下于0余款,尽管它们各自都有各自的问题,比如色情内容、微商、内容涉政等等,但归根结底,这还是用户激增带来的日益增长的内容生产量和无法跟上的审核措施和效率之间的矛盾。

一、Facebook:用AI和算力应对海量内容

Facebook在整个2018年遭遇过巨大的信任危机,除了数据接口和用户隐私的处理不当,平台上的内容审核政策也受到严重质疑。但其实,它背后的核心问题是,这家公司本就是世界互联网内容吞吐量最大的平台。

而这些内容并不只在Facebookapp发布和消费,还在这家公司旗下月活15亿的Whatsapp、13亿的FacebookMessenger和10亿的Instagram上面传播和推广,所以这家公司承受的内容审核压力才会如此之大。

那么Facebook拿出的应对措施是什么?在去年那场著名的美国国会听证会上,扎克伯格在一小时内提及AI三十余次,坚称AI是平台内容审核的答案,他的原话是:“未来的五到十年,AI将成为世界上最大的社交网络的捍卫者,在全球范围内解决其最紧迫的问题,同时也帮助公司回答有关审核、公平和人类无节制等棘手问题。”

小扎自称,Facebook上99%有关ISIS和基地组织的内容,都在人们看到之前被人工智能系统标记,并且被删掉。但AI想要和内容审核结合并落地,必须拿出一些具体的手段来。Facebook现在的审核分为文字审核、图片和视频审核,以及大量的人工配合。

Facebook为这些实时而海量的信息编目录、并让其被搜索是件很困难的事情,所以他们才转向了人工智能。

而Facebook的图片和视频审核系统名为Rosetta,利用光学字符识别系统来处理图片和视频内容,每天可以实时地从超过10亿张图像和视频帧中提取信息并识别多种语言背后的含义。

另外,Facebook在上周刚刚开源了它们在图像识别及视觉领域的最新模型:ResNext101。这是一个在Instagram的图片标签上预训练,并在ImageNet上微调的模型。ImageNet是由知名人工智能专家李飞飞教授团队于2009年发布,包含了超过两万类物体共计一千四百多万张图片,后来的很多计算机视觉任务模型都以此为基础进行训练。

而ResNext101更上一层楼,利用了Instagram上的35亿张图片(比ImageNet的1400万多了200多倍)进行了预训练,并以人们为图片添加的话题标签(#hashtag)为类别,研发出来的有着超强特征提取能力的图像识别模型。

在这两大系统的背后,其实是Facebook的人工智能研究院FAIR(FacebookArtificialIntelligenceResearch)在发挥功劳。比如其物体识别技术(Objectrecognition),以含有数十亿参数和数百万案例训练的神经网络为基础,给了挑战最大的图片和视频审核有力的支持。另外它们也使用自我监督学习(SSL)探索大量数据,让机器可以通过分析未标记的图像、视频或音频来学习世界的抽象表达,这也是FAIR将AI能力规模化的努力之一。

早年间YouTube以草根内容起家,后来出现了大量的搬运号,主要以盗版电视台的精品内容为主。虽然平台的数据因此飙涨,但也因此陷入了旷日持久的官司里。

2007年至2009年,包括维亚康姆(美国第三大传媒公司),Mediaset(意大利的传媒集团)和英超联赛(英国最大足球联赛)等在内的组织对YouTube提起诉讼,声称它在用户上传侵权内容方面毫无作为。

后来,ContentID的内容监测能力在不断改进后,比如使用哈希算法标记有风险视频,阻它们被次上传,也获得了显著的成效。以2017年Q4为例,平台删除了800万条“令人反感”的视频,有670万条都由监测软件自动标记。大约75%被标记的视频,在被用户观看之前就被下架。

人性化的是,YouTube于2014年9在前端增加了受限模式(RestrictedMode),用以过滤情暴内容,但是户可以自己选择开启还是关闭。依据户举报以及其它识别规则,受限模式可以直接为用户过滤部分不当内容。

当然,YouTube的这些内容审核能力有赖于谷歌的深度学习技术GoogleBrain作为支持。GoogleBrian拥有一个收集用户信息(如观看历史和用户反馈)的神经网络,以及一个用于对所显示部分视频进行排列的神经网络,通过引入机器学习工具,自动标记暴力、色情和低俗等极端视频,并将违规内容报告给人工审核员进行验证。

和Facebook类似的是,就算有了Google多方面的技术支持(包括资金、人才、算法、云和服务器等),YouTube的AI标记、内容审核与识别技术也并不完美。2018的时候YouTubeCEO苏珊·沃西基承诺,未来会雇佣至少一万名人工审核员,以补足算法的局限。

不过,Google对YouTube的帮助也不会仅仅限于内容审核,GoogleBrain的技术已经被应用在安卓系统的语音识别、Google+的图片搜索、以及YouTube的智能推荐。所以,现在的YouTube早已从一个视频UGC社区,到慢慢成为拥有海量内容、搜索驱动的视频综合网站,到拥有了视频推送能力的应用。如今,占据用户在YouTube上观看视频总时长70%的内容,是由推荐算法引擎驱动的。

三、头条:审核系统对外开放会带来哪些变化?

如今的今日头条已经拥有海量的用户和多种形式的UGC内容,尽管体量上还颇有不如,但在内容审核方面遭遇的挑战同脸书和Youtube已经十分类似。

在文本识别领域,头条同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。最近新版的灵犬3.0发布,重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别和文本识别,后续,灵犬还将支持难度最大的语音识别和视频识别。

不过,今日头条的人工智能实验室王长虎也提到,AI暂时还是有缺陷的,今日头条现在有将近万余人的审核团队在辅助AI的审核。比如对于低俗内容,它的定义本来就相对笼统难以精确,这项工作即使对人来说也不容易,交给机器做更难实现。

比如世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。

Facebook曾经因为“裸露”,误删了一张著名的越战新闻照片,内容是一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑,事件发生后引起了美国新闻界的巨大争议。但是,在当前内容创作和消费规模海量增长的趋势下,如果依然纯靠人工去解决所有问题,那么必然效率低的同时还无法满足用户需求。

比如邓丽君的歌曲,早年被认为是低俗情色歌曲,如今早已被普遍接受并传唱大街小巷;比如内衣和内衣模特出现在购物平台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;而正常的热舞内容,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些内容就不应该出现。这就是由于时代背景、使用场景、用户人群不同而导致审核标准可能大幅变动的案例。

海量数据的产生、不断变化的标准,这都要求大公司在这方面的投入必须越来越多,而这本质上就成了一场资本丰厚的对手之间的军备竞赛。

未来中小团队将难以竞争,这就是一个巨头独霸的竞技场。不过好在,随着人类进入社会的数字化程度越来越高,新一代的移动互联网原住民们在享受技术带来的便利的同时,也对技术可能的负面在耐受度和适应性上不断提高。

毕竟自工业革命之后起,就有无数人曾对技术会带给社会的冲击抱有极端负面和悲观的预期,认为技术可能会加速崩坏我们数万年来自然形成的人类社会结构,但是哪一次,人类社会不又是顺利转型成功、发展出与技术相匹配的职业和生活模式、并且越走越好了呢?

THE END
1.字节跳动内容审核字节跳动内容审核招聘内容审核员 【东莞】 8-11k 1-3年学历不限 某深圳世界500强通信设备公司 通信设备,计算机软件,计算机硬件战略融资10000人以上 王女士 猎头顾问/助理 内容审核 【洪山区】 4-6k 经验不限本科 某武汉计算机软件公司 计算机软件1-49人 刘女士 猎头顾问 https://www.liepin.com/s/zjtdnrshl7e1/
2.今日头条审核岗面试经验面试题(共12条)今日头条审核岗面试经验,共12个真人分享,帮助大家及时了解今日头条审核岗面试经历、面试题目及面试流程。职朋职业圈,专业职业分享交流平台,助你职业成功。https://m.job592.com/pay/comms31947823.html
3.急招2000名内容审核员,推崇算法的今日头条为何反其道而为之那么今日头条此举如何解释呢?除了旗下的多个短视频APP也需要人工内容审核需求外,我们还可以从它的这则招聘中找到其他的线索。 内容审核、天津这两个关键词,让人很容易联想到早年的新浪微博。在几年前一篇名为《新浪微博审核员压力下的机械化生存》的新闻中,向外界描述了略有几分神秘的新浪微博内容审核员的工作和生https://www.tmtpost.com/3004435.html
4.我这段文字被头条审核员定性为传播国家分裂言论,让我反复修改,我我这段文字被头条审核员定性为传播国家分裂言论,让我反复修改,我不想修改了。我突然意识到这个审核员可能有支持台独,再怎么修改,也不会通过审核。建议国家新闻局关闭头条这个平台。https://www.toutiao.com/w/1818117286261002/
5.字节跳动审核员本科招聘(工资待遇要求)北京抖音信息服务有限说明:北京 审核员 本科平均工资¥15413 ,北京外包服务行业 审核员 本科平均工资¥19710 招聘经验要求:1-3年最多 字节跳动 审核员 本科需要什么经验? 1-3年占100% 按经验统计 1-3年 ¥5.3K 字节跳动 审核员 本科工资按经验统计,1-3年工资¥5.3K,想知道其他经验工资,请点击查看。 字节https://m.jobui.com/company/17376344/salary/j/shenheyuan/edu2/
6.抖音不能随便“抖”了!短视频审核“红线”来了一次100条!根据这次的新规,原则上,审核员人数应当在本平台每天新增播出短视频条数的千分之一以上。那么这将意味着抖音、今日头条,哔哩哔哩等头部短视频平台,至少要配备万人以上的审核员。 内容与资质双严格 短视频平台亟需办理营业资质 根据,1月9日发布的网络短视频平台管理规范,开展短视频服务的网络平台,应当持有《信息网络传播https://wap.eastmoney.com/a/201901101023865215.html
7.从2000人“扩军”到5000快手急招审核员快手目前在全国六地建有审核中心,分别是北京、天津、无锡、武汉、哈尔滨、盐城。 快手这次紧急扩招审核员的背景之一,是短视频领域监管的深入。 此前的4月4日,国家广播电视总局发布通报称,针对社会舆论强烈关注的“今日头条”、“快手”两家网站播出有违社会道德节目等问题,国家广播电视总局高度重视,立即会同属地管理部门https://www.guancha.cn/society/2018_04_06_452858.shtml
8.肿么去投诉头条审核员写手不能直接联系头条审核员,但如果有问题可以通过投诉渠道与管理员交流。登陆电脑版头条号后台,点击界面https://ask.zol.com.cn/x/16276391.html
9.今日头条账号永久封禁申诉今日头条客服售后投诉维权中心今日头条账号永久封禁申诉 网友保保_XSGeopPf 2024-09-25 已完结 头条被封,无意触犯了头条行为规范,导致账号被限制永久封禁,我已深刻体会到失误,在此我深深的向您致歉,我以后一定坚持发正能量作品,保证以后遵守头条行为规范,去发符合头条行为规范的作品,吸取教训,做一个诚实守法的公民,请官方审核员大人给我一次https://www.xfb315.com/tousu/97664635
10.内容审核形势严峻,FacebookYouTube和今日头条都是怎么解决的?不过,今日头条的人工智能实验室王长虎也提到,AI暂时还是有缺陷的,今日头条现在有将近万余人的审核团队在辅助AI的审核。 比如对于低俗内容,它的定义本来就相对笼统难以*,这项工作即使对人来说也不容易,交给机器做更难实现。 比如世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,https://www.eatui.cn/xinxiliu/29799.html
11.Contents/premium.mdatmaster·Newslab2020/Contents·GitHub风纪委员会:将审核权“外包”; B站作为政府和年轻人之间的“双向中介”。 630 Z-Library 2022/11/10 发生了什么? 是TikTok导致了这次的封禁吗? 出版业的暴利,以及重新想象的可能。 629 内参 2022/11/7 等级制的信息特权; 内参如何传递信息; 强人政治之下,内参的局限。 https://github.com/Newslab2020/Contents/blob/master/premium.md