FacebookYouTube都会遇到的内容审核难题,今日头条是怎么解决的?

在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图文类内容,音频、长视频和短视频,以及直播的比例在不断增加,这对于那些那些既追求实时性(发布速度和用户体验)、又追求不出问题(举报率和负面事件)的内容平台审核管理,提出了巨大而严峻的挑战。

包括Facebook和Youtube在内的国际顶级UGC平台,如今在这类老生常谈的问题上依然十分吃力,尤其是发达国家最为在意的低龄内容、种族歧视和跨国文化/多语言等问题,它俩其实一直未能交出一份让各方满意的答卷。而国内今年比较知名的互联网内容社区类产品里,下架甚至关停的已经不下于0余款,尽管它们各自都有各自的问题,比如色情内容、微商、内容涉政等等,但归根结底,这还是用户激增带来的日益增长的内容生产量和无法跟上的审核措施和效率之间的矛盾。

一、Facebook:用AI和算力应对海量内容

Facebook在整个2018年遭遇过巨大的信任危机,除了数据接口和用户隐私的处理不当,平台上的内容审核政策也受到严重质疑。但其实,它背后的核心问题是,这家公司本就是世界互联网内容吞吐量最大的平台。

而这些内容并不只在Facebookapp发布和消费,还在这家公司旗下月活15亿的Whatsapp、13亿的FacebookMessenger和10亿的Instagram上面传播和推广,所以这家公司承受的内容审核压力才会如此之大。

那么Facebook拿出的应对措施是什么?在去年那场著名的美国国会听证会上,扎克伯格在一小时内提及AI三十余次,坚称AI是平台内容审核的答案,他的原话是:“未来的五到十年,AI将成为世界上最大的社交网络的捍卫者,在全球范围内解决其最紧迫的问题,同时也帮助公司回答有关审核、公平和人类无节制等棘手问题。”

小扎自称,Facebook上99%有关ISIS和基地组织的内容,都在人们看到之前被人工智能系统标记,并且被删掉。但AI想要和内容审核结合并落地,必须拿出一些具体的手段来。Facebook现在的审核分为文字审核、图片和视频审核,以及大量的人工配合。

Facebook为这些实时而海量的信息编目录、并让其被搜索是件很困难的事情,所以他们才转向了人工智能。

而Facebook的图片和视频审核系统名为Rosetta,利用光学字符识别系统来处理图片和视频内容,每天可以实时地从超过10亿张图像和视频帧中提取信息并识别多种语言背后的含义。

另外,Facebook在上周刚刚开源了它们在图像识别及视觉领域的最新模型:ResNext101。这是一个在Instagram的图片标签上预训练,并在ImageNet上微调的模型。ImageNet是由知名人工智能专家李飞飞教授团队于2009年发布,包含了超过两万类物体共计一千四百多万张图片,后来的很多计算机视觉任务模型都以此为基础进行训练。

而ResNext101更上一层楼,利用了Instagram上的35亿张图片(比ImageNet的1400万多了200多倍)进行了预训练,并以人们为图片添加的话题标签(#hashtag)为类别,研发出来的有着超强特征提取能力的图像识别模型。

在这两大系统的背后,其实是Facebook的人工智能研究院FAIR(FacebookArtificialIntelligenceResearch)在发挥功劳。比如其物体识别技术(Objectrecognition),以含有数十亿参数和数百万案例训练的神经网络为基础,给了挑战最大的图片和视频审核有力的支持。另外它们也使用自我监督学习(SSL)探索大量数据,让机器可以通过分析未标记的图像、视频或音频来学习世界的抽象表达,这也是FAIR将AI能力规模化的努力之一。

早年间YouTube以草根内容起家,后来出现了大量的搬运号,主要以盗版电视台的精品内容为主。虽然平台的数据因此飙涨,但也因此陷入了旷日持久的官司里。

2007年至2009年,包括维亚康姆(美国第三大传媒公司),Mediaset(意大利的传媒集团)和英超联赛(英国最大足球联赛)等在内的组织对YouTube提起诉讼,声称它在用户上传侵权内容方面毫无作为。

后来,ContentID的内容监测能力在不断改进后,比如使用哈希算法标记有风险视频,阻它们被次上传,也获得了显著的成效。以2017年Q4为例,平台删除了800万条“令人反感”的视频,有670万条都由监测软件自动标记。大约75%被标记的视频,在被用户观看之前就被下架。

人性化的是,YouTube于2014年9在前端增加了受限模式(RestrictedMode),用以过滤情暴内容,但是户可以自己选择开启还是关闭。依据户举报以及其它识别规则,受限模式可以直接为用户过滤部分不当内容。

当然,YouTube的这些内容审核能力有赖于谷歌的深度学习技术GoogleBrain作为支持。GoogleBrian拥有一个收集用户信息(如观看历史和用户反馈)的神经网络,以及一个用于对所显示部分视频进行排列的神经网络,通过引入机器学习工具,自动标记暴力、色情和低俗等极端视频,并将违规内容报告给人工审核员进行验证。

和Facebook类似的是,就算有了Google多方面的技术支持(包括资金、人才、算法、云和服务器等),YouTube的AI标记、内容审核与识别技术也并不完美。2018的时候YouTubeCEO苏珊·沃西基承诺,未来会雇佣至少一万名人工审核员,以补足算法的局限。

不过,Google对YouTube的帮助也不会仅仅限于内容审核,GoogleBrain的技术已经被应用在安卓系统的语音识别、Google+的图片搜索、以及YouTube的智能推荐。所以,现在的YouTube早已从一个视频UGC社区,到慢慢成为拥有海量内容、搜索驱动的视频综合网站,到拥有了视频推送能力的应用。如今,占据用户在YouTube上观看视频总时长70%的内容,是由推荐算法引擎驱动的。

三、头条:审核系统对外开放会带来哪些变化?

如今的今日头条已经拥有海量的用户和多种形式的UGC内容,尽管体量上还颇有不如,但在内容审核方面遭遇的挑战同脸书和Youtube已经十分类似。

在文本识别领域,头条同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。最近新版的灵犬3.0发布,重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别和文本识别,后续,灵犬还将支持难度最大的语音识别和视频识别。

不过,今日头条的人工智能实验室王长虎也提到,AI暂时还是有缺陷的,今日头条现在有将近万余人的审核团队在辅助AI的审核。比如对于低俗内容,它的定义本来就相对笼统难以精确,这项工作即使对人来说也不容易,交给机器做更难实现。

比如世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。

Facebook曾经因为“裸露”,误删了一张著名的越战新闻照片,内容是一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑,事件发生后引起了美国新闻界的巨大争议。但是,在当前内容创作和消费规模海量增长的趋势下,如果依然纯靠人工去解决所有问题,那么必然效率低的同时还无法满足用户需求。

比如邓丽君的歌曲,早年被认为是低俗情色歌曲,如今早已被普遍接受并传唱大街小巷;比如内衣和内衣模特出现在购物平台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;而正常的热舞内容,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些内容就不应该出现。这就是由于时代背景、使用场景、用户人群不同而导致审核标准可能大幅变动的案例。

海量数据的产生、不断变化的标准,这都要求大公司在这方面的投入必须越来越多,而这本质上就成了一场资本丰厚的对手之间的军备竞赛。

未来中小团队将难以竞争,这就是一个巨头独霸的竞技场。不过好在,随着人类进入社会的数字化程度越来越高,新一代的移动互联网原住民们在享受技术带来的便利的同时,也对技术可能的负面在耐受度和适应性上不断提高。

毕竟自工业革命之后起,就有无数人曾对技术会带给社会的冲击抱有极端负面和悲观的预期,认为技术可能会加速崩坏我们数万年来自然形成的人类社会结构,但是哪一次,人类社会不又是顺利转型成功、发展出与技术相匹配的职业和生活模式、并且越走越好了呢?

THE END
1.今日头条招聘今日头条招聘招聘今日头条内容运营经理 20-50k·15薪 字节跳动 融资未公开 北京-大钟寺 3-5年 本科 刘女士 · 招聘HR 上一页 1/10 下一页 相关搜索 ERP专员招聘分析经理招聘在校学生招聘客服话务专员招聘IT系统维护招聘企业宣传专员招聘配饰设计师招聘证券主管招聘永州招聘门店营业员招聘 热门https://m.liepin.com/s/3f1092fb2b9d46c464d0b8831c2354b8/
2.字节跳动审核员招聘(工资待遇要求)北京抖音信息服务有限公司字节跳动 审核员 需要什么学历? 本科占比最多,想知道其他学历占比多少,请点击查看 按学历统计 大专¥5.1K 本科 字节跳动 审核员 工资按学历统计,1-3年工资¥5250,想知道其他学历工资,请点击查看。 招聘经验要求:不限最多 查看经验分布占比 > https://www.jobui.com/company/17376344/salary/j/shenheyuan/
3.今日头条工资待遇(共117条)愿意。互联网头部大厂,程序员哪有不想来这里工作的?工作几年累几年,成长比三四线小厂不知道高多少,title也大。 开发工资待遇(今日头条,2020年) 2021-11-02 | 今日头条 工资待遇: 工资收入月薪:25678元年终奖:12000元 五险一金有社会保险(5险)有住房公积金 https://www.job592.com/pay/comxc30015077.html
4.Contents/premium.mdatmaster·Newslab2020/Contents·GitHub风纪委员会:将审核权“外包”; B站作为政府和年轻人之间的“双向中介”。 630 Z-Library 2022/11/10 发生了什么? 是TikTok导致了这次的封禁吗? 出版业的暴利,以及重新想象的可能。 629 内参 2022/11/7 等级制的信息特权; 内参如何传递信息; 强人政治之下,内参的局限。 https://github.com/Newslab2020/Contents/blob/master/premium.md
5.我这段文字被头条审核员定性为传播国家分裂言论,让我反复修改,我我这段文字被头条审核员定性为传播国家分裂言论,让我反复修改,我不想修改了。我突然意识到这个审核员可能有支持台独,再怎么修改,也不会通过审核。建议国家新闻局关闭头条这个平台。https://www.toutiao.com/w/1818117286261002/
6.从2000人“扩军”到5000快手急招审核员据澎湃新闻4月6日报道,因为播出有违社会道德节目被勒令整改后,短视频平台快手宣布紧急扩充审核员队伍。 4月6日,快手方面在某招聘网站发布的招聘信息显示,为了加强审核能力与内容上传量的匹配,快手将在现有2000人的审核团队基础上,扩招3000名审核人员,将审核人员的规模扩充到5000人。 https://www.guancha.cn/society/2018_04_06_452858.shtml
7.内容审核形势严峻,FacebookYouTube和今日头条都是怎么解决的?所以,现在的YouTube早已从一个视频UGC社区,到慢慢成为拥有海量内容、搜索驱动的视频综合网站,到拥有了视频推送能力的应用。如今,占据用户在 YouTube 上观看视频总时长 70%的内容 ,是由推荐算法引擎驱动的。 三、头条:审核系统对外开放会带来哪些变化? 如今的今日头条已经拥有海量的用户和多种形式的UGC内容,尽管体量https://www.eatui.cn/xinxiliu/29799.html
8.微信小程序定制开发郑州沃之涛科技有限公司,致力于网站开发、网站优化、网站推广、竞价托管、APP开发、wordpress插件开发、公众号开发、小程序开发等。 我们是从一个打工仔,逐步为自己梦想而走到一起的小团队,我们愿意用我们的服务品质,去决定我们的未来。 我们在成长的道路上需要很多合伙商的朋友来帮助我们走向未来,我们要用过硬的技术https://www.seohnzz.com/page/24/
9.今日头条反爬措施形同虚设,论多平台协同在安全方面的重要性对头条这类内容大佬而言,它的安全,一个重要的方面就是内容安全,既要防止不合规内容的产生,这依赖于数量庞大的审核员产业大军,又要防止内容被扒过度,这依靠的是在爬虫路上设置的重重障碍。 当今主流的操作系统平台,不外乎Android,iOS,Windows,Linux,macOS,在这些平台上,再叠加各种不同的应用,比如微信,各类浏览器等https://blog.51cto.com/protosec/3122413
10.今日头条账号永久封禁申诉今日头条客服售后投诉维权中心头条被封,无意触犯了头条行为规范,导致账号被限制永久封禁,我已深刻体会到失误,在此我深深的向您致歉,我以后一定坚持发正能量作品,保证以后遵守头条行为规范,去发符合头条行为规范的作品,吸取教训,做一个诚实守法的公民,请官方审核员大人给我一次机会,给予我账号恢复正常!非常感谢审核员,您辛苦了!账号133***8178 https://www.xfb315.com/tousu/97664635
11.iPhone在华渠道价格最高直降450元;滴滴共享汽车启动免押金租车;高组织架构调整 100 天后,腾讯技术委员会成立;阿里回应头条收购优酷为假消息,称造谣要负法律责任;今日头条 CEO 陈林发问社交未来,或将推出新社交产品;蓝莓评测回应全家:还有大量原始视频证据未发布;大疆发布新款 Mavic 2 专用带屏遥控器;扎克伯格公布新年「个人挑战」:讨论科技对社会影响。 https://www.geekpark.net/news/237290
12.急招2000名内容审核员,推崇算法的今日头条为何反其道而为之那么今日头条此举如何解释呢?除了旗下的多个短视频APP也需要人工内容审核需求外,我们还可以从它的这则招聘中找到其他的线索。 内容审核、天津这两个关键词,让人很容易联想到早年的新浪微博。在几年前一篇名为《新浪微博审核员压力下的机械化生存》的新闻中,向外界描述了略有几分神秘的新浪微博内容审核员的工作和生https://www.tmtpost.com/3004435.html