现如今,算法已被应用到互联网各领域之中,其中以媒体内容领域尤为突出。算法不仅能实现多样化、个性化的内容精准推荐,还能赋能内容生产,辅助内容运营。
第一个,腾讯新闻APP中各种内容形态(如图文、视频、音频、话题、问答等)的理解和分发,涉及推荐系统,以及AI算法赋能内容的运营。
第三个,海豚智音,一个“听新闻”神器,主要用于智能音箱、车载音响和智能家电,目前能提供市场上70%的语音资讯;它涉及语音摘要、语音录制和个性化语音推荐算法。
第四个,辅助创作(Dreamwriter),涉及写稿、内容创作、筛稿、配图等非常多的东西,也是本文介绍的重点。
一、算法的框架
算法整体框架由底层算法和上层应用组成。底层算法有NLP方面的词法、句法、篇章理解等、视觉方面的图像质量、图文匹配、图像视频理解等算法,还有针对搜索的一些基础算法。
底层算法的上面嫁接了两大类应用,分别是推荐系统和搜索,推荐系统可分为五步。
1.内容处理
2.索引
将初选完后的内容,即预备分发给用户消费的图文、视频等资讯,加入索引。
3.画像
拓展画像会有一些隐式标识,比如根据他点击过的新闻序列,用一个向量描述他的兴趣点,而不是将他的兴趣划入某个分类或标签,这个向量也会用在召回和排序中。
4.召回
此外,还得考虑人群聚类,用户可能和其他人群有类似的兴趣,但不体现在用户标签中,这时就需要做一些聚合,把别人喜欢的东西推荐给用户。
5.精排
这里面涉及到排序算法,把底层最基础的数据维度,比如用户维度、内容维度设计出各种角度的特征,包括简单的值特征,以及交叉特征,甚至复杂的模型计算出的特征,输入到DNN+FM模型做点击和时长预估。
它的目的是从而从几千篇候选资讯中筛出几十篇,为什么不是10篇、20篇呢?
二、算法赋能内容
算法赋能内容运营,在公司内部叫青云项目,英文是Dreamwriter,它的主要目的是通过算法来辅助内容的运营,提高它的工作质量和效率。
新闻内容运营和流程
三、算法还能做什么?
1.自动写稿
辅助创作算法(Dreamwriter)能写短文、能写长文,它是如何做到的呢?基于模版的方法来写作。
实际套路是根据原始的数据抓取或者是采买一些实时数据格式化入库,然后进行逻辑的判断,再根据信息的类型、类别选择相应的模版生成稿子去发布。
这里有两个疑问:如何构造模版库呢?如何做逻辑判断呢?
构造模版库时,先通过人工,比如编辑和运营会先写比较简单的稿件模版,基于这个模版,我们通过算法去迭代,然后通过模版填充了一些词,再挖掘出词在不同语境下的不同模版,再循环迭代挖掘得到更多的模板。模板进入模板库前,需要人工根据判断准则审核一下。
接下来,我们再结合深度学习生成的模型提升模版的多样化,比如一句话的表述,它可以表述成A,也可以表述成B,通过算法找出A和B的变化,最简单的是进行同义词的替换。最后再攻克表述衔接性的问题,就能得到一个更好的模版库了。
有了模版库之后再进行逻辑判断,这时更多的根据内容源、所属的场景类别决定使用哪些模版。我们现在的模版范围挺大的,有一些类别是不需要人工审核,就可以直接发稿。
不过当前业界能自动写稿的场景还是比较有限的,从流程看它比较依赖于算法挖掘出来的模版,当模版没有套路时就很难做,比如让它写一篇文学作品,当前是做不到的,因为它需要巧妙的构思。
2.自动配图
举个例子,比如之前网上画了一个户型图,标题是君住长江尾我住长江头,意思是说房子特别长,你住这头,我住那头,每天要跑很远才能见面,第一版配的图是它的报价,但是户型图没有配。后来利用图文语意匹配的模型解决了上述问题,整个语义匹配模型准确度超过90%,如何实现的呢?
3.自动提取摘要
它可分为两种,一种是全文摘要,另一种是分段摘要。如何提取摘要呢?整个过程可分为四步。
第四步是后处理,对选出来的句子做一些融合,再形成摘要,再然后通过人工评价内容是否通顺、信息覆盖是否全。
此外,智能的语音资讯也不能太长,因为10分钟或5分钟的语音会让用户很烦燥。这时需要对一篇新闻资讯提取出几个摘要,确保一分钟之内就能读完。
4.自动生成短视频
先出一些摘要,再把摘要的句子打散,把这些句子配到每一个图片上面。然后通过人工录播或合成人声搞定声音,再做图像之间的渲染和背景音乐的选择,就生成了一个视频。虽然它跟真实的视频有一些差距,但是它的效果还是非常好的。
5.分类平台
最难的就是定义分类的标准,比如说按照质量分,质量分为三级,什么是一级、二级、三级,肯定有一个标准。在这个过程,编辑老师需要和算法团队频繁沟通如何制定标准,如何标注数据,还得不断反馈这些标注的质量。
标准确定后,累积一定样本就可以通过文本分类方法来做,我们分类平台能自动训练,模型选择,评估和在线服务化。
6.自动纠错
由于错别字的范围不太好限定,所以错别字的纠正非常难。常见的同音或近意错别字,比如发标、发表,很容易纠正。
再难一点的是搭配错误,词或者是字本身没有错误,但是它不适合在这个语境用,搭配错误涉及到长距离的语意搭配错误(比如第一遍和第二遍的内容不一样)和短距离的语意搭配错误。更难的设计知识内的错误,比如政治问题或者历史人物信息等错误。
从应用角度来讲,靠算法纠错有时候不一定很准,有些本身没有错误但算法提示错误,比如某一个人物讲的话,这时需要标红提醒一下。有时这个地方可能错了,但算法没有找到合适的词去纠正,就有错误提醒。
自动纠错大体可分为两步。第一步是对输入的文本先进行预处理,再加入一个规则系统。通用规则有成语、谚语,它是约定俗成的,字不对的话直接纠正过来就行。
第二步是通过模型纠正中高频词,通过自创方法纠正低频词。一般某一个字错了,它的分词也是错的,这种需要结合上下文进行纠正,是比较难的。对于高频词的纠正,可以通过算法模型学习来实现。对于低频次,就非常难学好。
7.生成简报
8.热点监控
第二种是根据用户的消费情况找到热点,相对会滞后一点,比如推荐系统里面的统计热点召回。