腾讯的内容算法是如何工作的?

现如今,算法已被应用到互联网各领域之中,其中以媒体内容领域尤为突出。算法不仅能实现多样化、个性化的内容精准推荐,还能赋能内容生产,辅助内容运营。

第一个,腾讯新闻APP中各种内容形态(如图文、视频、音频、话题、问答等)的理解和分发,涉及推荐系统,以及AI算法赋能内容的运营。

第三个,海豚智音,一个“听新闻”神器,主要用于智能音箱、车载音响和智能家电,目前能提供市场上70%的语音资讯;它涉及语音摘要、语音录制和个性化语音推荐算法。

第四个,辅助创作(Dreamwriter),涉及写稿、内容创作、筛稿、配图等非常多的东西,也是本文介绍的重点。

一、算法的框架

算法整体框架由底层算法和上层应用组成。底层算法有NLP方面的词法、句法、篇章理解等、视觉方面的图像质量、图文匹配、图像视频理解等算法,还有针对搜索的一些基础算法。

底层算法的上面嫁接了两大类应用,分别是推荐系统和搜索,推荐系统可分为五步。

1.内容处理

2.索引

将初选完后的内容,即预备分发给用户消费的图文、视频等资讯,加入索引。

3.画像

拓展画像会有一些隐式标识,比如根据他点击过的新闻序列,用一个向量描述他的兴趣点,而不是将他的兴趣划入某个分类或标签,这个向量也会用在召回和排序中。

4.召回

此外,还得考虑人群聚类,用户可能和其他人群有类似的兴趣,但不体现在用户标签中,这时就需要做一些聚合,把别人喜欢的东西推荐给用户。

5.精排

这里面涉及到排序算法,把底层最基础的数据维度,比如用户维度、内容维度设计出各种角度的特征,包括简单的值特征,以及交叉特征,甚至复杂的模型计算出的特征,输入到DNN+FM模型做点击和时长预估。

它的目的是从而从几千篇候选资讯中筛出几十篇,为什么不是10篇、20篇呢?

二、算法赋能内容

算法赋能内容运营,在公司内部叫青云项目,英文是Dreamwriter,它的主要目的是通过算法来辅助内容的运营,提高它的工作质量和效率。

新闻内容运营和流程

三、算法还能做什么?

1.自动写稿

辅助创作算法(Dreamwriter)能写短文、能写长文,它是如何做到的呢?基于模版的方法来写作。

实际套路是根据原始的数据抓取或者是采买一些实时数据格式化入库,然后进行逻辑的判断,再根据信息的类型、类别选择相应的模版生成稿子去发布。

这里有两个疑问:如何构造模版库呢?如何做逻辑判断呢?

构造模版库时,先通过人工,比如编辑和运营会先写比较简单的稿件模版,基于这个模版,我们通过算法去迭代,然后通过模版填充了一些词,再挖掘出词在不同语境下的不同模版,再循环迭代挖掘得到更多的模板。模板进入模板库前,需要人工根据判断准则审核一下。

接下来,我们再结合深度学习生成的模型提升模版的多样化,比如一句话的表述,它可以表述成A,也可以表述成B,通过算法找出A和B的变化,最简单的是进行同义词的替换。最后再攻克表述衔接性的问题,就能得到一个更好的模版库了。

有了模版库之后再进行逻辑判断,这时更多的根据内容源、所属的场景类别决定使用哪些模版。我们现在的模版范围挺大的,有一些类别是不需要人工审核,就可以直接发稿。

不过当前业界能自动写稿的场景还是比较有限的,从流程看它比较依赖于算法挖掘出来的模版,当模版没有套路时就很难做,比如让它写一篇文学作品,当前是做不到的,因为它需要巧妙的构思。

2.自动配图

举个例子,比如之前网上画了一个户型图,标题是君住长江尾我住长江头,意思是说房子特别长,你住这头,我住那头,每天要跑很远才能见面,第一版配的图是它的报价,但是户型图没有配。后来利用图文语意匹配的模型解决了上述问题,整个语义匹配模型准确度超过90%,如何实现的呢?

3.自动提取摘要

它可分为两种,一种是全文摘要,另一种是分段摘要。如何提取摘要呢?整个过程可分为四步。

第四步是后处理,对选出来的句子做一些融合,再形成摘要,再然后通过人工评价内容是否通顺、信息覆盖是否全。

此外,智能的语音资讯也不能太长,因为10分钟或5分钟的语音会让用户很烦燥。这时需要对一篇新闻资讯提取出几个摘要,确保一分钟之内就能读完。

4.自动生成短视频

先出一些摘要,再把摘要的句子打散,把这些句子配到每一个图片上面。然后通过人工录播或合成人声搞定声音,再做图像之间的渲染和背景音乐的选择,就生成了一个视频。虽然它跟真实的视频有一些差距,但是它的效果还是非常好的。

5.分类平台

最难的就是定义分类的标准,比如说按照质量分,质量分为三级,什么是一级、二级、三级,肯定有一个标准。在这个过程,编辑老师需要和算法团队频繁沟通如何制定标准,如何标注数据,还得不断反馈这些标注的质量。

标准确定后,累积一定样本就可以通过文本分类方法来做,我们分类平台能自动训练,模型选择,评估和在线服务化。

6.自动纠错

由于错别字的范围不太好限定,所以错别字的纠正非常难。常见的同音或近意错别字,比如发标、发表,很容易纠正。

再难一点的是搭配错误,词或者是字本身没有错误,但是它不适合在这个语境用,搭配错误涉及到长距离的语意搭配错误(比如第一遍和第二遍的内容不一样)和短距离的语意搭配错误。更难的设计知识内的错误,比如政治问题或者历史人物信息等错误。

从应用角度来讲,靠算法纠错有时候不一定很准,有些本身没有错误但算法提示错误,比如某一个人物讲的话,这时需要标红提醒一下。有时这个地方可能错了,但算法没有找到合适的词去纠正,就有错误提醒。

自动纠错大体可分为两步。第一步是对输入的文本先进行预处理,再加入一个规则系统。通用规则有成语、谚语,它是约定俗成的,字不对的话直接纠正过来就行。

第二步是通过模型纠正中高频词,通过自创方法纠正低频词。一般某一个字错了,它的分词也是错的,这种需要结合上下文进行纠正,是比较难的。对于高频词的纠正,可以通过算法模型学习来实现。对于低频次,就非常难学好。

7.生成简报

8.热点监控

第二种是根据用户的消费情况找到热点,相对会滞后一点,比如推荐系统里面的统计热点召回。

THE END
1.深入解析大模型:从基础理论到实际应用正则化技术:为了防止大模型过拟合,需要引入正则化技术,如L1/L2正则化、Dropout等。 优化算法:大模型的训练过程需要高效的优化算法,如随机梯度下降(SGD)、Adam等。 三、大模型在自然语言处理中的应用 大模型在自然语言处理(NLP)领域有着广泛的应用,如语言模型、机器翻译和文本生成等。下面我们以Java语言示例,展示如何https://www.ctyun.cn/zhishi/p-433372
2.aigc生成式人工智能- 深度学习与神经网络:生成对抗网络(GANs)、变分自动编码器(VAEs)、Transformer架构等是实现高质量内容生成的核心算法。这些模型能够从大量数据中学习复杂的模式,并根据给定的提示或输入生成新的、独特的输出。 - 自然语言处理(NLP):通过大规模预训练模型如BERT、GPT系列,机器可以理解和生成人类语言,用于撰写文章、对话https://fuxi.163.com/database/1344
3.AI大模型:从基础到进阶的概念解析1.什么是大模型? 大模型(Large Model)是指在人工智能领域,参数规模较大、模型结构复杂的神经网络模型。大模型具有强大的拟合能力,能够在语音识别、图像识别、自然语言处理等任务中取得优异的表现。 2.大模型的发展历程 (1)深度学习的兴起:2006年,深度学习理论逐渐成熟,神经网络模型在多个领域取得突破性进展。 https://www.bilibili.com/read/cv40092739
4.AI算法模型线上部署方法总结jpmmltensorrt一、机器学习算法线上部署方法 来自:机器学习算法线上部署方法 ? 我们经常会碰到一个问题:用了复杂的GBDT或者xgboost大大提升了模型效果,可是在上线的时候又犯难了,工程师说这个模型太复杂了,我没法上线,满足不了工程的要求,你帮我转换成LR吧,直接套用一个公式就好了,速度飞速,肯定满足工程要求。这个时候你又屁颠https://blog.csdn.net/SeafyLiang/article/details/121213681
5.强化学习离线模型离线模型和在线模型在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致 离线、在线特征不一致通常是模型线上效果不好的主要原因,然而,造成离在线特征不一致的原因https://blog.51cto.com/u_14499/11815202
6.亚马逊COSMOLM新算法将取代A9算法重塑亚马逊搜索规则?3. 多样化在线服务。COSMO系统为亚马逊提供了多样化的在线服务,包括搜索相关性、基于会话的推荐等。 4. 持续的技术创新。论文介绍的COSMO系统不断利用大型语言模型和人机协同注释等训练技术手段来提升知识图谱的质量和适用性。 COSMO-LM新算法会采用用户画像和大数据搜索成交习惯,智能推荐产品给潜在的买家。对于卖家而言,https://www.cifnews.com/article/156691
7.算法服务平台算法模型服务平台是一个面向企业用户的数字化服务平台,旨在为用户提供高效、先进的算法模型。它以数据为核心,利用机器学习、深度学习等前沿技术,为用户提供行业定制化的算法模型解决方案。 应用场景 用户情感分析 使用情感分析模型,对文本进行情感分析,用于市场调研,客户服务和社交媒体监测。 https://wakedata.com/wakeAI.html
8.2023年重大网络安全政策法规盘点11月29日,北京市科学技术委员会、中关村科技园区管理委员会在AICC 2023人工智能计算大会上发布了《北京市人工智能行业大模型创新应用白皮书(2023年)》。《白皮书》从大模型全球发展态势、国内外行业应用概述、北京应用情况和发展建议等方面进行了系统分析和阐述。 https://www.eet-china.com/mp/a273064.html
9.图解机器学习模型评估方法与准则腾讯云开发者社区1.模型评估的目标 模型评估的目标是选出泛化能力强的模型完成机器学习任务。实际的机器学习任务往往需要进行大量的实验,经过反复调参、使用多种模型算法(甚至多模型融合策略)来完成自己的机器学习问题,并观察哪种模型算法在什么样的参数下能够最好地完成任务。 https://cloud.tencent.com/developer/article/1953727
10.蚂蚁金服核心技术:百亿特征实时推荐算法揭秘阿里妹导读:本文来自蚂蚁金服人工智能部认知计算组的基础算法团队,文章提出一整套创新算法与架构,通过对TensorFlow底层的弹性改造,解决了在线学习的弹性特征伸缩和稳定性问题,并以GroupLasso和特征在线频次过滤等自研算法优化了模型稀疏性,在支付宝核心推荐业务获得了uvctr的显著提升,并较大地提升了链路效率。 https://maimai.cn/article/detail?fid=1010621115&efid=mIQCHnkj0zjxlpygUmo5mg
11.干货一文读懂工业大数据的算法与模型基本知识与应用细分算法常见的应用是客户细分,购物中心根据会员的消费金额、消费频次和最近一次消费时间将会员划分为不同价值的群体。在实施细分算法之前,我们并不知道这些会员可能被分为几类,每个类别是什么,只有建立细分模型之后,才能根据划分出类别在这三个方面表现出的特点归纳出每一类具体是什么。 https://www.evget.com/doclib/s/14/10645
12.深蓝汽车发布S7i和SL03i搭载智能操作系统和智驾辅助在环境感知方面,深蓝汽车利用AI视觉识别和多模型并行概率融合的感知识别技术,实现了快速、稳定和高效的感知能力,并提升了目标测距精度和场景泛化能力,从而增强了处理复杂场景的能力。 决策精准的算法模型 在行为决策方面,深蓝汽车研发了多目标交互预测决策模型和基于场景特征耦合风险评估的主动防御式类人决策算法,结合动态占https://www.pcauto.com.cn/hj/article/2278216.html
13.朱庆华宋珊珊风险视角下生成式人工智能的司法应用路径如简易版的模型治理对策流程:(1)数据采集——生成式人工智能司法需要准确的数据作为输入,因此在数据采集方面需建立严格的数据标准和评估机制,可通过采取错位学习、多元数据来源验证等方式,以确保数据的真实性和可靠性。(2)算法建模——在开发生成式人工智能司法算法模型时,应注重正义的重塑效应。如,避免算法偏见、公正https://www.jfdaily.com/sgh/detail?id=1247369
14.关于AIGC这些算法是以手工设计为基础的功能,并且是有限的,可以生成复杂多样的图像。2014年,生成对抗网络(Generative Adversarial Networks,简称GAN)首次被提出,这是该领域的一个重要里程碑,因为它在各种应用中取得了令人瞩目的成果。变分自编码器(VAE)和其他方法(如扩散生成模型)也被开发出来,用于对图像生成过程进行更精细的https://www.aigc.cn/about
15.软考高级——信息系统项目管理师(第4版)思维导图模板建模分析。提供大数据、人工智能分析的算法模型和物理、化学等各类仿真工具,结合数字孪生、 工业智能等技术,对海量数据挖掘分析, 实现数据驱动的科学决策和智能应用。 知识复用。将工业经验知识转化为平台上的模型库、 知识库,并通过工业微服务组件方式, 方便二次开发和重复调用,加速共性能力沉淀和普及。 https://www.processon.com/view/654c455f8f11b40fe56ece43
16.李丰对话连文昭:大模型的想象与泡沫,机器人的「不可能三角」与如果当下的技术进展提早实现,Google X和Vicarious会有什么不同? 李丰:回顾你在 Google X 做Make这部分的机器人,以及之前在 Vicarious想用机器人来证明上一轮的AGI,两者都面临着各自的挑战和目标。今天回过头来看,假如当前的大模型、Transformer 算法等软硬件技术在当时已经有了,Vicarious的机器人或 Google X 的 Intrihttps://36kr.com/p/2739773975865608
17.《深度学习:数学基础算法模型与实战》(于子叶)简介书评当当网图书频道在线销售正版《深度学习:数学基础、算法模型与实战》,作者:于子叶,出版社:机械工业出版社。最新《深度学习:数学基础、算法模型与实战》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《深度学习:数学基础、算法模型与实战》,就上当http://product.dangdang.com/29559261.html
18.省大数据局关于印发贵州省数据要素登记服务管理办法(试行)的通知第二十三条 初始登记是指登记主体对通过投入劳动及其他要素,汇聚、整理、加工形成的数据资源、算法模型、算力资源以及综合形成的数据产品进行初始登记的行为。 登记主体办理初始登记前,应与其他利害关系人就登记内容达成一致。 通过初始登记,登记主体获得数据要素登记凭证和数据用益凭证。 https://dsj.guizhou.gov.cn/zwgk/xxgkml/zcwj/bmwj/202311/t20231115_83084263.html
19.轻松看懂机器学习十大常用算法西南石油大学通过本篇文章大家可以对ML的常用算法形成常识性的认识。没有代码,没有复杂的理论推导,仅是图解,介绍这些算法是什么以及如何应用(例子主要是分类问题)。以后有机会再对单个算法做深入地解析。 一、决策树 二、随机森林算法 三、逻辑回归 四、SVM 五、朴素贝叶斯 https://www.swpu.edu.cn/eelab/info/1090/2296.htm
20.基于阿里云PAI平台搭建知识库检索增强的大模型对话系统它提供的弹性扩缩容和蓝绿部署等功能,可以支撑您以较低的资源成本获取高并发且稳定的在线算法模型服务。此外,PAI-EAS还提供了资源组管理、版本控制以及资源监控等功能,方便您将模型服务应用于业务。PAI-EAS适用于实时推理、近实时异步推理等多种AI推理场景,并具备自动扩缩容和完整运维监控体系等能力。 在LLM检索增强https://developer.aliyun.com/article/1369412