算法究竟是什么?我们为什么需要算法?
算法是否能服务人在获取信息时对效率提升、公平发展的诉求?
今年,在中国人民大学高瓴人工智能学院举办的“推荐算法社会价值与可持续发展”研讨会上,我们发布了《算法向善与个性化推荐发展研究报告》(下称《报告》)。
在这份算法科普性报告中,课题组围绕这些热点问题进行了探讨。
1、算法是什么?我们为何需要算法?
互联网数据中心发布的《数据时代2025》报告显示,全球每年产生的数据将从2018年的33ZB(十万亿亿字节)增长到175ZB,相当于每天产生491EB(百亿亿字节)的数据。
图1:用数学公式解决“鸡兔同笼”问题体现了算法思维
2、推荐技术发展历史上的关键事件有哪些?
“信息过载(InformationOverload)”是在上个世纪80、90年代就已经存在的概念。随着信息技术和互联网的快速发展,人类从信息匮乏时代走向了信息过载时代。
《报告》研究指出,早期的研究提出了通过信息检索和过滤的方式来解决这个问题。
到了上世纪90年代中期,研究者开始通过预测用户对推荐的物品、内容或服务的评分,试图解决信息过载问题。推荐系统由此也作为独立研究领域出现了。
图3:推荐系统发展历史
3、推荐系统有哪几个类型?
在《报告》看来,推荐系统发展至今,其核心技术可大致分为“基于协同过滤的推荐方法”、“基于内容的推荐方法”,以及“混合推荐方法”。
基于协同过滤的推荐方法,本质是根据相似的用户具有相似的喜好,推荐给他们喜欢的物品、内容或者服务。
图4:基于协同过滤的推荐方法
图5:基于内容的推荐方法
混合推荐方法:衡量各推荐方法的利弊,扬长避短,通过加权、切换、混杂、特征组合等方式避免或弥补各推荐技术弱点,进一步提升推荐方法性能。
图6:融合知识图谱的混合推荐方法
4、什么是个性化推荐算法?
纵观推荐系统的发展历史,可将其大致分为非个性化推荐系统和个性化推荐系统。
其中,个性化推荐系统,就是为每一个特定用户提供特定的服务,实现“千人千面”,服务个性化诉求。
图7:在个性化推荐算法下,不同人搜索“京剧”一词结果不同
5、推荐算法,会导致信息窄化吗?
在外界的印象里,个性化推荐就像漏斗一样,会将推荐内容与用户相匹配,倾向于向用户推荐高度符合其偏好的内容,致使推荐的内容越来越窄化。
但与外界的固有认知相反,《报告》认为在行业实践中,互联网应用(特别是位于头部的大型平台)有追求算法多样性的内在动力。
推荐技术并不是单纯地“投其所好”。在一些专家看来,在推荐已知的用户感兴趣内容基础上,如果能深入激发、满足用户的潜在需求,那么算法就能更好地满足人对信息的多维度诉求。
6、算法如何服务人对安全的诉求?
《报告》观察发现,当前很多内容创作与分发平台,从创立之初就将用户和内容安全视为最高优先级问题。
以今日头条为例,在内容安全技术方面采用了鉴黄模型、谩骂模型以及低俗模型等内容识别技术。抖音安全中心则自主研发反欺诈模型、风控策略,结合抖音产品功能、内容属性、用户行为特征,对欺诈行为进行主动拦截。
图9:抖音安全中心通过算法技术主动拦截欺诈行为
7、推荐技术如何服务人对公平的诉求?
《报告》认为,推荐系统中的“公平”是站在不同角度定义问题。
比如在招聘网站上,求职者方可能将公平定义为“相同的学历和能力可以被推荐类似的工作,而不受国籍、种族和性别等偏见”;对于招聘方,“公平”可能为“系统可以将他们的招聘信息推给优质的求职者,而不会因为公司的背景等因素,只将招聘信息推给不太合适的求职者”。
当前,学界对算法公平性的研究与探讨正不断深入。
图10:在抖音等国内短视频直播平台上,也能看到更多推荐系统服务“用户”、“物品”公平的案例