基于Hadoop平台的个性化新闻推荐系统的设计AET

(广西科技大学鹿山学院电气与计算机工程系,广西柳州545616)

关键词:Hadoop;MapReduce;聚类;个性化;Mahout

中图分类号:TP301.6文献标识码:ADOI:10.19358/j.issn.16747720.2016.23.006

引用格式:韦灵,黎伟强.基于Hadoop平台的个性化新闻推荐系统的设计[J].微型机与应用,2016,35(23):21-23,27.

0引言

1协同过滤算法介绍

个性化推荐主要分为协同过滤推荐、基于内容推荐、混合推荐。个性化推荐本质上是把用户与物品进行联系,使得用户能够发现自己所喜爱的物品,使得物品能够被所喜欢的用户所了解[7]。关于协同过滤的一个最典型的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在询问时,都习惯于问与自己爱好相似的朋友,这就是协同过滤的核心思想。协同过滤推荐与传统的基于内容过滤推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成对该指定用户对此信息的喜好程度预测。协同过滤主要分为基于用户的协同过滤和基于物品的协同过滤。

1.1基于用户的协同过滤算法

俗话说“物以类聚、人以群分”,拿看电影这个例子来说,如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影,另外有个人也喜欢这类电影,而且他还喜欢《钢铁侠》,则很有可能你也喜欢《钢铁侠》这部电影。所以说,当一个用户A需要个性化推荐时,可以先找到与他兴趣相似的用户群体G,然后把G喜欢的、并且A没有听说过的物品推荐给A,这就是基于用户的协同过滤算法。

1.2基于物品的协同过滤算法

基于物品的协同过滤算法(ItemCF)是业界应用最多的算法,主要思想是利用用户之前有过的行为,给用户推荐和之前物品类似的物品。依然以电影为例,如果喜欢《蝙蝠侠》的用户有A、B、C和D,喜欢《碟中谍》的用户有A、C、D。那么可以认为《蝙蝠侠》和《碟中谍》拥有相似的用户群体,则很可能B用户也会喜欢《碟中谍》这部电影,于是推荐《碟中谍》给B用户。这就是基于物品的协同过滤算法。

2协同过滤算法用户的模型构建

协同过滤算法所需要的数据结构是用户id+新闻id+评分,为了将数据库中的数据形成这样的数据结构,通过查询新闻表的用户表来确定所查询的用户是否在其中,然后得到该用户浏览过的所有新闻id,最后对该新闻的喜爱程度进行预测。根据式(1)计算出Preference喜好值,其中Preference为预测的结果,ct为新闻聚类结果簇的个数,cn为当前新闻所在簇的新闻个数,unt为当前用户浏览过的新闻总数,nct为该新闻的浏览数。

3协同过滤算法物品的模型构建

其算法流程图如图2所示。

4个性化新闻推荐系统实现

基于Hadoop平台聚类算法的个性化新闻推荐系统,其目的是为让广大网民在浏览新闻时,为其提供一个个性化的新闻推荐系统。大量的信息使得用户找到自己需要的信息变得很困难。为了使互联网用户快捷地查找所需信息,个性化推荐系统的优势得到了体现,本文利用Hadoop的MapReduce模型实现并行快速地聚类海量新闻数据,大大提高了数据处理的速度,聚类使得新闻之间的相似度得以体现,再利用不同的协同过滤算法实现个性化的新闻推荐。系统使用了JSP、Servlet技术及Mahout开源项目编写程序,首先利用Java将新闻数据按约定格式处理并将其传到Hadoop的HDFS上,在安装好Hadoop的Linux端定时调用shell脚本聚类处理新闻,然后使用MySQL数据库存储数据,实现对新闻数据的协同过滤推荐处理。新闻推荐系统主要功能包括前台与后台的设计,图3所示为系统整体功能结构图,前台主要负责展示推荐的新闻信息结果和供用户浏览新闻;后台处理新闻数据,并将处理好的数据插入数据库供前台使用。

图4为新闻推荐流程图。选择基于用户的协同过滤推荐,系统将自动启动基于用户的协同过滤算法引擎进行数据的计算并将数据推送到页面中。同理基于物品的协同过滤算法相同。这个过程中查询所有人的浏览记录是通过多次的数据库查询得到的。

基于用户的协同过滤推荐系统效果如图5所示。

(2)当用户进行基于物品的协同过滤推荐操作时,将触发baseOnItemSert类,该类将查询出系统中的所有用户,并过滤掉admin这个测试用户,将所有的用户进行基于物品的协同过滤算法推荐,所有推荐结果存储在一个专门设计的newsModeBean类中,其他的操作基本与基于用户的协同过滤推荐一样。基于物品的协同过滤算法,提交数据的格式与基于用户的协同过滤算法一样。首先提取出所有的新闻,计算并建立新闻的共轭矩阵。然后使用用户向量点乘共轭矩阵可以得到推荐分数。

基于物品的协同过滤推荐系统如图6所示。

5结论

参考文献

[1]JIANGS,HONGWX.Averticalnewsrecommendationsystem:CCNS—anexamplefromChinesecampusnewsreadingsystem[C].ICCSE2014:Proceedingsofthe20149thInternationalConferenceonComputerScience&Education.Piscataway,NJ:IEEE,2014:1105-1114.

[2]杨武,唐瑞,卢玲.基于内容的推荐与协同过滤融合的新闻推荐方法[J].计算机应用,2016,36(2):414-418.

[3]刘金亮.基于主题模型的个性化新闻推荐系统的研究与实现[D].北京:北京邮电大学,2013.

[5]文鹏,蔡瑞,吴黎兵.一种基于潜在类别模型的新闻推荐方法[J].情报杂志,2014,33(1):161-166.

[6]项亮.推荐系统实践[M].北京:人民邮电出版社,2012.

[7]曹一鸣.基于协同过滤的个性化新闻推荐系统的研究与实现[D].北京:北京邮电大学,2013.

THE END
1.推荐系统基本流程推荐算法流程图本文详细介绍了推荐系统的基本流程,涉及物品、用户、场景、搜索模型及排序算法。涵盖了召回模块、排序模块和后排模块的运作,以及常用的召回和排序模型。重点讲解了如何通过用户行为和特征计算个性化推荐,适合深入理解推荐系统技术的读者。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/qq_56422229/article/details/124846254
2.推荐系统最新架构推荐系统功能流程图推荐系统最新架构 推荐系统功能流程图 推荐系统主要解决的是信息过载的问题,目标是从海量物品筛选出不同用户各自喜欢的物品,从而为每个用户提供个性化的推荐。推荐系统往往架设在大规模的业务系统之上,面临着用户的不断增长,物品的不断变化,并且有着全面的推荐评价指标和严格的性能要求(Netflix 的请求时间在 250 ms https://blog.51cto.com/u_16099304/8328916
3.设计算法.输入正整数n.计算它的阶乘n!.画出流程图.用for语句描述解:算法流程图如答图所示: 用for语句描述算法如下: 输入n; T:=1; for i:=1 to n do begin T:=T*i; end. 输出T. 练习册系列答案 创新教程系列答案 互动中考复习大讲义系列答案 中考阶段总复习ABC系列答案 达优测试卷系列答案 剑指中考系列答案 http://www.1010jiajiao.com/gzsx/shiti_id_77d21cec7625a12d71db452d984156ef
4.基于协同过滤推荐算法的购物网站的设计与实现(14页)1算法流程图系统算法流程图设计如图5.14所示。 3.2算法实现此功能模块是体现在评价成功后的页面上的,当用户购买成功并评价成功的时候, 系统会将所评论的商品以及评分与其他评分进行比较和分析,然后将算法算出的结果推 测为用户可能会喜欢的商品并推荐给用户,将推荐的商品显示在猜你喜欢的模块上。所 以该功能实现的https://max.book118.com/html/2020/0413/8100115027002106.shtm
5.用了很久的YouTubeApp之后,我写下了这份产品体验报告App信息结构图 3.3 基础流程 基础流程图 4、交互体验 4.1 UI界面 页面切换 YouTube App内的页面间切换方式为点击切换,不支持左右滑动切换。 导航设计 YouTube App主界面导航采用底部固定式选项卡菜单,共5个:首页、时下流行、订阅内容、收件箱、媒体库。 https://www.digitaling.com/articles/241247.html
6.工业界推荐系统排序技术要点总结,专注大模型、学术论文、算法实战、面经分享 工业界的推荐系统技术要点总结,从事推荐系统相关方向的同学都建议刷一刷。喜欢记得收藏、关注、点赞。文末提供搜广推技术交流群。 另外,随着大模型与搜广推各场景的融合越来越多,相关技术也是面试常考点,为此写了两本书进行总结,喜欢可以看看。 https://zhuanlan.zhihu.com/p/689894486
7.流程图制作软件哪个好?流程图制作软件推荐流程图绘制软件大全包含了业务流程图,程序流程图,工作流程图,数据流程图,生产工艺流程图,word流程图,采购流程图,信用证流程图,算法流程图,招聘流程图,化工工艺流程图,带控制点的工艺流程图,销售业务流程图,审批流程图,合成氨工艺流程图,酒店管理系统流程图,http://www.downcc.com/k/liuchengtuzhizuo/
8.RGSM3hmac/README.mdatmaster·rg4sun/RGHMAC 算法流程图 HMAC 算法描述 在HMAC 的定义中用到一个密码散列函数和一个密钥 Key。本作品使用的 SM3 作 为对明文进行分组循环压缩的散列函数,明文分组长度为 64(byte),散列函 数的输出长度为 32(byte)。认证密钥 K 为随机生成。 再定义两个不同的固定字符串 iPad 和 oPad 如下(“i”和“o”表示内部https://github.com/RGNil/RG_SM3hmac/blob/master/README.md
9.机器学习推荐算法原理入门及算法介绍消费金融风控联盟比如,年纪大的人,我推荐猕猴桃,维生素丰富还能降血糖。小姑娘呢,可以推荐她们柠檬,美白又减肥。 协同过滤这个算法,目的就是找相似。其中:找相似,可以是找相似的人,也可以找相似的东西。 协同过滤(collaborative filtering)是通过将用户和其他用户的数据进行对比来实现推荐的算法。协同过滤流程图如下: https://www.shangyexinzhi.com/article/7331518.html
10.结合信任关系的用户聚类协同过滤推荐算法图1算法整体流程图 最终通过预评分公式预测出目标用户a对项目的评分值, 选取评分值最高的前N个项目作为推荐结果. 算法1. 用户聚类迭代算法 输入: 用户集合U, 评分矩阵Rm×n 输出: 调整后的用户聚类 (1)首先用K-mean聚类算法对初始的用户集合进行聚类, 得到初始用户聚类$\scriptstyle UC = \left\{ {U{C_https://c-s-a.org.cn/html/2020/8/7561.html
11.PageRank算法实现好友推荐(算法原理)PageRank算法流程图 抽象模型 有向图 使用有向图表示: 有向图示例 这个例子中只有四个网页,如果当前在A网页,那么悠闲的上网者将会各以1/3的概率跳转到B、C、D,这里的3表示A有3条出链,如果一个网页有k条出链,那么跳转任意一个出链上的概率是1/k,同理D到B、C的概率各为1/2,而B到C的概率为0。 https://www.jianshu.com/p/cbb04e7384ee
12.你真的清楚流程图规范吗?流程图作为一种表达算法和思路最好的方法,一直在我们的生活中扮演着重要的角色。但是很多人画流程图都是大概一画,并没有按照流程图规范来画。难道流程图没有一个统一的规范吗?流程图当然有规范的画法,下面我来为大家介绍一些流程图规范。 既然说起流程图规范,那不得不提的就是流程图的三大结构。在说三大结构之前https://modao.cc/flowchart/flow-chart-specifications-you-should-know.html
13.流程图怎么做?分享流程图制作的基础知识流程图可以细分为工艺流程图、工作流程图、算法流程图、程序流程图和系统流程图等多种分类,但我们其实可以将这些分类的流程图归纳为逻辑流程图和基本流程图两大类型。 1.逻辑流程图:逻辑流程图用来表示流程内的核心运行过程,用来指导编写程序逻辑,并检查程序算法的正确性,便于帮助他人理解程序的逻辑思路https://m.liuchengtu.com/tutorial/lctzmz.html
14.用流程图描述算法中表示“条件判断”的图形符号是()。A.B.C用流程图描述算法中表示“条件判断”的图形符号是( )。 A. B. C. D. 相关知识点: 试题来源: 解析 答案:A 结果一 题目 用流程图描述算法中表示“条件判断”的图形符号是( )。 答案 答案:A相关推荐 1用流程图描述算法中表示“条件判断”的图形符号是( )。https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1709863306399674600&fr=search