摘要:算法推荐是用户在大数据时代获取信息的重要渠道,推荐质量关乎用户的体验态度。如今在用户基数庞大的新闻客户端推荐系统背后,推荐质量参差不齐、用户心理感受被忽视,该领域缺乏一个通用的用户评价指标体系。因此,本研究以用户心理体验为导向,在文献回顾和深度访谈的基础上,编制出适用于新闻客户端推荐系统评价的初始量表,通过预调查和正式调查,并采用探索性因素分析、验证性因素分析等统计方法对调查结果进行检验分析,最终获取由“内容评价”、“系统评价”、“算法评价”、“交互评价”和“风险与控制评价”等五个一阶指标构成的新闻客户端推荐系统用户评价量表。研究进一步对新闻客户端用户的推荐系统体验态度以及有关影响因素进行了探索,最后从实践角度对新闻客户端推荐系统的优化方向提出建议。
关键词:新闻客户端推荐系统;评价指标;量表修订;用户心理体验
一、前言
二、文献综述
(一)关于个性化推荐技术层面的研究
个性化推荐是从20世纪90年代被作为一个独立的概念所提出。个性化推荐将用户的使用行为记录、保存为数据,通过信息过滤技术向目标用户推荐其感兴趣的信息,为用户提供个性化推荐服务。
一个完整的推荐系统由3部分组成:收集用户信息的行为记录模块、分析用户喜好的模型分析模块和推荐算法模块,其中,推荐算法模块是推荐系统中最为核心的部分。当前对个性化新闻推荐技术的分类主要有:基于内容推荐、协同过滤推荐和混合推荐。
个性化推荐系统最先应用于电子商务领域,目前,个性化推荐系统已经广泛运用于众多领域:如音乐、视频客户端等。学术界同样从不同角度对于个性化推荐系统有诸多研究,但是有关移动新闻客户端个性化推荐系统的研究较少。
(二)关于“个性化推荐系统评价指标”的研究
先前有关推荐系统评价的研究大多注重于评价算法预测打分的准确度。
Jones&Pu(2007)[2]通过用户调查发现简单的界面设计,推荐项目的准确性、新颖性和愉悦性是网站之所以受欢迎的一些关键设计特征。
周涛(2008)[3]提出利用推荐列表的流行性和多样性对个性化推荐系统进行评价。个性化推荐系统对不同用户推荐的产品需要表现出相当的多样性。
SwearingenK,SinhaR(2008)[4]介绍两种新的指标度量推荐系统:新鲜性和意外性。推荐用户感到意外的产品会帮助用户发现一些他还没有发现的可能感兴趣的产品。
Pu&Chen(2010)[5]开发了一个名为ResQue的模型(推荐系统的用户体验质量)用于评估推荐系统的感知质量,例如其可用性,实用性,界面和交互质量,用户对系统的满意度以及这些质量对用户的影响。
GuyShani,AselaGunawardana(2011)[6]提出推荐系统具有可能影响用户体验的各种属性,例如准确性,稳健性,可伸缩性等。
朱郁筱和吕琳媛(2012)[7]总结了电商网站推荐系统评价指标的最新研究进展,从准确度,多样性,覆盖率和新颖性等方面深入分析了各自优缺点和适用环境。
ImanAvazpour,TeeratPitakrat,LarsGrunske,JohnGrundy(2014)[8]回顾一系列评估指标和用于评估推荐系统的一些方法。将评价指标分为16个不同的维度,例如正确性,新颖性,覆盖率、稳定性和扩展性等。
JoeranBeel,StefanLanger(2014)[9]提出用户研究通常通过衡量用户满意度来对系统进行评价,用户对推荐系统的各个方面进行评级,例如,推荐的新颖性或权威性如何,或者对于非专家来说它们的适用程度如何。
LeiLi,BalajiPadmanabhan(2011)[10]认为有关新闻的个性化推荐系统评价应该要考虑到新闻特殊属性,例如短保质期和即时价值,提出了一种具有两级表示的可扩展的两阶段个性化新闻推荐方法,其在执行推荐时考虑新闻项的独有特征(例如,新闻内容,访问模式,命名实体,流行度和新近度)。
曾秀芹、曾洁和黄晨阳(2016)[11]针对电子商务的个性化推荐系统提出了内容评价、感知易用性、感知有用性、页面设计、互动评价、社会临场感、信心满意度、影响速度、风险及隐私管理11个因子。
MichaelA.Beam(2016)[12]调查了个性化新闻推荐系统设计对选择性曝光、阐述知识的影响。担心个性化技术的扩散会使人们从具有挑战性的角度出发,从而降低公众舆论。
NataliHelberger,KariKarppinen&LuciaD’Acun(2016)[13]认为搜索引擎,社交媒体以及传统媒体中的个性化建议越来越引起人们对多样性和公共话语质量的潜在负面影响的担忧。
三、研究结果
(一)新闻客户端个性化推荐系统评价指标量表内容与维度的探索
1.研究方法
研究采用文献研究和定性研究相结合的方法,收集各评价指标,编制新闻客户端个性化推荐系统评价指标的初始量表。
(1)文献法
(2)深度访谈
通过深度访谈,探究文献综述获得的指标是否适用于新闻客户端的个性化推荐系统,以及发现新的评价指标。选取10个人进行访谈,访谈对象涉及专家、普通用户。访谈问题围绕“受众从哪些方面对新闻客户端个性化推荐系统进行评价”、“受众对移动新闻客户端个性化推荐系统的认识”,不断丰富五个一级指标。在此基础上,寻找积极有效的效标,最终从“期待—确定”理论中找到效标。建构出适用于移动新闻客户端个性化推荐系统评价指标的框架体系,并将其应用于移动新闻客户端推荐系统的评估。
(3)数据分析
2.研究结果
研究结果表明对于新闻客户端个性化推荐系统而言,通过文献获取的评价指标基本适用,并且基于新闻客户端个性化推荐系统自身的独特性,本研究还补充了新的评价指标。最终确定了“内容评价”、“系统评价”、“算法评价”、“交互评价”、“风险与控制评价”五个一级指标,建构出适用于移动新闻客户端个性化推荐系统评价指标的框架体系如下表1。
表1新闻客户端个性化推荐系统评价指标列表
(二)新闻客户端个性化推荐系统评价指标量表信效度检验
1.研究目的
通过预调查,收集100个有效样本对评价指标的初始量表进行项目分析,并进行信效度的检验,进一步修订量表。
2.研究方法
预调查通过方便抽样的方法进行问卷调查,一共回收145份问卷,剔除没有使用过移动新闻客户端以及回答不完整的受访者,最后得到有效问卷107份。
调查问卷主要为上一步研究中形成的新闻客户端个性化推荐系统评价指标量表、使用意愿量表、媒介使用行为和人口统计学问题。所有量表都采用李克特5点量表,按受众的感知强烈程度,分为完全不同意、不同意、不能确定、同意、非常同意,分别对应1-5分值,分值越小,表示越不同意,分值越大表示同意程度越高。
3.研究结果
为了检验初始量表的信效度,研究利用Cronbach’sα系数判断量表整体可靠性,预调研数据分析的结果显示,整体量表的克隆巴赫Alpha系数为0.809,大于0.7,表明量表的信度水平较高。,进一步考察各个分量表的Cronbach’sα系数以及单项-总量修正系数(CITC系数),最终,Cronbach’sα系数为0.805,各个分量表的信度均大于0.7,符合分量表信度要求。
采用主成分分析法提取因子,以特征值大于1为提取标准,对量表中各个变量进行探索性因子分析,共析出五个因子,且共同度全部大于0.5,旋转后的根特值分别为6.254、4.845、3.194、2.322和2.306,解释总体方差的69.25%,所有题项的共同度均大于0.5,且因子载荷均大于0.4。但存在一些跨载荷题项,因此进行多次因子分析,除了因表意不清导致跨载荷的题项予以保留外,其他不符合要求的题项被逐项删除。最后的评价指标确定为五个,分别是“新闻价值”、“新闻广度”、“技术评价”、“交互评价”和“风险与控制评价”。
表2新闻客户端个性化推荐系统评价指标因子分析结果
(三)新闻客户端个性化推荐系统评价指标分析
对于预研究修订过的正式量表再进行信效度的检验,将这个评价体系应用于新闻客户端个性化推荐系统的评估,并探索是什么因素将影响推荐系统评价得分的高低。
本研究采取问卷调查的方法,采用配额抽样的方法,根据人口统计学数据分布,在性别、年级、所在地域等变量进行配额抽样。运用线上线下相结合的调查方法,共回收476份问卷。问卷回收后,通过对问卷进行有效性筛选,剔除了无效问卷,剩余有效问卷417份。
(1)调查对象人口分布特征
417个受访者中,男、女大约占比为45%、55%,样本性别比例较为均衡。受访者在年龄分布上主要以18-45岁的用户为主,占比45.8%,这部分群体无论是在手机的使用还是移动新闻客户端的使用上都是主要群体,因此可以作为移动新闻客户端个性化推荐系统的主要评价群体。55岁以上样本占比1.0%,这部分人群对媒介接触行为相比较其他群体少。
受访者的学历分布主要在本科及以上,占比比例为93.3%,总体来看受教育程度较高,因此相应的媒介素养也相对较高,对移动新闻客户端个性化推荐系统的认知比较全面,而且拥有自己的信息需求,有相应的能力成为评价主体。
在行业分布方面,样本多数来自学校和媒体行业,包括学生、教师和媒体从业者。一方面是因为滚雪球的抽样方式,另一方面是在校人员和媒体从业者更具新闻阅读的主动性。
(2)用户使用行为特征
样本中每次使用新闻客户端时长在15分钟以下的受访者最多,比例为43.6%;使用时长在15-30分钟的人较多,占比为40.0%;使用时长超过60分钟的人最少,占比5.5%。不同性别样本对于每次使用新闻客户端的时长呈现出显著性(P<0.05)。
不同年龄样本对于每次使用新闻客户端的时长呈现出显著性(P<0.05),通过百分比对比差异可知,18-25岁样本选择15分钟以下的比例58.64%,会明显高于平均水平43.65%。46-55岁选择15-30分钟的比例50.94%,会明显高于平均水平40.05%。55岁以上选择30-60分钟的比例50.00%,会明显高于平均水平10.79%。
总结可知不同性别、年龄、文化程度与职业的样本在新闻客户端每次使用时长上存在显著差异。不同性别、年龄、职业的样本在新闻客户端的使用频率上存在显著差异。
四、模型预测
以新闻价值、新闻广度、技术设计、交互性和风险与控制作为自变量,未来使用意愿为因变量,建立用户未来使用意向的预测模型,如下图1.4所示:
(一)研究结果:
以新闻价值、新闻广度、技术设计、交互性和风险与控制作为自变量,以未来使用意愿为因变量,以逐步回归方法进行多元线性回归分析,并以显著性水平小于等于0.05为变量进入标准,以显著性水平大于0.1为剔除标准。逐步回归过程剔除了风险与控制,保留了新闻价值、新闻广度、技术设计和交互性。
从下表可以看出,模型R平方值为0.648,意味着新闻价值,新闻广度,技术评价,互动性可以解释满意度的64.8%变化原因。对模型进行F检验时发现模型通过F检验(F=189.320,P<0.05),也即说明新闻价值,新闻广度,技术评价,互动性中至少一项会对满意度产生影响关系,模型公式为:未来使用意愿=-0.005+0.454*新闻价值+0.147*新闻广度+0.399*技术评价+0.084*互动性。
最终总结分析可知:新闻价值,新闻广度,技术评价,互动性全部均会对未来使用意愿产生显著的正向影响关系。模型公式为:未来使用意愿=-0.005+0.454*新闻价值+0.147*新闻广度+0.399*技术评价+0.084*互动性。
五、结论与讨论
本研究的不足之处在于抽样过程不够严谨,部分问卷是通过线上发放得来,虽然在数据分析前的数据处理环节有对这部分样本进行剔除,但总体来说可能会影响到本次研究的人口统计学等方面的结果。因此,笔者会在下一步的研究中尽可能的弥补这方面的不足。未来的研究方向可能会进一步扩大样本量,同时严格控制样本的获取并针对个性化推荐系统及其带来的潜在风险作更深一步的研究。
参考文献:
[1]PResnick,HRVarian.SpecialIssueonRecommenderSystems.AiCommunications,1997,21(2-3):95-96.
[2]S.S.Anand,S.S.Anand.PersonalizationontheNetUsingWebMining:Introduction.CommAcm,2000,43(8):122-125.
[3]刘建国,周涛,郭强等.个性化推荐系统评价方法综述.复杂系统与复杂性科学,2009,6(3):1-10.
[4]JBobadilla,FOrtega,AHernando.RecommenderSystemsSurvey.Knowledge-BasedSystems,2013,46(1):109-132.
[5]UShardanand,PMaes.SocialInformationFiltering:AlgorithmsforAutomating“WordofMouth”.SigchiConferenceonHumanFactorsinComputingSystems.ACMPress/Addison-WesleyPublishingCo.1995:210-217.
[6]ALUitdenbogerd,RGVSchyndel.AReviewofFactorsAffectingMusicRecommenderSuccess.TheProceedingsof3rdInternationalConferenceonMusicInformationRetrieval,October,2002.
[7]谭学清,何珊.音乐个性化推荐系统研究综述.数据分析与知识发现,2014,30(9):22-32.
[8]MSunitha,TALakshmi.SessionAwareMusicRecommendationSystemwithMatrixFactorizationTechnique-SVD.ManagementScience,2015,30(4):174-181.
[9]SMMcnee,JRiedl,JAKonstan.BeingaccurateisnotEnough:HowAccuracyMetricshaveHurtRecommenderSystems.ExtendedAbstractsProceedingsofthe2006ConferenceonHumanFactorsinComputingSystems,April.2006:1097-1101.
[10]GShani,AGunawardana.EvaluatingRecommendationSystems.RecommenderSystemsHandbook,2011:257-297.
[11]IAvazpour,TPitakrat,LGrunske,etal.DimensionsandMetricsforEvaluatingRecommendationSystems.RecommendationSystemsinSoftwareEngineering.SpringerBerlinHeidelberg,2014:245-273.
[13]PPu,LChen,RHu.AUser-CentricEvaluationFrameworkforRecommenderSystems.ACMConferenceonRecommenderSystems,2011:157-164.
[14]BPKnijnenburg,MCWillemsen,ZGantner,etal.ExplainingtheUserExperienceofRecommenderSystems.UserModelingandUser-AdaptedInteraction,2012,22(4-5):441-504.
[15]YCZhang,DQuercia,TJambor.Auralist:IntroducingSerendipityintoMusicRecommendation.ACM,2012:13-22.
[16]PPu,LChen,PKumar.EvaluatingProductSearchandRecommenderSystemsforE-commerceEnvironments.ElectronicCommerceResearch,2008,8(1-2):1-27.
[17]KSwearingen,RSinha.InteractionDesignforRecommenderSystems.DesigningInteractiveSystemsACM,2002.
[18]PPu,MZhou,SCastagnos.CritiquingRecommendersforPublicTasteProducts.ACMConferenceonRecommenderSystems.ACM,2009:249-252.
[19]NJones,PPu.UserAcceptanceIssuesinMusicRecommenderSystems.EPFLTechnicalReportHCI-REPORT,2009,Epfl.
[20]DKotkov,SWang,JVeijalainen.ASurveyofSerendipityinRecommenderSystems.Knowledge-BasedSystems,2016,111:180-192.
[21]WHDelone,ERMclean.TheDeLoneandMcLeanModelofInformationSystemsSuccess:ATen-YearUpdate.M.E.Sharpe,Inc.2003.
[22]JKirakowski,MCorbett.SUMI:theSoftwareUsabilityMeasurementInventory.BritishJournalofEducationalTechnology,1993,24(3):210-212.
[23]SYXKomiak,IBenbasat.TheEffectsofPersonalizationandFamiliarityonTrustandAdoptionofRecommendationAgents.MisQuarterly,2006,30(4):941-960.
[24]DSKempf,RESmith.ConsumerProcessingofProductTrialandtheInfluenceofPriorAdvertising:AStructuralModelingApproach.JournalofMarketingResearch,1998,35(3):325-338.
[25]LChen,PPu.Interactiondesignguidelinesoncritiquing-basedrecommendersystems.UserModelingandUser-AdaptedInteraction,2009,19(3):167.
[26]NTintarev,JMasthoff.ASurveyofExplanationsinRecommenderSystems.IEEE,InternationalConferenceonDataEngineeringWorkshop.IEEE,2007:801-810.
[27]刘蓓琳.基于用户满意度的电子商务个性化推荐评价研究.中国物流与采购,2012(14):68-69.
[28]江娟,吴琼鳞,马春梅等.网络消费者满意的构成要素及其作用效果研究,2014,(17):87-95.
[29]黄鼎隆,饶培伦,韩盈秋.网络购物环境中信息安全因素对用户行为的影响.人类工效学,2008,14(1):22-24.
[30]吴艳,温忠麟.结构方程建模中的题目打包策略.心理科学进展,2011,19(12):1859-1867.
[31]吴明隆.结构方程模型:AMOS的操作与应用.重庆大学出版社,2009.