电子商务网站用户行为分析及服务推荐熊能能

本章通过对用户访问的网页日志数据进行分析与处理,采用基于物品的协同过滤算法对处理后的数据进行建模分析,并应用模型实现智能推荐,进行个性化推荐,帮助用户更加便捷地获取信息。

二、分析方法与过程

(一)分析步骤与流程

为了帮助用户从海量的信息中快速发现感兴趣的网页,本案例主要采用协同过滤算法进行推荐,其推荐原理如图所示。

本案例采用基于用户浏览网页的类型的方法进行分类,然后对每个类型中的内容进行智能推荐。采用上述分析方法与思路,结合原始数据及分析目标,整理的网站智能推荐流程如下图所示,主要步骤如下:

1)从系统中获取用户访问网站的原始记录。

2)分析用户访问内容、用户流失等。

3)对数据进行预处理,包含数据去重、数据变换等过程。

4)以用户访问html后缀的网页为关键条件,对数据进行处理。

5)对比多种推荐算法的效果,选择效果较好的模型。通过模型预测,获得推荐结果。

(二)数据抽取

首先在MySQL中创建test数据库,然后把表数据导入数据库,最后连接数据库并选取3个月内用户的访问数据,如以下代码所示。

1importos2importpandasaspd345#修改工作路径到指定文件夹6os.chdir("E:/大三下/数据分析/数据/第十一章")78#第一种连接方式9#fromsqlalchemyimportcreate_engine1011#engine=create_engine('mysql+pymysql://root:123@192.168.31.140:3306/test1charset=utf8')12#sql=pd.read_sql('all_gzdata',engine,chunksize=10000)1314#第二种连接方式15importpymysqlaspm1617con=pm.connect(host='localhost',user='root',password='123456',database='test1',charset='utf8')18data=pd.read_sql('select*fromall_gzdata',con=con)19con.close()#关闭连接2021#保存读取的数据22data.to_csv('E:/大三下/数据分析/数据/第十一章/all_gzdata.csv',index=False,encoding='utf-8')(三)数据探索分析

1、分析网页类型

对原始数据中用户点击的网页类型进行统计分析,如以下代码所示。

通过输出结果可以发现,浏览咨询内容页(101003)记录最多,其次是咨询列表页(101002)和咨询首页(101001)。初步分析可以得知用户都喜欢通过浏览问题的方式找到自己需要的信息,而不是以提问的方式或者查看长篇内容的方式寻找信息。

首先是网址中带有lawfirm关键字的对应律师事务所,其次是带有ask/exp、ask/online关键字的对应咨询经验和在线咨询页。大多数用户浏览网页的情况为咨询内容页、知识内容页、法规专题页、在线咨询页等,其中咨询内容页和知识内容页占比最高。对原始数据的网址中带“”的数据进行统计,如以下代码所示。

通过输出结果可以看出,网址中带有“”的记录一共有65492条,且不仅仅出现在其他类别中,同时也会出现在咨询内容页和知识内容页中,但在其他类型(1999001)中占比最高,可达到98.82%。因此需要进一步分析其类型内部的规律,如以下代码所示。

访问记录中有一部分用户并没有点击具体的网页,这类网页以“.html”后缀结尾,且大部分是目录网页,这样的用户可以称为“瞎逛”,漫无目的,总共有165654条记录,统计过程如以下代码所示。

综合以上分析,得到一些与分析目标无关数据的规则,记录这些规则有利于在数据清洗阶段对数据进行清洗操作。

2、分析网页点击次数

统计原始数据中用户浏览网页次数的情况,如以下代码所示。

根据统计结果可知,浏览一次的用户最多,占所有用户的58%左右。

分析浏览次数为一次的用户的行为,如以下代码。

1、删除不符合规则的网页

2、还原翻页网址

1#找出翻页和非翻页网址2index=[re.search('/\d+_\d+\.html',i)!=Noneforiininfo1.loc[:,'fullURL']]3index1=[i==Falseforiinindex]4info1_1=info1.loc[index,:]#带翻页网址5info1_2=info1.loc[index1,:]#无翻页网址6#将翻页网址还原7da=[re.sub('_\d+\.html','.html',str(i))foriininfo1_1.loc[:,'fullURL']]8info1_1.loc[:,'fullURL']=da9#翻页与非翻页网址合并10frames=[info1_1,info1_2]11info2=pd.concat(frames)12#或者13info2=pd.concat([info1_1,info1_2],axis=0)#默认为0,即行合并14#去重(realIP和fullURL两列相同)15info3=info2.drop_duplicates()16#将IP转换成字符型数据17info3.iloc[:,0]=[str(index)forindexininfo3.iloc[:,0]]18info3.iloc[:,1]=[str(index)forindexininfo3.iloc[:,1]]19len(info3)3、筛去浏览次数不满两次的用户

根据数据探索的结果可知,数据中存在大量仅浏览一次就跳出的用户,浏览次数在两次及以上的用户的浏览记录更适于推荐,而浏览次数仅一次的用户的浏览记录进入推荐模型会影响推荐模型的效果,因此需要筛去浏览次数不满两次的用户,如以下代码所示。

1#筛选满足一定浏览次数的IP2IP_count=info3['realIP'].value_counts()3#找出IP集合4IP=list(IP_count.index)5count=list(IP_count.values)6#统计每个IP的浏览次数,并存放进IP_count数据框中,第一列为IP,第二列为浏览次数7IP_count=pd.DataFrame({'IP':IP,'count':count})8#3.3筛选出浏览网址在n次以上的IP集合9n=210index=IP_count.loc[:,'count']>n11IP_index=IP_count.loc[index,'IP']4、划分数据集

将数据集按8:2的比例划分为训练集和测试集。

1#划分IP集合为训练集和测试集2index_tr=sample(range(0,len(IP_index)),int(len(IP_index)*0.8))#或者np.random.sample3index_te=[iforiinrange(0,len(IP_index))ifinotinindex_tr]4IP_tr=IP_index[index_tr]5IP_te=IP_index[index_te]6#将对应数据集划分为训练集和测试集7index_tr=[iinlist(IP_tr)foriininfo3.loc[:,'realIP']]8index_te=[iinlist(IP_te)foriininfo3.loc[:,'realIP']]9data_tr=info3.loc[index_tr,:]10data_te=info3.loc[index_te,:]11print(len(data_tr))12IP_tr=data_tr.iloc[:,0]#训练集IP13url_tr=data_tr.iloc[:,1]#训练集网址14IP_tr=list(set(IP_tr))#去重处理15url_tr=list(set(url_tr))#去重处理16len(url_tr)(五)构建智能推荐模型

1、模型构建

将训练集中的数据转换成0-1二元型数据,使用ItemCF算法对数据进行建模,并给出预测推荐结果。

2、模型评价

计算推荐结果的准确率、召回率和F1指标。

1importpandasaspd2#读取保存的推荐结果3Res=pd.read_csv('./tmp/Res.csv',keep_default_na=False,encoding='utf8')45#计算推荐准确率6Pre=round(sum(Res.loc[:,'T/F']=='True')/(len(Res.index)-sum(Res.loc[:,'T/F']=='NaN')),3)78print(Pre)910#计算推荐召回率11Rec=round(sum(Res.loc[:,'T/F']=='True')/(sum(Res.loc[:,'T/F']=='True')+sum(Res.loc[:,'T/F']=='NaN')),3)1213print(Rec)1415#计算F1指标16F1=round(2*Pre*Rec/(Pre+Rec),3)17print(F1)

THE END
1.hao123网址hao123是汇集全网优质网址及资源的中文上网导航。及时收录影视、音乐、小说、游戏等分类的网址和内容,让您的网络生活更简单精彩。上网,从hao123开始。https://www.hao123.com/
2.实用的网站或网址导航推荐网址导航,是一个集合较多网址,并按照实用的网站或网址导航推荐 网址导航,是一个集合较多网址,并按照一定条件进行分类的一种网址站,是互联网最早的网站形式之一。 通过导航,你可以发现本行业的一些优秀的网站,减少了你慢慢去搜索偶然发现带来的时间成本。 对网址导航的印象,大家可能还停留在hao123,2345,YAHOO,360网址之家这类捆绑的导航,但其实普遍用户https://juejin.cn/post/7408072039922024500
3.祝?瑟网址推荐【全站】【?瑟网址推荐?】【APP下载】【APP登录】【APP入口】 ?第一步:访问瑟网址推荐?官网 首先,打开您的浏览器,输入瑟网址推荐的官方网址?(www.budejie.com)。您可以通过搜索引擎搜索或直接输入网址来访问。 ?第二步:点击注册按钮 一旦进入瑟网址推荐官网,您会在页面上找到一https://www.budejie.com/detail-23135263.html
4.荐一精选网址大全推荐推荐,网址大全,免费网站笔点导航(www.bidianer.com)是一个简洁的网址导航网站。你可以自定义上网常用网址、自定义你需要的工具模块。你还可以发现、收集、分享,Web开发、设计工作中的优质资源、干货。https://www.bidianer.com/site/606012
5.同花顺财经核新同花顺网络信息股份有限公司(同花顺)成立于1995年,是一家专业的互联网金融数据服务商,为您全方位提供财经资讯及全球金融市场行情,覆盖股票、基金、期货、外汇、债券、银行、黄金等多种面向个人和企业的服务。https://www.10jqka.com.cn/
6.[网站推荐]网址整理我收集的一些手工制作类网站1.手工DIY -堆糖网 http://www.duitang.com/category/diy/ 2.观点-成一家之言 http://www.guandn.com/ 3.布https://www.jianshu.com/p/3d0d09791def
7.国外网站推荐分享互联网国外网站大全资源网是分享和推荐国外知名、实用、高质量的国外网址的站点,收录国外和国内各类实用网站,内容涵盖国外创意、设计、美食、视频、图片、旅游、文化、音乐等多领域站点资源,全方位了解国外互联网动态。https://www.egouz.com/
8.如何快速查询国内外上市药品说明书?活动开奖其他推荐网址: DAILYMED:http://dailymed.nlm.nih.gov/dailymed/about.cfm 美国国立医学图书馆提供的公共服务的网站,向大众提供标准、全面、最新的药品标签和药品包装查找和下载资源。 Rxlist:https://www.rxlist.com/script/main/hp.asp 网上处方药物索引,是美国的一个处方药物查询网站,还有Top200(美国处方药市场https://yao.dxy.cn/article/730036
9.99an网址导航99an.com99an导航精品网址大全我的上网首页www.9999an网址导航,精品网址大全,绿色网址导航——优秀网址导航。及时收录包括音乐、视频、小说、游戏等热门分类的优秀网站,网站首页导航,与搜索完美结合,提供最简单便捷的网上搜索及网址导航服务,是数千万网民的上网主页。精彩网络生活,我的上网首页,从99an开始。http://99an.com/
10.★英语听力网址普特英语听力网网址:www.51test.net/yytl/pute/ 点击进入普特英语听力网 2015-11-25 来源:网络综合 英语听力材料网:www.51test.net/yytl/cailiao/ 点击进入英语听力材料网 2015-11-24 来源:网络综合 免费英语听力网站推荐:www.51test.net/yytl/ 点击进入英语听力网 2015-11-24 来源:网络综https://www.51test.net/yytl/wz/
11.2021年秒懂网址有哪些2021年秒懂网址推荐一览2021年秒懂网址推荐一览 1.国外网站推荐 Unsplash 这个是一个国外的图片网站, 在国内无缝打开, 没有受到什么阻拦, 大量有设计感的图片, 做PPT和日常都有用, 我个人比较喜欢。 里面的图片都是可以免费使用的。 里面分为色彩, 墙纸, 自然, 人文, 建筑等等分类, 素材极其丰富, 非常好用。 https://www.golue.com/news/v677586.html
12.网址导航OTAT网址导航_OTAT优秀网站目录给大家提供全人工编辑的开放式网站分类目录,收录国内外、各行业优秀网站,网址大全,整理和收藏网站导航!旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。您也可以在我们的免费发布自己的网站及网站相关信息!免费获取的网站流https://www.otat.cn/
13.推荐一个很多日韩电影的网址观看白小米2009-03-01 15:05:20 http://www.qq500.com/area/4_1.html https://movie.douban.com/subject/3025450/discussion/12699488/
14.有什么好资源的网址吗(有什么好的资源网站推荐)大家好!今天让创意岭的小编来大家介绍下关于有什么好资源的网址吗的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。 开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等 https://www.de1919.com/article/449108.html
15.当乐网(d.cn)今日推荐 NBA篮球大师 NBA正版授权真实策略手游 傲剑遮天 将灵说 小鸟爱飞翔 敢达决战-正版高达 凡人修仙-增强现实版 谁是大魔王 神仙道高清重制版 《重构:阿塔提斯》11月21日“夜莺测试”震撼RE启,B站虚拟偶像Hanser首度联动登场! 头条 热门 《荒野迷城》「狂兽之灾」赛季全新玩法! http://d.cn/
16.推好站推好站导航,一个精选的在线网站资源库,享受最新AIGC、视频、新闻、电子书、工具等精彩内容和网站入口,满足用户日常的网站导航需求,帮助用户发现更多有趣实用的站点。安全、绿色、无广告的上网导航。http://www.tuihaozhan.com/
17.推荐免费API接口市场网址大全寻找免费 API 接口?这里是最全的市场网址推荐。从实用的工具到有趣的数据源,这些免费 API 接口网站将为您的开发和项目带来无限可能。https://apifox.com/apiskills/free-api-marketplace-recommendations/
18.如何生成短网址?免费短链接网站推荐小声哔哔免费短链接网站推荐 Hello!大家好~,这里是黑科技工具箱,软件聚集地。不定时分享好玩实用的电脑、手机软件,各类教程技巧等。带大家一起学习,一起成长。 缩短网址的需求还是很大的,小编在这里整理一些免费好用的,国内速度不错的短链接服务。 短链接又称短网址、短码,意思就是比较短的网址。短网址生成网站,可以通过https://www.shangyexinzhi.com/article/8437771.html
19.怎么查英国商标注册信息?查询商标信息的网址推荐在英国进行商标注册时,我们需要先了解相关的商标信息,以确保我们的商标符合注册要求并且不会与已经注册的商标产生冲突。那么,怎么查英国商标注册信息呢?下面是查询商标信息的网址推荐。 一、英国商标局 英国商标局(UKIntellectualPropertyOffice)是英国 负责商标和专利注册的机构。在该机构的官网上,您可以找到所有已经注册https://www.hangtunggroup.com/92236.html
20.去哪儿网京ICP证060856号 营业执照信息 互联网药品信息服务资格证:(京)-非经营性-2016-0110 去哪儿网投诉、咨询热线电话95117举报、投诉邮箱: tousu@qunar.com 全国旅游投诉热线: 12345 未成年人/违法和不良信息/算法推荐举报电话:010-59606977 未成年人/违法和不良信息/算法推荐举报邮箱:tousu@qunar.comhttps://www.qunar.com/