大数据入门第十三天——离线综合案例:网站点击流数据分析江北

推荐书籍:《网站分析实战——如何以数据驱动决策,提升网站价值》

1.什么是点击流数据

1.web访问日志

GET/log.gift=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600x900$ul=zh-cn$cs=GBK$dt=【云南白药套装】云南白药牙膏180g×3(留兰香型)【行情报价价格评测】-京东$hn=item.jd.com$fl=16.0r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411HTTP/1.12.点击流数据模型

点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来形成的“线”。也可以把“点”认为是网站的Page,而“线”则是访问网站的Session。所以点击流数据是由网站日志中整理得到的,它可以比网站日志包含更多的信息,从而使基于点击流数据统计得到的结果更加丰富和高效。

点击流数据在具体操作上是由散点状的点击日志数据梳理所得,从而,点击数据在数据建模时应该存在两张模型表(Pageviews和visits):

2.点击流数据分析意义

参见文首链接

3.流量分析常见指标

//完整指标参考文首链接

1.处理流程

该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行,依此有以下几个大的步骤:

1)数据采集

首先,通过页面嵌入JS代码的方式获取用户访问行为,并发送到web服务的后台记录日志

然后,将各服务器上生成的点击流日志通过实时或批量的方式汇聚到HDFS文件系统中

当然,一个综合分析系统,数据源可能不仅包含点击流数据,还有数据库中的业务数据(如用户信息、商品信息、订单信息等)及对分析有益的外部数据。

2)数据预处理

通过mapreduce程序对采集到的点击流数据进行预处理,比如清洗,格式整理,滤除脏数据等

3)数据入库

将预处理之后的数据导入到HIVE仓库中相应的库和表中

4)数据分析

项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果

5)数据展现

将分析所得数据进行可视化

2.项目结构

数据采集的需求广义上来说分为两大部分。

1)是在页面采集用户的访问行为,具体开发工作:

1、开发页面埋点js,采集用户访问行为

2、后台接受页面js请求记录日志

此部分工作也可以归属为“数据源”,其开发工作通常由web开发团队负责

2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责,具体的技术实现有很多方式:

2Shell脚本

优点:轻量级,开发简单

缺点:对日志采集过程中的容错处理不便控制

2Java采集程序

优点:可对采集过程实现精细控制

缺点:开发工作量大

2Flume日志采集框架

成熟的开源日志采集系统,且本身就是hadoop生态体系中的一员,与hadoop体系中的各种框架组件具有天生的亲和力,可扩展性强

数据采集技术选型

flume

采集规则:

调整启动命令,启动即可:

在部署了flume的nginx服务器上,启动flume的agent,命令如下:bin/flume-ngagent--conf./conf-f./conf/weblog.properties.2-nagent//正确匹配配置文件名称与agent名称等.

过滤“不合规”数据

格式转换和规整

根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据

核心mapreduce代码:

hadoopjarweblog.jarcn.itcast.bigdata.hive.mr.WeblogPreProcess/weblog/input/weblog/preout

THE END
1.经典大数据营销案例有哪些?大数据营销是指通过收集和分析平台数据,获取相关用户的特定特征,进行用户行为分析,然后进行有针对性、精确性和个性化的营销策略。所以,公司用大量数据进行销售已经成为主流。为此,小编将分享一些经典大数据营销案例! 135编辑器 3.4 34条点评 咨询产品 免费试用 https://www.36dianping.com/news/1744.html
2.大数据与市场营销:精准营销与客户洞察案例分析:云南白药与阿里的大数据营销 案例背景 2017年6月,云南白药牙膏官方旗舰店在淘宝上开业。为了迅速提升品牌知名度和市场影响力,云南白药与阿里合作,利用大数据技术和明星效应开展了一场跨界营销活动。 营销策略 用户行为分析:基于阿里生态平台的大数据技术,云南白药收集并分析淘宝用户的搜索、浏览、点击、购买和分享https://bbs.csdn.net/topics/619323170
3.二手车价格预测与数据挖掘分析(二手车价格数据集)大数据洞察有哪些特色,大数据营销案例,大数据企业 特色案例分析:浪潮GS助力广安集团一猪一ID强化食品安全 作为辐射全国的农牧企业集团,多年来广安集团一直企业信息化进程与企业发展需求不匹配的问题。 案例一:云南白药牙膏的“大数据+明星”策略2017年,云南白药与阿里联手,借助大数据与明星效应,打造了一场别开生面的营销https://www.kangle.im/post/113645.html
4.云南白药企业产品成本数据分析表格怎么做帆软数字化转型知识库要制作云南白药企业产品成本数据分析表格,首先需要明确数据分析的核心要点,包括成本构成、成本变化趋势、产品利润率等。成本构成可以详细描述为:主要由原材料成本、生产成本、人工成本、营销成本和物流成本组成。通过收集并整理这些数据,可以创建一个全面的成本分析表格,帮助企业更好地理解和优化其成本结构。下面将详细讲解如https://www.fanruan.com/blog/article/391174/
5.案例分析百年医药品牌的数字化新路以满足消费者、客户、合作伙伴个性化需求为目标,依托新技术介入多样化的应用场景,收集、分析应用场景数据,指导产品生产、研发、升级、销售、服务,实现从“大规模生产”到“个性化定制”。也就是以大数据为支撑,提供个性化产品和智能服务。这一步已迈出,其中的“云南白药三七产业平台”,预计今年年底建成。https://www.clii.com.cn/lhrh/hyxx/201906/t20190626_3935123.html
6.市场营销的论文汇编(15篇)比如说,可以借助于案例教学法等教学方法,让学生通过实际的市场营销案例,分析所存在的问题,并提出相应的可行性解决对策,这样能够帮助学生在课堂讨论中掌握市场营销专业问题解决的方法与知识。此外,应用型人才的培养,不仅仅要求学生接受专业性较高的知识培养,更应该突出学生实践职业能力的培养工作,这要求老师们在市场营销https://www.yjbys.com/biyelunwen/fanwen/shichangyingxiao/735201.html
7.公司财务案例分析报告(精选30篇)公司财务案例分析报告 篇5 一、事业单位财务分析的特点分析 (一)特殊性财务分析是事业单位财务部门的重要工作内容之一,而且,从实际的工作来看,事业单位财务分析也可以将其称为一种服务,为事业单位的发展决策而服务。从事业单位财务分析工作的目的来分析,财务分析具有一定的特殊性[1]。事业单位在发展中所需要的资金主要https://www.diyifanwen.com/fanwen/gongzuobaogao/15585414.html
8.艾媒报告2019数据显示,2018年中医类诊疗人次为10.7亿,其中中医类医院诊疗最高,为6.3亿人,占中医类诊疗量的59%。艾媒咨询分析师认为,虽然中医类医院数量占比仅为8%,但由于医院诊疗技术、医护人员专业性等优势,患者会优先选择去中医类医院就诊。 典型企业分析一:云南白药(一) https://maimai.cn/article/detail?fid=1377047926&efid=xsK3nLw_lYLCwTv5bM68vQ
9.云南白药:2023年年度报告股票频道有限公司创立人工智能大数据平台支撑智能化发展,推动数字健康从“医+药+险”闭环向“服务+产品+ 支付”全链路升级。 三、核心竞争力分析 (一)品牌优势 云南白药是拥有?120?余年历史的中华老字号民族品牌,公司以云南白药品牌为核心,逐步从药品品牌 延伸至个人健康护理产品品牌、原生药材品牌及大https://quote.stockstar.com/Inform/SN2024033000002578.html
10.头条文章从研究结果来看,中国联通、格力电器、云南白药、国家电投青海黄河上游公司、中国长江电力单次混改引入资金金额分别为617.25、417、254、242、241.6亿元。在国企混改实践中,上述企业属于引入资金较高的前五家混改企业。下面,我们来重点分析近两年内混改成功的典型案例,格力电器和国家电投青海黄河上游公司。 https://card.weibo.com/article/m/show/id/2309634672957984407820
11.云南白药集团数字化转型对企业绩效的影响研究.pdf本文旨在对云南白药典型案例进行分析,深入探讨其数字化 转型的完整过程,并分析数字化转型如何对企业绩效产生影响。通过该研究为当 前医药制造行业中的企业在推动数字化转型时提供参考。本文研究云南白药企 业数字化转型的动因、路径、实施效果以及对企业绩效的影响分析,从短期、长 期财务绩效、非财务以及综合绩效分析,多https://max.book118.com/html/2024/1025/6151213115010235.shtm
12.财务案例分析大作业四8篇(全文)由上表可知,在2006年至2008年同仁堂的资产负债率始终低于于同行业云南白药,并且保持基本持平的状态,而云南白药的权益乘数也在波动由06年的1.92 上升至07年的2.04,08年由降至1.56,说明他们也受到一些影响。 4、资产净利率的分析 资产净利率是影响权益净利率的最重要的指标,具有很强的综合性,而资产净利率又取决于https://www.99xueshu.com/w/file7eplgjgl.html