可以通过本文,对数据分析师这个职业有个基本的了解
课程详细资料请自行查询。
唯有理解业务,才能建立完整的一套体系,简称业务数据模型。
想进入某个行业的数据分析,尽量需要一些业务知识,敲门砖。
模型未动,指标先行。
如果你不能衡量它,你就不能无法增长它
运用第一周的核心思维:结构化、公式化和业务化,形成指标。
指标建立的要点:
市场营销领域:
1.客户/用户生命周期
2.用户价值
AARRR框架
用户获取,用户活跃,用户留存,营收,传播
1.用户获取
2.用户活跃
3.用户留存
4.营收
5.传播
1.用户行为
2.用户路径
路径图:用户在一次会话的过程中,其访问产品内部的游览轨迹,通过此,可以加工出关键路径转换率。
购物篮分析
1.游览量和访客量
2.访客行为
组合!
从三个角度出发
本质是树形结构,从树形思维导图演变而来,但是加入闭环的循环结构。
遇到结构外的分析内容,在外面额外添加就行,如右上角。
分析各个节点,得到指标。例如,购物车分析:
指标结构框架如上,分析各个要点。
分析搜索流量:
有些指标在其他模型也有,模型之间没有严格界限,可以共同使用相同指标
怎么从空白数据分析需求开始?
新手,面对数据分析依然是没有思路进行分析?
以科赛数据分析平台为例子,参考视频,设计了一个分析体系。
相对于语言类例如python和R等则用于常规的,规律的场景中应用,便于形成日常规则统计分析。
对于学习的路径:Excel函数--->SQL函数------>python
必知必会内容:保证使用版本是2013+;培养好的数据表格习惯;主动性的搜索;多练习
Excel常见函数
LOOKUP
VLOOKUP
INDEX:相当于数组定位
MATCH:查找数据在数组中的位置
OFFSET:偏移函数
ROW
COLUMN
HYPERLINK:去掉超链接
rand:随机数字,用来随机抽样使用
多条件就和和多条件计数的情况下是非常多的,所以countifs和sumifs用的是非常的多,基本能搞定所有的统计报表,达到实时统计。缺点就是数据量达到一定程度后,Excel运行会比较慢
周函数中,中国的习惯方式参数常选择2
快捷键
功能
个人觉得主要还是在于实践当中的灵活运用,作为学习,掌握有什么样的函数用来做什么就可以了,工作中遇到的时候可能忘了怎么拼,但是能直接搜索把函数找出来用知道在哪里面找就好。当然,记得更多的函数好处就是能迅速的通过函数的用法把函数灵活的组合去解决问题。其实最重要的也是通过逻辑关系把各种函数进行组合去解决问题。
对于数据可视化,大多数人下意识是要好看,下意识的去追求美感,觉得高大尚。其实,美丽的图表应该是有用的图表。
数据可视化的目的是让数据更高效,让读者更高效的进行阅读,而不是自己使用。好的可视化能突出背后的规律,突出重要的因素,最后才是美观。
数据可视化的最终目的:数据作用的最大化。
核心:展现数据之间的规律
呈现出一定规律的散点图可增加趋势线,并通过选项将规律用公式表示出来。
改进图:
用面积区分大小,很多情况下肉眼是很难区分的,上图为玫瑰图---饼图的变种
数据量较大、数据类别较多时,能更好的体现数据分类情况。
绘制流量变动最开始,网站的流量,监视用户的行为分析,表示用户在网站上的行为轨迹,一对多或多对一的关系
数据上下波动可用折线图观察,但是中间的某种关系展示揭示特殊关系使用热力图则可看出来。
揭示数据的分布情况
数据和空间的关系
1.颜色搭配
color.adobe.com上有多种主流颜色搭配
2.颜色搭配原则
3.次坐标轴的使用,使得数据能体现更多细节。
BI中的数据链接,最好直接连接数据库或者CSV文件,尽量不要xls文件。
powerBI的功能特点:
1.场景案例
2.指标结构案例
Dashbord是一个不断迭代的设计过程,需要根据目的,不断进化。
遇到不会的内容,可以再进行查找复习。
在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较
用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。
xi:数据的具体值
u:平均值
σ:标准差
1.箱线图:描述一组数据的分布情况。
Excel中能直接对数据进行作图,并且还能添加许多对比条件。
2.直方图:数值数据分布的精确图形表示
直方图引出另外一个概念:偏度,统计数据分布偏斜方向和程度的度量
正态分布:也称“常态分布”
以上公式成立是,有标准正态分布。
可以用来进行异常值排查,或者假设的数据分布。
统计推断(statisticalinference),指根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。
重要概念:贝叶斯定理
在知道结果A已经发生,想要推导出各种原因发生的可能性情况。
贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用,它告诉我们当我们要预测一个事物,我们需要的是首先根据已有的经验和知识推断一个先验概率,然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。
1.利用Python写脚本
2.excel可视化有性能瓶颈,需要Python来实现。
1.Pythongroupby
mysql不支持分组排序
2.concat和merge
concat是强行耦合
merge,是有共同名,优先表进行耦合
4.文本函数
填充空值,None需要用np.nan,c语言形式的控制
pd.dropna()去除所有还有空值的行
5.Pythonpandasapply
6.聚合apply
7。pandas数据透视
7.python连接数据库
Pandas中读取数据库:
conn=pymysql.connect(host='localhost',user='root',password='123456',db='data_kejilie',port=3306,charset='utf8')defreader(query,db):sql=queryengine=create_engine('mysql+pymysql://root:123456@localhost/{0}charset=utf8').format(db))df=pd.read_sql(sql,engine)returndfreadercur.execute('select*fromarticle_link')data=cur.fetchall()cur.close()conn.commit()ViewCode3.数据可视化可视化课程没有进行记录,详情可以参照
中的可视化代码展示。
利用课程提供的数据集,简单分析练手了一下。
本次使用的是Python中的superset库,基于web的数据分析平台。
严重提示:安装这个库一定要新建一个虚拟环境后再进行pip安装,不然会使得依赖库和Anaconda中的部分库冲突,使得原环境的库无法正常调用