看了的各位同学都是因为什么入坑的呢?
▲部分热搜
当然,作为一名Exceller,我还对这些数据产生了强烈的好奇,还想知道:
每个排名的热搜次数是多少?热搜次数前3的排名有哪些?排名1-10,11-30,31-50的热搜次数有多少?……
有了明确的数据需求,我们就可以针对这些数据做数据分析了(bushi)
咱们秋叶家的Excel金牌讲师@拉登Dony说过,数据分析暂且可以分为下面这几块。
数据清洗、数据统计、数据可视化、数据需求分析、数据挖掘。
因此,今天我的分析思路大概也是按照以上部分来进行的。
希望能给大家带来启发~
数据挖掘
一般来说,工作中我们拿到手的数据大多是从系统中导出的,或是来自领导/同事的Excel表格。
但少数情况下,我们需要自行挖掘并把数据录入到Excel里。
比如,《点燃我,温暖你》这部剧的热搜次数,如果不想手打,强烈推荐使用一款超级好用的OCR识别软件——天若识别。
它能够快速将图片转换成表格,而且准确率也挺高。
识别完成之后一定记得检查,确认无误之后再复制粘贴到Excel里。
数据清洗
将数据录入到表格里面之后,我们观察可以发现,热搜排名和热搜名混合在一起了,需要分开。
第一反应是分列。
但是,没有分隔符,固定宽度又不一样。
很显然,分列搞不定。
用函数的话,也挺麻烦的。
那,试下PowerQuery(简称PQ)。里面有一个【拆分列】的功能,可以按照「从数字到非数字」的顺序拆分。
操作步骤:
选中数据区域,按【Ctrl+T】键转换成超级表(这一步可以省略)。
在【数据】选项卡里找到「获取和转换数据」栏,点击【来自表格区域】,打开PQ编辑器。
选中数据列,找到【主页】里的【拆分列】,点击【按照从数字到非数字的转换】。
但是呈现的结果和我们想要的明显不太一样。
因为有些热搜词条里面也带有数字,所以被拆分成了好几列。
这时你应该会想,如果能把后两列合并起来就好了。
诶,不瞒你说,PQ还真的能做到。
按住【Ctrl】键不松,用鼠标左键依次选中列1.2、列1.3。
点击【转换】选项卡-【合并列】,在弹出的对话框中输入新列名,【确定】。
最后把列1.1的数据类型修改为数值,列名修改一下,点击【关闭并上载】,将数据上传到Excel。
最后检查一下,有时候会有特殊情况,比如下图这种,手动改一下:
到这一步,我们的数据就整理好了。
大家以后遇到需要拆分数据的情况,也可以按照分列-PQ-函数公式的思路来选择解决方法。
数据分析
如果我们想知道:每个排名的热搜次数是多少?热搜次数前3的排名有哪些?排名1-10,11-30,31-50的热搜次数有多少?……
最简单的方法,就是使用数据透视表。
▋每个排名的热搜次数是多少?
插入数据透视表,将「热搜排名」拖动到【行】区域,「热搜词条」拖动到【值】区域。
▋热搜次数前3的排名有哪些?
将鼠标放到行标签右侧的倒三角上,按右键选择【其他排序选项】。
在弹出的【排序】对话框中选择【降序排序】,依据选择「热搜词条」。
▋排名1-10,11-30,31-50的热搜次数有多少?
利用Vlookup函数模糊匹配,创建一个辅助列。
公式如下:
=VLOOKUP(A2,$H$2:$I$4,2,1)
右键-【刷新】,把辅助列的数据纳入到数据透视表的计算范围。
将【热搜排名】前面的勾取消,【列1】拖到行标签。
搞定!
到这里,我们的目的基本就完成了。
在这个过程中,主要用到了4个技巧:
①图片转表格——天若识别插件。
②PQ——拆分列、合并列。
③数据透视表。
④Vlookup——模糊匹配。
其中,Vlookup、PQ、数据透视表,学会这3个技巧,工作中80%的问题都难不倒你!
但本文用到的技巧其实只是少少的一部分,主要目的还是能够帮助大家梳理数据分析的思路。
我们还会从留言中随机抽取2位小伙伴,一人包邮送一本秋叶家的好书《和秋叶一起学-秒懂Excel》。