图1.图书管理系统(作者信息列表页面)
图2.图书管理系统(作者信息修改页面)
图3.博客(我的日记-->个人日记)页面
图4.博客(关于我-->个人相册)页面
3.中期项目制作(Django)
我在学习中期已经完成Django基础和实践了,我们在授课老师的要求下,进行了一次中期项目制作。
在一通头脑风暴之后,我们在晚自习结束之前,编写好models.py文件,建立数据库雏形,定义所需要的函数,并且配置好所有路径。分工之后,我负责的是系统后台的方法编写工作,另一位同学负责页面编写工作。我们两个约定好命名格式和编写手法。在第二天就开始了编写工作。
一切努力都是值得的,当我看见我们组项目的最终呈现时,真的有种佩服自己的成就感,这样的成就感我怕是一辈子也不会觉得烦。
因为制作的购物网站页面较多,在这里只截取几张进行展示。系统运行部分页面截图如下图所示。
图5.用户修改信息页面(前端)
图6.用户购物页面(前端)
图8.管理员列表页面(后台)
图9.管理员信息修改页面(后台)
图10.管理员管理商品页面(后台)
4.爬虫
在django项目制作完成以后,我们马上进入了python爬虫的学习。爬虫对我而言还算是蛮新奇的。我学习的第一个爬虫程序是爬百度首页,知道了爬一个网站或网页需要接口路径、普通浏览器的请求头以及请求方式,爬出来的东西可以建成新的网页、表格等,之后可以对其进行数据分析,实用性很高。
在学习过程中,我爬了母校齐鲁工业大学的网站首页、贴吧、百度翻译、人人网、开心网、淘宝电场等网站做初步的练习,把其中的数据保存到本地。之后在老师的带领下练习爬bilibili网站的视频弹幕,并且把弹幕保存到本地的.txt文件中,感觉还是蛮神奇的。我爬取的b站潇洒观山海的视频弹幕部分截取如图所示。
图11.B站视频部分弹幕
我在爬猫眼网站的时候大量使用了正则表达式,用来截取电影的具体信息,汇总成.json文件。在之后我又使用了xpath对猫眼网站的电影信息进行截取,这两种截取方式不同,但结果是相同的。我个人更习惯用正则,不用找定位。当然,这两种方式不存在优劣之分,只是个人习惯而已。我用正则表达式编写的爬虫程序如图19所示,最终数据形成的.json文件如图所示。
图12猫眼电影信息获取代码
图13.猫眼电影信息生成的json文件
老师还给我们布置了作业,是爬古诗文网站诗歌的名字、作者、类别和页面详情,我一开始听错了需求,导致我并没有对诗歌做分类。这要是在职场上,我怕是要被甲方爸爸开了。这个作业是第二天蔡庆凯同学讲解的,其中涉及了数据为空的状态下,用正则表达式的取值过程。在这一个点上面,我认识到了自己和大神的差距,我的正则运用的不灵活,对正则表达式的理解也不够。还是需要深入学习的。
在第19天的学习中,我在老师的要求下,我对链家网站进行了爬虫,获取了济南地区的出售房子的房子名称、地址、参考价格、户型、面积、开盘日期和房子详情页链接,并生成Excel表格。在这个需求实现的过程中,我算是耗费了大量的精力。
图14.链家网站房屋信息表格
5.后期分析及项目
(1)晋江文学城是一个比较成熟的网站,各种分类做的非常详尽,除了界面比较低龄化。它的分类,显示信息都很能达到读者的需求。所以,我在看了两天晋江网站页面后,决定要从晋江总书库中提取以下信息:
author/book_name/category/style/status/counts/score/y_m_d/
书面详情页的:
内容标签、搜索关键字、总书评数、当前收藏数
title/keys/comments/collect
(2)我的需求:
图15.无界面浏览器访问晋江文学城网页截图
结果在使用无界面浏览器后发现,晋江网站还设置了一个不太高端的反爬虫,他在我要提取的xpath中多加了一个没有含义的td标签,遍历目录的时候不能去除,而且继续用xpath是会显示超出范围。然后我就困住了,经过自主在网上进行查询和测试,我最终采用xpath标签定位进行数据提取,在遍历下遍历,部分遍历代码如下所示。
#二次遍历,就在这个地方
在网络十分艰难的情况下,原定下载50页列表的我不得不只下载12页列表,而且爬虫过程中也是遇见了各种问题。爬下来的数据保存到一个Excel列表里,近600条数据。可能并不会具有很强的代表性,但是足够进行数据分析。生成的Excel列表部分截图如图所示。
图16.部分Excel列表截图
数据分析部分代码如图所示:
图17.数据分析部分代码
图18.数据分析部分代码(词云)
(5)对晋江文学城爬取的数据进行分析的结果就是:
600条数据中作者名产生的词云图如下图所示:
图19.作者词云(卡通轮廓版)图20.作者词云(普通版)
由此可以看出Priest、拉棉花糖的兔子、巫哲、漫漫何其多、西子绪等字眼出现比较大,说明在晋江文学城书库前600条作者名字中,这几位作者的产出书目比较多、优质作品多、符合读者胃口且文采上佳。
600条数据中作品类型词云图如图所示:
图21.作品类型词云图
从这个词云中可以看出,现在受人们喜爱的小说类型大多是爱情、原创、纯爱,稍次一点的是近代现代。从中可以了解,人们都比较喜爱新鲜的原创文学,以求更贴切的代入感和更完美的想象。
纯爱其实就是耽美BL文学,言情是男女BG文学,从中可以看出读者更喜欢看耽美文学,腐女的市场需求很强烈,产出链也相对完整,未来的影视、文学、娱乐市场可以考虑一下耽美背后的腐女力量。其实近几年已经可见端倪:
2016年《上瘾》的爆火使得黄景瑜、许魏洲空降娱乐圈
2018年《镇魂》播出,朱一龙、白宇从名不经传到突破顶流
2019年《陈情令》播出,一群小鲜肉大火,目前苗头正盛
爱情是平等的观念也在广泛传播,伯牙子期,柏拉图式,刎颈之交也在不断地解锁人们的思想。未来市场会如何发展,也许数据已经给了我们答案。
600条数据中作品积分折线图如图22/23所示:
图22.作品积分折线图
图23.作品积分折线图
这个作品积分折线图是动态的图,一张图可以容纳大量的数据,通过拉动底部框选条可以掌握不同范围的数据变化。从中可以看出,放在第一页的也不是积分普遍的高,排在后几页的也不是普遍的低。不过大趋势还是比较明显的,在书库页码从前到后,积分也是由高到低的总体趋势,各部分都会有小峰值。框选范围内的均值便是图中红点游标所示。
不过不得不说《天官赐福》的确拉高了所有作品的平均分,接下来我可能也去拜读一下这本书。
600条数据中各年份产出书籍量对比柱状图如图24所示:
图24.各年份产出书籍量对比柱状图
600条数据中各年份产出书籍量占比饼状图如图25所示:
图25.各年份产出书籍量占比饼状图
这不能说好与不好,只能说有利有弊,网络激发人们的创作欲望和阅读渴求,新作品层出不穷,文学市场新鲜血液充足,这是很好的方面。但是书的饱和,就会造成人的阅读速度加快,阅读深度不够,书籍的新老代谢加快,形成阅读浮躁和作品消沉的情况。我们没有资格去评价无主观意识的网络做了什么,产生什么样的影响,我们只能尽量去适应这个快速变化的时代。
600条数据中4项优质特征前30对应作者出现次数占比饼状图如图26所示:
图26.4项优质特征前30对应作者出现次数占比饼状图
这是我做了对总书评数、作品积分、当前收藏量、以及作品总字数这四项数据进行排序,之后提取作者名字,并对作者名字集合做占比分析。
从图中我发现巫哲和Priest这两位作者占比较高,漫漫何其多紧随其后,这三位也是耽美文学圈里神一般的存在。巫哲的《撒野》、Priest的《镇魂》、漫漫何其多的《AWM绝地求生》也都是耽美文学的封神之作。耽美文学的热度之高也是有目共睹。
从图中可以看出,在4个前30当中,巫哲能够出现15次,说明他的优质作品不止一部,而且各方面的能力也比较均衡,是个非常有能力、有思想、有才华的作者。而且,从中可以看出,积分高,说明作品受读者喜爱;书评多说明作品讨论度高,有深度有思想,能带动读者积极探讨;收藏量高说明读者有不可计数回看的可能性;总字数高说明作者产出稳定、文采卓然。在图中占比较大的作者在这几个方面是有均衡优势的。而且他们会积累了大量的书粉,其作品的影视化价值也会比较高,如果拍的能比较符合原著,应该也会有不错的反响。
耽美文学已经非常有热度有流量,以后势必是要往影视市场蔓延的。曾经的《上瘾》《镇魂》《陈情令》和动漫《魔道祖师》的火爆已经敲开了市场的大门,未来的《皓衣行》《撒野》的成绩也很让人期待。大众对于耽美的态度也会越来越包容,越来越理解。爱情这样美好的东西,不应当被性别等因素所局限。