pyhton项目和晋江文学城数据分析项目舒歌小疯子

图1.图书管理系统(作者信息列表页面)

图2.图书管理系统(作者信息修改页面)

图3.博客(我的日记-->个人日记)页面

图4.博客(关于我-->个人相册)页面

3.中期项目制作(Django)

我在学习中期已经完成Django基础和实践了,我们在授课老师的要求下,进行了一次中期项目制作。

在一通头脑风暴之后,我们在晚自习结束之前,编写好models.py文件,建立数据库雏形,定义所需要的函数,并且配置好所有路径。分工之后,我负责的是系统后台的方法编写工作,另一位同学负责页面编写工作。我们两个约定好命名格式和编写手法。在第二天就开始了编写工作。

一切努力都是值得的,当我看见我们组项目的最终呈现时,真的有种佩服自己的成就感,这样的成就感我怕是一辈子也不会觉得烦。

因为制作的购物网站页面较多,在这里只截取几张进行展示。系统运行部分页面截图如下图所示。

图5.用户修改信息页面(前端)

图6.用户购物页面(前端)

图8.管理员列表页面(后台)

图9.管理员信息修改页面(后台)

图10.管理员管理商品页面(后台)

4.爬虫

在django项目制作完成以后,我们马上进入了python爬虫的学习。爬虫对我而言还算是蛮新奇的。我学习的第一个爬虫程序是爬百度首页,知道了爬一个网站或网页需要接口路径、普通浏览器的请求头以及请求方式,爬出来的东西可以建成新的网页、表格等,之后可以对其进行数据分析,实用性很高。

在学习过程中,我爬了母校齐鲁工业大学的网站首页、贴吧、百度翻译、人人网、开心网、淘宝电场等网站做初步的练习,把其中的数据保存到本地。之后在老师的带领下练习爬bilibili网站的视频弹幕,并且把弹幕保存到本地的.txt文件中,感觉还是蛮神奇的。我爬取的b站潇洒观山海的视频弹幕部分截取如图所示。

图11.B站视频部分弹幕

我在爬猫眼网站的时候大量使用了正则表达式,用来截取电影的具体信息,汇总成.json文件。在之后我又使用了xpath对猫眼网站的电影信息进行截取,这两种截取方式不同,但结果是相同的。我个人更习惯用正则,不用找定位。当然,这两种方式不存在优劣之分,只是个人习惯而已。我用正则表达式编写的爬虫程序如图19所示,最终数据形成的.json文件如图所示。

图12猫眼电影信息获取代码

图13.猫眼电影信息生成的json文件

老师还给我们布置了作业,是爬古诗文网站诗歌的名字、作者、类别和页面详情,我一开始听错了需求,导致我并没有对诗歌做分类。这要是在职场上,我怕是要被甲方爸爸开了。这个作业是第二天蔡庆凯同学讲解的,其中涉及了数据为空的状态下,用正则表达式的取值过程。在这一个点上面,我认识到了自己和大神的差距,我的正则运用的不灵活,对正则表达式的理解也不够。还是需要深入学习的。

在第19天的学习中,我在老师的要求下,我对链家网站进行了爬虫,获取了济南地区的出售房子的房子名称、地址、参考价格、户型、面积、开盘日期和房子详情页链接,并生成Excel表格。在这个需求实现的过程中,我算是耗费了大量的精力。

图14.链家网站房屋信息表格

5.后期分析及项目

(1)晋江文学城是一个比较成熟的网站,各种分类做的非常详尽,除了界面比较低龄化。它的分类,显示信息都很能达到读者的需求。所以,我在看了两天晋江网站页面后,决定要从晋江总书库中提取以下信息:

author/book_name/category/style/status/counts/score/y_m_d/

书面详情页的:

内容标签、搜索关键字、总书评数、当前收藏数

title/keys/comments/collect

(2)我的需求:

图15.无界面浏览器访问晋江文学城网页截图

结果在使用无界面浏览器后发现,晋江网站还设置了一个不太高端的反爬虫,他在我要提取的xpath中多加了一个没有含义的td标签,遍历目录的时候不能去除,而且继续用xpath是会显示超出范围。然后我就困住了,经过自主在网上进行查询和测试,我最终采用xpath标签定位进行数据提取,在遍历下遍历,部分遍历代码如下所示。

#二次遍历,就在这个地方

在网络十分艰难的情况下,原定下载50页列表的我不得不只下载12页列表,而且爬虫过程中也是遇见了各种问题。爬下来的数据保存到一个Excel列表里,近600条数据。可能并不会具有很强的代表性,但是足够进行数据分析。生成的Excel列表部分截图如图所示。

图16.部分Excel列表截图

数据分析部分代码如图所示:

图17.数据分析部分代码

图18.数据分析部分代码(词云)

(5)对晋江文学城爬取的数据进行分析的结果就是:

600条数据中作者名产生的词云图如下图所示:

图19.作者词云(卡通轮廓版)图20.作者词云(普通版)

由此可以看出Priest、拉棉花糖的兔子、巫哲、漫漫何其多、西子绪等字眼出现比较大,说明在晋江文学城书库前600条作者名字中,这几位作者的产出书目比较多、优质作品多、符合读者胃口且文采上佳。

600条数据中作品类型词云图如图所示:

图21.作品类型词云图

从这个词云中可以看出,现在受人们喜爱的小说类型大多是爱情、原创、纯爱,稍次一点的是近代现代。从中可以了解,人们都比较喜爱新鲜的原创文学,以求更贴切的代入感和更完美的想象。

纯爱其实就是耽美BL文学,言情是男女BG文学,从中可以看出读者更喜欢看耽美文学,腐女的市场需求很强烈,产出链也相对完整,未来的影视、文学、娱乐市场可以考虑一下耽美背后的腐女力量。其实近几年已经可见端倪:

2016年《上瘾》的爆火使得黄景瑜、许魏洲空降娱乐圈

2018年《镇魂》播出,朱一龙、白宇从名不经传到突破顶流

2019年《陈情令》播出,一群小鲜肉大火,目前苗头正盛

爱情是平等的观念也在广泛传播,伯牙子期,柏拉图式,刎颈之交也在不断地解锁人们的思想。未来市场会如何发展,也许数据已经给了我们答案。

600条数据中作品积分折线图如图22/23所示:

图22.作品积分折线图

图23.作品积分折线图

这个作品积分折线图是动态的图,一张图可以容纳大量的数据,通过拉动底部框选条可以掌握不同范围的数据变化。从中可以看出,放在第一页的也不是积分普遍的高,排在后几页的也不是普遍的低。不过大趋势还是比较明显的,在书库页码从前到后,积分也是由高到低的总体趋势,各部分都会有小峰值。框选范围内的均值便是图中红点游标所示。

不过不得不说《天官赐福》的确拉高了所有作品的平均分,接下来我可能也去拜读一下这本书。

600条数据中各年份产出书籍量对比柱状图如图24所示:

图24.各年份产出书籍量对比柱状图

600条数据中各年份产出书籍量占比饼状图如图25所示:

图25.各年份产出书籍量占比饼状图

这不能说好与不好,只能说有利有弊,网络激发人们的创作欲望和阅读渴求,新作品层出不穷,文学市场新鲜血液充足,这是很好的方面。但是书的饱和,就会造成人的阅读速度加快,阅读深度不够,书籍的新老代谢加快,形成阅读浮躁和作品消沉的情况。我们没有资格去评价无主观意识的网络做了什么,产生什么样的影响,我们只能尽量去适应这个快速变化的时代。

600条数据中4项优质特征前30对应作者出现次数占比饼状图如图26所示:

图26.4项优质特征前30对应作者出现次数占比饼状图

这是我做了对总书评数、作品积分、当前收藏量、以及作品总字数这四项数据进行排序,之后提取作者名字,并对作者名字集合做占比分析。

从图中我发现巫哲和Priest这两位作者占比较高,漫漫何其多紧随其后,这三位也是耽美文学圈里神一般的存在。巫哲的《撒野》、Priest的《镇魂》、漫漫何其多的《AWM绝地求生》也都是耽美文学的封神之作。耽美文学的热度之高也是有目共睹。

从图中可以看出,在4个前30当中,巫哲能够出现15次,说明他的优质作品不止一部,而且各方面的能力也比较均衡,是个非常有能力、有思想、有才华的作者。而且,从中可以看出,积分高,说明作品受读者喜爱;书评多说明作品讨论度高,有深度有思想,能带动读者积极探讨;收藏量高说明读者有不可计数回看的可能性;总字数高说明作者产出稳定、文采卓然。在图中占比较大的作者在这几个方面是有均衡优势的。而且他们会积累了大量的书粉,其作品的影视化价值也会比较高,如果拍的能比较符合原著,应该也会有不错的反响。

耽美文学已经非常有热度有流量,以后势必是要往影视市场蔓延的。曾经的《上瘾》《镇魂》《陈情令》和动漫《魔道祖师》的火爆已经敲开了市场的大门,未来的《皓衣行》《撒野》的成绩也很让人期待。大众对于耽美的态度也会越来越包容,越来越理解。爱情这样美好的东西,不应当被性别等因素所局限。

THE END
1.云图书馆管理系统馆号 用户名 密码 请在IE8以上环境中使用! 忘记密码?https://b.ytsg.com/
2.四川云图信息技术有限公司YUNLIB图书馆集群管理系统 YUNLIB图书馆集群管理系统(以下简称YUNLIB)是基于Internet互联网平台上的新一代图书馆自动化系统,采用开放的多层结构体系,实现了传统的业务管理与区域性的数字资源的整合。通过Internet互联网或城域网络将区域内各图书馆联合起来,组成一个区域性的虚拟图书馆群,建立一个区域图书馆群的电子化、数http://m.yunlib.cn/
3.智慧云图及阅读生态系统方案“智慧云图”依托大数据、物联网、云计算、人工智能等信息技术将图书馆和阅读相关的软硬件无缝融合,包含了:智慧图书馆管理、电子资源管理、阅读测评管理三大系统,可实现三大系统间、不同层级间的数据共享与互通,打通用户、流通、阅读大数据库。实现智能感知、智能处理、智能分析、智能推送、绿色阅读,为用户提供无处不在http://www.gxbasic.com.cn/industry/187.html
4.图书馆图书可视化分析+大屏简介: 在数字化时代背景下,图书馆已经成为知识获取和共享的重要场所。然而,随着馆藏书籍数量的增加,如何高效管理和利用这些资源成为了图书馆管理者和用户面临的挑战。数据分析和可视化技术的引入为解决这一问题提供了新的途径。本文致力于通过数据分析技术和可视化手段,对图书馆书籍数据进行综合挖掘,希望通过图书分类、https://developer.aliyun.com/article/1544836
5.鑫文云图图书馆集群管理平台鑫文云图 图书馆集群管理平台 请牢记馆代码! 自动登录 登录http://www.rongdalib.com/
6.智慧图书馆智能图书管理系统图书管理平台智慧云图书馆智慧供应采购系统 聚合支付结算机具 移动云服务 云管版 立即订购 智慧图书云管版 节省10%~15%成本,提高20%~30%利润,移动云计算存储私密安全。 云图版 立即订购 智慧图书云图版 节省5%~10%成本,提高20%~30%利润,移动云计算存储私密安全。 客户案例 https://ecloud.10086.cn/home/resolution/enterprise/library
7.周凯6. 电影票房预测分析系统V1.0 7. 智慧旅游新媒体矩阵服务集成系统V1.0 8. 沉浸式体感互动实时效果监测与反馈系统V1.0 9. 主题园区资源高性能服务库管理系统V1.0 10. 文化IP资源大数据融合与匹配分析软件V1.0 11. 数据采集及AR三维跟踪系统V1.0 12. 互联网区域经济产业云图展示软件V1.0 13. 文旅场所客流分级调控https://baike.sogou.com/v64892938.htm
8.联图非书资源云(服务)平台系统(云图)开通试用联图非书资源云(服务)平台系统(简称云图),采用最先进的云计算和Web3.0技术,按照“共建、共享、共知”的理念,统一管理协同馆内馆际所有非书资源(包括图书扩展信息、图书参考引资文献、随书/随刊光盘、音视频、图片、文档及各种自建资源),构建一个机构、读者可以随意自建、组建和分享的资源综合云服务平台。适用于工作https://tsg.bzu.edu.cn/2018/0523/c16521a171375/page.htm
9.云图管理下载2024安卓手机版1、新增扫一扫功能,实现管理员签到功能;2、新增读者名片识别功能;3、修复部分BUG;如发现版本老旧,欢迎邮件反馈tousu@liqucn.com,或移步云图管理官网下载最新版 介绍 "云图管理"是一款专为图书管理员打造的移动办公APP,其独特之处就在于它操作方便快捷,离开PC端也能方便的做些日常的图书管理工作。 开发者:四川四原科https://m.liqucn.com/os/android/rj/1230905.wml
10.智慧图书馆设备厂家苏州至辰物联科技有限公司是RFID智慧图书馆管理系统、RFID数字图书馆设备厂家,提供专业的中小学版自助借还书机,RFID馆员工作站一体机,图书馆借还书管理系统,数字图书馆设备,校园图书馆区域集群管理系统,RFID安全通道门等智慧阅读全生命周期整体化解决方案,要服务于城市书http://www.zhichenyuntu.com/
11.文图软件图书管理软件RFID设备MARC数据Z39.50图书加工布克云图-靠谱的云图书馆管理系统 May112022 布克云图V6.0(商标是布客云图)是本公司完全自主开发的新一代云图书馆里系统,采用前后端分离框架,SAAS模式。拥有自主知识产权,自上线以来获得了越来越多客户的好评。系统主要特点如下: 阅读全文 作者:sjzwcs | 分类:公司产品| 阅读:1,870 views | 标签:SAAS图书馆,云图https://www.sjzwtrj.cn/
12.跳蚤云图app官方下载跳蚤云图图书馆系统appv4.8.3跳蚤云图app官方版是为喜欢阅读的人推出的移动应用。它提供了一个便捷的平台,让用户可以随时随地阅读各种类型的电子书籍。你可以通过跳蚤云图app轻松浏览和借阅海量图书资源,各种类型都有覆盖等。而且,该app还提供了个性化的推荐功能,根据你的阅读喜好,为你推荐最适合的书籍。 https://www.ggzha.com/az/83035.html
13.联图云光盘系统薪酬管理实务 解进强,史春祥编著 Data, models and decisions 蒋绍忠编著 ERP原理·设计·实施[电子资源.图书] 罗鸿编著 商用ERP实训教程 常丹,苟娟琼,刘丽杰编著 ERP系统上机实训案例 李忠霞主编 图解ERP——轻松跟我学企业管控 辛明珠编著 ERP原理与实践 http://www.yuntu.io/
14.数据科学与大数据技术毕业论文(毕设)任务书大全XX市出租车服务管理信息系统设计与实现 出租公司管理系统设计与实现 停车缴费管理系统PC端的设计与实现 车辆故障管理系统设计与实现 面向汽车电子系统设计与实现 病历管理系统设计与实现 药店管理系统设计与实现 电子书店管理系统设计与实现 图书管理系统设计与实现 https://blog.csdn.net/rjqqew/article/details/139858353
15.云图店务通软件简介云图店务通应用软件怎么样云图店务通功能会员管理是店铺管理系统中不可忽略的一部分,是未来可持续发展的重要一环。现阶段在手机上,会员管理软件哪个好用呢?下面maigoo编辑和大家一起看看智讯开店宝、AI客赞、云上铺、云图店务通、店来客美业通等会员管理系统app。 工具软件 企业管理 手机app 1.1万+ 十大企业管理软件 企业管理软件哪个好用 企业办公管理https://www.maigoo.com/citiao/356563.html
16.图书整理范文9篇(全文)由于现代大型图书馆的图书种类繁多, 数量巨大, 有的藏书多达数百万册, 如何快速准确地检测图书摆放位置是否正确, 成为提高图书馆管理效率的重要手段。 在以往的图书馆管理系统中, 馆藏图书多使用彩条来辅助区分图书类别。按照传统的方式, 馆员直接通过肉眼观察彩条来区分图书的类别并将之归到相应位置, 但在馆藏图书https://www.99xueshu.com/w/ikeyh58wjs69.html
17.开奖指路小马哥信号与系统960题正式来自云图图书旗舰店云图图书旗舰店 24-08-6 14:25 发布于 湖南 来自 微博网页版 已编辑 开奖指路O云图图书旗舰店《小马哥信号与系统960题》正式现货!【官卷平】揪3个包子送【小马哥信号与系统960题】8.11开奖通信考研的最强题库正式上线啦64个专题,960道22&23年真题,量大题新管饱https://weibo.com/7744077280/Or0Nb8Gbb
18.计算机网络论文15篇这就需要使主机不能受到外界环境的干扰,只有被授予“管理员”身份的用户才有权利进入到主机的管理界面中去,从而保障主机的可用性与可操作性。病毒与木马都是在互联网络上最容易对计算机的用户造成破坏原因之一,一旦入侵到主机的管理系统极容易造成整个系统的崩溃,从而威胁着整个数字图书馆计算机网络的安全。https://www.yjbys.com/biyelunwen/fanwen/jisuanji/733688.html