中文编程,用python编写小说网站爬虫

打开其中一本小说目录页,记住地址,然后调用f获取文档测试代码是否可以运行。

看起来只输出了一半内容,实际上v文档已经包含了所有内容,只不过是字符串太长了被print截断而已。

浏览一下小说网站结构,每个小说页面可以分为目录页、正文页。

设计2个接口,分别取名I小说和I章节,I小说用来提取小说信息和目录,I章节用来提取章节信息和小说正文。同时定义I文档,负责从网站上获取文档

先查看一下目录页的内容

从图中可以看到,目录最前面有最新章节,目录最后还有重复章节,这些都是需要去除掉的,保留从正文卷开始的章节。

检查网页元素后可知道,目录包含在元素中,章节链接藏在

元素里。然后开始写代码:

修改一下主函数,运行代码

似乎还有重复章节。我点开一些重复章节看了一下,地址不一样但是内容是一样的,应该是网站录入时出了问题。这个我就不管了。

提取完目录后,再看一下正文页。

修改主函数测试代码是否可用

从运行结果看,爬到的正文有空行有缩进。虽然没有问题,但是小说最终是要放进阅读器里慢慢看的,并不是所有的阅读器都能正确处理空行和缩进,所以还要在代码里对正文进一步处理。

写一个函数叫f处理正文,负责处理乱七八糟的空行和缩进

然后修改C章节.fg正文,在返回字符串时做一些处理

returnf处理正文(v正文文本)

这样看起来好多了。

确认可以爬到目录和正文之后,接下来就是把正文保存到电脑上。

在实际测试中,网站经常返回503。如果在代码里增加错误重试功能会导致代码变得又臭又长,这里我就不写了。

打开下载下来的文本文件看看。因为网站经常503,只爬了前几章就断掉了,所以没爬完。

上面的代码可以从一个特定的小说网站下载小说。但是这个网站是盗版小说网站,容易被封掉。或者有各式各样的理由需要从另外一个网站下载小说呢?

由于上面已经写过一些代码了,只需要照葫芦画瓢,重新写个C小说和C章节就行了。其他什么都不用动。

最后请大家以学习研究为目的写爬虫,毕竟爬别人的劳动成果是不好的,请大家多多支持正版。

THE END
1.图书管理系统(GUI)———pythonpython图书管理系统代码本代码主要为图书管理系统的‘增’、‘删’、‘改’、‘查’ 二.题目 (1)图书添加:允许用户输入图书的名称和位置 (2)图书删除 (3)图书位置修改:允许用户更改已存在图书的存放位置。 (4)图书信息查看 (5)退出系统:结束程序循环 代码分析: 1.设置窗口 https://blog.csdn.net/2401_86036532/article/details/142319399
2.国际标准书号(ISBN)详解它是国际标准书号(International Standard Book Number)的缩写,专门用于识别图书等文献。ISBN由13位数字组成,分为5段,每段之间用连接号或空格分隔。 每段数字代表什么? 第一段:“987”代表图书产品代码,987代表图书出版物。无论你在中国还是其他国家,任何一本正版图书的前三位数字都是987。 第二段:代表国家https://mbd.baidu.com/newspage/data/dtlandingsuper?nid=dt_4956711333512838629
3.java实现网上书城网上书店java代码java实现网上书城 网上书店java代码 一个基于Java的网上书店的设计与实现,归纳出了几个模块,首先是登录注册模块,购物车模块,订单模块,个人中心模块,用户管理模块,图书管理模块等。 该项目是java技术的实战操作,采用了MVC设计模式,查询分页,持久化层方法的封装等等,对java技术的巩固很有帮助,为J2EE的学习打下基础,适用https://blog.51cto.com/u_16099241/7892854
4.简易的图书管理系统代码(实现对数据的增删改查)godloverfrom django.dbimportmodels# Create your models here.# 图书表classBook(models.Model): # 书名 title = models.CharField(max_length=64) # 出版日期 publish_date = models.DateField(auto_now_add=True) # 价格 price = models.CharField(max_length=254) https://www.cnblogs.com/godlover/p/12180082.html
5.Django框架搭建的简易图书信息网站案例python这篇文章主要介绍了Django框架搭建的简易图书信息网站案例,结合具体实例形式分析了基于Django框架实现图书信息管理网站的具体步骤、相关实现技巧与操作注意事项,需要的朋友可以参考下本文实例讲述了Django框架搭建的简易图书信息网站。分享给大家供大家参考,具体如下:https://www.jb51.net/article/161923.htm
6.《代码审计:企业级Web代码安全架构seayweb网站信息安全测试书籍当当谈笑鸿儒图书专营店在线销售正版《代码审计:企业级Web代码安全架构 seay web网站信息安全测试书籍 漏洞挖掘与防范 PHP编程教程 机械工业》。最新《代码审计:企业级Web代码安全架构 seay web网站信息安全测试书籍 漏洞挖掘与防范 PHP编程教程 机械工业》简介、书评、试http://product.dangdang.com/1740385663.html?point=comment_point