1.主题式网络爬虫名称:掌上高考高校数据爬取与可视化爬虫
2.主题式网络爬虫爬取的内容与数据特征分析:
-爬取内容:掌上高考网站上的高校数据,包括高校名称、所在地、类型(综合类、理工类等)、排名、学科门类等信息。
-数据特征分析:高校数据具有结构化特点,可以通过HTML标签和属性进行定位和提取。同时,由于高校数据的多样性,需要对不同类型的高校进行分类处理
3.主题式网络爬虫设计方案概述:
-实现思路:
(1).确定目标网站:掌上高考网站。
(2).分析网页结构:使用浏览器开发者工具查看网页源代码,分析大学数据的HTML标签和属性。
(3).编写爬虫代码:根据分析结果,使用Python的第三方库编写爬虫代码,实现对高校数据的爬取。
(4).数据清洗与存储:对爬取到的数据进行清洗和格式化处理,将数据存储到合适的数据结构中,如列表、字典等。
(5).数据可视化:使用Python的可视化库对高校数据进行可视化展示,如绘制柱状图、折线图等。
-技术难点:
(1).动态加载:部分网页数据是通过JavaScript动态加载的,需要使用Selenium等工具模拟浏览器操作,获取动态加载的数据。
(2).反爬机制:目标网站可能采用反爬机制,如设置User-Agent、限制访问频率等,需要使用代理IP、设置请求头等方式绕过反爬策略。
(3).数据清洗:爬取到的数据可能存在缺失值、异常值等问题,需要进行数据清洗和预处理,确保数据的准确性和完整性。
三、主题页面的结构特征分析
1.主题页面的结构与特征分析:
(1).主题页面包含多个大学的信息、
(2).每个大学的信息包括学校名称、所在地、类型、排名等。
(3).页面中可能存在分页功能,需要翻页获取更多高校信息。
2.Htmls页面解析
3.节点(标签)查找方法与遍历方法
-查找方法:通过调用get_size()函数获取数据总数,然后调用get_university_info()函数进行分页爬取
-遍历方法:是在get_university_info()函数中,使用for`循环遍历每一页的数据
四、网络爬虫程序设计
Part1:爬取查学校里面院校库的网页数据并保存为“全国大学数据.csv”文件
Part2:用访问量排序来查询保存下来的“全国大学数据.csv”文件
Part3:用条形图显示全国各省的“双一流”和“非双一流”高校数量
Part4:根据“全国省市区行政区划.xlsx”文件结合“全国大学数据.csv”中的经纬度生成全国高校地理分布图
Part5:针对全国高校的热度排行创建一个柱状图,并在其中创建一个散点图用来显示高校名称和周访问量。
Part6:查询热度排名前十的省份内前三的学校
Part7:查询北京市热度排名前十五的学校
Part8:查询全国高校按类别划分的热度图
爬虫课程设计全部代码如下:
1.根据柱状图了解到河南的非双一流学校最多,北京的双一流学校最多。
2.根据地图了解到国内大部分高校分在国家的东部和中部。
3.根据柱状图了解到大家对厦门大学、四川大学比较感兴趣。
4.根据柱状图了解到排名第一的福建省只有一所厦门大学热度超前,而四川省、湖北省、广东省、北京市的高校热度都较为平均。