scrapystartprojectwww_zhipin_com如果顺利的话,会像本人这样
在items.py文件中定义一个类
classWwwZhipinComItem(scrapy.Item):#definethefieldsforyouritemherelike:#name=scrapy.Field()pid=scrapy.Field()positionName=scrapy.Field()positionLables=scrapy.Field()workYear=scrapy.Field()salary=scrapy.Field()city=scrapy.Field()education=scrapy.Field()companyShortName=scrapy.Field()industryField=scrapy.Field()financeStage=scrapy.Field()companySize=scrapy.Field()time=scrapy.Field()updated_at=scrapy.Field()四、分析页面一般一条招聘像下面这样
html结构如下
爬虫中就是使用css选择器获取标签里的文字或链接等
在spiders目录下新建zhipin_spider.py
scrapycrawlzhipin-oitem.json这里会在项目目录下生成item.json的一个json文件
运行情况如下
但是不巧,往往这是一个Unicode编码的文件,所以需要加个设置
在settings.py中添加(PS:也可以在运行的时候带上这个参数)
FEED_EXPORT_ENCODING='utf-8'亲测以下方法是不能解决问题的
慢一点,才能快一点!
可以修改zhipin_spider.py第18行positionUrl的链接,把PHP修改为Java或Python,把城市编码('c101020100'==上海)换成你需要查询的城市,即可爬取自定的岗位,这就很灵性了!
一条json数据如下
{"pid":"16115932","positionName":"PHP后台开发工程师","salary":"13K-20K","city":"上海","workYear":"1-3年","education":"本科","companyShortName":"蜻蜓FM","industryField":"互联网","financeStage":"D轮及以上","companySize":"100-499人","positionLables":["PHP"],"time":"发布于昨天","updated_at":"2017-12-1017:36:21"},使用软件将json文件导入到MongoDB中,以备后面的使用
有人可能会问,爬这些数据有什么用呢,现在又不跳槽。
本人的回答是,那当然肯定必须有用啊,所谓防患于未然、知己知彼,百战不殆,只有及时了解市面上的需求,才能有针对性的提升自己、学习技术,从另一方面来看,那有关钱途的事都是大事啊。
ok,本文到此为止,下一篇就是让我们来好好分析,招聘PHP程序员,企业到底需要招聘的是什么样的PHP程序员。PHP程序员需要具备哪些常规技能和哪些冷门技能,应该点亮怎样的技能树,敬请期待。