Python爬虫系列——爬取豆瓣电影信息
创建项目
- 命令行工具:
scrapy startproject DoubanBookSpider
- 一般先在items.py配置数据字段
1 | class DoubanMovieCommentItem(scrapy.Item): |
- 在
settings.py
中配置相关信息
1 | ROBOTSTXT_OBEY = True # 遵守robot.txt |
数据存储
- 前面介绍了数据抓取、数据解析,这也是准备爬虫的最后一步,数据存储
- 使用pymysql库操作mysql数据库存储爬下来的数据
- 这部分自然是在数据处理部分
pipeline.py
1 | import pymysql |
你的电脑需要安装mysql数据库,可以使用Navicat操作
爬取数据
- 无需提交登录信息
1 | # -*- coding: utf-8 -*- |
执行命令:
scrapy crawl doubanmovie
,即可开始爬取
登录爬取影评
- 需要提交登录信息的表单,一般使用post提交,可以在开发者工具中的network查看 From-Data
1 | import scrapy |
总结
如今数据爬取难度持续增大,技术要求也越来越高,今天看到的实例可能过几天就失效了。很多网站需要使用JavaScript逆向,由于APP也是数据的重要载体,App的逆向也几乎已经是爬虫必备的技能……当然这也不完全是坏事,这让企业对爬虫工程师的需求量在逐步增多,薪资待遇也提升了不少。这里只是“照猫画虎”的介绍了爬虫的基本使用知识,如果你有志做个爬虫“黑客”,需要投入更多的精力,可以从这里开始,一步步进阶 !
同时,爬虫本身也是在打法律的擦边球,对于数据获取应该注重隐私,有法律意识!
如果你只是有一些爬取数据的需求,可以使用八爪鱼数据采集器,可以尝试使用Python的jieba分词和pandas模块实现数据统计。