学Python爬虫一定要学scrapy模块吗

发布网友发布时间：2022-04-25 21:28

共3个回答

热心网友时间：2022-05-07 23:07

不一定。
Scrapy是个框架，很多轮子不用自己这写了。
不过Scrapy比较“重”，如果是小型、单一的爬虫任务，我觉得自己重头写反而比较轻便快速，够用就好。
题主是不是刚开始学爬虫，如果是，建议先理解爬虫的几个模块，理解了原理再学Scrapy才会有效率。我理解的模块有如下几个：
访问页面，用requests，知道get和post方法来获得网页的html代码。如果页面用到ajax之类动态加载的，可以通过分析原码爬人家的json(学习下python里json的包)，或者了解一下selenium（不到万不得以不太推荐）的用法。
提取html里的内容，就是我们要爬的内容啦，这个方法有很多，比如正则式，比如xpath，比如BeautifulSoup等等，我主要是用xpath，复杂一点的情况会配合正则用。
保存，程序里，是存在字典还是列表还是pandas的DateFrame,就看你个人需要啦。程序外，可以直接存成txt、excel或者放进数据库，python这方面的现在的库也很多，教程也很多。
Scrapy在以上提到的基本模块基础上还加入了其他功能，如果哪天楼主觉得以上的模块不够用可以试着先自己造个小轮子，比如通过代理来换ip等等。等理解了这些模块时再学scrapy也不迟，而且事半功倍。至于安装问题，pip install scrapy不就能解决吗。。

热心网友时间：2022-05-08 00:25

You can find the answer at this website:

http://www.icourse163.org/course/BIT-1001870001

热心网友时间：2022-05-08 01:59

工作原因，这类产品我用的比较多，个人比较推荐
618动态IP（性价比高，ip质量好）

全部栏目

学Python爬虫一定要学scrapy模块吗