发布网友 发布时间:2022-04-25 21:28
共3个回答
热心网友 时间:2022-05-07 23:07
不一定。
Scrapy是个框架,很多轮子不用自己这写了。
不过Scrapy比较“重”,如果是小型、单一的爬虫任务,我觉得自己重头写反而比较轻便快速,够用就好。
题主是不是刚开始学爬虫,如果是,建议先理解爬虫的几个模块,理解了原理再学Scrapy才会有效率。我理解的模块有如下几个:
访问页面,用requests,知道get和post方法来获得网页的html代码。如果页面用到ajax之类动态加载的,可以通过分析原码爬人家的json(学习下python里json的包),或者了解一下selenium(不到万不得以不太推荐)的用法。
提取html里的内容,就是我们要爬的内容啦,这个方法有很多,比如正则式,比如xpath,比如BeautifulSoup等等,我主要是用xpath,复杂一点的情况会配合正则用。
保存,程序里,是存在字典还是列表还是pandas的DateFrame,就看你个人需要啦。程序外,可以直接存成txt、excel或者放进数据库,python这方面的现在的库也很多,教程也很多。
Scrapy在以上提到的基本模块基础上还加入了其他功能,如果哪天楼主觉得以上的模块不够用可以试着先自己造个小轮子,比如通过代理来换ip等等。等理解了这些模块时再学scrapy也不迟,而且事半功倍。至于安装问题,pip install scrapy不就能解决吗。。
热心网友 时间:2022-05-08 00:25
You can find the answer at this website:
http://www.icourse163.org/course/BIT-1001870001
热心网友 时间:2022-05-08 01:59
工作原因,这类产品我用的比较多,个人比较推荐
618动态IP(性价比高,ip质量好)