一、之前爬取一个网站,内容都可以抓取下来。就是反爬机制比较强,设置抓取间隔时间很久,还是被封IP了。这时候是不是只能采用多个IP的方式进行爬取了?
二、了解到有代理IP,匿名IP,重拨路由器等等方式,其实最终目的还是保证有个IP池。像我之前爬,基本上爬3分钟就被封了。那我要保证有多少个IP?按照这样算的话,爬30分钟,得有至少10个IP?
三、用采集器可以将内容可以抓下来,只是IP被封的问题。这时候采用采集器,或者采用Python编程的方式来爬,效果是不是一样?都是解决IP的问题。
四、自学python阶段,了解到有各种各样的库。每个库里边函数又有好多,学起来没有头绪。我是不是可以先了解Python的基本语法,然后直接了解爬虫中经常用的库,以及库中的函数就可以了?python2 和python3的选择、各种非标准库的安装,都是好费神的事情。学习过程中,资料有python2 也有python3 的资料。总之没有头绪啊!
都是目前阶段遇到的瓶颈,希望能得到大神提点!跪谢!
|
|
|
|
|
共 2 个关于本帖的回复 最后回复于 2016-11-3 10:32