这个信息结构:hammerlet_kaidi 他翻到第41页就不动了,很奇怪,信息结构似乎没有不同。 请指教!
还有一个问题,有些论坛,他为了防止机器人,就会设置验证码,一般是要在内嵌的浏览器里填一下的是吗? 但是有时候填验证码的那个空格在浏览器的顶端,页面无法往上拉,一拉他就下来了。那该怎么办呢? 谢谢啦!!
1,不用设置AJAX抓取选项,不用自动滚屏,如果是企业版的话甚至可以关闭javascript和图片下载,只抓html 2,全是静态内容,所有超链接都是普通A元素,就可以不用连续翻页,抓取第一页的时候,将下一页的url作为普通info类线索进行抓取,但是主题名是相同的,这样一个分页一个分页地抓取,就可以控制节奏,就不会遇到输入验证码的情况了
您在第二点中所说的,该怎么自动完成呢? 当用普通的info来翻页时,这个schema会自动增加一个线索,但是都需要手动提取。 如果是用那个自动提取文件,该怎么弄呢? 请教!
info线索是用来抓取下一级线索,不是用来翻页的,通常我们说翻页专指有页码的那种情况。两级抓取可以用crontab.xml的两个线程并行抓取,也可以只用一个线程顺序抓取
就是把period设置成0是吧~ 谢谢啦!
设置成0也没有关系,但是,一般来说可以在完成一批抓取以后,让目标网站歇会。不过不歇也行,我们这种持续抓取实际上给对法压力很大,如果歇的时间不长,减轻不了多少压力。而那些综合网络爬虫,通常都是阵发性的,歇的时间很长,但是一发作就会有很多线程同时抓。发作持续时间很短
抓取普通论坛不用这么麻烦
1,不用设置AJAX抓取选项,不用自动滚屏,如果是企业版的话甚至可以关闭javascript和图片下载,只抓html
2,全是静态内容,所有超链接都是普通A元素,就可以不用连续翻页,抓取第一页的时候,将下一页的url作为普通info类线索进行抓取,但是主题名是相同的,这样一个分页一个分页地抓取,就可以控制节奏,就不会遇到输入验证码的情况了
请问以info来设置翻页的问题
您在第二点中所说的,该怎么自动完成呢?
当用普通的info来翻页时,这个schema会自动增加一个线索,但是都需要手动提取。
如果是用那个自动提取文件,该怎么弄呢?
请教!
info线索不是用来翻页
info线索是用来抓取下一级线索,不是用来翻页的,通常我们说翻页专指有页码的那种情况。两级抓取可以用crontab.xml的两个线程并行抓取,也可以只用一个线程顺序抓取
已经解决!
就是把period设置成0是吧~
谢谢啦!
period一般不设置成0
设置成0也没有关系,但是,一般来说可以在完成一批抓取以后,让目标网站歇会。不过不歇也行,我们这种持续抓取实际上给对法压力很大,如果歇的时间不长,减轻不了多少压力。而那些综合网络爬虫,通常都是阵发性的,歇的时间很长,但是一发作就会有很多线程同时抓。发作持续时间很短