翻页问题 | GooSeeker

翻页问题

Mon, 09/10/2012 - 19:50 — hammerlet

这个信息结构：hammerlet_kaidi
他翻到第41页就不动了，很奇怪，信息结构似乎没有不同。
请指教！

还有一个问题，有些论坛，他为了防止机器人，就会设置验证码，一般是要在内嵌的浏览器里填一下的是吗？
但是有时候填验证码的那个空格在浏览器的顶端，页面无法往上拉，一拉他就下来了。那该怎么办呢？
谢谢啦！！

Web信息提取

Login to post comments

Mon, 09/10/2012 - 22:12 — Fuller

抓取普通论坛不用这么麻烦

1，不用设置AJAX抓取选项，不用自动滚屏，如果是企业版的话甚至可以关闭javascript和图片下载，只抓html
2，全是静态内容，所有超链接都是普通A元素，就可以不用连续翻页，抓取第一页的时候，将下一页的url作为普通info类线索进行抓取，但是主题名是相同的，这样一个分页一个分页地抓取，就可以控制节奏，就不会遇到输入验证码的情况了

Login to post comments

Sun, 09/23/2012 - 17:31 — hammerlet

请问以info来设置翻页的问题

您在第二点中所说的，该怎么自动完成呢？
当用普通的info来翻页时，这个schema会自动增加一个线索，但是都需要手动提取。
如果是用那个自动提取文件，该怎么弄呢？
请教！

Login to post comments

Sun, 09/23/2012 - 20:00 — Fuller

info线索不是用来翻页

info线索是用来抓取下一级线索，不是用来翻页的，通常我们说翻页专指有页码的那种情况。两级抓取可以用crontab.xml的两个线程并行抓取，也可以只用一个线程顺序抓取

Login to post comments

Sun, 09/23/2012 - 17:47 — hammerlet

已经解决！

就是把period设置成0是吧~
谢谢啦！

Login to post comments

Sun, 09/23/2012 - 20:04 — Fuller

period一般不设置成0

设置成0也没有关系，但是，一般来说可以在完成一批抓取以后，让目标网站歇会。不过不歇也行，我们这种持续抓取实际上给对法压力很大，如果歇的时间不长，减轻不了多少压力。而那些综合网络爬虫，通常都是阵发性的，歇的时间很长，但是一发作就会有很多线程同时抓。发作持续时间很短

Login to post comments