用info翻页出现跳页现象

Sun, 09/23/2012 - 20:20 — hammerlet

hammerlet_fanri_kaidi
是这个schema
我用info的线索来翻页，就是把下一页的href当做info来翻页，
但是一翻页，开始开好好的，但翻了几页，就开始从第10页跳过中间几页，翻到15页，又跳过中间的翻到20页。
请问这是怎么回事呢？

Web信息提取

Mon, 09/24/2012 - 09:21 — Fuller

那不是跳页

如果连续翻页不成功，则可以用info线索抓取下一页的网址，普通网络爬虫都是这么实现的，通常不是只抓代表下一页的那个网址，而是抓翻页区中的所有的超链接。也可以不用Info类，在Clue Editor中用Pattern类。

需要注意：需要使用crontab.xml中的updateClue=false，不然的话一些分页会翻来覆去地抓取。

为什么不直接使用inthread线索翻页抓取这个凯迪网？

Mon, 09/24/2012 - 10:36 — hammerlet

确实是跳页。。。不知道怎么回事。。。

不用inthread，您指的是为什么不用marker翻页吗？因为他会出来验证码。。。防止机器人。。。

Mon, 09/24/2012 - 14:54 — Fuller

抓翻页区的所有页码

如果你只想抓“下一页”这个对应的网址，根据样本页面得出的抓取规则：following-sibling::div[position()=1]//*[@class='pagesmodule']/a[position()=10]/@href ，表示只抓第10个，手工翻页看看，翻到第5页，就是第12个了。所以，要将页码区的所有页码的网址都抓下来。

这个网站乍一看网址很像一个机票网站，而且抓取机票网站也容易被封锁，这点也像。网址中的boardid=0&arrival=2012-03-01&departure=2012-09-23分别是登机号、达到时间、起飞时间，很有意思

Mon, 09/24/2012 - 21:00 — hammerlet

还有一个问题，就是这个schema每一页要重复抓两三遍

请问这个每一页重复抓两三遍的问题怎么解决？
是不是跟设置了延长模式有关？但是不设置延长模式，它一出验证码，马上就白页了。

还有就是这个schema会出现漏抓的现象，请问有什么快速的办法能够知道它漏抓的位置吗？
谢谢！

Mon, 09/24/2012 - 22:55 — Fuller

GooSeeker