用info翻页出现跳页现象

hammerlet_fanri_kaidi
是这个schema
我用info的线索来翻页,就是把下一页的href当做info来翻页,
但是一翻页,开始开好好的,但翻了几页,就开始从第10页跳过中间几页,翻到15页,又跳过中间的翻到20页。
请问这是怎么回事呢?

那不是跳页

如果连续翻页不成功,则可以用info线索抓取下一页的网址,普通网络爬虫都是这么实现的,通常不是只抓代表下一页的那个网址,而是抓翻页区中的所有的超链接。也可以不用Info类,在Clue Editor中用Pattern类。

需要注意:需要使用crontab.xml中的updateClue=false,不然的话一些分页会翻来覆去地抓取。

为什么不直接使用inthread线索翻页抓取这个凯迪网?

确实是跳页。。。不知道怎么回事。。。

不用inthread,您指的是为什么不用marker翻页吗?因为他会出来验证码。。。防止机器人。。。

抓翻页区的所有页码

如果你只想抓“下一页”这个对应的网址,根据样本页面得出的抓取规则:following-sibling::div[position()=1]//*[@class='pagesmodule']/a[position()=10]/@href ,表示只抓第10个,手工翻页看看,翻到第5页,就是第12个了。所以,要将页码区的所有页码的网址都抓下来。

这个网站乍一看网址很像一个机票网站,而且抓取机票网站也容易被封锁,这点也像。网址中的boardid=0&arrival=2012-03-01&departure=2012-09-23分别是登机号、达到时间、起飞时间,很有意思

还有一个问题,就是这个schema每一页要重复抓两三遍

请问这个每一页重复抓两三遍的问题怎么解决?
是不是跟设置了延长模式有关?但是不设置延长模式,它一出验证码,马上就白页了。

还有就是这个schema会出现漏抓的现象,请问有什么快速的办法能够知道它漏抓的位置吗?
谢谢!

要使用crontab.xml防止重复抓取

将updateClue设置成false,就防止重复抓取。

我一直设置的是false......

请问还有什么其他可能吗?
谢谢!!

手工翻页看看网址是否变化

比如,多次翻到第10页,看看每次的url地址是否一样,如果不一样,系统当成多个线索,updateClue=false也没有用

如果不是上述原因,再就可能是抓取翻页线索定位不准。现在是抓页码区的所有页码吗?