hammerlet_fanri_kaidi 是这个schema 我用info的线索来翻页,就是把下一页的href当做info来翻页, 但是一翻页,开始开好好的,但翻了几页,就开始从第10页跳过中间几页,翻到15页,又跳过中间的翻到20页。 请问这是怎么回事呢?
如果连续翻页不成功,则可以用info线索抓取下一页的网址,普通网络爬虫都是这么实现的,通常不是只抓代表下一页的那个网址,而是抓翻页区中的所有的超链接。也可以不用Info类,在Clue Editor中用Pattern类。
需要注意:需要使用crontab.xml中的updateClue=false,不然的话一些分页会翻来覆去地抓取。
为什么不直接使用inthread线索翻页抓取这个凯迪网?
不用inthread,您指的是为什么不用marker翻页吗?因为他会出来验证码。。。防止机器人。。。
如果你只想抓“下一页”这个对应的网址,根据样本页面得出的抓取规则:following-sibling::div[position()=1]//*[@class='pagesmodule']/a[position()=10]/@href ,表示只抓第10个,手工翻页看看,翻到第5页,就是第12个了。所以,要将页码区的所有页码的网址都抓下来。
这个网站乍一看网址很像一个机票网站,而且抓取机票网站也容易被封锁,这点也像。网址中的boardid=0&arrival=2012-03-01&departure=2012-09-23分别是登机号、达到时间、起飞时间,很有意思
请问这个每一页重复抓两三遍的问题怎么解决? 是不是跟设置了延长模式有关?但是不设置延长模式,它一出验证码,马上就白页了。
还有就是这个schema会出现漏抓的现象,请问有什么快速的办法能够知道它漏抓的位置吗? 谢谢!
将updateClue设置成false,就防止重复抓取。
请问还有什么其他可能吗? 谢谢!!
比如,多次翻到第10页,看看每次的url地址是否一样,如果不一样,系统当成多个线索,updateClue=false也没有用
如果不是上述原因,再就可能是抓取翻页线索定位不准。现在是抓页码区的所有页码吗?
那不是跳页
如果连续翻页不成功,则可以用info线索抓取下一页的网址,普通网络爬虫都是这么实现的,通常不是只抓代表下一页的那个网址,而是抓翻页区中的所有的超链接。也可以不用Info类,在Clue Editor中用Pattern类。
需要注意:需要使用crontab.xml中的updateClue=false,不然的话一些分页会翻来覆去地抓取。
为什么不直接使用inthread线索翻页抓取这个凯迪网?
确实是跳页。。。不知道怎么回事。。。
不用inthread,您指的是为什么不用marker翻页吗?因为他会出来验证码。。。防止机器人。。。
抓翻页区的所有页码
如果你只想抓“下一页”这个对应的网址,根据样本页面得出的抓取规则:following-sibling::div[position()=1]//*[@class='pagesmodule']/a[position()=10]/@href ,表示只抓第10个,手工翻页看看,翻到第5页,就是第12个了。所以,要将页码区的所有页码的网址都抓下来。
这个网站乍一看网址很像一个机票网站,而且抓取机票网站也容易被封锁,这点也像。网址中的boardid=0&arrival=2012-03-01&departure=2012-09-23分别是登机号、达到时间、起飞时间,很有意思
还有一个问题,就是这个schema每一页要重复抓两三遍
请问这个每一页重复抓两三遍的问题怎么解决?
是不是跟设置了延长模式有关?但是不设置延长模式,它一出验证码,马上就白页了。
还有就是这个schema会出现漏抓的现象,请问有什么快速的办法能够知道它漏抓的位置吗?
谢谢!
要使用crontab.xml防止重复抓取
将updateClue设置成false,就防止重复抓取。
我一直设置的是false......
请问还有什么其他可能吗?
谢谢!!
手工翻页看看网址是否变化
比如,多次翻到第10页,看看每次的url地址是否一样,如果不一样,系统当成多个线索,updateClue=false也没有用
如果不是上述原因,再就可能是抓取翻页线索定位不准。现在是抓页码区的所有页码吗?