我想爬人人网好友的状态,但是状态列表的翻页栏很奇怪,我在工作台中翻到尾页,此时网页上看不到到下一页,但是在旁边的源码里可以找到“下一页”。。然后问题是,我可以获得到某个好友的所有状态,但是当到达最后一页时,一直会不停的重复提取最后一页。。就无法自动提取下一个人的状态了。请问杂解决。。。。
以前也遇到过,但是没有仔细研究原因,这一次你提供了一个很好的线索:在源码中有“下一页”,但是网页上看不到。
也许能够找到解决方案,你把那个网页发布出来看看。
以前我都是采用一个权宜之计,在crontab.xml中,设置depth参数,估计一个适当的值,超过这个数字DataScraper就不翻页了。
网站地址http://www.renren.com/home#//status/status?id=xxxxxxx(好友的ID号) 但是这个需要登录的。。 搞不懂,我又用relative试了一下 只能获取前两页的,不知道是不是我没设置好哎
在crontab.xml中设置depth参数,参见:http://www.gooseeker.com/cn/node/technology/files/pss ,可以限制翻页数量
relative线索不一定适用,最好使用marker线索
试过了 还是不行 怎么知道.xml配置成功没有?好像没什么区别。在线等~ 应该有完成条件的吧。。比如当前获取的内容跟上次获取的一模一样就停止之类的。。郁闷了
crontab.xml如果能够用Firefox打开,则说明编码没有错误,否则先检查crontab.xml是否符合XML规范。
如果crontab.xml中的auto参数设置为true,配置了多少个thread,就会显示多少个简化的DataScraper窗口,加上DataScraper管理窗口,应该是N+1个
如果上述两条都对了,就能够用depth限制爬行深度。
也可以设置dupRatio参数,例如,80,如果连续三页平均重复率达到80%,则终止。注意,此处所说的重复不是指内容重复,而是指提取到的线索的重复率。如果指提取数据,而不创建线索,这个参数没有用。
谢谢哈,会用那个东西了。。不过主题名之前不小心取了个中文名,XML里面改成GB2312或者GBK就都没反应了。。。我现在是A获得列表链接,B获得链接中数据,B是中文主题名,我不想再跑一边A去生成B的线索了。。怎么办
各种网页编码都支持,抓取下来以后,统一存成UTF-8
也许是给网络爬虫设的陷阱
以前也遇到过,但是没有仔细研究原因,这一次你提供了一个很好的线索:在源码中有“下一页”,但是网页上看不到。
也许能够找到解决方案,你把那个网页发布出来看看。
以前我都是采用一个权宜之计,在crontab.xml中,设置depth参数,估计一个适当的值,超过这个数字DataScraper就不翻页了。
没那么玄吧~~~
网站地址http://www.renren.com/home#//status/status?id=xxxxxxx(好友的ID号) 但是这个需要登录的。。 搞不懂,我又用relative试了一下 只能获取前两页的,不知道是不是我没设置好哎
可以先设置depth应对这个问题
在crontab.xml中设置depth参数,参见:http://www.gooseeker.com/cn/node/technology/files/pss ,可以限制翻页数量
relative线索不一定适用,最好使用marker线索
不好用啊
试过了 还是不行 怎么知道.xml配置成功没有?好像没什么区别。在线等~
应该有完成条件的吧。。比如当前获取的内容跟上次获取的一模一样就停止之类的。。郁闷了
可以设置抓取重复率参数
crontab.xml如果能够用Firefox打开,则说明编码没有错误,否则先检查crontab.xml是否符合XML规范。
如果crontab.xml中的auto参数设置为true,配置了多少个thread,就会显示多少个简化的DataScraper窗口,加上DataScraper管理窗口,应该是N+1个
如果上述两条都对了,就能够用depth限制爬行深度。
也可以设置dupRatio参数,例如,80,如果连续三页平均重复率达到80%,则终止。注意,此处所说的重复不是指内容重复,而是指提取到的线索的重复率。如果指提取数据,而不创建线索,这个参数没有用。
只支持UTF-8?
谢谢哈,会用那个东西了。。不过主题名之前不小心取了个中文名,XML里面改成GB2312或者GBK就都没反应了。。。我现在是A获得列表链接,B获得链接中数据,B是中文主题名,我不想再跑一边A去生成B的线索了。。怎么办
各种网页编码都支持
各种网页编码都支持,抓取下来以后,统一存成UTF-8