关于翻页到最后的问题

Sat, 11/20/2010 - 01:39 — xxdyjsygcw

我想爬人人网好友的状态，但是状态列表的翻页栏很奇怪，我在工作台中翻到尾页，此时网页上看不到到下一页，但是在旁边的源码里可以找到“下一页”。。然后问题是，我可以获得到某个好友的所有状态，但是当到达最后一页时，一直会不停的重复提取最后一页。。就无法自动提取下一个人的状态了。请问杂解决。。。。

Sat, 11/20/2010 - 09:59 — Fuller

以前也遇到过，但是没有仔细研究原因，这一次你提供了一个很好的线索：在源码中有“下一页”，但是网页上看不到。

也许能够找到解决方案，你把那个网页发布出来看看。

以前我都是采用一个权宜之计，在crontab.xml中，设置depth参数，估计一个适当的值，超过这个数字DataScraper就不翻页了。

Sat, 11/20/2010 - 11:24 — xxdyjsygcw

网站地址http://www.renren.com/home#//status/status?id=xxxxxxx(好友的ID号) 但是这个需要登录的。。搞不懂，我又用relative试了一下只能获取前两页的，不知道是不是我没设置好哎

Sat, 11/20/2010 - 16:23 — Fuller

在crontab.xml中设置depth参数，参见：http://www.gooseeker.com/cn/node/technology/files/pss ，可以限制翻页数量

relative线索不一定适用，最好使用marker线索

Mon, 11/22/2010 - 20:22 — xxdyjsygcw

试过了还是不行怎么知道.xml配置成功没有？好像没什么区别。在线等~
应该有完成条件的吧。。比如当前获取的内容跟上次获取的一模一样就停止之类的。。郁闷了

Mon, 11/22/2010 - 23:11 — Fuller

crontab.xml如果能够用Firefox打开，则说明编码没有错误，否则先检查crontab.xml是否符合XML规范。

如果crontab.xml中的auto参数设置为true，配置了多少个thread，就会显示多少个简化的DataScraper窗口，加上DataScraper管理窗口，应该是N+1个

如果上述两条都对了，就能够用depth限制爬行深度。

也可以设置dupRatio参数，例如，80，如果连续三页平均重复率达到80%，则终止。注意，此处所说的重复不是指内容重复，而是指提取到的线索的重复率。如果指提取数据，而不创建线索，这个参数没有用。

Wed, 11/24/2010 - 13:16 — xxdyjsygcw

谢谢哈，会用那个东西了。。不过主题名之前不小心取了个中文名，XML里面改成GB2312或者GBK就都没反应了。。。我现在是A获得列表链接，B获得链接中数据，B是中文主题名，我不想再跑一边A去生成B的线索了。。怎么办

Wed, 11/24/2010 - 14:37 — Fuller

各种网页编码都支持，抓取下来以后，统一存成UTF-8

GooSeeker