新浪新闻的重复评论

你好!我正在用datascraper收集一些新浪新闻底下的评论,有些页数很多,完成以后,我自己对包含html格式的结果进行了处理,但是发现有很多评论是重复的,如下: (每一个id对应一个用户的一条评论)
Found a same one: id: 222--->id: 219
Found a same one: id: 223--->id: 220
Found a same one: id: 224--->id: 221
Found a same one: id: 301--->id: 300
Found a same one: id: 490--->id: 489
Found a same one: id: 796--->id: 415
....
然后我去检查原始的.xml文件,发现确实是有一模一样的评论.评论时间,地点,用户名,内容, .... 完全一样
我不知道你们有没有遇到这种问题,是新浪服务器的问题,还是浏览器的问题呢? 谢谢!

新浪新闻的重复评论

我现在也在抓取新浪有关动车追尾的评论。有的重复是因为在翻页抓取时,在抓到一定页数时,新浪页面上会显示“正在读取帖子数据...”,这时DataScraper抓取时,下面页数是一直在变化,但由于页面内容还没有变化,因为一直在显示“正在读取帖子数据...”,这时抓下来的数据还是原来那个页面的内容,而不是最新页面的内容,这样最新页面的内容就会被漏掉。因而抓下来的数据会有重复。。
不知道该怎么解决呀
我的主题名是“sunxhiner_sina_动车追尾”,你们可以试验一下。用查重软件检查,发现会有好多重复的xml文件,内容一模一样。我也已经设置了积极和延长模式。。不知有没有一个好一点的解决方案

新浪评论要用AJAX抓取方式

新浪评论好像都是用Javascript动态生成的,是否使用了MetaSeeker的AJAX抓取方式?

我们没有正式抓取过新浪评论,以前只是简单的测试过。你可以将有疑问的网页地址发出来,我们试试

疑问

对,我是用的AJAX方式。比如一组评论有4000条的话,那么其中有1000多条是重复的,分布在不同的地方。很多新浪的评论网页都是这样,如果评论页数比较少,不会有问题,但是多的话比如100多页,其中就会有反复出现的同样的评论。好像是随机出现的,我想会不会是新浪服务器的问题。

从来没有试过抓取这么多新浪评论

需要翻100多页也太多了,可能会有服务器分页显示的问题。如果这个评论是活跃的话,肯定会遇到重复的情况,当你抓取了第一页,正在往第二页翻的时候,有人进行了评论,那么分页位置就改变了,抓取第二页的时候会抓到原来属于第一页的。