在抓取搜狐的评论 李天一案谣言泛滥 教授:对暗箱操作有黑色记忆 的评论时 总是抓不全 是翻页设置错了吗 还有就是我发现每次datascrp 都会在第2页卡住 就不往第3页继续抓取了 我在想原因是不是因为 有的人是文本的评论 有的人直接发一个img的图片上去的原因 我不明白 麻烦了 谢谢
请将网页地址和主题名帖出来,我们可以查下原因
网曝李天一小学照 老师证实系与李双江之子重名 地址http://pinglun.sohu.com/s368764295.html 网页上显示评论有4000多条可是抓不下来 谢谢 麻烦了
MetaSeeker服务器上关于李天一的主题太多了,具体是哪个?
我抓了好多次 具体的主题名是 李天一搜狐3 谢谢 麻烦了哈
我的主题名是 杨达才搜狐1 网址是http://news.sohu.com/20120920/n353634351.shtml 怎么抓都只是2页内容 还有就是搜狐发翻页的上面下面都都 翻页的标示 上下都试了 都只抓2页 就结束了 这又是什么原因呢? 麻烦看一下吧
请将信息结构加载到MetaStudio上,然后选择菜单“配置”-〉“首选项”,弹出的窗口中有两个tab窗,您只修改了第一个的定位偏好,您需要修改第二个,即“线索定位”偏好,因为第二个优先级更高,选择“偏好class”,就可以看到生成的SCE规则有变化,定位翻页线索时,选择的DOM节点更接近“下一页”节点,这样就会提高适应性
我加载了您上传的 test-李天一6 的信息结构 但是我发现还是没办法发翻页抓取 麻烦您帮我看一下吧 杨达才搜狐4 谢谢
我还抓取了 杨达才搜狐5 麻烦您再看看 这次我没有 选择“线索定位”偏好 class 这次反而抓取了2页 就提示 time out to load 不明白是什么原因 就是无法翻页 之前的定义是 freeformat 定义的 麻烦您看一下 谢谢啦
请参看搜狐新闻评论翻页抓取技巧
目标网页是哪一个
请将网页地址和主题名帖出来,我们可以查下原因
主题名和网址
网曝李天一小学照 老师证实系与李双江之子重名 地址http://pinglun.sohu.com/s368764295.html 网页上显示评论有4000多条可是抓不下来 谢谢 麻烦了
关于李天一的主题太多了
MetaSeeker服务器上关于李天一的主题太多了,具体是哪个?
李天一搜狐3
我抓了好多次 具体的主题名是 李天一搜狐3 谢谢 麻烦了哈
我刚刚又试了抓取另一个评论 可是只抓取了2页内容就不往下抓取了
我的主题名是 杨达才搜狐1 网址是http://news.sohu.com/20120920/n353634351.shtml 怎么抓都只是2页内容 还有就是搜狐发翻页的上面下面都都 翻页的标示 上下都试了 都只抓2页 就结束了 这又是什么原因呢? 麻烦看一下吧
设置定位偏好
请将信息结构加载到MetaStudio上,然后选择菜单“配置”-〉“首选项”,弹出的窗口中有两个tab窗,您只修改了第一个的定位偏好,您需要修改第二个,即“线索定位”偏好,因为第二个优先级更高,选择“偏好class”,就可以看到生成的SCE规则有变化,定位翻页线索时,选择的DOM节点更接近“下一页”节点,这样就会提高适应性
还是无法翻页
我加载了您上传的 test-李天一6 的信息结构 但是我发现还是没办法发翻页抓取 麻烦您帮我看一下吧 杨达才搜狐4 谢谢
我又尝试了 仍无法 翻页
我还抓取了 杨达才搜狐5 麻烦您再看看 这次我没有 选择“线索定位”偏好 class 这次反而抓取了2页 就提示 time out to load 不明白是什么原因 就是无法翻页 之前的定义是 freeformat 定义的 麻烦您看一下 谢谢啦
请参看搜狐评论的另一个讨论
请参看搜狐新闻评论翻页抓取技巧