我的主题是 大众速腾 网址是 http://db.auto.sohu.com/model_1004/dianping-list.shtml 虽然能抓取评论 但是只抓了一部分 没抓完整 还有很多评论 没抓下来 这是什么原因? 麻烦您了 给看一下吧 谢谢
我的主题是 大众速腾 网址是 http://db.auto.sohu.com/model_1004/dianping-list.shtml 虽然能抓取评论 但是只抓了一部分 没抓完整 还有很多评论 没抓下来 这是什么原因? 麻烦您了 给看一下吧 谢谢
数据没有抓取完 为什么
还有一个问题 就是 在抓取的时候 DataScrape卡住了一次 是我手动 点击一些翻页 数据才继续被抓去 到显示 剩余线索 0 FIN 但是也没有抓取完所有的评论 这是什么问题呢? 请帮我看一下吧 谢谢啦
测试没有问题
搜狐汽车评论一个网页只有5条,测试了一下,都能抓下来。没有抓全是什么现象?一页5条评论只抓了4条?
翻页卡住的原因有很多,比如,可能当时网络刚好不稳定造成的。如果卡住,可能出现超时而中断,只有重新翻页了。
如果总是翻页到某个位置中断,则可能是信息结构定义不合理。
我说的没抓取完是
我说的没抓取完是 这网页的翻页区可翻的页数有300多页 可是抓取下来的文件只有68个 就终止了 我看最后一个文件的评论时67页的评论内容 所以还有很多68页之后的评论是没有抓下来的 这是为什么呢? 麻烦您了 谢谢
我抓了一遍
抓到了327个网页,你可以再抓一遍试试。如果网速很慢,可能会在中间中断,可以在crontab.xml中设置resumePageLoad和resumeMaxCount,参看周期性抓取指令文件