我在新浪微博中输入关键词,然后抓取,翻到24页就停止了,总共五十页,schema叫“绝食”。 请问这是怎么回事呢? More Pages设置是30,Delay ratio是2. 问题可能出在哪儿呢? 谢谢!
DataScraper窗口下部是日志列表,要看日志是什么。
MetaStudio加载这个信息结构,然后在MetaStudio的内嵌浏览器中翻到24页,刷新DOM后,选择菜单“文件”-〉“分析页面”,看看是否24页的网页结构不一样
他停止的情况似乎是随机的 我刚抓了三次,他有时候在15页停,有时候在第4页停,很奇怪。 schema的名字叫“绝食”,不知道能否帮忙看下~ 谢谢啦!
新浪微博网页上用了太多AJAX代码,很多内容是在网页加载完才开始陆续加载上的,万一翻页那块一开始没有加载上,就无法翻页了。可以这样试验一下: 1,确保计算机比较新,处理速度比较快;最好用ADSL上网 2,打开DataScraper的自动滚屏功能,虽然看起来没有必要滚屏,但是,滚屏可以增加等待时间
DataScraper日志
DataScraper窗口下部是日志列表,要看日志是什么。
MetaStudio加载这个信息结构,然后在MetaStudio的内嵌浏览器中翻到24页,刷新DOM后,选择菜单“文件”-〉“分析页面”,看看是否24页的网页结构不一样
结构没有不同
他停止的情况似乎是随机的
我刚抓了三次,他有时候在15页停,有时候在第4页停,很奇怪。
schema的名字叫“绝食”,不知道能否帮忙看下~
谢谢啦!
没有抓取完的原因
新浪微博网页上用了太多AJAX代码,很多内容是在网页加载完才开始陆续加载上的,万一翻页那块一开始没有加载上,就无法翻页了。可以这样试验一下:
1,确保计算机比较新,处理速度比较快;最好用ADSL上网
2,打开DataScraper的自动滚屏功能,虽然看起来没有必要滚屏,但是,滚屏可以增加等待时间