工程名follow_list,能翻页到第二页但就停止抓取了。不知道是为什么,在线等结果。
为了提高翻页抓取的适应性,打开MetaStudio菜单 配置-〉首选项 ,选择“线索定位”,修改成“偏好class”,再在Clue Editor工作台上点击viewSCE,可以看到抓取翻页超链接的规则变化了,选择了更靠近“下一页”的@class作为定位FreeFormat,越靠近越有适应性。
另外,新浪微博的博主页面内容很多的话,通常不显示后面的内容,连翻页超链接都没有加载上来,那么需要在DataScraper设置自动滚屏,新浪微博的内容会在自动向下滚屏时才加载和显示出来。
新浪微博抓取规则修改建议
为了提高翻页抓取的适应性,打开MetaStudio菜单 配置-〉首选项 ,选择“线索定位”,修改成“偏好class”,再在Clue Editor工作台上点击viewSCE,可以看到抓取翻页超链接的规则变化了,选择了更靠近“下一页”的@class作为定位FreeFormat,越靠近越有适应性。
另外,新浪微博的博主页面内容很多的话,通常不显示后面的内容,连翻页超链接都没有加载上来,那么需要在DataScraper设置自动滚屏,新浪微博的内容会在自动向下滚屏时才加载和显示出来。