第一个:很多人喜欢抓微博来练手,资源区里也有很多朋友发布的规则。来提一个小细节问题,假设要抓取微博主第一页的博文,微博开放140字后是可以写很长的,那么长博文在界面显示效果是如图这样的。后面有个“展开全文”的链接,如果直接定位采集如图的博文的话会显示“(上略)M档+手动对焦...展开全文c”,采集到的是不完整的博文内容。GooSeeker的“微博采集工具箱”也是存在这种问题的。
所以我当时是想要解决这个问题,直接采集到完整的博文内容。我们假设只采集博主的第一页微博,第一页微博有2条含有“展开全文“的长微博。
GooSeeker这边能够达到点击效果的是”爬虫路线“和”连续动作“,流程就变成了主题1--滚屏加连续动作点击”展开全文“,执行到连续动作点击后执行主体2--抓取数据。
因为主页有2处需要点击的”展开全文“,所以最后得到了2份抓取的xml文件,只有第2份xml才是抓取到的全部长博文,第一份xml是不能使用的。虽然最后可以通过Excel合并去重复功能得到一些近似完美的数据,但是这种流程仍然不是特别的完美。
理想的流程就是打开网页,从上往下滚屏,加载出没有显示的所有博文,遇到”展开全文“的链接后模拟点击一下,是全部的文章显示在页面上。滚屏到底后,全部文章加载完成,并且长博文也完全展开了,然后执行定位的抓取,获得包含全部数据的一份XML。
问题是GooSeeker这边的”爬虫路线“和”连续动作“两者都需要在执行完后跟随一个新主题。所以这个理想的流程是做不到的,GooSeeker之后是否能够改良下”动作“的使用方式,让点击之类的动作能够自由使用并且之后需不需要跟随新主题也可以自由来控制。这样在规划一些流程的时候会更加的自由一些。
第二个:偶然遇到的一个小问题,做主题后在谋数台的”线索规则“ 有个自动生成的Xpath(命名为Xpath-1),之后我重新编写了Xpath优化了下翻页规则(新的命名为Xpath-2),然后点击了下右边的”保存修改“按钮。在论坛看到过一个帖子说点击保存修改后不可以在谋数台点击”存规则“,否则xpath会被重新覆盖回去。之后测试了下优化后的xpath,运行一切正常。之后关闭操作界面,重开谋数台找到刚才修改的主题导入--后续分析后,”线所规则“栏里显示的还是之前自动生成的xpath (Xpath-1),后续测试的效果确实是优化后的Xpath-2结果。所以说”线所规则“栏目里不会更变成修改后的结果,旁边的”数据规则“也有类似的问题,这应该是一个需要改进的地方吧。希望在之后的版本能够修正过来。谢谢
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 4 个关于本帖的回复 最后回复于 2016-8-26 17:42