废话不多说,直接进入主题了。
1、采集多个关键词的搜索结果。第一层的主题是不是只做个动作?在连续动作中,输入关键词,然后点击搜索,不需要做任何内容映射?
2、连续动作中需要输入定位表达式,也就是Xpath语言。作为一个纯小白,只能跟着教程走。但是Xpath的东西太多了,单学习的话,W3School中有一大篇内容。上手太慢了。
我现在只需要在这个网页中 输入这个定位表达式就可以了。单个学习那么一大篇投入时间精力太大了!公司也不允许啊。
3、如果做完上述关键词的输入,输入下一级的主题名字。下一级的主题网址怎么办?我原来已经做好一个关键词的全部规则了。详情页,翻页,模拟点击都有,也不会重新做了。由于定位表达式卡住,我也没办法尝试这一步。所以提前咨询一下了。
4、使用爬虫群并发采集,配置了爬虫群。像先翻页采集,为下一级提供下级网址,然后才能采集详情页信息。这是必须先做第一步,才能做第二步。而爬虫群是并发采集,有影响嘛?我该如何配置,让他们在爬虫群中自动进行,不然每次人工点有些麻烦。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2016-7-16 18:04