废话不多说,直接进入主题了。
1、采集多个关键词的搜索结果。第一层的主题是不是只做个动作?在连续动作中,输入关键词,然后点击搜索,不需要做任何内容映射?

2、连续动作中需要输入定位表达式,也就是Xpath语言。作为一个纯小白,只能跟着教程走。但是Xpath的东西太多了,单学习的话,W3School中有一大篇内容。上手太慢了。

我现在只需要在这个网页中 输入这个定位表达式就可以了。单个学习那么一大篇投入时间精力太大了!公司也不允许啊。
3、如果做完上述关键词的输入,输入下一级的主题名字。下一级的主题网址怎么办?我原来已经做好一个关键词的全部规则了。详情页,翻页,模拟点击都有,也不会重新做了。由于定位表达式卡住,我也没办法尝试这一步。所以提前咨询一下了。
4、使用爬虫群并发采集,配置了爬虫群。像先翻页采集,为下一级提供下级网址,然后才能采集详情页信息。这是必须先做第一步,才能做第二步。而爬虫群是并发采集,有影响嘛?我该如何配置,让他们在爬虫群中自动进行,不然每次人工点有些麻烦。

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-7-16 18:04

沙发
Fuller 管理员 发表于 2016-7-16 08:56:29 | 只看该作者
1,第一级可以只管输入关键词,做动作。为了确保输入能够准确对准INPUT元素,可以创建一个抓取内容,把这个INPUT映射给他,并且设置关键内容。这样就能确保规则与网页结构对的上

2,在DOM上选中一个节点,DOM窗口下部有个按钮:显示XPath,有好几种选择,比如,使用 显示XPath:偏好id,就能自动生成xpath,把这个xpath拷贝过来就可以了

3,DS网络爬虫运行的时候,下一级不需要独立网址;MS定义规则的时候,在MS的浏览器窗口中把网页加载好,做完动作,等网页稳定下来,就给他做规则

4,连续动作的话,第一级和第二级都是连贯执行的,第二级没有独立网址。要想并行的话,需要在第一级并行,比如,多个第一级网址,或者购买“连发弹仓”服务
举报 使用道具
板凳
759924607 高级会员 发表于 2016-7-16 18:00:20 | 只看该作者
Fuller 发表于 2016-7-16 08:56
1,第一级可以只管输入关键词,做动作。为了确保输入能够准确对准INPUT元素,可以创建一个抓取内容,把这个 ...

第二个问题中:自动生成的定位表达式是这样的://*[@class='search-ipt']。我看教程中的定位表达式前边都有input,也就是//input*[@class='search-ipt']。这个没影响吧?
第四个问题中:第一级只是翻页采集了下级网址,也就是有个下级线索引入第二级。并不需要设置连续动作。那这样就必须人工再点一下采集了吧?只有第一级采完,才能为第二级提供线索。
举报 使用道具
地板
Fuller 管理员 发表于 2016-7-16 18:04:50 | 只看该作者
要么 //*[@class='search-ipt'],要么 //input[@class='search-ipt'] ,你写的那个不对

如果第二级是普通的线索,那么第二级的运行也需要人工启动,或者用爬虫群模式,设置好调度参数自动启动
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 06:26