一级规则:企业信息查询输入
执行时,不输入名称,不进行点击动作,帮忙看一下。

举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2021-9-27 22:16

沙发
Fuller 管理员 发表于 2021-9-25 09:00:57 | 只看该作者
在定义第一级的输入动作那里,有个选项“输入联想词”,应该勾上,有些网页没有勾上这个选项,输入的内容就无效

整个这套规则不需要使用连续动作,因为每一级都有独立网址。其实需要两级就行了。第一级是搜索结果列表页,也就是你现在的第二级,因为网址中含有搜索的关键词,所以,直接构造网址就行了。

在搜索结果列表页,采集详情页的网址,用层级采集,速度更快,更稳定,这是层级采集的教程:https://www.gooseeker.com/doc/article-523-1.html
举报 使用道具
板凳
jesscia_2020 高级会员 发表于 2021-9-25 10:19:55 | 只看该作者
我不需要所有的信息数据,我只需要特定的企业的所属服务行业数据,所有增加了输入项。
举报 使用道具
地板
wangyong 版主 发表于 2021-9-25 10:43:43 | 只看该作者
jesscia_2020 发表于 2021-9-25 10:19
我不需要所有的信息数据,我只需要特定的企业的所属服务行业数据,所有增加了输入项。 ...

你可以先把列表的内容采集下来,再根据你手里的名单匹配,把需要的公司链接找出来,作为规则添加到下级线索
举报 使用道具
5#
jesscia_2020 高级会员 发表于 2021-9-25 12:52:22 | 只看该作者
不输入信息,无法查询呢,怎么采集列表呢
举报 使用道具
6#
Fuller 管理员 发表于 2021-9-25 16:12:15 | 只看该作者
jesscia_2020 发表于 2021-9-25 12:52
不输入信息,无法查询呢,怎么采集列表呢

观察一下这个网址:https://www.qcc.com/web/search?key=%E5%8D%8E%E4%B8%BA

只要把key=后面的内容换上你要查的关键词,得到的网址就是查询结果列表页网址
举报 使用道具
7#
jesscia_2020 高级会员 发表于 2021-9-26 09:08:46 | 只看该作者
好的,谢谢
举报 使用道具
8#
jesscia_2020 高级会员 发表于 2021-9-26 10:49:53 | 只看该作者
企业查询基本信息,建立了这个规则,测试的时候当前页面的信息采集不全是怎么回事呢,帮忙看一下,谢谢
举报 使用道具
9#
wangyong 版主 发表于 2021-9-26 11:36:48 | 只看该作者
jesscia_2020 发表于 2021-9-26 10:49
企业查询基本信息,建立了这个规则,测试的时候当前页面的信息采集不全是怎么回事呢,帮忙看一下,谢谢 ...

这个规则先要对整理箱顶节点做上定位标志映射,然后每个抓取内容都要写xpath
  1. .//*[@class='ntable']//td[contains(text(),'所属行业')]/following-sibling::td[1]
复制代码

举报 使用道具
10#
jesscia_2020 高级会员 发表于 2021-9-26 13:07:58 | 只看该作者
wangyong 发表于 2021-9-26 11:36
这个规则先要对整理箱顶节点做上定位标志映射,然后每个抓取内容都要写xpath
...

每个抓取内容都要写xpath是什么意思,是在每个字段都输入xpath吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 17:19