主题名:天眼查详情370764更新版,问题是规则加载后需分析没有问题,测试也没问题,抓取的时候匹配失败,麻烦看一下,为什么
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-2-20 14:19

沙发
quyixuan 金牌会员 发表于 2017-2-20 11:01:34 | 只看该作者
我运行了没问题啊,你匹配失败的是你后来添加的线索吧
举报 使用道具
板凳
ejsino 高级会员 发表于 2017-2-20 11:22:40 | 只看该作者
不可能每一个都失败啊,关键是我样本网页爬的数据包括后开爬虫运行的都显示匹配失败了
举报 使用道具
地板
quyixuan 金牌会员 发表于 2017-2-20 11:39:22 | 只看该作者
ejsino 发表于 2017-2-20 11:22
不可能每一个都失败啊,关键是我样本网页爬的数据包括后开爬虫运行的都显示匹配失败了 ...

样本页面匹配应该是成功的,应该还是你添加的线索的网页结构不适用,你可以发几个匹配失败的网址出来,我再看看

举报 使用道具
5#
ejsino 高级会员 发表于 2017-2-20 11:46:05 | 只看该作者
http://www.tianyancha.com/company/2352900608
http://www.tianyancha.com/company/2758176263
http://www.tianyancha.com/company/2352867699
http://www.tianyancha.com/company/548739711
其中最后一个不匹配,没有经营范围是肯定不会的,前三个看着差不多,但是匹配失败了
举报 使用道具
6#
quyixuan 金牌会员 发表于 2017-2-20 11:52:37 | 只看该作者
ejsino 发表于 2017-2-20 11:46
http://www.tianyancha.com/company/2352900608
http://www.tianyancha.com/company/2758176263
http://www ...


样本页面的是这样的结构


你添加的线索其中一个是这样的结构,结构不同是肯定回匹配失败的,我看了一下你发的这几个网址这个地方的结构都不同


举报 使用道具
7#
scraper 论坛元老 发表于 2017-2-20 14:19:23 | 只看该作者
ejsino 发表于 2017-2-20 11:46
http://www.tianyancha.com/company/2352900608
http://www.tianyancha.com/company/2758176263
http://www ...

你的样本页面的法人是有具体名称的
报错的页面都是法人未公开的


而且你对这个字段勾选了关键内容
所以找不到这个内容就报错了

这个字段可以不用勾关键内容
因为你在另一个整理箱已经对单位名称勾选了关键内容

另外 可以对法人这个字段写自定义xpath来兼容两种页面

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 06:47