主题名:wangfangpatent1
在该主题下分别定义了两个规则:chinese、foreign,也分别定义了关键内容“法律状态”、“优先权”,但是foreign这个规则始终得不到执行,不知道是何原因?请赐教,谢谢!

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-9-8 10:30

沙发
yangwenge 金牌会员 发表于 2017-9-7 18:13:33 | 只看该作者
本帖最后由 yangwenge 于 2017-9-7 18:16 编辑

两个规则是同级规则,都需要手动启动采集。
可以在会员中心-爬虫群--主题名--调度启动采集,
也可以在打数机-主题名后面的单搜或者集搜启动采集
举报 使用道具
板凳
hblemon2008 高级会员 发表于 2017-9-7 18:21:43 | 只看该作者
已经是用手动采集的,但是所有的线索只执行规则名为chinese的,但是明明有网页结构是只能用规则名为foreign的规则才能采集
举报 使用道具
地板
yangwenge 金牌会员 发表于 2017-9-7 18:52:18 | 只看该作者
需要查看下你的关键内容是不是两个网站的独有的内容,用来区分两个页面。
可以参考:《同一网站不同页面结构》
举报 使用道具
5#
hblemon2008 高级会员 发表于 2017-9-7 19:22:42 | 只看该作者
谢谢,都区分过了,我之前也做个同一主题下三个规则的都能顺利执行的,但就是不知道这个为什么不能执行
举报 使用道具
6#
Fuller 管理员 发表于 2017-9-7 21:13:59 | 只看该作者
hblemon2008 发表于 2017-9-7 19:22
谢谢,都区分过了,我之前也做个同一主题下三个规则的都能顺利执行的,但就是不知道这个为什么不能执行 ...

区分两个主题的flag,给他们做的内容映射不对。

如果只做内容映射的话,就会寄希望于两个网页的结构有所不同。

如果要根据两个网页的内容进行区分,就得自定义xpath。

你想分别用什么内容做区分?
举报 使用道具
7#
hblemon2008 高级会员 发表于 2017-9-7 21:14:06 | 只看该作者
能帮我看看问题到底出在哪里吗?
举报 使用道具
8#
hblemon2008 高级会员 发表于 2017-9-7 21:31:03 | 只看该作者
chinese规则用"法律状态"、foreign规则用"优先权"分别做内容区分
举报 使用道具
9#
Fuller 管理员 发表于 2017-9-7 22:18:43 | 只看该作者
hblemon2008 发表于 2017-9-7 21:31
chinese规则用"法律状态"、foreign规则用"优先权"分别做内容区分

采取以下步骤:
1,先做内容映射,
2,然后点击“测试”按钮
3,在输出窗口中点击数据规则,就能看到flag字段的xpath
4,拷出这个xpath,进行修改,前半部分基本不变,最后变成text()[contains(.,'法律状态')]
5,把自定xpath设置到规则中,就为chinese把规则设置好了
具体操作参看《怎样设置自定义xpath

举报 使用道具
10#
bowieD 金牌会员 发表于 2017-9-8 10:16:23 | 只看该作者
你选取的关键内容点测试显示出来的值是一样的,所有爬虫区分不了抓取哪个规则,重新给关键内容做一下内容映射,可以把定位设置为绝对定位。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 04:22