存规则的时候,出现这个提示怎么办?
          没有为样式线索填写网页地址或做映射

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-12 11:56

沙发
Fuller 管理员 发表于 2016-10-12 11:56:33 | 只看该作者
如果选择样式线索,一开始没有任何样式,如下图红框。需要先创建。


上图红框位置,点击鼠标右键,选择插入,就创建一条样式,还需要填写内容的。



创建以后像上图那样,首先要填写网址样式,比如,想把网页上所有淘宝商品的网址抓下来,他们本来是
  1. http://item.taobao.com/item.htm?spm=xxxx
复制代码
他们的网址开头都是这样的样式
  1. http://item.taobao.com/item.htm
复制代码
那么就可以把这一行填入到“网址样式”那里,可以不手工填写,在DOM树上找到一个@href节点,选择 线索映射-》样式映射-》xxx(第几号样式),那么程序会自动把网址填入,再手工把后面不需要的字符删除,只保留前面的样式部分。


另外还要填写目标主题名。

如果创建了样式,但是没有填写这两项,就会出现那个提示错误。

如果不想要这个样式,可以选中每一条前面的复选框,然后点击鼠标右键,选择删除菜单
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 16:25