主题名:loglogo_ipc
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-2-26 16:32

沙发
Fuller 管理员 发表于 2018-2-20 20:44:34 | 只看该作者
你做的线索定义映射不对,应该选择代表一个网页区域的节点做线索定位映射,你选的是红框的节点,实际上应该选择蓝框的节点做线索定位映射

举报 使用道具
板凳
Fuller 管理员 发表于 2018-2-20 21:01:17 | 只看该作者
虽然样式线索没有正式的教程,但是也有很多帖子讨论了他的用法,比如
1,这个帖子讲解了做样式线索的步骤:http://www.gooseeker.com/doc/thread-3605-1-1.html
2,这个帖子对比了在做翻页的场景中,记号线索和样式线索的区别:http://www.gooseeker.com/doc/thread-3373-1-1.html
通常情况下样式线索不是用来翻页的,而是在一个网页区域内把所有符合一定样式的网址采集下来,形成下级线索。

针对这个网站,我做了两级规则,可以下载使用:
1,第一级把A-》H分部的网址采集下来:http://www.gooseeker.com/secure/ ... ew/share314977.html
2,第二级用样式线索层层深入采集:http://www.gooseeker.com/secure/ ... ew/share314976.html
举报 使用道具
地板
hblemon2008 高级会员 发表于 2018-2-21 08:58:54 | 只看该作者
万分谢谢,因为之前从没有用过样式线索,对此没有概念上的理解。我先学习学习你做的规则,谢谢!
举报 使用道具
5#
hblemon2008 高级会员 发表于 2018-2-25 09:01:49 | 只看该作者
抓取了两天发现有时候速度很慢,后来仔细查找了一下是有些没有分部,导致匹配失败,请问是不是要做两个规则:一个是抓取有分部明细的,一个是匹配没有分部明细的呢?但是分析了具体网页,找不到可以做区分有无分部明细的标志,这该如何解决呢?再次打扰了,谢谢!

1.png (41.3 KB, 下载次数: 778)

1.png
举报 使用道具
6#
Fuller 管理员 发表于 2018-2-25 09:55:57 | 只看该作者
hblemon2008 发表于 2018-2-25 09:01
抓取了两天发现有时候速度很慢,后来仔细查找了一下是有些没有分部,导致匹配失败,请问是不是要做两个规则 ...

一旦遇到规则不适应,那么就会等待超时,缺省是1分钟。不要修改超时时间。而是找出来失败在哪里。
按照这个经验,把失败的线索加载上来分析:http://www.gooseeker.com/doc/article-231-1.html

失败原因你已经清楚了,是因为那个网页没有内容。对于这种情况,要谨慎使用同一主题两个规则,因为很可能有内容的也会套用没有内容的那个主题。先加载上来仔细分析一下,看看同一个规则是否能兼容两种情况。比如,有些内容不要设置关键内容。

你可以把规则名和失败的样本网址发出来看看
举报 使用道具
7#
hblemon2008 高级会员 发表于 2018-2-26 16:05:49 | 只看该作者
规则名:loglogo_ipc2
失败样本网址:http://www.loglogo.com/front/ipc ... 7-b097-1c1b0dc18cd5
麻烦帮我看看,谢谢
举报 使用道具
8#
数据集 高级会员 发表于 2018-2-26 16:32:08 | 只看该作者

勾选的关键内容没有抓取到就会报错,没有分部明细的页面是因为抓不到关键内容导致报错,虽然没有分部明细,但是有标题,可以只把标题设置为关键内容,遇到这种没有分部明细的页面也就不会报错了。


把你规则中的抓取内容“code”的关键内容取消掉应该就可以了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 00:54