file:///C:\Users\ADMINI~1\AppData\Local\Temp\%W@GJ$ACOF(TYDYECOKVDYB.png主题名:loglogo_brand
情况:“下一页"我做个记号线索,但不起作用,只翻到第2页就提示”匹配失效“,帮忙看看呗,谢谢


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-2-18 09:37

沙发
Fuller 管理员 发表于 2018-2-12 20:17:49 | 只看该作者
主题名对吗?在管理后台上搜不到。

如果已经翻到第二页,说明翻页规则没有问题。而是抓取数据的规则不适应第二页。最大的可能是每一页上的内容都有唯一的id,可以这样试试,在抓取规则工作台上有个“定位”按钮,点击后选择只用class,可能就好了
举报 使用道具
板凳
hblemon2008 高级会员 发表于 2018-2-12 21:51:38 | 只看该作者
对不起,主题名:loglogo_brands
举报 使用道具
地板
Fuller 管理员 发表于 2018-2-12 22:07:57 | 只看该作者
hblemon2008 发表于 2018-2-12 21:51
对不起,主题名:loglogo_brands

这个网站好像出问题了,现在显示不了网页,要等一下我再试试
举报 使用道具
5#
hblemon2008 高级会员 发表于 2018-2-13 13:24:49 | 只看该作者
好的,谢谢
举报 使用道具
6#
Fuller 管理员 发表于 2018-2-13 14:46:17 | 只看该作者

这个网站似乎一直有问题,你的规则用的样本页面加载不了
举报 使用道具
7#
hblemon2008 高级会员 发表于 2018-2-18 08:39:26 | 只看该作者
春节快乐,今天这个网站可以登录了,麻烦帮我看看,谢谢!
举报 使用道具
8#
Fuller 管理员 发表于 2018-2-18 09:37:08 | 只看该作者

主要原因是那个ul的class值在翻页以后就会变化(看红框)。而爬虫在生成抓取规则的时候,会自动用上这个class。

有一个简单的方法:在同一个主题名下定义两个规则,他们的主题名相同,但是在命名主题工作台上使用不同的规则编号。一个规则是原始的规则,另一个是翻页到第二页以后再定义的规则。那么爬虫运行的使用就能自动选择一个合适的。

另一个方法是我上图用的方法,就是避开那个ul的class。那么就手工做定位标志映射,而不用自动选择的。我把整理箱多建了一层,里面那层为了做样例复制映射,外边那层做定位标志映射从而在网页上划定一下范围。另外,点击“定位”按钮,选择绝对定位。那么爬虫在生成抓取规则的时候,除了使用手工选择的定位标志,将不再自动选择其它class和id值
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 16:27