主题名:SQQ

下一页与翻页区不在同一位置,无法实现记号翻页
自己做了一个“相对线索”翻页,抓取到第二页会失败
用连续动作的时候,“Xpath”不像看到教程的值,可以直接把等号改成大于,搜索最多只出现4个dom
1-5页的Xpath值,好像与 6页以后的Xpath值不一样


求助各位帮帮我这边小白
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-7-3 10:02

沙发
Fuller 管理员 发表于 2018-7-2 20:05:01 | 只看该作者

爬虫路线这样设置,选择包含所有按钮的那个区域做翻页区,用记号线索很好
举报 使用道具
板凳
Fuller 管理员 发表于 2018-7-2 20:08:12 | 只看该作者
这个规则有点麻烦,翻页到第二页以后就不适应了,因为到第二页,那个显示所有器件的TABLE,下面没有TBODY节点,而是直接一行行TR,结果在第一页上做的规则就不适应了。

可以这样做:
1,加载好规则以后,工具条上的“内容定位”不要勾
2,选择菜单 规则-》刷新页面结构,规则-》分析页面,看到有错误提示
3,重新做内容映射,和样例复制映射
4,测试成功以后,转到命名主题工作台,修改规则编号,比如,规则-2
5,存规则

这样在同一个主题名下就有了两个不同的规则。当爬虫运行的时候,如果第一个不合适,会自动选择第二个
举报 使用道具
地板
SEEKER5679 新手上路 发表于 2018-7-2 21:27:55 | 只看该作者
Fuller 发表于 2018-7-2 20:08
这个规则有点麻烦,翻页到第二页以后就不适应了,因为到第二页,那个显示所有器件的TABLE,下面没有TBODY节 ...

新建了一个主题名“续保”
用了上面的方法,但是依旧是抓取完2个页面就自动停止了
不知道是哪里操作不对
举报 使用道具
5#
bowieD 金牌会员 发表于 2018-7-3 10:02:18 | 只看该作者
SEEKER5679 发表于 2018-7-2 21:27
新建了一个主题名“续保”
用了上面的方法,但是依旧是抓取完2个页面就自动停止了
不知道是哪里操作不对

要在同一主题名下有不同的规则,规则名一定要是相同的,只是规则编码不同。

比如你之前的规则名是“SQQ”,规则编码是“规则-1”,那么你新建的规则名也要是“SQQ”,把这个规则编号改成“规则-2”。这样在同一个主题名下就有了两个不同的规则,新建一个主题名为“续保”的规则是不行的。

你要采集哪两个字段?型号和库存吗?

https://www.gooseeker.com/secure/me/bowieD_preview.html,在这个主页上的第一个规则是我修改好你的规则分享出来的,你可以直接下载使用试试。采集的是型号和库存。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 23:40