本帖最后由 chenguang1234 于 2018-9-23 10:13 编辑

如果我要抓取同标签的二级页面的内容,但是一级界面的内容不需要,他是一个表格的形式,需要点击标题进入到二级详情页,这样的话,爬虫路线应该怎么设计啊?还有连续动作?是不是说我只要设置一个规则就行了呢?样例复制需要做吗?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2018-9-23 15:54

Fuller 管理员 发表于 2018-9-23 15:54:13 | 显示全部楼层
表格形式的,要用样例复制抓取内容,你说不需要这一级的内容,最好也抓取一下,因为只有定义了整理箱,才能设置关键内容,集搜客爬虫才能依据关键内容判断规则是否适应。当然,不定义整理箱也行。

爬虫路线只定义翻页,不定义下级线索,因为下级线索没有独立的网址。只能在连续动作工作台上定义点击动作(参看连续点击的教程:https://www.gooseeker.com/doc/article-288-1.html ),逐个点击表格中的每一行。会出现以下3种情况的某一种
1,点击以后出现内容内容要用第二级主题抓取,如果弹出新窗口,那么要用到飞掠模式,抓取完第二级会自动关闭窗口。参看:《追踪弹窗采数据
2,如果没有弹出新窗口,而是内容覆盖了现有表格,那么需要在第二级定义一个回退动作。参看:《设置自动返回上级页面
3,如果没有弹出新窗口,也没有覆盖现有表格,那么第二级不需要做动作,只需采集内容

回退和飞掠都是旗舰版的功能,需要购买旗舰版
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:40