19 28607

采集数据—常见问题导航

ym 于 2015-10-23 14:29 发表 置顶 [复制链接]
Fuller 管理员 发表于 2019-3-17 09:54:26 | 显示全部楼层
liuxing123 发表于 2019-3-17 09:25
请问,在没有“下一页”标记的页面,如,只有三页的情况下,翻页采集的翻页记号如何选取?谢谢! ...

翻页有两种:
1,基于翻页记号的,比如“下一页”,即使没有文本,如果有个特定的class,比如@class='next-page',或者一个特别的img的src,都可以作为记号
2,相对线索:只有页码1,2,3,等等,如果选中的页码显示的样式跟其他的完全不一样,那么相对线索才能有效。
所有翻页的情形都在这个帖子中:https://www.gooseeker.com/doc/thread-698-1-1.html
举报 使用道具
liuxing123 初级会员 发表于 2019-3-17 15:47:57 | 显示全部楼层
请问,已经保存好的规则如何应用到其他的网页,需要重新映射吗?
举报 使用道具
Fuller 管理员 发表于 2019-3-17 16:06:02 | 显示全部楼层
liuxing123 发表于 2019-3-17 15:47
请问,已经保存好的规则如何应用到其他的网页,需要重新映射吗?

添加/激活网址线索批量采集https://www.gooseeker.com/doc/thread-667-1-1.html  
举报 使用道具
wwww23 新手上路 发表于 2019-10-16 10:49:47 | 显示全部楼层
请问 为什么数据会抓取失败,采集状态显示黄色框里的已停止?,打包数据也是零条数据
举报 使用道具
wwww23 新手上路 发表于 2019-10-16 10:59:19 | 显示全部楼层
wwww23 发表于 2019-10-16 10:49
请问 为什么数据会抓取失败,采集状态显示黄色框里的已停止?,打包数据也是零条数据
...

找不到DOM节点,节点名:#ducument
举报 使用道具
Fuller 管理员 发表于 2019-10-16 10:59:58 | 显示全部楼层
wwww23 发表于 2019-10-16 10:49
请问 为什么数据会抓取失败,采集状态显示黄色框里的已停止?,打包数据也是零条数据
...

采集什么数据?可以加入这个qq群:830157068 ,在那里答复更快
举报 使用道具
Fuller 管理员 发表于 2019-10-16 11:12:35 | 显示全部楼层
wwww23 发表于 2019-10-16 10:59
找不到DOM节点,节点名:#ducument

自定义的xpath?加载规则的时候会出现这个问题,一般是没有做定位标志映射,加载的时候定位不到节点。按照这个教程加上定位标志映射:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
17839222877 新手上路 发表于 2019-10-16 20:44:00 | 显示全部楼层
Fuller 发表于 2017-12-20 09:18
可以重新下载,可以下载很多次,下载的时候不要用迅雷等下载工具,用浏览器自己的下载功能就可以了。有时 ...

重复下载很多次依旧显示压缩文件已损坏,也没有用第三方软件下载,之前打包的数据再次下载也可以打开,只有最后一次打包的打不开
举报 使用道具
Fuller 管理员 发表于 2019-10-16 20:56:58 | 显示全部楼层
liuxing123 发表于 2019-3-17 09:25
请问,在没有“下一页”标记的页面,如,只有三页的情况下,翻页采集的翻页记号如何选取?谢谢! ...

还有一种翻页方式:相对线索,参看:https://www.gooseeker.com/doc/thread-668-1-1.html
举报 使用道具
wangyong 版主 发表于 2019-11-1 16:15:52 | 显示全部楼层
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 05:38