GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
10760
层级抓取失败
xiaojianfeng
于 2017-1-6 10:19
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
xiaojianfeng
积分
22
精华
0
威望
8
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
按照教程操作后出现情况如下:1、爬数据后
正常的教程运行ds打数机
而我的出现这情况
2、第一级抓取的网址抓不完全
3、第一级抓取的网址有部分是错误的,出现非正常网址如:/gp/slredirect/picassoRedirect.html/ref=pa_sp_btf_aps_sr_pg1_3?ie=UTF8&adId=A0003205283GLAOR1F68D&url=https%3A%2F%2Fwww.amazon.cn%2F%25E7%25BE%258E%25E5%259B%25BDOmega-Juicers%25E6%25A8%25AA%25E5%25BC%258F%25E5%25A4%259A%25E5%258A%259F%25E8%2583%25BD%25E6%2585%25A2%25E7%25A3%25A8%25E6%2596%2599%25E7%2590%2586%25E6%259C%25BA%25E5%258E%259F%25E6%25B1%2581%25E6%259C%25BACNC82R-C%2Fdp%2FB0171581WK%2Fref%3Dsr_1_27%3Fie%3DUTF8%26qid%3D1483667905%26sr%3D8-27-spons%26keywords%3D%25E6%25A6%25A8%25E6%25B1%2581%25E6%259C%25BA%26psc%3D1&qualifier=1483667904&id=4686482199134860&widgetName=sp_btf4、第二级抓取图片只有显示一张
5、我要爬的内容
爬出来的内容却只有网址
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
收藏
0
转播
支持
0
反对
0
举报
|
回复
共 2 个关于本帖的回复 最后回复于 2017-1-6 10:42
Fuller
积分
24067
精华
0
威望
6726
金钱
6
最后登录 2025-5-4
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
Fuller
管理员
发表于 2017-1-6 10:39:39
|
只看该作者
列表里面穿插了广告,那些网址比较怪的是广告,这种需要自定义xpath进行过滤
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
回复
支持
反对
Fuller
积分
24067
精华
0
威望
6726
金钱
6
最后登录 2025-5-4
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
Fuller
管理员
发表于 2017-1-6 10:42:24
|
只看该作者
检查是否抓全的话,打开一个结果文件,数一数有多少个抓到了,然后打开那个网页,看看哪几个漏掉了,观察一下他们的结构有什么差别,在MS谋数台的DOM树上,看他们的@class是否有不同,是否会影响规则。
请注意,亚马逊的网页内容是延迟加载的,不 滚屏就不加载,所以DS打数机运行的时候一定要设置滚屏次数,菜单 配置-》滚屏参数
举报
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
0%
1
2
3
4
5
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10609
访问主页>>
wangyong
帖子:1737
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-5 11:22
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2017-1-6 10:42