file:///d:\Documents\Tencent Files\2295244434\Image\Group\Image2\JQ]%)9L(OQN%Q_Q@ZA~365V.png
一级规则名:抓取无库存列表
二级规则名:抓取无库存列表下级详情1
我二级线索本应该是几千上万条的 但是跑了三次都只抓了几百条,是不是我的翻页问题?跑出来的xml文件如果九个的话代表只抓了九页?



2.png (1.76 KB, 下载次数: 806)

1

1

1.jpg (119.18 KB, 下载次数: 795)

2

2
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-12-28 19:00

沙发
shengchengx 金牌会员 发表于 2017-12-28 15:05:32 | 只看该作者
软件更新一下,样例复制做的有问题。

线索定位映射,就是选择包含记号标志的范围进行映射。选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)
具体可以看下这个教程:《如何翻页抓取网页数据》
举报 使用道具
板凳
nevermore88 初级会员 发表于 2017-12-28 15:46:17 | 只看该作者
加载一级规则出现这个错误什么意思,可以忽略继续编辑吗

1.png (3.14 KB, 下载次数: 763)

1.png
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-12-28 15:47:56 | 只看该作者
nevermore88 发表于 2017-12-28 15:46
加载一级规则出现这个错误什么意思,可以忽略继续编辑吗

编号为1的映射出问题了,重新映射之后再做编辑
举报 使用道具
5#
nevermore88 初级会员 发表于 2017-12-28 15:52:47 | 只看该作者
是我标题没映射?我昨天页没映射啊 也 没报错

1.jpg (12.62 KB, 下载次数: 768)

1.jpg
举报 使用道具
6#
shengchengx 金牌会员 发表于 2017-12-28 15:55:05 | 只看该作者
nevermore88 发表于 2017-12-28 15:52
是我标题没映射?我昨天页没映射啊 也 没报错

映射之后才能修改或者保存,不映射是保存不了的。如果不需要这个字段就删除。
举报 使用道具
7#
nevermore88 初级会员 发表于 2017-12-28 17:01:10 | 只看该作者
我一级添加了线索  显示未采集是1的, 一打开爬虫>**(不当用词)现采集成功是0

1.jpg (19.54 KB, 下载次数: 814)

1.jpg
举报 使用道具
8#
nevermore88 初级会员 发表于 2017-12-28 18:14:04 | 只看该作者
线索定位映射,就是选择包含记号标志的范围进行映射。选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)



我按这个修改了 还是只能跑600个左右 正常有1600的

2.png (16.65 KB, 下载次数: 813)

2.png

1.jpg (24.34 KB, 下载次数: 804)

1.jpg
举报 使用道具
9#
shengchengx 金牌会员 发表于 2017-12-28 18:21:06 | 只看该作者
nevermore88 发表于 2017-12-28 18:14
线索定位映射,就是选择包含记号标志的范围进行映射。选择线索定位区块,线索定位的区块一般是包含"下一页" ...

打开最后一个xml,看下是不是翻页没有翻完就中断了,如果是的,就从中断的那一页,复制下来网址,重新添加下线索,继续抓取后面的
举报 使用道具
10#
Fuller 管理员 发表于 2017-12-28 18:22:03 | 只看该作者
nevermore88 发表于 2017-12-28 18:14
线索定位映射,就是选择包含记号标志的范围进行映射。选择线索定位区块,线索定位的区块一般是包含"下一页" ...

这个网页是不是有翻页限制?虽然你看到有1600这个数字,但是翻页数量有限,就看不全。你可以手工翻页试试。你可以直接点93页,看看能否显示
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:30