抓取内容必须做映射（内容或定位标志）。编号：1

更新

wangyong · 发表于 2016-12-16 16:29:01

整理箱中创建的抓取内容必须要做映射，定位标志或内容映射都可以，在网页标签窗口中选中右击进行映射。
编号：1是指整理箱中抓取内容的编号。

minde新生活_2019 · 发表于 2019-6-30 16:13:57

为何制作了编号1的内容映射，仍然反复提示:
抓取内容必须做映射（内容或定位标志）。编号：1？

Fuller · 发表于 2019-6-30 16:23:22

minde新生活_2019 发表于 2019-6-30 16:13
为何制作了编号1的内容映射，仍然反复提示:
抓取内容必须做映射（内容或定位标志）。编号：1？ ...

你是不是建立了多个整理箱？

minde新生活_2019 · 发表于 2019-6-30 16:41:21

是。2个。根据【2016/2/24】视频教程，在采集博主主页之外，加了一个采集翻页记号的整理箱，说是可以避免翻页不完整的情况。的确遇到实际有十几页，但只采集到了8页微博数据。

Fuller · 发表于 2019-6-30 16:57:34

minde新生活_2019 发表于 2019-6-30 16:41
是。2个。根据【2016/2/24】视频教程，在采集博主主页之外，加了一个采集翻页记号的整理箱，说是可以避免翻 ...

每个整理箱的每个抓取内容都要做内容映射。

你的任务名是什么？贴出来，我帮你看看失败原因

minde新生活_2019 · 发表于 2019-6-30 21:54:30

谢谢您的关心。

因为要使用微博工具箱，采集数据做行为研究，所以在恶补数据采集软件的使用，但数据分析与挖掘是重点。

正在根据视频教程练习，主要是为了熟悉集搜客使用，自定义规则不是重点。但是一点不懂采集规则与Html或Xpath等，采集过程出错简直束手无策。这么理解对否？

PS：我重新加载了任务，不知为何，这次可以抓取所有微博页面。但有的页面有数据丢失。我在学习《翻页采集》https://www.gooseeker.com/doc/thread-698-1-1.html ，很多要慢慢摸索。

想请教您一个问题：我的样本页https://weibo.com/cctvxinwen?is_ ... &page=6#feedtop，尝试采集博主主页（包含翻页）。
我发现翻页区及翻页记号的DOM节点不断发生变化，我推测这是每次加载规则后软件报错的原因？
针对这样的网页结构。如何定义翻页的爬虫路径？

Fuller · 发表于 2019-6-30 23:17:15

minde新生活_2019 发表于 2019-6-30 21:54
谢谢您的关心。

因为要使用微博工具箱，采集数据做行为研究，所以在恶补数据采集软件的使用，但数据分析与 ...

采集微博要注意几点：
1，要在集搜客浏览器中先登录微博
2，微博网站有些慢，如果你的网络比较快还好，如果加上你的网络比较慢，就很容易因为网页加载不全就中断。

你说的翻页区和翻页记号的位置，一般不会影响规则的运行，如果是自己定义规则的话，在工作台上有定位按钮，可以选择偏好class或者id，一般爬虫生成规则的时候会以某个class属性或者id属性写到xpath中，而且作为xpath的起点，一般不使用绝对定位。

minde新生活_2019 · 发表于 2019-7-1 23:12:18

在您的启发下，修改了规则。翻页部分的定位选择了偏好class（原来是偏好id），几乎抓取了全部页面。

抓取内容必须做映射（内容或定位标志）。编号：1

共 8 个关于本帖的回复最后回复于 2019-7-1 23:12

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

抓取内容必须做映射（内容或定位标志）。编号：1

共 8 个关于本帖的回复 最后回复于 2019-7-1 23:12

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 8 个关于本帖的回复最后回复于 2019-7-1 23:12