抓取内容必须做映射(内容或定位标志)。编号:1
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2019-7-1 23:12

wangyong 版主 发表于 2016-12-16 16:29:01 | 显示全部楼层
整理箱中创建的抓取内容必须要做映射,定位标志或内容映射都可以,在网页标签窗口中选中右击进行映射。
编号:1是指整理箱中抓取内容的编号。
搬贴3.png
举报 使用道具
minde新生活_2019 中级会员 发表于 2019-6-30 16:13:57 | 显示全部楼层
为何制作了编号1的内容映射,仍然反复提示:
抓取内容必须做映射(内容或定位标志)。编号:1?
举报 使用道具
Fuller 管理员 发表于 2019-6-30 16:23:22 | 显示全部楼层
minde新生活_2019 发表于 2019-6-30 16:13
为何制作了编号1的内容映射,仍然反复提示:
抓取内容必须做映射(内容或定位标志)。编号:1? ...

你是不是建立了多个整理箱?
举报 使用道具
minde新生活_2019 中级会员 发表于 2019-6-30 16:41:21 | 显示全部楼层
是。2个。根据【2016/2/24】视频教程,在采集博主主页之外,加了一个采集翻页记号的整理箱,说是可以避免翻页不完整的情况。的确遇到实际有十几页,但只采集到了8页微博数据。
举报 使用道具
Fuller 管理员 发表于 2019-6-30 16:57:34 | 显示全部楼层
minde新生活_2019 发表于 2019-6-30 16:41
是。2个。根据【2016/2/24】视频教程,在采集博主主页之外,加了一个采集翻页记号的整理箱,说是可以避免翻 ...

每个整理箱的每个抓取内容都要做内容映射。

你的任务名是什么?贴出来,我帮你看看失败原因
举报 使用道具
minde新生活_2019 中级会员 发表于 2019-6-30 21:54:30 | 显示全部楼层
谢谢您的关心。

因为要使用微博工具箱,采集数据做行为研究,所以在恶补数据采集软件的使用,但数据分析与挖掘是重点。

正在根据视频教程练习,主要是为了熟悉集搜客使用,自定义规则不是重点。但是一点不懂采集规则与Html或Xpath等,采集过程出错简直束手无策。这么理解对否?

PS:我重新加载了任务,不知为何,这次可以抓取所有微博页面。但有的页面有数据丢失。我在学习《翻页采集》https://www.gooseeker.com/doc/thread-698-1-1.html ,很多要慢慢摸索。

想请教您一个问题:我的样本页https://weibo.com/cctvxinwen?is_ ... &page=6#feedtop,尝试采集博主主页(包含翻页)。
我发现翻页区及翻页记号的DOM节点不断发生变化,我推测这是每次加载规则后软件报错的原因?
针对这样的网页结构。如何定义翻页的爬虫路径?
举报 使用道具
Fuller 管理员 发表于 2019-6-30 23:17:15 | 显示全部楼层
minde新生活_2019 发表于 2019-6-30 21:54
谢谢您的关心。

因为要使用微博工具箱,采集数据做行为研究,所以在恶补数据采集软件的使用,但数据分析与 ...

采集微博要注意几点:
1,要在集搜客浏览器中先登录微博
2,微博网站有些慢,如果你的网络比较快还好,如果加上你的网络比较慢,就很容易因为网页加载不全就中断。

你说的翻页区和翻页记号的位置,一般不会影响规则的运行,如果是自己定义规则的话,在工作台上有定位按钮,可以选择偏好class或者id,一般爬虫生成规则的时候会以某个class属性或者id属性写到xpath中,而且作为xpath的起点,一般不使用绝对定位。
举报 使用道具
minde新生活_2019 中级会员 发表于 2019-7-1 23:12:18 | 显示全部楼层
在您的启发下,修改了规则。翻页部分的定位选择了偏好class(原来是偏好id),几乎抓取了全部页面。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 20:47