原有规则在添加“定位"后改变是什么原因,图1是没添加”定位映射“的,图2是添加之后的,这个怎么更改啊

添加“定位映射”.png (50.52 KB, 下载次数: 1047)

未添加”定位映射“

未添加”定位映射“

未添加“定位映射”.png (26.62 KB, 下载次数: 997)

添加”定位映射“后

添加”定位映射“后
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-10-7 11:38

沙发
Fuller 管理员 发表于 2017-10-6 22:48:32 | 只看该作者
添加了定位标志映射以后,如果原先能采集到多个样例,现在只能采集一个,说明错误地使用了唯一性的定位标志,比如,有些@id ,是唯一标识一条微博的,这样的标志不能用。


如果多个字段抓混了,本来想抓评论,却抓到了收藏,那是走到另一个极端了:就是错误地使用了相同的class值。即使没有做定位标志映射,但是,爬虫会尽量自动找一个定位标志,如果两个字段的class是一样的,就会搞混了,具体解决方法看这几个帖子:《避免不合适的定位标志影响抓取规则
举报 使用道具
板凳
chengyiling 初级会员 发表于 2017-10-7 11:12:56 | 只看该作者
Fuller 发表于 2017-10-6 22:48
添加了定位标志映射以后,如果原先能采集到多个样例,现在只能采集一个,说明错误地使用了唯一性的定位标志 ...

你好,我现在每一页的内容可以成功抓取下来,但是后续的内容是重复抓取了第一页,这个怎么解决啊,感谢。
举报 使用道具
地板
Fuller 管理员 发表于 2017-10-7 11:14:48 | 只看该作者
chengyiling 发表于 2017-10-7 11:12
你好,我现在每一页的内容可以成功抓取下来,但是后续的内容是重复抓取了第一页,这个怎么解决啊,感谢。 ...

估计是翻页不成功。你的主题名是什么?我帮你看看
举报 使用道具
5#
chengyiling 初级会员 发表于 2017-10-7 11:24:36 | 只看该作者
双一流原创微博,谢谢
举报 使用道具
6#
chengyiling 初级会员 发表于 2017-10-7 11:25:17 | 只看该作者
chengyiling 发表于 2017-10-7 11:24
双一流原创微博,谢谢

我重新设置了爬虫路线,本来50页的抓了5页,我也不知道什么原因了
举报 使用道具
7#
Fuller 管理员 发表于 2017-10-7 11:36:21 | 只看该作者
chengyiling 发表于 2017-10-7 11:25
我重新设置了爬虫路线,本来50页的抓了5页,我也不知道什么原因了

首先要打开DS打数机的滚屏;其次用筛选条件,设置发博时间,只抓一个小时的微博,在excel中可以把网址大量构造出来,导入到爬虫里面
举报 使用道具
8#
Fuller 管理员 发表于 2017-10-7 11:37:21 | 只看该作者
举报 使用道具
9#
chengyiling 初级会员 发表于 2017-10-7 11:38:45 | 只看该作者
好的,十分感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 06:10