问题一:
正常抓取的页面的内容项Xpath是  .//*[@id='Pl_Official_WeiboDetail__74']/div/div/div/div[2]/div/ul/li[2]/a/span/span/span/em[2]
抓取失败的线索的内容项Xpath是  .//*[@id='Pl_Official_WeiboDetail__59']/div/div/div/div[2]/div/ul/li[2]/a/span/span/span/em[2]
我用原来的规则随便加载了一个失败线索(还增加了超时时长),发现可以正常抓取,那为什么批量抓的时候会失败呢?
问题二:
我想把所有失败线索批量导出来,统一再制作一个规则看看。但是怎么批量导出失败线索呢?

举报 使用道具
| 回复

共 18 个关于本帖的回复 最后回复于 2017-6-11 12:20

沙发
Fuller 管理员 发表于 2017-6-9 09:15:22 | 只看该作者
主题名是什么?这两个xpath中含有不同的@id,会不会这种不同id造成采集错误?


另外,运行爬虫的时候,要把DS打数机窗口放大到最大,不能最小化。可以有别的窗口叠在上面,但是不能最小化
举报 使用道具
板凳
L_Y_P123 中级会员 发表于 2017-6-9 11:00:37 | 只看该作者
Fuller 发表于 2017-6-9 09:15
主题名是什么?这两个xpath中含有不同的@id,会不会这种不同id造成采集错误?

这是我的二层链接,只是简单的抓取每条微博的详情,比如转发数,并没有涉及到ID的问题吧?
举报 使用道具
地板
Fuller 管理员 发表于 2017-6-9 11:02:24 | 只看该作者
L_Y_P123 发表于 2017-6-9 11:00
这是我的二层链接,只是简单的抓取每条微博的详情,比如转发数,并没有涉及到ID的问题吧?
...

把主题名发出来我诊断一下
举报 使用道具
5#
L_Y_P123 中级会员 发表于 2017-6-9 11:23:42 | 只看该作者
本帖最后由 L_Y_P123 于 2017-6-9 11:33 编辑

怎么发?主题名字是问题疫苗-第一层和问题疫苗-第二层。
举报 使用道具
6#
L_Y_P123 中级会员 发表于 2017-6-9 12:44:36 | 只看该作者
Fuller 发表于 2017-6-9 11:02
把主题名发出来我诊断一下


失败线索抓不到4、5、6即转发、评论、赞,这是为什么?同样的规则为什么其他微博就可以抓得到?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
wangyong 版主 发表于 2017-6-9 14:27:02 | 只看该作者
抓取内容和整理箱定节点加上定位标志映射
举报 使用道具
8#
L_Y_P123 中级会员 发表于 2017-6-9 17:48:25 | 只看该作者
wangyong 发表于 2017-6-9 14:27
抓取内容和整理箱定节点加上定位标志映射

按照你说的,终于能把每项抓取内容都采集到了。但是还有一个问题:把微博的搜索结果链接复制到爬虫工具打开之后,结果和微博结果不一样,微博条数有时候多,有时候少。这样的话我都不确定运行爬虫之后的数据是否全面。我该以哪个为准呢?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
Fuller 管理员 发表于 2017-6-9 19:02:08 | 只看该作者
L_Y_P123 发表于 2017-6-9 17:48
按照你说的,终于能把每项抓取内容都采集到了。但是还有一个问题:把微博的搜索结果链接复制到爬虫工具打 ...

我对比了两个截图,你是说下一个截图中间多插入了2条微博?

微博网站的搜索过滤规则很奇怪,每次搜索出来的会有些变化。所以,得到的总数是不准确的。而且,日历上越早的内容,搜索到的越少
举报 使用道具
10#
L_Y_P123 中级会员 发表于 2017-6-9 20:44:06 | 只看该作者
Fuller 发表于 2017-6-9 19:02
我对比了两个截图,你是说下一个截图中间多插入了2条微博?

微博网站的搜索过滤规则很奇怪,每次搜索出 ...

所以集搜客爬到的结果全吗?微博的这种机制对所有爬虫软件都是一样的吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 02:51