主题名分别是:
一级规则——点击展开全文;
二级规则——展开全文后的内容抓取。
问题:无法展开全文。
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2021-1-29 10:46

来自 10#
wangyong 版主 发表于 2021-1-29 10:46:41 | 只看该作者

集搜客微博采集工具箱中通过微博关键词搜索结果采集工具微博博主主页采集工具或者其他微博工具采集微博数据时会采集下带有“展开全文”的数据

在采集结果中通过Excel将含有“展开全文”的数据筛选出来后


将其对应的“博文独立网址”添到微博博文展开全部采集中就可以将“展开全文”后的数据完整采集下来

数据展示:


举报 使用道具
沙发
Fuller 管理员 发表于 2017-3-26 20:51:05 | 只看该作者
我还没有连在一起看,但是看到第二级,发现网页很奇特

有两个内容,一个是展开前的,一个是展开后的,如果不采取措施,总是抓取展开前的那个,我得测试一下怎样应对这种情况。如果这种结构总是存在,那么就不用做两级了,不用做点击了
举报 使用道具
板凳
Fuller 管理员 发表于 2017-3-26 20:52:42 | 只看该作者
另外,你的规则还有一个问题,假设一定需要两级的话,翻页不应该放在第二级,而是放在第一级。第二级只管抓取点击后的内容
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-26 21:02:28 | 只看该作者
我测试了,一定要两级,不点击展开就不会出现第二个内容


要用自定义xpath的方法,分别是
  1. .//*[@class='comment_txt'][1]
复制代码
  1. .//*[@class='comment_txt'][2]
复制代码
要定义两个抓取内容,因为有些微博是不用展开全文的,所以光有后面一个xpath就会抓不到。

另外,要注意,微博的内容不断自动刷新,长时间 定义规则的话,需要先冻结页面,选择菜单“规则”-〉“冻结页面”,然后执行一次“刷新页面结构”才开始定义规则
举报 使用道具
5#
hivega 新手上路 发表于 2017-3-26 22:01:00 | 只看该作者
Fuller 发表于 2017-3-26 21:02
我测试了,一定要两级,不点击展开就不会出现第二个内容

大晚上的太感动了!完美解决了我的问题!奉上文科生的小心心#此处应有emoji 嗯 论坛emoji还可以再开发一点23333333
举报 使用道具
6#
hivega 新手上路 发表于 2017-3-26 23:49:38 | 只看该作者
Fuller 发表于 2017-3-26 20:51
我还没有连在一起看,但是看到第二级,发现网页很奇特

有两个内容,一个是展开前的,一个是展开后的,如果 ...

又遇到了一个问题哈:如果我换一个关键词进行搜索,用我现在这个现有的规则,如果搜索第一条的内容不存在展开原文的情况,“微博全文”就无法做映射,这种情况应该怎样解决呢?
举报 使用道具
7#
Fuller 管理员 发表于 2017-3-27 07:21:28 | 只看该作者
hivega 发表于 2017-3-26 23:49
又遇到了一个问题哈:如果我换一个关键词进行搜索,用我现在这个现有的规则,如果搜索第一条的内容不存在 ...

添加一个新关键词没有必要再次用规则进行分析以后存规则,而是构造网址后在会员中心整批导入。因为在整理箱中没有为那个可能不存在的字段设置关键内容,所以,抓取不会失败,就是分析页面会失败。而通过网址导入的方式就不用规则分析页面。

网址构造方法很容易,观察一下哪段是随着关键词改变的,把它替换掉就行
举报 使用道具
8#
hivega 新手上路 发表于 2017-3-27 23:57:16 | 只看该作者
Fuller 发表于 2017-3-27 07:21
添加一个新关键词没有必要再次用规则进行分析以后存规则,而是构造网址后在会员中心整批导入。因为在整理 ...

明白您的意思了。我在会员中心导入了新的网址线索,保持原规则不变的条件下重新爬数据,DS打数机表示采集完成,但是实际采集情况却是翻页后卡在第二页中间,回到规则管理显示线索抓取出错,查看抓取内容的结果,有很多条,但都是网页第一页的抓取内容。网速和关键字设置都没问题,翻页有故障,麻烦您再帮我检查一下程序可以吗?规则名:一级规则——点击展开全文;二级规则——展开全文后的内容抓取。
举报 使用道具
9#
Fuller 管理员 发表于 2017-3-28 00:18:01 | 只看该作者
hivega 发表于 2017-3-27 23:57
明白您的意思了。我在会员中心导入了新的网址线索,保持原规则不变的条件下重新爬数据,DS打数机表示采集 ...

第一级的连续动作,我设置了高级设置,把额外延时设置成5秒,抓取基本上上能做,但是现在有一个现象:第二级总是会有点击不上的,而且隔一次就发生一次。我还在检查原因
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 14:52