我想爬微博的热门视频的url和转发量,但是带有话题的微博爬的url并不是视频的url。而且使用了样例复制,并不是所有微博都能爬到,跪求大神帮忙~~

QQ截图20160425162109.png (14.42 KB, 下载次数: 1022)

QQ截图20160425162109.png
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-4-28 22:07

沙发
Fuller 管理员 发表于 2016-4-25 17:45:19 | 只看该作者
给一个样本微博网址,我们看看视频url在哪里,你可以截个图,圈一下视频的位置
举报 使用道具
板凳
yanland 初级会员 发表于 2016-4-25 22:06:40 | 只看该作者
Fuller 发表于 2016-4-25 17:45
给一个样本微博网址,我们看看视频url在哪里,你可以截个图,圈一下视频的位置 ...

带有话题的微博,比如这个,
,它的页面标签是
现在我抓只能抓到第一个A的href标签,但是我是想抓后面两个A的href




举报 使用道具
地板
Fuller 管理员 发表于 2016-4-25 22:18:57 | 只看该作者
yanland 发表于 2016-4-25 22:06
带有话题的微博,比如这个,
,它的页面标签是
现在我抓只能抓到第一个A的href标签,但是我是想抓后面两 ...

这是在自由文本中的超链接,自由文本是没有结构的,你不知道到底有几个A,而且排列规律是怎样的,所以,做规则有难度,那么方案有如下两个:
方案1,把这个块内容抓下来,连html标签都要,这是在抓取内容的高级设置中做的,看这个:http://www.gooseeker.com/doc/article-101-1.html  选择 “网页片段”。但是这样抓下来,需要写一个清洗程序,把网址拿到
方案2:如果网址是用来做下级线索的,那么用爬虫路线工作台上的样式线索定义规则,因为视频网址和话题网址肯定有不同的网址样式
举报 使用道具
5#
yanland 初级会员 发表于 2016-4-28 13:19:14 | 只看该作者
Fuller 发表于 2016-4-25 22:18
这是在自由文本中的超链接,自由文本是没有结构的,你不知道到底有几个A,而且排列规律是怎样的,所以, ...

请问清洗程序是可以直接在谋数台定义还是需要先把数据爬下来再继续操作
举报 使用道具
6#
shenzhenwan9 中级会员 发表于 2016-4-28 14:25:23 | 只看该作者
清洗程序是对爬取下来的结果文件内容进行处理
同一段信息,不同的人可能需要其中的不同部分,这个是需要你自己去做的
举报 使用道具
7#
yanland 初级会员 发表于 2016-4-28 14:44:03 | 只看该作者
shenzhenwan9 发表于 2016-4-28 14:25
清洗程序是对爬取下来的结果文件内容进行处理
同一段信息,不同的人可能需要其中的不同部分,这个是需要你 ...

那可以直接在创建规则的时候使用正则表达式过滤呢
举报 使用道具
8#
Fuller 管理员 发表于 2016-4-28 15:47:17 | 只看该作者
yanland 发表于 2016-4-28 14:44
那可以直接在创建规则的时候使用正则表达式过滤呢

创建规则的时候,可以用xpath的函数 substring-after(), substring-before()做一些处理,但是处理能力有限,最好在抓取下来以后,在数据清洗过程做进一步处理
举报 使用道具
9#
yanland 初级会员 发表于 2016-4-28 21:39:37 | 只看该作者
Fuller 发表于 2016-4-28 15:47
创建规则的时候,可以用xpath的函数 substring-after(), substring-before()做一些处理,但是处理能力有 ...

那请问做样式线索定义规则怎么做呢
举报 使用道具
10#
Fuller 管理员 发表于 2016-4-28 22:07:45 | 只看该作者
样式线索主要用于抓取下级线索。比如网页上在某个div下有很多网址,这些网址的开头部分都一样,比如,
1, http://www.gooseeker.com/doc/thread-247-1-1.html
2, http://www.gooseeker.com/doc/thread-184-1-1.html
前面部分,直到 thread- 都是一样的,那么可以定义一个样式 “http://www.gooseeker.com/doc/thread ”,或者更短的前面部分,作为样式,那么DS打数机就会根据这个样式筛选网址,匹配上的就抓下来构造下层网址
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 03:35