本帖最后由 ym 于 2015-9-23 16:44 编辑

问1:我想获取转发列表。。。。有同学做过么。。。因为这个没有链接。。具体用MetaStudio怎么定义规则呢
QQ图片20150923163406.png

答1:点击“查看所有xxx转发”就能弹出转发列表的单独网页,例如http://weibo.com/1803526210/CBQ5n554C?type=repost,再对这个网页做规则就能采下来
QQ图片20150923163411.png

问2:我刚也发现了,但是我又想了一个问题。。。。这样的话就只能一条一条的抓,就是一次只能抓一条微博的转发列表
这个能做二级分页抓取么。。。

答2:规则里做样例复制和翻页,就能自动采集翻页采集列表上每一个转发记录

问3:整个转发列表是可以做翻页采集的,比如说我现在有的是微博列表,我要去采集微博列表中所有被转发微博的转发列表。。。。。

答3:做两级规则,第一级规则把微博列表中所有转发微博的转发列表的网址采集下来,作为第二级的规则的线索,第二级规则去采微博的转发列表

问4:过程我明白,第二级我已经弄好了,但是第一级采集网址不好采吧

答4:每条微博的发表时间里是包含第二级的网址
QQ图片20150923163420.jpg
你可以采集微博列表中每条微博的发表时间中的@href,这就是每条微博的单独网址,通过这个网址进入第二级网页,第二级网页进入的是评论列表,你再做个模拟点击,跳到转发列表,这是第三级别页面,第三级才是抓转发列表的。

问5:也就是说只能先抓取评论列表的入口地址

答5:是的

问6:嗯。第二级网页的模拟点击是怎么弄呢

答6:模拟点击教程:http://www.gooseeker.com/cn/node ... /simulateclick.html


举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-9-23 16:43

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:36