本帖最后由 ym 于 2015-9-23 16:44 编辑
问1:我想获取转发列表。。。。有同学做过么。。。因为这个没有链接。。具体用MetaStudio怎么定义规则呢
答1:点击“查看所有xxx转发”就能弹出转发列表的单独网页,例如http://weibo.com/1803526210/CBQ5n554C?type=repost,再对这个网页做规则就能采下来
问2:我刚也发现了,但是我又想了一个问题。。。。这样的话就只能一条一条的抓,就是一次只能抓一条微博的转发列表
这个能做二级分页抓取么。。。
答2:规则里做样例复制和翻页,就能自动采集翻页采集列表上每一个转发记录
问3:整个转发列表是可以做翻页采集的,比如说我现在有的是微博列表,我要去采集微博列表中所有被转发微博的转发列表。。。。。
答3:做两级规则,第一级规则把微博列表中所有转发微博的转发列表的网址采集下来,作为第二级的规则的线索,第二级规则去采微博的转发列表
问4:过程我明白,第二级我已经弄好了,但是第一级采集网址不好采吧
答4:每条微博的发表时间里是包含第二级的网址
你可以采集微博列表中每条微博的发表时间中的@href,这就是每条微博的单独网址,通过这个网址进入第二级网页,第二级网页进入的是评论列表,你再做个模拟点击,跳到转发列表,这是第三级别页面,第三级才是抓转发列表的。
问5:也就是说只能先抓取评论列表的入口地址
答5:是的
问6:嗯。第二级网页的模拟点击是怎么弄呢
答6:模拟点击教程:http://www.gooseeker.com/cn/node ... /simulateclick.html
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 0 个关于本帖的回复 最后回复于 2015-9-23 16:43