35 23887

新浪微博_话题

ym 于 2015-8-13 15:34 发表 [复制链接]
Fuller 管理员 发表于 2016-9-22 22:08:24 | 显示全部楼层
还有关键的一点:要抓取的网页是不是话题网页?就是那种双#括起来的话题对应的网址?如果网址不对,就不能套用这个规则
举报 使用道具
ym 版主 发表于 2016-9-22 22:36:56 | 显示全部楼层
本帖最后由 ym 于 2016-9-22 22:44 编辑
18765819353 发表于 2016-9-22 21:52
为什么跳不到下一页就超时了

把网址贴出来,让我们测试一下

设置一下DS打数机的配置菜单->滚屏参数,把滚屏次数改大点,例如:滚屏次数为10

举报 使用道具
18765819353 初级会员 发表于 2016-9-23 09:22:32 | 显示全部楼层
ym 发表于 2016-9-22 22:36
把网址贴出来,让我们测试一下

设置一下DS打数机的配置菜单->滚屏参数,把滚屏次数改大点,例如:滚屏次 ...

http://s.weibo.com/weibo/%2523%25E7%258E%258B%25E5%25AE%259D%25E5%25BC%25BA%25E7%25A6%25BB%25E5%25A9%259A%2523?topnav=1&wvr=6&b=1
举报 使用道具
Fuller 管理员 发表于 2016-9-23 09:27:01 | 显示全部楼层
18765819353 发表于 2016-9-23 09:22
http://s.weibo.com/weibo/%2523%25E7%258E%258B%25E5%25AE%259D%25E5%25BC%25BA%25E7%25A6%25BB%25E5%25 ...

你这个网址是搜索结果页,要用搜索结果抓取规则或者微博工具箱中的工具。

王宝强这个话题的真正网址是这个:http://weibo.com/p/1008081b6f513 ... ;_from_=huati_topic
举报 使用道具
18765819353 初级会员 发表于 2016-9-23 09:31:51 | 显示全部楼层
Fuller 发表于 2016-9-23 09:27
你这个网址是搜索结果页,要用搜索结果抓取规则或者微博工具箱中的工具。

王宝强这个话题的真正网址是这 ...

果然可以了,谢谢你!
举报 使用道具
18765819353 初级会员 发表于 2016-9-23 09:59:03 | 显示全部楼层
转发数和评论数两栏不知道为什么都是空的,有点赞数
举报 使用道具
ym 版主 发表于 2016-9-23 11:15:26 | 显示全部楼层
18765819353 发表于 2016-9-23 09:59
转发数和评论数两栏不知道为什么都是空的,有点赞数

微博话题的结构有变化,刚修改好了规则,你去重新下载就好了(重复下载免费)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
18765819353 初级会员 发表于 2016-11-30 09:41:59 | 显示全部楼层
剩余线索:匹配失败,昨天用还是好的
举报 使用道具
ym 版主 发表于 2016-11-30 09:48:18 | 显示全部楼层
18765819353 发表于 2016-11-30 09:41
剩余线索:匹配失败,昨天用还是好的

把网址发出来测试一下

举报 使用道具
18765819353 初级会员 发表于 2016-11-30 09:54:34 | 显示全部楼层
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:08