比较微博上的这个时间,当时间是“11月2日”时进行抓取?如果是"11月1日”就不抓取?这个可以通过写xpath来实现吗?
01.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-11-8 20:24

umsung 高级会员 发表于 2017-11-6 11:34:08 | 显示全部楼层
这个似乎不可以,可以把全部的时间抓下来,然后再通过excel进行筛选,筛选出你想要的时间点的微博数据
举报 使用道具
kkkingwing 金牌会员 发表于 2017-11-6 16:41:49 | 显示全部楼层
umsung 发表于 2017-11-6 11:34
这个似乎不可以,可以把全部的时间抓下来,然后再通过excel进行筛选,筛选出你想要的时间点的微博数据 ...

谢谢你的回复。
emmmm...因为现在就是通过excel筛选来做的,但是多了几步操作,还是比较麻烦的。特别是量多的而且要筛选条件多的时候,想着如果xpath可以执行判断的话,那就方便很多了

举报 使用道具
umsung 高级会员 发表于 2017-11-6 16:55:41 | 显示全部楼层
本帖最后由 umsung 于 2017-11-6 17:10 编辑
kkkingwing 发表于 2017-11-6 16:41
谢谢你的回复。
emmmm...因为现在就是通过excel筛选来做的,但是多了几步操作,还是比较麻烦的。特别是量 ...

微博上可以筛选时间段吗?  如果可以选择时间段就可以通过连续动作实现,比如只想要11月2日的数据,通过筛选条件用连续动作直接在页面上筛选出11月2日的数据进行采集就行了
举报 使用道具
kkkingwing 金牌会员 发表于 2017-11-6 17:52:57 | 显示全部楼层
umsung 发表于 2017-11-6 16:55
微博上可以筛选时间段吗?  如果可以选择时间段就可以通过连续动作实现,比如只想要11月2日的数据,通过筛 ...

因为微博的搜索实在惨不忍堵,问题都是一堆堆的,筛选的不准确,所以想通过这方面来实现。

举报 使用道具
umsung 高级会员 发表于 2017-11-6 18:09:31 | 显示全部楼层
kkkingwing 发表于 2017-11-6 17:52
因为微博的搜索实在惨不忍堵,问题都是一堆堆的,筛选的不准确,所以想通过这方面来实现。

...

只有这两种方法了
1,要么通过连续动作筛选后再进行采集
2,要么就只能通过excel对结果进行晒选
举报 使用道具
kkkingwing 金牌会员 发表于 2017-11-7 18:14:56 | 显示全部楼层
umsung 发表于 2017-11-6 18:09
只有这两种方法了
1,要么通过连续动作筛选后再进行采集
2,要么就只能通过excel对结果进行晒选

好的,谢谢你的回答 ,这两种方法都试过了,但是都某些方面有处理不了的地方。

举报 使用道具
umsung 高级会员 发表于 2017-11-7 18:24:59 | 显示全部楼层
kkkingwing 发表于 2017-11-7 18:14
好的,谢谢你的回答 ,这两种方法都试过了,但是都某些方面有处理不了的地方。

...

对结果进行筛选应该可以把
举报 使用道具
kkkingwing 金牌会员 发表于 2017-11-8 20:24:32 | 显示全部楼层
umsung 发表于 2017-11-7 18:24
对结果进行筛选应该可以把

对结果筛选是可以的,但是抓取再处理的这个方法,会花费大量时间在抓取上面,二次处理数据也是个麻烦的事,(就不说期间会有点小差错了。。),所以不能一步到位的话,是件很忧伤的事情。。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 09:26