11#
a1641422659 初级会员 发表于 2019-4-9 20:24:11 | 只看该作者
Fuller 发表于 2019-4-9 19:59
这个论坛应该这样看他的结构:
1,顶上是主贴
2,下面的是跟帖

就是我想要这个主贴第一页的跟帖,也就是第一页回复用户的名字 ,刚才试了,好像只抓了这第一页的一部分,然后怎么去掉重复的部分。不大懂,请见谅哈

QQ浏览器截图20190409174840.png (23.88 KB, 下载次数: 649)

QQ浏览器截图20190409174840.png
举报 使用道具
12#
Fuller 管理员 发表于 2019-4-9 21:07:05 | 只看该作者
a1641422659 发表于 2019-4-9 20:24
就是我想要这个主贴第一页的跟帖,也就是第一页回复用户的名字,刚才试了,好像只抓了这第一页的一部分, ...

如果在网页上有重复的,那么就会原样抓下来,要等导出成excel以后才能用excel的功能过滤重复内容,转成excel的方法参看:https://www.gooseeker.com/doc/article-329-1.html
举报 使用道具
13#
a1641422659 初级会员 发表于 2019-4-9 21:13:09 | 只看该作者
Fuller 发表于 2019-4-9 21:07
如果在网页上有重复的,那么就会原样抓下来,要等导出成excel以后才能用excel的功能过滤重复内容,转成ex ...

出了个问题,就是我照您的方法设置了第二个整理箱用来抓跟帖用户名,想只抓第一页的,但是只抓了这一页的头几个回帖用户名就没了,这是怎么回事呢?
举报 使用道具
14#
Fuller 管理员 发表于 2019-4-9 22:30:56 | 只看该作者
a1641422659 发表于 2019-4-9 21:13
出了个问题,就是我照您的方法设置了第二个整理箱用来抓跟帖用户名,想只抓第一页的,但是只抓了这一页的 ...

我把采集到的数据核对了很多,没有漏的
举报 使用道具
15#
a1641422659 初级会员 发表于 2019-4-10 09:17:52 | 只看该作者
Fuller 发表于 2019-4-9 22:30
我把采集到的数据核对了很多,没有漏的

不好意思,是我没看仔细,抱歉!!!
举报 使用道具
16#
a1641422659 初级会员 发表于 2019-4-10 10:49:48 | 只看该作者
本帖最后由 a1641422659 于 2019-4-10 10:55 编辑
Fuller 发表于 2019-4-9 22:30
我把采集到的数据核对了很多,没有漏的

再爬话题主要内容时,加载完之后 剩余线索总会提示匹配失败,统计线索,不是抓取中 就是超时

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 14:22