感觉论坛里面的结构如果按照常规抓取的话会很麻烦,会把一个回帖分成很多结点,而且数量不太固定,没办法完成批量抓取?!
有谁知道怎么做比较方便吗?求大神!
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-3-7 15:58

沙发
Fuller 管理员 发表于 2016-1-19 21:34:03 | 只看该作者
这个问题我没有理解透,你设想的批量抓取是怎样的?

我想到的是:
1)在每一页上,按照楼层抓取每个跟帖和主贴
2)每个帖子,按照字段分别抓取内容,时间,发帖人等信息
3)翻页再抓取后续的网页

这些都可以一气呵成,是批量抓取的
举报 使用道具
板凳
redwindy 中级会员 发表于 2016-3-2 01:14:03 | 只看该作者
Fuller 发表于 2016-1-19 21:34
这个问题我没有理解透,你设想的批量抓取是怎样的?

我想到的是:

我想我理解楼主的意思。
就是说论坛帖子的表现形式大概是这样的。
一个<DIV>下面很多内容,并没有什么规律。可能刚开始一个图片,然后大段文字,然后又是图。这样的话如何采集呢?
如果是用内容定位到<DIV>这个标签并不能采集到数据啊。
举报 使用道具
地板
redwindy 中级会员 发表于 2016-3-2 01:15:45 | 只看该作者
Fuller 发表于 2016-1-19 21:34
这个问题我没有理解透,你设想的批量抓取是怎样的?

我想到的是:

如果只是采集发帖人,或者标题都好说,可以定位到#text之类的具体内容。然而帖子内容本身什么都可能有。所以不知道怎么定位了。
举报 使用道具
5#
Fuller 管理员 发表于 2016-3-2 09:40:45 | 只看该作者
redwindy 发表于 2016-3-2 01:15
如果只是采集发帖人,或者标题都好说,可以定位到#text之类的具体内容。然而帖子内容本身什么都可能有。 ...

帖子内容在一个DIV下,你可以定义规则,把整个DIV采集下来,具体参看:http://www.gooseeker.com/doc/thread-692-1-1.html
如果想同时下载图片,只需给这个抓取内容勾上“下载图片”
举报 使用道具
6#
redwindy 中级会员 发表于 2016-3-7 15:58:31 | 只看该作者
Fuller 发表于 2016-3-2 09:40
帖子内容在一个DIV下,你可以定义规则,把整个DIV采集下来,具体参看:http://www.gooseeker.com/doc/thr ...

原来只是需要再高级设置里选择一下就行了……
十分感谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 07:32