11#
Fuller 管理员 发表于 2019-6-30 23:27:34 | 只看该作者
这里有个抓取这种网页的帖子。可以参考一下https://www.gooseeker.com/doc/thread-1820-1-1.html
举报 使用道具
12#
wayslien 中级会员 发表于 2019-6-30 23:44:32 | 只看该作者
Fuller 发表于 2019-6-30 23:27
这里有个抓取这种网页的帖子。可以参考一下https://www.gooseeker.com/doc/thread-1820-1-1.html ...

好的,我看一下
举报 使用道具
13#
Fuller 管理员 发表于 2019-6-30 23:48:54 | 只看该作者
wayslien 发表于 2019-6-30 22:43
而且数据有有重复。。。。在还没有“载入更多”的那个页面,一共有12个项目,数据抓取到第6个之后,又开 ...

这种载入很多,每次点击都会在网页上追加新内容,抓取的时候是从网页顶部往下抓,所以会把老的内容抓下来。

旗舰版用户可以在点击动作的高级设置那里勾上清除老数据,不过要看网页是否允许清除老数据,要试验好了再正式使用。

重复数据可以在excel中标记出来进行过滤
举报 使用道具
14#
wayslien 中级会员 发表于 2019-7-1 00:00:25 | 只看该作者
Fuller 发表于 2019-6-30 23:48
这种载入很多,每次点击都会在网页上追加新内容,抓取的时候是从网页顶部往下抓,所以会把老的内容抓下来 ...

问题是。。。老的内容抓下来之后,也没有新内容增加呀,一共500多个结果,而实际只抓到了12个就停了,其中还有6个是重复的。。。。
举报 使用道具
15#
Fuller 管理员 发表于 2019-7-1 09:00:51 | 只看该作者
wayslien 发表于 2019-7-1 00:00
问题是。。。老的内容抓下来之后,也没有新内容增加呀,一共500多个结果,而实际只抓到了12个就停了,其 ...



仔细对一下内容,就会发现网页上每12个放在一个div中,点击加载更多可能会放在更多div中。

你做的样例复制,只能在同一个div中复制,如果想外层再加一个在div间复制的,就要增加一层整理箱



创建一层比较容易,在整理箱上有鼠标右键,先在顶层整理箱节点上创建一个“包含”类型的抓取内容,然后选中下面的抓取内容有鼠标右键菜单“右移”把后面的抓取内容移到内部
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 12:08