facebook 样例复制后测试只有一条内容,采集完了没有看到文件夹

主题:jordyn
链接:https://www.facebook.com/search/100001626316757/pages-liked

请尽快帮忙解决
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-6-5 17:56

沙发
Fuller 管理员 发表于 2017-6-5 14:07:08 | 只看该作者
你做的这个规则,加载完全失败,最好用上定位标志映射,提高适应性。

因为加载失败,我无法判断哪里做的有问题。要不你截个图,描述一下怎么做的内容映射和样例复制映射。
举报 使用道具
板凳
Duoyinfo 初级会员 发表于 2017-6-5 15:40:27 | 只看该作者
谢谢。

按照你说的定位标志映射,的确是解决了样例复制测试的问题。测试的时候可以看到似乎是成功了。
但是实际爬取数据的时候,只抓到了5条数据,但是爬虫是一直抓到结束的。

我打开XML 发现只有5条数据,但是明明看到是爬到尽头的,这是什么回事呢?

主题名:jordynlikes

举报 使用道具
地板
Duoyinfo 初级会员 发表于 2017-6-5 15:43:49 | 只看该作者
样例复制后,我点击测试,看到的内容仅仅有5条
举报 使用道具
5#
shengchengx 金牌会员 发表于 2017-6-5 15:55:16 | 只看该作者
Duoyinfo 发表于 2017-6-5 15:43
样例复制后,我点击测试,看到的内容仅仅有5条

这是需要登录才能看到的么
举报 使用道具
6#
Duoyinfo 初级会员 发表于 2017-6-5 15:55:30 | 只看该作者
我看到了网页的结构很奇怪,到了第五个的时候,改变了位置。

WeChat Image_20170605155445.png (77.16 KB, 下载次数: 875)

WeChat Image_20170605155445.png
举报 使用道具
7#
Fuller 管理员 发表于 2017-6-5 16:35:32 | 只看该作者
这个网页上的内容,每5个一组,放在一个div中,看下图


按理说这需要做嵌套整理箱,两层容器节点,内层用你现在做的样例复制映射,外层用红框画出来的div做,这样就能都采集下来。不过还有更好的方法,用定位标志映射采集列表



因为所有的样例都有相同的class,这样就不用样例复制映射了。

另外,DS打数机需要滚屏,你要做一个判断:
1,你先手工滚屏看看,如果永远滚不到底,就得用连续动作的滚屏功能,滚一屏抓一次。
2,如果能滚到底,就用DS打数机的普通滚屏功能,滚到底再抓。这里有自动滚屏的介绍:http://www.gooseeker.com/doc/thread-2241-1-1.html

举报 使用道具
8#
Duoyinfo 初级会员 发表于 2017-6-5 17:56:37 | 只看该作者
终于搞定了。厉害了,我的哥!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 04:29