用excel打开时这样的。

网页里面看,没有问题。

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-12-25 08:52

沙发
quyixuan 金牌会员 发表于 2016-12-5 14:51:45 | 只看该作者
之前没见过这种问题,你把主题名贴出来,我们测试看一下
举报 使用道具
板凳
zhudii 初级会员 发表于 2018-12-21 22:16:57 | 只看该作者
quyixuan 发表于 2016-12-5 14:51
之前没见过这种问题,你把主题名贴出来,我们测试看一下

我也遇到了这种情况,网页里面看是好的,但是导出来就全是重复的
举报 使用道具
地板
Fuller 管理员 发表于 2018-12-22 09:26:47 | 只看该作者
zhudii 发表于 2018-12-21 22:16
我也遇到了这种情况,网页里面看是好的,但是导出来就全是重复的

你定义个规则的整理箱结构截个图出来看看?

如果在一个整理箱中,有嵌套的子箱子,子箱子也是样例复制,那么上一层的信息一定会内容相同。

观察一下,对比两个excel行,如果每个字段都一样,那才是重复的,如果其中有不同的字段,就不是重复的
举报 使用道具
5#
zhudii 初级会员 发表于 2018-12-24 21:37:39 | 只看该作者
Fuller 发表于 2018-12-22 09:26
你定义个规则的整理箱结构截个图出来看看?

如果在一个整理箱中,有嵌套的子箱子,子箱子也是样例复制, ...

嗯嗯,不好意思,我发现这个问题了,一直迭代前面的内容都是重复的,最新最大的那个才是比较完整的,只看生成的最后一个就可以了。



另外还有个想请教的问题就是,我用你们开发的微博采集工具采集评论,不能够采集所有的评论,比如微博下面“共XXX条回复”那种。

我也自己试着改xpath,改成//*[contains(text(),'') and contains(text(),'条回复') ]  ,但好像还是不行。




另外我也结合使用了连续动作,但我发现,他是先执行的翻页(就是每一页的那个"查看更多"),再回来执行那个连续动作,就是点击“共XXX条回复”,但最后爬取的内容还是没有下面的更多回复,我试了好久好多天,这么简单的问题也没能解决呢,所以想问问你们,这个到底要怎么弄比较好y吖,麻烦啦~
举报 使用道具
6#
Fuller 管理员 发表于 2018-12-25 08:50:06 | 只看该作者
zhudii 发表于 2018-12-24 21:37
嗯嗯,不好意思,我发现这个问题了,一直迭代前面的内容都是重复的,最新最大的那个才是比较完整的,只看 ...

连续动作是这样的:
1,做一轮动作
2,执行目标主题的抓取规则
3,回来做下一轮动作
4,执行目标主题的抓取规则
......
就这样循环.

你说的问题不应该存在,连续动作的目标主题名还是当前主题名,就可以用来循环点击加载更多
举报 使用道具
7#
Fuller 管理员 发表于 2018-12-25 08:52:05 | 只看该作者
你想采集回复数?xpath基本上没有问题,通常自定义xpath不用//开头,而是用.//开头,但是一个网页上只想抓取一个内容,而不是样例复制中的内容,用//开头也可以
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 16:14