这是我要采集的东西http://club.autohome.com.cn/bbs/threadqa-c-18-58463233-1.html,包括发帖人的信息和帖子的内容。
但是这里有一个问题就是楼主和跟帖人的结构不一样,并且每一个跟帖人的信息都有所不一样,比如有些的有某些结构,有些的没有那些结构。。
我在资源论坛上找到了两个规则是分开抓取的http://www.gooseeker.com/doc/thread-2022-1-1.html(抓取楼主)
http://www.gooseeker.com/res/detail_141300.html(抓取跟帖)(这种情况当帖子数量十分庞大时,要重复很多次,不是很好)
然后这里有个规则就是我预期的:http://www.gooseeker.com/res/detail_142265.html所有的楼层一次性抓取
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-12-2 14:31

沙发
scraper 论坛元老 发表于 2016-12-2 10:42:51 | 只看该作者
直接用自定义xpath来采集就可以了
举报 使用道具
板凳
lxacoder 初级会员 发表于 2016-12-2 10:45:59 | 只看该作者
scraper 发表于 2016-12-2 10:42
直接用自定义xpath来采集就可以了

哎,心好累。。。。这个支持自己判断条件吗?比如if _else_因为有些东西有,有些东西没有,我下载了那个便宜的规则,貌似用了这种。
举报 使用道具
地板
scraper 论坛元老 发表于 2016-12-2 10:52:14 | 只看该作者
lxacoder 发表于 2016-12-2 10:45
哎,心好累。。。。这个支持自己判断条件吗?比如if _else_因为有些东西有,有些东西没有,我下载了那个 ...

你就找一个全一点的页面 然后写自定义xpath就可以了 不用勾关键内容 这样有的就会采下来 没有也不影响

举报 使用道具
5#
lxacoder 初级会员 发表于 2016-12-2 11:27:31 | 只看该作者
scraper 发表于 2016-12-2 10:52
你就找一个全一点的页面 然后写自定义xpath就可以了 不用勾关键内容 这样有的就会采下来 没有也不影响

...

拿楼主怎么和层主做样例复制,两个都不在一个DOM结构上
举报 使用道具
6#
lxacoder 初级会员 发表于 2016-12-2 11:32:43 | 只看该作者
scraper 发表于 2016-12-2 10:52
你就找一个全一点的页面 然后写自定义xpath就可以了 不用勾关键内容 这样有的就会采下来 没有也不影响

...

那楼主和层主怎么做样例复制,只有第一页有楼主,第二页都没有。。。难道为楼主单独把每一项重新另写抓取内容?
举报 使用道具
7#
scraper 论坛元老 发表于 2016-12-2 11:39:27 | 只看该作者
lxacoder 发表于 2016-12-2 11:32
那楼主和层主怎么做样例复制,只有第一页有楼主,第二页都没有。。。难道为楼主单独把每一项重新另写抓取 ...

不做样例复制 直接做定位标志映射

举报 使用道具
8#
lxacoder 初级会员 发表于 2016-12-2 12:36:13 | 只看该作者
scraper 发表于 2016-12-2 11:39
不做样例复制 直接做定位标志映射

哎。又弄了快2个消失了,还是弄不好,又没有具体的教程啊,始终没看懂那个自定义Xpath怎么弄。。
举报 使用道具
9#
scraper 论坛元老 发表于 2016-12-2 14:26:02 | 只看该作者
lxacoder 发表于 2016-12-2 12:36
哎。又弄了快2个消失了,还是弄不好,又没有具体的教程啊,始终没看懂那个自定义Xpath怎么弄。。
...

xpath需要先自己学习 搜索一下就有相关的帖子 比如 自定义xpath

举报 使用道具
10#
scraper 论坛元老 发表于 2016-12-2 14:31:47 | 只看该作者
另外 不是说全部抓取内容都需要写自定义xpath的 如果直接映射采到的内容正确 就不需要自己写xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 00:16