目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
设置层级抓取与翻页抓取时http://waimaoquan.alibaba.com/bbs/thread-htm-fid-
打数机的层级抓取只显示有两个线索,第一个线索是正确的发帖人信息 [attach]2803[/attach] 第二个线索是 [attach]2804[/attach] 请教问题出在哪?
页面结构一样,翻页匹配失败
主题名:bbs专卖1[attach]9302[/attach]
页面结构一样,翻页后匹配失败
主题名是:bbs专卖1[attach]9301[/attach]
爬虫相关——爬取网页链接做下级线索时,最终爬到的结果总是不相符合,导致第二级规则404
规则名:BBS每日话题收集
大神求助!!怎样按一个特殊的规则抓取网页信息?
我想抓取BBS的数据,第一页第一行总是发帖人的信息,后面所有都是回复人的信息。翻页之后都是回复人的信息。
【天涯社区_帖子关键搜索列表】#GooSeeker数据DIY#
E5%9D%9B[/url][/b] [*][b]样本网址:[url=http://search.tianya.cn/bbshttp://search.tianya.cn/bbs?
【汽车之家论坛帖子详情采集】#GooSeeker数据DIY#
83%85[/url] [*][b]样本网址:[/b][url=http://club.autohome.com.cn/bbsthreadqa-c-2615-50345174-1.html]http://club.autohome.com.cn/bbs
【汽车之家论坛帖子列表采集】#GooSeeker数据DIY#
A1%A8[/url] [*][b]样本网址:[/b][url=http://club.autohome.com.cn/bbsorderby=dateline&qaType=-1]http://club.autohome.com.cn/bbs/forum-c
求助求助,网页结构不一样,如何同时抓取。
这是我要采集的东西http://club.autohome.com.cn/bbs/threadqa-c-18-58463233
【阿里巴巴外贸圈论坛帖子列表】#GooSeeker数据DIY#
A8[/url][/b] [*][b]样本网址:[url=http://waimaoquan.alibaba.com/bbs/thread-htm-fid-17.html]http://waimaoquan.alibaba.com/bbs/thread-htm-fid
【阿里巴巴外贸圈论坛帖子详情】#GooSeeker数据DIY#
85[/url][/b] [*][b]样本网址:[url=http://waimaoquan.alibaba.com/bbsread-htm-tid-3016762-fid-39.html]http://waimaoquan.alibaba.com/bbs
为什么采集完不能导出数据呢?
frHrTccAAB8CwRlAAAAQEBQBgAAAAT/D3XJvmC0IRDvAAAAAElFTkSuQmCC[/img] 规则名:[i]版面目录-O区BBS
采集甩手掌柜论坛数据 了解竞争对手玩转淘宝
通过集搜客GooSeeker采集[url=http://www.shuaishou.com/bbs/column10t1p1
Python即时网络爬虫项目: 内容提取器的定义
用法示例[/size][/b] 下面是一个示例程序,演示怎样使用GsExtractor类提取GooSeeker官网的bbs