目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
定义二级规则的页面不能循环抓取数据
再一级规则页面,拿到链接的href,并把下级线索关联了,在爬虫路线里也定义了和二级规则一样的主题名称 但是二级规则里就是不能循环每个标题链接,并获取内容
怎么规定抓取翻页数
mod=viewthread&tid=703&page=1&extra=#pid1353]制作规则—常见问题导航[/url] > [url=http://www.gooseeker.com/doc/thread-698-1-1.html]翻页采集[/url] > 怎么控制翻页数量[/size] 怎么规定抓取翻页数
可以设置从指定页面开始抓取吗?
有翻页和页面输入框,想跳转到从 30000页开始抓取,因为前面的都抓完了,就中间一段没有抓取,请大神赐教,谢谢!!
抓取规则不稳定
[b][size=2]我定义了3个规则:[/size][/b][b][size=2][align=left][color=backcolor][/color][/size] [size=2]有时候跑第一级,可以连续运行第一级和第二级,本机可以看到抓取的xml文件,但是第三级总是抓取不到,查看任务管理,10个页面总是抓取不到[/size] [size=2]当第二次跑第一级的时候
抓取页面链接到的页面
想要抓取页面的链接具体链到的那些页面内容,不止一个链接,有很多个链接
一个规则可以抓取网页结构相同多个页面,并不是一个规则只能抓一个页面
[i=s] 本帖最后由 xandy 于 2017-1-4 11:13 编辑 [/i] 大家在抓数据的时候,需要抓取多个网页结构相同的页面数据时,比如既要抓取天猫手机搜索列表的价格、名称,又要抓取电脑搜索列表的价格名。这种情况只需做一个抓取规则就行,不用针对手机做一个又对电脑做一个,因为都是抓取天猫搜索列表的数据,网页结构是相同的,在规则制作好之后,再往规则里添加线索就行。线索简单来说就是一个网址,如果以天猫搜索手机的网址作为样本页面制作规则,那天猫搜索电脑的网址就可以作为一条线索添加到打数机中进行抓取
如何抓取页面中不规则的url地址?
=s] 本帖最后由 huang3878221 于 2018-5-4 10:39 编辑 [/i] [size=14px]页面类似如下houseid=465089[/size] 使用了“样例复制映射”的方式进行抓取,但是依然抓取不全。是我挑选的样例不全,还是网页本身无法实现样例复制映射?
页面不符合抓取规则时如何跳转下一页?
如题,规则名ConverseSelect下转ConverseOutlet,区域点进去不是每个区都有店铺,抓不到信息的时候gooseeker就停住了不能跳到下一页。没有页面信息的时候希望能直接跳转到下一页,如何做到?谢谢!
小白问题:如何抓取页面中不规则url?
求问,我想要抓取的页面中url不是一行一个排列的,而是以图标的形式一行多个排列,用样例复制抓不全,主要抓取内容都在第二层。第一层网址是https://yyk.99.com.cn/zhejiang/,像抓取的内容是每个医院名称,作为下级线索。
打数机页面跟设定规则时不一致
主题名:问题列表425 之前抓取过一次数据成功,但是因为漏抓了一个数据,所以修改了下级线索后想要全部重新抓取。但是抓取时打数机页面与设定规则时不一致,设定规则时没有“Click me to see next set of questions这个选项,下拉自动会出现下面的问题(现在的网页仍然如此),这样子就没办法抓取下面的问题了,请问要怎么解决呢,是要全部规则重新设定吗
xpath自定义抓取规则失败
加载抓取规则遇到的错误: 无法定位容器 No.0 无法定位抓取内容 No.1 (情景2);XPath是a[position()=1] 无法定位抓取内容 No.2 (情景2);XPath是a[position()=2] 无法定位抓取内容 No()=4] 无法定位抓取内容 No.5 (情景2);XPath是following-sibling::div[position()=1]/div[position()=1]/h1/text()[position()=1] 无法定位抓取内容 No.6::div[position()=1]/div[position()=1]/h1/a[position()=3] 无法定位抓取内容
没有定义下级抓取规则
[i=s] 本帖最后由 beanbing 于 2016-10-24 16:23 编辑 [/i] 我的规则是这样的 试了好几次都是这样的
js页面抓取问题
一个全js构成的网页,我要先做一组连续动作才能看见需要采集的第一层信息,然后在这第一层信息里有一个点击按钮,点击完会出现第二层信息,全程操作力网址不会变化,这张情况下我如何做抓取,请知道的朋友详细说明,谢谢各位!
翻页记号是一个>号,怎样定义抓取规则?
[i=s] 本帖最后由 ym 于 2015-9-2 09:50 编辑 [/i] [b]问题[/b]:在网页上,翻页按钮显示一个符号> ,点击就可翻页,网页DOM结构如下: [align=center][attach]78[/attach][/align] [align=left]可见,翻页记号在DOM中是一个@class的节点,怎样做记号映射?align] [align=left][b]解答[/b]:[/align] [align=left]通常用“下一页”这样的文字作为翻页记号,如果要用@class这样的非文字内容,那么要如下图设置:[/align] [align=center