目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
抓取不到独立网址
download节点里没有下级网址,而且做连续动作模拟点击后会加载一个新的网页(如红色箭头指向)[attach]14092
网页变化网址不变如何抓取
点击超链接,网页内容变化了,但是网址不变,这种网页能用集搜客网络爬虫抓取数据吗?
多次点击后的网址抓取
gligo-e-ink-smartwatch-hassle-free-with-style#/]这个页面[/url]里点击多次最后抓取发起人介绍网址(即最后一张图所在的网址)如何进行 [attach]9810[/attach] [attach]9811[/attach
网址不变,内容变。怎么抓取?
问题图片如下: 第一页采集的图片: [attach]12360[/attach] 这一页的内容能采集到。 [attach]12361[/attach] 设置后,第二页的内容就采集不到了。 测试过多次。也看了https://www.gooseeker.com/doc/article-150-1.html的内容。还是无法实现把这几题采集。 请指导实现下。谢谢。
抓取内容怎么包括当前网页网址
我想要采集做规则这个页面的网址 要怎么映射
怎么翻页抓取第二级网址啊?
我是先做层次采集,然后再做翻页。 但是不知道为什么会出错。。 教程里面好像也没看到有做的,所以问问。。
采集图片网址,样例抓取失败
抓取失败 按教程抓第一个小图地下LI,第二个LI
抓取下级网址多了这个东西
[attach]1844[/attach] 客服帮忙看一下,为什么会多了这个东西,导致找不到下级了
一个网址多页内容,怎么抓取
网页上有多页,总是只能抓取第一页,怎么处理呢
抓取内容怎么包括本页面网址
我想要采集做规则这个页面的网址 要怎么映射
网页结构相同的1000+个网址(作为线索),有的网址有要抓取的数据,有的网址该数据为空,如何设置规则完全抓取数据?
线索网址为如下等,所以线索网址可见附件: <<<<<[table=350] [tr][td=350][align=lefthttps://www.wdzj.com/dangan/xwch/[/align][/td][/tr] [/table] 要抓取的数据为我发现有的线索网址有,有的线索网址没有这个数据,还发现他们的Xpath路径是相同的(如下),故在规则中高级设置中自定义了Xpathposition()=1]/dl[position()=1]/dd[position()=6] 但发现DS打数机仍然有些网址线索中的数据未能抓取下来
层级抓取href值不是网址该怎么办
[attach]782[/attach] 如上图,层级抓取做抓取线索的时候href那一栏显示的不是网址,测试得到的结果抓取到的都是
导出的Excel表有抓取的线索网址吗
导出的Excel表有抓取的线索网址吗
Twitter-点击后网址不变-转推数据抓取
pageNum=1&p=1]转推ID[/url][/size][/font][/color] 想点击第一个图里的转推,抓取第二个弹出的页面的信息但是第二个页面没有新的网址。 请帮忙看看什么问题。
层级抓取时,找不到上级网址的href
meth=list&type=001,这是要抓取的网址。我用的@onclick作为下级网址的抓取链接,结果最终抓取失败。请问怎么找到@href,然后成功的实现层级抓取