目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
怎么样进入三层链接地址?
就是点击A网址获取一个B列表,B列表点击再显示C列表 C列表点击才进入内容页。
网页点击链接后地址不变
www.mbjy.gov.cn/mbjyw_sh/schlicsearch.aspx[/url]这个网站点击高校后,要查看具体的信息,但是地址不变
链接地址是"javascript:"该如何获取?
网址:http://www.cssn.net.cn/cssn/cssn/search/search_result.jsp在将显示方式调成列表时,每个标准的地址都是javascript:,这种情该如何获取链接?
【疑问】链接类线索、如何在不影响下级规则的运行下批量给链接加后缀
/ 我需要在: http://anlaosun.spdl.com/linkus.html 页面下采集信息 目前情况是: 在样本网址http://anlaosun.spdl.com/下点击“联系我们”可以获得/linkus.htm后缀不影响我爬取数据、[u]但效率太低[/u],需要采集两次线索(运行三次规则) 疑问: 是否可以在第一次采集获得的线索后直接加上后缀
网址链接获取问题
true&modelChanged=false&filtersModified=true#resultsPage=1以上是网址目的是采集每一个列表链接的打开页里的内容 在获取网址链接过程中 没有找到href。
做规则采集二级页面的网址时,href 网址不全,少了前缀怎么处理?
做规则采集二级页面的网址时,href 网址不全,少了前缀怎么处理?
onclick网址链接获取问题
网址如下: [url]http://www.p2p178.com/invest/invest/list[/url]页面表格中每项信息的下一层链接都写在onclick()里面,而且表格的每一行没有id和class标识,这样只能定位到第一行记录链接规则名:腾邦创投 网址获取采用Xpath,但只能取第一条记录。
附件链接有多个地址为什么下载附件只下载一个
多个附件地址的规则是科技政策汇项目详情 下载附件的规则是 科技政策汇详情列表附件
页面url只有一半,前面少了些前缀,要怎么加上?
我抓两层的页面 抓到第二级页面的url只有一半 需要拼接 gooseeker有拼接的方法吗?谢谢 /zu/3_155336201.html 类似于这种,前面少了些前缀 我可以认为加上前缀 但是不知道在gooseeker
怎么采集公司名点进去的链接里面的电话地址之类的内容
[attach]6562[/attach][attach]6566[/attach][attach]6567[/attach]
层级抓取页面信息,可是下层的链接是javaScript 找不到地址,怎么办,
[url]http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=91&tableName=TABLE91&title=%CA%B3%C6%B7%C9%FA%B2%FA%D0%ED%BF%C9%BB%F1%D6%A4%C6%F3%D2%B5&bcId=137413698768984683499699272988[/url] 食品生产许可获证企业的信息,有人会抓取吗
采链接,没链接怎么采?
[attach]10293[/attach][attach]10293[/attach]第一次碰到这种情况,怎么解决?
如何批量获得网址中PeerReviewFile的pdf链接
我希望知道我手上这些网址有没有PeerReviewFile的字段,如果有就给我我这个PeerReviewFile的pdf链接,如果没有那就回复No(或者别的也行,我可以在excel里后续编辑) 编辑规则的网址:https://www.nature.com/articles/s41467-018-02825-9#Sec20 别的可以用来尝试网址: https://www.nature.com
如何将表格的 网址链接 直接 变成表格里面的图片
如何将表格的 网址链接 直接 变成表格里面的图片
采集到网址链接怎么只截取其中的url
[attach]3560[/attach] 请问,做层级抓取的时候,这个链接"top.window.location.href作为线索,怎么只保留url,不要前缀“top.window.location.href=” ??