目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
样例复制后抓取内容是一样的
如图所示,做样例赋值之后,【图片】、【视频】以及【配置】抓取的url是一样的: [attach]1212[/attach] 没有做样例复制是这样的: [attach]1213[/attach]
怎样抓取网页上一整块内容
[b]问[/b]:抓取百度关键字搜索结果,还想顺着链接进入每个网页抓取详细内容,怎样抓取?那么,抓列表是第一级,抓详细内容是第二级。》[/url] 2)抓取整页内容:做第二级规则的时候要注意,因为有很多网站,每个网站的结构不一样,需要做一个通用的规则,把html中的整个body抓下来做内容部分。要抓整块的话,需要在整理箱上为抓取内容设置 “高级设置”,里面有“抓取特定内容”->“文本内容”。
怎样提取一段文本数据中的关键词内容
[i=s] 本帖最后由 wangyong 于 2020-11-13 15:40 编辑 [/i] 使用集搜客爬虫的[url=https://www.gooseeker.com/land/weibo.html]微博工具[/url]采集到了微博的博文数据,怎样能把一段博文中的关键词提取出来
为什么不同抓取内容抓到的信息回是一样的
[i=s] 本帖最后由 xiaojunahu 于 2017-11-10 21:06 编辑 [/i] 多谢了
为一定能抓到的抓取内容设置“关键内容”
这个是什么意思? [align=center][attach]918[/attach][/align]
求助,网页样式一样,但抓取内容不是都有,怎么抓取?
遇到一种情况,我要抓取的网页格式是一样的,但是有些网址的很多内容为空值,结果是有些有结果有些没结果,这里面是怎么判断的。
抓取第一个内容的时候可以抓取,加完第二个抓取内容后,再次抓取,第一个内容就抓偏了
抓取第一个内容的时候可以抓取,加完第二个抓取内容后,再次抓取,第一个内容就抓偏了
抓取页面数据后想添加一列内容
我希望能在结果数据后添加一列内容,要怎么实现
我抓取的内容是一个很长的文本,怎么只抓取其中一部分的内容?
[attach]7414[/attach] 这个篇文章全部都在一个标签里,我只想得到营业收入这个信息?
怎样抓取速卖通的评论内容?
我按照列表翻页制作规则抓取了速卖通某一品类的数据,共15页全部加载出来了,然后层级抓取页没有问题,现在我想将详情页的评论内容页一起抓取我找到了评论页面的IFRAME节点下有评论页面的网址链接为SRC,我把这个节点作为下级做了第三层规则,不知道对不对?系统提示说同一整理箱的IFRAME应该来自同一个节点,所以卡壳了。在此求教各位该如何抓取速卖通详情页上的评论信息! 谢谢!
怎样抓取弹出的对话框内容?
点击网页上的链接,会有对话框弹出来,怎样抓取?
做了样例以后仅能抓取一部分内容
[b]吉林省公共资源交易中心-列表页-招标信息-S2Y 如题 [/b]
抓取的数据都和第一个一样
我做规则的时候,做好了内容映射和样例复制,点测试显示的结果第一个样例的数据正常,但是其他样例的数据全部都跟第一个样例相同,请问我该怎么检查我的规则到底什么地方出了问题,大神,麻烦给个思路
内容映射“多对一”时抓取不到相关的内容
规则名:马蜂窝三层试抓 抓取界面结构 预抓取信息:公司名,左侧全部产品下方文本 [p=30, 2, left][attach]9939[/attach][/p] 问题:按照多对一的教程设置了抓取规则(教程链接[url=http://www.gooseeker.comhtml]http://www.gooseeker.com/doc/article-101-1.html),在测试时可将目标内容抓取attach] 测试结果如图 [p=30, 2, left][attach]9941[/attach][/p]但是应用到相似的网页结构便无法抓取相应信息,抓取的产品列便成为空白。
只抓取第一页内容
我只要抓取第一页内容,不需要翻页,看什么教程