目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
怎样使用同一规则抓取不同数据但是网页类型相同
当我们想要抓取多个网页结构相同的页面数据的时候,这时可以用同一个规则进行抓取,它们的网页结构相同,所以规则也都是适用的,规则测试没问题之后
同一规则抓取相似网页结构失败
设定了一个规则抓取二级网页信息。抓取内容为新闻三要素:标题,发表时间,正文。/news.sina.com.cn/o/2014-11-21/023031178457.shtml[/url] 第一个网页内容抓取成功了,但是第二个网页内容抓取失败 这两个网页的网页结构我感觉是一样的,只不过第二个网页里面的新闻正文有图片。错误分析显示规则只能抓取第二个网页的发布时间,其他信息都抓不到。但其实他们的标题的xpath的绝对路径都是一样的。
相同结果页面加载同一规则抓不到数据
我的规则是:详情页面采集,抓取页面1:[url]https://mall.cnki.net/magazine/Article/CMFD/1018701299.htm[/url] 抓取页面2:[url]https://mall.cnki.net/magazine/Article/SYAQ200402008.htm[/url] 问题是:抓取页面1没有问题,但是页面2的URL数据抓取不到
同一个主题规则用于不同网页
做层级规则的时候,第一级抓到下级线索,第二级抓详细内容,但是第二级的网页结构不都是一样的,出现了好几种结构,这种情况第二级规则应该怎么做才能将这几种不同结构的网页都采集成功
同一个规则采集不同网页结构的同一内容
不同网页结构抓取同一个内容 能不能通过xpath制定同一个规则
爬不同网页
请问大家,想要不同网站的爬取这些网站中的信息,用爬虫怎么搞啊,像每个公司的财务信息位置都不一样,那我还怎样确定爬虫设置呢
微博的共同关注列表的规则为什么不能用于其他的相同网页
为某个博主写了一个抓取“共同关注”列表的规则,为什么导入相同网页结构的线索抓取不出数据?之前抓百度新闻、电商页面都没有碰到这个问题 求解答??谢谢谢谢谢谢~~~~
一个规则可以抓取网页结构相同多个页面,并不是一个规则只能抓一个页面
[i=s] 本帖最后由 xandy 于 2017-1-4 11:13 编辑 [/i] 大家在抓数据的时候,需要抓取多个网页结构相同的页面数据时,比如既要抓取天猫手机搜索列表的价格、名称,又要抓取电脑搜索列表的价格名。这种情况只需做一个抓取规则就行,不用针对手机做一个又对电脑做一个,因为都是抓取天猫搜索列表的数据,网页结构是相同的,在规则制作好之后,再往规则里添加线索就行。线索简单来说就是一个网址,如果以天猫搜索手机的网址作为样本页面制作规则,那天猫搜索电脑的网址就可以作为一条线索添加到打数机中进行抓取
相同网址,不同内容,如何采集?
本人需要采集 http://data.jijinb.com/ 上面的数据,但是定义的规则自动用于【B类份额】,也想采集【A之前有试过不勾选【内容定位】,点击到【A类份额】,然后再定义规则保存规则,但是抓取的时候DS打数机自动转为【B类份额】的页面,最终结果是规则不适用,请问要如何解决?另外,可否定义一个规则同时抓取【B类份额】【A类份额】【母基份额】【分级套利】,注意A类和B类上面包含的属性不同。
网页细微差别不能用同一个抓取规则
没有报错就是有些数据没采到
同一个主题的不同规则,选取的网页标志无法判断该使用哪个规则
我在抓取商标数据时,遇到如下问题: 商标分共有商标和非共有商标两种。[attach]3239[/attach] 我想在同一个主题下建不同的规则。做好了的两个规则,共有的规则排在前面 [attach]3237[/attach] 经实测,共有和非共有的网页都用了共有的规则非共有的网页,使用了共有规则,网页标志定位到了和共有申请人1同一个位置的字段:后期指定日期。attach]3238[/attach][attach]3238[/attach] 我改了几次定位的首选项,仍无法区分不同的规则
同一主题名的不同规则怎么同时抓取数据?
我在同一主题名下建了三个规则,三个规则的网址都是同一个,怎么同时抓取三个规则的数据,并且三个规则抓取的数据在表格的同一行?
同网页相同结构的内容,无法同时抓取,有数据遗漏
但是在规则测试和最后的打数机爬取中,都无法爬取除“Silver Spike”以外的文本内容。不知道是为什么,感觉上下框文本所在节点位置也是相同的。除了这一列内容,其它我想采集做了内容映射的地方的内容都能正常爬取,就只有这一列会缺漏。我搜索之后,尝试做了定位标志映射,不知道对不对,结果是做了也无法正常爬取,当然也有可能是我定位错了。[attach]10160[/attach] 最后测试规则或者爬取出来的结果总是这样: [attach]10161
不同网站如何复用规则
已经做好了一个规则,其他网站的数据怎么复用这个规则
怎么判断一个页面结构相同?规则能不能适用?
怎么来判断网页结构相同?