集搜客GooSeeker网络爬虫

标题: 【天猫商品搜索列表采集】#GooSeeker数据DIY# [打印本页]

作者: scraper    时间: 2016-12-2 17:38
标题: 【天猫商品搜索列表采集】#GooSeeker数据DIY#
本帖最后由 xandy 于 2016-12-6 11:57 编辑


【启动采集前的配置】


【运行方法】— 详见数据DIY图文教程


【常见问题】— 欢迎跟帖留言

作者: kylinat2688    时间: 2017-6-15 23:34
怎么就采集了20条数据?
作者: Fuller    时间: 2017-6-15 23:58
kylinat2688 发表于 2017-6-15 23:34
怎么就采集了20条数据?

我刚才测试了规则没有问题。采集正常。

你的DS打数机窗口是不是最小化了?天猫这样的动态网页,一定要把窗口最大化,否则内容加载不全。窗口最大化以后,可以打开其他窗口覆盖在DS打数机上面,不影响其他软件的运行。但是,就是不能把DS打数机窗口最小化

作者: wangyong    时间: 2017-6-16 11:44

数据DIY默认选择的是只采集一页数据,添加线索时选择全部,会将完整数据采集下来

作者: caishen8899    时间: 2017-7-9 12:31
匿名不能改吗
作者: Fuller    时间: 2017-7-9 17:01
caishen8899 发表于 2017-7-9 12:31
匿名不能改吗

你说的匿名是指什么?是指淘宝上的匿名购买?

作者: 徐二二二二二菇凉    时间: 2017-9-29 16:24
我怎么打包不了啊
作者: shengchengx    时间: 2017-9-29 16:33
徐二二二二二菇凉 发表于 2017-9-29 16:24
我怎么打包不了啊

1, 采集完了之后不能马上关闭打数机,需要等打数机把采集的数据入库完了之后,才能进行打包,所以需要把打数机开着等待一会。
2,如果一直无法打包,需要确定数据是否真的采集下来了。在打数机确定在爬取过程中是否报错,如果有报错则就是采集失败了,查看采集的网址是否与样本页面的结构一致。


作者: zhuxia    时间: 2017-12-8 11:08
一台电脑只能登录一个账户是么
作者: Fuller    时间: 2017-12-8 11:29
zhuxia 发表于 2017-12-8 11:08
一台电脑只能登录一个账户是么

免费版是这样的。

专业版可以登录两台,旗舰版可以登录5台或者购买更多

作者: adrian880102    时间: 2018-1-8 17:14
我电脑登陆过其他爬虫账户了。在登陆回原本账户,怎么爬不了数据了
作者: 数据集二期    时间: 2018-1-8 17:27
adrian880102 发表于 2018-1-8 17:14
我电脑登陆过其他爬虫账户了。在登陆回原本账户,怎么爬不了数据了

爬不了数据是窗口不运行吗?如果是不运行的话参考这个教程教程一下《爬虫群一直显示正在等待采集任务有哪几种原因?》

作者: Fuller    时间: 2018-1-8 22:31
adrian880102 发表于 2018-1-8 17:14
我电脑登陆过其他爬虫账户了。在登陆回原本账户,怎么爬不了数据了

目前你用的版本有个bug,如果切换账号,需要重新运行GS浏览器,新账号才能生效。这个bug将在V8.5.0(本周发布)解决。

你切换账号以后有没有重新运行GS浏览器?

作者: wen520    时间: 2018-9-10 16:07
采集好了 不能打包下载 是什么情况 试了好多次了  评价采集
作者: Fuller    时间: 2018-9-10 20:04
wen520 发表于 2018-9-10 16:07
采集好了 不能打包下载 是什么情况 试了好多次了  评价采集

打包按钮是灰色的吗?

作者: Fuller    时间: 2018-9-10 20:51
wen520 发表于 2018-9-10 16:07
采集好了 不能打包下载 是什么情况 试了好多次了  评价采集

用浏览器的刷新页面按钮,刷新一下,还是打包不了?

作者: bqq239    时间: 2019-4-23 20:43
天猫商品评论一次采集200条数据,大概会采集多长时间呢,为什么运行大概十分钟左右了还是无法打包下载
作者: Fuller    时间: 2019-4-23 21:52
bqq239 发表于 2019-4-23 20:43
天猫商品评论一次采集200条数据,大概会采集多长时间呢,为什么运行大概十分钟左右了还是无法打包下载 ...

晚上8:52的时候,我看到后台日志,有记录你入库了20个抓取结果文件。你现在还打包不了?

作者: bqq239    时间: 2019-4-24 09:12
Fuller 发表于 2019-4-23 21:52
晚上8:52的时候,我看到后台日志,有记录你入库了20个抓取结果文件。你现在还打包不了?
...

我自己知道问题所在了,后续登录过后可以打包了。还想问一下如果出现提示:最近访问频繁,有访问验证时,如果不等一段时间的话会有被封的风险吗

作者: maomao    时间: 2019-4-24 09:15
bqq239 发表于 2019-4-24 09:12
我自己知道问题所在了,后续登录过后可以打包了。还想问一下如果出现提示:最近访问频繁,有访问验证时, ...

看看这篇帖子的处理方法,https://www.gooseeker.com/doc/thread-11667-1-1.html
作者: bqq239    时间: 2019-5-5 20:41
maomao 发表于 2019-4-24 09:15
看看这篇帖子的处理方法,https://www.gooseeker.com/doc/thread-11667-1-1.html

想请问一下如何爬取天猫按时间顺序排序的商品评论数据,现在爬取的是按默认顺序来的


作者: minkyung    时间: 2019-11-7 13:52
请问无效HTTPS导致网站显示的不完全要怎么解决呢?
作者: 小蜜蜂测试16    时间: 2019-11-7 14:18
minkyung 发表于 2019-11-7 13:52
请问无效HTTPS导致网站显示的不完全要怎么解决呢?

是天猫网站的内容显示的不完全吗?

作者: minkyung    时间: 2019-11-7 14:27
小蜜蜂测试16 发表于 2019-11-7 14:18
是天猫网站的内容显示的不完全吗?

对,网站应该这样显示才对
但是我在gooseeker打开的话会这样
应该是这个导致我采集不了结果吧?
我该怎么解决呢


作者: 小蜜蜂测试16    时间: 2019-11-7 14:46
minkyung 发表于 2019-11-7 14:27
对,网站应该这样显示才对
但是我在gooseeker打开的话会这样
应该是这个导致我采集不了结果吧?


可以按照上图的方法清除一下cookie

不过这样显示的话应该是可以抓取成功的,你把网址发出来,我测试一下

作者: sipple    时间: 2019-12-7 20:42
采集天猫评论,我点了全部但是只采集到的280条不到是为什么

捕获.PNG (66.34 KB, 下载次数: 3634)

捕获.PNG

作者: Fuller    时间: 2019-12-7 22:47
sipple 发表于 2019-12-7 20:42
采集天猫评论,我点了全部但是只采集到的280条不到是为什么

采集天猫之前,要在集搜客浏览器上登录天猫。爬虫运行的时候,观察一下有没有翻页采集?

作者: zhangyunding    时间: 2019-12-12 11:51
评论完全抓取不到呀
作者: Fuller    时间: 2019-12-12 12:23
zhangyunding 发表于 2019-12-12 11:51
评论完全抓取不到呀

在抓取之前,要在集搜客浏览器中登录天猫,然后再运行爬虫

抓取失败的商品网址是什么?发出来我测试一下

作者: 是圆周率那个pi    时间: 2020-4-20 15:18
为什么显示“已采集”但是打包数据是0条?
作者: Fuller    时间: 2020-4-20 15:25
是圆周率那个pi 发表于 2020-4-20 15:18
为什么显示“已采集”但是打包数据是0条?

天猫现在封锁可厉害,首先要登录了天猫再启动采集,另外,要注意看有没有出现验证码。
我从后台看看数据库中有没有你采集的数据

作者: Fuller    时间: 2020-4-20 15:27
是圆周率那个pi 发表于 2020-4-20 15:18
为什么显示“已采集”但是打包数据是0条?

我看到你采集了一些商品评论,一次都没有打包出来吗?

作者: Fuller    时间: 2020-4-20 15:32
如果曾经打包过,如果再没有采新数据,就没法再次打包了,直接到快捷工具管理后台下载上一次打包的数据就行


作者: 是圆周率那个pi    时间: 2020-4-20 15:44
Fuller 发表于 2020-4-20 15:27
我看到你采集了一些商品评论,一次都没有打包出来吗?

第一次没有打包出来就又试了一次,后台也是没有可下载数据

作者: Fuller    时间: 2020-4-20 16:32
是圆周率那个pi 发表于 2020-4-20 15:44
第一次没有打包出来就又试了一次,后台也是没有可下载数据

我让技术查查问题原因

作者: Fuller    时间: 2020-4-20 17:10
技术那边说问题已经解决了,可以导出了
作者: f12345    时间: 2020-10-27 11:41
想请问一下如何爬取天猫按时间顺序排序的商品评论数据,现在爬取的是按默认顺序来的
作者: maomao    时间: 2020-10-27 12:42
本帖最后由 maomao 于 2020-10-27 18:35 编辑
f12345 发表于 2020-10-27 11:41
想请问一下如何爬取天猫按时间顺序排序的商品评论数据,现在爬取的是按默认顺序来的 ...

用高级教程里的连续动作,做两个点击动作。
这里有个详细的帖子   天猫评论按时间顺序采集方法

可以自己按上述方法,做采集规则。

或者在这里留言,联系我们定制规则。




作者: 小吴吴233    时间: 2021-3-24 15:33
请问 我在采集评论时 日志里说 发现内容重复 终止了本条线索 是因为什么
作者: scraper    时间: 2021-3-24 15:38
小吴吴233 发表于 2021-3-24 15:33
请问 我在采集评论时 日志里说 发现内容重复 终止了本条线索 是因为什么

翻到最后一页,没有新的数据了,一直抓取最后一页重复的数据三次,就会自动停掉,这个是正常的

作者: 15751778365    时间: 2022-2-17 23:38
之前用过这个快捷方式采集顺利完成,但是刚才使用时提示采集完成后打包数据后界面显示已采集0条数据。重复了好几次都是这个结果,输入的网址商品下是有评论的。

作者: Fuller    时间: 2022-2-18 09:04
15751778365 发表于 2022-2-17 23:38
之前用过这个快捷方式采集顺利完成,但是刚才使用时提示采集完成后打包数据后界面显示已采集0条数据。重复 ...

1. 阿里系列的网站反爬很严重,首先要在爬虫浏览器中预先登录天猫
2. 爬虫窗口要尽量放大到最大,动态内容跟窗口大小很有关系
3. 要观察一下爬虫浏览器,页面是否加载出来了,有没有看到采集评论时自动翻页

你要采集的网址是什么?发出来我测试一下

作者: 谢蜜胖    时间: 2022-5-23 13:58
会啥会停止采集的
作者: Fuller    时间: 2022-5-23 15:36
谢蜜胖 发表于 2022-5-23 13:58
会啥会停止采集的

淘宝和天猫是很难采的,采集几条以后会出验证码。为了能采集多一些,采集之前先在爬虫浏览器上登录淘宝/天猫,登录好再采集。

如果采集页数多一点,就会出验证码,如果当时瞅着屏幕看到了,刚快拉一下滑块,如果没有看到,就采集停止了

作者: 15131629441    时间: 2022-9-21 13:16
这样的网址链接是不是就不能采集评论了?https://detail.tmall.com/item.htm?abbucket=2&id=625653110403&ns=1&spm=a230r.1.14.19.5e176dbcCOIOLd
作者: gz51837844    时间: 2022-9-21 15:03
15131629441 发表于 2022-9-21 13:16
这样的网址链接是不是就不能采集评论了?https://detail.tmall.com/item.htm?abbucket=2&id=625653110403&n ...

目前的天猫评论快捷采集规则确实不支持这条网址,需要修改采集规则。
修改完成后,我们会在这里跟帖通知。

作者: gz51837844    时间: 2022-9-21 16:53
15131629441 发表于 2022-9-21 13:16
这样的网址链接是不是就不能采集评论了?https://detail.tmall.com/item.htm?abbucket=2&id=625653110403&n ...

这种天猫商品页面的评论可以采集了,不过由于页面上没有提供翻页功能,只能采集当前页。


作者: wen2019    时间: 2023-1-13 16:31
为什么打包出来的数据根本打不开
作者: wen2019    时间: 2023-1-13 16:37
wen2019 发表于 2023-1-13 16:31
为什么打包出来的数据根本打不开

下载了之后打开显示文件损坏


作者: gz51837844    时间: 2023-1-13 16:48
wen2019 发表于 2023-1-13 16:37
下载了之后打开显示文件损坏

正常情况下,下载后是zip格式的压缩文件,解压后可以看到目录下的excel格式的文件,使用微软office或者wps office都可以打开。
如果你的电脑上提示文件损坏,则可能的原因如下:
1. 电脑上运行的安全卫士之类的软件因为误判而拦截了文件的下载,造成文件下载不全。
这种情况可以关闭安全卫士之后再尝试下载。
2. 可以试试换一个浏览器,在其它浏览器上登录后下载文件
如果以上2点尝试后问题没有得到解决,请加入技术支持QQ群:661795153, 连续管理员协助解决。

作者: wen2019    时间: 2023-1-13 17:15
试了好多次只能抓取80条天猫商品评论数据,这个链接,可以帮忙看看吗
https://detail.tmall.com/item.htm?abbucket=3&id=617383184207&ns=1&spm=a230r.1.14.6.5ce332773CeOkp
作者: gz51837844    时间: 2023-1-13 23:53
wen2019 发表于 2023-1-13 17:15
试了好多次只能抓取80条天猫商品评论数据,这个链接,可以帮忙看看吗
https://detail.tmall.com/item.htm?a ...

是的,天猫商品评论改版了,默认排序只显示这么多条评论,所以只能采集到这么多。
你还可以再使用另一个快捷采集:天猫商品评论_按时间排序采集,这个快捷采集是按时间排序显示评论。
这样会多采集一些数据

作者: 刘小凡    时间: 2023-2-27 21:05
请问为什么天猫商品评论采集只能输出几十条呢?选择了50页,但是输出几十条数据就自动截止了。
作者: Fuller    时间: 2023-2-27 22:34
刘小凡 发表于 2023-2-27 21:05
请问为什么天猫商品评论采集只能输出几十条呢?选择了50页,但是输出几十条数据就自动截止了。 ...

在采集之前,要在爬虫浏览器中登录天猫。在采集过程中,注意观察爬虫窗口,看看天猫有没有出现验证码,要是出现验证码,要赶快滑一下滑块验证码
作者: 刘小凡    时间: 2023-3-1 17:50
Fuller 发表于 2023-2-27 22:34
在采集之前,要在爬虫浏览器中登录天猫。在采集过程中,注意观察爬虫窗口,看看天猫有没有出现验证码,要 ...

滑完滑块后,不久还是自动停止收集了,请问是什么原因呀是不是滑的太慢了


作者: Fuller    时间: 2023-3-1 18:05
刘小凡 发表于 2023-3-1 17:50
滑完滑块后,不久还是自动停止收集了,请问是什么原因呀是不是滑的太慢了

...

目前天猫封锁的很厉害,采集不了太多评论

作者: 刘小凡    时间: 2023-3-1 20:14
Fuller 发表于 2023-3-1 18:05
目前天猫封锁的很厉害,采集不了太多评论

请问目前有什么比较好的解决方法吗

作者: VIP版测试285485    时间: 2023-3-31 18:44
打包完成后下载的格式是all files是怎么回事
作者: Fuller    时间: 2023-3-31 22:16
VIP版测试285485 发表于 2023-3-31 18:44
打包完成后下载的格式是all files是怎么回事

下载的时候,不要改文件的名字




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2