各位大侠,如题所闻,刚刚试了下,用GooSeeker分别抓取京东商品的好评、中评、差评失败,只能直接抓取全部评论,求解答,在此谢过了!
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2021-3-26 23:10

来自 6#
wangyong 版主 发表于 2021-3-1 09:10:25 | 只看该作者
集搜客快捷采集可以分别采集京东商品评论的,好评、中评、差评
分别为:
京东商品评论采集_好评
京东商品评论采集_中评
京东商品评论采集_差评
从以上快捷采集进入后,比如选择的是京东好评采集,采集时,集搜客爬虫就会先点击选中“好评”,再进行采集,这样采集到的就都是好评下的数据了,中评和差评同理


使用方法是:

1,下载安装集搜客数据管家,从左侧工具条进入快捷采集



2,选中要采集内容对应的快捷采集工具,比如按下图所示,选择采集京东好评的快捷工具,输入京东商品网址启动采集



3,采集完成后,打包下载Excel格式的数据






举报 使用道具
沙发
Fuller 管理员 发表于 2016-4-8 18:36:09 | 只看该作者
发一个网址看看。

你是要抓取每条评论的星级吗?还是选择“好评”后抓所有好评,选择“差评” 后抓所有差评?

其实我们在做一些研究项目的时候也抓京东商品评论,把所有抓下来,好评和差评的区分是星级,抓下来以后再分。资源板块有现成的抓取规则。
举报 使用道具
板凳
cherrylf 初级会员 发表于 2016-4-8 20:50:07 | 只看该作者
嗯啊,十分感谢,哈哈,有所启发,不过还在捣鼓中,
http://item.jd.com/2179959.html#none
按星级区分爬取评论还在摸索中,刚刚试了下,还是不行,下载了其他用户的按用户星级区分评论,不过貌似导进去出现了问题,现在还在捣鼓中
举报 使用道具
地板
Fuller 管理员 发表于 2016-4-8 22:46:38 | 只看该作者
如果你下载资源板块的京东商品评论列表 这个抓取规则,加载以后就能发现,星级那里用了自定义XPath
  1. .//div[contains(@class,'grade-star')]/@class
复制代码

抓取到@class值,不同星级有不同的class值
举报 使用道具
5#
cherrylf 初级会员 发表于 2016-4-9 11:15:49 | 只看该作者
Fuller 发表于 2016-4-8 22:46
如果你下载资源板块的京东商品评论列表 这个抓取规则,加载以后就能发现,星级那里用了自定义XPath

抓取到 ...

非常感谢提示,,刚刚试验了下,,可以抓取评论星级了。,,灰常感谢!
举报 使用道具
7#
alalala酱 新手上路 发表于 2021-3-25 19:59:35 | 只看该作者
cherrylf 发表于 2016-4-9 11:15
非常感谢提示,,刚刚试验了下,,可以抓取评论星级了。,,灰常感谢! ...

想问问这个规则具体怎么使用呀?
举报 使用道具
8#
Fuller 管理员 发表于 2021-3-25 20:40:47 | 只看该作者
alalala酱 发表于 2021-3-25 19:59
想问问这个规则具体怎么使用呀?

不用下载规则,直接用快捷采集就行了,用法参看:https://www.gooseeker.com/tuto/tutor_article.html?t=1
这里还有一个详细的使用案例:https://www.gooseeker.com/doc/article-482-1.html
举报 使用道具
9#
alalala酱 新手上路 发表于 2021-3-26 22:44:00 | 只看该作者
Fuller 发表于 2021-3-25 20:40
不用下载规则,直接用快捷采集就行了,用法参看:https://www.gooseeker.com/tuto/tutor_article.html?t= ...

您好,能在询问一个问题嘛,我按照三步运行下来,

打数机显示这样的界面

感觉像采集不到数据 想问问用上面那样三步是不是就不用定义规则呀


图片.jpg (116.18 KB, 下载次数: 864)

图片.jpg
举报 使用道具
10#
Fuller 管理员 发表于 2021-3-26 23:06:24 | 只看该作者
alalala酱 发表于 2021-3-26 22:44
您好,能在询问一个问题嘛,我按照三步运行下来,

打数机显示这样的界面

首先,从你的截图看,右下角有两个红色的图标,说明没有连上服务器,那么就采集不了数据。所以,必须先解决爬虫软件的登录问题。

其次,我们已经不建议使用老版本的爬虫软件了,要下载最新版的增强版网络爬虫——数据管家,安装以后,第一次运行会提示登录,要准确地输入账号和密码。如果连不通服务器,就没法采集数据。登录成功后,右下角的状态图标是绿色的,左下角有头像。




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 14:13