本帖最后由 tuesday1 于 2019-6-6 10:15 编辑

你好。用集搜客豆瓣影评的快捷工具采集豆瓣影评的时候,没有展开全文。所以自己做规则抓取。要用连续点击动作,点击页面上的展开,可是一个页面上有20条影评,也是就是说要点击20个地方,要怎么做?还有第二级规则要怎么做,把所有的影评都展开后,会得到一个新的页面,对着这个页面做二级规则吗?要用样例复制吗?页面网址https://movie.douban.com/subject/25890017/reviews
截图:




我做了规则,好像不对,失败了。

任务名:
douban影评展开-第一级-点击
douban影评展开-第二级-展开
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2021-6-20 18:33

来自 11#
wangyong 版主 发表于 2021-4-6 16:50:41 | 只看该作者
集搜客的快捷采集可以直接采集豆瓣影评展开全文后的数据
具体操作步骤如下:
1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择豆瓣_电影影评,输入要采集的链接,例如:https://movie.douban.com/subject/26322792/reviews

确认提交后数据管家会自动开始采集,采集完成后,我们可以在快捷采集后台中找到该任务下载数据
下载到列表的数据,包括电影名称、用户名称、标题、内容、用户主页链接、日期、有用数、回应数、评分、星级、详情链接
2,继续采集影评展开全文的内容,将详情链接添加到豆瓣电影影评_详情,添加多条网址可以选择输入多条网址按钮

添加完成后数据管家会自动开始采集,详情任务采集完成后,打包下载就可以看到具体的商品评论数据了
这是采集到的数据

举报 使用道具
沙发
Fuller 管理员 发表于 2019-6-6 09:48:35 | 只看该作者
第一级规则最好修改一下,当然不修改也可以,因为你要采集的数据实际上是在第二级采集的。

第一级要修改的地方


每个豆瓣评论都有一个唯一的id,如果爬虫规则里面使用了这个id,那么,规则只能采集到一条。要避免爬虫使用这个id,要么手工做定位标志映射,要么修改一下定位标志,如上图,只要把定位标志修改成偏好class就行了。

我试了一下你的连续点击的xpath,能定位到20个,写的没错

举报 使用道具
板凳
Fuller 管理员 发表于 2019-6-6 09:54:57 | 只看该作者
第二级规则应该跟第一级类似,还是要做样例复制映射,比如,已经点击到第5个评论了,你的本意只想采集第5个评论的展开内容就行了,但是,爬虫它不清楚哪个内容是第5个,虽然点击的时候他是知道的,但是抓取的时候只能把所有的样例复制下来。

那么产生了一个问题,点击了20次,就会有20个第二级的结果文件,只有最后一个结果文件是最全的,因为那时候所有的都点击完了。所以,你处理结果数据的时候就有点麻烦,要么只把每一页的第20个结果文件导入到数据库,要么都导入以后,根据是否含有“(展开)”,把含有的都删除


举报 使用道具
地板
tuesday1 初级会员 发表于 2019-6-6 10:15:05 | 只看该作者
那也就是说,我要在DataSraperWorks文件夹下,第二级规则的目录下,找到第20个XML文件,第40个XML文件,第60个XML文件。。。,把它们导入到会员中心。导出excel
举报 使用道具
5#
tuesday1 初级会员 发表于 2019-6-6 10:40:28 | 只看该作者
我发现第一级的整理箱定位一定要改成偏class,要不然到第二页采集就出错了。改过来后,就好了。
举报 使用道具
6#
Fuller 管理员 发表于 2019-6-6 10:52:24 | 只看该作者
tuesday1 发表于 2019-6-6 10:40
我发现第一级的整理箱定位一定要改成偏class,要不然到第二页采集就出错了。改过来后,就好了。 ...

是的,如果选择偏好id,那么就会使用评论的id,而这个id是每条评论唯一的,到第二页就没有这条评论了,那么就会失败
举报 使用道具
7#
Fuller 管理员 发表于 2019-6-6 10:52:49 | 只看该作者
tuesday1 发表于 2019-6-6 10:15
那也就是说,我要在DataSraperWorks文件夹下,第二级规则的目录下,找到第20个XML文件,第40个XML文件,第6 ...

是的,你可以观察到,第20,40这些结果文件最大
举报 使用道具
8#
Fuller 管理员 发表于 2019-6-6 16:07:01 | 只看该作者
还有,采集豆瓣的时候,先在集搜客浏览器登录豆瓣,这样能采集到更多页。
举报 使用道具
9#
HITB123 新手上路 发表于 2019-6-13 18:58:50 | 只看该作者
不用连续动作,有更简便的方法。用层级抓取。在影评的列表页抓到每个影评的链接,然后再到这个下级链接里,把完整的影评抓到。


举报 使用道具
10#
Fuller 管理员 发表于 2019-6-13 23:39:07 | 只看该作者
HITB123 发表于 2019-6-13 18:58
不用连续动作,有更简便的方法。用层级抓取。在影评的列表页抓到每个影评的链接,然后再到这个下级链接里, ...

层级抓取好,可以分配给多台电脑并行运行
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 03:32