采集豆瓣影评，怎样展开全文？

tuesday1

本帖最后由 tuesday1 于 2019-6-6 10:15 编辑

你好。用集搜客豆瓣影评的快捷工具采集豆瓣影评的时候，没有展开全文。所以自己做规则抓取。要用连续点击动作，点击页面上的展开，可是一个页面上有20条影评，也是就是说要点击20个地方，要怎么做？还有第二级规则要怎么做，把所有的影评都展开后，会得到一个新的页面，对着这个页面做二级规则吗？要用样例复制吗？页面网址https://movie.douban.com/subject/25890017/reviews
截图：

我做了规则，好像不对，失败了。

任务名：
douban影评展开-第一级-点击
douban影评展开-第二级-展开

wangyong · 发表于 2021-4-6 16:50:41

集搜客的快捷采集可以直接采集豆瓣影评展开全文后的数据
具体操作步骤如下：
1，安装集搜客数据管家，从左侧工具条进入快捷采集，选择豆瓣_电影影评，输入要采集的链接，例如：https://movie.douban.com/subject/26322792/reviews

确认提交后数据管家会自动开始采集，采集完成后，我们可以在快捷采集后台中找到该任务下载数据
下载到列表的数据，包括电影名称、用户名称、标题、内容、用户主页链接、日期、有用数、回应数、评分、星级、详情链接
2，继续采集影评展开全文的内容，将详情链接添加到豆瓣电影影评_详情，添加多条网址可以选择输入多条网址按钮

添加完成后数据管家会自动开始采集，详情任务采集完成后，打包下载就可以看到具体的商品评论数据了
这是采集到的数据

Fuller · 发表于 2019-6-6 09:48:35

第一级规则最好修改一下，当然不修改也可以，因为你要采集的数据实际上是在第二级采集的。

第一级要修改的地方

每个豆瓣评论都有一个唯一的id，如果爬虫规则里面使用了这个id，那么，规则只能采集到一条。要避免爬虫使用这个id，要么手工做定位标志映射，要么修改一下定位标志，如上图，只要把定位标志修改成偏好class就行了。

我试了一下你的连续点击的xpath，能定位到20个，写的没错

Fuller · 发表于 2019-6-6 09:54:57

第二级规则应该跟第一级类似，还是要做样例复制映射，比如，已经点击到第5个评论了，你的本意只想采集第5个评论的展开内容就行了，但是，爬虫它不清楚哪个内容是第5个，虽然点击的时候他是知道的，但是抓取的时候只能把所有的样例复制下来。

那么产生了一个问题，点击了20次，就会有20个第二级的结果文件，只有最后一个结果文件是最全的，因为那时候所有的都点击完了。所以，你处理结果数据的时候就有点麻烦，要么只把每一页的第20个结果文件导入到数据库，要么都导入以后，根据是否含有“(展开)”，把含有的都删除

tuesday1 · 发表于 2019-6-6 10:15:05

那也就是说，我要在DataSraperWorks文件夹下，第二级规则的目录下，找到第20个XML文件，第40个XML文件，第60个XML文件。。。，把它们导入到会员中心。导出excel

tuesday1 · 发表于 2019-6-6 10:40:28

我发现第一级的整理箱定位一定要改成偏class，要不然到第二页采集就出错了。改过来后，就好了。

Fuller · 发表于 2019-6-6 10:52:24

tuesday1 发表于 2019-6-6 10:40
我发现第一级的整理箱定位一定要改成偏class，要不然到第二页采集就出错了。改过来后，就好了。 ...

是的，如果选择偏好id，那么就会使用评论的id，而这个id是每条评论唯一的，到第二页就没有这条评论了，那么就会失败

Fuller · 发表于 2019-6-6 10:52:49

tuesday1 发表于 2019-6-6 10:15
那也就是说，我要在DataSraperWorks文件夹下，第二级规则的目录下，找到第20个XML文件，第40个XML文件，第6 ...

是的，你可以观察到，第20,40这些结果文件最大

Fuller · 发表于 2019-6-6 16:07:01

还有，采集豆瓣的时候，先在集搜客浏览器登录豆瓣，这样能采集到更多页。

HITB123 · 发表于 2019-6-13 18:58:50

不用连续动作，有更简便的方法。用层级抓取。在影评的列表页抓到每个影评的链接，然后再到这个下级链接里，把完整的影评抓到。

Fuller · 发表于 2019-6-13 23:39:07

HITB123 发表于 2019-6-13 18:58
不用连续动作，有更简便的方法。用层级抓取。在影评的列表页抓到每个影评的链接，然后再到这个下级链接里， ...

层级抓取好，可以分配给多台电脑并行运行

采集豆瓣影评，怎样展开全文？

本帖子中包含更多资源

共 12 个关于本帖的回复最后回复于 2021-6-20 18:33

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集豆瓣影评，怎样展开全文？

本帖子中包含更多资源

共 12 个关于本帖的回复 最后回复于 2021-6-20 18:33

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 12 个关于本帖的回复最后回复于 2021-6-20 18:33