想爬携程几百篇游记文本,采集分页列表详细信息
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2021-3-15 15:32

来自 9#
wangyong 版主 发表于 2021-3-15 15:32:27 | 只看该作者
采集携程游记文本,可以直接使用集搜客快捷采集,不用自定义采集规则。使用方法如下:1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择访问携程游记采集_列表
输入要采集的节点关键词搜索链接,例如搜索“崂山”后的链接:https://you.ctrip.com/searchsite ... 2582%25e5%25b1%25b1

确认提交后数据管家会自动开始采集,采集完成后,我们可以在快捷采集的后台中找到该任务下载数据
下载到列表的数据,包括游记标题、游记链接、发布时间、关键词等。
2,要继续采集到游记正文,需要将游记链接添加到携程游记采集_详情,添加多条网址可以选择输入多条网址按钮

添加完成后数据管家会自动开始采集,详情任务采集完成后,打包下载就可以看到游记正文数据内容了
这是采集到的数据

举报 使用道具
沙发
Fuller 管理员 发表于 2016-9-23 09:39:54 | 只看该作者
集搜客爬虫软件不但能爬文本,还能同时把图片采集下来,不用另外运行下载图片的软件。而且,集搜客生成的结果文件中,明确标明原文中图片的位置。对于编辑和排版特别方便。



在同一个页面上要爬下来整个列表,那么就要定义多样例抓取规则,请注意,图片上有不同颜色的分类,可能用了不同的CSS class,因为MS谋数台生成规则的时候会自动选用class和id,可以在“创建规则”工作台上选择“定位”按钮,可以选择 偏好class 和 偏好id 分别试试,避开自动选择不合适的class和id。

在这个网页上还要做一个翻页规则
举报 使用道具
板凳
lixueyun 新手上路 发表于 2019-1-9 21:05:35 | 只看该作者
请问一下有具体的教程吗?如何抓取网络游记、经典评论以及最后的文本分词、情感分析、社会网络分析之类的
举报 使用道具
地板
lixueyun 新手上路 发表于 2019-1-9 21:06:06 | 只看该作者
抓取网络游记文本的内容和游记评论
举报 使用道具
5#
Fuller 管理员 发表于 2019-1-9 21:25:52 | 只看该作者
lixueyun 发表于 2019-1-9 21:06
抓取网络游记文本的内容和游记评论

没有专门针对网络上的游记写抓取教程。可以看初级教程,掌握爬虫的使用方法,方法掌握了,可以应用到其他类型的网站上
举报 使用道具
6#
aycf8023 初级会员 发表于 2020-1-11 00:42:07 | 只看该作者
请问抓取游记怎样可以把游记内容一次性抓取但是不要图片。尝试了一下,文字都会被图片隔断,且文字之间有断行的话也没办法直接选取。。。
举报 使用道具
7#
syd131421 新手上路 发表于 2020-5-15 02:12:12 | 只看该作者
aycf8023 发表于 2020-1-11 00:42
请问抓取游记怎样可以把游记内容一次性抓取但是不要图片。尝试了一下,文字都会被图片隔断,且文字之间有断 ...

这软件好像只能在同一个网页上进行操作,爬取游记的话必须要点一下游记的标题,那就意味着进入了另一个网页,所以你爬取的时候只能得到游记开头的几行字
举报 使用道具
8#
Fuller 管理员 发表于 2020-5-15 07:43:41 | 只看该作者
syd131421 发表于 2020-5-15 02:12
这软件好像只能在同一个网页上进行操作,爬取游记的话必须要点一下游记的标题,那就意味着进入了另一个网 ...

首先在列表页上要做层级采集,采集到详情页的网址,在第二层采集详细内容。参看: https://www.gooseeker.com/doc/article-343-1.html

其次,可以选择整个评论部分的网页块做内容映射,选择“纯文本内容”这个高级设置项,这样就能把图片隔开的文字也采集到。参看:https://www.gooseeker.com/doc/article-420-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 19:51