快捷导航
想爬携程几百篇游记文本,采集分页列表详细信息
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-1-9 21:25

Fuller 管理员 发表于 2016-9-23 09:39:54 | 显示全部楼层
集搜客爬虫软件不但能爬文本,还能同时把图片采集下来,不用另外运行下载图片的软件。而且,集搜客生成的结果文件中,明确标明原文中图片的位置。对于编辑和排版特别方便。

多样例和翻页.png

在同一个页面上要爬下来整个列表,那么就要定义多样例抓取规则,请注意,图片上有不同颜色的分类,可能用了不同的CSS class,因为MS谋数台生成规则的时候会自动选用class和id,可以在“创建规则”工作台上选择“定位”按钮,可以选择 偏好class 和 偏好id 分别试试,避开自动选择不合适的class和id。

在这个网页上还要做一个翻页规则
举报 使用道具
lixueyun 新手上路 发表于 2019-1-9 21:05:35 | 显示全部楼层
请问一下有具体的教程吗?如何抓取网络游记、经典评论以及最后的文本分词、情感分析、社会网络分析之类的
举报 使用道具
lixueyun 新手上路 发表于 2019-1-9 21:06:06 | 显示全部楼层
抓取网络游记文本的内容和游记评论
举报 使用道具
Fuller 管理员 发表于 2019-1-9 21:25:52 | 显示全部楼层
lixueyun 发表于 2019-1-9 21:06
抓取网络游记文本的内容和游记评论

没有专门针对网络上的游记写抓取教程。可以看初级教程,掌握爬虫的使用方法,方法掌握了,可以应用到其他类型的网站上
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样用爬虫爬取亚马逊商品评论?
  • 新版集搜客网络爬虫图片下载功能
  • windows高清屏幕显示模糊的解决方法
  • 修改和找回密码——微信登录集搜客GooSeeke
  • 网络爬虫自动打验证码避免重复打码

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-1-19 10:16