快捷导航
采集电影评分数据,movie.mtime.com/229733/,如下图:
微信图片_20180213123501.png
其中音乐、画面、导演、故事四个评分是用条形图展示,想用其条形的宽度来代表,看了之前的一些教程尝试了老是出错,不知道怎么解决了
微信图片_20180213123924.png
跪求帮助!
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2018-2-13 19:17

Fuller 管理员 发表于 2018-2-13 14:59:41 | 显示全部楼层
你分析的没错,是采集那个style出来就行了,但是GS爬虫的DOM树为了简化,没有把style放在树中。所以,需要你自定义xpath。过程是
1,先用那个i节点做内容映射
2,点击“创建规则”工作台上的测试按钮
3,在输出窗口中点击数据规则tab
4,就能看到为那个i节点生成的xpath
5,把这个xpath拷出来
6,在整理箱中选中那个抓取内容,勾选“高级设置”
7,勾上“自定义xpath”,勾上“文本内容”,勾上“专用定位”
8,在定位标志表达式那里拷入刚才拷贝的xpath
9,在抓取内容表达式那里自定义xpath,仿照定位表达式,根据相对位置改写一下,把style抓取出来
举报 使用道具
xiaohongseeker1 初级会员 发表于 2018-2-13 18:15:57 | 显示全部楼层
Fuller 发表于 2018-2-13 14:59
你分析的没错,是采集那个style出来就行了,但是GS爬虫的DOM树为了简化,没有把style放在树中。所以,需要 ...

感谢您的回复。
根据您刚才的解决办法,我还想问一下,
定位标志表达式是:"following-sibling::div[position()=2]/div[position()=2]/div[position()=1]/dl/dd[position()=1]/b/i"/>
内容表达式填相对路径,//*[@class='yy']/b/i,这个对吗?
我按照这个填进去最后还是没有出来东西。求指导
微信图片_20180213181146.png

举报 使用道具
Fuller 管理员 发表于 2018-2-13 18:26:49 | 显示全部楼层
xiaohongseeker1 发表于 2018-2-13 18:15
感谢您的回复。
根据您刚才的解决办法,我还想问一下,
定位标志表达式是:"following-sibling::div/div/ ...

把主题名贴出来吧,让管理员直接加载你的规则分析一下
举报 使用道具
Fuller 管理员 发表于 2018-2-13 18:27:30 | 显示全部楼层
xiaohongseeker1 发表于 2018-2-13 18:15
感谢您的回复。
根据您刚才的解决办法,我还想问一下,
定位标志表达式是:"following-sibling::div/div/ ...

不是相对于那个i,而是仿照那个i
举报 使用道具
Fuller 管理员 发表于 2018-2-13 18:30:37 | 显示全部楼层
先不做自定义xpath,看看生成的xpath是什么。没有自定义xpath的时候,假设生成的xpath是
  1. .//div[position()=3]/i
复制代码


那么抓取内容表达式应该填
  1. .//div[position()=3]/i/@style
复制代码




举报 使用道具
xiaohongseeker1 初级会员 发表于 2018-2-13 18:36:07 | 显示全部楼层
Fuller 发表于 2018-2-13 18:26
把主题名贴出来吧,让管理员直接加载你的规则分析一下

主题名是IP电影-详情1。
我上面写的那个就是不做自定义时生成的xpath。
举报 使用道具
Fuller 管理员 发表于 2018-2-13 19:10:25 | 显示全部楼层
xiaohongseeker1 发表于 2018-2-13 18:36
主题名是IP电影-详情1。
我上面写的那个就是不做自定义时生成的xpath。

在自定义xpath的两个输入框中应该这样输入:
定位表达式是
  1. following-sibling::div[position()=2]/div[position()=2]/div[position()=1]/dl/dd[position()=1]/b/i
复制代码

抓取内容表达式是
  1. following-sibling::div[position()=2]/div[position()=2]/div[position()=1]/dl/dd[position()=1]/b/i/@style
复制代码

我现在测试不了,这个网站的那几个条现在显示不出来了



举报 使用道具
xiaohongseeker1 初级会员 发表于 2018-2-13 19:17:32 | 显示全部楼层
Fuller 发表于 2018-2-13 19:10
在自定义xpath的两个输入框中应该这样输入:
定位表达式是

结果出来了,跪谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 学习Rost-CM内容挖掘系统的分词工具
  • 城市要素库时空分析系统开发设计要点
  • 用GooSeeker爬虫实现自动点击抓取淘宝sku库
  • 城市要素库时空分析系统建设思路
  • 用Excel Power Map作招聘数据分析和空间可

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-4-24 22:34