采集电影评分数据,movie.mtime.com/229733/,如下图:

其中音乐、画面、导演、故事四个评分是用条形图展示,想用其条形的宽度来代表,看了之前的一些教程尝试了老是出错,不知道怎么解决了

跪求帮助!
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2018-2-13 19:17

沙发
Fuller 管理员 发表于 2018-2-13 14:59:41 | 只看该作者
你分析的没错,是采集那个style出来就行了,但是GS爬虫的DOM树为了简化,没有把style放在树中。所以,需要你自定义xpath。过程是
1,先用那个i节点做内容映射
2,点击“创建规则”工作台上的测试按钮
3,在输出窗口中点击数据规则tab
4,就能看到为那个i节点生成的xpath
5,把这个xpath拷出来
6,在整理箱中选中那个抓取内容,勾选“高级设置”
7,勾上“自定义xpath”,勾上“文本内容”,勾上“专用定位”
8,在定位标志表达式那里拷入刚才拷贝的xpath
9,在抓取内容表达式那里自定义xpath,仿照定位表达式,根据相对位置改写一下,把style抓取出来
举报 使用道具
板凳
xiaohongseeker1 初级会员 发表于 2018-2-13 18:15:57 | 只看该作者
Fuller 发表于 2018-2-13 14:59
你分析的没错,是采集那个style出来就行了,但是GS爬虫的DOM树为了简化,没有把style放在树中。所以,需要 ...

感谢您的回复。
根据您刚才的解决办法,我还想问一下,
定位标志表达式是:"following-sibling::div[position()=2]/div[position()=2]/div[position()=1]/dl/dd[position()=1]/b/i"/>
内容表达式填相对路径,//*[@class='yy']/b/i,这个对吗?
我按照这个填进去最后还是没有出来东西。求指导


举报 使用道具
地板
Fuller 管理员 发表于 2018-2-13 18:26:49 | 只看该作者
xiaohongseeker1 发表于 2018-2-13 18:15
感谢您的回复。
根据您刚才的解决办法,我还想问一下,
定位标志表达式是:"following-sibling::div/div/ ...

把主题名贴出来吧,让管理员直接加载你的规则分析一下
举报 使用道具
5#
Fuller 管理员 发表于 2018-2-13 18:27:30 | 只看该作者
xiaohongseeker1 发表于 2018-2-13 18:15
感谢您的回复。
根据您刚才的解决办法,我还想问一下,
定位标志表达式是:"following-sibling::div/div/ ...

不是相对于那个i,而是仿照那个i
举报 使用道具
6#
Fuller 管理员 发表于 2018-2-13 18:30:37 | 只看该作者
先不做自定义xpath,看看生成的xpath是什么。没有自定义xpath的时候,假设生成的xpath是
  1. .//div[position()=3]/i
复制代码


那么抓取内容表达式应该填
  1. .//div[position()=3]/i/@style
复制代码




举报 使用道具
7#
xiaohongseeker1 初级会员 发表于 2018-2-13 18:36:07 | 只看该作者
Fuller 发表于 2018-2-13 18:26
把主题名贴出来吧,让管理员直接加载你的规则分析一下

主题名是IP电影-详情1。
我上面写的那个就是不做自定义时生成的xpath。
举报 使用道具
8#
Fuller 管理员 发表于 2018-2-13 19:10:25 | 只看该作者
xiaohongseeker1 发表于 2018-2-13 18:36
主题名是IP电影-详情1。
我上面写的那个就是不做自定义时生成的xpath。

在自定义xpath的两个输入框中应该这样输入:
定位表达式是
  1. following-sibling::div[position()=2]/div[position()=2]/div[position()=1]/dl/dd[position()=1]/b/i
复制代码

抓取内容表达式是
  1. following-sibling::div[position()=2]/div[position()=2]/div[position()=1]/dl/dd[position()=1]/b/i/@style
复制代码

我现在测试不了,这个网站的那几个条现在显示不出来了



举报 使用道具
9#
xiaohongseeker1 初级会员 发表于 2018-2-13 19:17:32 | 只看该作者
Fuller 发表于 2018-2-13 19:10
在自定义xpath的两个输入框中应该这样输入:
定位表达式是

结果出来了,跪谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 20:34