本帖最后由 mz2358639 于 2016-8-15 16:02 编辑

刚学gooseeker,想做个电影票房的抓取。网址选的是:http://www.cbooo.cn/movies#
结果发现数字和文本都在一起。需要用到xpath吗?

然后是怎么限定年代为2016啊?直接复制链接好像不行,默认为“全部”
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-8-15 17:55

沙发
Fuller 管理员 发表于 2016-8-15 16:54:20 | 只看该作者
数据抓取和处理就像一个流水线,一步步处理,不用把所有需求放在抓取阶段实现。如果确实需要在抓取的时候分开,XPath有字符串函数。这个可以这样写
  1. substring-after(div/text(), ':¥')
复制代码

如果上面的价格信息是在一个div下面的,就用这句xpath,从货币符号之后截取

也可以在处理抓取结果的时候做截取,比如,存入excel后,用excel函数;如果存入MySQL,就用sql
举报 使用道具
板凳
mz2358639 中级会员 发表于 2016-8-15 17:10:37 | 只看该作者
Fuller 发表于 2016-8-15 16:54
数据抓取和处理就像一个流水线,一步步处理,不用把所有需求放在抓取阶段实现。如果确实需要在抓取的时候分 ...

谢谢。我之前也是想之后用excel来筛选的。
举报 使用道具
地板
mz2358639 中级会员 发表于 2016-8-15 17:11:45 | 只看该作者
Fuller 发表于 2016-8-15 16:54
数据抓取和处理就像一个流水线,一步步处理,不用把所有需求放在抓取阶段实现。如果确实需要在抓取的时候分 ...

然后想问的是,怎么限定年代为“2016”来抓取啊。
举报 使用道具
5#
HJLing 版主 发表于 2016-8-15 17:55:10 | 只看该作者
mz2358639 发表于 2016-8-15 17:11
然后想问的是,怎么限定年代为“2016”来抓取啊。

因为筛选年份后网址不变 所以需要用连续动作来选择2016年 再进行采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 09:36