请问怎么抓取一串字符当中的数字部分

mz2358639

本帖最后由 mz2358639 于 2016-8-15 16:02 编辑

刚学gooseeker，想做个电影票房的抓取。网址选的是：http://www.cbooo.cn/movies#
结果发现数字和文本都在一起。需要用到xpath吗？

然后是怎么限定年代为2016啊？直接复制链接好像不行，默认为“全部”

Fuller · 发表于 2016-8-15 16:54:20

数据抓取和处理就像一个流水线，一步步处理，不用把所有需求放在抓取阶段实现。如果确实需要在抓取的时候分开，XPath有字符串函数。这个可以这样写

substring-after(div/text(), '：￥')

复制代码

如果上面的价格信息是在一个div下面的，就用这句xpath，从货币符号之后截取

也可以在处理抓取结果的时候做截取，比如，存入excel后，用excel函数；如果存入MySQL，就用sql

mz2358639 · 发表于 2016-8-15 17:10:37

Fuller 发表于 2016-8-15 16:54
数据抓取和处理就像一个流水线，一步步处理，不用把所有需求放在抓取阶段实现。如果确实需要在抓取的时候分 ...

谢谢。我之前也是想之后用excel来筛选的。

mz2358639 · 发表于 2016-8-15 17:11:45

Fuller 发表于 2016-8-15 16:54
数据抓取和处理就像一个流水线，一步步处理，不用把所有需求放在抓取阶段实现。如果确实需要在抓取的时候分 ...

然后想问的是，怎么限定年代为“2016”来抓取啊。

HJLing · 发表于 2016-8-15 17:55:10

mz2358639 发表于 2016-8-15 17:11
然后想问的是，怎么限定年代为“2016”来抓取啊。

因为筛选年份后网址不变所以需要用连续动作来选择2016年再进行采集

请问怎么抓取一串字符当中的数字部分

本帖子中包含更多资源

共 4 个关于本帖的回复最后回复于 2016-8-15 17:55

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

请问怎么抓取一串字符当中的数字部分

本帖子中包含更多资源

共 4 个关于本帖的回复 最后回复于 2016-8-15 17:55

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2016-8-15 17:55