名称:火币全球上市信息
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2019-12-18 09:18

沙发
jupter 初级会员 发表于 2019-12-17 16:19:49 | 只看该作者
大神路过烦请帮忙看看,无比感谢
举报 使用道具
板凳
Fuller 管理员 发表于 2019-12-17 16:52:19 | 只看该作者
jupter 发表于 2019-12-17 16:19
大神路过烦请帮忙看看,无比感谢



这个上市时间是要采集哪个数据?不要用 @class='cell'这个定位标志,因为这个定位标志有太多一样的了,我加载你的规则,发现定位到了下面一行,不是第一行,这样规则就出错了
举报 使用道具
地板
jupter 初级会员 发表于 2019-12-17 20:33:33 | 只看该作者

举报 使用道具
5#
jupter 初级会员 发表于 2019-12-17 20:35:02 | 只看该作者
大神再帮我看一下呢,我做的规则是recently list那一个页面的,但是在爬虫的时候就变成market里面的内容了?不知道怎么回事了
举报 使用道具
6#
Fuller 管理员 发表于 2019-12-18 09:15:13 | 只看该作者
jupter 发表于 2019-12-17 20:35
大神再帮我看一下呢,我做的规则是recently list那一个页面的,但是在爬虫的时候就变成market里面的内容了 ...



首先,上市时间那个抓取内容的定位标志不要选@class='cell'的节点,这个定位标志在网页上有好几个节点都用,就区分不开了。其实,每个列都有一个特别的class,是在TD节点上,用这个定位标志特别适合。


这个网页的多个页面都是要点击按钮才能显示出来,这个recently list也是需要先点击一下。做两级规则,第一级主要负责点击。点击动作案例参看:https://www.gooseeker.com/doc/article-288-1.html
举报 使用道具
7#
Fuller 管理员 发表于 2019-12-18 09:18:13 | 只看该作者
Fuller 发表于 2019-12-18 09:15
首先,上市时间那个抓取内容的定位标志不要选@class='cell'的节点,这个定位标志在网页上有好几个节点 ...

写这个点击动作的xpath可以使用recently list 这个文字内容作为标志。我这里网页是中文的,就用这个xpath:
  1. //*[@class='el-radio-button__inner' and contains(text(), '上币历史')]
复制代码



可以用“搜索”按钮检查一下,看看定位是否准确
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 00:42