11#
plovex 初级会员 发表于 2017-1-18 11:52:13 | 只看该作者
我试了下存不了规则,说找不到上级节点。好像没点击之前构造不了页面,这是要做两个主题,还是怎么合适?但是我希望比赛数据存在同一个文件里,不然还得去比对拼数据
举报 使用道具
12#
Fuller 管理员 发表于 2017-1-18 12:14:13 | 只看该作者
plovex 发表于 2017-1-18 11:52
我试了下存不了规则,说找不到上级节点。好像没点击之前构造不了页面,这是要做两个主题,还是怎么合适?但 ...

存不了规则的原因是因为这个网页是持续刷新的。如果定义规则的过程有点长,期间会刷新网页内容,在这种情况下,一定要使用冻结页面功能,MS谋数台或者GS浏览器的菜单 规则-》冻结页面 ,冻结以后使用菜单 规则-》刷新页面结构,然后在开始定义规则。

做了动作以后,因为网页结构是不同的,所以需要两个规则,可以在excel中用函数进行合并。
举报 使用道具
13#
plovex 初级会员 发表于 2017-1-18 13:37:35 | 只看该作者
Fuller 发表于 2017-1-18 12:14
存不了规则的原因是因为这个网页是持续刷新的。如果定义规则的过程有点长,期间会刷新网页内容,在这种情 ...

我只要点击后加载数据,页面结构没变的话,应该怎么操作呢?看了下这页结构确实是这样,准备还是换成这里采集:http://trade.500.com/jczq/index.php?playid=312

有三部分数据都是要点击一下,然后放在固定的table里
需要点一下加载数据,再抓一条数据
举报 使用道具
14#
Fuller 管理员 发表于 2017-1-18 16:24:43 | 只看该作者
plovex 发表于 2017-1-18 13:37
我只要点击后加载数据,页面结构没变的话,应该怎么操作呢?看了下这页结构确实是这样,准备还是换成这里 ...

如果网页结构不变,动作前和动作后可以用同一个规则。这个网站我试了,可点击的位置挺多,你是要点击哪个位置?有些地方点开以后是要做选择。还有几个“展开”,你是想点击“展开”?
举报 使用道具
15#
plovex 初级会员 发表于 2017-1-18 20:09:07 | 只看该作者
Fuller 发表于 2017-1-18 16:24
如果网页结构不变,动作前和动作后可以用同一个规则。这个网站我试了,可点击的位置挺多,你是要点击哪个 ...

就是每场比赛的比分、总进球、半全场那里需要点展开
我要获取每场比赛的赔率数据、三个点击的地方,要点过后才有数据
这个页面可以用一个规则么
举报 使用道具
16#
Fuller 管理员 发表于 2017-1-18 20:20:39 | 只看该作者
plovex 发表于 2017-1-18 20:09
就是每场比赛的比分、总进球、半全场那里需要点展开
我要获取每场比赛的赔率数据、三个点击的地方,要点 ...

这个不能用一个规则,要有两个,内容是弹出的网页区域,结构不一样
举报 使用道具
17#
plovex 初级会员 发表于 2017-1-19 11:29:34 | 只看该作者
本帖最后由 plovex 于 2017-1-19 12:00 编辑
Fuller 发表于 2017-1-18 20:20
这个不能用一个规则,要有两个,内容是弹出的网页区域,结构不一样

用连续动作吗?跑完了怎么把两个表关联起来呢
另外3个弹窗的话,我要写四个规则,然后依次跑么?
这样的话抓完了数据是不是会有四个表单,这样拼起来是不是比较麻烦,因为生成的文件名也不是固定的

另外不确定几场比赛,不知道连续动作重复次数怎么办
举报 使用道具
18#
plovex 初级会员 发表于 2017-1-19 14:14:11 | 只看该作者
Fuller 发表于 2017-1-18 20:20
这个不能用一个规则,要有两个,内容是弹出的网页区域,结构不一样

规则做好了两个,但是遇到个问题,因为是每次点击刷一次数据,所以爬下来的数据展开弹窗部分的一条就是一个xml。。。这更没法匹配了,麻烦帮我看下有什么好的解决办法
主题名:竞足混合500_01
举报 使用道具
19#
Fuller 管理员 发表于 2017-1-19 15:04:04 | 只看该作者
plovex 发表于 2017-1-19 11:29
用连续动作吗?跑完了怎么把两个表关联起来呢
另外3个弹窗的话,我要写四个规则,然后依次跑么?
这样的话 ...

连续动作点击多少次不是通过设定重复次数。重复次数一般不要改动,就是1。

关键是写定位XPath,这个XPath应该能定位到多个节点。定位到几个节点就做几次动作。

如果动作以后,弹出框的内容一样,就用一个规则就行了。如果弹出框不一样,需要多个规则。多个规则可以用同一个主题名,这样的话,爬虫会逐个试一下,找到合适的那个规则
举报 使用道具
20#
Fuller 管理员 发表于 2017-1-19 15:06:22 | 只看该作者
plovex 发表于 2017-1-19 14:14
规则做好了两个,但是遇到个问题,因为是每次点击刷一次数据,所以爬下来的数据展开弹窗部分的一条就是一 ...

要把多个结果文件匹配起来,需要利用结果文件中的一些特殊字段,具体参看《XML文件结构

这个网站的内容比较复杂,需要一个数据清洗程序,把多个XML文件合在一起
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 12:55