科室、职称和累计帮助患者、近两周帮助患者都无class值,网页位置都固定不变,用过绝对定位不行,像这种无class值,自定义xpath该怎么写,写不出来呀,现在就是这四个值老是丢失,网址http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm
一级主题名:b高血压医生列表_个人_信息主页
二级主题名:b高血压医生列表_个人_信息主页二级

而且爬一级的时候爬一个医生的都真的很慢,这是为什么



11.png
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-10-2 21:58

Fuller 管理员 发表于 2017-10-2 10:21:29 | 显示全部楼层
这种都需要用contains函数,而且“科   室”这种中间还含有多个空格,应该用两个contains函数,大概写法是[contains(text(), '科') and contains(text(), '室')]
举报 使用道具
whusim 中级会员 发表于 2017-10-2 14:37:31 | 显示全部楼层
本帖最后由 whusim 于 2017-10-2 14:38 编辑

这个问题已经解决,非常感谢!
还有一个问题是  我要抓取点开“完整介绍”之后的【执业经历】字段的全部内容,抓取结果出来有的医生的【执业经历】内容抓取完整,有的医生的只抓取了一部分。而且抓取速度特别慢,我弄了5个爬虫,一分钟才抓3条数据,请问是怎么回事啊?是模拟点击出了问题吗还是其他什么地方不对?为什么一个字段的内容抓取不完整,还那么慢?
举报 使用道具
Fuller 管理员 发表于 2017-10-2 17:30:11 | 显示全部楼层
whusim 发表于 2017-10-2 14:37
这个问题已经解决,非常感谢!
还有一个问题是  我要抓取点开“完整介绍”之后的【执业经历】字段的全部内 ...

如果抓取特别慢,可以把DS打数机窗口下部的日志窗口显示出来。如果还没有显示出来,按住下边沿中间往上拉。就能看到日志信息,一般会说爬虫需要优化。此时,要设置上“定时器触发”。如果是爬虫群模式,就在调度参数那里设置,如果是单搜和集搜,就在菜单上设置。定时器触发设置5秒一般就够了
举报 使用道具
Fuller 管理员 发表于 2017-10-2 17:36:27 | 显示全部楼层
quanbuneirong.png
这个网站跟其他很多网站一样,完整内容和截断的内容同时出现在网页上,只是一开始显示截断的内容。如图,直接抓取有定位标志class='full'的节点中的内容就行了,不用模拟点击。用上定位标志映射,抓取会很精准
举报 使用道具
whusim 中级会员 发表于 2017-10-2 20:04:20 | 显示全部楼层
我之前有一不小心勾选了定时器,勾选定时器它就会动不动就采集完成。
举报 使用道具
Fuller 管理员 发表于 2017-10-2 21:58:12 | 显示全部楼层
whusim 发表于 2017-10-2 20:04
我之前有一不小心勾选了定时器,勾选定时器它就会动不动就采集完成。

定时器触发会加快速度的,是按照固定的时间启动抓取。如果跟滚屏配合在一起,还好一些,否则容易漏抓。没有定时器触发的时候,启动抓取的时间是智能判断的,但是,万一一个网页上的内容持续不断地变化,智能判断就会等待过久时间
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:57