科室、职称和累计帮助患者、近两周帮助患者都无class值，网页位置都固定不变，用过绝对定位不行，像这种无class值，自定义xpath该怎么写，写不出来呀，现在就是这四个值老是丢失

whusim

科室、职称和累计帮助患者、近两周帮助患者都无class值，网页位置都固定不变，用过绝对定位不行，像这种无class值，自定义xpath该怎么写，写不出来呀，现在就是这四个值老是丢失，网址http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm
一级主题名：b高血压医生列表_个人_信息主页
二级主题名：b高血压医生列表_个人_信息主页二级

而且爬一级的时候爬一个医生的都真的很慢，这是为什么

Fuller · 发表于 2017-10-2 10:21:29

这种都需要用contains函数，而且“科室”这种中间还含有多个空格，应该用两个contains函数，大概写法是[contains(text(), '科') and contains(text(), '室')]

whusim · 发表于 2017-10-2 14:37:31

本帖最后由 whusim 于 2017-10-2 14:38 编辑

这个问题已经解决，非常感谢！
还有一个问题是我要抓取点开“完整介绍”之后的【执业经历】字段的全部内容，抓取结果出来有的医生的【执业经历】内容抓取完整，有的医生的只抓取了一部分。而且抓取速度特别慢，我弄了5个爬虫，一分钟才抓3条数据，请问是怎么回事啊？是模拟点击出了问题吗还是其他什么地方不对？为什么一个字段的内容抓取不完整，还那么慢？

Fuller · 发表于 2017-10-2 17:30:11

whusim 发表于 2017-10-2 14:37
这个问题已经解决，非常感谢！
还有一个问题是我要抓取点开“完整介绍”之后的【执业经历】字段的全部内 ...

如果抓取特别慢，可以把DS打数机窗口下部的日志窗口显示出来。如果还没有显示出来，按住下边沿中间往上拉。就能看到日志信息，一般会说爬虫需要优化。此时，要设置上“定时器触发”。如果是爬虫群模式，就在调度参数那里设置，如果是单搜和集搜，就在菜单上设置。定时器触发设置5秒一般就够了

Fuller · 发表于 2017-10-2 17:36:27

这个网站跟其他很多网站一样，完整内容和截断的内容同时出现在网页上，只是一开始显示截断的内容。如图，直接抓取有定位标志class='full'的节点中的内容就行了，不用模拟点击。用上定位标志映射，抓取会很精准

whusim · 发表于 2017-10-2 20:04:20

我之前有一不小心勾选了定时器，勾选定时器它就会动不动就采集完成。

Fuller · 发表于 2017-10-2 21:58:12

whusim 发表于 2017-10-2 20:04
我之前有一不小心勾选了定时器，勾选定时器它就会动不动就采集完成。

定时器触发会加快速度的，是按照固定的时间启动抓取。如果跟滚屏配合在一起，还好一些，否则容易漏抓。没有定时器触发的时候，启动抓取的时间是智能判断的，但是，万一一个网页上的内容持续不断地变化，智能判断就会等待过久时间

科室、职称和累计帮助患者、近两周帮助患者都无class值，网页位置都固定不变，用过绝对定位不行，像这种无class值，自定义xpath该怎么写，写不出来呀，现在就是这四个值老是丢失

本帖子中包含更多资源

共 6 个关于本帖的回复最后回复于 2017-10-2 21:58

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

科室、职称和累计帮助患者、近两周帮助患者都无class值，网页位置都固定不变，用过绝对定位不行，像这种无class值，自定义xpath该怎么写，写不出来呀，现在就是这四个值老是丢失

本帖子中包含更多资源

共 6 个关于本帖的回复 最后回复于 2017-10-2 21:58

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 6 个关于本帖的回复最后回复于 2017-10-2 21:58