11#
wangyong 版主 发表于 2020-3-18 19:05:57 | 只看该作者
wangxiaoshuang 发表于 2020-3-18 18:32
可能我们显示不一样把,请问您把第二条新闻复制后可以爬第二页吗?

不是显示不一样,你把你的截图看一下,我加载你规则直接都第二条新闻和样例复制选择的第二个样例定位编号都不一样,咱们的编号可能不同,但是再规则里这两个位置的编号一定会是相同的

另外新闻时间的xpath需要修改成这个:
  1. .//*[contains(@id,'cacheresult_summary')]/span|.//*[@class='gray-color']|.//*[contains(@class,'img-item text-center')]/p/span
复制代码

举报 使用道具
12#
wangxiaoshuang 初级会员 发表于 2020-3-18 19:51:46 | 只看该作者
wangyong 发表于 2020-3-18 19:05
不是显示不一样,你把你的截图看一下,我加载你规则直接都第二条新闻和样例复制选择的第二个样例定位编号 ...

这里我应该是对应好了,新闻时间我也按照您的改了一下还是爬不了第二页,请问您能运行我的规则吗?运行后能爬第二页的新闻链接吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
13#
wangyong 版主 发表于 2020-3-19 09:50:35 | 只看该作者
wangxiaoshuang 发表于 2020-3-18 19:51
这里我应该是对应好了,新闻时间我也按照您的改了一下还是爬不了第二页,请问您能运行我的规则吗?运行后 ...

我加载你的规则都直接报错了,样例复制做的都不对,你再加载重新映射
举报 使用道具
14#
wangxiaoshuang 初级会员 发表于 2020-3-19 11:41:48 | 只看该作者
wangyong 发表于 2020-3-19 09:50
我加载你的规则都直接报错了,样例复制做的都不对,你再加载重新映射

这个我重新做了个任务,从第二页开始爬问题已经解决了,可以往后爬,麻烦您了,非常感谢。
再麻烦您一个小问题,我想爬两种网页结构的新闻,新闻标题、时间、内容的id和class会有不同,我自定义的xpath可以在定义规则页面搜索到对应的节点,但在测试的时候却爬不下来内容,请问这是什么原因。
网址1:https://finance.sina.com.cn/stock/relnews/cn/2020-03-18/doc-iimxxstf9953745.shtml
网址2:http://finance.sina.com.cn/meeting/2016-12-18/doc-ifxytqav9743977.shtml
任务名:新浪华为100新闻详情0319试验1
新闻标题:.//*[@id='artibodyTitle']|.//*[@class='main-title']
新闻时间:.//*[@class='time-source']|.//*[@class='date']
新闻详情:.//*[@id='artibody']

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
15#
wangyong 版主 发表于 2020-3-19 14:43:08 | 只看该作者

要对规则里的整理箱顶节点做上定位标志映射

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
16#
wangxiaoshuang 初级会员 发表于 2020-3-19 17:09:30 | 只看该作者
wangyong 发表于 2020-3-19 14:43
要对规则里的整理箱顶节点做上定位标志映射

问题解决了,谢谢您。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 22:39