采集的页面图片有四个,第三个是没有采集信息的,点击第一章,出现第四个页面,有采集的信息如下:

第一次点击,需要经过第三页到第四页,再重新点击,则直接从第二页到第四页,那怎么写规则采集第四页信息呢?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-9-12 20:07

沙发
langjunlan 初级会员 发表于 2018-9-12 18:19:08 | 只看该作者
两个主题名:
文学网站风云榜_列表1第一级11
文学网站风云榜_列表1第二级11
举报 使用道具
板凳
Fuller 管理员 发表于 2018-9-12 19:30:13 | 只看该作者
langjunlan 发表于 2018-9-12 18:19
两个主题名:
文学网站风云榜_列表1第一级11
文学网站风云榜_列表1第二级11

第二级规则的爬虫路线那里,没有做下级线索,特意这样安排的?

第三级的网址怎么加入?是用过会员中心添加线索吗?
举报 使用道具
地板
Fuller 管理员 发表于 2018-9-12 19:40:50 | 只看该作者
我发现了一个网址的规律,可以用构造网址的方法来采集

首先,这个网站能记住阅读到哪里了,所以,按钮就有两种:1,立即阅读;2,继续阅读

如果是第一次打开这个小说,那就是立即阅读,会进入到章节页面。点击哪一章以后,下一次要进入,看到的按钮就是继续阅读,点击会直接进入上一次阅读到的页面

他们的网址都是有规律的,比如这一部小说
1,立即阅读,进入章节目录,    网址是:http://chuangshi.qq.com/bk/xx/AGoENV1oVjQAO1RtATcBZQ-l.html
2,第一章,含有小说介绍信息,网址是:http://chuangshi.qq.com/bk/xx/AGoENV1oVjQAO1RtATcBZQ-r-1.html
3,第十九章,以及其他章节,   网址是:http://chuangshi.qq.com/bk/xx/AGoENV1oVjQAO1RtATcBZQ-r-19.html

总结一下:
1,章节目录页,网址样式是: xxxx-l.html
2,第一章,网址样式是:xxxx-r-1.html

如果你总是想采集第一章中的小说介绍信息,那么就构造网址,构造成-r-1.html格式。

在第二级,从“立即阅读”或者“继续阅读”按钮上采集第三级网址的时候,用个自定义xpath,把网址截取拼接一下
举报 使用道具
5#
Fuller 管理员 发表于 2018-9-12 20:04:57 | 只看该作者
还要补充一下,/bk/xx/ 这个样式中的xx是会变的
举报 使用道具
6#
Fuller 管理员 发表于 2018-9-12 20:07:57 | 只看该作者
根据这些网址分析结果,这个字段的自定义xpath可以这样



定位表达式和内容表达式要用不同的。内容表达式是:
  1. concat('http://chuangshi.qq.com/bk/', substring-before(substring-after(.//*[@id='readNow']/@href, 'qq.com/bk/'), '-'), '-r-1.html')
复制代码
定位表达式是
  1. .//*[@id='readNow']/@href
复制代码
这样采集到的下级链接总是 -r-1.html网页。

自定义xpath的教程:https://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 04:47