采集创世中文学网，出现两次点击到采集页面，如何写规则

langjunlan

采集的页面图片有四个，第三个是没有采集信息的，点击第一章，出现第四个页面，有采集的信息如下：

第一次点击，需要经过第三页到第四页，再重新点击，则直接从第二页到第四页，那怎么写规则采集第四页信息呢？

langjunlan · 发表于 2018-9-12 18:19:08

两个主题名：
文学网站风云榜_列表1第一级11
文学网站风云榜_列表1第二级11

Fuller · 发表于 2018-9-12 19:30:13

langjunlan 发表于 2018-9-12 18:19
两个主题名：
文学网站风云榜_列表1第一级11
文学网站风云榜_列表1第二级11

第二级规则的爬虫路线那里，没有做下级线索，特意这样安排的？

第三级的网址怎么加入？是用过会员中心添加线索吗？

Fuller · 发表于 2018-9-12 19:40:50

我发现了一个网址的规律，可以用构造网址的方法来采集

首先，这个网站能记住阅读到哪里了，所以，按钮就有两种：1，立即阅读；2，继续阅读

如果是第一次打开这个小说，那就是立即阅读，会进入到章节页面。点击哪一章以后，下一次要进入，看到的按钮就是继续阅读，点击会直接进入上一次阅读到的页面

他们的网址都是有规律的，比如这一部小说
1，立即阅读，进入章节目录，网址是：http://chuangshi.qq.com/bk/xx/AGoENV1oVjQAO1RtATcBZQ-l.html
2，第一章，含有小说介绍信息，网址是：http://chuangshi.qq.com/bk/xx/AGoENV1oVjQAO1RtATcBZQ-r-1.html
3，第十九章，以及其他章节，网址是：http://chuangshi.qq.com/bk/xx/AGoENV1oVjQAO1RtATcBZQ-r-19.html

总结一下：
1，章节目录页，网址样式是： xxxx-l.html
2，第一章，网址样式是：xxxx-r-1.html

如果你总是想采集第一章中的小说介绍信息，那么就构造网址，构造成-r-1.html格式。

在第二级，从“立即阅读”或者“继续阅读”按钮上采集第三级网址的时候，用个自定义xpath，把网址截取拼接一下

Fuller · 发表于 2018-9-12 20:04:57

还要补充一下，/bk/xx/ 这个样式中的xx是会变的

Fuller · 发表于 2018-9-12 20:07:57

根据这些网址分析结果，这个字段的自定义xpath可以这样

定位表达式和内容表达式要用不同的。内容表达式是：

concat('http://chuangshi.qq.com/bk/', substring-before(substring-after(.//*[@id='readNow']/@href, 'qq.com/bk/'), '-'), '-r-1.html')

复制代码

定位表达式是

.//*[@id='readNow']/@href

复制代码

这样采集到的下级链接总是 -r-1.html网页。

自定义xpath的教程：https://www.gooseeker.com/doc/thread-701-1-1.html

采集创世中文学网，出现两次点击到采集页面，如何写规则

本帖子中包含更多资源

共 5 个关于本帖的回复最后回复于 2018-9-12 20:07

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集创世中文学网，出现两次点击到采集页面，如何写规则

本帖子中包含更多资源

共 5 个关于本帖的回复 最后回复于 2018-9-12 20:07

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2018-9-12 20:07