集搜客GooSeeker网络爬虫

标题: 小白问题:如何抓取页面中不规则url? [打印本页]

作者: ehhosy    时间: 2019-12-30 11:16
标题: 小白问题:如何抓取页面中不规则url?
求问,我想要抓取的页面中url不是一行一个排列的,而是以图标的形式一行多个排列,用样例复制抓不全,主要抓取内容都在第二层。第一层网址是https://yyk.99.com.cn/zhejiang/,像抓取的内容是每个医院名称,作为下级线索。要如何解决呀?

作者: Fuller    时间: 2019-12-30 12:18
建立一个嵌套整理箱,分别做行样例复制(红色箭头)和列样例复制(蓝色箭头)
[attach]11629[/attach]

作者: ehhosy    时间: 2019-12-30 15:27
你好,我测试了一下,按照这个样子做,每一行的第四列还是没有办法爬到,比如第一行最后一列“杭州康源口腔医疗”是没有爬到的。
另附我的测试结果:<行复制>
        <item>
                <列复制>
                        <item>
                                <名称>杭州丽都白癜风皮肤病医院</名称>
                                <url>/xiacheng/132177/</url>
                        </item>
                        <item>
                                <名称>杭州华研白癜风医院</名称>
                                <url>/xihu/117216/</url>
                        </item>
                        <item>
                                <名称>杭州口腔医院城西分院</名称>
                                <url>/xihu/118192/</url>
                        </item>
                </列复制>
        </item>
        <item>
                <列复制>
                        <item>
                                <名称>杭州华厦眼科医院</名称>
                                <url>/xihu/119799/</url>
                        </item>
                        <item>
                                <名称>杭州美莱医疗美容医院</名称>
                                <url>/xihu/119622/</url>
                        </item>
                        <item>
                                <名称>杭州市西湖区转塘社区卫生服务中...</名称>
                                <url>/xihu/118278/</url>
                        </item>
                </列复制>
        </item>


我的规则名称是杨帅-努力1,已上传保存,如果可以的话麻烦帮忙看一下?谢谢大佬
作者: ehhosy    时间: 2019-12-30 15:27
Fuller 发表于 2019-12-30 12:18
建立一个嵌套整理箱,分别做行样例复制(红色箭头)和列样例复制(蓝色箭头)

...

你好,我测试了一下,按照这个样子做,每一行的第四列还是没有办法爬到,比如第一行最后一列“杭州康源口腔医疗”是没有爬到的。
另附我的测试结果:<行复制>
        <item>
                <列复制>
                        <item>
                                <名称>杭州丽都白癜风皮肤病医院</名称>
                                <url>/xiacheng/132177/</url>
                        </item>
                        <item>
                                <名称>杭州华研白癜风医院</名称>
                                <url>/xihu/117216/</url>
                        </item>
                        <item>
                                <名称>杭州口腔医院城西分院</名称>
                                <url>/xihu/118192/</url>
                        </item>
                </列复制>
        </item>
        <item>
                <列复制>
                        <item>
                                <名称>杭州华厦眼科医院</名称>
                                <url>/xihu/119799/</url>
                        </item>
                        <item>
                                <名称>杭州美莱医疗美容医院</名称>
                                <url>/xihu/119622/</url>
                        </item>
                        <item>
                                <名称>杭州市西湖区转塘社区卫生服务中...</名称>
                                <url>/xihu/118278/</url>
                        </item>
                </列复制>
        </item>


我的规则名称是杨帅-努力1,已上传保存,如果可以的话麻烦帮忙看一下?谢谢大佬

作者: Fuller    时间: 2019-12-30 17:57
ehhosy 发表于 2019-12-30 15:27
你好,我测试了一下,按照这个样子做,每一行的第四列还是没有办法爬到,比如第一行最后一列“杭州康源口 ...

样例复制的时候,要选择第一列和第二列,像红色箭头那样。你选了第二列和第三列,像蓝色箭头那样,所以,就有漏的

[attach]11631[/attach]

作者: ehhosy    时间: 2019-12-31 09:15
Fuller 发表于 2019-12-30 17:57
样例复制的时候,要选择第一列和第二列,像红色箭头那样。你选了第二列和第三列,像蓝色箭头那样,所以, ...

解决了!谢谢大佬!





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2