求问,我想要抓取的页面中url不是一行一个排列的,而是以图标的形式一行多个排列,用样例复制抓不全,主要抓取内容都在第二层。第一层网址是https://yyk.99.com.cn/zhejiang/,像抓取的内容是每个医院名称,作为下级线索。要如何解决呀?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-12-31 09:15

沙发
Fuller 管理员 发表于 2019-12-30 12:18:17 | 只看该作者
建立一个嵌套整理箱,分别做行样例复制(红色箭头)和列样例复制(蓝色箭头)

举报 使用道具
板凳
ehhosy 新手上路 发表于 2019-12-30 15:27:35 | 只看该作者
你好,我测试了一下,按照这个样子做,每一行的第四列还是没有办法爬到,比如第一行最后一列“杭州康源口腔医疗”是没有爬到的。
另附我的测试结果:<行复制>
        <item>
                <列复制>
                        <item>
                                <名称>杭州丽都白癜风皮肤病医院</名称>
                                <url>/xiacheng/132177/</url>
                        </item>
                        <item>
                                <名称>杭州华研白癜风医院</名称>
                                <url>/xihu/117216/</url>
                        </item>
                        <item>
                                <名称>杭州口腔医院城西分院</名称>
                                <url>/xihu/118192/</url>
                        </item>
                </列复制>
        </item>
        <item>
                <列复制>
                        <item>
                                <名称>杭州华厦眼科医院</名称>
                                <url>/xihu/119799/</url>
                        </item>
                        <item>
                                <名称>杭州美莱医疗美容医院</名称>
                                <url>/xihu/119622/</url>
                        </item>
                        <item>
                                <名称>杭州市西湖区转塘社区卫生服务中...</名称>
                                <url>/xihu/118278/</url>
                        </item>
                </列复制>
        </item>


我的规则名称是杨帅-努力1,已上传保存,如果可以的话麻烦帮忙看一下?谢谢大佬
举报 使用道具
地板
ehhosy 新手上路 发表于 2019-12-30 15:27:58 | 只看该作者
Fuller 发表于 2019-12-30 12:18
建立一个嵌套整理箱,分别做行样例复制(红色箭头)和列样例复制(蓝色箭头)

...

你好,我测试了一下,按照这个样子做,每一行的第四列还是没有办法爬到,比如第一行最后一列“杭州康源口腔医疗”是没有爬到的。
另附我的测试结果:<行复制>
        <item>
                <列复制>
                        <item>
                                <名称>杭州丽都白癜风皮肤病医院</名称>
                                <url>/xiacheng/132177/</url>
                        </item>
                        <item>
                                <名称>杭州华研白癜风医院</名称>
                                <url>/xihu/117216/</url>
                        </item>
                        <item>
                                <名称>杭州口腔医院城西分院</名称>
                                <url>/xihu/118192/</url>
                        </item>
                </列复制>
        </item>
        <item>
                <列复制>
                        <item>
                                <名称>杭州华厦眼科医院</名称>
                                <url>/xihu/119799/</url>
                        </item>
                        <item>
                                <名称>杭州美莱医疗美容医院</名称>
                                <url>/xihu/119622/</url>
                        </item>
                        <item>
                                <名称>杭州市西湖区转塘社区卫生服务中...</名称>
                                <url>/xihu/118278/</url>
                        </item>
                </列复制>
        </item>


我的规则名称是杨帅-努力1,已上传保存,如果可以的话麻烦帮忙看一下?谢谢大佬
举报 使用道具
5#
Fuller 管理员 发表于 2019-12-30 17:57:08 | 只看该作者
ehhosy 发表于 2019-12-30 15:27
你好,我测试了一下,按照这个样子做,每一行的第四列还是没有办法爬到,比如第一行最后一列“杭州康源口 ...

样例复制的时候,要选择第一列和第二列,像红色箭头那样。你选了第二列和第三列,像蓝色箭头那样,所以,就有漏的


举报 使用道具
6#
ehhosy 新手上路 发表于 2019-12-31 09:15:11 | 只看该作者
Fuller 发表于 2019-12-30 17:57
样例复制的时候,要选择第一列和第二列,像红色箭头那样。你选了第二列和第三列,像蓝色箭头那样,所以, ...

解决了!谢谢大佬!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 12:35