快捷导航
11 6277

美团外卖的爬取

levizhang 于 2018-8-24 12:14 发表 [复制链接]
各位大神请教下 由于字节设置无法截图了 就是想问问
1.想采集店铺名称 但是他这里面是点击加载更多商家才能出现更多商家 请问这时候翻页怎么设置?
2.想采集店铺电话  就是光标浮动到店铺名称或图片上才能显示电话 这时候在怎么爬取?


举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2020-8-26 18:26

Fuller 管理员 发表于 2018-8-24 12:20:23 | 显示全部楼层
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://www.gooseeker.com/doc/article-334-1.html

悬浮内容的采集要用悬浮动作,参看:https://www.gooseeker.com/doc/article-380-1.html
举报 使用道具
levizhang 新手上路 发表于 2018-8-24 13:16:05 | 显示全部楼层
本帖最后由 levizhang 于 2018-8-24 13:17 编辑
Fuller 发表于 2018-8-24 12:20
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://ww ...
好的

举报 使用道具
levizhang 新手上路 发表于 2018-8-24 13:26:48 | 显示全部楼层
Fuller 发表于 2018-8-24 12:20
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://ww ...

那个 抓取的时候还是第一层只能显示第一页 再往下抓取就显示抓取失败 有什么解决办法么?
举报 使用道具
levizhang 新手上路 发表于 2018-8-24 13:35:40 | 显示全部楼层
Fuller 发表于 2018-8-24 12:20
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://ww ...

我都试了 还是只能截到第一个 文本还有其他都试了 能帮忙看看么 主题名是群力外卖

举报 使用道具
Fuller 管理员 发表于 2018-8-24 19:05:59 | 显示全部楼层
levizhang 发表于 2018-8-24 13:35
我都试了 还是只能截到第一个 文本还有其他都试了 能帮忙看看么 主题名是群力外卖

...

绝对定位20180824190328.png
问题出在绝对定位上,你看生成xpath这么长(左边箭头),网页上面只要稍微一调整就会影响到规则的适应性。所以,一方面,尽量不要用绝对定位;另一方面,通过定位标志映射,手工选择最好的定位标志,可以提高规则的适应性。定位标志映射的教程是:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
Fuller 管理员 发表于 2018-8-24 19:09:44 | 显示全部楼层
定位标志20180824190805.png

电商网站特别好采集,因为每个内容都有很合适的定位标志,通常我们把@class和@id称为定位标志,用上他们以后,生成的xpath就会很短,就是从含有这个标志的节点开始写xpath,这样网页上多一个少一个节点不会影响规则
举报 使用道具
Fuller 管理员 发表于 2018-8-24 19:15:40 | 显示全部楼层
你定义了一个悬浮动作,悬浮能做显示什么?
举报 使用道具
Fuller 管理员 发表于 2018-8-24 19:19:00 | 显示全部楼层
你是不是想在第二级上面做悬浮动作?
举报 使用道具
Fuller 管理员 发表于 2018-8-24 19:26:12 | 显示全部楼层
我还发现一个问题,采集美团要换UserAgent,否则就被封锁了。可能采集一定时间以后,要换一下UserAgent,清一下cookie
ua20180824192453.png

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-10-23 12:59