各位大神请教下 由于字节设置无法截图了 就是想问问
1.想采集店铺名称 但是他这里面是点击加载更多商家才能出现更多商家 请问这时候翻页怎么设置?
2.想采集店铺电话  就是光标浮动到店铺名称或图片上才能显示电话 这时候在怎么爬取?


举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2020-8-26 18:26

沙发
Fuller 管理员 发表于 2018-8-24 12:20:23 | 只看该作者
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://www.gooseeker.com/doc/article-334-1.html

悬浮内容的采集要用悬浮动作,参看:https://www.gooseeker.com/doc/article-380-1.html
举报 使用道具
板凳
levizhang 新手上路 发表于 2018-8-24 13:16:05 | 只看该作者
本帖最后由 levizhang 于 2018-8-24 13:17 编辑
Fuller 发表于 2018-8-24 12:20
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://ww ...
好的

举报 使用道具
地板
levizhang 新手上路 发表于 2018-8-24 13:26:48 | 只看该作者
Fuller 发表于 2018-8-24 12:20
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://ww ...

那个 抓取的时候还是第一层只能显示第一页 再往下抓取就显示抓取失败 有什么解决办法么?
举报 使用道具
5#
levizhang 新手上路 发表于 2018-8-24 13:35:40 | 只看该作者
Fuller 发表于 2018-8-24 12:20
如果是“点击加载更多”这样的标志,跟“下一页”是一样的,按照翻页规则来做就行了。具体参看:https://ww ...

我都试了 还是只能截到第一个 文本还有其他都试了 能帮忙看看么 主题名是群力外卖

举报 使用道具
6#
Fuller 管理员 发表于 2018-8-24 19:05:59 | 只看该作者
levizhang 发表于 2018-8-24 13:35
我都试了 还是只能截到第一个 文本还有其他都试了 能帮忙看看么 主题名是群力外卖

...


问题出在绝对定位上,你看生成xpath这么长(左边箭头),网页上面只要稍微一调整就会影响到规则的适应性。所以,一方面,尽量不要用绝对定位;另一方面,通过定位标志映射,手工选择最好的定位标志,可以提高规则的适应性。定位标志映射的教程是:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
7#
Fuller 管理员 发表于 2018-8-24 19:09:44 | 只看该作者


电商网站特别好采集,因为每个内容都有很合适的定位标志,通常我们把@class和@id称为定位标志,用上他们以后,生成的xpath就会很短,就是从含有这个标志的节点开始写xpath,这样网页上多一个少一个节点不会影响规则
举报 使用道具
8#
Fuller 管理员 发表于 2018-8-24 19:15:40 | 只看该作者
你定义了一个悬浮动作,悬浮能做显示什么?
举报 使用道具
9#
Fuller 管理员 发表于 2018-8-24 19:19:00 | 只看该作者
你是不是想在第二级上面做悬浮动作?
举报 使用道具
10#
Fuller 管理员 发表于 2018-8-24 19:26:12 | 只看该作者
我还发现一个问题,采集美团要换UserAgent,否则就被封锁了。可能采集一定时间以后,要换一下UserAgent,清一下cookie


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 17:15