规则:正式
网页链接:https://www.cargurus.com/Cars/inventorylisting/viewDetailsFilterViewInventoryListing.action?sourceContext=&newSearchFromOverviewPage=true&inventorySearchWidgetType=AUTO&entitySelectingHelper.selectedEntity=c23512&entitySelectingHelper.selectedEntity2=c23970&zip=45203&distance=50000&searchChanged=true&modelChanged=false&filtersModified=true#resultsPage=1


见上图,这是第一级页面,列表上有一堆车的信息,想要把这些信息一个个打开,来抓取第二级页面的数据。 并且要把134页的列表逐个打开。
现在问题来了
1,找不到href,所以转用连续动作,
2,连续动作方面,我第一步设置点击动作,第二步做什么呢?
3,打开一个个二级页面,抓取数据,翻页等这些动作的顺序如何安排呢,

现在完全一团浆糊了,求大神帮忙指点
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2018-6-18 09:58

来自 3#
wuyouu 新手上路 发表于 2018-6-14 14:56:06 | 只看该作者
shengchengx 发表于 2018-6-14 14:16
先做点击,到了详情页抓详情页的数据,然后再做一个回退动作,去点击下一个车辆信息,再去采集详情页的数据 ...

谢谢!!!!!
我试了第二个方法 规则:最后一次啦啦啦!!!用这个详情页打开
https://www.cargurus.com/Cars/inventorylisting/viewDetailsFilterViewInventoryListing.action?sourceContext=&newSearchFromOverviewPage=true&inventorySearchWidgetType=AUTO&entitySelectingHelper.selectedEntity=c23512&entitySelectingHelper.selectedEntity2=c23970&zip=45203&distance=50000&searchChanged=true&modelChanged=false&filtersModified=true#listing=209884385


我先在详情页抓取了数据,然后设置翻页。最后开始爬虫,不知道哪里出了问题,可以帮忙看一下么
举报 使用道具
沙发
shengchengx 金牌会员 发表于 2018-6-14 14:16:18 | 只看该作者
本帖最后由 shengchengx 于 2018-6-14 14:19 编辑

先做点击,到了详情页抓详情页的数据,然后再做一个回退动作,去点击下一个车辆信息,再去采集详情页的数据,这也循环

也可以到这也页面,点击这个下一个车辆,然后采集下面的数据,这两种方法都可以
举报 使用道具
地板
wuyouu 新手上路 发表于 2018-6-14 21:36:45 | 只看该作者
up
举报 使用道具
5#
wuyouu 新手上路 发表于 2018-6-15 04:36:47 | 只看该作者
up
举报 使用道具
6#
wuyouu 新手上路 发表于 2018-6-15 07:41:51 | 只看该作者
求大神
举报 使用道具
7#
w228258549 高级会员 发表于 2018-6-15 10:28:32 | 只看该作者
关键内容只勾选一个,不要全部勾选
举报 使用道具
8#
wuyouu 新手上路 发表于 2018-6-18 07:04:58 | 只看该作者
w228258549 发表于 2018-6-15 10:28
关键内容只勾选一个,不要全部勾选

太感谢了 我还有一个问题 能看到那个几个五角星吧 鼠标一直放上面会浮现出一个分数,我想知道如何获取这个数据呢,因为不是直接在页面上能点击到的啊
举报 使用道具
9#
Fuller 管理员 发表于 2018-6-18 09:58:47 | 只看该作者
你现在一共是几级规则?如果我做这个网站的话,我会做3级规则:
第一级:定义点击动作,点击列表中的每个汽车,目标主题是第二个规则。同时在爬虫路线那里做翻页。翻页和动作不冲突,集搜客爬虫会自动地先进行循环点击,再执行翻页
第二级:抓取详情信息,再定义一个动作,要么用一个回退动作,要么一个点击动作,点击页面上的All result,目标主题是第一级

至于悬浮显示的那个内容,不能用悬浮动作,因为那个内容是html原生的。在LI节点的title属性中,直接在DOM树上,用LI下面的title属性节点做内容映射就能抓取。所有属性节点放在+attributes下,要展开才能看到
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 13:11