我在抓取下面网页的时候:
https://articulo.mercadolibre.co ... b-9a41-5ff27c7fc8b9

发现有些重要信息没有展现在台面,只在源代码的script里,有办法直接抓取到标红色的字符段么?



window.__PRELOADED_STATE__ = {"translations":{},"initialState":{"id":"MLM1321634730","layout":"vip-core","vertical":"core","components_locations":{"variations":"short_description"},"components":{"head":[{"id":"related_searches","type":"related_searches","state":"VISIBLE","title":{"text":"También puede interesarte"},"related_searches":[{"target":"https:\u002F\u002Flistado.mercadolibre.com.mx\u002Fcepillo-revlon#topkeyword","label":{"text":"cepillo revlon"}},{"target":"https:\u002F\u002Flistado.mercadolibre.com.mx\u002Fcepillo-secador#topkeyword","label":{"text":"cepillo secador"}},{"target":"https:\u002F\u002Flistado.mercadolibre.com.mx\u002Fcepillo-alaciador#topkeyword","label":{"text":"cepillo alaciador"}}]},{"id":"carousel_cheaper","type":"carousel","state":"VISIBLE","carousel":{},"carousel_config":{"site_id":"MLM","item_id":"MLM1321634730","category_id":"MLM171922",……………………"is_long_term_rental":false,"is1_pmotors":false,"international_delivery_mode":"ddp","brand_id":"Hair Straightener Brush","is_supermarket_eligible":false,"is_supermarket_partnership":false,"contain_discount_volume":false,"start_time":"2021-10-07T07:48:55Z","historical_start_time":"2021-10-07T07:48:55Z","stop_time":"2041-10-02T04:00:00Z","has_item_relations":false,"listing_source":"","date_created":"2021-10-07T07:48:55Z","is_ahora12":false,"seller_from":"China","is_excluded_platform":false,"is_bulky":false},JtutdQV9TFo14","flashMessage":null,"gtm":{"containerId":"GTM-9CC4"},"isIE":false,"shopModel":{}};
        }},

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2021-12-16 18:43

沙发
Fuller 管理员 发表于 2021-12-10 15:56:57 | 只看该作者
如果这一段内容中有好几个信息需要采集,那么可以把这一段作为一个抓取内容采集下来。这一段是一个json对象,可以用json转换工具转换成excel。json转换工具是这个:https://www.gooseeker.com/res/softdetail_12.html
举报 使用道具
板凳
wayslien 中级会员 发表于 2021-12-13 20:44:00 | 只看该作者
Fuller 发表于 2021-12-10 15:56
如果这一段内容中有好几个信息需要采集,那么可以把这一段作为一个抓取内容采集下来。这一段是一个json对象 ...

奇怪,我用数据管家打开这个网页编辑规则的时候,找不到这段JS,只能在普通模式下选择查看源代码才能找到。。。。这该怎么办
举报 使用道具
地板
Fuller 管理员 发表于 2021-12-14 09:09:32 | 只看该作者


在定义规则状态,用这个xpath搜://script[contains(text(), 'PRELOADED_STATE')]

找到这个script以后,用这个script做内容映射
举报 使用道具
5#
wayslien 中级会员 发表于 2021-12-16 17:13:44 | 只看该作者
本帖最后由 wayslien 于 2021-12-16 17:57 编辑
Fuller 发表于 2021-12-14 09:09
在定义规则状态,用这个xpath搜://script[contains(text(), 'PRELOADED_STATE')]

找到这个script以后, ...

呼,已经可以抓到这个script,但是怎么用那个jason转化器。。。
这是我的设置:


这是我抓取的内容:


丢到转换工具之后得到的结果:


好像也没变化。。。
举报 使用道具
6#
Fuller 管理员 发表于 2021-12-16 18:25:01 | 只看该作者
wayslien 发表于 2021-12-16 17:13
呼,已经可以抓到这个script,但是怎么用那个jason转化器。。。
这是我的设置:

你定义的规则名是什么?我加载上来测试一下,可能要写更加精准的xpath,只要含有数据的那一部分
举报 使用道具
7#
wayslien 中级会员 发表于 2021-12-16 18:43:30 | 只看该作者
Fuller 发表于 2021-12-16 18:25
你定义的规则名是什么?我加载上来测试一下,可能要写更加精准的xpath,只要含有数据的那一部分
...

叫做 CL_Detail
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 13:20