如何通过案例映射抓取结构不一致的内容

carloszone

https://twitter.com/search?q=%22Green%20Book%22%20(%23Oscars)%20lang%3Aen%20until%3A2019-02-27%20since%3A2019-02-24&src=typed_query

在twitter搜索后，会用加粗的字体标记搜索关键字。但是在网页结构里，文本会被加粗部分分割：
示例1：这段文字被加粗的“GREEN BOOK”分割成三段

这是对应的网页结构，后面两个#text的内容是空的

这是示例2，他的内容被分成了6个部分

这是对应的网页结构，有6各个#text，其中一个为空

对于这样的结构（相同的div下 #text的数量并不固定，空白#text的出现没有规律），如何通过案例映射采集全部评论内容？

Fuller · 发表于 2019-9-29 12:23:19

div下的多个text就不要用样例复制挨个采集了，而是把div作为一个整体，做内容映射给一个抓取内容，把整个文字内容采集下来

carloszone · 发表于 2019-9-29 13:40:00

Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了，而是把div作为一个整体，做内容映射给一个抓取内容，把整个文 ...

不太明白。

一个div是一个账号转发或者发布的评论，我要采集多个账号的内容，所以应该还需要样例复制吧。

把div做整体的话，如果采集div结构相同的内容呢

carloszone · 发表于 2019-9-29 14:27:03

Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了，而是把div作为一个整体，做内容映射给一个抓取内容，把整个文 ...

搞定了谢谢

如何通过案例映射抓取结构不一致的内容

本帖子中包含更多资源

共 3 个关于本帖的回复最后回复于 2019-9-29 14:27

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

如何通过案例映射抓取结构不一致的内容

本帖子中包含更多资源

共 3 个关于本帖的回复 最后回复于 2019-9-29 14:27

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2019-9-29 14:27