https://twitter.com/search?q=%22Green%20Book%22%20(%23Oscars)%20lang%3Aen%20until%3A2019-02-27%20since%3A2019-02-24&src=typed_query
在twitter搜索后,会用加粗的字体标记搜索关键字。但是在网页结构里,文本会被加粗部分分割:
示例1:这段文字被加粗的“GREEN BOOK”分割成三段
这是对应的网页结构,后面两个#text的内容是空的
这是示例2,他的内容被分成了6个部分
这是对应的网页结构,有6各个#text,其中一个为空
对于这样的结构(相同的div下 #text的数量并不固定,空白#text的出现没有规律),如何通过案例映射采集全部评论内容?
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2019-9-29 14:27