采集表单中的input动态内容

2017-11-5 13:07| 发布者: Fuller| 查看: 11907| 评论: 0

摘要: 表单中的INPUT,也是一个普通的html节点,但是要想采集INPUT中的动态填入的内容可不容易,如果采用xpath,例如 //input/@value,这只能采集到静态内容,也就是制作html的时候,静态放在value属性中的内容。有些网站 ...

表单中的INPUT,也是一个普通的html节点,但是要想采集INPUT中的动态填入的内容可不容易,如果采用xpath,例如 //input/@value,这只能采集到静态内容,也就是制作html的时候,静态放在value属性中的内容。

有些网站在展示一个列表的时候,整个是用一个form表单的方式,每一单元格都是一个文本类型的INPUT,那么必须具有采集动态内容的能力。

另一个案例,就是单选框和多选框也是一种INPUT,动态做了选择以后,具体是什么值,这也是动态的内容。

集搜客网络爬虫的旗舰版增加了一个功能:采集INPUT动态内容。虽然是旗舰版功能,但是操作方法特别简单,几乎觉察不到这个功能的特殊之处。

如下图,每个INPUT节点都增加了一个属性gooseeker_input,这里就是存放动态内容的地方,所以只需用这个属性做内容映射,跟抓取其它内容完全一样。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-3-29 01:58