不去除网页标签的网页提取

请问能不能让爬去的内容包含网页标签呢,即爬取的内容包含这些标签呢?谢谢

为信息属性设置block特性

为信息属性设置block特性,而且选择“所有内容”,然后,将代表网页块的HTML节点映射给它,比如,DIV节点,那么就能将DIV下的所有HTML标签和内容都提取出来。

照片

刚试了一下,标签都出来了,但是还包括了图片信息,能不能不包括图片信息?谢谢

有两个方案解决这个问题

1,可以编写自定义的XSLT规则,针对某个信息属性,可以写一个XSLT片段,将DIV或者其它节点下的某些节点过滤掉
2,在处理抓取结果时过滤掉。

通常,XSLT语言很难用,很难控制,应该优选第二个方案。

文件结果保存

那对于结果文件只能以html格式保存吗,如果想存为txt格式,是不是要写程序修改后缀名另存为文本格式?谢谢!

结果文件存放格式

只能是XML格式的,最好不要改成TXT格式的,理论上说,txt格式对字符编码没有明确定义,从网页上抓取到的内容可能是GBK,可能是UTF-8,也可能是其他编码,在抓取结果文件中,统一转换成UTF-8,如果存成txt格式,有些编辑器不能自动识别编码格式, 显示会有问题。