请问能不能让爬去的内容包含网页标签呢,即爬取的内容包含这些标签呢?谢谢
为信息属性设置block特性,而且选择“所有内容”,然后,将代表网页块的HTML节点映射给它,比如,DIV节点,那么就能将DIV下的所有HTML标签和内容都提取出来。
刚试了一下,标签都出来了,但是还包括了图片信息,能不能不包括图片信息?谢谢
1,可以编写自定义的XSLT规则,针对某个信息属性,可以写一个XSLT片段,将DIV或者其它节点下的某些节点过滤掉 2,在处理抓取结果时过滤掉。
通常,XSLT语言很难用,很难控制,应该优选第二个方案。
那对于结果文件只能以html格式保存吗,如果想存为txt格式,是不是要写程序修改后缀名另存为文本格式?谢谢!
只能是XML格式的,最好不要改成TXT格式的,理论上说,txt格式对字符编码没有明确定义,从网页上抓取到的内容可能是GBK,可能是UTF-8,也可能是其他编码,在抓取结果文件中,统一转换成UTF-8,如果存成txt格式,有些编辑器不能自动识别编码格式, 显示会有问题。
为信息属性设置block特性
为信息属性设置block特性,而且选择“所有内容”,然后,将代表网页块的HTML节点映射给它,比如,DIV节点,那么就能将DIV下的所有HTML标签和内容都提取出来。
照片
刚试了一下,标签都出来了,但是还包括了图片信息,能不能不包括图片信息?谢谢
有两个方案解决这个问题
1,可以编写自定义的XSLT规则,针对某个信息属性,可以写一个XSLT片段,将DIV或者其它节点下的某些节点过滤掉
2,在处理抓取结果时过滤掉。
通常,XSLT语言很难用,很难控制,应该优选第二个方案。
文件结果保存
那对于结果文件只能以html格式保存吗,如果想存为txt格式,是不是要写程序修改后缀名另存为文本格式?谢谢!
结果文件存放格式
只能是XML格式的,最好不要改成TXT格式的,理论上说,txt格式对字符编码没有明确定义,从网页上抓取到的内容可能是GBK,可能是UTF-8,也可能是其他编码,在抓取结果文件中,统一转换成UTF-8,如果存成txt格式,有些编辑器不能自动识别编码格式, 显示会有问题。