不去除网页标签的网页提取

Thu, 12/01/2011 - 14:57 — ylbaobao

请问能不能让爬去的内容包含网页标签呢，即爬取的内容包含这些标签呢？谢谢

Thu, 12/01/2011 - 22:28 — Fuller

为信息属性设置block特性，而且选择“所有内容”，然后，将代表网页块的HTML节点映射给它，比如，DIV节点，那么就能将DIV下的所有HTML标签和内容都提取出来。

Fri, 12/02/2011 - 09:30 — ylbaobao

刚试了一下，标签都出来了，但是还包括了图片信息，能不能不包括图片信息？谢谢

Fri, 12/02/2011 - 14:19 — Fuller

1，可以编写自定义的XSLT规则，针对某个信息属性，可以写一个XSLT片段，将DIV或者其它节点下的某些节点过滤掉
2，在处理抓取结果时过滤掉。

通常，XSLT语言很难用，很难控制，应该优选第二个方案。

Fri, 12/02/2011 - 16:09 — ylbaobao

那对于结果文件只能以html格式保存吗，如果想存为txt格式，是不是要写程序修改后缀名另存为文本格式？谢谢！

Fri, 12/02/2011 - 21:28 — Fuller

只能是XML格式的，最好不要改成TXT格式的，理论上说，txt格式对字符编码没有明确定义，从网页上抓取到的内容可能是GBK，可能是UTF-8，也可能是其他编码，在抓取结果文件中，统一转换成UTF-8，如果存成txt格式，有些编辑器不能自动识别编码格式，显示会有问题。

GooSeeker