观看视频教程
在对网页进行抓取时,由于文本内容存放在多个text节点,所以有时会遇到只抓取到目标抓取内容的一部分,例如图1这种情况。
图1 如图1在浏览器窗口展现的完整信息,在网页结构窗口中实际是分多个text文本节点显示的,为了将完整信息抓取下来,需要在进行高级设置后,将包含多个text文本节点的区块节点抓取下来。 一、进行高级设置
图2 高级设置 如图2,具体操作步骤如下 由图1得知在浏览器窗口展现的完整信息,在网页结构窗口中实际是包含在一个区块节点下的多个text文本节点。那么我们就需要将区块节点内的文本内容都抓取下来。 MS谋数台不能直接将区块节点进行内容映射,需要进行设置后才能进行内容映射。 1.勾选高级设置。2.选择文本内容,我们只需要区块节点中的文本内容所以在这里勾选文本内容。 二、映射区块节点
图3 内容映射 如图3,具体操作步骤如下 1.在浏览器窗口点击想要抓取的网页内容,在网页结构窗口中找到包含完整信息的区块节点,进行内容映射。图4 抓取内容 如图4,具体操作步骤如下 点击测试按钮可以看到我们抓取到的内容,现在我们抓取到的不是商品名称的一部分,而是商品名称的全部存规则后即可启动DS打数机爬取数据 以上就是集搜客如何抓取网页片段完整信息的具体操作步骤。 |