http://club.baby.sina.com.cn/forum-117-1.html
这是我要爬取的网页,我是通过纵向爬取先爬取发帖链接,然后在爬取发帖内容,发帖内容是多个文本形式呈现的,就对父节点做FreeFormat映射,勾选文本内容。但是只能爬取第一个帖子的发帖内容,剩下的帖子的发帖内容是空白的,该网站的发帖内容一个是用形式分行的,一个是用形式,是不是两个分段形式不一样导致的发帖内容爬不下来。
附上对同一个父节点做FreeFormat映射的不同MAP文件
盼着婆婆老的时候
com.gooseeker.spider.processor.MigrateWorksBucket
com.gooseeker.spider.processor.FetchSpiderClue
com.gooseeker.spider.processor.LoadHtmlPage_Lazy
com.gooseeker.spider.processor.FindDataSchema_Plain
com.gooseeker.spider.processor.ExtractWebNodeData_Simp
com.gooseeker.spider.processor.ValidateExtraction
com.gooseeker.spider.processor.SaveFile_Simp
com.gooseeker.spider.processor.ConfirmSpiderClue_Simp
com.gooseeker.spider.processor.CleanWorksBucket
这个是分段的
<?xml version="1.0" encoding="UTF-8"?>
<发帖内容>
<内容>
这个是分段的
求各位高手帮忙解决,怎样才能用纵向爬取把所有发帖内容爬下来,为什么我发的内容不能完全显示?
我用的是纵向爬取,
我用的是纵向爬取,主题名分别是是“婆媳关系-发帖”和“婆媳关系-发帖内容”,因为之前爬取不成功的都删除了,重新做一遍结果还是如此。
主题名是什么?
请将主题名帖出来,我们可以具体看一下信息结构定义是否正确