主题名称:xueqiu_stock_p 期望结果:抓取股票页http://xueqiu.com/S/SH601318中”讨论“标签页的内容,但实际抓取的是“全部”标签页的内容
请Fuller指点。
像这个文章一样,做一次模拟点击
在MetaStudio编辑主题的时候,是做了模拟点击;且MAP和TestThis的结果都OK,即抓取的是“讨论”标签页的内容
但是在DataScraper中加载此主题,采集的就是“全部”标签页的内容。
是否还要做其它处理?
我看了这个信息结构,没有看到任何模拟点击规则。需要定义两个信息结构,一个是点击前的,一个是点击后的,这个主题是点击前的还是点击后的?
如果是点击前的,我没有看到模拟点击动作对应的线内线索
如果是点击后的,一定要设置AJAX抓取选项
修改了一下,简历了两个信息结构,看是否OK.
在Clue Editor工作台上,通常的翻页抓取的目标主题名应该与当前主题名相同,否则,翻到下一页的时候就会使用另一个信息结构进行抓取了
做模拟点击
像这个文章一样,做一次模拟点击
在MetaStudio编辑主题的
在MetaStudio编辑主题的时候,是做了模拟点击;且MAP和TestThis的结果都OK,即抓取的是“讨论”标签页的内容
但是在DataScraper中加载此主题,采集的就是“全部”标签页的内容。
是否还要做其它处理?
没有看到模拟点击规则
我看了这个信息结构,没有看到任何模拟点击规则。需要定义两个信息结构,一个是点击前的,一个是点击后的,这个主题是点击前的还是点击后的?
如果是点击前的,我没有看到模拟点击动作对应的线内线索
如果是点击后的,一定要设置AJAX抓取选项
修改了一下,简历了
修改了一下,简历了两个信息结构,看是否OK.
目标主题名要填写正确
在Clue Editor工作台上,通常的翻页抓取的目标主题名应该与当前主题名相同,否则,翻到下一页的时候就会使用另一个信息结构进行抓取了