针对新闻搜索结果,需要标题、网摘,媒体、时间、相同新闻链接数
我刚上载了一个:search_baidu_news_list
如果搜索*baidu*还能看到更多,不过有些早期做的抓取规则可能已经不适应最新的百度搜索结果页面了
万分感谢,待俺学习一下
不好意思,标题如何取得完整,我看到是分成了三个部分关键词前+关键词+关键词后,网摘也一样;还有那个类别怎么加上去的,什么用处?
在Bucket Editor工作台上,可以为每个信息属性分别设置block特性,这个特性有些很复杂的功能,比如,自定义XPath规则等。为解决这个问题,只需要设置一个“特性过滤器”,抓取所有文本。参看抓取网页片断
看了您介绍的那篇文章,还是不会操作,如何把内容合并到block里呢,能否给个教程或可以加载的实例
主题名:search_baidu_news_list
信息属性content就设置了block特性
block属性是自动设定还是手工设定? freeformat、类型是如何设置的? +class是指什么?
要手工选择block复选框,并且选择哪种过滤器。
FreeFormat列是自动填写的,当进行FreeFormat映射的时候,自动将freeformat值填写在这一列。
目前,支持两种freeform,一种是class属性值,一种是id属性值,如果是+class-id,表示选用了class,如果是-class+id,表示选用了id作为freeformat
class,id是如何设置的?
如果class和id只有一个,不能选择。如果class和id都有,可以选择,双击那个信息属性,在弹出的对话框中可以看到class的值和id的值,两个之前都有一个复选框,可以选择其中一个
抓取百度搜索结果的案例很多
我刚上载了一个:search_baidu_news_list
如果搜索*baidu*还能看到更多,不过有些早期做的抓取规则可能已经不适应最新的百度搜索结果页面了
万分感谢,待俺学习
万分感谢,待俺学习一下
不好意思,标题如何
不好意思,标题如何取得完整,我看到是分成了三个部分关键词前+关键词+关键词后,网摘也一样;还有那个类别怎么加上去的,什么用处?
设置block特性
在Bucket Editor工作台上,可以为每个信息属性分别设置block特性,这个特性有些很复杂的功能,比如,自定义XPath规则等。为解决这个问题,只需要设置一个“特性过滤器”,抓取所有文本。参看抓取网页片断
看了您介绍的那篇文
看了您介绍的那篇文章,还是不会操作,如何把内容合并到block里呢,能否给个教程或可以加载的实例
看这个实例
主题名:search_baidu_news_list
信息属性content就设置了block特性
block属性是自动设定还
block属性是自动设定还是手工设定?
freeformat、类型是如何设置的?
+class是指什么?
手工设置block特性
要手工选择block复选框,并且选择哪种过滤器。
FreeFormat列是自动填写的,当进行FreeFormat映射的时候,自动将freeformat值填写在这一列。
目前,支持两种freeform,一种是class属性值,一种是id属性值,如果是+class-id,表示选用了class,如果是-class+id,表示选用了id作为freeformat
class,id是如何设置的?
class,id是如何设置的?
可以选择class和id
如果class和id只有一个,不能选择。如果class和id都有,可以选择,双击那个信息属性,在弹出的对话框中可以看到class的值和id的值,两个之前都有一个复选框,可以选择其中一个