请问层级抽取怎么实现呢?按照示例讲解上的设置后,不能提取第二层页面的内容,只能提取第一级的列表。设置的demo为买卖点吧博客3,第二级的为买卖点吧1。谢谢!
可以手工抽取完第一级后再手工执行第二级,也可以采用自动周期性抽取,还可以运行两个线程分别同时抽取
还有一个问题弄不明白,希望您能帮我解答。就是用datascraper提取时,点击提取后,会出现输入欲提取的线索数,请问这个线索数是指什么,是从哪里得到的线索数呢,输入不同的数字抽取的网页数量不同,为什么呢。我抽取的是第二级的买卖点吧1,输入300后,会出现300个网页,而且内容都不相同。是不是因为第一级的URL已经传给了第二级,并且保存在了某个地方,所以在点击提取第二层时会自动按照这个URL进行提取呢?
点击鼠标右键,除了看到“提取”菜单项外,还能看到“线索”菜单,里面有个子菜单“统计”,就能看到线索的数量,start状态的是还没有提取的。
线索对应的网址都存在数据库上。提取第一级时就会生成第二级的线索。
怎样用多个线程周期性自动提取网页内容,可以参看这个文档:http://www.gooseeker.com/cn/node/technology/files/pss
现在可以自动周期性抽取了,呵呵,把第一行的<?xml version="1.0" encoding="UTF-8"?>删除就行了。不过现在想请问一下,周期性自动提取可以同时抽取多个进行层级抽取的主题吗,是不是只要定义多个,就能同时开始周期性自动抽取呢?对于thread的个数有限制吗?
虽然程序对线程数量没有限制,但是,运行多了,效率会下降,要用Windows漕卒哦系统的任务管理器察看系统的性能,看CPU占用率和网络使用情况,如果运行很多线程,很有可能造成网络流量过大,如果使用ADSL上网,超过的部分会被丢包,在察看网络使用率的时候能够看到多出的流量被平齐切掉了,那样会造成大量丢包,从而引起大量重发,导致网络效率下降
太谢谢你了,嘻嘻!那请问有没有办法让线程一个一个执行呢,除了手动开启?或者有没有什么配置是控制线程执行数量的,分批进行周期性提取,即每次执行N个线程,执行完后再执行另外N个等等?还想问一下Windows漕卒是什么啊,上网没百度到,呵呵。
您提出的先执行N个线程,再执行另外N个, 这个需求暂时满足不了, 要么将后N的线程要做的任务都放到前N个中. 在每个线程的thread描述中可以有多个step.
不好意思, 是我输入错误, 我本来想输入"操作系统", 用全拼时可能出错了, 一疏忽还让你百度半天
谢谢了,发个奖状先,哈哈。
您好,我直接把文档拷进crontab中,然后给thread name取名"买卖点吧",把step name="renewClue"的theme取为第一级主题的名字“买卖点吧博客3”,step name="crawl"也分别取为第一级主题名“买卖点吧博客3”以及第二级主题名“买卖点吧1”,将最后两个关于SliceSearch服务器的设置删除,其他设置不变,为什么重新打开datascraper后不会自动开始提取呢?点击“排期”,也提示没有配置周期性任务,但是我已经把crontab.xml放在了.datascraper下了。
还想请问一下如何运行两个线程,嘻嘻,谢了。
如果手工抽取的话怎么弄呢?datascraper一次只能执行一个demo,如果先手工抽取第一级的,那抽取第二级时怎么知道第一级抽取的是什么呢,怎么把第一级抽取出的URL传给第二级抽取呢?采用自动周期性抽取,貌似没看明白说明书,不太会设置,希望各位帮忙,谢了。
两级要分别执行
可以手工抽取完第一级后再手工执行第二级,也可以采用自动周期性抽取,还可以运行两个线程分别同时抽取
请教
还有一个问题弄不明白,希望您能帮我解答。就是用datascraper提取时,点击提取后,会出现输入欲提取的线索数,请问这个线索数是指什么,是从哪里得到的线索数呢,输入不同的数字抽取的网页数量不同,为什么呢。我抽取的是第二级的买卖点吧1,输入300后,会出现300个网页,而且内容都不相同。是不是因为第一级的URL已经传给了第二级,并且保存在了某个地方,所以在点击提取第二层时会自动按照这个URL进行提取呢?
线索数的查看方法
点击鼠标右键,除了看到“提取”菜单项外,还能看到“线索”菜单,里面有个子菜单“统计”,就能看到线索的数量,start状态的是还没有提取的。
线索对应的网址都存在数据库上。提取第一级时就会生成第二级的线索。
怎样用多个线程周期性自动提取网页内容,可以参看这个文档:http://www.gooseeker.com/cn/node/technology/files/pss
主题个数问题
现在可以自动周期性抽取了,呵呵,把第一行的<?xml version="1.0" encoding="UTF-8"?>删除就行了。不过现在想请问一下,周期性自动提取可以同时抽取多个进行层级抽取的主题吗,是不是只要定义多个,就能同时开始周期性自动抽取呢?对于thread的个数有限制吗?
线程数量的限制
虽然程序对线程数量没有限制,但是,运行多了,效率会下降,要用Windows漕卒哦系统的任务管理器察看系统的性能,看CPU占用率和网络使用情况,如果运行很多线程,很有可能造成网络流量过大,如果使用ADSL上网,超过的部分会被丢包,在察看网络使用率的时候能够看到多出的流量被平齐切掉了,那样会造成大量丢包,从而引起大量重发,导致网络效率下降
线程执行
太谢谢你了,嘻嘻!那请问有没有办法让线程一个一个执行呢,除了手动开启?或者有没有什么配置是控制线程执行数量的,分批进行周期性提取,即每次执行N个线程,执行完后再执行另外N个等等?还想问一下Windows漕卒是什么啊,上网没百度到,呵呵。
线程的调度
您提出的先执行N个线程,再执行另外N个, 这个需求暂时满足不了, 要么将后N的线程要做的任务都放到前N个中. 在每个线程的thread描述中可以有多个step.
不好意思, 是我输入错误, 我本来想输入"操作系统", 用全拼时可能出错了, 一疏忽还让你百度半天
谢谢
谢谢了,发个奖状先,哈哈。
周期性自动提取
您好,我直接把文档拷进crontab中,然后给thread name取名"买卖点吧",把step name="renewClue"的theme取为第一级主题的名字“买卖点吧博客3”,step name="crawl"也分别取为第一级主题名“买卖点吧博客3”以及第二级主题名“买卖点吧1”,将最后两个关于SliceSearch服务器的设置删除,其他设置不变,为什么重新打开datascraper后不会自动开始提取呢?点击“排期”,也提示没有配置周期性任务,但是我已经把crontab.xml放在了.datascraper下了。
两个线程如何运行
还想请问一下如何运行两个线程,嘻嘻,谢了。
如何抽取?
如果手工抽取的话怎么弄呢?datascraper一次只能执行一个demo,如果先手工抽取第一级的,那抽取第二级时怎么知道第一级抽取的是什么呢,怎么把第一级抽取出的URL传给第二级抽取呢?采用自动周期性抽取,貌似没看明白说明书,不太会设置,希望各位帮忙,谢了。