您好:
经过几天的学习,现在我基本上掌握了定义提取数据规则,在此非常感学您给予我们的技术帮助。现在我主要想对网站上的数据进行自动周期性(定时)提取数据,但经过多次尝试,始终无法提取到数据,在DataScraper—Web信息提取工具的日志窗口中始终弹出“Timeout to load the page”,我始终不明白是什么原因。现在主要解决问题是:在无人看守情况下,想通过软件每5min提取一次网站数据(网站每5min更新一次数据)
下方是我通过网站给予的周期性提取数据文件,进行的修改,提取主题是:hou_4:
<?xml version="1.0" encoding="UTF-8"?>
true
10
60
false
2
10
hou_4
hou_4
30
3
true
100
-1
-1
false
0
2
0
false
false
false
hou_4
false
100
-1
-1
false
0
true
3
急盼您能给予帮助,谢谢!
您能否通过某一个例子给予讲解一下周期性提取数据的具体步骤和各种设置吗?谢谢!
谢谢.
超时等待时间设置得太短
首先,为没有及时回答您的问题道歉,今天是星期天,技术支持人员检查论坛的频率有点低,如果您需要即时获得答案,可以直接拨打我们的技术支持电话;其次,为说明书有误道歉,在周期性提取指令文件的说明书中,loadTimeout参数的单位写错了,这个参数的单位应该是毫秒,很遗憾说明书误写成秒,说明书的错误已经纠正。
除了应该将您的crontab.xml中的loadTimeout由30改成30000以外,还有一点值得讨论:您接连定义了两个主题名相同的step,如果该主题的线索数不多,第一个step就将所有的线索提取完了,第二个step就没有存在价值了。如果loadTimeout设置成30,在处理第一个step时,所有的线索都超时了,到第二个step,就没有可用的线索了。如果您想分别测试这两个step哪个更合适,那么应该在第一个和第二个之间再增加一个renewClue step。
感谢回答
您好:
感谢您抽出时间详细的帮我解答问题,谢谢您!我现在基本上可以使用周期性提取数据!担现在面临着数据存储的问题,不知道为什么,我周期性提取的数据都存储在C盘中,我想变更存储位置,换到其他盘去,不知道可以吗?需要进行什么设置?
谢谢您!