http://guba.eastmoney.com/topic,000002_1.html
请教两个问题哈:
1,东方财富股吧的翻页区只有“下10页”这样的标签,如果以“下10页”作为翻页记号,则无法抓到第2、3……10页的数据。但是url是有顺序的,第一页是http://guba.eastmoney.com/topic,000002_1.html,第二页是http://guba.eastmoney.com/topic,000002_2.html,能否通过这个来翻页?如何设置?
2,我想要的数据是发帖的日期,但是股吧帖子列表上的日期只有月日,没有年份,如果想要抓到具体的数据,能不能通过二级打开每个帖子,然后抓到楼主的发帖时间?
很着急呢,谢谢Fuller指导!
东方财富股吧翻页抓取技巧
可以用“下10页”进行翻页,每翻一次页,出了抓取网页上的内容外,还将页码2,3,4,...对应的网址抓下来,比如,定义成Info类线索,就像在层级抓取那样,将他们作为下一层。
另外一种做法就像楼主设想的,根据规律,直接构造出网址,如果是企业版就比较好做了,直接调用API存入到线索库中就行了,如果是在线版,可以将这些网址先放到一个网页上,比如,用一个ul列表存放,然后用DataScraper从这个手工制作的网页上将这些网址抓下来当线索
关于日期,可以在二级页面上抓取完整日期,也可以将一级页面上的不完整日期补充完整,但是补充过程不是MetaSeeker做的,比如,将抓取结果存入数据库的时候,用一个过滤程序补充完整。
日期问题
翻页问题已经用相对线索解决了。
我在想如果在二级界面抓完整日期,耗时时间可能会多很多。我想问下Fuller存储数据的问题:在能正常翻页的基础上,是一页就会形成一个xml文档,那就会形成很多文档。我的问题是:1,有没有办法总的只形成一个文档?2,能够形成xls格式?3,如何用过滤程序补充时间呀(最后这个是不是编程问题。。)?谢谢!
DataScraper只有网页抓取功能
DataScraper只有网页抓取功能,实际上就是将网页上的内容转换成XML格式,一个网页对应一个文件。合并成一个XML、转换成xls格式、内容过滤、格式转换等等都需要后期处理程序做。
如何设置中断
比如我只要第4页-53页,如何在53页停止,而不要53页之后的数据,麻烦指导~~谢谢!
设置depth参数
在crontab.xml中,可以设置depth=53,就可以中断
没有crontab.xml
电脑里没有找到crontab.xml文件。datascraper.log里显示:No crontab.xml,crontab.xml is empty. 这个文件可以另外去哪里下载吗?
另外再确认一下,depth=53是指翻页翻了53次后中断,还是在网站对应的第53页中断(因为我并不一定从第一页开始抓数据,可能从30页开始)?
crontab.xml要手工创建
参看《crontab.xml文件结构》,这个文件需要手工创建,存放在.datascraper目录下,创建好以后一定要Firefox打开检查一下是否正确
谢谢
谢谢
谢谢Fuller
谢谢Fuller
用relative clue
试着回答第一个问题,用左 relative clue 试验成功。参看主题:youranq_demo_guba
至于第二个问题,如果屏幕上没有显示年份,恐怕真要翻到每个页面查看了。
不当之处,请fuller大多多指正!
相对线索
抱歉,请问如何参看其他人的主题呀? “左”relative clue 就是相对线索吗?可是很奇怪我曾经试过拿第1页作为当前节点,第2页作为下一个节点,可是却显示:The clue type cannot match. 这是为什么呢?
先加载,再另存为一
先加载,再另存为一个主题名。
用左=用了
节点都是选择文本作为标号。
用关键字查找一下教程,还是不行的话贴出主题名让大家参详一下。
翻页成功
我刚刚发现如何参看其他主题了,然后参考了你的做法,已经可以顺利翻页!对比我俩的结构,我的主要是没有那个freeformat映射,不知道是不是这个原因造成我的没办法设置相对线索(呵呵我是新手,不知道是不是这个原因)。谢谢指导! 另外,比如我只要第4页-53页,是不是只从第4页开始设置当前节点就可以?我的主要疑问是如何在53页停止,而不要53页之后的数据,麻烦指导~~
关于翻页深度
关于翻页深度,好像要配置文件里面设置,具体我也没做过。
如果不怕麻烦的话,看到文件数量超过53就行啦。
可以将首页设置为第4页,也可以先抓下来再删掉前面3页吧?
这个软件使用急不来,要慢慢体会fuller大的用心良苦阿
为何又不能翻页了?
主题:hao_000001
之前按照相对线索的方法,已经可以翻页了。这次不知为何又不行了(只两页就没再往下翻了)。烦请帮忙查看一下!
提高抓取规则的适应性
为了提高抓取规则的适应性,需要尝试改变一下定位偏好。翻页线索的偏好值在MetaStudio的菜单上设置,选择“配置”-〉“首选项”,选择“线索定位”那个tab,可以选择“偏好class”,然后,在Clue Editor工作台上,点击按钮“viewSCE”,看看生成的抓取规则,可以看到定位翻页线索的XPath变得更短,通常,越短适应性越高
谢谢
谢谢
感谢
呵呵,因为最近正赶着用,然后前几天才知道这个软件,所以有不明白的就赶紧到论坛上来询问大家~后续有时间我会继续研究的!感谢。