东方财富股吧如何实现翻页

Sat, 03/09/2013 - 21:34 — lalala

http://guba.eastmoney.com/topic,000002_1.html
请教两个问题哈：
1，东方财富股吧的翻页区只有“下10页”这样的标签，如果以“下10页”作为翻页记号，则无法抓到第2、3……10页的数据。但是url是有顺序的，第一页是http://guba.eastmoney.com/topic,000002_1.html，第二页是http://guba.eastmoney.com/topic,000002_2.html，能否通过这个来翻页？如何设置？
2，我想要的数据是发帖的日期，但是股吧帖子列表上的日期只有月日，没有年份，如果想要抓到具体的数据，能不能通过二级打开每个帖子，然后抓到楼主的发帖时间？
很着急呢，谢谢Fuller指导！

Web信息提取

Sun, 03/10/2013 - 15:46 — Fuller

东方财富股吧翻页抓取技巧

可以用“下10页”进行翻页，每翻一次页，出了抓取网页上的内容外，还将页码2，3，4，...对应的网址抓下来，比如，定义成Info类线索，就像在层级抓取那样，将他们作为下一层。

另外一种做法就像楼主设想的，根据规律，直接构造出网址，如果是企业版就比较好做了，直接调用API存入到线索库中就行了，如果是在线版，可以将这些网址先放到一个网页上，比如，用一个ul列表存放，然后用DataScraper从这个手工制作的网页上将这些网址抓下来当线索

关于日期，可以在二级页面上抓取完整日期，也可以将一级页面上的不完整日期补充完整，但是补充过程不是MetaSeeker做的，比如，将抓取结果存入数据库的时候，用一个过滤程序补充完整。

Sun, 03/10/2013 - 23:59 — lalala

日期问题

翻页问题已经用相对线索解决了。
我在想如果在二级界面抓完整日期，耗时时间可能会多很多。我想问下Fuller存储数据的问题：在能正常翻页的基础上，是一页就会形成一个xml文档，那就会形成很多文档。我的问题是：1，有没有办法总的只形成一个文档？2，能够形成xls格式？3，如何用过滤程序补充时间呀（最后这个是不是编程问题。。）？谢谢！

Mon, 03/11/2013 - 09:08 — Fuller

DataScraper只有网页抓取功能

DataScraper只有网页抓取功能，实际上就是将网页上的内容转换成XML格式，一个网页对应一个文件。合并成一个XML、转换成xls格式、内容过滤、格式转换等等都需要后期处理程序做。

Mon, 03/11/2013 - 18:28 — lalala

如何设置中断

比如我只要第4页-53页，如何在53页停止，而不要53页之后的数据，麻烦指导~~谢谢！

Mon, 03/11/2013 - 20:58 — Fuller

设置depth参数

在crontab.xml中，可以设置depth=53，就可以中断

Mon, 03/11/2013 - 23:18 — lalala

没有crontab.xml

电脑里没有找到crontab.xml文件。datascraper.log里显示：No crontab.xml，crontab.xml is empty. 这个文件可以另外去哪里下载吗？
另外再确认一下，depth=53是指翻页翻了53次后中断，还是在网站对应的第53页中断（因为我并不一定从第一页开始抓数据，可能从30页开始）？

Tue, 03/12/2013 - 09:09 — Fuller

crontab.xml要手工创建

参看《crontab.xml文件结构》，这个文件需要手工创建，存放在.datascraper目录下，创建好以后一定要Firefox打开检查一下是否正确

Wed, 03/13/2013 - 00:05 — lalala

谢谢

Mon, 03/11/2013 - 18:27 — lalala

谢谢Fuller

Sat, 03/09/2013 - 23:19 — youranq

用relative clue

试着回答第一个问题，用左 relative clue 试验成功。参看主题：youranq_demo_guba
至于第二个问题，如果屏幕上没有显示年份，恐怕真要翻到每个页面查看了。

不当之处，请fuller大多多指正！

Sun, 03/10/2013 - 09:04 — lalala

GooSeeker