这个第一级网页最大特点是在iframe中。虽然GooSeeker爬虫可以处理普通网页一样处理iframe,但是自动输入查询条件的功能目前不支持iframe。下个版本正在开发。
我们可以用另外的方法:找到iframe里面的真正网址。
第一步:分析iframe
用火狐加载这个网址,然后按F12,就会看到浏览器控制台。
A区域是iframe中的内容,可以看到B框的标签是iframe,看C框,那是真正的网址,在这里双击,就能把这个网址拷贝下来。这个网址是个相对网址,要自己拼出来。
2,iframe内的是:gongcj.aspx
把拼成的网址拷贝到火狐浏览器,就能看到内容一样,只是把左栏省掉了。
下面就要给这个网页做抓取规则
第二步:做内页的抓取规则
|
共 6 个关于本帖的回复 最后回复于 2015-12-15 16:24