集搜客GooSeeker网络爬虫
标题:
当前查看的主题为:珠海预售_2
[打印本页]
作者:
zhuohui1987
时间:
2016-12-4 11:58
标题:
当前查看的主题为:珠海预售_2
当前查看的主题为:珠海预售_2
没有线索了,可添加新线索或者激活已有的线索
xpath 不会写
诊断:网页上没有定位标志,表格有长有短
xpath
也不会对啊
table[@id='DataGrid1']/tbody/tr[2]也是不对啊呀
http://www.gooseeker.com/doc/article-264-1.html
http://www.gooseeker.com/doc/article-264-1.html
麻烦你叫我写一下,看一下
作者:
zhuohui1987
时间:
2016-12-4 11:59
教程我都看过来啊
作者:
Fuller
时间:
2016-12-4 15:37
最大的问题是没有设置关键内容,那么这个规则的线索就有可能什么都抓不到
作者:
Fuller
时间:
2016-12-4 15:58
这个TD应该是要抓取下级线索的,自动生成的规则是
<TD>
<xsl:for-each select="following-sibling::tr[position()=12]/td/table/tbody/tr[position()>=2]">
<xsl:call-template name="TD"/>
</xsl:for-each>
</TD>
复制代码
网页上万一不是position()=12,比如,上面那个表格变长了,就抓不到了,而且又没有设置关键内容,没有抓到也不会报错。
[attach]3312[/attach]
应该用这个表头的文字作为标志。为了方便自定义标志,把这个子表用另一个整理箱来存储
作者:
Fuller
时间:
2016-12-4 16:12
因为你的这个样本页面下面那个项目名称表没有多条,我没法给你演示多样例采集,难道都是只有一条?
作者:
Fuller
时间:
2016-12-4 16:19
如果只有一条数据的话,也新建一个整理箱
[attach]3313[/attach]
生成规则你会发现,自动使用了一个定位标志,这个定位标志刚好是关于内部子表的,这样也省去写自定义xpath了。你可以看一下,跟你手工写的那个xpath几乎是一样的,其实你写的xpath基本上对了
欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/)
Powered by Discuz! X3.2