集搜客GooSeeker网络爬虫

标题: 当前查看的主题为:珠海预售_2 [打印本页]

作者: zhuohui1987    时间: 2016-12-4 11:58
标题: 当前查看的主题为:珠海预售_2
当前查看的主题为:珠海预售_2

没有线索了,可添加新线索或者激活已有的线索
xpath  不会写


诊断:网页上没有定位标志,表格有长有短 xpath 也不会对啊
table[@id='DataGrid1']/tbody/tr[2]也是不对啊呀   


http://www.gooseeker.com/doc/article-264-1.html
http://www.gooseeker.com/doc/article-264-1.html

麻烦你叫我写一下,看一下


作者: zhuohui1987    时间: 2016-12-4 11:59
教程我都看过来啊
作者: Fuller    时间: 2016-12-4 15:37
最大的问题是没有设置关键内容,那么这个规则的线索就有可能什么都抓不到
作者: Fuller    时间: 2016-12-4 15:58
这个TD应该是要抓取下级线索的,自动生成的规则是
  1. <TD>
  2. <xsl:for-each select="following-sibling::tr[position()=12]/td/table/tbody/tr[position()>=2]">
  3. <xsl:call-template name="TD"/>
  4. </xsl:for-each>
  5. </TD>
复制代码
网页上万一不是position()=12,比如,上面那个表格变长了,就抓不到了,而且又没有设置关键内容,没有抓到也不会报错。
[attach]3312[/attach]

应该用这个表头的文字作为标志。为了方便自定义标志,把这个子表用另一个整理箱来存储






作者: Fuller    时间: 2016-12-4 16:12
因为你的这个样本页面下面那个项目名称表没有多条,我没法给你演示多样例采集,难道都是只有一条?
作者: Fuller    时间: 2016-12-4 16:19
如果只有一条数据的话,也新建一个整理箱
[attach]3313[/attach]
生成规则你会发现,自动使用了一个定位标志,这个定位标志刚好是关于内部子表的,这样也省去写自定义xpath了。你可以看一下,跟你手工写的那个xpath几乎是一样的,其实你写的xpath基本上对了





欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2