意思就是网页上有些内容是通过一个js方法运行之后才能显示出来,这中内容可以进行抓取么请问,可以的话要怎么操作呢
MetaSeeker内嵌的浏览器能够自动解释JS,所以跟抓取普通网页一样抓JS内容。目前,在线版的模拟点击功能比较弱,比如,有些内容只有鼠标悬浮在上面才能显示;又如,淘宝一双鞋有各种尺码,价格不一样,要点击才能抓取价格。这些复杂的模拟点击行为只有企业版才能支持,而且根据客户需要进行定制。
对于一些无法给出具体线索的网站,是不是就无能为力了呢,比如下拉列表作为线索,或者一些A标签,点击后出现新内容的这种网站,企业版的话可以完成这些功能么
在线版能够模拟的JS动作有:1)翻页抓取;2)网页上一个节点,点击后网页内容会变化。
综上所述,在线版在当前网页上只能在确定位置点击一次,如果网页上有很多JS实现的A标签,或者下拉列表,或者淘宝网上的选择商品配置和型号,这样需要连续点击很多次的,在线版暂不支持。企业版根据具体网站定制后支持。
比如网页上有多个div,并且每个div的样式都是相同的,里面都有一个相同样式的表格,可以一次抓取全部div中的信息么,这是不是也是一种防抓取的方法呢
天下矛与盾的较量永不停息,防抓取至多是暂时的,很多用JS的目的是为了用户体验或者为了配合网络部署,比如网上商城,我认为他们用JS管理内容主要为了显示动态内容,我估计这些内容不便于用CDN进行传送
目前在线版,模拟点击只能在当前网页上做一次,如果有多个DIV,可以把它们当成翻页链接一样,挨个点,挨个抓取,应该能够达到目的。而比较复杂的模拟点击,他们没有共性,我们通常在企业版中定制
我尝试过多个div的网页,里面的多个div是来实现翻页的,第几页的时候就显示第几个div,其余隐藏,进行翻页的时候抓取的全都是第一个div中的内容,所以我总感觉相同的抓取规则不能把内容全部抓取下来,呵呵 问题有点多,请见谅,关键是自己找不到解决的方法了,只能求助
可以将网址帖出来看看
你好fuller,这是网站http://www.g4pitem.com/items.aspx?gid=1&class=1,请帮助解决
哪些DIV是需要连续点击的?
这个网站显示物品信息的位置是10个table显示十页信息没翻页显示不同的table。这个网页我问的是能不能用一个规则文件抓取全部10个table中全部的物品信息。 http://www.swagvault.com/wow/eu/gold/386这个网站是需要div连续点击的,上半部分的各个服务器的名称点击后页面下方出现的信息是需要抓取的,费心
跟抓取普通网页一样抓取JS内容
MetaSeeker内嵌的浏览器能够自动解释JS,所以跟抓取普通网页一样抓JS内容。目前,在线版的模拟点击功能比较弱,比如,有些内容只有鼠标悬浮在上面才能显示;又如,淘宝一双鞋有各种尺码,价格不一样,要点击才能抓取价格。这些复杂的模拟点击行为只有企业版才能支持,而且根据客户需要进行定制。
对于一些无法给出线索的网站
对于一些无法给出具体线索的网站,是不是就无能为力了呢,比如下拉列表作为线索,或者一些A标签,点击后出现新内容的这种网站,企业版的话可以完成这些功能么
在线版能够模拟一部分JS动作
在线版能够模拟的JS动作有:1)翻页抓取;2)网页上一个节点,点击后网页内容会变化。
综上所述,在线版在当前网页上只能在确定位置点击一次,如果网页上有很多JS实现的A标签,或者下拉列表,或者淘宝网上的选择商品配置和型号,这样需要连续点击很多次的,在线版暂不支持。企业版根据具体网站定制后支持。
还有一个问题,请给予解答
比如网页上有多个div,并且每个div的样式都是相同的,里面都有一个相同样式的表格,可以一次抓取全部div中的信息么,这是不是也是一种防抓取的方法呢
不一定是防抓取的
天下矛与盾的较量永不停息,防抓取至多是暂时的,很多用JS的目的是为了用户体验或者为了配合网络部署,比如网上商城,我认为他们用JS管理内容主要为了显示动态内容,我估计这些内容不便于用CDN进行传送
目前在线版,模拟点击只能在当前网页上做一次,如果有多个DIV,可以把它们当成翻页链接一样,挨个点,挨个抓取,应该能够达到目的。而比较复杂的模拟点击,他们没有共性,我们通常在企业版中定制
相同的抓取规则可以进行抓取么
我尝试过多个div的网页,里面的多个div是来实现翻页的,第几页的时候就显示第几个div,其余隐藏,进行翻页的时候抓取的全都是第一个div中的内容,所以我总感觉相同的抓取规则不能把内容全部抓取下来,呵呵 问题有点多,请见谅,关键是自己找不到解决的方法了,只能求助
什么网站的抓取这么奇怪
可以将网址帖出来看看
这是目标网站
你好fuller,这是网站http://www.g4pitem.com/items.aspx?gid=1&class=1,请帮助解决
哪些DIV是需要连续点击的?
哪些DIV是需要连续点击的?
这个网站是div实现分页的
这个网站显示物品信息的位置是10个table显示十页信息没翻页显示不同的table。这个网页我问的是能不能用一个规则文件抓取全部10个table中全部的物品信息。
http://www.swagvault.com/wow/eu/gold/386这个网站是需要div连续点击的,上半部分的各个服务器的名称点击后页面下方出现的信息是需要抓取的,费心