免费版用户使用2级抓取时自己新建网址网页作为一级抓取,然后新建二级工作台抓取2级内容 问题在这,我的2级内容也是翻页形式的,但是有的需要翻页(内容多需要翻页),有的不需要翻页(内容较少无需翻页),这时进行data抓取时就出现了错误,请问大大这个问题可以修复吗? 还有吐槽一下登录验证码,能不能把字体弄大一点,实在是看不清楚
页码多的,页码少的,都不影响,通常会自动停止,但是有些网站可能翻到最后,“下一页”还能点,这种有可能停不下来,需要针对具体情况具体解决,绝大多数更改一下配置就能解决。
验证码不得不这样设置,因为太多营销软件自动发广告,即便这样,还有个别的国外的技术能够自动识别出来。如果嫌麻烦,可以直接给我们发email,email地址在“联系我们”网页上
我们可以研究一下
翻页的问题已经解决了,问题没有出在翻页上面 http://www.lloydslistintelligence.com/llint/vessels/movements.htm?vessel... http://www.lloydslistintelligence.com/llint/vessels/movements.htm?vessel... 这两个网址下面的表格中的数据有不同格式,有的有CLASS值可以作FREEFORMAT有的则没有,只是TEXT文本格式的 而且,同一个单元格中还会出现text格式和ajax格式共存的形式,但是DOM树中上一级并没有CLASS值通过FREEformat的BLOCK来整段的截取文本信息,这个问题怎么解决呢?
根据您的问题描述,我估计设置block能够解决。设置block后,不必总是使用FreeFormat映射,可以使用数据映射,将一个div或者其它DOM 节点映射给这个信息属性
翻页会自动停止的
页码多的,页码少的,都不影响,通常会自动停止,但是有些网站可能翻到最后,“下一页”还能点,这种有可能停不下来,需要针对具体情况具体解决,绝大多数更改一下配置就能解决。
验证码不得不这样设置,因为太多营销软件自动发广告,即便这样,还有个别的国外的技术能够自动识别出来。如果嫌麻烦,可以直接给我们发email,email地址在“联系我们”网页上
请把主题名贴出来
我们可以研究一下
我在做关于表格信息的摘取
翻页的问题已经解决了,问题没有出在翻页上面
http://www.lloydslistintelligence.com/llint/vessels/movements.htm?vessel...
http://www.lloydslistintelligence.com/llint/vessels/movements.htm?vessel...
这两个网址下面的表格中的数据有不同格式,有的有CLASS值可以作FREEFORMAT有的则没有,只是TEXT文本格式的
而且,同一个单元格中还会出现text格式和ajax格式共存的形式,但是DOM树中上一级并没有CLASS值通过FREEformat的BLOCK来整段的截取文本信息,这个问题怎么解决呢?
这个网站需要登录无法测试
根据您的问题描述,我估计设置block能够解决。设置block后,不必总是使用FreeFormat映射,可以使用数据映射,将一个div或者其它DOM 节点映射给这个信息属性