11#
koni_zhang 新手上路 发表于 2016-9-14 10:41:25 | 只看该作者
这个网站需要登录进去才能看到,在火狐上面能够看到网页, 你说的要注意的我都做了,你应该也可以看到, 但是还是有问题,能不能告诉我你觉得最可能的是什么问题,然后有没有可以替代的方案
举报 使用道具
12#
Fuller 管理员 发表于 2016-9-14 11:29:02 | 只看该作者
koni_zhang 发表于 2016-9-14 10:41
这个网站需要登录进去才能看到,在火狐上面能够看到网页, 你说的要注意的我都做了,你应该也可以看到, 但 ...

在DS打数机上运行有没有观察到网页内容显示出来?

在DS打数机底下有日志区,有没有看到提示信息?如果没有信息就是正常。如果没有找到日志区,那是最小化了,要点击边沿的小三角符号往上拉,就能显示出来。

再就是观察有没有翻页?
举报 使用道具
13#
koni_zhang 新手上路 发表于 2016-9-14 11:36:30 | 只看该作者
在DS打数机上运行有没有观察到网页内容显示出来?   有内容显示出来但是都是第一页
在DS打数机底下有日志区,有没有看到提示信息?  没有任何内容
再就是观察有没有翻页?   没有翻页.

好像都是对的就是不翻页
举报 使用道具
14#
Fuller 管理员 发表于 2016-9-14 11:41:01 | 只看该作者
koni_zhang 发表于 2016-9-14 11:36
在DS打数机上运行有没有观察到网页内容显示出来?   有内容显示出来但是都是第一页
在DS打数机底下有日志区 ...

在“爬虫路线”工作台上,点击“查看规则”按钮,把生成的规则拷出来我看看
举报 使用道具
15#
koni_zhang 新手上路 发表于 2016-9-14 12:08:18 | 只看该作者
我想问下如何把保存过的主题读到谋数台窗口啊, 还是需要重新在做一次那些规则
举报 使用道具
16#
Fuller 管理员 发表于 2016-9-14 14:26:16 | 只看该作者
koni_zhang 发表于 2016-9-14 12:08
我想问下如何把保存过的主题读到谋数台窗口啊, 还是需要重新在做一次那些规则 ...

加载和修改方法参看:http://www.gooseeker.com/doc/article-124-1.html
举报 使用道具
17#
koni_zhang 新手上路 发表于 2016-9-14 21:15:50 | 只看该作者
<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>importer_lv1</theme>
<scope>
<from type="FreeFormat">transDOM_0</from>
<path-type>href</path-type>
<path>
//importer_link/text()

</path>
<clue-type>newthread</clue-type>
<target-theme>
<name>importer_lv2</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
<scope>
<from>HTML</from>
<path-type>a</path-type>
<path>
//*[@class='txt-body']//a[.//@src="/trade/cmm/images/butt_forward.gif"]

</path>
<clue-type>inthread</clue-type>
<target-theme>
<name>importer_lv1</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
undefined
</spider-clue-extraction>
举报 使用道具
18#
koni_zhang 新手上路 发表于 2016-9-14 21:18:23 | 只看该作者
大概我想做的事情就是一个列表页面 有个Title然后点进去就是一个详细的情况,然后要在详细情况里面采集一些数据。现在第一步页面需要翻页老是重复第一页的列表根本不翻页
举报 使用道具
19#
Fuller 管理员 发表于 2016-9-14 21:41:38 | 只看该作者
koni_zhang 发表于 2016-9-14 21:15
importer_lv1

transDOM_0

根据你这个xpath
  1. //*[@class='txt-body']//a[.//@src="/trade/cmm/images/butt_forward.gif"]
复制代码


你是对A元素作点击,也许点它不合适,那个@src应该是属于一个img的,用这个img做线索定位映射试试
举报 使用道具
20#
koni_zhang 新手上路 发表于 2016-9-15 09:00:42 | 只看该作者
这个A标记在IMG的外层,当我用IMG的SRC的时候 程序自己选择的, 我怎么能够用IMG做线索定位啊,我不知道是不是在IMG元素上面右键点线索映射然后定位选择线路2 ,我做了然后还是一样的只是重复抓取第一页
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-24 09:19