11#
larklee2015 初级会员 发表于 2015-10-24 16:01:33 | 只看该作者
gooseeker_info 发表于 2015-10-23 21:09
把___GoURL('/ind/bidinfo.html?id=295882');return false; 这个作为内容采集下来,把里面的/ind/bidinfo.h ...

请高手继续帮忙!“然后把生成的网址通过DS打数机的“添加”菜单,把网址加入”???没找到“添加”菜单,如何具体操作?我还想把提取的网址进行向下连接,爬取下级内容!谢谢!
非常感谢!
举报 使用道具
12#
gooseeker_info 金牌会员 发表于 2015-10-24 16:28:35 | 只看该作者
larklee2015 发表于 2015-10-24 16:01
请高手继续帮忙!“然后把生成的网址通过DS打数机的“添加”菜单,把网址加入”???没找到“添加”菜单 ...


选中一个主题,点鼠标右键,就能看到弹出菜单如图


举报 使用道具
13#
larklee2015 初级会员 发表于 2015-10-24 22:27:15 | 只看该作者
gooseeker_info 发表于 2015-10-24 16:28
选中一个主题,点鼠标右键,就能看到弹出菜单如图

感谢你的帮忙,“添加”菜单我按你说的确实找到了。但是,又产生新问题了:网址“___NewOpenURL('/ind/bidinfo.html?id=297357');return false;”提取不出来了!!!
求助!
举报 使用道具
14#
gooseeker_info 金牌会员 发表于 2015-10-24 23:06:21 | 只看该作者
larklee2015 发表于 2015-10-24 22:27
感谢你的帮忙,“添加”菜单我按你说的确实找到了。但是,又产生新问题了:网址“___NewOpenURL('/ind/bi ...

用自定义XPath可以把网址提取出来,比如
substring-before(substring-after(.,'NewOpenURL(\''), '\')')

但是,我现在无法试,这个微贷网晚上又在升级。上面那句,反斜杠表示转义,那样写不知道是否可行,需要测试一下
举报 使用道具
15#
larklee2015 初级会员 发表于 2015-10-25 16:19:55 | 只看该作者
gooseeker_info 发表于 2015-10-24 23:06
用自定义XPath可以把网址提取出来,比如
substring-before(substring-after(.,'NewOpenURL(\''), '\')')
...

真是不好意思,这个网确实老升级。现在我网址能提取了,但是,无法翻页!!超级无敌!它的下一页的网址都一样:https://www.weidai.com.cn/bid/tenderList#,崩溃,不知道怎么弄了!请大神帮忙!
举报 使用道具
16#
gooseeker_info 金牌会员 发表于 2015-10-25 17:51:54 | 只看该作者
larklee2015 发表于 2015-10-25 16:19
真是不好意思,这个网确实老升级。现在我网址能提取了,但是,无法翻页!!超级无敌!它的下一页的网址都 ...

刚才测试了一下,采集很容易,因为已经没有那个javascript代码了,可以直接获得下一级线索的网址。

需要注意的是上图两点:

1,选择菜单 配置-〉线索定位,选择偏好class,就能发现生成的翻页XPath表达式变短了

2,同时做线索映射的时候,选择那个含有@class='next'的A节点做映射,因为它的@class可以用来做精确定位


这样做以后,翻页没有问题

举报 使用道具
17#
gooseeker_info 金牌会员 发表于 2015-10-25 18:07:12 | 只看该作者
刚做了两个采集规则,可以直接下载下来用:
1,微贷网标的列表 http://www.gooseeker.com/res/detail_95308.html
2,微贷网标的详情 http://www.gooseeker.com/res/detail_95310.html
举报 使用道具
18#
larklee2015 初级会员 发表于 2015-10-25 22:24:06 | 只看该作者
gooseeker_info 发表于 2015-10-25 18:07
刚做了两个采集规则,可以直接下载下来用:
1,微贷网标的列表 http://www.gooseeker.com/res/detail_95308 ...

终于ok了,太感谢大神了!
举报 使用道具
19#
larklee2015 初级会员 发表于 2015-10-25 22:45:32 | 只看该作者
有点儿奢望了,再帮我解决个问题,呵呵。
https://www.weidai.com.cn/bid/sh ... 299831&timing=0中,最下面的投标人和投标金额等信息,抓取过程中,发现仅能抓取第一条,为什么抓不到全部,这跟其他的格式不同吗?谢谢。
举报 使用道具
20#
wangyong 版主 发表于 2015-10-26 14:28:40 | 只看该作者
larklee2015 发表于 2015-10-25 22:45
有点儿奢望了,再帮我解决个问题,呵呵。
https://www.weidai.com.cn/bid/showBorrowDetail?bid=299831&tim ...

这里有个规则可以抓取微贷网详情页所有数据
http://www.gooseeker.com/res/detail_95405.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 09:37