首先先和各位大神們說聲抱歉,
由於本人為新手故前來社區討論求救

我想抓取的是https://waste1.epa.gov.tw/Grant/GS-UC60/QryGrantData.aspx的內容
我參考了很多的教學
但還是不太清楚規則可以怎麼去定義
例如:我想搜尋新北市及台北市的清除機構,並抓取其所有資訊及點選進去後的個別所有內容

在煩請各位大神們教學
举报 使用道具
| 回复

共 30 个关于本帖的回复 最后回复于 2020-8-26 10:19

沙发
Fuller 管理员 发表于 2020-8-24 19:00:19 | 只看该作者
这个网站我在办公室无法访问,等我尝试一下其他访问方法。
学习集搜客网络爬虫的使用方法,应该按照顺序先看初级教程,就是我下面箭头指出来的这些:https://www.gooseeker.com/tuto/tutorial.html


举报 使用道具
板凳
Fuller 管理员 发表于 2020-8-25 09:38:43 | 只看该作者
环保类信息,比如,废水废气和相关企业,一般都是一些共享的数据库,看到的都是数据表,但是要输入查询条件,要让集搜客网络爬虫像人一样输入条件进行查询,然后把查询结果采集下来。模拟人输入条件需要定义连续动作,是在高级教程里面,有专门的教程。

不过定义动作有些复杂,一组连续动作可能需要5-6个步骤,而且一般需要定义多级规则。针对一个环保研究课题,给大部分废水废气和相关企业监控网站做了爬虫规则,整个制作过程比较费力
举报 使用道具
地板
Fuller 管理员 发表于 2020-8-25 09:40:33 | 只看该作者
如果自己学习定义爬虫规则,建议先从一些很简单的网站开始练习,先看初级教程。初级用法掌握了,再使用高级用法
举报 使用道具
5#
Wei_AA25 中级会员 发表于 2020-8-25 11:05:56 | 只看该作者
Fuller 发表于 2020-8-25 09:38
环保类信息,比如,废水废气和相关企业,一般都是一些共享的数据库,看到的都是数据表,但是要输入查询条件 ...

管理員您好:

我昨晚認真學習過了一次後,目前學會可以使用兩個層級爬資料。
在第二個層級內爬我所需的資料後,我有需要複製樣式來爬其他筆資料嗎 ?

非常感謝您的回覆!
举报 使用道具
6#
内容分析应用 金牌会员 发表于 2020-8-25 11:26:29 | 只看该作者
你那个网站应该是需要通过爬虫的连续动作来模拟人进行select,input, click这些动作, 并且这些动作是连续的不能中断的。
你可以看看集搜客官网连续动作的相关教程。



举报 使用道具
7#
Wei_AA25 中级会员 发表于 2020-8-25 11:34:52 | 只看该作者
内容分析应用 发表于 2020-8-25 11:26
你那个网站应该是需要通过爬虫的连续动作来模拟人进行select,input, click这些动作, 并且这些动作是连续 ...

您好感謝您的回覆
其實目前我只是要找台北跟新北的清除機構而已(公司需要的資料)
不過我剛剛按照層級教學去做測試
我還是無法做到抓取多筆完整資訊Q___Q

举报 使用道具
8#
Wei_AA25 中级会员 发表于 2020-8-25 11:48:43 | 只看该作者
本帖最后由 Wei_AA25 于 2020-8-25 12:03 编辑

對了!
https://www.gooseeker.com/doc/article-349-1.html我正在實作這個教學
不過我提供的頁面再選定好地區及機構後,點選「查詢」查看path都是個別單一的DOM
不知道這樣仍然可以做嗎

举报 使用道具
9#
王建国 高级会员 发表于 2020-8-25 14:13:06 | 只看该作者
Wei_AA25 发表于 2020-8-25 11:48
對了!
https://www.gooseeker.com/doc/article-349-1.html我正在實作這個教學
不過我提供的頁面再選定好地 ...

是指查询节点的xpath搜索只能定位到一个节点吗?如果是这样的话是正常的
举报 使用道具
10#
Fuller 管理员 发表于 2020-8-25 15:11:39 | 只看该作者
Wei_AA25 发表于 2020-8-25 11:05
管理員您好:

我昨晚認真學習過了一次後,目前學會可以使用兩個層級爬資料。

你是说在第二级里面,有一张表,目前只能爬到第一行数据,现在想爬到所有行数据。如果是这个问题,那么就做样例复制映射,就能把所有行爬下来。参看教程:https://www.gooseeker.com/doc/article-330-1.html

如果你的意思是说:想用这个规则去爬其他网址,那么不用把规则拷贝给其他网址,而是把网址添加到这个规则中。参看教程:https://www.gooseeker.com/doc/thread-667-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 13:02