快捷导航
52 1770

泰國網頁資訊爬取問題

Wei_AA25 于 2020-9-22 10:22 发表 [复制链接]
Wei_AA25 初级会员 发表于 2020-9-28 17:48:47 | 显示全部楼层
知网期刊 发表于 2020-9-28 17:45
这个采集的时候是不是得登录才行?

是!
不過我在採集的時候都有登入!
這裡提供帳號密碼給您

04360270@me.mcu.edu.tw
weiting1125
举报 使用道具
wangyong 版主 发表于 2020-9-28 18:49:21 | 显示全部楼层
Wei_AA25 发表于 2020-9-28 17:48
是!
不過我在採集的時候都有登入!
這裡提供帳號密碼給您

QQ截图20200928184709.png
这个网页可以不用做连续动作
你把tr下的onclick抓取下来,然后通过Excel可以构造出这种网址来进行层级采集:https://www.dataforthai.com/company/0203541001419/printview
abaaaa.png
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-29 09:12:00 | 显示全部楼层
wangyong 发表于 2020-9-28 18:49
这个网页可以不用做连续动作
你把tr下的onclick抓取下来,然后通过Excel可以构造出这种网址来进行层级采 ...

請問這個有完整的教學嗎 ?
因為我需要採集1萬多筆的資訊XDDD
举报 使用道具
wangyong 版主 发表于 2020-9-29 09:42:38 | 显示全部楼层
Wei_AA25 发表于 2020-9-29 09:12
請問這個有完整的教學嗎 ?
因為我需要採集1萬多筆的資訊XDDD

就是在第一级做样例复制就能把每个交易的代码给抓取下来
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-29 09:59:57 | 显示全部楼层
本帖最后由 Wei_AA25 于 2020-9-29 10:02 编辑
wangyong 发表于 2020-9-29 09:42
就是在第一级做样例复制就能把每个交易的代码给抓取下来

我抓好代碼之後,要如何讓他能夠直接抓代碼內的內容 ?
举报 使用道具
wangyong 版主 发表于 2020-9-29 10:10:52 | 显示全部楼层
抓好代码之后也要做新的二级规则

https://www.dataforthai.com/company/0203541001419/printview

把代码通过Excel拼凑成新的网址后,按照这个教程:https://www.gooseeker.com/doc/thread-667-1-1.html

把网址添加到二级规则里
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-29 16:56:47 | 显示全部楼层

哈囉您好!我將網址抓下來後使用集搜客抓取後,仍然抓不到資訊
是我的規則設定錯誤嗎 ?

第二規則透過另一個網址去抓詳細資料
規則名稱為 :泰國2 及 泰國3
举报 使用道具
小蜜蜂测试162 中级会员 发表于 2020-9-30 09:00:19 | 显示全部楼层
Wei_AA25 发表于 2020-9-29 16:56
哈囉您好!我將網址抓下來後使用集搜客抓取後,仍然抓不到資訊
是我的規則設定錯誤嗎 ?

你添加的网址发出来看看
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-30 14:26:09 | 显示全部楼层
举报 使用道具
wangyong 版主 发表于 2020-9-30 14:42:56 | 显示全部楼层
Wei_AA25 发表于 2020-9-30 14:26
類似以下
https://www.dataforthai.com/company/0203541001419/printview
https://www.dataforthai.com/c ...

登出是指什么?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 采集图片网址并下载图片(二)——下载途牛
  • 采集图片网址并下载图片(一)—— 单图下
  • 定位映射采集列表数据——以B站视频列表为
  • 网络爬虫抓包功能
  • 内容映射

热门用户

GMT+8, 2021-1-26 17:36