之前跑别的规则都没问题,不知道是不是这个网页编码的问题,本身是个移动端的网页,但是pc端打开是没问题的

地址:http://m.okooo.com/match/change. ... 0&Type=Handicap
规则:澳客亚盘皇冠

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-5-3 17:08

沙发
shenzhenwan10 金牌会员 发表于 2017-4-29 12:08:51 | 只看该作者
今天测试下, 看看会不会出现楼主的问题
举报 使用道具
板凳
plovex 初级会员 发表于 2017-4-29 12:40:08 | 只看该作者
shenzhenwan10 发表于 2017-4-29 12:08
今天测试下, 看看会不会出现楼主的问题

谢了,之前跑别的页没问题,这页好像是解析不了,不知道什么原因
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2017-5-2 14:25:31 | 只看该作者
测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:
  1. #-*_coding:utf8-*-
  2. # 使用xsltExtractor类的示例程序
  3. # xlst通过GooSeeker API获得

  4. import time
  5. from urllib import request
  6. from lxml import etree
  7. from gooseeker import GsExtractor
  8. from selenium import webdriver

  9. class PhantomSpider:
  10.     def getContent(self, url):
  11.         browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
  12.         browser.get(url)
  13.         time.sleep(3)
  14.         html = browser.execute_script("return document.documentElement.outerHTML")
  15.         output = etree.HTML(html)
  16.         return output

  17.     def saveContent(self, filepath, content):
  18.         file_obj = open(filepath, 'a+', encoding='UTF-8')
  19.         file_obj.write(content)
  20.         file_obj.close()

  21. doubanExtra = GsExtractor()   
  22. # 下面这句调用gooseeker的api来设置xslt抓取规则
  23. # 第一个参数是app key,请到GooSeeker会员中心申请
  24. # 第二个参数是规则名,是通过GooSeeker的图形化工具: 谋数台MS 来生成的
  25. doubanExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e" , "澳客亚盘皇冠_szw10")  

  26. url = "http://m.okooo.com/match/change.php?mid=885202&pid=250&Type=Handicap"
  27. totalpages = 5
  28. doubanSpider = PhantomSpider()

  29. print("正在爬取", url)
  30. content = doubanSpider.getContent(url)
  31. outputxml = doubanExtra.extract(content)
  32. outputfile = "result" + ".xml"
  33. doubanSpider.saveContent(outputfile , str(outputxml))

  34. print("爬取结束")
复制代码
得到的结果文件如下图:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
plovex 初级会员 发表于 2017-5-3 11:56:25 | 只看该作者
shenzhenwan10 发表于 2017-5-2 14:25
测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:
得到的结 ...

谢谢我看下,我是也驱动phantomJS爬得,别的页面可以,这页没找到问题我对照你的代码看看
举报 使用道具
6#
plovex 初级会员 发表于 2017-5-3 12:25:21 | 只看该作者
shenzhenwan10 发表于 2017-5-2 14:25
测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:
得到的结 ...

我用的scrapy,解析网页的时候好像代码是乱的
# -*- coding: utf-8 -*-
import time
import scrapy
from datetime import datetime
import os
import os.path

from gooseeker import GsExtractor

class AHSingbet(scrapy.Spider):
        name = "ah_singbet"
        allowed_domains = ["m.okooo.com"]
        start_urls = (
                'http://m.okooo.com/match/change.php?mid=885202&pid=250&Type=Handicap',
        )

        # 获得当前时间戳
        def getTime(self):
                current_time = time.strftime("%Y-%m-%d %H-%M", time.localtime())
                return current_time

        def parse(self, response):
                # html = response.body
                print(response.body)
                html = response.body
                # print(html)
                print("----------------------------------------------------------------------------")
                extra=GsExtractor()
                extra.setXsltFromAPI("55f1621790eb7d816e40dc2ca593a511", "澳客亚盘皇冠","皇冠亚盘","list")
                result = extra.extractHTML(html)
                print(str(result).encode('gbk', 'ignore').decode('gbk'))
                path = 'G:/Python/Demo/temp/matchid/' + datetime.now().strftime('%Y-%m-%d') + '/ah_singbet/'
                if not os.path.exists(path):
                        os.mkdir(path)
                file_name = path + 'ah_singbet.xml'
                open(file_name,"wb").write(result)



能帮我看下哪里问题么,是不是要在哪定义编码
举报 使用道具
7#
plovex 初级会员 发表于 2017-5-3 17:02:24 | 只看该作者
shenzhenwan10 发表于 2017-5-2 14:25
测试了一下, python驱动phantomJS, 爬取楼主给出的那个网址, 能够正确的得到结果.
测试代码如下:
得到的结 ...

又试了下,用你这apikey和规则名就能跑出来,用我自己的跑出来页面是空的但是我直接打数机跑是没问题的。。。
这是怎么回事呢?
举报 使用道具
8#
gz51837844 管理员 发表于 2017-5-3 17:08:50 | 只看该作者
你看一下你的api是否在有效期内
同时检查调用api时的参数是否正确
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-24 11:12