测试用例:
<div class="wxsour">
            <div class="cover"><a id="jpic"></a><i></i></div>
            <div class="sourinfo">
              <p class="title"><a>北京工业大学学报</a></p>
              <p><a>Journal of Beijing University of Technology</a></p>
              <p><a>2013年11期
                </a></p>
              <p>ISSN:0254-0037</p>


要抓取:ISSN:0254-0037
设计表达式:ISSN:\d{4}-\d{4}
直接匹配ISSN,可以;直接匹配0254-0037,可以;匹配ISSN:0254-0037就不存在了?如图。
表达式在正则在线测试试过了没有问题,哪里出问题了?



$C5U5N@M{JA[8Y76KG@Y2DK.png (16.69 KB, 下载次数: 354)

$C5U5N@M{JA[8Y76KG@Y2DK.png
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-4-25 22:35

沙发
Fuller 管理员 发表于 2017-4-25 22:21:40 | 只看该作者
冒号能不能对得上?冒号前后有没有空格或者看不见的字符?

大家在用正则表达式处理内容的时候都漏了一个重要的环节:要把待处理的内容作字符替换、空格压缩、消除看不见的字符。

在做一些要求很高的项目的时候,这一步是一定不能压缩的。
举报 使用道具
板凳
zkmsdhr 初级会员 发表于 2017-4-25 22:29:48 | 只看该作者
Fuller 发表于 2017-4-25 22:21
冒号能不能对得上?冒号前后有没有空格或者看不见的字符?

大家在用正则表达式处理内容的时候都漏了一个重 ...

我在 在线正则测试试过了是可以的。冒号对的上,即使把那一段完全复制过来,也不行。好烦啊,不知道哪有问题
举报 使用道具
地板
Fuller 管理员 发表于 2017-4-25 22:33:14 | 只看该作者
zkmsdhr 发表于 2017-4-25 22:29
我在 在线正则测试试过了是可以的。冒号对的上,即使把那一段完全复制过来,也不行。好烦啊,不知道哪有 ...

查查正则表达式的规范,冒号是不是一个控制符,如果是的话,用\做转义
举报 使用道具
5#
zkmsdhr 初级会员 发表于 2017-4-25 22:34:44 | 只看该作者
Fuller 发表于 2017-4-25 22:21
冒号能不能对得上?冒号前后有没有空格或者看不见的字符?

大家在用正则表达式处理内容的时候都漏了一个重 ...

<div class="sourinfo">
              <p class="title"><a onclick="&#xA;        getKns55NaviLink('','CJFQ','CJFQbaseinfo','BJGD');&#xA;      ">北京工业大学学报</a></p>
              <p><a onclick="&#xA;        getKns55NaviLink('','CJFQ','CJFQbaseinfo','BJGD');&#xA;      ">Journal of Beijing University of Technology</a></p>
              <p><a onclick="&#xA;                        getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','BJGD','2013','11')&#xA;                    ">2013年11期
                </a></p>
              <p>ISSN:0254-0037</p>
              <p>中文核心期刊</p><span id="bqsm"></span></div>


这是个完整的div。正则不行用bs4的话,怎么抽取ISSN这个数据?
举报 使用道具
6#
zkmsdhr 初级会员 发表于 2017-4-25 22:35:48 | 只看该作者
Fuller 发表于 2017-4-25 22:33
查查正则表达式的规范,冒号是不是一个控制符,如果是的话,用\做转义
...

试过了,不行。

这个表达式在 在线正则测试行的通,在我的IDE就不行了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 18:26