3 6798

新手求助

huang3878221 于 2018-4-27 14:16 发表 [复制链接]
http://www.syfc.com.cn/work/xjlp/build_list.jsp?xmmcid=62422,爬虫这个网站的数据,生成xml文件。
后来发现需要把此网址也爬到在xml文件中,有没有办法。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-4-27 14:22

huang3878221 中级会员 发表于 2018-4-27 14:19:17 | 显示全部楼层
查看了页面源码,没有看到h与“ttp://www.syfc.com.cn/work/xjlp/build_list.jsp?xmmcid=62422”相同的内容。
举报 使用道具
bowieD 金牌会员 发表于 2018-4-27 14:20:39 | 显示全部楼层
采集下来的xml中的realpath字段就是当前网页的网址,这个字段是软件自带的,转成excel就知道了
举报 使用道具
huang3878221 中级会员 发表于 2018-4-27 14:22:37 | 显示全部楼层
bowieD 发表于 2018-4-27 14:20
采集下来的xml中的realpath字段就是当前网页的网址,这个字段是软件自带的,转成excel就知道了 ...

疏忽疏忽,谢谢谢谢。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 19:02