像text很容易理解是文字值
1、 DIV, TABLE, TR,TD,TH,A都是什么意思啊?
2、有些字段前有@符号,例如@class @id @onkeydown 是什么意思?
3、有的词前面有 + ,#  例如+attributes,   #test  是什么意思 这些符号有什么特殊的用处?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-1-23 20:53

xandy 论坛元老 发表于 2016-1-23 20:40:06 | 显示全部楼层
像div、table、tr、td这样的是HTML(超文本标记语言)里头的标签,通过这些标记来显示网页中的各个部分。各个标签的含义详看这里:http://www.w3school.com.cn/tags/tag_div.asp

可以不用把所有的标签弄懂,但要明白的是网页上的内容是通过这些来显示的,所以我们采集的时候要进行定位,找到相应节点才能找到存放在这些节点上的内容,而这些内容可能就是你想要的。
举报 使用道具
Fuller 管理员 发表于 2016-1-23 20:53:29 | 显示全部楼层
html标签前面没有别的符号

属性前面有@

+attributes 不是html标准里面的,是GooSeeker软件自己起的名字,表示把一组属性组合在一起放在+attributes里面

#text就是html中的text
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 20:53:47 | 显示全部楼层
这条解释的很好 ,谢谢,懂了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 13:20