比如我要采集淘宝上的100个用户的购买状况,要怎么把每个用户找出来,并收集出他们的购买列表呢?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2015-12-8 15:07

沙发
gooseeker_info 金牌会员 发表于 2015-12-7 17:12:03 | 只看该作者
这个难度是比较大的,难点在于
1,大部分人都匿名购买,匿名购买的这些人无法用来做研究
2,非匿名购买的人,他们买了什么东西,你不知道,那么就需要广泛地去采集,期望能碰到你要研究的这个人

这样都需要耗费大量成本做筛选,去碰。而且你不知道这个人的购买记录是否收集全了,如果是用来做数据挖掘计算,就可能因为不全造成影响
举报 使用道具
板凳
YummyLee2 初级会员 发表于 2015-12-7 19:38:49 | 只看该作者
gooseeker_info 发表于 2015-12-7 17:12
这个难度是比较大的,难点在于
1,大部分人都匿名购买,匿名购买的这些人无法用来做研究
2,非匿名购买的人 ...

非常谢谢!那更容易点的,我要在旅游网站上抓取旅游用户去过的景点信息,如百度旅游。那么这些信息的用户要如何获取呢?因为每个用户的页面都不一样。另外这些用户又怎么找呢?
举报 使用道具
地板
Fuller 管理员 发表于 2015-12-7 21:43:35 | 只看该作者
YummyLee2 发表于 2015-12-7 19:38
非常谢谢!那更容易点的,我要在旅游网站上抓取旅游用户去过的景点信息,如百度旅游。那么这些信息的用户 ...

百度旅游的抓取是比较容易的,可以把所有用户,所有游记,所有点评都爬下来
举报 使用道具
5#
ym 版主 发表于 2015-12-8 09:38:09 | 只看该作者
如果用户有独立的个人主页,在主页里显示他的历史记录,并且,你要能访问他的主页,访问不了的话就采集不了
举报 使用道具
6#
YummyLee2 初级会员 发表于 2015-12-8 15:07:52 | 只看该作者
ym 发表于 2015-12-8 09:38
如果用户有独立的个人主页,在主页里显示他的历史记录,并且,你要能访问他的主页,访问不了的话就采集不了 ...

好的。谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 04:23