今天研读的这篇范文,针对这个问题:“随着社交网络的日益发展,大量冗余和重复的信息充斥其间,信息过载使得快速、有效地发现用户的兴趣爱好变得更加困难”,提出了针对某个用户推荐最能满足其兴趣爱好的物品,需要具备显著的相关度且能覆盖用户广泛的兴趣爱好的观点。因此,基于社交关系和用户偏好提出一种面向多样性和相关度的图排序框架。首先,引入社交关系图模型,综合考虑用户及物品之间的关系,以更好地建模它们的相关度;然后,利用线性模型融合多样性和相关性两个重要指标;最后,利用Spark GraphX并行图计算框架实现该算法,并在真实的数据集上通过实验验证所提方法的有效性和扩展性。 搞研究写论文需要的互联网数据使用什么工具来收集? 对于大多数搞研究写论文的同学来说,需要一款使用简单,不需要额外学习,根据简单的指引就可以启动采集获取各种数据的工具。Gooseeker微博数据采集工具箱和GooSeeker快捷采集就符合这样的要求。 以收集微博数据为例,GooSeeker微博数据采集工具箱很适合同学们搞研究写论文收集微博数据,大量文科同学在通过它收集研究需要的微博博文,微博关键词搜索,微博评论和转发,微博博主详情,微博话题内容,微博粉丝和关注者等数据。我们观察到使用这个工具收集微博数据进行研究的同学数量一直维持在高位,刚刚过去的这个周末,就有不少同学在技术交流群和社区论坛上和我们交流微博工具箱的使用心得。 1,范例简介 标题:基于社交关系和用户偏好的多样性图推荐方法 作者: 石进平1,2 李劲1,2 和凤珍3 作者单位: 1. 云南大学软件学院 2. 云南省软件工程重点实验室 3. 云南大学旅游文化学院信科系 发表时间:2018-06-15 关键词:多样性;相关性;社交网络;个性化推荐系统;Spark GraphX; 基金资助: 国家自然科学基金项目(61562091); 云南省应用基础研究计划面上项目(2016FB110); 云南省软件工程重点实验室开放项目(2012SE303,2012SE205)资助; 摘要: 以协同过滤为代表的传统推荐算法能够为用户提供准确率较高的推荐列表,但忽略了推荐系统中另外一个重要的衡量标准:多样性。随着社交网络的日益发展,大量冗余和重复的信息充斥其间,信息过载使得快速、有效地发现用户的兴趣爱好变得更加困难。针对某个用户推荐最能满足其兴趣爱好的物品,需要具备显著的相关度且能覆盖用户广泛的兴趣爱好。 原文研究者基于社交关系和用户偏好提出一种面向多样性和相关度的图排序框架: 首先,引入社交关系图模型,综合考虑用户及物品之间的关系,以更好地建模它们的相关度; 然后,利用线性模型融合多样性和相关性两个重要指标; 最后,利用Spark GraphX并行图计算框架实现该算法,并在真实的数据集上通过实验验证所提方法的有效性和扩展性。 文章目录 1基于社交关系和用户偏好的多样性图推荐框架 1.1问题描述 1.2构建基于社交关系和用户偏好的用户行为图 1.3基于社交关系和用户偏好的多样性和相关性 1.3.1多样性和相关性 1.4 PSR-GRS多样性推荐框架 1.5基于Spark Graphx的并行算法 2实验结果 2.1评价标准 2.2实验环境 2.3基于社交关系和用户偏好模型的有效性 2.4 PPSR-GRS算法的执行效率 结束语 2,本范例主要研究方法和相关知识点 2.1 Spark GraphX是什么?有什么特点? 参考Spark Graphx官网和《Spark 中 GraphX 指南(一)》的说明,笔者做如下笔记: 1. GraphX是Apache Spark的 API,用于图形和图形并行计算。 2. GraphX 在单个系统中统一 ETL、探索性分析和迭代图形计算。您可以查看与图形和集合相同的数据,有效地将图形与 RDD转换和连接,并使用Pregel API编写自定义迭代图形算法。 3. GraphX 在性能上与最快的图形系统竞争,同时保持 Spark 的灵活性、容错性和易用性。 4. 除了高度灵活的 API外,GraphX 还配备了各种图形算法,其中许多算法是由社区用户贡献的。 2.2 想学习大数据处理平台Spark,有什么方便的途径吗? 通常有2种方法搭建学习环境: 1. 本地安装 最简单的是安装Anaconda,然后安装pyspark包,这样就可以在Jupyter Notebook中使用Python访问Spark。 详细步骤可以参考:《安装jupyter notebook并集成pyspark记录》 2. 使用Databricks云系统 如果不想在本地部署spark环境,可以直接注册使用Databricks云 |