博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据分析相关工具
阅读量:7121 次
发布时间:2019-06-28

本文共 987 字,大约阅读时间需要 3 分钟。

Knowledge Graph

大规模数据处理:hadoop、spark

[Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。]

数据挖掘工具:R, Mathout语言

R语言是主要用于、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman 开发(也因此称为R),现在由“R开发核心团队”负责开发。 R是基于的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的领 域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此 外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

转载地址:http://ktxel.baihongyu.com/

你可能感兴趣的文章
PHP动态扩展模块安装
查看>>
AgileEAS.NET平台开发实例-药店系统-UI层重构技巧及其他
查看>>
Go编程基础 - 类型与变量
查看>>
外链优化的发展
查看>>
用Java实现生产者和消费者的多线程例子
查看>>
alter database datafile offline drop 与 alter tablespace drop datafile 区别 .
查看>>
Java学习课程体系
查看>>
我的友情链接
查看>>
Python install 问题汇总
查看>>
我的友情链接
查看>>
JavaScript中的一些特殊用法(六)
查看>>
saltstack的安装及配置
查看>>
SCVMM 2012 SP1 安装与配置指南(四)配置SMI-S提供程序来添加iSCSI存储
查看>>
Spring 的优秀工具类
查看>>
MySQL源码编译安装(CentOS-6.6+MySQL-5.6)
查看>>
CentOS 7 基于fastcgi 的lamp
查看>>
linux大神必备技能
查看>>
C语言:不使用(a+b)/2这种方式(会溢出),求两个数的平均值
查看>>
2.Python安装
查看>>
HttpUrlConnection Get 和Post请求
查看>>