大数据平台常见的一些开源工具,你知道吗?
本文整理了一些大数据平台常用的开源工具,并根据其主要功能进行分类天外神坛源码网,以便大数据学习者和用户快速查找和参考。大数据平台常用工具的集合:
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_0.jpg
主要包括:语言工具、数据采集工具、ETL工具、数据存储工具、分析计算、查询应用和运维监控工具。以下是每个工具的简要说明。
一、语言工具
1、Java 编程
Java编程技术是应用最广泛的网络编程语言之一,是大数据学习的基础。
2、Linux 命令
对于大数据的开发通常是在Linux环境下进行的。
3、斯卡拉
Spark是大数据开发的重要框架,采用Scala语言设计。如果你想学习 Spark 框架,拥有 Scala 基础是必不可少的。
4、
主要可用于数据采集、数据分析和数据可视化等。大数据需要学习一定的知识。
二、数据收集工具
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_1.jpg
1、纳奇
搜索引擎的开源 Java 实现。它提供了我们运行自己的搜索引擎所需的所有工具,包括全文搜索和网络爬虫。
2、
为爬取网站数据和提取结构化数据而编写的应用框架,可以应用于数据挖掘、信息处理或历史数据存储等一系列程序中。
三、ETL 工具
1、Sqoop
Sqoop 是一种用于在关系数据库服务器之间传输数据的工具。它用于将数据从关系数据库(如 MySQL,)导入 HDFS,并从文件系统导出到关系数据库。
2、
是一个 ETL 工具集,它允许您通过提供图形用户环境来描述您想要做什么来管理来自不同数据库的数据。其数据提取高效且稳定。
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_2.jpg
四、数据存储工具
1、分布式存储和计算
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_3.png
该框架的核心设计是:HDFS,需要掌握,另外还需要掌握集群、集群管理、YARN、高级管理等相关技术和操作。
2、蜂巢
相对于使用。非常适合数据仓库的统计分析。对于Hive,你需要掌握它的安装、应用和高级操作。
3、
提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,以及大数据开发中需要掌握的常用命令和功能的实现方法。
4、HBase
HBase 是一个高可靠、高性能、面向列、可扩展的分布式存储系统。大数据开发需要 HBase 的基础知识、应用程序、架构和高级用法。
5、Redis
Redis提供Java、C/C++、C#、PHP、Java、Perl、-C、Ruby等客户端,使用非常方便。大数据开发需要掌握Redis的安装、配置及相关使用方法。
6、卡夫卡
Kafka 是一个高吞吐量的分布式发布订阅消息系统。大数据开发需要掌握Kafka架构的原理,各个组件的作用和用法,以及相关功能的实现。
7、Neo4j
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_4.png
Neo4j 是一个高性能的 NoSQL 图数据库,具有大规模处理网络分析能力,可处理数百万和 TB 的节点和边。
8、
它是一个混合非关系型数据库,类似,其主要功能比(分布式Key-Value存储系统)丰富。
9、SSM
SSM框架由三个开源框架MVC和MVC组成开源数据治理工具,常被用作数据源比较简单的Web项目的框架。大数据开发需要掌握三个框架,MVC,三个框架,然后使用SSM进行集成操作。
五、分析计算工具
1、火花
Spark 是一种快速通用的计算引擎开源数据治理工具,专为大规模数据处理而设计。大数据开发需要掌握Spark基础知识、Spark RDD部署与资源分配、Spark、Spark内存管理、Spark广播变量、Spark SQL、Spark和Spark ML等相关知识。
2、风暴
Storm 是免费的开源软件,一个分布式的、容错的实时计算系统,可以非常可靠地处理海量数据流,用于批量处理数据。Storm支持多种编程语言,应用领域众多:实时分析、在线机器学习、不间断计算、分布式RPC(Call ,远程计算机程序通过网络请求服务)、ETL等等等等。
3、
目的是“为快速创建可扩展、高性能的机器学习应用程序创建环境”,主要特点是为可扩展的算法、Scala/Spark/H2O/Flink 的新算法提供可扩展的环境,(类似于R 矢量数学环境),其中还包括许多用于数据挖掘的算法。
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_5.png
4、
它是全球最流行的开源商业智能软件,基于Java平台,以工作流为核心,强调解决方案而非工具组件的BI套件。
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_6.jpg
六、查询应用工具
1、Avro 和
Avro和Avro都是数据序列化系统,可以提供丰富的数据结构类型,非常适合不同语言之间相互通信的数据存储和数据交换格式。
2、
它是一个基于 JDBC API 用 Java 编写的用于操作 HBase 的开源 SQL 引擎。它具有动态列、散列加载、查询服务器、跟踪、事务、用户定义函数、二级索引、命名空间映射、数据收集和时间戳列。、分页查询、跳转查询、视图和多租户特性,大数据开发需要掌握其原理和使用方法。
3、麒麟
Kylin 是一个开源的分布式分析引擎,提供基于超大数据集(TB/PB 级别)的 SQL 接口和多维 OLAP 分布式在线分析。
4、
是一个基于网络的笔记本,提供交互式数据分析。方便您制作数据驱动、交互、协作的精美文档,支持多种语言,包括Scala(使用Spark)、(Spark)、Hive、Shell等。
5、
是一个基于搜索的服务器。它提供了一个基于Web 界面的分布式、多用户全文搜索引擎。专为云计算使用而设计,可实现实时搜索,稳定可靠,速度快,安装使用方便。
6、索尔
Solr是基于Solr的,是一个高度可靠、高度可扩展的企业搜索平台,是一个非常优秀的全文搜索引擎。
七、数据管理工具
1、
它是一个开源的批处理工作流任务调度器。
2、Mesos
Mesos 就像数据中心的单一资源池。它将 CPU、内存、存储和其他计算资源与物理或虚拟机分离,使得构建和有效运行容错和弹性的分布式系统变得容易。
3、
是一款开源的实时报错工具,支持web前后端、移动应用和游戏,支持OC、Java、Go、Node等主流编程语言和框架,还提供 Slack 等常用开发工具的集成。
http://tt.ccoox.cn/data/attachment/forum/20220124/1642956181844_8.jpg
八、运维监控工具
水槽
Flume是一个高可用、高可靠、分布式的海量日志采集、聚合、传输系统,支持自定义日志系统中的各种数据发送器进行数据采集;同时,Flume 提供了简单的数据处理,以及写入各种数据接收者的能力(可定制)。大数据开发需要掌握其安装、配置及相关使用方法。返回搜狐,查看更多 噼噼啪啪怕怕怕怕怕
大噶离开后案发后考虑了和
页:
[1]