乐闻世界logo
搜索文章和话题

大数据全家桶

大数据(Big Data)指的是超大规模的数据集,这些数据集由于其体量庞大、种类繁多、增长速度快,传统的数据处理工具难以有效处理。大数据不仅仅是对数据量的扩展,更是对数据处理、分析和应用的全面革新。
Apache Flink
Apache Flink
Apache Flink 是一个用于可扩展批处理和流数据处理的开源平台。Flink 在一个系统中支持批处理和流分析。分析程序可以用 Java 和 Scala 中简洁、优雅的 API 编写。
0篇内容
0 章教程
5 个问答
0道面试题
Tremor
Tremor
Tremor 是一个开源的事件处理系统和实时数据处理引擎,主要用于处理和分析大规模、高频率的消息流。它被设计为一个可编程、低延迟、高吞吐的数据处理系统,特别适合于物联网(IoT)、实时分析、监控和复杂事件处理(CEP)等用途。
0篇内容
0 章教程
0 个问答
0道面试题
Apache Hive
Apache Hive
Apache Hive 是可实现大规模分析的分布式容错数据仓库系统。该数据仓库集中存储信息,您可以轻松对此类信息进行分析,从而做出明智的数据驱动决策。Hive 让用户可以利用 SQL 读取、写入和管理 PB 级数据。
0篇内容
0 章教程
2 个问答
0道面试题
Apache Hadoop
Apache Hadoop
Apache Hadoop 是一种开源框架,用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop,您可以将多台计算机组成集群以便更快地并行分析海量数据集,而不是使用一台大型计算机来存储和处理数据。
0篇内容
0 章教程
4 个问答
0道面试题
Apache Spark
Apache Spark
Apache Spark 是一个开源的统一分析引擎,主要用于大规模数据处理。它提供了对数据批处理和流处理的高速处理能力,并支持多种编程语言(如 Java、Scala、Python 和 R)。Spark 由 Apache 软件基金会维护,并且在大数据生态系统中占有重要地位。
0篇内容
0 章教程
0 个问答
0道面试题
Apache HBase
Apache HBase
Apache HBase 是一个分布式的、面向列的开源数据库,基于 Hadoop 文件系统(HDFS)构建,旨在处理大规模的结构化数据存储。HBase 最初由 Google 的 Bigtable 论文启发,并成为了 Hadoop 生态系统中的关键组成部分。它能够提供实时读写访问,并支持随机、实时的读写需求,非常适合处理大数据应用场景。
0篇内容
0 章教程
0 个问答
0道面试题
Apache Kudu
Apache Kudu
Apache Kudu 是一个为 Hadoop 生态系统设计的开源列式存储引擎,于 2015 年由 Cloudera 公司开发并捐赠给 Apache 软件基金会。Kudu 旨在结合传统 Hadoop 生态系统(如 HDFS)的高吞吐量和低延迟的数据访问能力,提供高效的随机读写和快速的分析查询能力。
0篇内容
0 章教程
0 个问答
0道面试题
Apache Storm
Apache Storm
Apache Storm 是一个分布式实时计算系统,专门用于处理大规模的数据流。它最初由 Twitter 开发并于 2011 年开源,后来成为 Apache 软件基金会的顶级项目。Storm 允许开发者创建实时数据处理应用(称为拓扑),并能够在分布式环境中低延迟、高吞吐量地处理数据流。
0篇内容
0 章教程
0 个问答
0道面试题
Tez
Tez
支持DAG作业的开源计算框架。相对于MapReduce性能更好,主要原因在于其将作业描述为DAG(有向无环图),这一点与Spark类似
0篇内容
0 章教程
0 个问答
0道面试题
Zookeeper
Zookeeper
Zookeeper是一种分布式协调服务,它提供了一组简单的原语,可以帮助开发人员构建分布式应用程序。Zookeeper的核心功能是管理和协调分布式应用程序中的进程,这些进程需要协调访问共享资源或协调执行任务。Zookeeper通过维护一个分层命名空间和状态树来实现这一点,应用程序可以向Zookeeper注册自己的状态,其他应用程序可以在Zookeeper上监听这些状态。Zookeeper还提供了一些其他的功能,如分布式锁和队列,以帮助开发人员构建高可用性、可伸缩性和可靠性的分布式系统。Zookeeper通常与Hadoop、Kafka和其他分布式系统一起使用。
0篇内容
0 章教程
4 个问答
0道面试题