首頁 > 試題

大數(shù)據(jù)處理常用技術(shù)有哪些

更新時間:2025-12-23 14:41:12 閱讀：評論：0

2024年3月17日發(fā)(作者：清單管理)

大數(shù)據(jù)處理常用技術(shù)有哪些?

storm,hba,hive,,flume,zookeeper如下

Apache Hadoop: 是Apache開源組織的一個分布式計算開源框架，提供了一個分

布式文件系統(tǒng)子項目(HDFS)和支持MapReduce分布式計算的軟件架構(gòu)。

Apache Hive: 是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映

射為一張數(shù)據(jù)庫表，通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計，不必開發(fā)專門的

MapReduce應(yīng)用，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

Apache Pig: 是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析工具，它提供的SQL-LIKE語

言叫Pig Latin，該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理

的MapReduce運(yùn)算。

Apache HBa: 是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)，利

用HBa技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。

Apache Sqoop: 是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具，

可以將一個關(guān)系型數(shù)據(jù)庫（MySQL ,Oracle ,Postgres等）中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的

HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。

Apache Zookeeper: 是一個為分布式應(yīng)用所設(shè)計的分布的、開源的協(xié)調(diào)服務(wù)，它主

要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題，簡化分布式應(yīng)用協(xié)調(diào)及其管理

的難度，提供高性能的分布式服務(wù)

Apache Mahout:是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個分布式框架。

Mahout用MapReduce實現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法，解決了并行挖掘的問題。

Apache Cassandra:是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。它最初由Facebook

開發(fā)，用于儲存簡單格式數(shù)據(jù)，集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的

完全分布式的架構(gòu)于一身

Apache Avro: 是一個數(shù)據(jù)序列化系統(tǒng)，設(shè)計用于支持?jǐn)?shù)據(jù)密集型，大批量數(shù)據(jù)交換

的應(yīng)用。Avro是新的數(shù)據(jù)序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機(jī)制

Apache Ambari: 是一種基于Web的工具，支持Hadoop集群的供應(yīng)、管理和監(jiān)

控。

Apache Chukwa: 是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)，它可以

將各種各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop

進(jìn)行各種 MapReduce 操作。

Apache Hama: 是一個基于HDFS的BSP（Bulk Synchronous Parallel)并行計算

框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計算。

Apache Flume: 是一個分布的、可靠的、高可用的海量日志聚合的系統(tǒng)，可用于日

志數(shù)據(jù)收集，日志數(shù)據(jù)處理，日志數(shù)據(jù)傳輸。

Apache Giraph: 是一個可伸縮的分布式迭代圖處理系統(tǒng)，基于Hadoop平臺，靈

感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

Apache Oozie: 是一個工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運(yùn)行在Hadoop平臺上

（HDFS、Pig和MapReduce）的任務(wù)。

Apache Crunch: 是基于Google的FlumeJava庫編寫的Java庫，用于創(chuàng)建

MapReduce程序。與Hive，Pig類似，Crunch提供了用于實現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合

和排序記錄等常見任務(wù)的模式庫

Apache Whirr: 是一套運(yùn)行于云服務(wù)的類庫（包括Hadoop），可提供高度的互補(bǔ)性。

Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。

Apache Bigtop: 是一個對Hadoop及其周邊生態(tài)進(jìn)行打包，分發(fā)和測試的工具。

Apache HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲管理，實現(xiàn)中央的元數(shù)據(jù)和模

式管理，跨越Hadoop和RDBMS，利用Pig和Hive提供關(guān)系視圖。

Cloudera Hue: 是一個基于WEB的監(jiān)控和管理系統(tǒng)，實現(xiàn)對HDFS，

MapReduce/YARN, HBa, Hive, Pig的web化操作和管理。

本文發(fā)布于:2024-03-17 14:58:00，感謝您對本站的認(rèn)可！

本文鏈接：http://m.newhan.cn/zhishi/a/88/57212.html

版權(quán)聲明：本站內(nèi)容均來自互聯(lián)網(wǎng)，僅供演示用，請勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請與我們聯(lián)系，我們將在24小時內(nèi)刪除。

本文word下載地址：大數(shù)據(jù)處理常用技術(shù)有哪些.doc

本文 PDF 下載地址：大數(shù)據(jù)處理常用技術(shù)有哪些.pdf

上一篇：云計算術(shù)語大全

下一篇：云管理平臺

標(biāo)簽：數(shù)據(jù) 用于提供實現(xiàn) 工具管理開源

相關(guān)文章

2024-04-02交通流預(yù)測算法研究
2024-04-02公司管理規(guī)章制度細(xì)則模板5篇
2024-04-02公司員工管理規(guī)章制度模板(共五篇)
2024-04-02什么是幸福?如何實現(xiàn)幸福?
2024-04-02新加坡金沙酒店作文
2024-04-02級公立醫(yī)院院長考核表
2024-04-02美容院院長崗位職責(zé)
2024-04-01簡易風(fēng)箏的制作方法和步驟
2024-04-01中國低碳轉(zhuǎn)型路徑解析
2024-04-012021年天貓?zhí)詫氹p十一銷售額「全記錄數(shù)據(jù)」

留言與評論（共有 0 條評論）