实例介绍
华为FusionInsight HD 2.7 技术白皮书,详细介绍了华为版Hadoop的各个组件功能。华为FusionInsight是华为企业级大数据存储、查询、分析的统一平台。
华为 Fusionlnsight hd27 技术白皮书 日录 目录 1简介… 1.1 Fusionlnsight hD概述 1.2 FusionInsight HD组件介绍. 2重点组件介绍 5 2.集群管理 Manager 6 22分布式文件系统HDFS 23统一资源管理和调度框架YARN 24分布式批处理引擎 Mapreduce. 25分布式数据库 HBase 2.6数据仓库组件Hive 27分布式内存计算引擎 Spark 28全文检索组件Solr. 29批量数据集成 Loader( Scoop)… .12 2.10实时数据采集 Flume 14 2.11流式事件处理( Storn)… 2.11.1 Storm 2.11.2 StreamCQL… 2.11.3 Flink 2.12分布式高速缓存 Redis 2.|3分布式消息队列 Kafka 2.14作业编排与调度 Oozie........... 21 2.15数据继承入凵Hue 文档版本01(2017-07-30) 华为专有和保密信息 版权所有c华为技术有限公司 华为 Fusionlnsight hd27 技术白皮书 1简介 简介 1.1 FusionInsight HD概述 1.2 FusionInsight hD组件介绍 文档版本01(2017-07-30) 华为专有和保密信息 版权所有c华为技术有限公司 华为 FusionInsight hd27 技术白皮书 1简介 11 FusionInsight hD概述 FusionInsight是华为仝业级大数据存储、查询、分析的统一平台,能够帮助全业快速构 建海量数据信息处理系统,通过对巨量信恳数据实吋与非实时的分析挖掘,发现全新 价值点和企业商机 应用层 REST API 数据服务明细影像推荐/伪控关系轨迹 Data 世像 Service REST API/SQL/SDK loader Me知认 Former Manager 数据分析 Data Farm数据集成信 数据挖 识、服务框智慧 配置管理 性能管理 告警管理 数据处理 发全管理 DataoS hadoop Spark2 STORM(Flink LibrA租户管理 灾备管理 FusionInsigh解决方案由5个子产品 FusionInsight hD、 Fusioninsight libra、 FusionInsight miner、 FusionInsight Farmer和1个操作运维系统 FusionInsight manager构 成 FusionInsight HD:企业级的大数据处理环境,是一个分布式数据处理系统,对外 提供大容量的数据存储、分析查询和实时流式数据处理分析能力。 usionInsight HD包括 Zookeeper、 Hadoop、 HBase、 Loader、 HBase、Hive、 Hue、 Oozie、 Phoenix、Solr、 Redis、 Spark、 Streaming、 Kafka、E、 Flink等 组件。 FusionInsight miner:个业级的数据分析平台,基于华为 FusionInsight hd的分布式 存储和并行计算技术,提供从海量数据中挖掘出价值信息的平台。 FusionInsight Farmer:企业级的大数据应用容器,为企业业务提供统一开发、运行 和管埋的平台。 Fusionlnsight Manager:企业级大数据的操作运维提供,提供高可靠、安全、容 错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管 理、权限管理、审计、服务管理、健康检査、问题定位、升级和补丁等功能 FusionInsight librA:企业级的MPP关系型数据库,基于列存储和MPP架构,是为 面向结构化数据分析而设计开发的,能够有效处理PB级别的数据量。 FusionInsight LibrA在核心技术上跟传统数据库有巨大差别,可以解决很多行业用户的数据处理 性能问题,可以为超大规模数据管理提供高性价比的通用计算平台,并可用于支 撑各类数据仓库系统、BⅠ( Business intelligence)系统和决策支持系统,统一为上 层应用的决策分析等提供服务。 文档版本01(2017-07-30)华为专有和保密信息 版权所有c华为技术有限公司 华为 FusionInsight hd27 技术白皮书 1简介 12 FusionInsight hD组件介绍 数招外析 数据集成 菜群理 款据挖握 数据挖掘 处理 Mahout(on MR MI I ib(on Spark) ahx 款什理 作业调应 DSL领域描述语 U。2e 枇处 互询 KV面 流式杏诈 Hive parksQL Redis StreamcQL 批量 分市式计算引 Loade 故障管卫 七处理 流处理 附件处理 MapReduce Flinkstorm 实时采 性能管理 分布式资源管 Y 消思队列 安仝售翅 Kalka 分布式存储雪 NOSQL数招库 按素引 ≤QL行惴格式 租户管理 上传下载 FtnonHDFS OROPalyueLCai bun De莫 分布式文件系统 备份曾理 HDFS FusionInsight hd需要对廾源组件进行封裝和增强,对外提供稳定的大容量的数据存 储、查询和分析能力。各自组件提供功能如下 Manager:作为运维系统,为 I FusionInsight hD提供高可靠、安全、容错、易用的集 群管理能力,支持大规模集群的安装/级/补丁、配置管理、监控管理、告警管 理、用户管理、租户管理等。 HDFS: Hadoop分布式文件系统( Hadoop Distributed File System),提供高吞吐量 的数据访问,适合大规模数据集方面的应用。 HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存 储系统。 Oozie:提供了对开源 Hadoop组件的任务编排、执行的功能。以 Java Web应用程序 的形式运行在 Java servlet容器(如: Tomcat)中,并使用数据库来存储工作流定 义、当前运行的工作流实例(含实例的状态和变量)。 Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统遷免单点故障,从 而建立可靠的应用程序 Redis:提供基于内存的高性能分布式KV缓存系统。 Yarn: Hadoop2.0中的資源管理系统,它是一个通用的资源模块,可以为各类应用 程序进行资源管理和调度。 Mapreduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执 行环境。 Spark:基于内存进行计算的分布式计算架 Hive:建立在 Hadoop基础上的井源的数据仓库,提供类似SQL的HⅤeQL语言操作 结构化数据存储服务和基本的数据分析服务。 Loader:基 J Apache Scoop实巩 FusionInsight hD与关系型数据库、p/sp文件服 务器之间数据批量导入导出工具:同时提供 Java api/ shell!务调度接口,供第三 方调度平台调用。 ●Hue:提供了开源 Hadoop绀件的 WebUI,可以通过浏览器操作HDFS的目录和文 件,调用 Oozie米创建、监控和编排工作流,可操作 Loader组件,査看Zo< eeper集 群情况。 文档版本01(2017-07-30) 华为专有和保密信息 版权所有c华为技术有限公司 华为 FusionInsight hd27 技术白皮书 1简介 Flume:一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类 数据发送方,用于收集数据;同时,Fume提供对数据进行简单处理,并写入各种 数据接受方(可定制)的能力。 ●Solr:一个髙性能,基于 Lucene的全文检索服务器。Solr对 Lucene进行了扩展,提 供比 Lucene更为肀富的查询语言,同时实现」可配置、可扩展,并对查询性能 进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索 引擎 Kafka:一个分布式的、分区的、多副本的实时消息发布-订阅系统。提供可护 展、扃吞吐、低延迟、高可靠的消息分发服务 Storm:一个分布式、可靠、容错的实时流式数据处理的系统,并提供类SQL treaInCQL)的查询语言 Fink:分布式的、高可用的、能保证 Exactly Once语义的针对流数据和批数据的处 理引擎 SparkSQL:基于 Spark引擎的高性能SQL引擎,可与Hive实现元数据共享。 Mahaut:提供基于 Mapreduce的数据挖掘算法库 MLLib:提供基于 Spark的数据挖掘算法库 phx:提供基于 Spark的图处理算法库 文档版本01(2017-07-30) 华为专有和保密信息 版权所有c华为技术有限公司 华为 Fusionlnsight hd27 技术白皮书 2重点组件介绍 2 重点组件介绍 21集群管理 Manager 22分布式文件系统HDFS 2.3统一资源管理和调度框架YARN 24分布式批处理引擎 MapReduce 2.5分布式数据库 HBase 2.6数据仓库组件Hive 27分布式内存计算引擎 Spark 28全文检索组件Solr 2.9批量数据集成 Loader( Scoop) 210实时数据采集 Flume 2.ll流式事件处理( Storm) 212分布式高速缓存 Redis 213分布式消息队列 Kafka 2.14作业编排与调度 Oozie 2.15数据继承入口Hue 文档版本01(2017-07-30) 华为专有和保密信息 版权所有c华为技术有限公司 华为 Fusionlnsight hd27 技术白皮书 2重点组件介绍 21集群管理 Manager Manager是 FusionInsight H的运维管理系统,为部署在集群内的服务提供统一的集群管 理能力。 Manager支持大规模集群的安裝部署、性能监控、告警、用户管理、权限管 理、审计、服务管理、健康检査、日志采集、升级和补丁等功能 图2-1 Manager逻辑架构 w已妇U P Sere IAMCEP PMS 匚就动a Ldap OM M Agent Node Agent NTP Cler DHTL FusionInsight Manager FusionInsight Manager由OMS和 NodeAgent组成: ●OMS:操作维护系统的管理节点,OMS·般有两个,互为主备。 NodeAgen:操作维护系统中的所有被管理节点,每个节点上一个。 表2-1业务模块说明 模块名称 描述 Web Service是一个部署在 Tomcat下的web服务,提供 Manager的htts:接口,用于 通过浏览器访问 Manager。同时还提供基于 Syslog和SNMP协议的北 向接入能力 Controller Manager的控制中心,负责汇聚来自集群中所有节点的信息,统一问 管理员展示,以及负责接收来自管理员的操作指令,并且依据操作 指令所影响的范围,向集群的所有相关节点同步信息 nodeAgent 存在于每一个集群节点,是 Controller对部署在该节点上组件做 切操作的代理。 代表本节点上部署的所有组件与 Controller交互,实现整个集群多 点到单点的汇聚 IAM 负责记录审计日志。在 Manager的U上每一个非查询类操作,都有对 应的审计日志 文档版本01(2017-07-30) 华为专有和保密信息 版权所有c华为技术有限公司 华为 Fusionlnsight hd27 技术白皮书 2重点组件介绍 模块名称 描述 PMS 性能监控模块,搜集每一个OMA上的性能监控数据并提供査询 CEP 汇聚功能模块。比如将所有OMA上的磁盘已用空间汇总成一个性能 指标 FMS 告警模块,搜集每一个OMA上的告警并提供查询 OMMAgent各节点上面性能监控和告警的Agen,负责收集该 Agent Node上的性 能监控数据和告警数据 CAS 统一认证中心,登录 Web service时需要在CAS进行脊录认证,浏览 器通过URL自动跳转访问CAS AOS 权限管理模块,管理用户和用户组的权限 OMS Kerberos提供单点登录及 Controller与 Nodc agent间认证的功能 OMS Ldap在集群安装前为用广认证提供数据仔储,在集群安装后作为集群中 Ldap的备份 Database Manager的数据库,负责存储配置、监控、告警等信息 NTP 负责集群内部各节点与OMS节点之向的时钟同步和OMS节点与外 部时钟源之间的时钟同步。 22分布式文件系统HDFS HDFS是 Hadoop的分布式文件系统,实现大规模数据叮靠的分布式读写。HDFS针对的 使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写, 也就是在文件创建时的写入或者在现有文件之后的添加操作。HDHS保证一个文件在 个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 图2-2分布式文件系统HDFS HDFS Architecture Metadata(Name, re ) Metadata. ops Namenode /home/foo/data. 3 Black ops Read Datanodes Datanodes Replication Blocks Rack 1 Write Rack 2 文档版本01(2017-07-30) 华为专有和保密信息 版权所有c华为技术有限公司 【实例截图】
【核心代码】
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论