引言:HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等。得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文\期刊),这些很多都在工业界使用了。大家也可以感觉下,HBase应用的方面还是非常多的。大家也可以看下是否的场景是否对应起来。 由于涉及到版权,我提供链接,不提供资源下载,请大家见谅。
HBase最主要的特性:
HBase基于HDFS,可以提供廉价的解决方案。在阿里云ApsaraDB for HBase会发布基于D1、I2的物理机方案,存储成本为0.1元每GB每月左右,且可以在线动态添加节点,增加容量。 无需一次性投入全年的量。
HBase容量可以无限扩容:在100T的数据量上毫无压力,在1P的数据量上也类似。
HBase提供超高的并发量:主要得益于系统的除了Master之外的所有节点都直接跟客户端通信,且系统自动分区。有的系统会有一个路由中心,此会极大的限制并发量及流量
跟Spark、hadoopMR等分析系统结合 关于 阿里云HBase产品的优势见:阿里云HBase优势
物联网行业
基于HBase的大规模无线传感网络数据存储系统 : 无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据.针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统.实验结果证明,该系统有良好的扩展性、存储和查询效率.
车联网
基于HBase的车联网传感数据管理系统设计 :关系型数据库由于面向行存储以及无法扩展等原因,已很难满足大规模车联网传感数据的存储与查询要求.针对该问题,设计了一个基于非关系型数据库HBase存储的车联网传感数据管理系统.该系统采用Hadoop与HBase搭建分布式实验平台,采用C#语言开发Web网页端.通过与传统关系型数据库SQL Server的存储与查询效率进行对比分析,表明HBase在处理大规模车联网传感数据方面具有明显优势.
基于HBase的交通数据区域查询方法 :随着智能交通的发展,交通数据呈现出指数性增长.为了提升时空区域查询性能,论文提出了一种基于HBase的交通数据区域查询方法HRQ.该方法利用交通数据的三维时空特性,采用Geohash算法将交通数据的经纬度信息转为Geohash编码,然后与时间组合作为HBase行键,并设计了相应的查询算法.实验结果表明,与直接组合经纬度和时间作为行键的方法相比,在基于时间范围的区域查询上HRQ方法的性能要高30%以上,在基于区域范围的区域查询上HRQ的性能优势随着查询区域的增大而增加.
交通
基于HBase的交通流数据实时存储系统 :交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.
电力
HBase 在智能电网异构数据同步中的应用 :未来的智能电网在运行中将会产生海量的多态、异构数据,对这些数据的可靠获取、实时分析、同步及处理会给电网信息系统带来前所未有的压力。因此,把电网大数据迁移到云端—数据中心,来实现异构数据的精准、实时同步则显得尤为必要。以解决未来智能电网大数据处理问题为出发点,通过对电网数据中心相关功能需求进行细致分析,对比传统的关系型数据库建模基础,提出了基于Hbase架构的智能电网数据中心的解决方案。最后通过对比 MySQL 性能进行模拟测试,得出所提出的设计方案能够很好地适用于未来智能电网数据中心的构建以及异构数据的同步,达到电网大数据的实时共享、监测及准确分析、处理的目的,在未来智能电网信息管理系统中具有广阔的应用前景。
金融
基于HBase的金融时序数据存储系统 : 设计并实现了1个基于HBase的金融时序数据的存储系统。设计了基于金融时序数据的HBase预分区策略,可解决HBase存储热点的问题;采用了行键优化策略和基于时序数据的表设计策略,可解决数据存储分散的问题;使用了提供异步处理机制的事件驱动的Netty框架所编写的中间件接收采集器发送的请求,可解决高并发事务的处理问题。实验结果表明,与HBase原生方法相比,该系统的性能在处理高并发事务时更好。
航空
基于HBase的民用航空发动机大数据管理系统 : 为克服传统关系型数据库存储管理海量航空发动机状态监控数据的不足,本研究提出了基于HBase的民用航空发动机大数据管理系统.首先分析了该系统的功能需求,给出了系统整体架构与模块设计,并对关键技术进行了阐述.最后设计试验对比HBase与Oracle的搜索效率.试验结果表明检索结果集较大时HBase的搜索效率明显高于Oracle.本研究中提出的航空发动机大数据管理系统为发动机海量数据的存储管理提供了一种解决方案.
小文件存储(图片视频等)
一种基于HBase的海量图片存储技术 针对海量图片存储,已有若干个基于Hadoop的方案被设计出来.这些方案在系统层小文件合并、全局名字空间以及通用性方面存在不足.本文基于HBase提出了一种海量图片存储技术,成功解决了上述问题.本文将介绍基于HBase海量图片存储技术方案,分析其原理及优势,该方案在城市交通监控中得到应用验证.
基于 HBase 的小文件高效存储方法 :基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。
GFIC亚太物联网(IoT)峰会以“万物互联、万众创新”为核心理念,以“大连接”为主题,旨在通过聚集海内外科技巨头、创新成果,积极打造IoT创新服务平台。
GFIC亚太物联网峰会为邀请制闭门峰会
现开放观摩通道,仅限50席!先到先得!
-购买黄金VIP门票可获得
-11月14日欢迎晚宴
-11月15日VIP晚宴
责任编辑:吴礼得