ISBN/价格: | CNY20.00 (估\呈缴)学位论文 |
---|---|
作品语种: | chi |
出版国别: | CN 530000 |
题名责任者项: | 基于HBase和ClickHouse农业空间大数据存储与索引的对比研究/.章炳雪著/.曹志勇指导 |
出版发行项: | 2023.5.31 |
载体形态项: | 66页:;+图表:;+30cm |
一般附注: | 大数据学院, 学号2020250114 |
提要文摘: | 农业空间大数据多为非结构化的多维海量数据,在社会生产实践活动中处理这类数据面临很多挑战,如基于传统软件架构PostgresSQL(PostGIS)、Oracle(SDE、SDO)下的农业大数据管理与应用,存在查询性能急剧下降、计算和存储资源不能弹性扩展等问题。HBase和ClickHouse作为分布式可扩展的NoSQL数据库,虽然不能直接管理农业空间数据,但是在解决传统农业空间大数据的查询性能下降、资源扩容难度大等问题具有很好的优势。本文从以下四个方面探究Hbase和ClickHouse在农业空间大数据存储与索引查询的异同: (1)构建农业空间大数据的并行抽取转换方案。传统关系型空间数据库面临处理海量历史空间数据统一整合转换的难题,第二章采用Spark整合Apache Sedona空间数据处理框架,实现传统关系型空间数据库历史数据的并行抽取转换。设计一种基于Spark任务并行度评估计算法则,自动生成Spark读取数据分区预规划条件,提高海量空间数据抽取转换处理效率,完整实现了空间数据并行抽取转换操作。 (2)建立基于HBase农业空间大数据处理方案。面向GeoJson格式的地理空间数据,第三章研究HBase地理空间数据表的结构和数据存特性、表Region分裂特征,提出降低数据倾斜和数据查询热点发生概率的空间索引表,数据表分区设计、行建设计、列族设计。基于HBase数据写入原理,利用HBase BulkLoad方法批量导入预构建的空间索引表数据和关联的空间数据表数据。依据HBase读取数据机制提出分层空间索引模型,分为一级网格索引层的HBase Meta表和二级索引层的分布式R*树表;利用HBase Endpoint协处理器执行机制,实现空间数据并行查询与过滤,建立了基于HBase处理农业空间大数据的方案。 (3)实现基于ClickHouse农业空间大数据处理方案。面向GeoJson格式的地理空间数据,第四章阐述了ClickHouse数据分片、数据副本、表引擎的特征,提出基于ClickHouse空间数据索引基础表和空间数据明细表的数据库设计和表引擎设计方案。利用ClickHouse索引机制、分布式表并行查询机制、向量化引擎机制、可执行表函数执行原理,实现动态构建R*树查询执行表函数、空间叠加查询执行表函数。从而构建空间数据索引基础表用于查询R*树的动态构建和空间数据过滤,空间数据明细表用于业务空间数据查询处理,实现基于ClickHouse的轻量级农业空间大数据处理方案。 (4)基于HBase和ClickHouse农业空间大数据处理的异同。对比分析基于HBase和ClickHouse处理农业空间大数据的差异,从索引构建入库性能、数据入库性能、索引查询性能、数据热点发生概率方面进行测试分析。在数据量大于10万条以上,ClickHouse索引查询性能比HBase快(?T = THBase - TClickHouse, ?T超过0.3秒),ClickHouse数据查询热点的发生概率比HBase降低了7.5%。表明基于ClickHouse的农业空间大数据处理方案在空间数据入库、空间数据查询性能、空间数据查询热点问题均优于HBase处理方案。 本研究提出了基于HBase和ClickHouse处理农业空间大数据的方案,对比测试两种方案的性能。面对海量的农业空间大数据时,基于ClickHouse方案在空间数据快速入库,减少空间数据查询热点发生概率方面具有很大的优势和潜力,在农业智能化生产中具有很重要的应用意义。 |
并列题名: | Comparative Study on Agricultural Spatial Big Data Storage and Indexing Based on HBase and ClickHouse eng |
题名主题: | 农业大数据 HBase 空间索引 ClickHouse 协处理器 并行计算 R*树 学位论文 |
中图分类: | TP311.52-533 |
个人名称等同: | 章炳雪 著 |
个人名称次要: | 曹志勇 指导 |
团体名称等同: | 云南农业大学 授予 |
记录来源: | CN YNAUL 20240301 |