大数据之hdfs 自定义存储策略 存储类型 / 访问模式 配置

大数据阿木 发布于 5 天前 2 次阅读


摘要:随着大数据时代的到来,Hadoop分布式文件系统(HDFS)作为大数据存储的核心组件,其存储策略的配置对于提高数据存储效率和访问性能至关重要。本文将围绕HDFS自定义存储策略,详细探讨存储类型和访问模式的配置方法,以期为大数据存储优化提供参考。

一、

HDFS作为Hadoop生态系统中的核心组件,主要用于存储海量数据。在HDFS中,存储策略的配置包括存储类型和访问模式两个方面。存储类型决定了数据的存储方式,而访问模式则决定了数据的访问方式。本文将详细介绍HDFS自定义存储策略的配置方法,以帮助读者更好地优化大数据存储。

二、HDFS存储类型配置

1. 文件存储类型

HDFS支持多种文件存储类型,包括:

(1)SequenceFile:适用于存储大量结构化数据,如日志文件、序列化对象等。

(2)TextFile:适用于存储文本数据,如日志文件、配置文件等。

(3)Parquet:适用于存储结构化数据,具有高效压缩和编码特性。

(4)ORC:适用于存储结构化数据,具有高效压缩和编码特性。

2. 文件存储类型配置方法

以Parquet为例,介绍文件存储类型的配置方法:

(1)创建Parquet文件存储目录

shell

hadoop fs -mkdir -p /user/hadoop/parquet


(2)上传数据到Parquet目录

shell

hadoop fs -put /local/data/.txt /user/hadoop/parquet


(3)使用Parquet存储类型存储数据

```shell

hadoop jar /path/to/hadoop-streaming.jar

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputCommitter

-D mapreduce.job.outputformat.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

-D mapreduce.map.output.key.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.map.output.value.class=org.apache.hadoop.hive.ql.io.parquet.MapredParquetRecordWriter

-D mapreduce.job.output.key.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.job.output.value.class=org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveRecordWriter

-D mapreduce.outputformat.outputcommitter