大数据之hive 开发环境搭建 单节点 / 分布式 全流程指南

大数据阿木 发布于 6 天前 1 次阅读


开发环境搭建:Hive在单节点与分布式环境下的全流程指南

Hive作为Apache Hadoop生态系统中的一个重要组件,主要用于处理大规模数据集。它提供了类似SQL的查询语言HiveQL,使得非编程人员也能轻松地对Hadoop中的数据进行查询和分析。本文将围绕Hive的开发环境搭建,详细介绍在单节点和分布式环境下的全流程指南。

单节点环境搭建

1. 系统要求

在搭建Hive单节点环境之前,需要确保服务器满足以下要求:

- 操作系统:Linux(推荐使用CentOS 7)

- Java环境:Java 8或更高版本

- Hadoop环境:Hadoop 2.x或更高版本

2. 安装步骤

2.1 安装Java

bash

安装Java


sudo yum install -y java-1.8.0-openjdk


配置环境变量


echo 'export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk' >> ~/.bashrc


echo 'export PATH=$JAVA_HOME/bin:$PATH' >> ~/.bashrc


source ~/.bashrc


2.2 安装Hadoop

bash

安装Hadoop


sudo yum install -y hadoop


配置Hadoop环境变量


echo 'export HADOOP_HOME=/usr/lib/hadoop' >> ~/.bashrc


echo 'export PATH=$HADOOP_HOME/bin:$PATH' >> ~/.bashrc


source ~/.bashrc


2.3 下载Hive

bash

下载Hive


wget https://www.apache.org/dyn/closer.cgi/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz


解压Hive


tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /usr/local/


重命名Hive目录


mv /usr/local/apache-hive-3.1.2-bin /usr/local/hive


2.4 配置Hive

bash

配置Hive环境变量


echo 'export HIVE_HOME=/usr/local/hive' >> ~/.bashrc


echo 'export PATH=$HIVE_HOME/bin:$PATH' >> ~/.bashrc


source ~/.bashrc

配置Hive配置文件


cd /usr/local/hive/conf


cp hive-env.sh.template hive-env.sh


vi hive-env.sh


添加以下内容


export HADOOP_HOME=/usr/lib/hadoop


export HIVE_HOME=/usr/local/hive


export HIVE_CONF_DIR=$HIVE_HOME/conf


2.5 启动Hadoop和Hive

bash

格式化HDFS


hdfs namenode -format

启动Hadoop守护进程


start-dfs.sh

启动HiveServer2


hive --service hiveserver2


3. 验证Hive

bash

启动Hive客户端


beeline


连接Hive


!connect jdbc:hive2://localhost:10000/default


执行查询


select from employees limit 10;


分布式环境搭建

1. 系统要求

分布式环境搭建需要多台服务器,以下为基本要求:

- 操作系统:Linux(推荐使用CentOS 7)

- Java环境:Java 8或更高版本

- Hadoop环境:Hadoop 2.x或更高版本

- 网络环境:服务器之间网络畅通

2. 安装步骤

2.1 安装Java

与单节点环境相同,此处不再赘述。

2.2 安装Hadoop

与单节点环境相同,此处不再赘述。

2.3 下载Hive

与单节点环境相同,此处不再赘述。

2.4 配置Hive

与单节点环境相同,此处不再赘述。

2.5 配置集群

bash

配置集群文件


cd /usr/local/hive/conf


cp hive-site.xml.template hive-site.xml


vi hive-site.xml


添加以下内容


<property>


<name>hive.metastore.uris</name>


<value>thrift://master:9083</value>


</property>


<property>


<name>hive.server2.thrift.port</name>


<value>10000</value>


</property>


<property>


<name>hive.server2.thrift.bind.host</name>


<value>master</value>


</property>


2.6 启动集群

bash

格式化HDFS


hdfs namenode -format

启动Hadoop守护进程


start-dfs.sh

启动HiveServer2


hive --service hiveserver2


3. 验证Hive

与单节点环境相同,此处不再赘述。

总结

本文详细介绍了Hive在单节点和分布式环境下的开发环境搭建过程。通过本文的指导,读者可以轻松搭建Hive环境,并开始进行大数据分析。在实际应用中,还需要根据具体需求对Hive进行优化和配置,以充分发挥其性能。