使用pyspark读写hive数据表

2022-12-30 13:55:50

spark 版本 2.1.0

1、读Hive表数据

pyspark提供了操作hive的接口,可以直接使用SQL语句从hive里面查询需要的数据,代码如下:

# -*- coding: utf-8 -*-

import sys
from pyspark.sql import SparkSession, HiveContext

reload(sys)
sys.setdefaultencoding("utf-8")

#_SPARK_HOST = "spark://spark-master:7077"
_APP_NAME = "test"
spark = SparkSession.builder.enableHiveSupport().appName(_APP_NAME).getOrCreate()

# 使用拼接sql语句的方式查询hive 表,返回dataFrame格式数据
hive_database = "test"             #  要操作的数据库
hive_table = "table_01"            #  要操作的数据表
hive_read_sql = "select * from {}.{}".format(hive_database, hive_table)

read_df = spark.sql(hive_read_sql)
# hive_context = HiveContext(spark)
# hive_context.setLogLevel("WARN") # 或者INFO等
# read_df = hive_context.sql(hive_read_sql)
print(read_df.show(10))
print('
  • 作者:MusicDancing
  • 原文链接:https://blog.csdn.net/MusicDancing/article/details/107958990
    更新时间:2022-12-30 13:55:50