spark 版本 2.1.0
1、读Hive表数据
pyspark提供了操作hive的接口,可以直接使用SQL语句从hive里面查询需要的数据,代码如下:
# -*- coding: utf-8 -*-
import sys
from pyspark.sql import SparkSession, HiveContext
reload(sys)
sys.setdefaultencoding("utf-8")
#_SPARK_HOST = "spark://spark-master:7077"
_APP_NAME = "test"
spark = SparkSession.builder.enableHiveSupport().appName(_APP_NAME).getOrCreate()
# 使用拼接sql语句的方式查询hive 表,返回dataFrame格式数据
hive_database = "test" # 要操作的数据库
hive_table = "table_01" # 要操作的数据表
hive_read_sql = "select * from {}.{}".format(hive_database, hive_table)
read_df = spark.sql(hive_read_sql)
# hive_context = HiveContext(spark)
# hive_context.setLogLevel("WARN") # 或者INFO等
# read_df = hive_context.sql(hive_read_sql)
print(read_df.show(10))
print('