Pyspark如何读取parquet数据 Pyspark读取parquet数据过程代码解析

作者：袖梨 2020-03-27

本篇文章小编给大家分享一下Pyspark读取parquet数据过程代码解析，文中示例代码介绍的很详细，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式，linux下的pycharm执行作说明。

首先，导入库文件和配置环境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"

df = spark.read.parquet(parquetFile)

而，DataFrame格式数据有一些方法可以使用，例如：

1.df.first() ：显示第一条数据，Row格式

print(df.first())