利用python操作txt、csv、excel文件,及简单数据分析,适用于Spark1.6.0、Spark2.3.0
-
for_file/Demo.py
包含:读取本地
csv文件、选取指定列、更改列名、数据打印、保存csv文件 -
for_file/Demo2.py
包含:利用
pyspark读取本地或HDFS上的csv文件、选取指定列、更改列名、创建临时视图、各类SQL统计、数据展示、保存csv文件 -
for_file/Demo3.py
包含:读取本地
xls文件、选取指定列、更改列名、数据打印、保存xls文件
-
spark/Demo.py
包含:创建
spark.DataFrame、调用udf对指定列数据进行格式转换生成新列 -
spark/Demo2.py
包含:利用
pyspark读取本地或HDFS上的csv文件、调用udf对指定列数据进行格式转换生成新列、选取指定列、各类SQL统计、数据打印、保存JSON文件 -
spark/Demo3.py
包含:利用
pd读取本地的xls文件、pandas.DataFrame转spark.dataFrame、调用udf对指定列数据进行格式转换生成新列、选取指定列、各类SQL统计、数据打印、保存JSON文件 -
spark/Demo4.py
包含:创建
spark.DataFrame、创建临时表、根据临时表在Hive中建表并导入数据、查询Hive中新表 -
spark/Demo5.py
包含:读取Hive上的表、过滤所有空值、并以JSON格式保存回HDFS
spark-submit --master yarn --deploy-mode cluster --py-files /root/Demo5.py -
spark/Demo6.py
包含:引入自定义模块、
array转RDD、RDD转spark.DataFrame、并以text格式保存回HDFSspark-submit --master yarn --deploy-mode cluster --py-files /root/dep.zip /root/Demo6.py
-
spark2/Demo.py
包含:创建
spark.DataFrame、调用udf对指定列数据进行格式转换生成新列 -
spark2/Demo2.py
包含:利用
pyspark读取本地或HDFS上的csv文件、调用udf对指定列数据进行格式转换生成新列、选取指定列、各类SQL统计、数据打印、保存JSON文件 -
spark2/Demo3.py
包含:利用
pd读取本地的xls文件、pandas.DataFrame转spark.dataFrame、调用udf对指定列数据进行格式转换生成新列、选取指定列、各类SQL统计、数据打印、保存JSON文件 -
spark2/Demo4.py
包含:创建
spark.DataFrame、创建临时表、根据临时表在Hive中建表并导入数据、查询Hive中新表 -
spark2/Demo5.py
包含:读取Hive上的表、过滤所有空值、并以JSON格式保存回HDFS
spark2-submit --master yarn --deploy-mode cluster --py-files /root/Demo5.py -
spark2/Demo6.py
包含:引入自定义模块、
array转RDD、RDD转spark.DataFrame、并以text格式保存回HDFSspark2-submit --master yarn --deploy-mode cluster --py-files /root/dep.zip /root/Demo6.py
- tools/dir_compare.py
pip install pyspark==1.6.0 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install py4j -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install pyarrow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
或
cp -r /opt/cloudera/parcels/CDH-5.16.2-1.cdh5.16.2.p0.8/lib/spark/python/pyspark /usr/lib64/python2.7/site-packages
yum -y install epel-release
yum install -y python-pip
pip install py4j==0.10.7 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install pyspark==2.3.0 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install py4j -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install pyarrow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
或
cp -r /opt/cloudera/parcels/SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101/lib/spark2/python/pyspark /usr/lib64/python2.7/site-packages
yum -y install epel-release
yum install -y python-pip
pip install py4j==0.10.7 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
更多详细API请访问
http://spark.apache.org/docs/latest/api/python/index.html
https://blog.csdn.net/sinat_26917383/article/details/80500349