Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV

2022年12月29日09:27:48

1. 目标

通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上
爬虫和机器学习在Python中容易实现
在Linux环境下编写Python没有pyCharm便利
需要建立Python与HDFS的读写通道

2. 实现

安装Python模块pyhdfs
版本:Python3.6, hadoop 2.9

读文件代码如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路径,根目录/
for r in res:
    line=str(r,encoding='utf8')#open后是二进制,str()转换为字符串并转码
    print(line)

写文件代码如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop用户拥有写权限
str='hello world'
client.create('/py.txt',str)#创建新文件并写入字符串

上传本地文件到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
client.copy_from_local('d:/pydemo.txt', '/pydemo')#本地文件绝对路径,HDFS目录必须不存在

3. 读取文本文件写入csv

Python安装pandas模块
确认文本文件的分隔符

# pyhdfs读取文本文件,分隔符为逗号,
from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas调用读取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#参数为源文件,编码,分隔符
# 数据集to_csv方法转换为csv
df.to_csv('demo.csv',encoding='gbk',index=None)#参数为目标文件,编码,是否要索引

作者：翱翔的江鸟
原文链接：https://blog.csdn.net/wxfghy/article/details/80941088
更新时间：2022年12月29日09:27:48 ，共 1028 字。

相关文章

Android 4.0.1破坏了WebView HTML 5本地存储？ 02/21

通过覆盖的HTML元素
传递鼠标单击 02/21

HTML5画布变形 02/21

Firefox中的HTML5输入类型“数字” 02/20

将HTML5 SVG对准屏幕中心 02/20

随机文章

python连接数据库并执行SQL语句 01/25

使用API访问开启kerberos集群下的HDFS 01/31

Flutter实现心动的动画特效_Android 04/25

SpringSecurity核心过滤器-CsrfFilter 06/03

JS/JQ动态创建（添加）optgroup和option属性 05/23

上一篇
pyhton深度学习基于pytorch——创建Tensor和修改Tensor形状下一篇
解决python针对hdfs上传和下载问题

文章导航

热门标签

TCP 交换机链路聚合 Wireshark IGMP QOS RADIUS 华为 LDP IPV6 MPLS IP 交换 GPON DHCP Vlan LACP BGP选路 VPN 组播 OSPF ISIS 路由 PIM NAT BGP H3C CCNA视频教程 STP 网络工程师小助手

最新文章

Android 4.0.1破坏了WebView HTML 5本地存储？ 02/21

通过覆盖的HTML元素
传递鼠标单击 02/21

HTML5画布变形 02/21

Firefox中的HTML5输入类型“数字” 02/20

将HTML5 SVG对准屏幕中心 02/20

HTML5画布 canvas移动 02/20

Internet Explorer无法为元素呈现任何类型的背景颜色。 02/20

如何使用HTML5 SVG绘制正弦波？ 02/20

如何使用画布HTML5元素从底部中心角度旋转图像？ 02/20

win11系统怎么通过cmd进入d盘 12/30

热门文章

PHP范围解析运算符（：:)
完全删除数组中的多余元素-JavaScript
在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
JavaScript在数组的伪索引处插入元素方法详解
PHP整数数据类型
PHP错误控制运算符
PHP类型杂耍详解
PowerShell版本7中引入了哪些新的Null运算符？
PowerShell中$ ErrorView的用途是什么？
PHP执行运算符
Java中的守护程序线程和用户线程之间的区别
如何知道是否在Javascript集中搜索值？
用JavaScript创建Set的方法？
我们如何用Java编码JSON对象？
什么是JavaScript集？

把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！
站点地图

登录找回密码

用户名

密码

记住我的登录信息

输入用户名或电子邮箱地址，您会收到一封新密码链接的电子邮件。

用户名或电子邮件地址

文章目录

繁