Python读取文件并写入到MaxCompute表

news/2024/10/19 16:35:07/

使用Python,或者使用DataWorks创建PyODPS3节点,读取FTP或者远程FTP文件,然后写入到MaxCompute指定表的分区中。使用的库若未安装,可用pip install方式安装。代码如下:

from odps import ODPS
from odps.df import DataFrame
import numpy as np
import pandas as pd
from odps.df import outputo = ODPS('<odps-key>', 'odps-secret', 'project-name', endpoint='endpoint-address')
t = o.get_table('tmp_xxm_test')my_file = '/Downloads/tmp_xxm_test.csv'field_types = {'账户ID': object,'点击数': np.float64,  # np.float64'花费': object,'时间': object
}
# 先读取数据然后设定类型
data_src = pd.read_csv(my_file, header=0, dtype=field_types)# 修改数据类型,可取代指定每列的类型
# data_src['my_num'] = data_src['my_num'].astype('Int32')data_1 = pd.read_csv('/Downloads/tmp_xxm_test_1.csv', header=0, dtype=field_types)
# 两个DataFrame合并,即UNION
df = pd.concat([data_src, data_1], axis=0, join='outer', ignore_index=False)'''
方式1:自定义方式写入,该方式可以写入到指定分区中,None表示写入null
'''
with t.open_writer(partition='ds=20231128', create_partition=True) as writer:records = data_src.apply(lambda x: [None if pd.isna(x['my_id']) else x['my_id'],None if pd.isna(x['my_num']) else x['my_num'],None if pd.isna(x['my_amt']) else x['my_amt'],None if pd.isna(x['my_time']) else x['my_time']], axis='columns').tolist()print(records)writer.write(records)print('sucess.')'''
方式2:persist方式写入
1. 该方式写入时,目标表不要创建整数字段,因为如果整数字段为np.float的NaN或者pd的NA则无法转为integer。
2. 若data_src中使用'Int64'则创建DataFrame会报错无法识别Int64。
3. 原df的列名在目标表都必须存在,若df中列名缺少目标表的列则该字段填充null。
4. 输出按照列名去输出,不是按照顺序,顺序不一致没关系,但建议一致。
'''
df = DataFrame(data_src)
print(df)
'''
overwrite参数表示是否覆盖,默认True;drop_partition表示是否删除存在的分区数据,默认false。
drop_partition设为False仍然会覆盖已存在的指定分区,overwrite设为False才会Append方式写入。
'''
df.persist('tmp_xxm_test', partition='ds=20231128', drop_partition=True, create_partition=True, odps=o)

http://www.ppmy.cn/news/1342370.html

相关文章

抖音下载emoji表情包

1.效果如图所示 2.代码如下 注意替换自己的cookie import requests import json import osurl "https://www.douyin.com/aweme/v1/web/emoji/list?device_platformwebapp&aid6383&channelchannel_pc_web&publish_video_strategy_type2&pc_client_type1…

有趣的CSS - css loading动画

Loading动画 整体效果核心代码html 代码&#xff1a;css 部分代码&#xff1a; 完整代码如下html 页面&#xff1a;css 样式&#xff1a;页面渲染效果&#xff1a; 整体效果 这个 Loading 效果主要用 css3 的 animation 属性配合 border 属性来实现的。 可以用作在下拉列表 Loa…

网络安全面试题收集

1 Web篇 1.1 什么是SQL注入攻击&#xff1f;如何防止SQL注入攻击&#xff1f; SQL注入攻击是指攻击者通过向Web应用程序的输入框中插入恶意SQL语句来执行未经授权的操作。防止SQL注入攻击的方法包括使用参数化查询和输入验证&#xff0c;以及避免使用动态SQL语句。 1.2 什么…

中国大学生计算机设计大赛与大数据应用主题赛

中国大学生计算机设计大赛 与大数据应用主题赛 中国大学生计算机设计大赛&#xff08;简称“大赛”或4C&#xff09;始筹于2007年&#xff0c;首届于2008年&#xff0c;已经举办了16届80场赛事。是我国高校面向本科生最早的赛事之一&#xff0c;由教育部计算机类教指委发起举…

Python判断当前运行环境是否是jupyter notebook

在notebook环境中运行时&#xff0c;会有一个内置的__IPYTHON__变量&#xff1a; 一般为True值。 print(__IPYTHON__)输出 True而如果这段代码直接在*.py文件中执行&#xff0c;则会报错。 因此可以通过判断是否存在内置的__IPYTHON__变量来判断是否是notebook环境。 即 has…

Pyecharts炫酷散点图构建指南【第50篇—python:炫酷散点图】

文章目录 Pyecharts炫酷散点图构建指南引言安装Pyecharts基础散点图自定义散点图样式渐变散点图动态散点图高级标注散点图多系列散点图3D散点图时间轴散点图笛卡尔坐标系下的极坐标系散点图 总结&#xff1a; Pyecharts炫酷散点图构建指南 引言 在数据可视化领域&#xff0c;…

centos安装tesseract

1.安装依赖的leptonica库 wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz tar -xzvf leptonica-1.78.0.tar.gz cd leptonica-1.78.0 ./configure make && make install2.安装Tesseract-OCR wget https://codeload.github.com/tesseract-ocr/tesseract…

代码随想录算法训练营第二十二天|216.组合总和III,17.电话号码的字母组合

系列文章目录 代码随想录算法训练营第一天|数组理论基础&#xff0c;704. 二分查找&#xff0c;27. 移除元素 代码随想录算法训练营第二天|977.有序数组的平方 &#xff0c;209.长度最小的子数组 &#xff0c;59.螺旋矩阵II 代码随想录算法训练营第三天|链表理论基础&#xff…