AWS Glue PySparkでのUDFの使い方があまりに少なく、わかるまで時間がかかったので記録しておきます。
コード
1 2 3 4 5 6 7 8 9 10 |
from pyspark.sql.functions import udf, col def hoge(x, y): return x * y udf_hoge = udf(hoge) # df(DataFrame)を準備しておく df.select(udf_hoge(col(x), col(y))).show() |
複数引数のUDFの使い方はcol()を使用する事です。
df(DataFrame)は事前に別途準備しておく必要はあります。
以上です。