AWS Glue PySparkでのUDFの使い方があまりに少なく、わかるまで時間がかかったので記録しておきます。
コード
from pyspark.sql.functions import udf, col
def hoge(x, y):
return x * y
udf_hoge = udf(hoge)
# df(DataFrame)を準備しておく
df.select(udf_hoge(col(x), col(y))).show()
複数引数のUDFの使い方はcol()を使用する事です。
df(DataFrame)は事前に別途準備しておく必要はあります。
以上です。
