AWS Glue PySpark UDFの使い方・複数引数

AWS Glue PySparkでのUDFの使い方があまりに少なく、わかるまで時間がかかったので記録しておきます。

コード

from pyspark.sql.functions import udf, col

def hoge(x, y):
  return x * y

udf_hoge = udf(hoge)

# df(DataFrame)を準備しておく

df.select(udf_hoge(col(x), col(y))).show()

from pyspark.sql.functions import udf, col

def hoge(x, y):

return x * y

udf_hoge = udf(hoge)

# df(DataFrame)を準備しておく

df.select(udf_hoge(col(x), col(y))).show()

複数引数のUDFの使い方はcol()を使用する事です。

df(DataFrame)は事前に別途準備しておく必要はあります。

以上です。