smdmts · June 29, 2018 01:23 · smdmts · Jun 29, 2018
diff --git a/spark_add_hash_row.scala b/spark_add_hash_row.scala
 import org.apache.spark.sql.types._
 import java.security._

 val  df = sc.parallelize(Seq(
    (1.0, 2.0), (0.0, -1.0),
    (3.0, 4.0), (6.0, -2.3))).toDF("x", "y")

 def mkMD5(text:String) = MessageDigest.getInstance("MD5").digest(text.getBytes).map("%02x".format(_)).mkString
 def transformRow(row: Row): Row =  Row.fromSeq(row.toSeq ++ Array[String](mkMD5(row.mkString(","))))
 def transformRows(iter: Iterator[Row]): Iterator[Row] = iter.map(transformRow)

 val newSchema = StructType(df.schema.fields ++ Array(StructField("row_hash", StringType, false)))

 sqlContext.createDataFrame(df.rdd.mapPartitions(transformRows), newSchema).show
	import org.apache.spark.sql.types._
	import java.security._

	val df = sc.parallelize(Seq(
	(1.0, 2.0), (0.0, -1.0),
	(3.0, 4.0), (6.0, -2.3))).toDF("x", "y")

	def mkMD5(text:String) = MessageDigest.getInstance("MD5").digest(text.getBytes).map("%02x".format(_)).mkString
	def transformRow(row: Row): Row = Row.fromSeq(row.toSeq ++ Array[String](mkMD5(row.mkString(","))))
	def transformRows(iter: Iterator[Row]): Iterator[Row] = iter.map(transformRow)

	val newSchema = StructType(df.schema.fields ++ Array(StructField("row_hash", StringType, false)))

	sqlContext.createDataFrame(df.rdd.mapPartitions(transformRows), newSchema).show
No results found