[Spark]十一种方式实现WordCount
使用Spark中的11种方法实现经典的WordCount算法。
其中,10种SparkRDD(算子)+ 1种自定义累加器实现。
特朗普:没人比我更懂WordCount!(滑稽)
Why WordCount?
- 大数据中最经典的算法,相当于编程语言中的“Hello World”。
- 在大数据处理中,大多数复杂的问题通常被拆分成一个个小问题,这些小问题一般都是基于WordCount算法。所以,WordCount是重中之重,是大数据处理算法的基石。
10种Spark算子实现
scala
1 | import org.apache.spark.{SparkConf, SparkContext} |
输出结果:
scala
1 | =================1==================== |
自定义累加器实现
scala
1 | import org.apache.spark.rdd.RDD |
输出结果:
scala
1 | Map(spark -> 3, hadoop -> 1, scala -> 2, hello -> 3) |



