MasterYangBlog

[SparkSQL]UDAF自定义聚合函数 2020-05-05|大数据spark

[SparkSQL]UDAF自定义聚合函数SparkSql中，用户可以设定自己的自定义聚合函数（UserDefinedAggregateFunction）。需求：实现平均年龄 user.json 文件： json123{"username": "lisi","userage": 40 ...

HashMap文章推荐 2020-04-30|Java集合

HashMap文章推荐Java 8系列之重新认识HashMap 【强烈推荐】来自美团技术团队，里面的参考文章也非常好《吊打面试官》系列-HashMap 《吊打面试官》系列-ConcurrentHashMap & HashTable 来自敖丙（蘑菇街大佬），从面试官角度阐述关键技术点，十分硬 ...

Java IO相关总结归纳 2020-04-29|Java基础知识

[spark]十一种方式实现WordCount 2020-04-27|大数据spark

[Spark]十一种方式实现WordCount使用Spark中的11种方法实现经典的WordCount算法。其中，10种SparkRDD（算子）+ 1种自定义累加器实现。特朗普：没人比我更懂WordCount！（滑稽） Why WordCount？大数据中最经典的算法，相当于编程语言中的“ ...

kafka高效读写数据 2020-04-27|大数据kafka

kafka高效读写数据一、分布式集群Kafka本身是分布式集群；同时采用分区技术，并发度高。 zookeeper在kafka中的作用：kafka集群中有一个broker会被选举成controller，负责管理集群broker的上下线，所有的topic分区副本分配和leader选举等工作。con ...

flume总结与思考 2020-04-24|大数据flume

kafka分区分配策略 2020-04-23|大数据kafka

kafka分区分配策略kafka系列总结之：kafka分区分配策略[转载&归纳] kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。 Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据 kafka官网： ...

scala中的flatMap和foldLeft函数 2020-04-21|大数据scala

scala中的flatMap和foldLeft函数scala由于其函数式编程的特性，在大数据的处理中被广泛使用。此文针对scala集合中两个常用的，却不太好理解的函数进行示例讲解。 flatMapscala中最重要的函数之一，映射扁平化把握以下三点即可： 1、flatMap = map + f ...

Java空指针问题的本质 2020-04-18|Java基础知识

面试题：sleep和wait的区别 2020-04-14|Java多线程

Java中sleep和wait方法的区别 sleep和wait都能使线程处于阻塞状态，但二者有着本质区别。代码示例java123456789101112131415161718public class test_thread { public static void main(S ...