spark系列之spark-sql
SparkSQL概述简介Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块
Hive与SparkSQL其中SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive;
而Hive on Spark是一个Hive的发展计划, ...
spark系列之spark基础
概述
Spark Core
Spark Core中提供了Spark最基础与最核心的功能,Spark其他的功能如:Spark SQL,Spark Streaming,GraphX, MLlib都是在Spark Core的基础上进行扩展的
Spark SQL
Spark SQL是Spark用来操作 ...
sqoop常见问题汇总
概述Sqoop是连接关系型数据库和Hadoop的桥梁,主要有两个方面(导入和导出)。
目前在我的工程实践中,一般是将MySQL数据进行导入导出
Sqoop参数shell123456789/opt/module/sqoop/bin/sqoop import \--connect \--username ...
redis为什么那么快
redis是单线程的,为什么那么快
完全基于内存,绝大部分请求是纯粹的内存操作,非常快速。
数据结构简单,对数据操作也简单,Redis中的数据结构是专门进行设计的
采用单线程,避免了不必要的上下文切换和竞争条件,也不存在多进程或者多线程导致的切换而消耗 CPU,不用去考虑各种锁的问题,不存在加锁 ...
Spark的WordCount到底有几个RDD
简介
本文转载自 https://blog.csdn.net/zhongqi2513/article/details/81513587
这样的一句标准的sparkcore的wordcount的代码到底能要产生几个RDD呢。相信大家对于一个标准的WordCount的代码一定不陌生:
scala1 ...
常用排序算法总结
冒泡排序java1234567891011121314151617181920212223242526272829303132333435363738394041/** * 冒泡排序 时间复杂度 O(n^2) 空间复杂度O(1) */public class BubbleSort { ...
springboot精简教程
SpringBoot2.1 Spring分布式架构
2.2 SpringBoot 概述Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。
该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。
通过这种方式, ...
spring精简教程
简单了解框架框架,即framework。其实就是某种应用的半成品,就是一组组件,供你选用完成你自己的系统。简单说就是使用别人搭好的舞台,你来做表演。而且,框架一般是成熟的,不断升级的软件。
框架是对特定应用领域中的应用系统的部分设计和实现的整体结构。
因为软件系统发展到今天已经很复杂了,特别是服务器 ...
解决Github连不上、ping不通的问题
修改host即可Github连不上、ping不通、git clone特别慢等现象,通常是因为github.global.ssl.fastly.net域名被限制了。
因此,只要找到你当前线路最快的ip,修改一下host就能提速。
步骤一、在网站 https://www.ipaddress.com 分别 ...
Redis常见问题及扩展
缓存穿透、缓存雪崩、缓存击穿1、缓存穿透是指查询一个一定不存在的数据。由于缓存命不中时会去查询数据库,查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到数据库去查询,造成缓存穿透。
解决方案:
是将空对象也缓存起来,并给它设置一个很短的过期时间,最长不超过5分钟
采用布隆过滤器,将所 ...








