hivesql语法 Hive 语法:1.coalesce(a,b,c,d,e)求多个字段第一个非null值,若都为null则为null 2.静态分区动态分区插入 静态分区和动态分区创建时一致 静态分区 insert into table partition(pt=xxxxx)在插入时指定分区字段值 动态分区 insert Into table partition(pt) pt由后续select产生 3 2024-12-18 #Hive
数仓项目 数仓项目题目:电商交易域模型建设&用户主题资产建设 项目流程: 1.交易数据接入: 完成数据源到数仓的数据接入,完成ODS层的交易数据同步。 2.交易数据明细层模型建设: DWD&DWM:按照电商交易业务流程SOP划分完成相应内容类型的数据域建设,梳理清楚模型设计5要素(数据域、粒度、维度、度量、事实),构建总线矩阵,完成明细层转换、解析清洗,并维度退化,合并成大宽表,包括:交易域 2024-12-17 #数仓项目
datawarehouse 数仓知识1.什么是数据仓库 数据仓库是面向主题的(主要用于业务分析),集成的(将多源数据集成在一起),相对稳定的(数据进入到数据仓库中不易发生改变),随时间变化(随着时间发展,数据仓库中存留的数据会越来越多)的数据集合。 2.数仓建模有哪几种方式 ER建模(范式建模)、维度建模、Data Vault建模、Anchor建模,其中ER和维度是主流建模,ER建模常用于关系数据库,维度建模常用于数仓建模。 2024-11-14 #数仓知识
SparkRDD SparkRDD概念1.采用装饰器设计模式,层层包装,类似于传输管道,本身不保留数据 2.类似于Java String这样的工具类 3.Spark基于MR设计,操作文件的类都采用MapReduce设计,因此SparkRDD的分区是依赖MapReduce的切片规则实现的。 在简单内存数据读取的过程中,分区按三个规则走,首先检查是否规定了任务的分区数,若没有则检查默认分区配置,没有则再采用分配的线程核 2024-10-23 #spark
大数据开发之路-读书 大数据之路1. 日志数据采集1.1 浏览器的页面日志采集浏览器页面采集往往分为两部分: (1)页面浏览日志:分为页面浏览量PV和页面访客数UV 将JavaScript脚本植入到HTML文档内,当页面被浏览器解析的过程中自动执行 采集后,大多数情况会立即执行发送,发送到日志服务器 日志服务端收到日志后立即做出回复 服务端解析日志并进行存档 (2)页面交互日志:记录用户在页面上与控件互 2024-10-18 #读书
Hive:初见 Hive 远程连接:Hive安装:可以部署到任意一个节点,不一定在集群上,因为Hive是客户端 安装Mysql以作为Hive存储元数据的数据库,来替代Hive内置的dubby数据库,为了方便,将mysql安装在windows上,以供远程连接 创建metastore数据库 安装mysql-connector-java驱动到/opt/module/hive/li 2024-10-09 Hive #Hive
序列化 Hadoop : MapReduce 的序列化接口序列化接口书写流程 创建Bean类实现Writable接口 创建无参构造 重写write,readFields方法 重写toString方法 创建FlowBean 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950 2024-10-04 Hadoop HDFS #Hadoop HDFS