Lpy's blog

hivesql语法

Hive 语法：1.coalesce(a,b,c,d,e)求多个字段第一个非null值，若都为null则为null 2.静态分区动态分区插入静态分区和动态分区创建时一致静态分区 insert into table partition(pt=xxxxx)在插入时指定分区字段值动态分区 insert Into table partition(pt) pt由后续select产生 3

2024-12-18

#Hive

hivesql语法

2024-12-18

kafka八股

2024-12-17

数仓项目

数仓项目题目：电商交易域模型建设&用户主题资产建设项目流程： 1.交易数据接入：完成数据源到数仓的数据接入，完成ODS层的交易数据同步。 2.交易数据明细层模型建设： DWD&DWM：按照电商交易业务流程SOP划分完成相应内容类型的数据域建设，梳理清楚模型设计5要素（数据域、粒度、维度、度量、事实），构建总线矩阵，完成明细层转换、解析清洗，并维度退化，合并成大宽表，包括：交易域

2024-12-17

#数仓项目

datawarehouse

数仓知识1.什么是数据仓库数据仓库是面向主题的（主要用于业务分析），集成的（将多源数据集成在一起），相对稳定的（数据进入到数据仓库中不易发生改变），随时间变化（随着时间发展，数据仓库中存留的数据会越来越多）的数据集合。 2.数仓建模有哪几种方式 ER建模（范式建模）、维度建模、Data Vault建模、Anchor建模，其中ER和维度是主流建模，ER建模常用于关系数据库，维度建模常用于数仓建模。

2024-11-14

#数仓知识

SparkRDD

SparkRDD概念1.采用装饰器设计模式，层层包装，类似于传输管道，本身不保留数据 2.类似于Java String这样的工具类 3.Spark基于MR设计，操作文件的类都采用MapReduce设计，因此SparkRDD的分区是依赖MapReduce的切片规则实现的。在简单内存数据读取的过程中，分区按三个规则走，首先检查是否规定了任务的分区数，若没有则检查默认分区配置，没有则再采用分配的线程核

2024-10-23

#spark

大数据开发之路-读书

大数据之路1. 日志数据采集1.1 浏览器的页面日志采集浏览器页面采集往往分为两部分：（1）页面浏览日志：分为页面浏览量PV和页面访客数UV 将JavaScript脚本植入到HTML文档内，当页面被浏览器解析的过程中自动执行采集后，大多数情况会立即执行发送，发送到日志服务器日志服务端收到日志后立即做出回复服务端解析日志并进行存档（2）页面交互日志：记录用户在页面上与控件互

2024-10-18

#读书

Hive:初见

Hive 远程连接：Hive安装：可以部署到任意一个节点，不一定在集群上，因为Hive是客户端安装Mysql以作为Hive存储元数据的数据库，来替代Hive内置的dubby数据库，为了方便，将mysql安装在windows上，以供远程连接创建metastore数据库安装mysql-connector-java驱动到/opt/module/hive/li

2024-10-09

Hive

#Hive

序列化

Hadoop : MapReduce 的序列化接口序列化接口书写流程创建Bean类实现Writable接口创建无参构造重写write，readFields方法重写toString方法创建FlowBean 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950

2024-10-04

Hadoop HDFS

#Hadoop HDFS