WYK's Blog
For the shadow of lost knowledge at least protects you from many illusions.
知识,哪怕是知识的幻影,也会成为你的铠甲,保护你不被愚昧反噬。
-
大表笛卡尔积优化思路最近在工作过程中碰到了大表间的笛卡尔积,这个就比较恶心了,开始完全跑不出来,后来一步步优化,最终起码勉强能有结果,虽然有很多数据特殊性且思路简单,但是也还是记录下。案例假设有如下用户登录表 user_login_detail:user代表用户,city代表用户登录过得城市,country代表用户国籍,other代码其他数据; user city co...
-
fink概述作为实时领域对飙spark的存在,flink现在已经得到广泛的使用了,既然能得到业界任何和使用,肯定有其过人之处,之后工作中也有可能会用到,了解一下总是没错的。什么是flinkFlink核心是一个流式的数据流执行引擎,提供各种API,如Java、Scala和Python,同事支持类似SQL的操作。为什么选flink数据传输方式首先需要了解两个概念:1.流处理:当一条数据被处理完成后,序列化到...
-
记一波数据仓库从0到1的实战经历之前算是经历了一个团队的数据体系从比较原始的状态到相对比较完善的数据仓库的演变过程,大概记录下,有个方向和思路。1.原始状态业务上纯需求驱动,无明确分工;根据需求,联系原数据方,通过各种技术手段得到结果。技术上数据存储主要依赖oracle和mysql,绝大多数存储在oracle中。任务调度大部分通过可执行jar包放到服务器上起crontab任务定时执行jar包,部分写在自己的java工程里面...
-
马太函数 and IV算法最近工作中有接触到通过马太函数和iv算法进行特征筛选,虽然只是帮忙做一些简单的数据采集工作,不过,学习一下总归是多多益善的。马太函数马太效应,是指好的愈好,坏的愈坏,多的愈多,少的愈少的一种现象。即两极分化现象。类似于80/20法则,它们大概说的意思是一致的,在统计学中,这些说法被抽象成所谓的幂律分布,在分布图上,它表现为一条拖着长长尾巴的曲线。打个比方,我们取一个区域内拥有的财富为宗轴,拥...
-
机器学习基本概念什么是机器学习机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法,主要使用归纳、综合而不是演绎。它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。demo:机器识别图片结果为:“A person riding a motorcycle on a dirt road”相关概念数据集:数据的集合训练集:用来进行训练,也就是产生...
-
换坑第一次写生活相关的,还是当做记录下,毕竟17年三月份正式毕业到现在为止第一次正式跳槽,猪场实习大半年+正式工作两年多,到现在在新公司刚满一周,也是有些感触。职场初体验到现在还记得挺清楚的,第一次实习面试的时候(15年底),我的大概面试内容,还现场写了段数组去重的java代码,当时用了两个循环,还被面试官说了,让我用hashmap,不过最后还是很善良的给我过了;毕竟当时还是研二,对于我这种非9...
-
linux命令笔记linux的一些常用或者非常用命令,经常用到但是又经常忘记,或者不确定,毕竟在服务器上,一个误操作可能就滚蛋了,所以还是记一下,以防不测。常用git操作1.git log查看历史提交记录git log --graph --pretty=oneline --abbrev-commit 查看提交流程图2.git add3.git commit 提交已经被add进来的改动4.git diff不加参...
-
各种参数调优在实际使用Hive或者Spark的时候,肯定会涉及参数的调优,主要目的是提升资源的使用率,提升任务的性能,以最少的资源最快的完成任务的运行,有时候也是为了解决一些直接的报错,总之,不管用过没用过的都记录一下,方便以后查阅。##Hive1.mapred.reduce.tasks 默认:1;所提交 Job 的 reduer 的个数,使用 Hadoop Client 的配置。2.hive.mapr...
-
笔记本发现有时候看到一些,让自己茅塞顿开的文章内容,或者,突然想到了之前困扰自己的问题的答案,之类的这些,又担心自己之后忘记,但是单独开一篇又觉得没有必要,所以,就记录在这里,方便以后可以查阅一下。笔记1.一张图明白MR中 Partition和Reduce 的关系2.最近刚换新工作,基建做的比较好,比较难接触到底层,但是学习还是不能止步的,简单列一些自己还要学习的东西,以后有空写点东西。1.数据挖...
-
Hive SQL题集仍然,仍然是SQL,这波Hive SQL要求自己一定要做到越复杂越好,越难越好,严格要求自己,才能成长,加油加油加油!解题思路:1.看到多个key变1个,首先想到group by一手;2.从结果一步步往前倒推;1.这里有5个https://www.cnblogs.com/qingyunzong/p/8747656.html#_labelTop(复杂化了,其实有几题是完全可以用窗口函数的)2....
-
SQL IN ACTION依旧还是SQL,毕竟真正工作中最常用的东西,上一篇主要说了些原理性质的东西,这篇写一些常用或者少见的HQL、Spark SQL、Oracle SQL的用法,碰到不熟的,就记录下,方便以后查阅,更新ING。1.Hive SQL1. grouping sets会把所有grouping的字段(key)都单独累计一次,组合key的话,没有的key显示null,比如:可以在求汇总行的时候用来代替 un...
-
SQL真香感觉目前大多数公司实际处理数据(主要是离线数据),基本都还是用sql的方式居多,大数据量下用hive sql、spark sql等,在关系型数据库中包括oracle、mysql等也是用sql处理逻辑,所以,积累和完善一些sql优化或者问题处理的方法和技巧还是有必要的,先init一手,后续慢慢补充。1.Hive SQLHadoop应该是当前最流行的大数据处理工具了(没有之一的那种),单独写Ma...
-
Java内存泄漏快速定位及解决最近在工作中碰到了内存泄露的问题,导致服务器内存一直在阶梯上升,眼瞅着就要挂掉,只能紧急先重启服务,再慢找原因和解决,作为Java开发常见问题,还是记录一手。1.内存泄漏原因在Java中,内存泄漏就是存在一些被分配的对象,首先,这些对象是有被引用的,即在有向树形图中,存在树枝通路可以与其相连;其次,这些对象是无用的,即程序以后不会再使用这些对象。这些对象不会被GC所回收,然而它却占用内存。几...
-
Java多线程相关无论是开dubbo接口、http接口,还是Java Web服务端开发,亦或者是各种中间件的开发;无并发,不Java,你们懂的;必须专门开一篇以示尊重,Java不息,更新不止。1.相关概念1.关键字 synchronized 使用场景:原理:同步代码块: 反编译可以看到monitorenter,monitorexit指令(相对于不加synchronized多出来); 原理:每个对象有一个...
-
Java知识点整理1.Java设计模式1.java的设计模式大体上分为三大类: 创建型模式(5种):工厂方法模式,抽象工厂模式,单例模式,建造者模式,原型模式。 结构型模式(7种):适配器模式,装饰器模式,代理模式,外观模式,桥接模式,组合模式,享元模式。 行为型模式(11种):策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、 备忘录模式、状态模...