java高并发及多线程问题

参考博文：https://blog.csdn.net/suifeng3051/article/details/52611310； https://blog.csdn.net/li396864285/article/details/49331369； https://blog.csdn.net/luoweifu/article/details/46613015

最近在工作中碰到了非常典型的高并发引起的数据库死锁及阻塞问题，且尴尬的被DBA点名了几次。

问题描述：随着http接口数据量的上升（数据请求接口后倒入oracle），最近出现了oracle表死锁及阻塞严重等现象。

猜想1：推送的数据是批量的，插入数据库的时候也是批量的（merge方式），同一批数据存在主键一致，导致insert的时候触发行锁。于是加了同一批数据主键一致则打回的模块，结果扑街。

猜想2：不同批的数据最后入库还是走的insert(虽然用了merge)，两条主键一致的数据，在commit之前同时发送了请求，触发行锁。于是在插入数据库的模块加了线程同步（中间加错了一次，导致没生效），测了下并没有影响性能，搞定。

问题虽然解决，不过也发现自己对这块确实还不是很熟，还是将查阅的信息记录下，以备后用（主要java这块，oracle之后总结到别的tag下）。

1.Java内存模型

Java内存模型即Java Memory Model，简称JMM。JMM定义了Java 虚拟机(JVM)在计算机内存(RAM)中的工作方式。JVM是整个计算机虚拟模型，所以JMM是隶属于JVM的。

Java内存模型定义了多线程之间共享变量的可见性以及如何在需要的时候对共享变量进行同步。原始的Java内存模型效率并不是很理想，因此Java1.5版本对其进行了重构，现在的Java8仍沿用了Java1.5的版本。

在并发编程领域，有两个关键问题：线程之间的通信和同步。

线程之间的通信

线程的通信是指线程之间以何种机制来交换信息。在命令式编程中，线程之间的通信机制有两种共享内存和消息传递。

在共享内存的并发模型里，线程之间共享程序的公共状态，线程之间通过写-读内存中的公共状态来隐式进行通信，典型的共享内存通信方式就是通过共享对象进行通信。

在消息传递的并发模型里，线程之间没有公共状态，线程之间必须通过明确的发送消息来显式进行通信，在java中典型的消息传递方式就是wait()和notify()。

线程之间的同步

同步是指程序用于控制不同线程之间操作发生相对顺序的机制。

在共享内存并发模型里，同步是显式进行的。程序员必须显式指定某个方法或某段代码需要在线程之间互斥执行。

在消息传递的并发模型里，由于消息的发送必须在消息的接收之前，因此同步是隐式进行的。

JMM

从抽象的角度来看，JMM定义了线程和主内存之间的抽象关系：线程之间的共享变量存储在主内存（main memory）中，每个线程都有一个私有的本地内存（local memory），本地内存中存储了该线程用以读/写共享变量的副本。

MacDown Screenshot

所以，线程A与线程B之间如要通信的话，必须要经历下面2个步骤：

 1. 线程A把本地内存A中更新过的共享变量刷新到主内存中去。
 2. 线程B到主内存中去读取线程A之前已更新过的共享变量。

在JVM内部，Java内存模型把内存分成了两部分：线程栈区和堆区。

MacDown Screenshot

所有原始类型(boolean,byte,short,char,int,long,float,double)的本地变量都直接保存在线程栈当中，对于原始类型的本地变量，一个线程可以传递一个副本给另一个线程。

一个本地变量如果是原始类型，那么它会被完全存储到栈区。一个本地变量也有可能是一个对象的引用，这种情况下，这个本地引用会被存储到栈中，但是对象本身仍然存储在堆区。

对于一个对象的成员方法，这些方法中包含本地变量，仍需要存储在栈区（拷贝），即使它们所属的对象在堆区。对于一个对象的成员变量，不管它是原始类型还是包装类型，都会被存储到堆区。（所以多个线程调用一个对象的成员变量线程不安全）

Static类型的变量以及类本身相关信息都会随着类本身存储在方法区（静态区）,调用时保存对象的引用。* 方法区：

 1. 又叫静态区，跟堆一样，被所有的线程共享。方法区包含所有的class和static变量；
 2. 方法区中包含的都是在程序中永远的唯一的元

两个线程同时调用了同一个对象的同一个方法，那么这两个线程便可同时访问这个对象的成员变量，但是对于本地变量，每个线程都会拷贝一份到自己的线程栈中。

volatile 关键字可以保证变量会直接从主存读取，而对变量的更新也会直接写到主存。volatile原理是基于CPU内存屏障指令实现的。*

同时读主内存，如多个线程共享一个对象，如果它们同时修改这个共享对象，这就产生了竞争现象（即线程不安全）。

volatile,声明变量值的一致性；static,声明变量的唯一性。*

Final变量在并发当中，原理是通过禁止cpu的指令集重排序来保证对象的安全发布，防止对象引用被其他线程在对象被完全构造完成前拿到并使用。故final类型的成员变量的值，包括那些用final引用指向的collections的对象，是读线程安全而无需使用synchronization的。（与内存无关，不同原理）*

synchronized代码块可以保证同一个时刻只能有一个线程进入代码竞争区，synchronized代码块也能保证代码块中所有变量都将会从主存中读，当线程退出代码块时，对所有变量的更新将会flush到主存，不管这些变量是不是volatile类型的。*

2.多线程

tomcat与多线程

tomcat线程池有如下参数：

maxThreads, 最大线程数，tomcat能创建来处理请求的最大线程数；
maxSpareTHreads, 最大空闲线程数，在最大空闲时间内活跃过，但现在处于空闲，若空闲时间大于最大空闲时   间，则回收，小于则继续存活，等待被调度；
minSpareTHreads,最小空闲线程数，无论如何都会存活的最小线程数；
acceptCount, 最大等待队列数 ，请求并发大于tomcat线程池的处理能力，则被放入等待队列等待被处理；
maxIdleTime, 最大空闲时间，超过这个空闲时间，且线程数大于最小空闲数的，都会被回收。

MacDown Screenshot

spring与多线程

spring生成对象默认是单例的。通过scope属性可以更改为多例。

ThreadLocal

每个ThreadLocal可以放一个线程级别的变量，但是它本身可以被多个线程共享使用，而且又可以达到线程安全的目的。

线程同步时“以时间换空间”，ThreadLocal是以“空间换时间”，但是都起到了线程安全的目的。

原理：ThreadLocal将变量放入一个Map中，key为当前线程，value为需要维护的变量。

如：Spring的DAO使用ThreadLocal实现数据库连接的线程安全

Synchronized

/**
 * 同步线程
 */
class SyncThread implements Runnable {
   private static int count;

   public SyncThread() {
      count = 0;
   }

   public  void run() {
      synchronized(this) {
         for (int i = 0; i < 5; i++) {
            try {
               System.out.println(Thread.currentThread().getName() + ":" + (count++));
               Thread.sleep(100);
            } catch (InterruptedException e) {
               e.printStackTrace();
            }
         }
      }
   }

   public int getCount() {
      return count;
   }
}

当采用如下调用时候，为成功同步：

SyncThread syncThread = new SyncThread();
Thread thread1 = new Thread(syncThread, "SyncThread1");
Thread thread2 = new Thread(syncThread, "SyncThread2");
thread1.start();
thread2.start();

当采用如下调时候，并不会起到同步的效果：

Thread thread1 = new Thread(new SyncThread(), "SyncThread1");
Thread thread2 = new Thread(new SyncThread(), "SyncThread2");
thread1.start();
thread2.start();

原因：synchronized只锁定对象，每个对象只有一个锁（lock）与之相关联。

mapResuce shuffle和spark shuffle

Spark 和 Hadoop一直是大数据离线计算的必经之路，自己在工作中也经常用到，所以学习一下原理还是很有必要的，不然碰到问题很容易一脸懵逼，其中感觉shuffle是两者的核心之一，故整理下，方便以后回顾。大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性。MapR...

## Hadoop与Storm比较1.Storm用于实时计算，Hadoop用于离线计算。2.Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批。3.Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。4.Storm与Hadoop的编程模型相似。![MacDown Screenshot](/assets/images/1526714737...

2018-05-18

@WYK

bigDataSimple