大数据环境下的处理系统与数据分析

随着互联网的高速发展,人类进入了一个信息爆炸的时代,每个人的生活都充满了结构化和非结构化的数据。另外,随着以博客、社交网络、基于位置的服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网技术的兴起,数据正以前所未有的速度在不断地增长和积累,数据已经渗透到当今每一个行业和业务职能领域成为重要的产生因素,以数据为驱动的大数据时代已经不可避免地到来。本文主要围绕大数据特征、处理系统、以及大数据分析来阐述大数据环境下的数据分析在思想、流程、方法等方面的转变,以及围绕此主题而出现的相关关键技术与方法。

小木 81 2018/09/29 16:31:27 大数据
《Effective Java 第三版》笔记之七 消除过期的对象引用

本文是Effective Java第三版笔记的第七个之消除过期的对象引用,Item 7: Eliminate obsolete object references

小木 35 2018/09/28 15:44:23 effectivejava/java/编程
Spark源码分析之RDD下的KMeans

这篇博客主要介绍Spark源码中的KMeans部分,说的是RDD下的KMeans源码

小木 109 2018/09/26 15:22:24 scala/spark/大数据
深度学习技巧之Early Stopping(早停法)

当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能(generalization performance,即可以很好地拟合数据)。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合:当网络在训练集上表现越来越好,错误率越来越低的时候,实际上在某一刻,它在测试集的表现已经开始变差。早停法就是一种防止深度学习网络模型过拟合的方法。

小木 132 2018/09/26 09:29:56 深度学习/深度学习技巧