Dask调度器简介

Dask支持多种调度器,从单线程、多线程、多进程到本地分布式和集群分布式,各种调度器在不同情况下有不同的作用,本文来源于Dask官方文档的翻译,主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。

小木 6 2020/03/31 15:44:03 #Dask##Python##分布式处理#
并行计算中如何提高处理效率——来自Dask的提示

当数据量达到一定程度,单机的处理能力会无法达到性能的要求,采用并行计算,并利用多台服务器进行分布式处理可能会提升数据处理的速度,达到性能要求。然而如果使用不当,并行处理可能并不会提升处理的速度。这篇博客介绍了Dask中关于并行处理的一些效率方面的建议,尽管是针对Dask的说明,但对于所有的并行处理来说都是适用的。

小木 7 2020/03/31 15:43:31 #Dask##Python##分布式数据处理#
Dask的本地集群配置和编程

Dask提供了多种分布式调度器,当缺少多台服务器时候,也可以通过本地集群来实现单机分布式的计算。这篇博客主要就是介绍如何实现Dask的单机分布式调度器。第一小节是简介,第二节是单机调度器的简写版本,第三节是单机调度器的完整版本,第四节是使用的一些示例。

小木 4 2020/03/31 14:25:10 #Dask##Python##分布式处理##编程#
Pandas的DataFrame选择行或者列的注意事项

Pandas中的DataFrame选择某些行和某些列是有很多中操作和选择的,不太容易记,这里整理一下。

小木 53 2020/03/23 11:48:14 #pandas##python##编程#
考虑价格和促销影响的销售预测算法实践

这是一篇来自Towards Data Science上面的一篇个人实践分享,主要是针对销量进行预测。一般来说,销量受到价格、季节等因素影响较大。这里就是考虑这些因素进行的一个实践。值得大家一试。这里我们翻译一下,并对其中的某些工作做一些简单的解释。

小木 185 2020/02/15 18:16:56 #Prophet##python##时间序列分析##流量预测#
Scikit-Learn最新更新简介

Scikit-Learn有很优秀的机器学习处理思想,包括TensorFlow等新框架都借鉴了它的设计思想。最近的更新也让Scikit-Learn更加强大。在描述这个更新之前我们先简单看一下历史,然后让我们一起看看都有什么新内容吧。

小木 140 2020/02/12 22:33:36 #sk-learn##人工智能##机器学习##编程#
Java中自增操作i++与++i的区别

在Java中,自增是一种非常常见的操作,在自增中,有两种写法,一种是前缀自增(++i),一种是后缀自增(i++)。这里主要简单介绍两种自增的差别。

小木 379 2019/09/07 15:17:28 #java##编程#
softmax作为输出层激活函数的反向传播推导

softmax作为多标签分类中最常用的激活函数,常常作为最后一层存在,并经常和交叉熵损失函数一起搭配使用。这里描述如何推导交叉熵损失函数的推导问题。

小木 585 2019/08/25 15:09:33 #python##人工智能##深度学习#
深度学习技巧之Batch Normalization

Batch Normalization是深度学习中最重要的技巧之一。是由Sergey Ioffe和Christian Szeged创建的。Batch Normalization使超参数的搜索更加快速便捷,也使得神经网络鲁棒性更好。本篇博客将简要介绍相关概念和原理。

小木 1480 2019/08/18 15:52:57 #coursera##深度学习##调优#
Java类型转换中valueOf方法和parseInt方法的区别

在Java的类型转换中,我们经常会使用valueOf或者parseInt(parseFloat/parseDouble等)来转换。这二者有什么区别呢?这里简要介绍一下。

小木 534 2019/08/17 17:13:26 #Java##编程#
数据预处理中的高频词与低频词

在自然语言数据预处理阶段,为了提取更有用的信息,对数据必须进行相应处理。本文重点介绍对于高频词与低频词的处理。

小木 729 2019/07/16 21:50:54 #文本处理#
时间序列数据处理中的相关数学概念

时间序列数据分析的基础包含大量的统计知识。这篇博客主要用通俗的语言描述时间序列数据中涉及到的一些基本统计知识。

小木 565 2019/07/09 14:50:20 #时间序列数据##统计#