AlstonWilliams's Blog

Thinking will not overcome fear but action will.

《中国经济2019》书评

这本书,总结了2018年中国发生的几件大事,并且对未来提出了展望. 很不错的一本书.对书中的观点无法提出反驳.

HDFS Centralized Cache对MapReduce的影响

HDFS Centralized Cache对MapReduce的影响 在YARN源码解析(5)-MapReduce中,在数据本地节点分配Task是如何做到的?中,我们介绍了MapReduce如何在block所在的Host上分配Mapper的。 而了解了HDFS Centrailzed Cache以后,我们就有一个疑问了,Mapper的分配,会考虑HDFS Centrailized Ca...

2019年三月份总结与四月份计划

2019年三月份总结与四月份计划 细细想来,20190317之前就做了不少事情.所以就20190317记录了一次,然后20190330又记录一次. 老骥伏枥,志在千里 首先从技术方面开始说起. 阅读《Beautiful Code》(√/×) 去JIRA里面找HBase/Hadoop/ZooKeeper/Spark的ISSUE,并尝试解决.同时积极参与社区讨论(√) 实践对...

《黑天鹅-如何应对不可知的未来》书评

《黑天鹅-如何应对不可知的未来》书评 这本书中,主要介绍了黑天鹅事件的产生,以及它的原理. 其实黑天鹅事件,并不是每件会改变历史进程的大事,才叫黑天鹅事件.而是,每件我们个人没有预测的事情,其实都可以看成黑天鹅事件.比如说,对现在的喷子来说,当他抨击一个杀人犯杀人的时候,后来案件突然反转,发现并不是这个人杀了人。对这位喷子来说,这就是一件黑天鹅事件。 黑天鹅事件实质上是信息的不对称.比...

HDFS Centrailized Cache会放到哪个DataNode上

前几天,在看Hadoop User Email List的时候,发现了一个关于HDFS Centrailzed Cache的问题。刚好我又不熟悉这块,甚至之前都没听说过,就好好了解了一番。 其实原理很简单,各位读一下下面的几个链接,就能清楚是怎么回事: Centralized Cache Management in HDFS HDFS 集中式的缓存管理原理与代码剖析 In-m...

《如何阅读一本书》书评

《如何阅读一本书》书评 今日在家无聊,翻了一遍《如何阅读一本书》. 这本书早就购来了,但是一直没有动过.最近从某个博客上看到了此书中的只言片语,感觉实在是醍醐灌顶,于是下决心翻一下这本书. 我这人,很喜欢阅读各种咨询.最喜欢阅读书籍,各种书籍,从实用性书籍,到技术书籍,还有艺术,哲学等方面,都有涉猎.也喜欢阅读新闻,各种博客,文章,既能减压,又想从中获取一些咨询. 但是,读的书越多,...

Scala HashMap vs Java HashMap

在这篇文章中,我们来探究一下Scala HashMap.put(k, v)以及Java HashMap.put(k, v)的性能。 具体代码没看,以后补充。 Scala HashMap.put(k, v) 测试代码很简单: package com.hyper import java.util.concurrent.TimeUnit import com.google.common...

Scala ArrayBuffer/ListBuffer vs Java ArrayList

在我们编写Scala代码的时候,由于ListBuffer方便的特性,所以经常会使用ListBuffer。过去也一直没有什么问题。 但是呢,最近在我们的项目中,出现了一个非常严重的性能问题。通过JProfiler分析,发现是调用ListBuffer的获取数据的方法时,太慢导致的。 差距有多大呢?以前需要运行12个小时,改成了Java的List以后,直接缩短了四个小时。 这篇文章中,我不会...

2019年二月份总结与三月份计划

读书 在家无事,读了几本书. 《吴晓波企业史》 首先是把《吴晓波企业史》大体读完了,虽然不能说对商业史理解的多么透彻,但是看待世界的眼光确实变了. 刚开始读这一系列的时候,吴晓波在前言中说,他发现商业史就是一次一次的循环.我本打算找到这个循环,判断现在的形式,该做什么. 然而,这套书读了一半,我都没有找到这个循环.却在清朝末年到1980年左右,看到了第一次循环. 也怨我笨,在吴晓...

Spark内存模型初探(2)-User Memory

在上一篇文章Spark内存模型初探(1)-Storage/Execution Memory的使用中,我们初步解析了一下Storage/Execution Memory的使用。最后我们也留下了几个问题,等待我们解答。这些问题更多的集中在User Memory上。 而这段时间,经过思索,探索,以及重新阅读Spark Memory Management,终于解决了大部分。 但是,本文其实更多的...