AlstonWilliams's Blog

Thinking will not overcome fear but action will.

《力哥说理财》书评

《力哥说理财》书评 最近读了这本书,对我这种理财小白来说,是一本非常好的启蒙书。 书中不仅介绍了理财的意义,也介绍了如何教育孩子理财,更重要的是,他系统的介绍了好几种常见理财产品,优缺点都说的很全面。对P2P,票据理财等中高风险的理财产品,更是对其中的风险,非常深入的做了分析。 作者还介绍了如何做资产配置。读完这本书,再深入了解一些理财产品,我们就完全可以对自己的财产做一个理财规划了。...

2019年七月份总结与八月份计划

同事 有必要记录一下同事对我的影响。 我不知道何时养成了一个习惯,就是遇事消极应对。 而同事说了一句”办法总比问题多”。 我不知道这句话有什么魔力。但是,现在遇到事情,我确实总能想起来这句话,积极面对。 读书 今晚在翻豆瓣读书Top 250书单的时候,发现里面有好多王小波的书。想起来王小波的书我也是读过一些的,还有一些其他跟他类似的人的书。 感觉他们这些人,看到了这个社会的问题...

《万历十五年》书评

《万历十五年》书评 前段时间读完了这本书,有一两点感悟,想写下来,但是电脑坏掉了,也就拖到了现在。 我是在乘地铁的时候读的这本书,也就是说,只是粗略的读了一下,并没有精读。所以感悟可能有点不到位。望各位读者指正。 我第一次知道张居正这个人,是以前上学的时候,背诵古诗词的时候。我记得那首诗是《暮宿田家》。好多年来,我一直都以为他是一位诗人,一位学者。不管什么角色,至少没有想到过他会是一名...

2019年六月份总结与七月份计划

2019年六月份总结与七月份计划 老骥伏枥,志在千里 六月份的计划如下: 技术方面: 将机器学习中各个算法中用到的数学公式搞懂,明白为什么用这些公式(√/×) 将一些还没理解的算法完全理解,并自己重新推导一遍,写出blog(×) 学习使用scikit-learn,并找一个真实数据集尝试自己分析(×) 了解深度学习中各种常用的算法,最好找一些实现帮助理解(×) 学习...

Spark Executor倾斜

在跑任务的时候,遇到了这个问题,原因和解决方案在解惑:這個 Spark 任務是數據傾斜了嗎?

HBase Gauge class not found

跑任务的时候遇到了这个问题: 2019-06-26 10:46:53,058 ERROR [main] client.AsyncProcess (AsyncProcess.java:submit(405)) - Failed to get region location java.io.IOException: com.google.protobuf.ServiceException: ja...

线性回归和Logistic回归

线性回归 普通线性回归 普通线性回归很简单,最简单的就是最小二乘法的矩阵求解形式。关于最小二乘法的矩阵求解形式,请查看最小二乘法(least sqaure method). 它求解的形式如下: 我们可以看到,它有几个局限性: 对非线性的数据不友好,简单的多项式并不能求解 如果(X.T X)的逆并不存在,那么是无法解的 如果特征很多,那么求解会很费时间 还有另外一种...

HBase bucket cache过小导致读取速度慢

关于Bucket Cache的详细介绍请看HBase Block Cache(块缓存) 我们在跑数据的时候,发现读取的速度很慢,原本3分钟就完成的任务,现在需要20分钟。查看HBase日志,发现有大量这种信息: 2019-06-11 16:17:03,081 WARN [regionserver/xxx-BucketCacheWriter-1] bucket.BucketCache: F...

MapReduce每台机器仅使用一个core

在客户环境跑数据时,发现跑得很慢,我们设置了共100个Reducer,客户只有八台机器,每次只有八个Reducer在运行,而且运行一批需要35分钟左右,速度特别慢。 查过资料得知,这是因为MapReduce会根据机器上的内存数/每个Reducer需要的内存,来决定每台机器上运行几个Reducer。而我们的机器,能够运行的内存只有20+G,我们给每个Reducer分配了10G,还有其它Spa...

Spark repartition导致磁盘被写满

在客户环境跑数据的时候,老是发现数据量稍大的时候,会把磁盘空间跑满,进一步导致任务失败。 而观察下来,发现是在repartition的时候,出现的问题。repartition的shuffle read是100G,shuffle write是400G。 回想起以前写的Spark架构-Shuffle(译) 这篇文章,shuffle的时候会写磁盘,所以猜到是这儿的原因。 于是把reparti...