AlstonWilliams's Blog

Thinking will not overcome fear but action will.

Scala中几种数据结构内存使用的对比

最近跑Spark任务的时候,在Spark UI中,看到GC时间特别长。定位到对应的代码以后,发现代码中使用了Scala的某些数据结构,会产生新的对象。 尽管最终发现是前人留下的代码有问题,但是在排查的过程中查看了一些Scala的数据结构,对比它们的内存用量,真是不比不知道,一比吓一跳。 代码如下: package com.hypers.insight import java.util....

Spark写S3慢优化过程

在跑客户的数据的时候,需要Spark插入数据到Hive中,而Hive又是布在S3上的。 Spark将数据插入Hive时,会先写到一个S3上的一个临时目录,最终再写到Hive对应的目录上。 而这儿就存在一个问题。在S3上,从一个临时目录移动到Hive的目录上,是特别耗费时间的。我们的程序,凌晨光做这个移动的过程,就做了6个小时。 想起来以前在看博客的时候,看到过Apache Spark ...

Spark persist不生效

Spark persist不生效 在跑任务的过程中,有一个RDD需要用到两次,所以我们手动调用了persist()函数,但是发现第二次用这个RDD的时候,还是重新计算了一遍。 在Spark UI的Storage页面中,我们发现这个RDD并没有被完全Cache下来,可能是完全Cache下来的话,需要的资源太多。如下图所示: 想想也非常合理,如果缓存不下来,就会重新计算这个RDD. 这也...

Spark coalesce的坑

最近在跑一个任务的时候,发现读取数据那一步总会卡死。 看代码,发现调用了coalesce函数。看此函数的注释: /** * Return a new RDD that is reduced into `numPartitions` partitions. * * This results in a narrow dependency, e.g. if you go from 1000...

机器学习中数学相关公式的推导

机器学习中数学相关公式的推导 如标题所述,这篇文章中会收录一些机器学习相关的公式。 由于网络上的文章都有版权,随意转载可能有法律风险,所以此处只是收录它们,而不是转载。当然,需要的每个公式我都会自己推导一遍,像我这种小白都能推导出来的话,没理由各位推导不出来。每个链接下面我会记录我推导的时候卡在哪里,需要补充什么,权当给各位的参考。 这个系列,也会随着我学习的过程,逐步增加。我尝试系统...

2019年五月份总结与六月份计划

老骥伏枥,志在千里 技术 技术方面立的flag有: 坚持四月份的好的习惯(√) 研究Docker的kerberos问题,如果能搞定,我们的离线就可以Docker化了(×) 完成ElasticSearch第二阶段的学习(√) 学习机器学习,彻底搞懂四五个算法,找个框架玩下图片识别(√/×) 月初本想搞下Docker+kerberos,但是后来想到了其它的有趣的事情。这...

HBase Bulkload调试过程

HBase Bulkload调试过程 问题描述 最近跑任务的时候,遇到了几个问题。开始的问题是”NotServingRegionExceptin”,我们把那台RegionServer重启后,这个就OK了。但是呢,又出现了另一个问题,给出的信息是”Call Exception on Row….”. 这就有点头大了,我们通过Cloudera的管理界面,看到那个RegionServer确实是启...

浅谈性格对意志力的影响

这一个月以来,我大幅改变了我的性格。有一些好的影响,也有一些坏的影响。 过去我想做个绅士,而这个月我开始转变为一个恶人。 事情的起因是因为我发现人善被人欺。由于我的不善拒绝,以及我做事喜欢善始善终,导致即使我很忙的时候,也经常会被推过来很多工作。而事后,却老是被喷没有按照他们的期望去做。 而以前我总是过多为其他人着想,会考虑他们对我的看法。这就导致我不善拒绝。 但是,一旦不善拒绝,别...

《MachineLearningInAction》读书笔记

《Machine Learning In Action》读书笔记 花了好久的时间读完这本书。 虽然时间长,但是受益匪浅。 过去看过《数据挖掘导论》以及周志华的《机器学习》,总是感觉看的时候大体能看懂,就是过段时间老是忘记。而且不知道如何将书中的公式,证明,用来实现一个分类器。 而这本《Machine Learning In Action》就是为了解决这个问题的。它用Python实现了...

《Elasticsearch:The Definitive Guide》读书笔记

《Elasticsearch: The Definitive Guide》读书笔记 思维导入在Elasticsearch读书笔记 很不幸的是,第四部分被覆盖掉了,现在只有前三部分。要补的话,时间又太长,暂时没心情补了。