Hadoop関連メモ 3

業務メモ。 適当にスルーしてください。 圧縮 ・可能な限りスプリット可能な圧縮形式で圧縮 ・空間,時間効率のバランスを考えるとLZO推奨 ・サイズの大きなgzipファイルを入力にしてはいけない ・gzipファイルを利用する場合には、1ブロックサイズにマッチしていると効果的 ・出力データも圧縮 ブロックサイズ最適化 Hadoop は大きなファイルをシーケンシャルに読み書きするのに適した設計がされているので、 小さいファイルを大量に扱うのは苦手。 空間効率が悪い上に NameSpace を大量に消費…

Hadoop関連メモ 2

業務メモ。 適当にスルーしてください。 SequenceFile SequenceFileは、<key, value>形式でデータを保持する。 テキストをそのままMapで読み込むと、keyにバイトオフセット、valueに入力テキストが入るが、SequenceFile形式だとkey, valueをそのままMapの入力とすることができる。 また、圧縮していても各ノードに分散される(gzipは分散されない)。 hadoop fs -textとすれば、コマンドラインからテキスト形式で内容を出…

Hadoop関連メモ

業務メモ。 適当にスルーしてください。 Hadoopのチューニングで使われる設定について。 hadoop-env.sh パラメータ 説明 メモ HADOOP_OPTS デーモンのJava起動オプション ヒープサイズを設定したり、並列GC、コンカレントGCを使用するなど

hadoop-site.xml パラメータ 説明 メモ mapred.tasktracker(map|reduce).tasks.maximum 個々のTaskTr…