Hadoop関連メモ 3
業務メモ。 適当にスルーしてください。 圧縮 ・可能な限りスプリット可能な圧縮形式で圧縮 ・空間,時間効率のバランスを考えるとLZO推奨 ・サイズの大きなgzipファイルを入力にしてはいけない ・gzipファイルを利用する場合には、1ブロックサイズにマッチしていると効果的 ・出力データも圧縮 ブロックサイズ最適化 Hadoop は大きなファイルをシーケンシャルに読み書きするのに適した設計がされているので、 小さいファイルを大量に扱うのは苦手。 空間効率が悪い上に NameSpace を大量に消費…