GTC Japan 2016 参加レポート

GTC Japan 2016が10月5日にヒルトン東京お台場で開催されました。今回で参加は2回目ですが、前回(2014年)より参加者はとても増えていたように思います。ゆりかもめでは小さすぎる。

dsc07402

dsc07447

基調講演

NVIDIA ジェンスン・ファン(Jen-Hsun Huang)CEOの基調講演に関するレポートは大手ネットメディアがたくさん書いてるのでそちらを見た方が詳細が分かると思いますが、ここでもメモ書き程度におさらい。


今回のGTCはGPUによるDeep LearningとAIの話がメイン、NVIDIAは自らを「AIコンピューティングカンパニー」と呼ぶほどに注力している。

gtc1

Deep Learningを用いたコンピューティングモデルのサイクル、データを学習し、推論した結果をデバイスに返し、またデバイスからデータを得て学習に戻る。

%e5%90%8d%e7%a7%b0%e6%9c%aa%e8%a8%ad%e5%ae%9a-7

画像認識や音声認識分野でのこれまでの成功事例の紹介があり、画像認識においては2012年のAlexNet(8層/1.4GFLOPS/エラー率 16%未満) -> 2015年のResNet(152層/22.6GFLOPS/エラー率3.5%未満)でモデルサイズは16倍にもなり、ネットワークの複雑化と併せてデータセットのサイズも巨大になってきているため、さらなる高速な計算が必要となってきた。

求められる大規模な演算能力、増え続けるデータに対応するために過去最大の投資をした、それがPascal。数千人規模で3年かけて約20億ドルを投資。PascalはDeep Learning向けに最適化されており、Keplerと比較して学習速度が65倍に向上した。

pascal_gpu

Tesla P4/P40は低消費電力でCPUと比べ何十倍ものエネルギー効率を、TensorRTは推論処理に特化したエンジンで、cuDNN実装よりも高いパフォーマンスを発揮する。学習処理だけなく推論処理向けに設計された製品がこれで揃った。

NVIDIA TensorRT™ is a high performance neural network inference engine for production deployment of deep learning applications.

tesla_p4_p40

ARTISTOの紹介デモ(動画に対してピカソ等のアートスタイルを学習)、会場のライブ映像にも適用していた。プリレンダではなくリアルタイム、あの大画面でのインパクトは印象に残る。会場は大きな拍手。

artisto1

artisto2

artisto3

日本の取り組みを紹介。PFI(Chainer)/楽天(フリーマーケットの商品を自動カテゴリ化)/みずほ証券(トレーディングの予測精度向上)/ABEJA(店舗の顧客分析)

japan_ai_update

IoTの話、数十億のデバイスに対応するソフトウェアをどう作り込めば良いのかという課題があったが、これからはAIがデバイスのエンジンとなる。その流れで JETSON TX1 の紹介、10Wで駆動、Deep Learning用のアーキテクチャが搭載されており膨大な数のデバイスに組み込まれていくだろう。

jetsontx1

FANUCのAIマニュファクチャリング(スマートファクトリー)に関する取り組みをビデオで紹介後、FANUC 稲葉氏とのトークセッション。

fanuc_session

NVIDIAとはロボット制御プラットフォーム FANUC Intelligent Edge Link and Drive System(FIELD System) の開発で協業。工場のロボット自身が作業内容をGPU(JETSON TX1)によるDeep Learningで学習することで、作業ごとに個別にプログラミングをする必要がなくなり、稼働率も大きく改善される。また、ロボット制御は応答時間が重要、瞬時に反応しなければならない。複数のロボットで協業作業をする場合は衝突を上手く避けるためにお互いの作業も含めて認識する必要がある。ロボット達はそのような複雑な作業を学び、多くのスキルを身に付けていく。

AIトランスポーテーション(自動運転)の話、この分野は将来1000兆円産業になる予測されている。自動運転には周囲のオブジェクト認識、自己位置の推定、的確なドライビング操作など複雑な演算が必要となる。

車載人工知能エンジンである NVIDIA DRIVE PX 2 の紹介。Auto Cruise / Auto Chauffeur / Full Autonomy、つまりオートクルーズから完全な自動運転まで対応できる。

nvidia_drive_px2

DRIVEWORKS ALPHA 1 は自動運転車用のオペレーティングシステム

nvidia_driveworks2

車の周辺の環境を認識して、近い未来を予測、車を安全な場所(開けた道)に移動するよう運転する。

(ここは動画を流しながらの技術説明が多かったので、NVIDIA公式の動画を貼っておきます)

NVIDIA BB8 (NVIDIA の自律運転車)

最初は駐車場でコーンで区切られた車線を走って練習してから路上に出る、アスファルトの車線や標識、見通しのきかない交差点、夜間でも問題なく対応できている。人間が教習所で運転を学ぶのと同じ。

Project XAVIER 最大規模の次世代SoC(シングルチップコンピュータ)、ARMの64bitCPUを8基、次世代GPUアーキテクチャである「Volta」を512基統合している。

nvidia_project_xavier

NVIDIAのコンピューティング技術を全ての産業界に広めていきたい。

nvidia_all_area

未来のAIは多くの問題を解決し、革命を起こすでしょう。


業界の技術動向と未来の話に製品紹介を綺麗に織り交ぜ、マーケターとエンジニア両方に宛てた上手い話だったように思います。NVIDIAは少し前まで機械学習の学習速度を速めるためにGPUを活用する話ばかりでしたが、その成果を実際の現場で利用するため推論用に特化した製品(Tesla P4/P40/TensorRT)も作り、これによってNVIDIAはエンドツーエンドのAIプラットフォームを提供することができるようになりました。FANACのようにAIと産業がより身近になってきたと強く感じます。

午後からは複数のセッションが併行開催だったので、僕が聴講したセッションを以下にまとめます。ほとんどのセッションは実質20分程度で短かったです。

GPUコンピューティング研究会セッション

東工大TSUBAMEの活用事例:マルチメディア認識のための深層学習

音声・音楽・画像・映像などのマルチメディア認識の分野では、近年、深層学習が大幅な性能向上をもたらしている。一方で、その研究のために必要な計算機資源の確保が課題となっている。ここでは、東京工業大学のスーパーコンピュータ TSUBAME を活用した、我々の研究事例について紹介する。

たぶんTRECVID(TREC Video Retrieval Evaluation)の話だろうなと思ったら案の定でした。


前半はTRECVIDとTSUBAME2.5の紹介、TSUBAME2.5では1つのノードにTesla K20Xが3つ、1ラックで30ノード、58ラックでシステムが構成されている。

深層学習活用以前の手法は、ショット抽出 -> SIFTやHoG, MFCCなど複数の特徴抽出 -> Tree-structured GMMs でクラスタリング -> GMMの平均ベクトルを連結 (supervecors) -> SVM with RBF kernelで分類 -> SVMスコアの重み付け和 というフローで計算していたが、現在は深層学習を併用する手法を採っていて、CNNを特徴抽出器として利用している(end-to-endで用いるのは現状難しい)とのこと、ネットワークはAlexNetの学習済みモデルをそのまま利用。

音響情報を用いるとSinging/Dance/Carなどのコンセプト認識に特に有効。従来はキーフレームのみを対象としていたが、最近はそれ以外の多くのフレームを利用している。また、量子化誤差を減らすためにGMMでソフトクラスタリングしている。


篠田先生は時間配分を間違えていたようでスライド後半の説明は聴くことができませんでした。。個人的にSIN(Semantic Indexing)の話は何度も聴いたことがあったので、MED(Multimedia Event Detection)やLocalizationの話をよく聴きたかったというのが本音。最後はスライドだけペラペラ流していたので少し撮りました。

dsc07396

dsc07393

TRECVIDは結果を提出すること自体が大変難しいと聞きます。TSUBAMEの計算能力を十分に引き出すことで結果を出し続けることができるんだろうなと思いました。推論(識別)時にTesla P4/P40/TensorRTを活用するとどれくらい速くなるのでしょうか、興味があります。

ディープラーニングビジネスセッション

顔画像センシングと時系列Deep Learningによるドライバ状態モニタリング技術

運転中のドライバ状態をセンシングすることにより、手動運転/自動運転含むさまざまなシーンでのクルマの安全性向上が実現できる。我々は顔画像センシングと時系列 Deep Learning を融合することで、カメラ映像から多様なドライバの状態を一括で高精度にセンシングする技術を開発した。本講演では、この技術の概要を述べる。

自動運転技術は車外の認識にスポットが当てられることが多いですが、このセッションでは車内のドライバーの監視についての話でした。


自動運転の実用化に向け、道路交通に関する条約(ジュネーブ条約)ではドライバー監視が義務化へ(2017年の採択を目指している)。この課題に対して、ドライバーモニタリング技術の向上が必須。顔向き検出、視線検出、目開閉検出など個々の技術を用意しても多種多様なドライバーの行動や状態に対応しきれない。

そこで、時系列ディープラーニングと画像認識技術を使ってドライバーの様々な行動に対応できるシステムを開発した。運転手の多種多様な行動/状態をセンシングし、運転に適した状態かをリアルタイムに判定する。

gtc_omron

近赤外線カメラからドライバーの顔周辺画像を入力し、低解像度の大局的な特徴(CNNで特徴抽出)と、厳選された局所的な顔特徴(目、鼻、口などの顔器官、視線や目開閉等)を効果的に(RNNで)融合させてドライバーの行動・状態を高精度に推定する。

gtc_omron3


オムロン社が得意としている顔画像センシング技術と最新のAI技術を上手く組み合わせたソリューションの紹介でした。携帯電話のような低スペック環境でも高速・高精度を維持するノウハウを活用して、本来は大規模高性能なハードウェアが必要だったRNN(LSTM)を車載組み込み向けにコンパクトに実装した技術力は素晴らしいと思います。

オムロン公式の紹介動画を貼っておきます。これを見ればどんな技術かすぐわかります。

* 世界初「最先端AIを搭載した車載センサー」を開発

NVIDIA DGX: Integrating the Power of Deep Learning and Accelerated Analytics

Customers are looking to extend the benefits beyond big data with the power of the deep learning and accelerate the insights they can get from data. The NVIDIA DGX-1 is the platform of AI Pioneers, which integrates power of deep learning and accelerated analytics together in a single hardware and software system. This session will cover the learnings and successes of real world customer examples for deep learning and accelerated analytics.

このセッションはNVIDIA DGX-1の紹介。AI開発において扱うデータは、IoTやウェアラブルデバイスのセンサーデータや動画データ等ゼタバイトクラスになってきており、より膨大な演算能力が必要になってきた。

dsc07471

DGX-1はPascal世代のGPU Tesla P100 を8基搭載し、それらはNVLinkで接続されている。倍精度(FP64)で40TFLOPS、半精度(FP16)で170TFLOPSの演算処理性能を持つ。FP16の性能をアピールしていることからもわかるように深層学習に向けた設計がされている。DGX-1と同じ性能をXeonのCPUサーバーで出すには250ノードも必要だが、DGX-1なら3Uサイズのラックマウントサーバ1台に収まってしまうほどコンパクト。

ペガサス会場前にはNVIDIA DGX-1の筐体が展示されていた。これ一台でスパコン並みの性能があると考えれば確かにコンパクト。129,000ドルとのことなので2016/10現在だと日本円で約1,300万円。

dsc07442

GPUを利用した次世代の超並列データベース MapD の紹介も。従来はHPCの領域だった巨大データの可視化などをGPUカード1枚のサーバで処理できるようになる。数十億もの巨大なデータをGPUメモリに格納することでSQLエンジン等も高速化される。

mapd_banner_resized

「教えて!goo」における恋愛相談へのAIによる回答生成について

NTTレゾナントは、日本最大級の QA コミュニティ、教えてgoo! において、AI による恋愛相談への回答生成の試みを実施している。本講演では、AI を、教えてgoo! へ導入する経緯と、ディープラーニングによる回答生成の試みについて報告する。

教えて!gooは、3,000万件の質問・回答データを持つQ&Aサービスです。その中でも最も利用の多い恋愛相談カテゴリにてAI「オシエル」が回答するサービスを9月6日より開始しています。このセッションでは技術面も含めて恋愛相談におけるAI導入の話を聴くことができました。


AI「オシエル」は3000万件以上のQ&Aデータから、使われている単語の意味や質問と回答の対応関係、回答文の組み合わせをDeep Learningを用いて学習してモデルを作成。投稿された質問に対してマッチする「共感」「結論」「理由」を含む文を回答集合から抽出し、抽出した文を組み合わせて新たに回答を生成する仕組み。

* ユーザーはなぜ質問、相談するのか?
検索してもわからない(回答一覧が与えられても困ってしまう)
質問に対してダイレクトに回答を得られる

* A Neural network Answer Generation Model

gtc_goo

QA(Question Anseringには答えが一意に決まる比較的単文で単純なQA(Factoid)と、答えが多様、複雑、長文となるQA(Non-Factoid)の2種類があるが、恋愛相談は後者でチャレンジングな領域、研究も活発に行われている。

Non-factoid QAに対する既存手法 QA-LSTMは、Word2vecで単語ベクトル生成 -> Bi-LSTMによるQとAの文書ベクトル生成 -> QとAのベクトルの類似度(コサイン類似度)計測によりマッチングを最適化する。これに対してNTTレゾナントの手法は、複数の回答の中から正解と思われる回答を1つピックアップするQA-LSTMとは異なり、質問文の文脈を解析し、gooが持つ大量の回答データを用いて自然な回答文を生成する。

gtc_goo2

* データセット
単語ベクトルの学習: 16カテゴリ 質問 189,511 回答 771,956
回答生成の学習: 恋愛相談の250万件の回答から文抽出手法により自動的に抽出した結論・理由のペアを5,000件

9月6日のサービス開始以降、AIによる回答は713件、そのうち「good」が255件(good獲得率 35%)、「ベストアンサー」が35件(ベストアンサー獲得率 6%)との評価になっている。


言語処理は詳しくないですが、アテンションの話は画像/動画処理でも利用されるアプローチなので馴染みがありました。確かに恋愛相談においても重要そうなトピックに注目するのは効果がありそうですし、だらだらと長い質問文に対して精度低下を防ぐことにも貢献しそうです。画像系のアテンションだと固有名詞が濃くなりがちですが、恋愛相談だとどういう単語に注目されることが多いのか気になります。事前に決めたシナリオに沿った回答文ばかりだと機械っぽさが見えてしまいそうですが、そこは上手な文生成でカバーできるのでしょう。学習に利用したデータセットは質問・回答者の性別は考慮してるのでしょうか。AIにも性別を付けると雰囲気の異なる回答文が作れて楽しそうです。

ポスター

数は少なかったけどいくつかポスターセッションもあったので何枚かさらっと読んできました。

* Deep-SR 超解像向けディープラーニング学習モデル
waifu2xのモデルにResNetの構造を取り入れたDeep-SRの紹介。3×3の畳み込み層2つを1×1,3×3,1×1のshortcutを追加したbottleneckブロックに変えて精度向上を図った。

* PascalアーキテクチャGPUにおける線形計算カーネルの実装技術の検討
GPUのスレッドブロックサイズの自動調整手法、ワープ/スレッドブロックの多重実行時の効率低下を最大化する。IEEE754の浮動小数点型よりビット長の短い短尺浮動小数点表現を提案。自動チューニングによるパラメータ調整をすることで高性能を実現したSYMVカーネルを開発。

* Will FPGA Become a Competitor of GPU in HPC Field?
FPGA(OpenCL実装/DE5/395-D8)とGPU(CUDA実装/C2075/GTX960/GTX580)でステンシル演算性能などを比較検証した。FPGAとGPUにおける並列性はデータレベルかオペレーションレベルかの違い(必要とされるメモリ帯域幅が異なる)。ステンシル演算性能の比較では単精度ではFPGAが、倍精度ではGPUの方が速かった。

* Training of Deep Convolutional Neural Network for Pedestrian Attribute Recognition using Rarity rate
歩行者の属性推定(男性/女性、顔や体の向き、傘を差している等)におけるCNNの学習において、データセットに偏りがある場合の改善検討。Rarity Rate(希少なシーンでは高い値となる)を導入して精度向上を図った。
ポスターだけだと情報が少なかったので関連論文を探しました、たぶんこの辺り。

GPU活用における技術的な検討事例は大いに参考になりました。ただ、Pascal世代になってからはGPUや関連ソフトウェア自体が賢くなっており、ユーザーレベルで最適化していく部分は以前より減ってきているようです。

おわりに

2014年に参加したときよりも、AI関連の話が多く、逆にコンピュータグラフィックス関連の話は減っていました。ジェンスン・ファン氏が「もはやSFではない」と言っていたように、FANACの事例のような実際の産業とAI(機械学習)がより身近になってきたということなのでしょう。また、Tesla P4/P40/TensorRTのような推論処理に最適化されたソリューションも揃えてきたということからも、これまでの研究の成果を産業の現場に展開する準備が十分整ったと言えます。Web開発の現場でもGPUの活用は徐々に広まってきていますし、この勢いをさらに加速させていきたいです。

GTC Japan 2016

おまけ

NVIDIA色の抹茶アイスクリームとミスタードーナツ、ひとりひとつずつタダ。

dsc07454

dsc07460

dsc07440

CUDAや機械学習関連の技術書籍販売もありました。10%OFF。僕は一番右の本の原著だけ持ってます。

dsc07443

Microsoftブースのくじ引きで5等中の3等、デジタル電波時計が当選。まぁまぁ良いモノが当たったようです。CityNextのイベントで余った品というのがまるわかりですが、。

dsc07484

あわせて読む:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です