生成AIはクラウドだけのものではありません。Android 16 以降では AICore 上の Gemini Nano を ML Kit GenAI API 経由で呼び出せ、数百ms で要約・校正・画像キャプションを端末内で完結できます。一方 OSS 界隈では ggml/llama.cpp による量子化 Llama 3 などを JNI 経由で組み込む手法や、汎用ランタイム LiteRT(旧 TensorFlowLite) にモデルを変換し NNAPI/GPU で推論するルートも整備されました。 本セッションでは「オフライン AI チャット」「リアルタイム文章要約」「リアルタイム文章校正」を一つの Compose アプリに統合しながら、三つのオンデバイスLLMを 同じプロンプト・同じ端末 でベンチマークします。 比較軸は下記の5点です。 ①導入工数とビルド手順 ②モデルサイズ/RAM 使用量 ③推論レイテンシ ④バッテリー消費 ⑤ライセンスと運用 Gemini Nano の省電力性と高レベル API の手軽さ、llama.cpp の自由度と落とし穴、LiteRT の柔軟性と量子化チューニングの難しさを可視化します。 また、それぞれの実装方法同時に紹介します。 オフラインでも瞬時に動き、個人情報をクラウドへ送らず、運用コストを抑えられるオンデバイスLLMは今後の発展が見込まれます。 本セッションを通じて、より実用的なオンデバイスLLMを活用した Android アプリ開発のイメージを掴むことができます。実際のユースケースや実装方法を知ることで、新たなアプリの発想や、既存アプリの進化のきっかけとなることを目指します。
daasuu Software Engineer
- 0からオンデバイスLLMをAndroidで実現したい方 - オンデバイスLLMに興味がある方 - クラウドLLM のコストやプライバシーに課題を感じている方