AIは言語、画像、音声など多様なデータを扱い、文脈や因果関係を深く思考する開発が進んでいます。
タグ: AI, マルチモーダル化, デジタル産業, 半導体, 自然言語処理, 画像認識, 音声認識
AIのマルチモーダル化を巡る動向 半導体・デジタル産業を取り巻く情勢 ● AIは、言語のみならず、画像・音声等多様なデータを広く扱うマルチモーダル化に向けた開発が激化。 ● また、文脈・意図・因果関係を踏まえて深く思考することも、開発の重要な要素になっている。 凡例 広さ(扱えるデータの多様性) モデル例 言語 音声 画像 動画 音声 画像 動画 3D ロボット 制御 生体信号 (BCI) 日本語 多言語・プログラミング 入力 出力 (生成) 知識 日本語 に強いモデル など 動画生成モデルやVLM・VLA等 解析 (文脈や意味関係を把握) Physical Intelligence (n) 論理的推論 (前後関係を考えー貫した論理を導く) Grok PaLM-E など 多段推論 (数理・因果関係を複数段階で 結びつけ考える) プログラミング など 知識の深さに相当するベンチマーク例。知識:JAQKET, NIILC (常識応答), JCommonsenseQA, pfgen-bench (日本語知識)、解析:llm-jp-eval (Wikipedia読解・要約推論) 等、論理的推論:MMU-Pro, 等、多段推論: AIME 2025, Humanity's Last Exam等 9