AI学習に必要なデータが枯渇し、生成AIの活用に課題が生じている。
タグ: AI, データ枯渇, 生成AI, 半導体, デジタル産業
AIの学習データ枯渇問題 半導体・デジタル産業を取り巻く情勢 経済・産業活動のデジタル化が進展し、データそのものの価値やデータ利活用のニーズが高まる中、生成AI等の登場がこの動きを更に加速化する。あらゆる産業の競争力がデータによって規定される時代に入っている。 一方で、これまでインターネット上の大量のテキストデータを学習し、あらゆる場面で活用されつつある生成AIも、昨今では目前に迫っている「学習データの枯渇」が大きな問題になっている。 LLM基盤モデル学習におけるインターネット上のテキストデータ利用の予測 2022-34年(予測値ベース) トークン数 凡例 10 15 インターネット上で利用可能な 人間由来のテキストデータ 10 14 上記の予測誤差 LLM基盤モデルの学習で 消費されるデータ 10 13 上記の予測誤差 10 12 10 11 2020 22 24 26 28 30 32 34 11 (出典) Epoch AI.“Will We Run Out of Data? Forecasting Dataset Size for Language Models."Technical Report,June 2024