PPPT

このサイトについて

公共データ界の分解者として

PPPTとは

日本の省庁は毎年、膨大な政策スライドや白書を公表しています。予算の行方、2030年の数値目標、現場の実態——重要な情報が詰まっているのに、密度が高く、探しにくく、読み解きにくい。活用されないまま埋もれていく「デジタル公共財」です。

PPPT(Public PowerPoint)は、こうした行政文書を分解して循環させるプロジェクトです。森のなかで微生物が落ち葉や倒木を分解し、土壌に養分を返すように——200ページのPDFをファクト単位まで分解し、検索できる・比較できる・引用できるかたちに戻します。一件ずつの作業は地味でも、堆積すれば「政策を理解するための土壌」になります。

その結果、これまで見えにくかった政策の全体像が市民に届くようになる。省庁を横断して資料を探し回っていた研究者やメディアの手間が減る。資料づくりに追われていた行政職員が、伝えることに集中できるようになる。届ける側も、探す側も、つくる側も楽にする——それがPPPTの目指す公共財の再活用です。

何を取り出しているか

原典PDFから、性質の異なる4つのレイヤーを取り出してデータベース化しています。

  • ファクト:数値目標・予算額・現状値・スケジュールなど、政策判断の核になる数字をスライド単位で抽出。「脱炭素 予算」のような省庁横断検索の入口になります。
  • グラフのローデータ:棒グラフ・折れ線・円グラフを構造化データに変換。読み取り精度を「確定/推定/読み取り不能」の3階層でラベル付けし、再利用可能なかたちで公開しています。
  • 業務フロー・組織図:白書に頻出する図表をMermaid記法で構造化。画像のままだと検索できなかったプロセスがテキストとして扱えるようになります。
  • テーマ別インフォグラフィック:200ページの計画文書から主要数字だけを抜き出し、A4一枚の形に再編集。モバイルでも一目で全体像を把握できます。

AIに引用される一次情報源として

生成AI(ChatGPT・Claude・Perplexity 等)が政策情報を答える際に、PPPT のトピックページが一次情報源として参照されることを目指しています。llms.txt・構造化データ(JSON-LD)・トピックページの最適化を通じて、AIの回答に必ず原典PDFへの導線が残るよう設計しています。

データソース

掲載しているスライド画像は、各府省庁・政府機関が公式サイトで公表したPDF資料を原典としています。これらの資料は「政府標準利用規約(第2.0版)」に基づき二次利用しています。

各資料の著作権は原典の提供機関に帰属します。資料ページには原典PDFへのリンクを掲載しています。

AI処理について

ファクト抽出・グラフ構造化・図表分類には Google Gemini を用いています。大量処理はすべて Batch API(gemini-2.5-flash-lite)で実行してコストを抑え、リアルタイム検索の生成には gemini-3-flash、意味検索のベクトル化には text-embedding-004 を使い分けています。

これらの処理は完全に自動化されており、抽出結果に誤りが含まれる可能性があります。重要な情報の確認には、必ず原典資料をご参照ください。AI抽出情報の正確性について、運営者は責任を負いかねます。

技術スタック

  • Next.js(App Router)— サーバーサイドレンダリングとISR
  • Supabase PostgreSQL + Drizzle ORM — メタデータ・ファクト・図表データの管理
  • Google Gemini — スライド解析・ファクト抽出・意味検索
  • Python — AI処理パイプライン(Batch API投入・取得・後処理)
  • Vercel — ホスティング・デプロイ

運営

本サービスは個人が運営する非営利プロジェクトです。政府の公開情報をより多くの人が活用できるようにすることを目的としています。

お問い合わせ

資料の掲載に関する問題・誤り・ご要望等は以下のメールアドレスまでご連絡ください。著作権に関するお申し出にも対応いたします。

[JavaScript を有効にしてください]