PPPT

このサイトについて

公共データ界の分解者として

PPPTとは

日本の省庁は毎年、膨大な政策スライドや白書を公表しています。予算の行方、2030年の数値目標、現場の実態——重要な情報が詰まっているのに、密度が高く、探しにくく、読み解きにくい。活用されないまま埋もれていく「デジタル公共財」です。

PPPT(Public PowerPoint)は、こうした行政文書を分解して循環させるプロジェクトです。森のなかで微生物が落ち葉や倒木を分解し、土壌に養分を返すように——200ページのPDFをファクト単位まで分解し、検索できる・比較できる・引用できるかたちに戻します。一件ずつの作業は地味でも、堆積すれば「政策を理解するための土壌」になります。

その結果、これまで見えにくかった政策の全体像が市民に届くようになる。省庁を横断して資料を探し回っていた研究者やメディアの手間が減る。資料づくりに追われていた行政職員が、伝えることに集中できるようになる。届ける側も、探す側も、つくる側も楽にする——それがPPPTの目指す公共財の再活用です。

何を取り出しているか

原典PDFから、性質の異なる4つのレイヤーを取り出してデータベース化しています。

  • ファクト:数値目標・予算額・現状値・スケジュールなど、政策判断の核になる数字をスライド単位で抽出。「脱炭素 予算」のような省庁横断検索の入口になります。
  • グラフのローデータ:棒グラフ・折れ線・円グラフを構造化データに変換。読み取り精度を「確定/推定/読み取り不能」の3階層でラベル付けし、再利用可能なかたちで公開しています。
  • 業務フロー・組織図:白書に頻出する図表をMermaid記法で構造化。画像のままだと検索できなかったプロセスがテキストとして扱えるようになります。
  • テーマ別インフォグラフィック:200ページの計画文書から主要数字だけを抜き出し、A4一枚の形に再編集。モバイルでも一目で全体像を把握できます。

AIに引用される一次情報源として

生成AI(ChatGPT・Claude・Perplexity 等)が政策情報を答える際に、PPPT のトピックページが一次情報源として参照されることを目指しています。llms.txt・構造化データ(JSON-LD)・トピックページの最適化を通じて、AIの回答に必ず原典PDFへの導線が残るよう設計しています。

データソース

掲載しているスライド画像は、各府省庁・政府機関が公式サイトで公表したPDF資料を原典としています。これらの資料は「政府標準利用規約(第2.0版)」または各府省の利用規約(経済産業省等は「公共データ利用規約(PDL1.0)」)に基づき、出典を明示したうえで二次利用しています。

各資料の著作権は原典の提供機関に帰属します。資料ページには原典PDFへのリンクと出典表記を掲載しています。

第三者の権利への配慮

政府資料には、政府以外の第三者が権利を持つ素材——人物が写った写真(肖像権)、キャラクター、企業・団体のロゴ、外部が制作したイラストや完成予想図など——が含まれることがあります。これらは政府の利用規約の対象外であり、出典を明示するだけでは再配布できません。

そこでPPPTでは、公開するスライド画像をAI(画像解析)で点検し、第三者の権利が及ぶと判断した領域を薄いグレーの枠で覆って非表示にしています。覆った箇所には「何が写っていたか」の短い説明(例:「各国要人との会談写真」)を残し、文脈が失われないようにしています。政府が自ら作成した図表・グラフ・地図などは、出典を明示したうえでそのまま掲載します。

この自動マスクは可能な範囲での予防的措置であり、すべての第三者素材を完全に検出できるとは限りません。見落とし等にお気づきの場合や権利に関するお申し出は、下記お問い合わせ・利用規約の窓口までご連絡ください。速やかに対応します。

AI処理について

ファクト抽出・グラフ構造化・図表分類・第三者素材の判定には Google Gemini を用いています。ファクト抽出や画像判定には gemini-3.5-flash、OCR・領域検出には gemini-3.1-flash-lite、リアルタイム検索の生成には gemini-3-flash、意味検索のベクトル化には text-embedding-004 を使い分け、大量処理は Batch API でコストを抑えています。

これらの処理は完全に自動化されており、抽出結果に誤りが含まれる可能性があります。重要な情報の確認には、必ず原典資料をご参照ください。AI抽出情報の正確性について、運営者は責任を負いかねます。

技術スタック

  • Next.js(App Router)— サーバーサイドレンダリングとISR
  • Supabase PostgreSQL + Drizzle ORM — メタデータ・ファクト・図表データの管理
  • Google Gemini — スライド解析・ファクト抽出・意味検索
  • Python — AI処理パイプライン(Batch API投入・取得・後処理)
  • Vercel — ホスティング・デプロイ

運営

本サービスは個人が運営する非営利プロジェクトです。政府の公開情報をより多くの人が活用できるようにすることを目的としています。

お問い合わせ

資料の掲載に関する問題・誤り・ご要望等は以下のメールアドレスまでご連絡ください。著作権に関するお申し出にも対応いたします。

[JavaScript を有効にしてください]