データカタログ設計

英語名 Data Catalog Design
読み方 データ カタログ デザイン
難易度
所要時間 2〜6週間(初期構築)
提唱者 データマネジメント(DMBOK)とモダンデータスタックの実践
目次

ひとことで言うと
#

組織内のデータ資産(テーブル・カラム・パイプライン・ダッシュボード)にメタデータを付与し、誰でも検索・理解・評価できる状態にするための設計手法。図書館の蔵書目録のように、「どこに・どんなデータがあり・誰が管理し・どれくらい信頼できるか」を一元管理する。

押さえておきたい用語
#

押さえておきたい用語
メタデータ(Metadata)
データに関するデータ。テーブル名、カラムの説明、更新頻度、オーナー情報などが含まれる。
テクニカルメタデータ(Technical Metadata)
スキーマ定義、データ型、パーティション、行数などシステムから自動取得できる情報。
ビジネスメタデータ(Business Metadata)
カラムの業務的な意味、計算ロジック、利用上の注意点など人間が記述する情報。
データリネージ(Data Lineage)
データがどこから来てどこへ流れるかの系譜。上流の変更が下流にどう影響するかを追跡できる。
データオーナー(Data Owner)
特定のデータセットの品質・定義・アクセス管理に責任を持つ人。カタログに明記することで問い合わせ先が明確になる。

データカタログ設計の全体像
#

データカタログ設計:4つの構成要素でデータ資産を発見可能にする
データカタログの4構成要素データカタログ検索・閲覧・評価の統合UIテクニカルメタデータスキーマ・型・行数ビジネスメタデータ定義・ロジック・注意点データリネージ上流→下流の系譜オーナー&品質責任者・信頼スコア自動収集 × 人間の記述 × 継続的更新 = 使われるカタログ
データカタログ構築の進め方フロー
1
スコープを決める
最重要データ資産を選定し初期対象を絞る
2
メタデータを収集する
テクニカル自動取得+ビジネス手動記述
3
カタログを公開する
検索UI・リネージ・品質スコアを統合表示
運用を回す
オーナー制度とレビューで鮮度を維持

こんな悩みに効く
#

  • 「このデータどこにあるの?」という質問が毎週のように飛び交う
  • 同じ意味のカラムが複数テーブルにあり、どれが正解か分からない
  • データの定義やロジックが特定の人の頭の中にしかない
  • 新しく入ったメンバーがデータ構造を理解するのに何週間もかかる

基本の使い方
#

初期スコープを絞る

全データ資産を一度にカタログ化しようとすると頓挫する。まず最も利用頻度が高いデータに絞る。

  • 社内で最も参照されているダッシュボードが依存するテーブルを洗い出す
  • 全テーブルの上位20%(利用頻度ベース)に絞ると、分析者の体験が大きく改善する
  • Tier 1(ビジネスクリティカル)から着手し、Tier 2・3 は運用が安定してから追加
テクニカルメタデータを自動収集する

手作業に依存すると最初から鮮度が落ちる。ツールで自動取得できる情報は自動化する。

  • データウェアハウス(BigQuery・Snowflake等)からスキーマ・データ型・行数・更新日時を自動取得
  • dbt の schema.ymlmanifest.json からカラム説明・テスト定義を連携
  • BIツール(Looker・Tableau等)からダッシュボードとテーブルの依存関係を取得
ビジネスメタデータをオーナーが記述する

自動取得できない情報は人間が書く。ただし負担を最小化する工夫が要る。

  • 各テーブルにデータオーナーを1名アサインし、記述責任を持たせる
  • 記述テンプレートを用意: 「このテーブルは何のためのデータか」「主要カラムの業務上の意味」「利用上の注意点」の3項目に絞る
  • PR レビューの一環としてメタデータ更新を組み込む(dbt の schema.yml をコードと一緒にレビュー)
カタログを公開し利用を促進する

作っただけでは使われない。利用者の動線に組み込む。

  • Slack で「データの質問」が来たら、カタログのURLで返す文化を作る
  • 新入社員のオンボーディングにカタログの使い方ガイドを組み込む
  • 月次で「カタログ利用率」と「Slack でのデータ質問数」を計測し、効果を可視化する

具体例
#

例1:分析チームの『データ探し時間』を半減させる

従業員120名のEC企業。データウェアハウスに350テーブルがあるが、ドキュメントは散在するスプレッドシートとConfluenceページのみ。分析チーム8名にアンケートを取ったところ、業務時間の**平均22%**を「正しいデータを探す」ことに費やしていた。

カタログ構築のスコープ:

  • BIダッシュボードの利用ログから、最も参照される上位60テーブル(全体の17%)を初期対象に選定
  • ツール: DataHub(OSS)を選択。BigQueryコネクタで自動連携

メタデータの整備:

  • テクニカルメタデータ: BigQueryから自動取得(スキーマ・行数・更新日時)
  • ビジネスメタデータ: 各テーブルのオーナー(分析チーム8名で分担)が3項目テンプレートで記述。1テーブルあたり平均20分で完了
  • リネージ: dbtのmanifest.jsonからテーブル間の依存関係を自動生成

3か月後の成果:

  • 分析チームの「データ探し時間」: 業務時間の**22% → 11%**に半減
  • Slackでの「このデータどこ?」質問: 週12件 → 週3件
  • 新メンバーのオンボーディング期間: 3週間 → 1.5週間
  • カタログの週間アクティブユーザー: 42名(分析チーム以外の事業部メンバーも利用)
例2:M&A後の2社のデータ資産を統合する

従業員300名のA社が80名のB社を買収。両社のデータウェアハウスを統合する必要があるが、B社のデータ資産の全体像を誰も把握していなかった。

カタログによるデータ棚卸し:

  • B社のSnowflakeアカウントにカタログツールを接続し、180テーブルを自動検出
  • 各テーブルの最終更新日・行数・参照頻度を一覧化
  • B社のデータエンジニア2名にビジネスメタデータの記述を依頼(2週間で完了)

発見された問題:

  • 42テーブルが6か月以上更新されておらず、廃止候補と判明
  • A社とB社で「顧客」の定義が異なる(A社は契約ベース、B社はアカウントベース)
  • 同じ指標名「MRR」の計算ロジックが2社で異なっていた

カタログを使った統合計画:

  • 廃止候補42テーブルをアーカイブし、統合対象を138テーブルに絞った
  • 「顧客」「MRR」などの重要ビジネス用語の定義を統一し、カタログ上のグロッサリーに登録
  • 統合後のリネージを描き、どちらのパイプラインを残すか判断

結果:

  • カタログなしで見積もった統合期間: 6か月
  • カタログを使った実際の統合期間: 3.5か月(約40%短縮)
  • 統合後のデータ不整合に起因するインシデント: ゼロ(カタログ上で事前に定義を統一したため)
例3:データリネージで障害の影響範囲を即座に特定する

従業員600名の金融サービス企業。データウェアハウスに800テーブル、BIダッシュボードが120枚ある。ある朝、外部APIからの取込みパイプラインが障害を起こしたが、「どのダッシュボードが影響を受けるか」を特定するのに4時間かかった。

リネージの構築:

  • dbt のモデル定義から自動生成した上流→下流の依存グラフをカタログに統合
  • BIツール(Looker)のAPIからダッシュボード→テーブルの参照関係を取得し、リネージの末端に接続
  • 各テーブルにTierタグを付与(Tier 1: 規制報告・課金、Tier 2: KPIダッシュボード、Tier 3: 探索用)

障害発生時の活用: 3か月後、同じ外部APIの障害が再発。今回はカタログのリネージを検索し、影響範囲を15分で特定した。

  • 影響テーブル: 12テーブル
  • 影響ダッシュボード: 5枚(うちTier 1は1枚)
  • 即座に利用部門に「このダッシュボードは本日○時まで更新が遅延します」と通知

成果:

  • 影響範囲の特定時間: 4時間 → 15分
  • 利用部門への通知: 障害発生から20分以内に完了(以前は数時間後)
  • 誤ったデータに基づく意思決定のリスク: 事前通知により回避

やりがちな失敗パターン
#

  1. 全テーブルを一気にカタログ化しようとする — 350テーブルの説明を一度に書くのは現実的でない。利用頻度の高い上位20%から始め、成功体験を作ってから拡大する
  2. テクニカルメタデータだけで満足する — スキーマ情報だけのカタログは「中身が空の図書館目録」と同じ。ビジネスメタデータ(このテーブルは何のためのデータか)がなければ利用者は使わない
  3. カタログを作って放置する — メタデータは時間とともに腐る。四半期に1回のオーナーレビューと、PRレビューへの組み込みで鮮度を維持する仕組みが必要
  4. ツール選定に時間をかけすぎる — DataHub、Atlan、Amundsen、dbt Docs など選択肢は多いが、完璧なツールはない。まず1つ選んで小さく始め、フィードバックを得てから乗り換えを検討する

まとめ
#

データカタログは、組織のデータ資産に「目録」を付けることで、誰でもデータを発見・理解・信頼できる状態を作る基盤である。成功の鍵は小さく始めて利用者の体験を早期に改善すること。テクニカルメタデータの自動収集で初速を出し、ビジネスメタデータの記述でカタログに魂を入れ、オーナー制度と定期レビューで鮮度を保つ。この3つのサイクルが回れば、カタログは「作ったけど使われないツール」ではなく、組織のデータ文化の中心になる。