ひとことで言うと#
中央集権的なデータチームがすべてのデータを管理するのではなく、各ドメインチームが自分のデータを「プロダクト」として所有・提供する分散型のデータアーキテクチャ。マイクロサービスの考え方をデータの世界に持ち込んだもの。
押さえておきたい用語#
- データプロダクト(Data Product)
- ドメインチームが提供する発見可能・理解可能・信頼可能・アクセス可能なデータセットのこと。単なるテーブルではなく、SLO・スキーマ・ドキュメントを含むプロダクトとして設計される。
- フェデレーテッドガバナンス(Federated Governance)
- 中央集権ではなく連邦制のルールで組織全体のデータ品質と相互運用性を保つ仕組みのこと。命名規約やアクセスポリシーなど最低限の共通ルールを策定する。
- セルフサービスプラットフォーム(Self-Service Platform)
- 各ドメインチームが自律的にデータプロダクトを構築・運用できる基盤のこと。テンプレート・ツール・共通インフラを提供し、各チームの自立を支援する。
- ドメイン所有権(Domain Ownership)
- 注文データは注文チームが、マーケデータはマーケチームが品質・提供に責任を持つという原則のこと。「データは誰のもの?」に明確に答えられる状態を作る。
データメッシュの全体像#
こんな悩みに効く#
- 中央のデータチームがボトルネックになり、データパイプラインの整備が追いつかない
- データの品質に誰が責任を持つのか曖昧で、いつも同じ問題が起きる
- データレイクに大量のデータを溜めたが、誰も使い方がわからないゴミ溜め状態
基本の使い方#
各ドメインチームがそのドメインのデータに責任を持つ体制を作る。
- 注文ドメインチームは注文データの品質・提供に責任を持つ
- データの定義、スキーマ、SLAをドメインチームが管理する
- 「データは誰のもの?」に明確に答えられる状態にする
ポイント: これはアーキテクチャの変更ではなく、組織・文化の変更が伴う。
ドメインチームが提供するデータを**「データプロダクト」**として設計する。
- 発見可能: データカタログに登録し、他チームが見つけられる
- 理解可能: スキーマ、データ辞書、使用例のドキュメントを整備する
- 信頼可能: データ品質のSLO(鮮度、正確性、完全性)を定義する
- アクセス可能: 標準化されたAPIやインターフェースで提供する
ポイント: データプロダクトの「ユーザー」は他チームのデータアナリストやエンジニア。彼らの体験を重視する。
各ドメインチームが自律的にデータプロダクトを構築・運用できる基盤を提供する。
- データパイプラインのテンプレートとツール
- データ品質チェックの自動化フレームワーク
- 共通のストレージ、カタログ、アクセス制御基盤
ポイント: プラットフォームチームは「魚を与える」のではなく「釣り方を教える」。
組織全体のデータの整合性と相互運用性を保つルールを定める。
- グローバルな命名規約、データ型の標準を策定する
- ドメイン横断のデータアクセスポリシー(個人情報の取り扱い等)
- 各ドメインの自律性を尊重しつつ、最低限の共通ルールを維持する
ポイント: 中央集権的な統制ではなく、「連邦制」のガバナンス。ルールは最小限に。
具体例#
Before: 中央のデータエンジニアリングチーム(5名)が、20のプロダクトチームからのデータ要求を処理。新しいデータパイプラインのリクエストは平均3ヶ月待ち。
ドメイン所有権: 注文チームが注文データ、マーケチームがキャンペーンデータ、商品チームが商品カタログデータをそれぞれ所有。
データプロダクト化: 注文チームが「注文データプロダクト」を提供。日次更新のParquetファイル+リアルタイムのKafkaストリーム。スキーマドキュメント、データ品質ダッシュボード、SLO(鮮度: 1時間以内、完全性: 99.9%)付き。
結果: データパイプラインの新規構築が3ヶ月待ち→1週間に短縮。データ品質の問題も、所有チームが即座に対応するようになった。
Before: S3上のデータレイクに3PBのデータが蓄積。しかし、スキーマが未定義のファイルが60%、最終更新が1年以上前のデータが40%。データアナリストの**70%が「使いたいデータが見つからない」**と回答。
改善:
- データカタログ(DataHub)を導入し、全データプロダクトを登録
- 各ドメインチームに「自分のデータにスキーマ・説明・SLOを付ける」を義務化
- SLOを満たさないデータプロダクトは自動でアラート→30日後にアーカイブ
After(6ヶ月後): カタログ登録率が0%→85%。「使いたいデータが見つからない」と回答するアナリストが70%→15%。未使用データのアーカイブにより、ストレージコストを月$12,000削減。
状況: データメッシュの原則を導入したが、各チームのスキルにばらつきがあり、データプロダクトの品質と構築速度がバラバラ。
セルフサービス基盤の構築:
- dbt + Airflow のテンプレート: 新規データプロダクトの初期構築がコマンド1つで可能
- データ品質チェック: Great Expectationsの共通チェック(Null率、型整合性、鮮度)を自動適用
- CI/CD: データパイプラインの変更もPRベースでレビュー→自動デプロイ
結果: 新規データプロダクトの立ち上げ期間が平均4週間→5日に短縮。品質チェック通過率が60%→**95%**に向上。20チーム中18チームが自律的にデータプロダクトを運用できるようになった。
やりがちな失敗パターン#
- 組織変革なしに技術だけ導入する — ツールを入れ替えただけでは、データの所有権は変わらない。ドメインチームの責任・権限・スキルの再編を伴わなければ効果は出ない
- 小規模組織に無理に適用する — データチーム2〜3名の組織にデータメッシュは過剰。複数のドメインチームが存在し、中央チームがボトルネックになっている場合に検討すること
- ガバナンスなしで分散する — ルールなく各チームが好き勝手にデータを作ると、サイロ化して相互運用できなくなる。最低限の共通ルールを最初に策定すること
- すべてのドメインを同時に移行する — 一斉に全チームに責任を移すと混乱する。先行する2〜3チームで成功パターンを確立し、段階的に拡大する
まとめ#
データメッシュは 「データの世界にマイクロサービスの考え方を持ち込む」 アーキテクチャ。ドメイン所有権、データプロダクト、セルフサービスプラットフォーム、フェデレーテッドガバナンスの4原則で成り立つ。技術だけでなく組織・文化の変革が必要なため難易度は高いが、大規模組織のデータ基盤のスケーリング課題を根本から解決できる。