データメッシュ

英語名 Data Mesh
読み方 データ メッシュ
難易度
所要時間 組織導入に6ヶ月〜1年
提唱者 ザメック・デガニ(Thoughtworks、2019年)
目次

ひとことで言うと
#

中央集権的なデータチームがすべてのデータを管理するのではなく、各ドメインチームが自分のデータを「プロダクト」として所有・提供する分散型のデータアーキテクチャ。マイクロサービスの考え方をデータの世界に持ち込んだもの。

押さえておきたい用語
#

押さえておきたい用語
データプロダクト(Data Product)
ドメインチームが提供する発見可能・理解可能・信頼可能・アクセス可能なデータセットのこと。単なるテーブルではなく、SLO・スキーマ・ドキュメントを含むプロダクトとして設計される。
フェデレーテッドガバナンス(Federated Governance)
中央集権ではなく連邦制のルールで組織全体のデータ品質と相互運用性を保つ仕組みのこと。命名規約やアクセスポリシーなど最低限の共通ルールを策定する。
セルフサービスプラットフォーム(Self-Service Platform)
各ドメインチームが自律的にデータプロダクトを構築・運用できる基盤のこと。テンプレート・ツール・共通インフラを提供し、各チームの自立を支援する。
ドメイン所有権(Domain Ownership)
注文データは注文チームが、マーケデータはマーケチームが品質・提供に責任を持つという原則のこと。「データは誰のもの?」に明確に答えられる状態を作る。

データメッシュの全体像
#

データメッシュ:4つの原則と分散型データ基盤
1. ドメイン所有権各ドメインチームがデータの品質と提供に責任を持つ注文チーム → 注文データ商品チーム → カタログデータマーケチーム → キャンペーンデータ2. データプロダクトデータをプロダクトとしてUX重視で設計・提供する発見可能(カタログ登録)信頼可能(SLO: 鮮度1h / 完全性99.9%)アクセス可能(標準API)3. セルフサービス基盤各チームが自律的にデータプロダクトを構築できるパイプラインテンプレート品質チェック自動化共通ストレージ・カタログ基盤4. フェデレーテッドガバナンス自律性を尊重しつつ最低限の共通ルールを維持命名規約(snake_case統一)個人情報マスキングルールデータ保持ポリシー
データメッシュ導入の進め方
1
所有権確立
各ドメインチームのデータ責任範囲を明確化
2
プロダクト化
SLO・スキーマ・ドキュメント付きで提供
3
基盤整備
セルフサービスのテンプレートとツールを提供
ガバナンス導入
連邦制の共通ルールで相互運用性を確保

こんな悩みに効く
#

  • 中央のデータチームがボトルネックになり、データパイプラインの整備が追いつかない
  • データの品質に誰が責任を持つのか曖昧で、いつも同じ問題が起きる
  • データレイクに大量のデータを溜めたが、誰も使い方がわからないゴミ溜め状態

基本の使い方
#

ステップ1: ドメイン所有権を確立する

各ドメインチームがそのドメインのデータに責任を持つ体制を作る。

  • 注文ドメインチームは注文データの品質・提供に責任を持つ
  • データの定義、スキーマ、SLAをドメインチームが管理する
  • 「データは誰のもの?」に明確に答えられる状態にする

ポイント: これはアーキテクチャの変更ではなく、組織・文化の変更が伴う。

ステップ2: データをプロダクトとして扱う

ドメインチームが提供するデータを**「データプロダクト」**として設計する。

  • 発見可能: データカタログに登録し、他チームが見つけられる
  • 理解可能: スキーマ、データ辞書、使用例のドキュメントを整備する
  • 信頼可能: データ品質のSLO(鮮度、正確性、完全性)を定義する
  • アクセス可能: 標準化されたAPIやインターフェースで提供する

ポイント: データプロダクトの「ユーザー」は他チームのデータアナリストやエンジニア。彼らの体験を重視する。

ステップ3: セルフサービスのデータプラットフォームを構築する

各ドメインチームが自律的にデータプロダクトを構築・運用できる基盤を提供する。

  • データパイプラインのテンプレートとツール
  • データ品質チェックの自動化フレームワーク
  • 共通のストレージ、カタログ、アクセス制御基盤

ポイント: プラットフォームチームは「魚を与える」のではなく「釣り方を教える」。

ステップ4: フェデレーテッドガバナンスを導入する

組織全体のデータの整合性と相互運用性を保つルールを定める。

  • グローバルな命名規約、データ型の標準を策定する
  • ドメイン横断のデータアクセスポリシー(個人情報の取り扱い等)
  • 各ドメインの自律性を尊重しつつ、最低限の共通ルールを維持する

ポイント: 中央集権的な統制ではなく、「連邦制」のガバナンス。ルールは最小限に。

具体例
#

例1:大規模EC企業でデータパイプラインの待ち時間を3ヶ月→1週間に短縮する

Before: 中央のデータエンジニアリングチーム(5名)が、20のプロダクトチームからのデータ要求を処理。新しいデータパイプラインのリクエストは平均3ヶ月待ち

ドメイン所有権: 注文チームが注文データ、マーケチームがキャンペーンデータ、商品チームが商品カタログデータをそれぞれ所有。

データプロダクト化: 注文チームが「注文データプロダクト」を提供。日次更新のParquetファイル+リアルタイムのKafkaストリーム。スキーマドキュメント、データ品質ダッシュボード、SLO(鮮度: 1時間以内、完全性: 99.9%)付き。

結果: データパイプラインの新規構築が3ヶ月待ち→1週間に短縮。データ品質の問題も、所有チームが即座に対応するようになった。

例2:データレイクの「ゴミ溜め」問題をデータプロダクト思考で解決する

Before: S3上のデータレイクに3PBのデータが蓄積。しかし、スキーマが未定義のファイルが60%、最終更新が1年以上前のデータが40%。データアナリストの**70%が「使いたいデータが見つからない」**と回答。

改善:

  1. データカタログ(DataHub)を導入し、全データプロダクトを登録
  2. 各ドメインチームに「自分のデータにスキーマ・説明・SLOを付ける」を義務化
  3. SLOを満たさないデータプロダクトは自動でアラート→30日後にアーカイブ

After(6ヶ月後): カタログ登録率が0%→85%。「使いたいデータが見つからない」と回答するアナリストが70%→15%。未使用データのアーカイブにより、ストレージコストを月$12,000削減

例3:セルフサービス基盤でデータプロダクトの立ち上げを標準化する

状況: データメッシュの原則を導入したが、各チームのスキルにばらつきがあり、データプロダクトの品質と構築速度がバラバラ。

セルフサービス基盤の構築:

  • dbt + Airflow のテンプレート: 新規データプロダクトの初期構築がコマンド1つで可能
  • データ品質チェック: Great Expectationsの共通チェック(Null率、型整合性、鮮度)を自動適用
  • CI/CD: データパイプラインの変更もPRベースでレビュー→自動デプロイ

結果: 新規データプロダクトの立ち上げ期間が平均4週間→5日に短縮。品質チェック通過率が60%→**95%**に向上。20チーム中18チームが自律的にデータプロダクトを運用できるようになった。

やりがちな失敗パターン
#

  1. 組織変革なしに技術だけ導入する — ツールを入れ替えただけでは、データの所有権は変わらない。ドメインチームの責任・権限・スキルの再編を伴わなければ効果は出ない
  2. 小規模組織に無理に適用する — データチーム2〜3名の組織にデータメッシュは過剰。複数のドメインチームが存在し、中央チームがボトルネックになっている場合に検討すること
  3. ガバナンスなしで分散する — ルールなく各チームが好き勝手にデータを作ると、サイロ化して相互運用できなくなる。最低限の共通ルールを最初に策定すること
  4. すべてのドメインを同時に移行する — 一斉に全チームに責任を移すと混乱する。先行する2〜3チームで成功パターンを確立し、段階的に拡大する

まとめ
#

データメッシュは 「データの世界にマイクロサービスの考え方を持ち込む」 アーキテクチャ。ドメイン所有権、データプロダクト、セルフサービスプラットフォーム、フェデレーテッドガバナンスの4原則で成り立つ。技術だけでなく組織・文化の変革が必要なため難易度は高いが、大規模組織のデータ基盤のスケーリング課題を根本から解決できる。