データ基盤をスケールさせたいときはどうすればいい？

「データメッシュ」フレームワークが役立ちます。データの所有権をドメインチームに分散し、データをプロダクトとして扱う分散型データアーキテクチャ

データの所有権を明確にしたいときはどうすればいい？

「データメッシュ」フレームワークが役立ちます。データの所有権をドメインチームに分散し、データをプロダクトとして扱う分散型データアーキテクチャ

データメッシュ

ひとことで言うと
#

中央集権的なデータチームがすべてのデータを管理するのではなく、各ドメインチームが自分のデータを「プロダクト」として所有・提供する分散型のデータアーキテクチャ。マイクロサービスの考え方をデータの世界に持ち込んだもの。

押さえておきたい用語
#

押さえておきたい用語

データプロダクト（Data Product）: ドメインチームが提供する発見可能・理解可能・信頼可能・アクセス可能なデータセットのこと。単なるテーブルではなく、SLO・スキーマ・ドキュメントを含むプロダクトとして設計される。
フェデレーテッドガバナンス（Federated Governance）: 中央集権ではなく連邦制のルールで組織全体のデータ品質と相互運用性を保つ仕組みのこと。命名規約やアクセスポリシーなど最低限の共通ルールを策定する。
セルフサービスプラットフォーム（Self-Service Platform）: 各ドメインチームが自律的にデータプロダクトを構築・運用できる基盤のこと。テンプレート・ツール・共通インフラを提供し、各チームの自立を支援する。
ドメイン所有権（Domain Ownership）: 注文データは注文チームが、マーケデータはマーケチームが品質・提供に責任を持つという原則のこと。「データは誰のもの？」に明確に答えられる状態を作る。

データメッシュの全体像
#

データメッシュ：4つの原則と分散型データ基盤

データメッシュ導入の進め方

所有権確立

各ドメインチームのデータ責任範囲を明確化

→

プロダクト化

SLO・スキーマ・ドキュメント付きで提供

→

基盤整備

セルフサービスのテンプレートとツールを提供

→

★

ガバナンス導入

連邦制の共通ルールで相互運用性を確保

こんな悩みに効く
#

中央のデータチームがボトルネックになり、データパイプラインの整備が追いつかない
データの品質に誰が責任を持つのか曖昧で、いつも同じ問題が起きる
データレイクに大量のデータを溜めたが、誰も使い方がわからないゴミ溜め状態

基本の使い方
#

ステップ1: ドメイン所有権を確立する

各ドメインチームがそのドメインのデータに責任を持つ体制を作る。

注文ドメインチームは注文データの品質・提供に責任を持つ
データの定義、スキーマ、SLAをドメインチームが管理する
「データは誰のもの？」に明確に答えられる状態にする

ポイント: これはアーキテクチャの変更ではなく、組織・文化の変更が伴う。

ステップ2: データをプロダクトとして扱う

ドメインチームが提供するデータを**「データプロダクト」**として設計する。

発見可能: データカタログに登録し、他チームが見つけられる
理解可能: スキーマ、データ辞書、使用例のドキュメントを整備する
信頼可能: データ品質のSLO（鮮度、正確性、完全性）を定義する
アクセス可能: 標準化されたAPIやインターフェースで提供する

ポイント: データプロダクトの「ユーザー」は他チームのデータアナリストやエンジニア。彼らの体験を重視する。

ステップ3: セルフサービスのデータプラットフォームを構築する

各ドメインチームが自律的にデータプロダクトを構築・運用できる基盤を提供する。

データパイプラインのテンプレートとツール
データ品質チェックの自動化フレームワーク
共通のストレージ、カタログ、アクセス制御基盤

ポイント: プラットフォームチームは「魚を与える」のではなく「釣り方を教える」。

ステップ4: フェデレーテッドガバナンスを導入する

組織全体のデータの整合性と相互運用性を保つルールを定める。

グローバルな命名規約、データ型の標準を策定する
ドメイン横断のデータアクセスポリシー（個人情報の取り扱い等）
各ドメインの自律性を尊重しつつ、最低限の共通ルールを維持する

ポイント: 中央集権的な統制ではなく、「連邦制」のガバナンス。ルールは最小限に。

具体例
#

例1：大規模EC企業でデータパイプラインの待ち時間を3ヶ月→1週間に短縮する

Before: 中央のデータエンジニアリングチーム（5名）が、20のプロダクトチームからのデータ要求を処理。新しいデータパイプラインのリクエストは平均3ヶ月待ち。

ドメイン所有権: 注文チームが注文データ、マーケチームがキャンペーンデータ、商品チームが商品カタログデータをそれぞれ所有。

データプロダクト化: 注文チームが「注文データプロダクト」を提供。日次更新のParquetファイル＋リアルタイムのKafkaストリーム。スキーマドキュメント、データ品質ダッシュボード、SLO（鮮度: 1時間以内、完全性: 99.9%）付き。

結果: データパイプラインの新規構築が3ヶ月待ち→1週間に短縮。データ品質の問題も、所有チームが即座に対応するようになった。

例2：データレイクの「ゴミ溜め」問題をデータプロダクト思考で解決する

Before: S3上のデータレイクに3PBのデータが蓄積。しかし、スキーマが未定義のファイルが60%、最終更新が1年以上前のデータが40%。データアナリストの**70%が「使いたいデータが見つからない」**と回答。

改善:

データカタログ（DataHub）を導入し、全データプロダクトを登録
各ドメインチームに「自分のデータにスキーマ・説明・SLOを付ける」を義務化
SLOを満たさないデータプロダクトは自動でアラート→30日後にアーカイブ

After（6ヶ月後）: カタログ登録率が0%→85%。「使いたいデータが見つからない」と回答するアナリストが70%→15%。未使用データのアーカイブにより、ストレージコストを月$12,000削減。

例3：セルフサービス基盤でデータプロダクトの立ち上げを標準化する

状況: データメッシュの原則を導入したが、各チームのスキルにばらつきがあり、データプロダクトの品質と構築速度がバラバラ。

セルフサービス基盤の構築:

dbt + Airflow のテンプレート: 新規データプロダクトの初期構築がコマンド1つで可能
データ品質チェック: Great Expectationsの共通チェック（Null率、型整合性、鮮度）を自動適用
CI/CD: データパイプラインの変更もPRベースでレビュー→自動デプロイ

結果: 新規データプロダクトの立ち上げ期間が平均4週間→5日に短縮。品質チェック通過率が60%→**95%**に向上。20チーム中18チームが自律的にデータプロダクトを運用できるようになった。

やりがちな失敗パターン
#

組織変革なしに技術だけ導入する — ツールを入れ替えただけでは、データの所有権は変わらない。ドメインチームの責任・権限・スキルの再編を伴わなければ効果は出ない
小規模組織に無理に適用する — データチーム2〜3名の組織にデータメッシュは過剰。複数のドメインチームが存在し、中央チームがボトルネックになっている場合に検討すること
ガバナンスなしで分散する — ルールなく各チームが好き勝手にデータを作ると、サイロ化して相互運用できなくなる。最低限の共通ルールを最初に策定すること
すべてのドメインを同時に移行する — 一斉に全チームに責任を移すと混乱する。先行する2〜3チームで成功パターンを確立し、段階的に拡大する

まとめ
#

データメッシュは 「データの世界にマイクロサービスの考え方を持ち込む」 アーキテクチャ。ドメイン所有権、データプロダクト、セルフサービスプラットフォーム、フェデレーテッドガバナンスの4原則で成り立つ。技術だけでなく組織・文化の変革が必要なため難易度は高いが、大規模組織のデータ基盤のスケーリング課題を根本から解決できる。

データメッシュ

ひとことで言うと#

押さえておきたい用語#

データメッシュの全体像#

こんな悩みに効く#

基本の使い方#

具体例#

やりがちな失敗パターン#

まとめ#