Data Pipeline Migration

Databricks → AWS (RDS PostgreSQL + ECS Fargate + S3)

Retiring Current Architecture Databricks

Data Sources

API

Camelot OData

3PL · 18 endpoints

QuickBooks

Creme + Sage orgs

Google Sheets

SWEED mapping

Ingestion

PySpark Notebooks

OData client + batch processing → Delta tables

Medallion Pipeline (dbt-core + dbt-databricks)

Bronze

Raw Delta tables

18 tables

Silver

dbt SQL models

17 models

Gold

dbt SQL + Python

7 models

Platform Services

Job

Databricks Jobs

2 daily · UI-managed

SQL Warehouse

Serves queries

Sec

Databricks Secrets

creme-scope

Delta Lake

Unity Catalog

Consumers

Creme Dashboard

databricks-sql-connector

Reporting Portal

SQLite sync

Tableau

Being retired

Target Target Architecture AWS

Data Sources (unchanged)

API

Camelot OData

3PL · 18 endpoints

QuickBooks

Creme + Sage orgs

Google Sheets

SWEED mapping

Orchestration + Compute

EventBridge

Cron: daily 3:00 AM EST

ECS Fargate Task (Docker container from ECR)

Ingest — Python scripts (requests + pandas) fetch data → write to RDS PostgreSQL bronze schema

Transform — dbt run (dbt-core + dbt-postgres) builds silver → gold

Validate — dbt test runs data quality + business logic checks

Notify — Slack webhook reports success or failure

Storage

RDS PostgreSQL

All schemas: bronze, silver, gold · Single source of truth

bronze_camelot

Raw ingested data

18 tables

silver_camelot

dbt SQL models

17 models

gold_camelot

dbt SQL + Python

7 models

S3 Bucket

Raw file staging + Parquet backups

Secrets Manager

API credentials

Consumers

Creme Dashboard

psycopg2 / asyncpg → RDS

Reporting Portal

Direct PostgreSQL queries

Migration Path

Export Bronze

Databricks bronze tables → S3 (Parquet) → COPY into RDS PostgreSQL

Rebuild Layers

dbt run rebuilds silver + gold in PostgreSQL from imported bronze

Validate

Compare row counts + key aggregates between Databricks and PostgreSQL outputs

Switch Consumers

Dashboard + Portal swap connectors to psycopg2 → RDS PostgreSQL

Decommission

Shut down Databricks SQL Warehouse, archive notebooks, cancel subscription