Registrera dig för att få de senaste insikterna och uppdateringarna inom teknik, AI och dataanalys, datavetenskap och innovationer från Polestar Analytics.
Databricks Unity Catalog-migreringar misslyckas inte i stor skala på grund av åtkomstkontroller. De misslyckas när team migrerar scheman, behörigheter och användare – utan att migrera domäner, metadata och driftsmodeller.
Databricks Unity Catalog passerade över 1 miljon månatliga SKD-nedladdningar . Implementeringen är uppenbarligen inte problemet. Det som händer efter implementeringen är problemet.
De flesta organisationer migrerar till Unity Catalog och behandlar det som Hive Metastore med bättre behörigheter. Spoiler alert – Det är det inte. Unity Catalog är inte Hive Metastore 2.0.
Hive Metastore var ett metadatalager med åtkomstkontroller anpassade efter arbetsyta. Unity Catalog är fundamentalt annorlunda – det är en kontocentrerad, identitetsdriven styrningsplattform som frikopplar datastyrning från beräkningsinfrastruktur. Den skillnaden är viktigare än de flesta team inser tills migreringarna börjar fungera.

Unity Catalogs erkännande kommer från dess styrningsfunktioner – spårning av härstamning, granskning, taggning och synlighet . Men här är vad vi ser konsekvent: team implementerar åtkomstkontroller och kallar det "styrning komplett". De fokuserar helt på vem som kan komma åt vad, och undrar sedan varför analytiker fortfarande kämpar med att hitta data, varför implementeringen förblir oförändrad, varför styrning känns som en blockering snarare än en möjliggörare.
Den saknade delen är nästan alltid densamma – metadata behandlas som en eftertanke snarare än ett migreringskrav. Standardiserade tabell- och kolumnbeskrivningar. Konsekvent taggning för känslighet, affärsdomän och datatyp. Linjevalidering och exponering efter migrering. Utan dessa har du byggt ett behörighetssystem. Med dem har du byggt en styrningsplattform som folk faktiskt använder.
Här är vad som fortsätter att gå sönder – och vad som faktiskt fungerar.
De flesta team synkroniserar databaser 1:1 från HMS till UC – kör migreringsverktyg, kopierar scheman, ompekar anteckningsböcker, uppdaterar anslutningssträngar. Antagandet: UC är en uppgraderad Hive-metastore, så databasstrukturer bör överföras direkt. Det gör de inte. Som Fred Aboud, lösningsarkitekt på Databricks, sa i ett nyligen genomfört samtal med Polestar Analytics :
Den där user_analytics-databasen med råa händelser, rensade dimensioner och affärsaggregat, allt blandat? I HMS gjorde arbetsytespecifika behörigheter detta tolererbart. I UC fragmenteras det – varje åtkomstbeslut kräver nu explicita behörigheter på kontonivå, och det som fungerade för fem ingenjörer skalas inte över tre affärsenheter.
Ett mönster som fungerar konsekvent: övergång från databascentrerad till domänorienterad migrering. Istället för finance_raw, finance_clean och finance_reporting som separata scheman, skapa en finanskatalog strukturerad efter datamognad:
finansiera/
Rå/ ←Endast inmatning, åtkomst för tekniska apparater
Kuraterad / ← Validerad data, teknik + analys
Företag/ ←Aggregerad, bred läsåtkomst.
När någon behöver finansdata begär de åtkomst till finanskatalogen och ärver automatiskt lämpliga behörigheter på schemanivå. En domänägare godkänner åtkomst, punkt slut.
Kör stegvis: migrera först ekonomi, validera åtkomstbehörigheter och prestanda, bekräfta att nedströmsberoenden fungerar och gå sedan vidare till produkten.
| ✓ Framgångsmönster | ||
| 📊 Domänorienterad migrering | ||
| ||
| 📈 RESULTAT | ||
| 📉 Minskad migrationsfriktion | ||
|
Men domänstrukturen ensam löser inte det behörighetskaos som oundvikligen följer. Även med perfekt katalogorganisation stöter team på identitetsväggen...
Här är det reaktiva mönstret vi ser ständigt: migrera tabeller först, justera behörigheter baserat på vem som klagar. Verkar pragmatiskt – varför överkonstruera innan man förstår faktiska användningsmönster?
Unity Catalogs arkitektur gör detta ohållbart.Unity Catalog har helt eliminerat behörigheter som är relaterade till arbetsytan . Åtkomst är nu på kontonivå och identitetsdriven. Klustret beviljar inte behörigheter – användaren som kör frågan eller tjänstens huvudnamn som kör jobbet behöver explicita beviljanden.
När detta inte är utformat i förväg är sekvensen alltid densamma – dashboards går sönder, ingenjörer förlorar åtkomst till data de tidigare ägde, breda behörigheter utfärdas för att snabbt avblockera arbete. När säkerhetspersonalen sedan frågar "vem kan komma åt kundernas personliga information?" kan ingen svara utan att fråga systemet och manuellt rekonstruera åtkomstdiagrammet. Så ser en behörighetsmodell byggd från brandbekämpning ut.
Designa åtkomstmodellen innan data migreras . Mappa personas till grupper i förväg – analytiker får SELECT på guldscheman, ingenjörer får fullständig åtkomst till råa/kurerade data, dataforskare får dedikerade experimentella kataloger. Beviljande på katalog- och schemanivå, inte tabell för tabell. Beviljande på schemanivå tillämpas automatiskt på nya tabeller som skapas inom det schemat.
Konfigurera tjänstens huvudnamn före migreringen, inte efter . Produktionspipelines körs som tjänstens huvudnamn, inte användarkonton. Att upptäcka detta efter migreringen innebär att åtgärda jobb i produktion.
| ✓ Framgångsmönster | ||
| 📊 Design med fokus på åtkomst | ||
| ||
| 📈 RESULTAT | ||
| 📉 Minskade driftskostnader för Unity Catalog | ||
|
Även med åtkomsten löst finns det ett skalningsproblem som de flesta team missar tills det är för sent. Och det härrör från en förförisk UC-funktion...
Unity Catalog stöder åtkomstkontroll på kolumnnivå. Team upptäcker detta och hanterar omedelbart behörigheter med maximal granularitet – marknadsföring ser campaign_id men inte e-post, ekonomi ser intäkter men inte customer_name. Varje tabell får anpassade regler. Det känns som noggrann styrning. Det är det inte.
Komplexitetsskatten ökar snabbt:
Hierarkisk som standard, detaljerad som undantag. Kataloger mappas till affärsdomäner. Scheman mappas till datamognad. Tabeller ärver automatiskt. EnligtDatabricks-bloggen : "Kataloger speglar ofta organisationsenheter eller programvaruutvecklingslivscykelomfång." Styrningskomplexiteten skalas nu med din verksamhet, inte dina metadata.
Reservera tabell- eller kolumnnivåbeviljanden för mycket känsliga PII eller reglerade datamängder som kräver en specifik revisionslogg. Varje undantag behöver dokumenterad motivering och regelbunden granskning. Ett stort antal undantag signalerar att din hierarkiska modell behöver omdesignas – inte att din säkerhet är grundlig.
Databricks-dokumentationen förklarar : "Kataloger används för att organisera dina datatillgångar och används vanligtvis som den översta nivån i ditt dataisoleringsschema. Kataloger speglar ofta organisationsenheter eller programvaruutvecklingens livscykelomfång."
Det här innebär att hantera åtkomst på betydligt färre nivåer istället för hundratals individuella tabellkonfigurationer. Styrningskomplexiteten skalas med affärsdomäner, inte med antalet tabeller.
| ✓ Framgångsmönster | ||
| 📊 Hierarkisk som standard | ||
| ||
| 📈 RESULTAT | ||
| 📉 Minskade driftskostnader för Unity Catalog | ||
|
Du kan få rätt domänstruktur. Du kan designa åtkomst perfekt. Du kan hålla behörigheter hierarkiska. Och ändå bryta förtroendet med ett enda misstag – ett som drabbar konsumenter nedströms hårdast.
Migreringen är klar. Alla tabeller finns i Unity Catalog, behörigheter är konfigurerade och styrning är validerad. Sedan blir BI-instrumentpaneler mörka. Rapporter som har körts i flera år misslyckas. Python-skript kan inte hitta tabeller. ETL-fel uppstår.
Och allt på grund av en enda anledning: HMS använde tvådelade namn (database.table), UC kräver tredelade namn (catalog.schema.table) för varje verktyg, skript, pipeline och integration som berör dina data.
Behandla konsumentkompatibilitet som ett förstklassigt krav. Mappa alla konsumenter före migrering – BI-verktyg, rapporter, skript, integrationer. Skapa ett abstraktionslager med vyer på HMS-platser som omdirigerar till UC-tabeller. Konsumenter fortsätter att arbeta medan team migrerar under dem. Migrera BI-verktyg parallellt med data, inte efteråt. Olika verktyg har olika migreringsvägar – validera tidigt, anta inte enhetlighet.
| ✓ Framgångsmönster | ||
| 📊 Konsumentfokuserad migrering | ||
| ||
| 📈 RESULTAT | ||
| 🛡️ Noll eller minimal störning för konsumenterna | ||
|
Med mesh-kontexten implementerade en global ledare inom alcobev data mesh-arkitektur med Unity Catalog, vilket harmoniserade styrning över fler än 15 affärsdomäner och regionala regelkrav – hierarkiska behörigheter var den enda metoden som kunde skalas.
Se hela metoden med Unity CatalogPlattformen levereras. Tekniskt sett fungerar allt. Sedan börjar det riktiga misslyckandet.
Ingenjörer begär åtkomstmönster som inte längre existerar. Analytiker stöter på behörighetsfel och återgår till lösningar. När beräkningen inte är UC-kompatibel blir det icke-UC-kompatibela klustret minsta motståndets väg. Varje lösning normaliserar kringgåendet av styrning. En styrningsplattform som folk routar runt är bara dyr infrastruktur.
Grundorsaken är alltid densamma – UC förändrar inte bara hur data nås, det förändrar vem som äger åtkomstbeslut, vem som godkänner förfrågningar och vem som är ansvarig när något går sönder. Att driftsätta plattformen utan att omdesigna dessa arbetsflöden garanterar felläget ovan.
Behandla styrning som utveckling av verksamhetsmodeller, inte programvarudistribution.
Beräkningsförberedelse och ändringshantering är inte sekventiella steg som sker efter migreringen. De är förutsättningar som avgör om migreringen faktiskt fortsätter.
| ✓ Framgångsmönster | ||
| 📊 Omvandling av verksamhetsmodell | ||
| ||
| 📈 RESULTAT | ||
| 🤝 Styrning antas (inte undviks) | ||
|
Varje mönster bygger på det förra. Domänstrukturen gör identitetsdesignen uppenbar. Identitetsdesignen gör hierarkiska behörigheter hanterbara. Om man gör ett fel blir det svårare nedströms. Om man gör ett rätt blir nästa enklare.
Plattformen är den enkla delen. Hur din organisation tänker kring ägarskap, ansvarsskyldighet och möjliggörande är där migreringar faktiskt lyckas eller misslyckas.
Företagen som gör detta rätt gör det inte ensamma – och som Databricks Select Partner är det precis det arbete vi gör på Polestar Analytics .
För enighet är verkligen styrka – särskilt när teknisk precision möter organisatorisk beredskap.
PS -
Migreringen hämtar dina data till Unity Catalog. Vad du bygger härnäst avgör om du har en styrningsplattform eller bara ett dyrt behörighetssystem.
Se vad som faktiskt händer efter migreringen.Tills nästa gång!
Om författaren

Senior vice ordförande - Kompetens

Informationsalkemist