Meld u aan om de nieuwste inzichten en updates over technologie, AI & data-analyse, datawetenschap en innovaties van Polestar Analytics te ontvangen.
Migraties in Databricks Unity Catalog mislukken niet op grote schaal vanwege toegangsbeheer. Ze mislukken wanneer teams schema's, machtigingen en gebruikers migreren, zonder domeinen, metadata en operationele modellen mee te migreren.
Databricks Unity Catalog heeft de grens van 1 miljoen maandelijkse SKD-downloads overschreden. De adoptie zelf is duidelijk niet het probleem. Wat er ná de adoptie gebeurt, is dat wel.
De meeste organisaties migreren naar Unity Catalog alsof het Hive Metastore is met betere toegangsrechten. Spoiler alert: dat is het niet. Unity Catalog is geen Hive Metastore 2.0.
Hive Metastore was een metadatastore met toegangsbeheer op werkruimteniveau. Unity Catalog is fundamenteel anders : het is een accountgericht, identiteitsgestuurd governanceplatform dat databeheer loskoppelt van de computerinfrastructuur. Dat verschil is belangrijker dan de meeste teams beseffen, totdat er problemen optreden bij migraties.

De erkenning voor Unity Catalog komt voort uit de mogelijkheden voor databeheer : het traceren van de herkomst van gegevens, auditing, tagging en vindbaarheid . Maar wat we steeds weer zien, is het volgende: teams implementeren toegangscontroles en noemen het vervolgens "compleet beheer". Ze focussen zich volledig op wie toegang heeft tot wat, en vragen zich dan af waarom analisten nog steeds moeite hebben om gegevens te vinden, waarom de adoptie stagneert en waarom beheer eerder een belemmering dan een hulpmiddel lijkt.
Het ontbrekende element is vrijwel altijd hetzelfde: metadata die als een bijzaak worden beschouwd in plaats van als een migratievereiste. Gestandaardiseerde tabel- en kolomomschrijvingen. Consistente tagging voor gevoeligheid, bedrijfsdomein en gegevenstype. Validatie en zichtbaarheid van de herkomst na de migratie. Zonder deze elementen bouw je een permissiesysteem. Met deze elementen bouw je een governanceplatform dat daadwerkelijk door mensen wordt gebruikt.
Dit is wat er steeds kapot gaat en wat wél werkt.
De meeste teams synchroniseren databases 1:1 van HMS naar UC – ze gebruiken migratietools, kopiëren schema's, passen notebooks aan en werken verbindingsreeksen bij. De aanname is: UC is een geüpgrade Hive Metastore, dus databasestructuren zouden direct overgezet moeten kunnen worden. Dat is niet het geval. Zoals Fred Aboud, Solutions Architect bij Databricks, onlangs in een gesprek met Polestar Analytics zei:
Die gebruikersanalysedatabase met ruwe gebeurtenissen, opgeschoonde dimensies en bedrijfsaggregaten door elkaar? In HMS was dit nog te overzien dankzij toegangsrechten op werkruimteniveau. In UC is het echter gefragmenteerd: elke toegangsbeslissing vereist nu expliciete machtigingen op accountniveau, en wat voor vijf engineers werkte, is niet schaalbaar voor drie businessunits.
Een patroon dat consistent werkt: overschakelen van een databasegerichte naar een domeingerichte migratie. In plaats van finance_raw, finance_clean en finance_reporting als aparte schema's, creëer je één financiële catalogus die is gestructureerd op basis van datavolwassenheid:
financiën/
Raw/ ←Alleen voor verwerking, toegang voor technische ondersteuning
Samengestelde / ← Gevalideerde data, engineering + analyses
Zakelijk/ ←Geaggregeerde, brede leestoegang.
Wanneer iemand financiële gegevens nodig heeft, vraagt diegene toegang tot de financiële catalogus en erft automatisch de juiste machtigingen op schemaniveau. Eén domeineigenaar keurt de toegang goed, punt uit.
Voer de migratie stapsgewijs uit: migreer eerst de financiële gegevens, valideer de toegangsrechten en prestaties, bevestig dat de afhankelijkheden naar behoren werken en ga vervolgens verder met de productgegevens.
| ✓ Succespatronen | ||
| 📊 Domeingerichte migratie | ||
| ||
| 📈 RESULTAAT | ||
| 📉 Minder wrijving bij migratie | ||
|
Maar een perfecte domeinstructuur alleen lost de daaruit voortvloeiende chaos op het gebied van toegangsrechten niet op. Zelfs met een perfecte catalogusorganisatie lopen teams tegen identiteitsproblemen aan...
Dit is het reactieve patroon dat we constant zien: migreer eerst de tabellen en pas de machtigingen aan op basis van wie er klaagt. Dat lijkt pragmatisch – waarom te complex maken voordat je de daadwerkelijke gebruikspatronen begrijpt?
De architectuur van Unity Catalog maakt dit onhoudbaar.Unity Catalog heeft de op werkruimte gebaseerde machtigingen volledig afgeschaft . Toegang is nu op accountniveau en identiteitsgestuurd. Het cluster verleent geen machtigingen; de gebruiker die de query uitvoert of de serviceprincipal die de taak uitvoert, heeft expliciete machtigingen nodig.
Als dit niet van tevoren is vastgelegd, is de volgorde altijd hetzelfde: dashboards raken defect, engineers verliezen de toegang tot gegevens die ze voorheen bezaten, en er worden brede machtigingen verleend om het werk snel weer op gang te brengen. Wanneer de beveiligingsafdeling vervolgens vraagt "wie heeft toegang tot persoonsgegevens van klanten?", kan niemand antwoorden zonder het systeem te raadplegen en handmatig de toegangsgrafiek opnieuw op te bouwen. Zo ziet een machtigingsmodel eruit dat is gebouwd vanuit een noodoplossing.
Ontwerp het toegangsmodel vóór de datamigratie . Wijs gebruikersprofielen vooraf toe aan groepen: analisten krijgen SELECT-toegang tot de belangrijkste schema's, engineers krijgen volledige toegang tot de ruwe/gecureerde data, en datawetenschappers krijgen toegang tot specifieke experimentele catalogi. Verleen toegang op catalogus- en schemaniveau, niet per tabel. Toegang op schemaniveau wordt automatisch toegepast op nieuwe tabellen die binnen dat schema worden aangemaakt.
Configureer serviceprincipals vóór de migratie, niet erna . Productiepipelines draaien als serviceprincipals, niet als gebruikersaccounts. Als je dit na de migratie ontdekt, moet je de taken in productie aanpassen.
| ✓ Succespatronen | ||
| 📊 Toegankelijk ontwerp | ||
| ||
| 📈 RESULTAAT | ||
| 📉 Lagere operationele overheadkosten voor Unity Catalog | ||
|
Zelfs als de toegang geregeld is, is er een schaalbaarheidsprobleem dat de meeste teams over het hoofd zien totdat het te laat is. En dat komt voort uit één aantrekkelijke UC-functionaliteit...
Unity Catalog ondersteunt toegangscontrole op kolomniveau. Teams ontdekken dit en kunnen direct machtigingen beheren met maximale granulariteit : marketing ziet de campagne-ID maar niet het e-mailadres, financiën ziet de omzet maar niet de klantnaam. Elke tabel krijgt aangepaste regels. Het voelt als een grondig beheersysteem. Dat is het echter niet.
De complexiteitsbelasting loopt snel op:
Standaard hiërarchisch, alleen gedetailleerd indien nodig. Catalogussen komen overeen met bedrijfsdomeinen. Schema's komen overeen met de volwassenheid van de data. Tabellen worden automatisch overgenomen. Volgens deDatabricks-blog : "Catalogi weerspiegelen vaak organisatorische eenheden of de reikwijdte van de softwareontwikkelingslevenscyclus." De complexiteit van governance schaalt nu mee met uw bedrijf, niet met uw metadata.
Reserveer toegangsrechten op tabel- of kolomniveau voor zeer gevoelige persoonsgegevens of gereguleerde datasets die een specifiek auditspoor vereisen. Elke uitzondering vereist een gedocumenteerde onderbouwing en periodieke controle. Een groot aantal uitzonderingen wijst erop dat uw hiërarchisch model opnieuw ontworpen moet worden , niet dat uw beveiliging ondoordacht is.
De Databricks-documentatie legt uit : "Catalogi worden gebruikt om uw data-assets te organiseren en vormen doorgaans het hoogste niveau in uw data-isolatieschema. Catalogi weerspiegelen vaak organisatorische eenheden of de reikwijdte van de softwareontwikkelingslevenscyclus."
Dit betekent dat de toegang op aanzienlijk minder niveaus beheerd moet worden in plaats van honderden afzonderlijke tabelconfiguraties. De complexiteit van het beheer schaalt mee met de bedrijfsdomeinen, niet met het aantal tabellen.
| ✓ Succespatronen | ||
| 📊 Hiërarchisch standaard | ||
| ||
| 📈 RESULTAAT | ||
| 📉 Lagere operationele overheadkosten voor Unity Catalog | ||
|
Je kunt de domeinstructuur perfect opzetten. Je kunt de toegang perfect ontwerpen. Je kunt de machtigingen hiërarchisch houden. En toch het vertrouwen schenden met één enkele fout – een fout die de eindgebruikers het hardst treft.
De migratie is voltooid. Alle tabellen bestaan in Unity Catalog, machtigingen zijn geconfigureerd en governance is gevalideerd. Vervolgens vallen de BI-dashboards uit. Rapporten die jarenlang probleemloos werkten, werken niet meer. Python-scripts kunnen tabellen niet vinden. ETL-processen lopen vast.
En dat allemaal om één reden: HMS gebruikte namen met twee delen (database.tabel), UC vereist namen met drie delen (catalogus.schema.tabel) voor elke tool, script, pipeline en integratie die met uw gegevens te maken heeft.
Beschouw compatibiliteit met de gebruikers als een topprioriteit. Breng alle gebruikers in kaart vóór de migratie: BI-tools, rapporten, scripts en integraties. Creëer een abstractielaag met weergaven in HMS-locaties die doorverwijzen naar UC-tabellen. Gebruikers blijven gewoon werken terwijl de teams eronder migreren. Migreer BI-tools parallel met de data, niet erna. Verschillende tools hebben verschillende migratiepaden; valideer dit vroegtijdig en ga niet uit van uniformiteit.
| ✓ Succespatronen | ||
| 📊 Migratie waarbij de consument centraal staat | ||
| ||
| 📈 RESULTAAT | ||
| 🛡️ Geen of minimale overlast voor consumenten | ||
|
In de context van een data mesh implementeerde een wereldwijde leider in de alcoholische drankenindustrie een data mesh-architectuur met Unity Catalog, waarmee het beheer over meer dan 15 bedrijfsdomeinen en regionale regelgeving werd geharmoniseerd. Hiërarchische toegangsrechten waren de enige schaalbare aanpak.
Bekijk de volledige aanpak met Unity CatalogHet platform wordt verzonden. Technisch gezien werkt alles. Maar dan begint de echte ellende.
Ingenieurs vragen toegangspatronen aan die niet meer bestaan. Analisten stuiten op permissiefouten en grijpen naar tijdelijke oplossingen. Wanneer de computeromgeving niet UC-compatibel is, wordt het niet-UC-cluster de gemakkelijkste weg. Elke tijdelijke oplossing normaliseert het omzeilen van governance. Een governanceplatform dat mensen omzeilen is gewoonweg dure infrastructuur.
De hoofdoorzaak is altijd dezelfde: Unified Communications (UC) verandert niet alleen hoe gegevens worden benaderd, maar ook wie de toegangsbeslissingen neemt, wie aanvragen goedkeurt en wie verantwoordelijk is als er iets misgaat. Het implementeren van het platform zonder deze workflows opnieuw te ontwerpen, garandeert dat het bovengenoemde probleem zich voordoet.
Beschouw governance als de evolutie van het operationele model, niet als de implementatie van software.
De voorbereiding van de computer en het beheer van wijzigingen zijn geen opeenvolgende stappen die na de migratie plaatsvinden. Het zijn voorwaarden die bepalen of de migratie daadwerkelijk succesvol is.
| ✓ Succespatronen | ||
| 📊 Transformatie van het bedrijfsmodel | ||
| ||
| 📈 RESULTAAT | ||
| 🤝 Bestuur wordt ingevoerd (niet vermeden) | ||
|
Elk patroon bouwt voort op het vorige. De domeinstructuur maakt het ontwerpen van identiteiten vanzelfsprekend. Het ontwerpen van identiteiten maakt hiërarchische machtigingen beheersbaar. Als je er één fout maakt, stapelt het zich op. Als je er één goed doet, wordt de volgende eenvoudiger.
Het platform is het makkelijke deel. De manier waarop uw organisatie aankijkt tegen eigenaarschap, verantwoordelijkheid en het faciliteren van nieuwe gebruikers, bepaalt of migraties slagen of mislukken.
Bedrijven die dit goed aanpakken, doen het niet alleen — en als Databricks Select Partner doen wij bij Polestar Analytics precies dat.
Eenheid is immers kracht, vooral wanneer technische precisie samengaat met organisatorische paraatheid.
PS -
Migratie zorgt ervoor dat je gegevens in Unity Catalog terechtkomen. Wat je vervolgens bouwt, bepaalt of je een governanceplatform hebt of slechts een duur toegangsbeheersysteem.
Zie wat er daadwerkelijk na de migratie komt.Tot de volgende keer!
Over de auteur

Senior Vice President - Capaciteit

Informatie-alchemist