Gestione dell’Utilizzo e dei Costi del Cloud con Databricks

Data, AI & Machine Learning Engineering Solution

contesto

Oggigiorno, sempre più aziende migrano i propri carichi di lavoro in ambito analytics e data processing verso il cloud al fine di ottenere maggiore scalabilità e flessibilità. Tuttavia, questo comporta la sfida di gestire efficientemente le risorse cloud e controllare i costi associati

Databricks, piattaforma di analytics unificata basata su Apache Spark, rappresenta una soluzione efficace per le sfide del mondo data engineering, data science e Machine Learning all’interno di ambienti cloud. Con l’aumentare della complessità delle pipeline di dati e delle soluzioni di analytics implementate dalle aziende utilizzando Databricks su AWS, Azure e Google Cloud, la comprensione e l’ottimizzazione dell’utilizzo e dei costi del cloud sono diventate una preoccupazione critica sia per i leader IT che per i dipartimenti finanziari. 

Databricks adotta un modello di consumo basato sul cloud con una precisione di fatturazione al secondo, consentendo alle aziende di pagare esclusivamente per le risorse di calcolo effettivamente utilizzate. Tale approccio pay-as-you-go elimina di fatto la necessità di impegni finanziari iniziali o di contratti a lungo termine, offrendo massima flessibilità.

cloud

punti critici

La sfida principale che gli utenti si trovano ad affrontare con Databricks risiede nella complessità e nella potenziale mancanza di trasparenza relativamente alla struttura dei costi. Tale complessità deriva da diversi fattori:  

  • Unità di Fatturazione Astratta: La metrica principale, la DBU (Databricks Billing Unit), richiede la comprensione di molteplici variabili per la traduzione nel costo effettivo: i tipi e il numero specifico di istanze VM, le tariffe variabili tra i cloud provider (AWS, Azure, GCP), le tariffe variabili in base al tipo di carico di lavoro (All-Purpose Compute, DLT, SQL Compute, ecc.) e il piano di abbonamento dell’utente.  
  • Il costo totale non è una semplice cifra fornita da Databricks; gli utenti devono infatti tracciare e sommare i costi sia di Databricks (in termini di consumo di DBU) sia del cloud provider (AWS / Azure / GCP).  
  • Costi di Servizi Aggiuntivi: I servizi gestiti (ad esempio, Lakehouse Monitoring, Predictive Optimization, Model Serving) operano con modelli di pricing separati, distinti dai DBU di calcolo principali.  
  • Rischio di Utilizzo Inefficiente delle Risorse: L’approccio pay-as-you-go significa che l’inefficienza si traduce direttamente in costi più elevati. Questi ultimi possono aumentare se i cluster sono sovradimensionati, se le risorse non vengono automaticamente ridimensionate durante i periodi di bassa attività (portando a un sovra-provisioning) o se i cluster rimangono in esecuzione e generano addebiti quando non elaborano attivamente i dati.
  • Difficoltà di Attribuzione dei Costi: Spesso risulta difficile determinare quali team interni, progetti o unità aziendali specifiche hanno generato un particolare utilizzo di Databricks e le relative spese.

soluzione

Esistono diverse soluzioni che consentono di gestire e, soprattutto, ottimizzare i costi in Databricks:

  • Stima dei Costi: Utilizzare i calcolatori DBU forniti da Databricks (specifici per ciascun provider cloud) e il Pricing Calculator per stimare i costi in base ai dettagli di configurazione.  
  • Comprensione dei Componenti di Costo: Riconoscere che il costo totale comprende sia le tariffe di Databricks (consumo di DBU) sia i costi del cloud provider sottostante (VM, storage, networking), ad eccezione del calcolo Serverless, in cui i costi dell’infrastruttura sono inclusi nella tariffa DBU.  
  • Ottimizzazione dei Costi: Implementare una corretta configurazione del cluster scegliendo dimensioni e tipi appropriati. Sfruttare le Policy dei Cluster per applicare tecniche di risparmio sui costi – come l’auto-scaling (per adattare le risorse alle esigenze del carico di lavoro) e l’auto-termination (per fermare i cluster inattivi).  
  • Monitoraggio e Attribuzione dei Costi: Utilizzare le Usage Dashboardsper ottenere una visione dettagliata del consumo di DBU da parte dell’account, del workspace e di servizi specifici. L’implementazione di tag personalizzati tramite le policy di calcolo consente di attribuire accuratamente l’utilizzo e i costi alle diverse unit aziendali.

vantaggi

  • Maggior chiarezza su come il consumo di DBU si traduce in costi monetari reali e possibilità di stimare le spese utilizzando il Pricing Calculator  
  • Possibilità di ridurre i costi complessivi del cloud tramite pratiche efficienti di gestione dei cluster – come il dimensionamento appropriato, l’auto-scaling e l’auto-termination.  
  • Migliore visibilità sui modelli di spesa e possibilità di identificare i principali driver di costo utilizzando le dashboard di monitoraggio.  
  • Possibilità di migliorare l’accountability in ambito costi, attribuendo l’utilizzo a team o progetti specifici tramite il tagging
Tecnologie e competenze adottate

 

  • Core Platform: Databricks
  • Cloud Providers: AWS, Azure, GCP
  • Compute Resources: Virtual Machines (VMs) from cloud providers, Databricks Serverless Compute
  • Databricks Cost Management Features: DBU Calculators, Pricing Calculator, Dashboard usage, Cluster Policies, Custom Tags

Vuoi saperne di più in merito ai nostri servizi? Completa il modulo e un nostro consulente ti ricontatterà subito!