Google BigQuery è una piattaforma analitica di big data analytics basata su cloud. BigQuery permette di processare grandi quantità di data set in modalità solo lettura usando query simili a SQL, per innovare meglio accelerando il time-to-insight. Ecco cos’è e come funziona. 
Indice degli argomenti
Cos’è BigQuery
BigQuery è un servizio web di big data analytics basato su cloud di Google dedicato alla misurazione avanzato. Progettato per l’importazione e l’archiviazione di grandi moli di dati, aiuta sia i data scientist che gli sviluppatori.
Un data warehouse aziendale, totalmente gestito, permette la gestione e l’analisi dei dati con funzionalità integrate come machine learning, business intelligence e analisi geospaziale.
Google ha creato BigQuery per analizzare dati, nell’ordine di miliardi di righe, usando sintassi in stile SQL, grazie all’architettura serverless. Consente di offrire risposte alle domande della propria organizzazione senza necessità di gestione di infrastrutture. Fiore all’occhiello è il motore di analisi che, grazie alla scalabilità e distribuito, permette l’esecuzione di query su Petabyte e molto velocemente.
Google Cloud Ready – BigQuery rappresenta un’iniziativa di convalida delle integrazioni dei partner, con lo scopo di aumentare la fiducia dei clienti verso le integrazioni con BigQuery.
Il processo prevede tre fasi:
- si effettuano test di integrazione dei dati e i risultati si mettono a confronto con i benchmark,
- si fa collaboration stretta con i partner per risolvere eventuali divari
- si ottimizza la documentazione riservata ai clienti.
Come funziona BigQuery
L’infrastruttura serverless di BigQuery permette di focalizzarsi sui dati invece che sulla gestione delle risorse; esso, infatti, coniuga un data warehouse basato su cloud con strumenti di analisi.
BigQuery presenta i dati in tabelle, righe e colonne. Effettua l’archiviazione dei dati grazie a un formato di archiviazione a colonne messo a punto per le query analitiche, replicandola in automatico in più località per aumentare la disponibilità. BigQuery supporta in maniera completa la semantica delle transazioni del database.
Le analisi descrittive e prescrittive comprendono business intelligence, analisi mirate e geospaziali, e machine learning. L’esecuzione delle query è prevista sui dati archiviati in BigQuery o sui dati in cui si trovano con tabelle esterne o query federate, compresi Cloud Storage, Spanner, Bigtable o fogli Google archiviati su Google Drive.
L’amministrazione prevede una gestione centralizzata delle risorse di calcolo e dei dati. Identity and Access Management (IAM) permette la protezione delle risorse affidandola al modello di accesso presente in Google Cloud. Le best practice per la sicurezza di Google Cloud offrono un approccio solido ma versatile, che spazia alla classica sicurezza del perimetro o una cyber difesa in profondità, più complessa e granulare.
BigQuery esegue azioni, definite job, al fine di caricare, effettuare l’export, l’esecuzione di query o la copia dei dati.
Una volta esplorate le risorse e sviluppate le API, la sintassi DML, DDL e user-defined (UDF) promuove il data management e permette la trasformazione dei dati BigQuery.
I professionisti dei dati possono svolgere query su dati BigQuery utilizzando quelle interattive o batch via sintassi delle query SQL. Funzioni, espressioni e operatori SQL di riferimento permettono così di eseguire query sui dati.
Looker, Looker Studio e Fogli Google consentono di usare gli strumenti per l’analisi e la visualizzazione dei dati BigQuery. L’analisi geospaziale permette invece di analizzare e visualizzare i dati geospaziali tramite i sistemi di informazione geografica.

Prestazioni ottimizzate
L’ottimizzazione delle performance delle query prevede:
- tabelle partizionate, pulendo quelle di grandi dimensioni sulla base di intervalli di tempo o interi;
- materializzazione visite, dove le visualizzazioni memorizzate nella cache permettono di ottimizzare le query o di offrire risultati permanenti;
- BI Engine, attraverso il servizio di analisi in memoria rapido di BigQuery.
Compiti
Per usare gli slot assegnati occorre attribuire a una prenotazione uno o più progetti, cartelle o organizzazioni. Ciascun livello nella gerarchia delle risorse ottiene in eredità l’attribuzione dal livello superiore. Se un progetto o una cartella non sono assegnati, l’assegnazione della cartella o dell’organizzazione padre, dunque, viene ereditata.
L’avvio di un job da un progetto assegnato a una prenotazione sfrutta i relativi slot. Se un progetto non è assegnato o ereditato, i job del progetto prevedono i prezzi on demand.
In caso di assenza di un’assegnazione, i progetti sono assegnati a None tramite i prezzi on demand. Il caso più comune prevede l’assegnazione di un’organizzazione alla prenotazione e la disattivazione di progetti o cartelle dalla prenotazione, assegnandoli a None.
Creando un’assegnazione, bisogna specificarne la tipologia:
- query (per questi compiti, comprese le query SQL, DDL, DML e BigQuery ML);
- pipeline (per i compiti di caricamento ed estrazione);
- background (per l’esecuzione dei compiti di gestione dell’indice);
- ML External (per le query BigQuery ML che usano servizi esterni a BigQuery).
Quanto costa BigQuery
BigQuery permette operazioni e un livello d’uso gratuiti, ma consente di scegliere fra vari piani di impegno: mensile, annuale, impegno di tre anni o slot flessibili di 60 secondi. I prezzi differiscono principalmente per il costo e la durata minima dell’impegno. Le prenotazioni permettono il passaggio dai prezzi on demand ai costi fissi.
Due i modelli di prezzi di calcolo: on demand o basati sulla capacità.
I prezzi on demand permettono di pagare per i dati analizzati dalle query. Il numero di byte elaborati da ciascuna query determinano la capacità di elaborazione delle query fissa per iniziativa e il costo.
I prezzi basati sulla capacità consentono, invece, di pagare per la capacità di elaborazione delle query ad hoc o con scalabilità automatica, misurata in slot, per un certo periodo di tempo. Più query riescono a condividere la medesima capacità slot. Uno slot BigQuery rappresenta una CPU virtuale che BigQuery usa per l’esecuzione di query SQL. BigQuery è in grado di calcolare in automatico quanti slot richiede ogni query. Il loro numero dipende dalla dimensione e dalla complessità della query.
Integrazione con Google Analytics 4
Google Analytics 4, lo strumento più diffuso al mondo per analizzare i dati provenienti da siti web e eCommerce, è maggiormente integrato con Google Ads e misura le interazioni degli utenti sia sul Web che nelle app (come YouTube), consentendo di segmentare il pubblico in maniera sempre più personalizzata e mirata per le campagne di advertising di lead generation ed eCommerce.
Nel primo passaggio, nella console API di Google è possibile creare un progetto e si attiva BigQuery. Senza costi aggiuntivi, si prepara il progetto per BigQuery Export. Una volta completati i primi due step, è possibile abilitare BigQuery Export dalla pagina Amministrazione di Google Analytics, collegando una proprietà Google Analytics 4 a BigQuery.
Dopo aver collegato Analytics e BigQuery, si crea un account di servizio (xy@system.gserviceaccount.com). Bisogna verificare l’aggiunta di un account come membro del progetto e il ruolo di utente BigQuery (roles/bigquery.user).

Vantaggi nell’utilizzo di Big query
I benefici riguardano la possibilità di gestire e analizzare i dati con funzionalità integrate come business intelligence, machine learning e analisi geospaziale.
BigQuery è in grado di trarre il massimo dalla versatilità, riuscendo a dividere il Compute Engine, dedicato all’analisi dei dati, rispetto alle scelte di archiviazione.
Inoltre, è possibile effettuare l’archiviazione e analisi dei dati in BigQuery o sfruttare BigQuery per svolgere una valutazione dove si trovano. Le query federate permettono di leggere i dati da sorgenti esterne. Il flusso, invece, assicura il supporto ad aggiornamenti continui dei dati. BigQuery ML e BI Engine sono strumenti in grado di garantire l’analisi e la comprensione dei dati.
La soluzione ha come interfaccia quella della console di Google Cloud e la riga di comando di BigQuery. Sviluppatori e data scientist possono sfruttare le librerie client grazie a una programmazione familiare, tra cui Python, JavaScript, Java e Go, nonché l’API REST e l’API RPC di BigQuery per la trasformazione dei data e data management. I driver ODBC e JDBC permettono di interagire con le applicazioni presenti, a partire da tool e utility di terze parti.
Nel ruolo di data analyst, data scientist, data engineer, amministratore di data warehouse, la documentazione di BigQuery ML agevola la scoperta, l’implementazione e la gestione degli strumenti per i dati per aiutare il processo critico di data-making in ambito enterprise.

I benefici delle prenotazioni
Le prenotazioni BigQuery offrono i seguenti vantaggi: prevedibilità, versatilità, possibilità di gestire il carico di lavoro, acquisti centralizzati.
I prezzi, che si basano sulla capacità, sono in grado di mantenere i costi prevedibili e coerenti. Il budget massimo può essere reso noto in anticipo. La fruizione degli impegni relativi agli slot promettono una tariffa scontata per fornire capacità continua ad hoc.
Data analyst e sviluppatori possono scegliere la quantità di capacità da allocare a un carico di lavoro. Oppure BigQuery può scalare in automatico la capacità a seconda dei requisiti del carico di lavoro. L’addebito dei costi per gli slot usati prevede un aumento di almeno 1 secondo.
Ciascun carico di lavoro prevede un insieme di risorse di calcolo BigQuery disponibili per l’uso. Allo stesso tempo, se un carico di lavoro non sfrutta tutti i suoi slot, avviene in automatico la condivisione di quelli inutilizzati tra gli altri carichi di lavoro.
Infine è possibile l’acquisto e l’allocazione di slot per l’intera organizzazione, senza doverne comprare uno per ogni progetto che usa BigQuery.
FAQ: bigquery
Cos’è Google BigQuery?
Google BigQuery è una piattaforma analitica di big data analytics basata su cloud che permette di processare grandi quantità di data set in modalità solo lettura usando query simili a SQL. Si tratta di un data warehouse aziendale totalmente gestito che consente di analizzare dati nell’ordine di miliardi di righe grazie alla sua architettura serverless. BigQuery offre funzionalità integrate come machine learning, business intelligence e analisi geospaziale, consentendo alle aziende di innovare meglio accelerando il time-to-insight senza necessità di gestione dell’infrastruttura.
Quali sono le principali caratteristiche di BigQuery?
BigQuery presenta diverse caratteristiche fondamentali: è un data warehouse serverless che permette di focalizzarsi sui dati invece che sulla gestione delle risorse; presenta i dati in tabelle, righe e colonne; effettua l’archiviazione dei dati grazie a un formato di archiviazione a colonne ottimizzato per query analitiche; supporta completamente la semantica delle transazioni del database; offre analisi descrittive e prescrittive che comprendono business intelligence, analisi mirate e geospaziali, e machine learning; consente l’esecuzione di query sia sui dati archiviati in BigQuery sia su dati esterni con tabelle esterne o query federate; include un sistema di Identity and Access Management (IAM) per la protezione delle risorse.
Come funziona il modello di prezzi di BigQuery?
BigQuery offre due principali modelli di prezzi di calcolo: on demand o basati sulla capacità. I prezzi on demand permettono di pagare per i dati analizzati dalle query, con il costo determinato dal numero di byte elaborati da ciascuna query. I prezzi basati sulla capacità consentono invece di pagare per la capacità di elaborazione delle query ad hoc o con scalabilità automatica, misurata in slot (CPU virtuali), per un certo periodo di tempo. Google Cloud ha introdotto anche BigQuery Pricing Editions che ampliano la scelta offrendo versatilità per scegliere l’insieme di opzioni più opportuno, con edizioni Standard, Enterprise ed Enterprise Plus.
Come si integra BigQuery con altre tecnologie e servizi?
BigQuery si integra con numerose tecnologie e servizi. È possibile eseguire query sui dati archiviati in BigQuery o sui dati esterni con tabelle esterne o query federate, compresi Cloud Storage, Spanner, Bigtable o fogli Google archiviati su Google Drive. Inoltre, BigQuery si integra con strumenti di analisi e visualizzazione come Looker, Looker Studio e Fogli Google. Per gli sviluppatori e data scientist, sono disponibili librerie client in vari linguaggi di programmazione come Python, JavaScript, Java e Go, oltre all’API REST e all’API RPC. BigQuery supporta anche driver ODBC e JDBC per interagire con applicazioni esistenti e tool di terze parti. Recentemente, Google ha anche potenziato l’integrazione con soluzioni di sicurezza come CyberRes Voltage SecureData per offrire protezione enterprise end-to-end.
Quali sono i vantaggi di BigQuery rispetto ad altre soluzioni di data warehouse?
BigQuery offre numerosi vantaggi rispetto ad altre soluzioni di data warehouse. La sua infrastruttura serverless elimina la necessità di gestire l’infrastruttura, permettendo di concentrarsi sui dati. Il motore di analisi scalabile e distribuito consente l’esecuzione di query su Petabyte di dati molto velocemente. BigQuery è in grado di trarre il massimo dalla versatilità, riuscendo a dividere il Compute Engine, dedicato all’analisi dei dati, rispetto alle scelte di archiviazione. Le prenotazioni BigQuery offrono prevedibilità dei costi, versatilità, possibilità di gestire il carico di lavoro e acquisti centralizzati. Inoltre, BigQuery ML permette agli analisti di dati di sfruttare il machine learning tramite gli strumenti e le competenze SQL esistenti, con un incremento d’uso oltre il 200% nel 2022.
Come si utilizza BigQuery ML per il machine learning?
BigQuery ML permette agli analisti di dati di sfruttare il machine learning tramite gli strumenti e le competenze SQL esistenti, senza necessità di conoscenze di programmazione avanzate. Con BigQuery ML, è possibile creare e eseguire modelli di machine learning direttamente all’interno di BigQuery utilizzando comandi SQL standard. Questo approccio democratizza l’accesso al machine learning, consentendo anche agli analisti non esperti di data science di sviluppare modelli predittivi. BigQuery ML supporta vari tipi di modelli, tra cui regressione lineare, regressione logistica, k-means clustering e reti neurali. L’integrazione con altre tecnologie Google Cloud consente di estendere gli insight di intelligenza artificiale e machine learning a BigQuery e ad altre piattaforme di terze parti.
Come gestisce BigQuery la sicurezza e la conformità dei dati?
BigQuery implementa diverse misure per garantire la sicurezza e la conformità dei dati. Il sistema Identity and Access Management (IAM) permette la protezione delle risorse affidandola al modello di accesso presente in Google Cloud. Le best practice per la sicurezza di Google Cloud offrono un approccio solido ma versatile, che spazia dalla classica sicurezza del perimetro a una cyber difesa in profondità, più complessa e granulare. BigQuery effettua l’archiviazione dei dati grazie a un formato di archiviazione a colonne, replicandola in automatico in più località per aumentare la disponibilità. Il modello di compliance della piattaforma tiene conto delle differenze geografiche e quindi fa in modo di rendere conforme la gestione della privacy dei dati, per esempio, alla direttiva statunitense HIPAA o a quella europea GDPR. Inoltre, Google ha introdotto BigQuery data clean room che agevola le organizzazioni nella condivisione e nell’abbinamento dei set di dati tra loro nel rispetto della privacy degli utenti.
Quali sono le novità e gli aggiornamenti recenti di BigQuery?
Recentemente, Google ha introdotto diverse novità per BigQuery. Al Data Cloud & AI Summit, Google Cloud ha presentato BigQuery Pricing Editions, che ampliano la scelta e offrono ai clienti versatilità per scegliere l’insieme di opzioni più opportuno, con edizioni Standard, Enterprise ed Enterprise Plus. Sono state introdotte anche innovazioni in ambito autoscaling e compressed storage. Google ha anche progettato Datastream per BigQuery, per aiutare le aziende a replicare in modo più efficiente i dati in real-time, da fonti come AlloyDB, PostgreSQL, MySQL e database di terze parti come Oracle, direttamente in BigQuery. L’aggiornamento di BigQuery ha esteso il supporto a nuovi formati di dati, tra cui Apache Iceberg, con supporto in arrivo anche per Linux Foundation Delta Lake e Apache Hudi.
Come si confronta BigQuery con altri data warehouse cloud come Amazon Redshift e Snowflake?
BigQuery si distingue da altri data warehouse cloud come Amazon Redshift e Snowflake per diverse caratteristiche. A differenza di Amazon Redshift, che ha un’architettura lake house e sfrutta SQL per l’analisi di dati strutturati e semi-strutturati, BigQuery è un data warehouse serverless che non richiede la gestione dell’infrastruttura. Mentre Snowflake è stato progettato con una nuova architettura per gestire tutti gli aspetti di data analytics, combinando performance, semplicità e affidabilità, BigQuery si concentra sull’analisi dei dati non strutturati e in streaming in una piattaforma serverless. BigQuery è particolarmente integrato con l’ecosistema Google Cloud, offrendo connessioni native con servizi come Google Analytics 4, mentre Redshift si integra con l’ecosistema AWS e Snowflake offre un approccio multi-cloud.
Quali casi d’uso aziendali sono particolarmente adatti per BigQuery?
BigQuery è particolarmente adatto per diversi casi d’uso aziendali. Un esempio significativo è quello di Cattolica Assicurazioni, che ha utilizzato BigQuery per trasformarsi in una “Data Driven Company”, implementando un’infrastruttura tecnologica in grado di analizzare in real-time dati strutturati e non strutturati. BigQuery ha permesso alla compagnia una più rapida gestione dei progetti che richiedono l’analisi di grandi quantitativi di dati, come l’adeguamento alla normativa IFRS 17. Un altro caso d’uso è quello di Wind 3, che ha utilizzato BigQuery per comprendere quali fossero i propri 100.000 clienti con più possibilità di cambiare operatore nei mesi successivi, permettendo di mettere in atto le opportune contromosse di marketing. BigQuery è stato anche utilizzato per creare un data set pubblico per la ricerca sulla diffusione del Coronavirus, mettendo a disposizione di ricercatori, data scientist e analisti un archivio di dati pubblici liberamente accessibili e consultabili.

















