Digital360 Awards 2025

LLM in produzione: il progetto di Moviri per il deployment sicuro e in ambito enterprise

La società ha realizzato una piattaforma cloud-native per il serving di modelli AI. La soluzione integra Kubernetes, KServe e vLLM per garantire efficienza e scalabilità nel deployment di modelli AI in ambito enterprise

Pubblicato il 27 ago 2025

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Moviri ha sviluppato per un primario gruppo multinazionale attivo nei settori aerospaziale, difesa e sicurezza una piattaforma di Enterprise AI Serving, progettata per rispondere alla crescente complessità nella gestione e nel deployment di modelli di intelligen z a artificiale, in particolare Large Language Models (LLM).

L’infrastruttura, completata a gennaio 2025, consente di servire modelli di grandi dimensioni – come Llama 3.1 405B – con efficienza, sicurezza e scalabilità, ottimizzando l’uso delle risorse GPU e riducendo la frammentazione tecnologica.

Il progetto nasce dall’esigenza del cliente di disporre di un layer centralizzato per il serving dei modelli AI, superando le difficoltà legate alla gestione distribuita e alla mancanza di standardizzazione. La soluzione implementata da Moviri si basa su un’architettura cloud-native e modulare, che integra tecnologie open source e garantisce un elevato grado di personalizzazione.

Indice degli argomenti

Architettura cloud-native e sicurezza enterprise-grade

La piattaforma è costruita su Kubernetes per l’orchestrazione dei container, con KServe come motore di inference serving. KServe consente il deployment standardizzato dei modelli, offre API predicibili (OpenAI-like) e supporta il versionamento e l’autoscaling.

Per l’ottimizzazione dell’inferenza LLM, è stato integrato vLLM, che utilizza tecniche avanzate come continuous batching, gestione ottimizzata della KV cache e tensor parallelism, migliorando significativamente throughput e latenza.

L’infrastruttura include un sistema di ingress e autenticazione basato su Nginx e Keycloak, che gestisce l’accesso granulare ai modelli tramite API-KEY e token. Il deployment dei modelli è automatizzato tramite pipeline CI/CD con script Python e template Helm, garantendo coerenza e velocità nel rilascio.

Il progetto ha richiesto l’integrazione di componenti open source in un ambiente enterprise, l’ottimizzazione per modelli di grandi dimensioni e l’implementazione di meccanismi di sicurezza robusti. Le fasi di lavoro si sono articolate tra ottobre 2024 e febbraio 2025, comprendendo design, prototipazione, setup infrastrutturale, validazione e trasferimento di know-how.

I vantaggi

I benefici ottenuti includono:

Efficienza operativa: riduzione dei tempi e della complessità nel deployment dei modelli.

Ottimizzazione hardware: uso più efficiente delle GPU, con possibilità di servire più modelli o modelli più grandi.

Scalabilità e prestazioni: capacità di gestire carichi crescenti e modelli complessi.

Governance e sicurezza: accesso controllato e tracciato ai modelli AI.

Autonomia tecnologica: riduzione della dipendenza da soluzioni esterne.

L’elemento distintivo del progetto risiede nella capacità di combinare tecnologie open source come Kubernetes, KServe e vLLM per creare una piattaforma enterprise-grade per il serving di modelli AI, con un framework completo per il deployment, la gestione degli accessi e il versionamento. La soluzione è flessibile, priva di vendor lock-in e replicabile in altri contesti industriali ad alta intensità computazionale.

Il progetto è entrato nella rosa dei finalisti per i Digital360 Awards nella categoria “Artificial Intelligence & Data Analytics”.

@RIPRODUZIONE RISERVATA

Aziende

M
Moviri

Argomenti

Canali

C
Cognitive Computing

LLM in produzione: il progetto di Moviri per il deployment sicuro e in ambito enterprise

Architettura cloud-native e sicurezza enterprise-grade

I vantaggi

VITA DA CIO

Il CIO come “veicolatore di conoscenza”: il modello Danone tra AI, dati e governance globale

L’ ICT in Unieuro, la vision del CIO Luigi Pontillo

Dentro l’IT di WPP Media: così si governa la complessità di un network globale

«Il coraggio della leadership»: la visione di Giovanni Cauteruccio, CIO di Prysmian

In A2A, IT e business si muovono a ritmo di jazz

Articoli correlati

LLM in produzione: il progetto di Moviri per il deployment sicuro e in ambito enterprise

Architettura cloud-native e sicurezza enterprise-grade

I vantaggi

Leggi anche:

VITA DA CIO

Il CIO come “veicolatore di conoscenza”: il modello Danone tra AI, dati e governance globale

L’ ICT in Unieuro, la vision del CIO Luigi Pontillo

Dentro l’IT di WPP Media: così si governa la complessità di un network globale

«Il coraggio della leadership»: la visione di Giovanni Cauteruccio, CIO di Prysmian

In A2A, IT e business si muovono a ritmo di jazz

Articoli correlati

Anitec-Assinform: +3,7% il mercato del digitale italiano nel 2024

AI Data Cloud: governance dei dati, sicurezza e automazione a servizio del business

Cyber Resilience: come sopravvivere (e ripartire) nell’era dell’attacco permanente

Codice Rss

Codice Rss