Digital360 Awards 2025

LLM in produzione: il progetto di Moviri per il deployment sicuro e in ambito enterprise

La società ha realizzato una piattaforma cloud-native per il serving di modelli AI. La soluzione integra Kubernetes, KServe e vLLM per garantire efficienza e scalabilità nel deployment di modelli AI in ambito enterprise

Pubblicato il 27 ago 2025

Moviri ha sviluppato per un primario gruppo multinazionale attivo nei settori aerospaziale, difesa e sicurezza una piattaforma di Enterprise AI Serving, progettata per rispondere alla crescente complessità nella gestione e nel deployment di modelli di intelligen z a artificiale, in particolare Large Language Models (LLM).

L’infrastruttura, completata a gennaio 2025, consente di servire modelli di grandi dimensioni – come Llama 3.1 405B – con efficienza, sicurezza e scalabilità, ottimizzando l’uso delle risorse GPU e riducendo la frammentazione tecnologica.

Il progetto nasce dall’esigenza del cliente di disporre di un layer centralizzato per il serving dei modelli AI, superando le difficoltà legate alla gestione distribuita e alla mancanza di standardizzazione. La soluzione implementata da Moviri si basa su un’architettura cloud-native e modulare, che integra tecnologie open source e garantisce un elevato grado di personalizzazione.

Indice degli argomenti

Architettura cloud-native e sicurezza enterprise-grade

La piattaforma è costruita su Kubernetes per l’orchestrazione dei container, con KServe come motore di inference serving. KServe consente il deployment standardizzato dei modelli, offre API predicibili (OpenAI-like) e supporta il versionamento e l’autoscaling.

Per l’ottimizzazione dell’inferenza LLM, è stato integrato vLLM, che utilizza tecniche avanzate come continuous batching, gestione ottimizzata della KV cache e tensor parallelism, migliorando significativamente throughput e latenza.

L’infrastruttura include un sistema di ingress e autenticazione basato su Nginx e Keycloak, che gestisce l’accesso granulare ai modelli tramite API-KEY e token. Il deployment dei modelli è automatizzato tramite pipeline CI/CD con script Python e template Helm, garantendo coerenza e velocità nel rilascio.

Il progetto ha richiesto l’integrazione di componenti open source in un ambiente enterprise, l’ottimizzazione per modelli di grandi dimensioni e l’implementazione di meccanismi di sicurezza robusti. Le fasi di lavoro si sono articolate tra ottobre 2024 e febbraio 2025, comprendendo design, prototipazione, setup infrastrutturale, validazione e trasferimento di know-how.

I vantaggi

I benefici ottenuti includono:

Efficienza operativa: riduzione dei tempi e della complessità nel deployment dei modelli.

Ottimizzazione hardware: uso più efficiente delle GPU, con possibilità di servire più modelli o modelli più grandi.

Scalabilità e prestazioni: capacità di gestire carichi crescenti e modelli complessi.

Governance e sicurezza: accesso controllato e tracciato ai modelli AI.

Autonomia tecnologica: riduzione della dipendenza da soluzioni esterne.

L’elemento distintivo del progetto risiede nella capacità di combinare tecnologie open source come Kubernetes, KServe e vLLM per creare una piattaforma enterprise-grade per il serving di modelli AI, con un framework completo per il deployment, la gestione degli accessi e il versionamento. La soluzione è flessibile, priva di vendor lock-in e replicabile in altri contesti industriali ad alta intensità computazionale.

Il progetto è entrato nella rosa dei finalisti per i Digital360 Awards nella categoria “Artificial Intelligence & Data Analytics”.

@RIPRODUZIONE RISERVATA