Digital360 Awards 2025

LLM in produzione: il progetto di Moviri per il deployment sicuro e in ambito enterprise



Indirizzo copiato

La società ha realizzato una piattaforma cloud-native per il serving di modelli AI. La soluzione integra Kubernetes, KServe e vLLM per garantire efficienza e scalabilità nel deployment di modelli AI in ambito enterprise 

Pubblicato il 27 ago 2025



Moviri LLM
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Moviri ha sviluppato per un primario gruppo multinazionale attivo nei settori aerospaziale, difesa e sicurezza una piattaforma di Enterprise AI Serving, progettata per rispondere alla crescente complessità nella gestione e nel deployment di modelli di intelligenza artificiale, in particolare Large Language Models (LLM).  

L’infrastruttura, completata a gennaio 2025, consente di servire modelli di grandi dimensioni – come Llama 3.1 405B – con efficienza, sicurezza e scalabilità, ottimizzando l’uso delle risorse GPU e riducendo la frammentazione tecnologica.

Il progetto nasce dall’esigenza del cliente di disporre di un layer centralizzato per il serving dei modelli AI, superando le difficoltà legate alla gestione distribuita e alla mancanza di standardizzazione. La soluzione implementata da Moviri si basa su un’architettura cloud-native e modulare, che integra tecnologie open source e garantisce un elevato grado di personalizzazione.

Architettura cloud-native e sicurezza enterprise-grade

La piattaforma è costruita su Kubernetes per l’orchestrazione dei container, con KServe come motore di inference serving. KServe consente il deployment standardizzato dei modelli, offre API predicibili (OpenAI-like) e supporta il versionamento e l’autoscaling.

Per l’ottimizzazione dell’inferenza LLM, è stato integrato vLLM, che utilizza tecniche avanzate come continuous batching, gestione ottimizzata della KV cache e tensor parallelism, migliorando significativamente throughput e latenza.

L’infrastruttura include un sistema di ingress e autenticazione basato su Nginx e Keycloak, che gestisce l’accesso granulare ai modelli tramite API-KEY e token. Il deployment dei modelli è automatizzato tramite pipeline CI/CD con script Python e template Helm, garantendo coerenza e velocità nel rilascio.

Il progetto ha richiesto l’integrazione di componenti open source in un ambiente enterprise, l’ottimizzazione per modelli di grandi dimensioni e l’implementazione di meccanismi di sicurezza robusti. Le fasi di lavoro si sono articolate tra ottobre 2024 e febbraio 2025, comprendendo design, prototipazione, setup infrastrutturale, validazione e trasferimento di know-how.

I vantaggi

I benefici ottenuti includono:

  • Efficienza operativa: riduzione dei tempi e della complessità nel deployment dei modelli. 
  • Ottimizzazione hardware: uso più efficiente delle GPU, con possibilità di servire più modelli o modelli più grandi. 
  • Scalabilità e prestazioni: capacità di gestire carichi crescenti e modelli complessi. 
  • Governance e sicurezza: accesso controllato e tracciato ai modelli AI. 
  • Autonomia tecnologica: riduzione della dipendenza da soluzioni esterne. 

L’elemento distintivo del progetto risiede nella capacità di combinare tecnologie open source come Kubernetes, KServe e vLLM per creare una piattaforma enterprise-grade per il serving di modelli AI, con un framework completo per il deployment, la gestione degli accessi e il versionamento. La soluzione è flessibile, priva di vendor lock-in e replicabile in altri contesti industriali ad alta intensità computazionale.

Il progetto è entrato nella rosa dei finalisti per i Digital360 Awards nella categoria “Artificial Intelligence & Data Analytics”. 

Articoli correlati