Moviri ha sviluppato per un primario gruppo multinazionale attivo nei settori aerospaziale, difesa e sicurezza una piattaforma di Enterprise AI Serving, progettata per rispondere alla crescente complessità nella gestione e nel deployment di modelli di intelligenza artificiale, in particolare Large Language Models (LLM).
L’infrastruttura, completata a gennaio 2025, consente di servire modelli di grandi dimensioni – come Llama 3.1 405B – con efficienza, sicurezza e scalabilità, ottimizzando l’uso delle risorse GPU e riducendo la frammentazione tecnologica.
Il progetto nasce dall’esigenza del cliente di disporre di un layer centralizzato per il serving dei modelli AI, superando le difficoltà legate alla gestione distribuita e alla mancanza di standardizzazione. La soluzione implementata da Moviri si basa su un’architettura cloud-native e modulare, che integra tecnologie open source e garantisce un elevato grado di personalizzazione.
Indice degli argomenti
Architettura cloud-native e sicurezza enterprise-grade
La piattaforma è costruita su Kubernetes per l’orchestrazione dei container, con KServe come motore di inference serving. KServe consente il deployment standardizzato dei modelli, offre API predicibili (OpenAI-like) e supporta il versionamento e l’autoscaling.
Per l’ottimizzazione dell’inferenza LLM, è stato integrato vLLM, che utilizza tecniche avanzate come continuous batching, gestione ottimizzata della KV cache e tensor parallelism, migliorando significativamente throughput e latenza.
L’infrastruttura include un sistema di ingress e autenticazione basato su Nginx e Keycloak, che gestisce l’accesso granulare ai modelli tramite API-KEY e token. Il deployment dei modelli è automatizzato tramite pipeline CI/CD con script Python e template Helm, garantendo coerenza e velocità nel rilascio.
Il progetto ha richiesto l’integrazione di componenti open source in un ambiente enterprise, l’ottimizzazione per modelli di grandi dimensioni e l’implementazione di meccanismi di sicurezza robusti. Le fasi di lavoro si sono articolate tra ottobre 2024 e febbraio 2025, comprendendo design, prototipazione, setup infrastrutturale, validazione e trasferimento di know-how.
I vantaggi
I benefici ottenuti includono:
- Efficienza operativa: riduzione dei tempi e della complessità nel deployment dei modelli.
- Ottimizzazione hardware: uso più efficiente delle GPU, con possibilità di servire più modelli o modelli più grandi.
- Scalabilità e prestazioni: capacità di gestire carichi crescenti e modelli complessi.
- Governance e sicurezza: accesso controllato e tracciato ai modelli AI.
- Autonomia tecnologica: riduzione della dipendenza da soluzioni esterne.
L’elemento distintivo del progetto risiede nella capacità di combinare tecnologie open source come Kubernetes, KServe e vLLM per creare una piattaforma enterprise-grade per il serving di modelli AI, con un framework completo per il deployment, la gestione degli accessi e il versionamento. La soluzione è flessibile, priva di vendor lock-in e replicabile in altri contesti industriali ad alta intensità computazionale.
Il progetto è entrato nella rosa dei finalisti per i Digital360 Awards nella categoria “Artificial Intelligence & Data Analytics”.