Prova subito

LLM on-premise: verso l’autonomia dell’AI conversazionale

LLM on-premise: verso l’autonomia dell’AI conversazionale

1. Come tutto è cominciato

Quando, a fine 2024, Memori ed Araneum hanno aiutato Lenovo a montare il suo primo server dedicato agli LLM, l’idea era semplice: verificare se un modello open-source potesse reggere il carico di una vera azienda, senza appoggiarsi al cloud. Quel test pilota, descritto nel nostro primo report, ha acceso parecchi riflettori.

Sei mesi dopo siamo tornati in laboratorio – questa volta con una macchina più potente, modelli più maturi e un obiettivo più ambizioso: portare l’AI conversazionale “enterprise-grade” direttamente dentro i data-center dei clienti. È nato così il secondo paper di Massimo Chiriatti, scritto con l’appoggio dei team di Memori e Araneum.


2. Perché spostare l’AI “in casa” – in tre idee chiare

Dopo il primo pilot (fine 2024) non ci bastava sapere se l’LLM locale funzionasse: volevamo chiarire perché vale la pena portarlo davvero on-premise.

Ci sono aspetti strategici fondamentali che giustificano la scelta on-premise oltre alla pura valutazione economica:

  1. Controllo totale sulla privacy dei dati: le soluzioni on-premise garantiscono che i dati sensibili aziendali non attraversino mai sistemi di terze parti. Come evidenziato nella prefazione del report, questo approccio "consente di evitare la dipendenza da fornitori esterni, preservare la riservatezza dei dati sensibili ed evitare interruzioni di servizio non gestibili".
  2. Autonomia tecnologica: il controllo diretto dell'infrastruttura permette di garantire la continuità operativa anche in scenari critici, senza dipendere da limitazioni o modifiche delle policy dei provider esterni.
  3. Conformità normativa: per molti settori regolamentati (es. sanità, finanza, pubblica amministrazione), avere il pieno controllo sui dati e sulla loro elaborazione è un requisito imprescindibile per rispettare normative come GDPR e altre regolamentazioni settoriali.
  4. Ottimizzazione per carichi di lavoro aziendali: un'infrastruttura dedicata può essere configurata precisamente sui pattern di utilizzo dell'organizzazione, ottenendo prestazioni ottimali per i casi d'uso specifici.

L'obiettivo di questi studi fatti tra Memori e Lenovo è di fornire alle aziende strumenti per valutare quando l'investimento in infrastrutture proprietarie diventi vantaggioso rispetto a costi variabili online, creando un framework decisionale completo che tenga conto sia degli aspetti economici che di quelli strategici relativi alla sovranità dei dati.

Questi 4 punti sono il filo rosso che collega il pilot 2024 all’hardware descritto nella sezione 3 e alla nuova architettura con Board of Experts.

Cerchi i numeri?
Al punto 6 troverai dati concreti di throughput, latenza e costi che dimostrano in che misura l’on-premise fa davvero la differenza.


3. L’hardware di Lenovo

Lenovo ci ha fornito un ThinkSystem SR675 V3 con due GPU NVIDIA H200 da 120 GB l’una. Tradotto per i non addetti: abbastanza VRAM da far girare modelli da 70 miliardi di parametri e una finestra di contesto da 128 k token senza “swap” dolorosi.

In pratica, significa poter servire 200 utenti simultanei senza che il ping salga alle stelle e con risposte che arrivano in meno di un secondo sui modelli “mid-size”.


4. La scelta del modello: più grande non è sempre meglio

Abbiamo messo in campo le novità open-source più attese:

Il risultato?
Il vero sweet-spot, per carichi aziendali misti, è Qwen 3-14B: usa 27 GB di VRAM, mantiene la latenza bassa e, soprattutto,non subisce l’effetto di allucinazioni, cosa che i modelli sotto gli 8 B parametri fanno ancora troppo spesso.

Llama da 70 B è insuperabile in termini di qualità, ma, vista la sua richiesta di risorse, conviene riservarlo a copy impeccabili o ragionamenti complessi, non alle FAQ di routine.

Nei benchmark ha brillato anche IBM Granite 3.3-8B (circa 85 request/s): perfetto quando serve molta concorrenza con poca VRAM.


5. Dentro la Board of Experts: l’orchestra invisibile che fa agire l’AI

Un unico modello generalista può cavarsela su domande di superficie, ma fatica quando l’utente scende nei dettagli (es. “Qual è il part-number della Legion 5 Pro 16 ACH6?”). 

Serviva quindi specializzare la conoscenza senza costringere il cliente a dialogare con dieci chatbot diversi. Abbiamo creato così una Board of Expert: un sistema di gestione di diversi Agenti AI, ognuno specializzato sul proprio dominio specifico.

5.1 La struttura: un direttore d’orchestra e quattro sezioni

Ruolo

Cosa sa fare

Esempio di trigger

NOVA (Presidente)

Riceve ogni messaggio, lo interpreta, sceglie l’agente più competente.

“Sto cercando un portatile gaming da 15 pollici” → invia a Consumer

Consumer

Notebook & desktop IdeaPad, Yoga, Legion, LOQ, monitor consumer.

Domande su prezzi, P/N consumer, requisiti gaming

Commercial

Gamma ThinkPad, workstation, monitor business.

“Serve un laptop rugged per ingegneri in cantiere”

Motorola

Smartphone razr, edge, moto g/e, ThinkPhone.

Richieste su promo smartphone o bundle aziendali

Servizi & Garanzie

Estensioni di garanzia, servizi post-vendita, software Lenovo.

“Quanto costa l’estensione Premier Support Plus a tre anni?”

Ogni agente ha un proprio “prompt di ruolo” e può richiamare function calling mirate (dataset HTML aggiornati) solo se gli mancano informazioni fresche. Così evitiamo prompt infiniti e riduciamo il rischio di allucinazioni.

5.2 Perché all’utente interessa davvero

Ma cosa vede l’utente?
Una chat unica e fluida. Dietro le quinte, però, la domanda può passare da un LLM da 8 B (Motorola) a 14 B (Consumer) o persino al 70 B (Commercial) in millisecondi, sempre sullo stesso server on-premise.

👉 Vuoi provarlo?
Scrivi a ccare@memori.ai e prenota una demo live della Board of Experts. Uno dei gioielli di AIsuru. 

Tutto avviene in pochi centesimi di secondo, orchestrato da AIsuru senza prompt complicati o integrazioni manuali.


6. Cosa abbiamo misurato davvero

I numeri che contano - e cosa significano

Metrica Che cos’è Valore misurato Perché conta per il business
Throughput Richieste simultanee gestite 65 req/s (Qwen3-14B)
35 req/s (Qwen3-32B)
Scalabilità reale: supporti fino a 200 utenti contemporanei senza degradare il servizio
Performance boost Miglioramento vs. setup precedente +300 % velocità complessiva ROI immediato: triplichi la capacità con lo stesso investimento in licenze
Tempo di risposta Generazione di risposte complete (128 token) 14–17 secondi medi per output articolati Esperienza professionale: tempo ragionevole per analisi tecniche dettagliate
Affidabilità tecnica Precisione su dati critici (Part Number) Zero allucinazioni con modelli ≥14B Credibilità commerciale: l’agente non inventa codici prodotto o specifiche

In pratica: Il tuo team commerciale può affidarsi completamente alle risposte dell'IA, mentre i clienti ottengono informazioni precise anche durante i picchi di traffico.


7. Tre lezioni che abbiamo imparato

  1. Il modello “medio” è il nuovo standardNon serve buttarsi subito sul 70B: con 14B parametri hai già un assistente che capisce, non inventa e risponde veloce.
  2. Function calling è indispensabileCollegare l’agente a fonti tabellari vive (schede prodotto, listini) dimezza le allucinazioni e alleggerisce i prompt. Su questo, AIsuru è maestra nell’ottimizzare l’inferenza.
  3. L’on-premise scala davveroAl netto dell’investimento iniziale, la combo H200 + vLLM regge spike di traffico che prima avresti pagato a token—e senza sorprese di rete.

8. E adesso?

  1. Scarica il paper completo → lo trovi al seguente LINK.
  2. Prenota una demo di 30 minuti con il team di AIsuru → scrivi a a ccare@memori.ai per vedere AIsuru dirigere una Board of Experts.
  3. Avvia il tuo progetto → valuta con il team di Memori potenzialità della AI generativa e applicazioni nel tuo business.

Conclusione

Il cloud non sparirà, ma oggi puoi decidere quali conversazioni restano “a casa” e farle correre fino a tre volte più veloci di prima.

Con Lenovo che ha messo a disposizione l’hardware, Araneum che cura la metodologia e i benchmark, AIsuru che orchestra gli agenti e il nostro know-how sui modelli open-source, l’AI conversazionale on-premise non è più sperimentale: è pronta per la produzione.