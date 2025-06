Microsoft ha presentato Mu, un modello linguistico molto compatto e progettato per funzionare interamente in locale sui dispositivi Copilot+ con accelerazione NPU (Neural Processing Unit). Mu alimenta il nuovo agente AI presente nelle "Impostazioni" di Windows, disponibile per gli utenti del Dev Channel, permettendo di tradurre le richieste espresse in linguaggio naturale in azioni concrete sulle impostazioni di sistema.

Cosa è Mu e come opera in Windows

Mu è un modello di tipo encoder-decoder da 330 milioni di parametri. È stato sviluppato da zero in modo da offrire una soluzione leggera, veloce ed efficiente anche su hardware con risorse limitate. A differenza dei modelli decoder-only, Mu separa input e output e riduce latenza e consumo di memoria. Su un NPU Qualcomm Hexagon, ad esempio, offre una latenza iniziale inferiore del 47% e una velocità di decodifica 4,7 volte maggiore rispetto a diversi modelli equivalenti.

Ottimizzato per operare in tempo reale, Mu impiega tecniche come la quantizzazione post-addestramento, il weight sharing e delle ottimizzazioni specifiche per l'hardware di riferimento. Tutte feature realizzate in collaborazione con AMD, Intel e Qualcomm. Il modello riesce a generare oltre 200 token al secondo e mantiene al contempo un elevato livello di accuratezza.

Come è stato addestrato il modello

Per addestrare Mu, Microsoft ha seguito un percorso in più fasi:

pre-training su dati educativi di alta qualità;

distillazione dal modello Phi;

fine-tuning mirato tramite tecniche LoRA.

Nella versione usata per l'agente delle "Impostazioni" di Windows Mu è stato addestrato su oltre 3,6 milioni di esempi. In questo modo sono stati coperti centinaia di setting migliorando la precisione degli output.

L'agente operante nelle "Impostazioni" è stato concepito per semplificare la gestione di configurazioni complesse. È in grado ad esempio di interpretare correttamente comandi ambigui come "aumenta la luminosità" in presenza di monitor multipli. Quando l'input dell'utente è troppo vago o breve, l'agente si affida ad una ricerca semantica. Per richieste più complesse Mu genera invece risposte precise e contestuali in meno di 500 millisecondi.