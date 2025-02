A dicembre 2024, Microsoft ha introdotto Phi-4, un modello di linguaggio di piccole dimensioni (SLM) con prestazioni all'avanguardia nella sua categoria. Adesso, Microsoft sta espandendo la famiglia Phi-4 con due nuovi modelli: Phi-4-multimodal e Phi-4-mini. Il nuovo modello Phi-4-multimodal supporta simultaneamente voce, visione e testo, mentre Phi-4-mini è focalizzato su attività basate su testo. Phi-4-multimodal è un modello da 5,6 miliardi di parametri ed è anche il primo modello di linguaggio multimodale di Microsoft che integra elaborazione vocale, visiva e di testo in un'unica architettura unificata. Rispetto ad altri modelli omni all'avanguardia esistenti, tra cui Gemini 2.0 Flash e Gemini 2.0 Flash Lite, Phi-4-multimodal ha ottenuto prestazioni migliori su più benchmark.

Nelle attività relative al parlato, Phi-4-multimodal supera modelli di parlato specializzati come WhisperV3 e SeamlessM4T-v2-Large. Ciò avviene sia nel riconoscimento automatico del parlato (ASR) che nella traduzione del parlato (ST). Microsoft afferma che questo modello ha raggiunto la prima posizione nella classifica Hugging Face OpenASR con un impressionante tasso di errore di parola del 6,14%.

Microsoft: nuovi modelli Phi-4 ottimi nel ragionamento matematico

Nelle attività correlate alla vista, Phi-4-multimodal ha ottenuto ottime prestazioni nel ragionamento matematico e scientifico. Nelle comuni capacità multimodali, come la comprensione di documenti e grafici, l'OCR e il ragionamento scientifico visivo, questo nuovo modello eguaglia o supera modelli popolari come Gemini-2-Flash-lite-preview e Claude-3.5-Sonnet. Phi-4-mini è un modello da 3,8 miliardi di parametri. Inoltre, supera diversi LLM più grandi e popolari nelle attività basate su testo, tra cui ragionamento, matematica, codifica, istruzione e chiamata di funzioni. Per garantire la sicurezza e la protezione di questi nuovi modelli, Microsoft ha condotto test con esperti di sicurezza interni ed esterni, impiegando strategie elaborate dal Microsoft AI Red Team (AIRT). Sia i modelli Phi-4-mini che Phi-4-multimodal possono essere distribuiti sul dispositivo. Possono anche essere ulteriormente ottimizzati con ONNX Runtime per la disponibilità multipiattaforma, rendendoli adatti a scenari a basso costo e bassa latenza.

I modelli Phi-4-multimodal che Phi-4-mini sono ora disponibili per gli sviluppatori in Azure AI Foundry, Hugging Face e nel catalogo API NVIDIA. Gli sviluppatori possono consultare il documento tecnico per vedere una panoramica degli utilizzi dei modelli consigliati e delle relative limitazioni. Questi nuovi modelli Phi-4 offrono significativi progressi nell'ambito dell'intelligenza artificiale efficiente. Includono infatti potenti funzionalità multimodali e basate su testo a una vasta gamma di applicazioni di intelligenza artificiale.