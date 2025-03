Mistral ha appena lanciato una nuova API per gli sviluppatori che gestiscono documenti PDF complessi. Mistral OCR è un'API di riconoscimento ottico dei caratteri che trasforma qualsiasi PDF in file di testo per semplificarne l'ingestione da parte dei modelli AI. Gli LLM che supportano i popolari strumenti GenAI come ChatGPT di OpenAI funzionano particolarmente bene con testo non elaborato. A differenza della maggior parte delle API OCR, Mistral OCR è un'API multimodale. Ciò significa che può rilevare quando ci sono illustrazioni e foto intrecciate con blocchi di testo. L'API OCR crea riquadri di delimitazione attorno a questi elementi grafici e li include nell'output. Mistral OCR non produce solo un grande muro di testo. L'output è formattato in Markdown, una sintassi di formattazione che gli sviluppatori usano per aggiungere collegamenti, intestazioni e altri elementi di formattazione a un file di testo normale.

Gli LLM si affidano molto a Markdown per i loro set di dati di training. Allo stesso modo, chatbot come Le Chat di Mistral o ChatGPT, spesso generano Markdown per creare elenchi puntati, aggiungere link o mettere elementi in grassetto. Le app di assistenza formattano senza problemi l'output di Markdown in un output di testo avanzato. Ecco perché il testo grezzo e Markdown sono diventati più importanti negli ultimi anni con il boom di GenAI.

Mistral: possibile utilizzo anche con sistemi RAG

Mistral OCR è disponibile sulla piattaforma API di Mistral o tramite i suoi partner cloud (AWS, Azure, Google Cloud Vertex, ecc.). Per le aziende che lavorano con dati classificati o sensibili, Mistral offre una distribuzione on-premise. Secondo l'azienda di AI con sede a Parigi, Mistral OCR funziona meglio delle API di Google, Microsoft e OpenAI. L'azienda ha testato il suo modello OCR con documenti complessi che includono espressioni matematiche (formattazione LaTeX), layout avanzati o tabelle. Dovrebbe anche funzionare meglio con documenti non in inglese.

Mistral sta anche usando Mistral OCR per il suo assistente AI Le Chat. Quando un utente carica un file PDF, l'azienda usa Mistral OCR in background per capire cosa c'è nel documento prima di elaborare il testo. Le aziende e gli sviluppatori molto probabilmente utilizzeranno Mistral OCR con un sistema RAG (ovvero Retrieval-Augmented Generation) per utilizzare documenti multimodali come input in un LLM. I potenziali casi d'uso sono molti. Ad esempio, è possibile immaginare che gli studi legali lo utilizzino come aiuto per esaminare rapidamente enormi volumi di documenti. RAG è una tecnica utilizzata per recuperare dati e utilizzarli come contesto con un modello di intelligenza artificiale generativa.