Github lancia la CodeSearchNet Challenge

Link copiato negli appunti

Durante lo sviluppo di un progetto software è abbastanza comune cercare esempi di codice o magari intere porzioni da riutilizzare all'interno di una funzione. Spesso però la ricerca del codice può essere complicata, questo perché i vari search engine sono scarsamente ottimizzati per questa tipologia di ricerche.

Il team di Github è ben conscio di questa problematica, dunque da diverso tempo sta eseguendo delle sperimentazioni con tecniche di machine learning e di semantic code search per rendere più precisi i motori di ricerca.

Sostanzialmente per rendere la ricerca di codice più efficiente e rapida è necessario fornire agli algoritmi di machine learning dei dataset che permettano di tradurre il linguaggio umano, usato nelle query di ricerca, in codice e funzioni da mostrare nella ricerca.

Dunque gli ingegneri della piattaforma hanno collezionato un enorme dataset di funzioni, chiamato CodeSearchNet Corpus, e di documentazione associata scritta in Go, Java, Javascript, PHP, Python e Ruby. Tutti questi dati provengono da migliaia di progetti open source presenti su Github.

Tuttavia molto presto gli ingegneri della piattaforma si sono resi conto che era impossibile per loro misurare accuratamente i progressi fatti durante i vari test. Infatti, al contrario del natural language processing, non esistono dataset standard dedicati alla code search evaluation.

Dunque gli sviluppatori di Github, non avendo modo di valutare la qualità dei risultati in modo automatizzato ed autonomo, hanno deciso di chiedere l'aiuto della community di data scientist, rilasciando al pubblico il CodeSearchNet Corpus, che è attualmente composto da circa 6 milioni di funzioni, e lanciando la CodeSearchNet Challenge.

I data scientist che parteciperanno alla challenge contribuiranno a generare dei modelli di code search evaluation, consentendo al team di Github di migliorare il grado di rilevanza tra query di ricerca e risultato mostrato all'utente.

L'azienda spera che la CodeSearchNet Challenge incoraggi ricercatori indipendenti ed i professionisti del settore a studiare maggiormente la semantic code search, cosi da poter migliorare il proprio motore di ricerca dedicato al codice.

Via Github

Se vuoi aggiornamenti su Development inserisci la tua email nel box qui sotto:

Github lancia la CodeSearchNet Challenge

Ti consigliamo anche

Hosting gratuito per un anno con la nuova promo IONOS di giugno 2026: i dettagli

VPN senza limiti a 1,59 euro al mese: prezzo da low cost ma qualità al top

Hosting web con Aruba, una gamma completa con prezzi da 0,99 €/anno: ecco le promo

Saily: la eSIM per viaggiare connessi in tutto il mondo