Yahoo ha rilasciato una tonnellata di dati utente anonimizzati per aiutare gli scienziati dell'apprendimento automatico

L'apprendimento automatico sta prendendo piede in tutti i tipi di applicazioni, dalle auto a guida autonoma al riconoscimento delle immagini fino ai motori di raccomandazione online. Ma a meno che tu non sia un Google o un Facebook, è difficile mettere le mani sul tipo di enormi set di dati del mondo reale necessari per testare e convalidare i programmi di apprendimento automatico.

Yahoo ha contribuito a rimediare a ciò con il rilascio giovedì di quello che ha definito il set di dati "più grande di sempre" messo a disposizione degli scienziati dell'apprendimento automatico. È una raccolta di interazioni utente anonime con i flussi di notizie su siti come Yahoo News e Yahoo Sports.

INSIDER: In che modo il Chief Data Officer di TD Ameritrade sta guidando il cambiamento

Yahoo afferma che ci sono 110 miliardi di eventi nel file - o 110 miliardi di record di quando un utente ha fatto clic su una notizia o ha intrapreso qualche altra azione nel feed - e comprende 13,5 TB di dati o 1,5 TB compressi. È più di dieci volte più grande del precedente set di dati più grande rilasciato, afferma Yahoo.

Yahoo

I dati provengono da interazioni con il suo feed di notizie, l'area in rosso sopra

"I dati sono il sangue vitale della ricerca nell'apprendimento automatico", ha affermato la società. "Tuttavia, l'accesso a set di dati su larga scala è un privilegio tradizionalmente riservato ai ricercatori di machine learning e ai data scientist che lavorano in grandi aziende - e fuori portata per la maggior parte dei ricercatori accademici".

L'apprendimento automatico si riferisce a una classe di programmi che "apprendono" e migliorano la loro capacità di risolvere i problemi nel tempo. Un primo esempio è stato il rilevamento dello spam, ma l'apprendimento automatico viene utilizzato per il riconoscimento delle immagini, la traduzione delle lingue e una miriade di altre attività, tra cui alcune per le aziende. Google ha recentemente affermato di "ripensare tutto ciò che stiamo facendo" in merito all'apprendimento automatico.

Gli informatici creano modelli e scrivono algoritmi per guidare i sistemi di apprendimento automatico, ma hanno bisogno di grandi set di dati su cui testare quei modelli e migliorarli.

Possono utilizzare set di dati sintetici creati artificialmente, ma quelli non riflettono il disordine e il comportamento imprevedibile che gli umani mostrano online, ha affermato Suju Rajan, direttore della ricerca Yahoo per la scienza della personalizzazione.

 "I dati del mondo reale sono disordinati, presentano molte sfide e quelle sfide non sono necessariamente pensate quando qualcuno crea un set di dati artificiali", ha detto. "Se non prendi in considerazione il mio comportamento, l'algoritmo che crei potrebbe non funzionare così bene."

Si aspetta che gli scienziati utilizzino i dati per aiutare a costruire motori di raccomandazione migliori, come quelli su Netflix e Amazon. Ma afferma che potrebbe anche guidare altre aree di ricerca, come il recupero delle informazioni, la classifica dei social feed e persino l'ingegneria dei sistemi, aiutando i fornitori di cloud a decidere come elaborare i dati mentre gli utenti interagiscono con essi.

I dati dell'utente dovevano essere disponibili per il download giovedì attraverso il programma di condivisione dei dati Webscope di Yahoo Labs, una libreria di set di dati anonimi per uso non commerciale.

Si basa sulle interazioni degli utenti con Yahoo News, Sport, Finanza, Film e Settore immobiliare. I dati sono stati raccolti oltre quattro mesi all'inizio dell'anno scorso da 20 milioni di utenti Yahoo. Oltre ai dati di interazione, include informazioni demografiche classificate, come la fascia di età e il genere, per un sottoinsieme di utenti. Rilascia anche il titolo, il riassunto e le frasi chiave degli articoli di notizie correlati.

Yahoo afferma che il precedente set di dati più grande, pubblicato lo scorso anno dalla società di marketing online Criteo, aveva una dimensione di 1 TB e includeva circa 4 miliardi di eventi.

Dice che il suo obiettivo è livellare un po 'il campo di gioco per i ricercatori accademici, che spesso hanno più libertà di perseguire progetti a lungo termine rispetto ai loro coetanei nelle aziende, ma che non dispongono dei dati del mondo reale per farlo.

"Potrebbero essere in grado di risolvere i problemi in un modo che possiamo utilizzare a Yahoo, o trovare nuovi problemi di ricerca che non abbiamo ancora pensato", ha detto Rajan.

Unisciti alle community di Network World su Facebook e LinkedIn per commentare argomenti che sono importanti.