Yahoo har udgivet et ton anonymiserede brugerdata for at hjælpe maskininlæringsforskere

Maskinindlæring tager fat i alle former for applikationer, fra selvkørende biler til billedgenkendelse til online-anbefalingsmotorer. Men medmindre du er Google eller Facebook, er det svært at få fat i de slags massive, rigtige datasæt, der er nødvendige for at teste og validere maskinprogrammer.

Yahoo har bidraget til at rette op på det med udgivelsen torsdag om, hvad det kaldte det "største nogensinde" datasæt, der blev stillet til rådighed for maskinlærerforskere. Det er en samling anonymiserede brugerinteraktioner med nyhedsdampene på websteder som Yahoo News og Yahoo Sports.

Yahoo siger, at der er 110-milliard-begivenheder i filen - eller 110-billedoptegnelser om, hvornår en bruger har klikket på en nyhedshistorie eller taget andre handlinger i feedet - og det omfatter 13.5TB data eller 1.5TB-komprimeret. Det er mere end ti gange størrelsen af tidligere største datasæt udgivet, siger Yahoo.

Yahoo News FeedYahoo
Dataene kommer fra interaktioner med dets nyhedsfeed, området i rødt ovenfor

"Data er livsblod for forskning i maskinindlæring," sagde firmaet. "Adgang til virkelig store datasæt er imidlertid et privilegium, der traditionelt er reserveret til maskinlæringsforskere og datavidenskabsfolk, der arbejder i store virksomheder - og uden for rækkevidde for de fleste akademiske forskere."

Maskinindlæring refererer til en klasse af programmer, der "lærer" og forbedrer deres evne til at løse problemer over tid. Et tidligt eksempel var spam-detektion, men maskinindlæring bruges til billedgenkendelse, sprogoversættelse og et utal af andre opgaver, herunder nogle til erhvervslivet. Google sagde for nylig, at det var "omtanke alt, hvad vi laver"Omkring maskinindlæring.

Computerforskere opretter modeller og skriver algoritmer til at guide maskinindlæringssystemer, men de har brug for store datasæt til at teste disse modeller og forbedre dem.

De kan bruge syntetiske, kunstigt opbyggede datasæt, men de afspejler ikke messiness og uforudsigelig adfærd, som mennesker udviser online, siger Suju Rajan, Yahoo's direktør for forskning inden for personalisering videnskab.

"Real-world data er rodet, det præsenterer mange udfordringer, og disse udfordringer er ikke nødvendigvis tænkt på, når nogen skaber et kunstigt datasæt," sagde hun. "Hvis du ikke tager højde for min opførsel, kan algoritmen du opretter muligvis ikke fungere så godt."

Hun forventer, at forskerne bruger dataene til at hjælpe med at opbygge bedre anbefalingsmotorer, ligesom dem på Netflix og Amazon. Men hun siger, at det også kan drive andre forskningsområder, f.eks. Informationsindhentning, social feed ranking og endda system engineering, ved at hjælpe cloud-udbydere med at beslutte, hvordan man behandler data, som brugere interagerer med.

Brugerdataene skyldtes at være tilgængelige for download torsdag gennem Yahoo Labs ' Webscope data sharing program, et bibliotek af anonymiserede datasæt til ikke-kommerciel brug.

Det er baseret på brugerinteraktioner med Yahoo News, Sports, Finance, Movies og Real Estate. Dataene blev samlet over fire måneder i begyndelsen af ​​sidste år fra 20 millioner Yahoo-brugere. Ud over interaktionsdataene indeholder den kategoriseret demografisk information, som aldersgruppe og køn, for en delmængde af brugerne. Det frigiver også titlen, resuméet og nøgleordene i de relaterede nyhedsartikler.

Yahoo siger det forrige største datasæt, udgivet sidste år af online marketing firmaet Criteo, var 1TB i størrelse og omfattede nogle 4 milliarder begivenheder.

Det siger, at målet er at udligne spillereglerne lidt for akademiske forskere, som ofte har større frihed til at forfølge langdistanseprojekter end deres ligemænd på virksomheder, men som mangler de virkelige verdensdata til at gøre det med.

"De kan måske løse problemer på en måde, som vi kan gøre brug af på Yahoo, eller komme op med nye forskningsproblemer, som vi ikke engang har tænkt på endnu," sagde Rajan.

Giv en kommentar

Dette websted bruger Akismet til at reducere spam. Lær, hvordan dine kommentardata behandles.