Video: Владимир Красильщик — Анти-введение в Big Data (StudentDay) (Marraskuu 2024)
Äskettäin syntynyttä "big data" -meemiä ei ole koskaan määritelty millään merkityksellisellä ja lopullisella tavalla. Se on amorfisin uusi buzz-termi, jonka olen nähnyt kymmenen vuoden ajan. Se on yksi niistä "katsojan silmän" termeistä, joita käytetään virkistämään seminaaria ja lopulta liottamaan sijoittajia.
Aloitetaan kysymällä, mitä iso data tarkoittaa? Paljon tietoja? Enemmän tietoja kuin pystyt käsittelemään? Amorfinen tieto? Ei valvontatietoja? Hyödyllistä tietoa analyysille? Hyödytöntä tietoa? Tietojen ylikuormitus?
Jos luet tarpeeksi suurta dataa, se on kaikki edellä mainittua ja muuta. Tärkeintä ei ole data, vaan haaste siitä, miten tietoja käsitellään ja mitä tehdään itselleen.
Toisin sanoen, kuinka voimme tehdä tästä valtavasta kasaan tietoja, jotka olemme onnistuneet keräämään, olemaan hyödyllisiä uusilla ja kannattavilla tavoilla? Tietokannat voivat tulla mistä tahansa erilaisten laskentamekanismien, kuten Facebook-viestien, NSA-lokien, postituslistojen, asiakkaiden jne. Kautta.
Väittäisin, että suurin osa tämän sarakkeen lukijoista on itse isojen tietojen arkistoja. Ostin juuri 3 teratavun aseman varmuuskopiointia varten. Minulla on paljon varmuuskopioita tietoa! Suuri data!
Hyödyllinen työkalu, jota voin kuvitella, olisi iso tietojen analysointityökalu, jonka avulla poliisi voisi löytää sinut syylliseksi johonkin satunnaiseen rikokseen käymällä läpi tiedostosi. Tai ainakin löytää jotain, joka hämmentää sinua. Suuri data!
Tämä kaikki koituu takaisin American Expressin entisen toimitusjohtajan kommenttiin, joka kertoi yleisölle, että jos yritys haluaisi (ja tämä koskee kaikkia luottokorttiyhtiöitä), se voisi käyttää henkilökohtaisia ostamistapojasi ja taipumuksiasi koota täydellinen Asiakirja-aineisto ja ehdottomasti kerro, jos sinulla on suhde vai et. Suuri data!
Sen perusteella mitä voin kertoa, tämä on juuri sitä, mitä iso tieto tekee parhaiten, vakoojaan henkilöitä.
Alan suosittu kommentti on, että jotenkin suuria tietokantoja, jotka sisältävät sinusta tietoa, käytetään sinun eduksesi. Joo, tiedät, niin saat asioita, joista olet todella kiinnostunut. Kohdennettu mainonta. Tämä hyödyttää kaikkia!
Näin tämä toimii. Olen kiinnostunut ostamaan uuden kameran ja kuulemaan uudesta Bogus One -sovelluksesta. Luin PCMag.com-sivustossa artikkelin kamerasta, menen sitten Amazoniin ja tarkistan hinnat ja käyttäjän arvostelut. Näyttää siltä, että kukaan ei pidä kamerasta. Se on selvää paskaa. Arvioijat kaikki välttelivät kameraa. Ostajat vihaavat kameraa. Tämä ei ole haluamani kamera. Mutta iso tietojen analysointiohjelma päättää antaa minulle satoja mainoksia jokaisella verkkosivustollani, joissa kaikissa näytetään Bogus One -kamera. Suuri data!
Se on pahempaa. Jos asiat menivät toiseen suuntaan ja päätin, että pidin ja halusin kameran ja todella ostin kameran, saisin silti mainoksia, jotka rohkaisivat minua ostamaan kameran. Suuri data!
Kohdennettu "big data" -mainonta on kaikkien aikojen suurin kuorma baloney-tavaraa.
OK, joten unohdamme tämä fiasko ja siirrymme käyttämään suurta dataa trendeihin. Suuret tiedot saattavat löytää erilaisia neuloja erilaisista heinäsuovista. Joten saisit jotain tällaista: 40 prosenttia kaikista Subarun ostajista on kasvissyöjiä / vegaaneja ja 80 prosenttia heistä on demokraatteja. Mutta tämä määrä nousi vastaavasti 60 prosenttiin ja 90 prosenttiin, jos puhumme Subaru Outbackista. Lisäksi se kasvaa 99 prosenttiin kasvissyöjille / vegaaneille ja 99 prosenttiin demokraateille, jos auto on maalattu vihreäksi.
Big data -teoreetikot pitäisivät seminaarissa kenttäpäivän tämän tiedon kanssa. Mutta se jättää huomioimatta kaikki muuttujat, jotka voivat muuttaa laskelmia ja suuntauksia, jotka ovat loputtomia. Kuinka kauan jokin tästä erityisestä tiedosta kestää, jos Subarun toimitusjohtaja ajaa kokoontumiseen vihreään Outbackiin ja julistaa, että "Kaikki valaat on hävitettävä!"?
Ei edes tarvitse niin paljon muuttaa suurten tietojen päätelmien dynamiikkaa. Huolimatta siitä, mitä American Express -tyypin kaveri sanoo, tiedot ovat todella sokeita. Siksi saat mainoksia jo ostamiin tuotteisiin.
Suuret tiedot saisivat hyppäämään johtopäätöksiin.
Jos joku ostaa kymmenen kirjaa pommin tekemisestä, tarkoittaako se, että hän haluaa räjäyttää liittovaltion rakennuksen? Entä jos hän olisi pommin hävittämisen asiantuntija eikä sitä sisällytetty hänen tehtävään poliisi-konsultiksi? Suuret tiedot eivät voi vielä tietää kaikkea. Se ei voi tietää mitä ajattelet. Ajattelen esimerkiksi, että Bogus One -kamera imee. Suuret tiedot eivät voi tietää sitä, ellet ole kuulusteltu. Ja voisin valehdella siitä.
Mikään näistä ei kuulosta hyvältä tai terveelliseltä yhteiskunnalle. Hyppy päätelmiin, oletusten tekeminen, väärien oletusten käyttäminen. Kutistaminen yleisölle hyödytöntä s.
Suuret tiedot korkeana käsitteenä eivät koskaan täysin määrittele itseään ja kuolevat kurja kuolema. Toivon.