Video: Владимир Красильщик — Анти-введение в Big Data (StudentDay) (Marraskuu 2024)
Yksi asia, joka teki minuun vaikutuksen eilen Bloomberg Enterprise Technology Summit -tapaamisessa, oli keskittyminen käsittelemään dataa uudella tavalla - toisin sanoen käsittelemään sitä, mitä usein kutsutaan "big dataksi".
Joissakin keskusteluissa käsiteltiin suurten tietojen arvoa ja sitä, oliko kyse todella "biljoonan dollarin mahdollisuudesta", kun taas toisissa keskusteltiin yksittäisten organisaatioiden ja koko teollisuuden erityishaasteista näiden uusien tekniikoiden laajemmassa käytössä.
Bloomberg LP, Bloomberg Enterprise Solutions -liiketoiminnan globaali päällikkö Gerard Francis aloitti päivän tarjoamalla, että tärkein asia, jonka yritykset voivat tehdä, on "hyödyntää datan arvoa sitä käyttämällä" ja keskittyä tiedon saatavuuteen, laatuun ja kulkuun tiedot organisaation sisällä. Seuraavissa paneeleissa oli paljon puhetta uusista tietojen käsittelemiseen tarkoitetuista työkaluista, samoin kuin erityisistä kysymyksistä tietojen säilyttämisessä, hallinnassa ja löytämisessä ihmisille, jotka käsittelevät tietoja.
Yritystrendejä käsittelevässä yleisessä paneelissa MwoDB: n puheenjohtaja ja perustaja Dwight Merriman kertoi, että sovellusradan tietokerros on "suurin häiriö ja muutos, jonka olemme nähneet 25 vuoden aikana". Hänen mukaansa yritykset ovat käyttäneet relaatiotietokantoja vähintään 25 vuotta, joten pino on vanhin tekniikka. Mutta nyt tapahtuu sellaisia tiedostopohjaisia tallennuksia, kuten Hadoop ja uudet tietokantatekniikat, jotka on ryhmitelty usein NoSQL: ksi. Hän huomautti, että Big Data ei ole "iso" vaan pikemminkin datan muoto, tietotyypit ja siirtyminen kohti reaaliaikaisen tiedon käsittelyä.
Googlen tiedottaja Benjamin Fried oli yhtä mieltä siitä, että useimmilla yrityksillä ei ole "suuria tietoja" koskevia ongelmia. Hän sanoi, että monet tietokokonaisuuksista - esimerkiksi henkilöstötiedoista ja taloudellisista tiedoista - eivät ole niin suuria. Tärkeää on joustavuus, jota tarvitset tietojen asianmukaiseen käsittelemiseen.
Mikä on Big Data joka tapauksessa?
Tämä käsite - että joustavuus on yhtä tärkeä kuin datan koko - toistettiin toisessa paneelissa myöhemmin päivällä. Siellä osallistujat olivat yhtä mieltä siitä, että yritykset ovat jo pitkään olleet tekemisissä tietoraskaiden sovellusten kanssa, mutta mittakaava on muuttunut viime aikoina. Esimerkiksi Neustarin varatoimitusjohtaja ja teknologiajohtaja Mark F. Bregman huomautti, että jotkut yritykset "nyt varastoivat kaiken" toivoen, että se osoittautuu arvokkaammaksi.
"Big määritellään paremmin monimutkaisuudeksi", MarkLogicin toimitusjohtajan ja toimitusjohtajan Gary Bloomin mukaan. Hän huomautti, että monet ns. "Big data" -sovellukset sisältävät paljon erilaisia tietoja, mutta eivät sellaista määrää, josta yleensä kuulet "big data" -sovelluksissa.
Hän mainitsi lentoliikenneesimerkin, jossa yhdistyvät säätiedot, lentokentätiedot, paikkatiedot, lentotiedot, lentoyhtiöiden varaustiedot ja sosiaaliset tiedot. Hän huomautti, että heterogeenisen datan käsitteleminen oli todella vaikeaa perinteisten relaatiotietokantojen suhteen, ja toisti MongoDB: n Merrimanin aiemmat kommentit, että tämä oli "ensimmäinen sukupolvenvaihdos tietokannassa 25 vuoden aikana", koska siirryimme keskusyksiköstä relaatiotietokantojen aikakauteen.
Hän totesi, että monet ihmiset puhuvat sosiaalisen median tiedoista, mutta se on todellakin yhdistettävä muihin tietoihin, jotta meillä olisi jotain, josta voit hyötyä. Näiden tietojen yhdistäminen on "todellinen arvo".
Tietysti joihinkin sovelluksiin liittyy paljon tietoa, ja Bregmanin mukaan heterogeenisuus on vain yksi tekijä. Hän mainitsi DNS-tiedot, jotka voivat helposti tuottaa 8 Tt tietoa päivässä, ja tarpeen tallentaa tällaisia asioita Hadoopissa. Bregman ja muut huomauttivat, että "datan isoilla kirjaimilla" todellinen arvo ei ole raa'issa tiedoissa, vaan on analytiikassa, kun siitä tulee jotain mitä voit käyttää. Muut paneelin jäsenet olivat yhtä mieltä.
Streambase-toimitusjohtaja Mark Palmer kertoi, että suurten tietomäärien yhdistäminen streaming-analytiikkaan oli tärkeää monissa sovelluksissa; ja puhui lisäarvosta, joka voitaisiin luoda yhdistämällä perinteinen ja reaaliaikainen analytiikka.
Mutta hän oli yhtä mieltä siitä, että tietojen monimutkaisuus on ongelma. Hän kertoi, kuinka Tibcoa (joka nyt omistaa Streambase) Vivek Ranadivé osti koripallojoukkueen osittain selvittääkseen, kuinka tekniikka voi parantaa faneja. Hän puhui jälleen "erityyppisten tietojen masteroinnista", alkaen Twitter-streamista, mutta hyödyntäen myös muun tyyppisiä tietoja.
Bloom totesi, että kaikki riippuu sovelluksesta, sanomalla, että "viive on katsojan silmässä". Jotkin sovellukset täytyy jäsentää tiedot johdolla, ennen kuin se edes osuu tietokantaan, kun taas toiset eivät.
Bregman toi esiin sen, että laskentaresurssien siirtämisen vaikeuden sijaan tietojen siirtäminen on nyt paljon vaikeampaa. Hän huomautti, että monissa sovelluksissa lukitus on tietojen sijainti. Kun olet tallentanut tietosi julkiseen pilveen, niitä on erittäin vaikea siirtää. Hänen mukaansa monet organisaatiot haluavat tallentaa valtavia määriä dataa omiin sijainteihinsa, jolloin ne voivat siirtyä eri palveluntarjoajiin laskentatoimintojen käyttämiseksi. Lainaamalla termiä MarkLogic's Bloomista, hän puhui siitä, kuinka organisaatiot saattavat tarvita "datakeskeistä tietokeskusta" paikana, jossa säilytät valtavia määriä tietoja.
Onko Big Data "biljoonan dollarin mahdollisuus?"
Porter Bibb MediaTech Capital -kumppaneista, Clouderan Doug Cutting, Snaplogic's Gaurav Dhillon ja Bloomberg Linkin Jason KellyToinen paneeli keskusteli big datan tarjoamista mahdollisuuksista ja haasteista pohtien MediaTech Capital Partners -yhtiön toimitusjohtaja Porter Bibbin kommenttia. Bibb kertoi, että uusia tekniikoita käyttäville yrityksille on todellakin enemmän kuin biljoona dollaria etuja. Hänen mukaansa "tähän mennessä emme ole edes alkaneet hyödyntää tämän tekniikan tarjoamia mahdollisuuksia".
Bibb puhui siitä, kuinka tärkeätä organisaatioille oli mukauttaa tietostrategiaan liiketoimintastrategiaan, ja hän oli huolissaan siitä, että suurin osa yritys- ja hallintojärjestelmistä on kohdistettu väärin.
Ensimmäisessä istunnossa Scott Weiss Andreessen Horowitzista sanoi, että "Hadoop on kuin kryogeeninen varastointi", joten moderaattori Jason Kelly Bloomberg Linkistä kysyi Clouderan pääarkkitehdilta Doug Cuttingilta, joka oli ensisijaisesti yksi Hadoopin luojaista, kuinka hän näki että.
Hadoopin leikkaaminen antaa ihmisille mahdollisuuden työskennellä enemmän dataa. Hänen mukaansa organisaatiot vetävät tietoja pois nauhasta, tekevät siitä verkossa ja käyttökelpoista. Asiakkaat ovat siirtymässä työskentelemään 90 päivän tietojen avulla viiden tai kymmenen vuoden tiedolle "aktiivisessa arkistossa".
Tässä paneelissa nousi esiin joukko erityiskysymyksiä kaikkien näiden tietojen käsittelystä. Snaplogicin toimitusjohtaja Gaurav Dhillon puhui "datan painoarvosta", sanoen, ettei ole järkevää ottaa Hadoopin tiloissa olevia tietoja ja siirtää niitä pilvelle. Mutta samaan aikaan, jos pilvessä on tietoja, kuten napsautusvirran analyysi, ei ole järkevää siirtää sitä paikan päällä. Hänen mukaansa hän näki näin ollen hyvin vähän "rajat ylittäviä mahdollisuuksia" siirrettäessä tietoja.
Cutting sanoi, että hän ei usko, että tietotieteilijöistä oli todella pulaa. Sen sijaan hän sanoi, että monet ihmiset ymmärtävät matematiikan ja liiketoiminnan, mutta heillä ei vain ole työkaluja. Hän voi oppia työkalujen perusteet ja niiden tekemisen parissa viikossa, mutta yrityksesi ymmärtäminen vie vuosia. Silti monet ihmiset ymmärtävät sen.
Dhillon heijasti myös huolta lainsäädännöstä, joka käsittelee sitä, mitä tietoja voidaan säilyttää missä. Hän sanoi, että jotkut vertikaaliset markkinat vaativat tietojen tallentamista paikan päällä, mutta oli huolissaan muun muassa vaatimuksista olla siirtämättä tietoja alkuperämaastaan. Hän sanoi, että suuri osa tästä on liian reagoiminen esimerkiksi Snowdenin paljastuksiin ja tietosuojarikkomuksiin, että lainsäädäntö kiire ei ole koskaan hyvä.
Kysyttäessä, oliko hän huolissaan siitä, että Snowden- ja Target-rikkomukset saivat asiakkaat pelkäämään tietoja, Cutting sanoi olevansa huolissaan siitä, että niin monet ihmiset ovat huolissaan. Teknologia pelkää monia ihmisiä, ja teollisuus epäonnistui tekemään asiakkaille miellyttävää ajatusta, että heidän tietojaan ei käytetty. "Sinun ei tarvitse olla kammottavaa", hän sanoi.
Lopussa käydään paljon keskustelua arvonmäärityksistä. Bibb ehdotti äskettäistä Intelin investointia Clouderaan olevan "iso juttu", koska se vahvistaa yrityksen toiminnan. Hän sanoi, että muut suuret yritykset, kuten Oracle, IBM, Microsoft ja Amazon, leijuvat ennustavien analytiikkayritysten ympärillä. "Kullan kiire on vasta alkamassa."
Dhillon kertoi, että arvot heijastavat sitä, mitä putkiyhtiöt tuovat suurille datamarkkinoille. Hän kertoi olevansa iloinen nähdessään, että tällaiset "poiminta ja lapiot" -kaverit saavat hyvät arvot, mutta sanoi olevansa hieman peloissaan, että arvot ovat menossa markkinoille.
Bibb sanoi, että hän ajatteli, että suurta dataa voidaan aliarvioida mediassa, mutta sitä ei alisteta "c-sviitissä" (tarkoittaen toimitusjohtajia, talousjohtajaa ja muita ylimpiä avainhenkilöitä.) Hänen mukaansa sillä on "valtava taloudellinen potentiaali, jota ei ole vielä löydetty.."