Koti liiketoiminta Big data-perusteet: kuinka rakentaa tiedonhallintasuunnitelma

Big data-perusteet: kuinka rakentaa tiedonhallintasuunnitelma

Video: Why fascism is so tempting -- and how your data could power it | Yuval Noah Harari (Lokakuu 2024)

Video: Why fascism is so tempting -- and how your data could power it | Yuval Noah Harari (Lokakuu 2024)
Anonim

Olemme kirjoittaneet paljon datan roolista nykyajan yrityksissä. Alkuvaiheessa olevista yrityksistä ja pienistä keskisuuriin yrityksiin (SMB) suuriin yrityksiin, tietämys ja analyysi ovat kaiken kokoisille yrityksille helpompaa kuin koskaan ennen. Tämä johtuu osittain itsepalveluliiketoiminnan älykkyyden (BI) ja datan visualisoinnin työkalujen noususta.

Ennen kuin voit käyttää BI-työkaluja tai käyttää ennustavaa analysointia tietojoukossa, on olemassa joukko tekijöitä, jotka erottuvat toisistaan. Se alkaa yksinkertaisesti ymmärtää, mikä Big Data on, mikä se ei ole (vihje: ei kristallipallo), ja kuinka hallita tietojen tallennusta, järjestämistä, käyttöoikeuksia ja tietoturvaa yrityksesi tietoarkkitehtuurissa. Tietohallinto tulee tänne. Prosessit, joilla varmistetaan hallinto yrityksessä, vaihtelevat sen mukaan, kenen kanssa puhut. Mutta ydin tietohallinnossa on tietojen luottamusta ja vastuuvelvollisuutta, ja niissä on mukana kattava tietoturvan parhaita käytäntöjä.

Puhuin Hortonworksin ja MapR: n, kahden markkinoiden suurimman yrityksen Hadoop-myyjän kanssa. Scott Gnau, Hortonworksin teknologiajohtaja, ja Jack Norris, MapR: n tietojen ja sovellusten johtaja, kertoivat kukin, mitä tiedonhallinta tarkoittaa organisaatioilleen. He keskustelivat siitä, miten vastata monimutkaiseen haasteeseen, joka liittyy datan hallinnan varmistamiseen suuren yrityksen monimutkaisissa tietoarkkitehtuureissa ja organisaation hierarkioissa.

Mikä tarkalleen on Tietohallinto ja miksi me sitä tarvitsemme?

Hallinnointi tarkoittaa, että varmistetaan, että yritystiedot valtuutetaan, järjestetään ja sallitaan tietokannassa, jossa on mahdollisimman vähän virheitä säilyttäen samalla yksityisyys ja turvallisuus. Tasapainon löytäminen ei ole helppoa, etenkin kun todellisuus missä ja miten tietoja säilytetään ja käsitellään, on jatkuvasti muuttumassa. MapR: n Norris selitti, miksi yritysten on tarkasteltava tiedonhallintaa korkeammalta tasolta ja keskityttävä suurempiin tietokantoihin.

"Kun aloitat skaalaamasi käsittelemämme suurien tietojen moninaisuuden ja nopeuden, sinulla on oltava datan hallinto, mutta se on tässä laajemmassa yhteydessä. Mitä tietoja sinulla on, kenellä on pääsy siihen ja miten voit hallinnoida kyseisten tietojen perintöä ajan myötä? " sanoi Norris. "Tietohallinnon kannalta sinulla voi olla järjestelmässä olevia tietoja eri vaiheista, jotka voidaan ottaa tilannekuvana, jotta voit palata milloin tahansa valmisteilla olevana ajankohtana. Kyse on rakennuksen auditatiivisuudesta ja pääsyn valvonnasta tietoalustaan, jotta Varmista, että tietojen löytäminen ja analysointi ovat läpinäkyviä riippumatta siitä, oletko yrityspäällikkö tarkastelemassa taloudellisia tietokokonaisuuksia vai tietotieteilijä, joka työskentelee raakaan ylävirtaan kuuluvien tietojen kanssa."

Lähde: Rimes. Napsauta kuvaa nähdäksesi koko kuvan.

Hortonworksin Gnau näppäili vastaavaan kohtaan. Riippumatta siitä, käsitteletkö tietovarastoa tai tietojärvi-arkkitehtuuria, tiedonhallinnassa on kyse vastakkaisten voimien tasapainottamisesta. Kyse on esteettömästä tiedonsaannista innovoinnin vauhdittamiseksi ja näkemysten saamiseksi sekä rakeisista käyttöoikeuksista ja yksityisyydestä samanaikaisen tiedon suojaamiseksi.

"Vertaa ja ristiriidassa perinteisen hallinnan vanhan maailman tietotilassa; se oli hiukan helpompaa", sanoi Gnau. "Tiedot määritettiin aiemmin hyvin työtehtävien tai sovellusten perusteella. Uudessa maailmassa saat eniten hyötyä, kun tietotekijöillä on pääsy mahdollisimman moniin tietoihin ja havaitsemalla, että onnellinen väline on erittäin tärkeä.

"Se ajaa aivan uutta paradigmaa siinä, kuinka sinun on lähestyttävä hallintotapaa", lisäsi Gnau. "Tässä uudessa maailmassa katson hallinto- ja turvallisuuteen liittyviä aiheita, jotka on käsiteltävä yhdessä. Monet yritykset pyrkivät edelleen etenemään läpi, jotta tietoteknikot voivat olla tehokkaita löytämään uusia käyttötapoja samalla kun, ymmärtäminen, kuinka käsitellä turvallisuutta, yksityisyyttä ja hallintaa - kaikki asiat, jotka ovat tärkeitä alhaalta linjalta ja myös yrityksen maineen kannalta ".

Kuinka yritystietojen hallintasuunnitelman on tarkoitus kattaa ja tyydyttää kaikki nämä vastakkainasettelevat voimat? Käsittelemällä kutakin vaatimusta menetelmällisesti, yksi askel kerrallaan.

Kuinka luoda tiedonhallintasuunnitelma

Hortonworks, MapR ja Cloudera ovat Hadoopin tilan kolme suurinta riippumatonta pelaajaa. Yrityksillä on omat vaikutusalueensa tiedonhallinnan suhteen. MapR on julkaissut useita aiheita käsitteleviä valkoisia kirjoja ja rakentanut tiedonhallintaa koko yhtenäistetyssä tietojärjestelmässä, kun taas Hortonworksillä on oma tietoturva- ja hallintoratkaisu ja se perusti vuonna 2015 tiedonhallinta-aloitteen (DGI). Tämä johti avoimeen - hankkia Apache Atlas -hanke, joka tarjoaa avoimen tiedonhallintakehyksen Hadoopille.

Mutta kun kyse on siitä, kuinka kukin myyjä valmistaa kattavia tiedonhallinta- ja tietoturvastrategioita, Gnau ja Norris puhuivat molemmat samalla tavalla. Seuraavat ovat yhdistelmävaiheet, jotka Hortonworks ja MapR suosittelevat yrityksille pitämään mielessä rakennettaessa tiedonhallintasuunnitelmaa.

Suurin: rakeinen tiedon käyttö ja valtuutus

Molemmat yritykset ovat yhtä mieltä siitä, että sinulla ei voi olla tehokasta tiedonhallintaa ilman rakeista valvontaa. MapR saavuttaa tämän ensisijaisesti pääsynhallintalausekkeiden (ACE) avulla. Kuten Norris selitti, ACE: t käyttävät ryhmittelyä ja Boolen logiikkaa hallitsemaan joustavaa tiedonkäyttöä ja valtuutusta rooliperusteisilla oikeuksilla ja näkyvyysasetuksilla.

Hän sanoi ajattelevansa sitä kuin Gartner-mallia. Y-akselin alaosassa on tiukka hallinto ja alhainen ketteryys, ja X-akselin yläosassa on suurempi ketteryys ja vähemmän hallintaa.

"Matalalla tasolla suojaat arkaluontoisia tietoja hämärtämällä niitä. Yläosassa sinulla on luottamuksellisia sopimuksia tietotekijöille ja BI-analyytikoille", Norris sanoi. "Meillä on taipumus tehdä tämä peittämisominaisuuksilla ja erilaisilla näkymillä, joissa lukitset raakatiedot mahdollisimman alhaalta ja annat vähitellen enemmän käyttöoikeuksia, kunnes annat järjestelmänvalvojille yläpäässä laajemman näkyvyyden. Mutta miten annat pääsy oikeille ihmisille?

"Jos tarkastelet kulunvalvontaluetteloa tänään, se sanoo jotain" kaikki tekniikan suunnittelijat voivat käyttää tätä ", " lisäsi Norris. "Mutta jos haluat muutaman valitun johtajan osallistuvan IT-projektin projektiin tai kaikille henkilöille paitsi henkilölle, sinun on luotava erityinen ryhmä. Se on liian monimutkainen ja harkittu tapa tarkastella pääsyä."

Norrisin mukaan siellä tapahtuu käyttöoikeuksien myöntäminen eri tasoille ja ryhmille. "Olemme yhdistäneet ACE: t erilaisilla tavoilla, joilla voit käyttää tietoja - tiedostojen, taulukoiden, streamien jne. Kautta - ja toteuttaneet näkymät ilman erillisiä kopioita tiedoista. Joten tarjoamme näkymiä samoista raakatiedoista ja Viewsista voi olla erilainen käyttöoikeustaso. Tämä antaa sinulle entistä integroidumman suoran suoran."

Hortonworks käsittelee rakeisen pääsyn samalla tavalla. Integroimalla Apache Atlas hallintotapaan ja Apache Rangerin, Gnau sanoi, että yritys käsittelee valtuutukset yritystasolla yhden lasin avulla. Avain, hän sanoi, on kyky antaa asiayhteyteen pääsy tietokantaan ja tiettyihin metatietotunnisteisiin tag-pohjaisten käytäntöjen avulla.

"Kun joku on tietokannassa, kyse on heidän ohjaamisesta niiden tietojen läpi, joihin heillä olisi oltava asianmukainen pääsy", sanoi Gnau. "Rangerin turvallisuuspolitiikka objektitasolla, hienorakeinen ja kaikkialla niiden välillä pystyy käsittelemään sitä. Turvallisuuden sitominen hallintotapaksi asioista tulee todella mielenkiintoisia.

"Suurentaaksesi suurissa organisaatioissa sinun on integroitava nämä roolit hallintotapaan ja metatietojen koodaamiseen", lisäsi Gnau. "Jos kirjaudun sisään Singaporesta, kenties on olemassa erilaisia ​​sääntöjä, jotka perustuvat paikallisiin tietosuojalakeihin tai yritystrategiaan. Kun yritys määrittelee, asettaa ja ymmärtää nämä säännöt kokonaisvaltaisesta ylhäältä alas-näkökulmasta, voit jakaa pääsyn käytön perusteella erityiset sääntöjoukot suorittaessaan kaiken ydinalustan sisällä."

Lähde: IBM Big Data & Analytics Hub. Napsauta kuvaa nähdäksesi koko kuvan.

2. Ympäristön suojaus, tietosuoja ja integroitu todennus

Hallinto ei tapahdu ilman päätepisteiden turvallisuutta. Gnau sanoi, että on tärkeää rakentaa hyvä kehä ja palomuuri datan ympärille, joka integroituu olemassa olevien todennusjärjestelmien ja standardien kanssa. Norris oli yhtä mieltä siitä, että todentamisessa on tärkeää, että yritykset synkronoidaan kokeiltujen järjestelmien kanssa.

"Autentikoinnin yhteydessä kyse on siitä, kuinka integroit LDAP-, Active Directory- ja kolmansien osapuolien hakemistopalveluihin", Norris sanoi. "Tuemme myös Kerberos-käyttäjänimeä ja salasanoja. Tärkeää ei ole luoda kokonaan erillistä infrastruktuuria, vaan se miten integroit olemassa olevaan rakenteeseen ja vipuvaikutusjärjestelmiin kuten Kerberos."

3. Tietojen salaus ja tokenisointi

Seuraava vaihe sen jälkeen, kun olet suojannut kehäsi ja todennut kaikki myöntämäsi rakeisen datan käyttöoikeudet: Varmista, että tiedostot ja henkilökohtaisesti tunnistettavat tiedot (PII) on salattu ja merkitty toisistaan ​​dataputken kautta. Gnau keskusteli siitä, kuinka Hortonworks suojaa henkilötietojen tietoja.

"Kun olet ohittanut kehän ja pääset järjestelmään, PII-tietojen suojaaminen on erittäin tärkeää", sanoi Gnau. "Sinun on salattava ja tunnistettava kyseiset tiedot, jotta he voivat suorittaa tarvittavan analysoinnin riippumatta siitä, kenellä sillä on pääsyä paljastamatta mitään kyseistä henkilökohtaisten tietojen tietoja johdon mukaan."

Mitä tulee salattujen tietojen turvalliseen käyttöön sekä liikkeessä että levossa, MapR: n Norris selitti, että on tärkeää pitää mielessä myös tapaukset, kuten varmuuskopiointi ja katastrofien palautus (DR). Hän keskusteli MapR: n kutsumien loogisten levyjen käsitteestä, jolla voidaan soveltaa hallintotapoja kasvavaan tiedosto- ja hakemistoklusteriin.

"Matalammalla tasolla MapR on suunnitellut DR: n WAN-replikaation ja aikajohdonmukaiset otokset kaikista tiedoista, jotka voidaan asettaa eri taajuuksille hakemiston tai taltion mukaan", Norris sanoi. "Se on laajempaa kuin pelkkä tiedonhallinta. Voit käyttää fyysistä klusteria hakemistoilla, ja sitten looginen tilakonsepti on todella mielenkiintoinen hallintayksikkö ja tapa ryhmitellä asioita samalla, kun hallitaan tietosuojaa ja taajuutta. Se on toinen nuoli IT-järjestelmänvalvojan tiedoissa hallintotapahtuma."

4. Jatkuva tarkastus ja analyysi

Laajempaa hallintotapaa tarkasteltaessa sekä Hortonworks että MapR totesivat, että strategia ei toimi ilman tarkastusta. Tämä prosessin jokaisessa vaiheessa olevan vastuullisuuden ja vastuuvelvollisuuden taso antaa IT: lle tosiasiallisen "hallita" tietoa toisin kuin yksinkertaisesti asettaa politiikkoja ja käyttöoikeuksien hallintaa ja toivoa parasta. Se on myös se, kuinka yritykset voivat pitää strategiansa ajan tasalla ympäristössä, jossa se, miten näemme datan, ja tekniikat, joita käytämme sen hallitsemiseksi ja analysoimiseksi, muuttuvat päivittäin.

"Viimeinen osa nykyaikaista hallintastrategiaa on hakkuut ja seuranta", sanoi Gnau. "Olemme isojen tietojen ja tavaroiden Internetin alkuvaiheessa, ja on kriittistä pystyä seuraamaan tietojen käyttöä ja tunnistamaan kuvioita niin, että kun strategia on päivitettävä, olemme käyrän edessä."

Norris sanoi, että tarkastus ja analysointi voivat olla yhtä yksinkertaisia ​​kuin JSON-tiedostojen seuraaminen. Kaikki tiedot eivät ole seurannan ja analysoinnin arvoisia, mutta yrityksesi ei koskaan tiedä mitä - vasta kun tunnistat pelin muuttuvan käsityksen tai tapahtuu kriisi ja joudut suorittamaan tarkastusketjun.

"Jokainen JSON-lokitiedosto avataan analysointia varten. Meillä on Apache Drill kysymään JSON-tiedostoja malleilla, joten metatietoanalyysin asettaminen ei ole manuaalinen IT-vaihe", Norris sanoi. "Kun sisällytät kaikki tiedonsaantitapahtumat ja kaikki hallinnolliset toimenpiteet, on olemassa laaja valikoima analytiikkaa."

5. Yhtenäinen tietoarkkitehtuuri

Viime kädessä yrityksen datanhallintastrategiaa valvovan teknologiavirkamiehen tai IT-järjestelmänvalvojan tulisi miettiä rakeisen käytön, todentamisen, tietoturvan, salauksen ja auditoinnin yksityiskohtia. Mutta teknologiavastaavan tai IT-järjestelmänvalvojan ei pitäisi pysähtyä siihen; sen sijaan, että henkilö tulisi myös miettiä, miten kukin näistä komponenteista osaa suurempiin tietoarkkitehtuureihinsa. Hänen tulisi myös miettiä, kuinka kyseisen infrastruktuurin on oltava skaalautuvaa ja turvallista - tiedonkeruusta ja tallentamisesta aina BI: hen, analytiikkaan ja kolmansien osapuolien palveluihin saakka. Gnau sanoi, että tiedonhallinnassa on kyse strategian ja toteutuksen uudelleenarvioinnista kuin itse tekniikassa.

" Se ylittää yhden lasin tai turvallisuussääntöjen kokoelman", sanoi Gnau. "Se on yksi arkkitehtuuri, jossa luot nämä roolit ja ne synkronoituvat koko alustan ja kaikkien siihen sisällytettyjen työkalujen välillä. Turvallisesti hallitun infrastruktuurin kauneus on ketteryyttä, jolla uusia menetelmiä luodaan. Kullakin alustustasolla tai jopa hybridi pilviympäristö, sinulla on yksi viitekohta ymmärtää, kuinka olet pannut täytäntöön säännöt. Kaikki tiedot kulkevat tämän tietoturva- ja hallintotason läpi."

Big data-perusteet: kuinka rakentaa tiedonhallintasuunnitelma