Video: 43. Koneoppiminen: Logistinen Regressio - teoria (Marraskuu 2024)
Nykyään kuumin aihe laskennassa on koneoppiminen, ja se on varmasti nähtävissä laitteistopuolella. Viime viikkoina olemme kuulleet paljon uusista siruista, jotka on suunniteltu syvälliseen oppimiseen, Nvidian Tesla P100: sta ja Drive PX 2: sta Googlen Tensor-prosessointiyksiköihin Intelin Xeon Phi -laitteisiin. Joten ei ole yllättävää, että viime viikolla järjestetyssä Hot Chips -konferenssissa kuulimme useilta eri yrityksiltä, joilla oli joitain hyvin erilaisia lähestymistapoja suunnitteluun, joka on räätälöity koneoppimiseen ja visioiden käsittelyyn.
Ehkä suurin uutinen oli Nvidian yksityiskohtaisempi kuvaus Parker-sirusta, jota käytettiin Drive PX 2 -moduulissa itse ajaviin autoihin ja jonka tavoitteena oli syventävä oppiminen itsenäisille koneille. Tämä siru käyttää kahta räätälöityä ARM-yhteensopivaa Denver-CPU-ydintä, neljä ARM Cortex-A57 -ydintä ja 256 mitä Nvidia käsittelee Pascal CUDA (grafiikka) -ytimissä.
Nvidia kertoi, että tämä oli ensimmäinen autojen käyttöön suunniteltu ja mitoitettu siru, jolla on erityiset joustavuusominaisuudet, ja puhui nopeammasta nopeudesta ja muistista. Huomautettakoon, että Denver-ydin parantaa huomattavasti suorituskykyä watteja kohti. Uusien ominaisuuksien joukossa on laitteistoavusteinen virtualisointi, jopa 8 VMS-järjestelmää, joka mahdollistaa autoominaisuuksien integroinnin, jotka perinteisesti tehdään erillisissä tietokoneissa. Kaiken kaikkiaan yrityksen mukaan Drive PX 2 -mallissa voi olla kaksi näistä Parker-siruista ja kaksi erillistä GPU: ta, ja niiden kokonaissuorituskyky on 8 teraflopsia (kaksinkertainen tarkkuus) tai 24 syvän oppimisen operaatiota (8-bittinen tai puolitarkka.) Yhtiö sisälsi vertailuarvoja, joissa vertailtiin sitä suotuisasti nykyiseen mobiilikäsittelyyn SpecInt_2000: lla, joka on suhteellisen vanha vertailuindeksi. Suorituskyky näyttää kuitenkin vaikuttavalta, ja Volvo on äskettäin ilmoittanut käyttävänsä sitä autonomisten ajoneuvojen testaamiseen ensi vuonna.
Tietenkin on monia muita lähestymistapoja.
Kiinalainen käynnistys DeePhi keskusteli FPGA-pohjaisesta alustasta hermoverkoille, ja siinä on kaksi erilaista arkkitehtuuria riippuen käytettävästä verkosta. Aristoteles on suunniteltu suhteellisen pienille konvoluutiohermoverkoille ja perustuu Xilinx Zynq 7000: een, kun taas Descartes on suunniteltu suurempiin toistuviin hermoverkkoihin, jotka käyttävät pitkäaikaista lyhytaikaista muistia (RNN-LSTM) ja perustuvat Kintex Ultrascale FPGA: hon. DeePhi väittää, että sen kääntäjä ja arkkitehtuuri lyhentävät kehitysaikaa verrattuna useimpiin FPGA-sovellusten käyttökohteisiin ja että myös FPGA: n käyttö voi tuottaa paremman suorituskyvyn kuin Nvidian Tegra K1- ja K40-ratkaisut.
Toinen lähestymistapa on käyttää digitaalista signaaliprosessoria tai DSP: tä, joka tyypillisesti suorittaa tietyn toiminnon tai pienen funktiojoukon erittäin nopeasti, käyttäen hyvin vähän energiaa. Usein nämä upotetaan muihin, monimutkaisempiin siruihin tiettyjen toimintojen, kuten visioiden käsittelyn, nopeuttamiseksi. Useat yritykset, kuten Movidius, CEVA ja Cadence, jakoivat ratkaisunsa Hot Chipsissä.
Movidius näytti DSP-pohjaista ratkaisuaan, joka tunnetaan nimellä Myriad 2 -näkymänkäsittely-yksikkö, ja oli se esillä DJI Phantom 4 -dronissa. Se osoitti myös, kuinka Myriad 2 ylittää GPU: n ja GoogLeNet-syvän hermoverkon, jota käytettiin vuoden 2014 ImageNet-kilpailussa.
CEVA mainostaa CEVA-XM4 Vision DSP -sovellustaan, joka on erityisesti viritetty kuvankäsittelyyn ja suunnattu automarkkinoille, yhdessä CEVA Deep Neural Network 2 -alustan kanssa, jonka mukaan se voisi ottaa kaiken, joka on kirjoitettu Caffe- tai TensorFlow-kehyksille, ja optimoida sen toiminnan sen DSP: llä. Uuden prosessorin pitäisi olla SoCs: ssä ensi vuonna.
Samaan aikaan Cadence, joka tekee Tensilica-visioprosessorien perheestä (joka voidaan upottaa muihin tuotteisiin), keskusteli uusimmasta versiosta, Vision P6: sta, joka on lisännyt uusia ominaisuuksia, kuten vektori liukulukujen tuki ja muut ominaisuudet konvoluutiohermostoon.. Ensimmäisten tuotteiden pitäisi olla pian myynnissä.
Microsoft puhui HoloLens-kuulokemikrofoninsa yksityiskohdista sanomalla, että se käytti 14 nm: n Intel Atom Cherry Trail -prosessoria, joka käyttää Windows 10: tä, ja räätälöityä Holografinen prosessointiyksikkö (HPU 1.0) -anturikeskintä, jonka TSMC on valmistanut 28 nm prosessilla. Tämä sisältää 24 Tensilica DSP -ydintä.
Minua otti erityisesti yksi Cadence-dioista, joka osoitti GPU: n, FPGA: n ja erityyppisten DSP: ien suorituskyvyn ja tehokkuuden eroja kertolaskutoimintojen suhteen, joka on yksi hermoverkkojen avaintekijöistä. Vaikka ilmeisesti itsepalveluna toimivat (kuten kaikki myyjän esitykset ovat), se huomautti, kuinka eri tekniikat vaihtelevat nopeuden ja tehokkuuden suhteen (suorituskyky wattia kohti), kustannuksista ja ohjelmoinnin helppoudesta puhumattakaan. Erilaisille lähestymistavoille on täällä paljon ratkaisuja, ja on mielenkiintoista nähdä kuinka tämä kehittyy seuraavien vuosien aikana.