Video: Diving into the TPU v2 and v3 (Marraskuu 2024)
Muutaman viime viikon aikana on esitelty useita tärkeitä uusia tietokonealustoja, jotka on erityisesti suunniteltu työskentelemään syvissä hermostoverkoissa koneoppimiseen, mukaan lukien Googlen uudet "pilvi-TPU: t" ja Nvidian uusi Volta-suunnittelu.
Minulle tämä on mielenkiintoisin trendi tietokonearkkitehtuurissa - jopa enemmän kuin AMD ja nyt Intel esittelee 16- ja 18-ytimisiä CPU: ita. Tietenkin on myös muita vaihtoehtoisia lähestymistapoja, mutta Nvidia ja Google saavat ansaitsevasti paljon huomiota ainutlaatuisiin lähestymistapoihinsa.
Google I / O: lla näin, että se esittelee "pilvi-TPU" (Tensor Processing Unit -sovellukselle, mikä osoittaa, että se on optimoitu Googlen TensorFlow-koneoppimisjärjestelmään). Edellisen sukupolven TPU, joka esiteltiin viime vuoden näyttelyssä, on ASIC, joka on suunniteltu pääasiassa neuvotteluihin - koneoppimistoimintojen suorittamiseen -, mutta uusi versio on tarkoitettu tällaisten algoritmien neuvomiseen ja koulutukseen.
Äskettäisessä lehdessä Google antoi lisätietoja alkuperäisestä TPU: sta, jonka se kuvasi sisältävän matriisin, jossa on 256 x 256 moninkertaisesti keräävää (MAC) yksikköä (yhteensä 65 536) ja jonka huipputeho on 92 teraopia (triljoonaa operaatiota per toinen). Se saa ohjeet isäntäprosessorilta PCIe Gen 3 -väylän kautta. Googlen mukaan tämä oli 28 nm: n muotti, joka oli alle puolet Intel Haswell Xeon 22 nm: n prosessorin koosta, ja että se ylitti prosessorin ja Nvidian 28 nm: n K80-prosessorin.
Uusi versio, nimeltään TPU 2.0 tai cloud TPU (nähty yllä), sisältää oikeastaan neljä prosessoria taululla, ja Google sanoi, että jokainen kortti pystyy saavuttamaan 180 teraflopsia (180 biljoonaa liukulukulaskutoimitusta sekunnissa). Yhtä tärkeätä on, että levyt on suunniteltu toimimaan yhdessä, käyttämällä mukautettua nopeaa verkkoa, joten ne toimivat yhtenä koneoppimisena superlaskennana, jota Google kutsuu "TPU-podiksi".
Tämä TPU-pod sisältää 64 toisen sukupolven TPU: ta ja tarjoaa jopa 11, 5 petaflopsia nopeuttamaan yhden suuren koneoppimallin koulutusta. Konferenssissa Googlen AI-tutkimusta johtava Fei Fei Li kertoi, että vaikka yksi yrityksen laajoista käännösoppimismalleista vie koko päivän kouluttaa 32 parasta kaupallisesti saatavana olevaa GPU: ta, se voi nyt olla koulutus sama tarkkuus iltapäivällä käyttämällä kahdeksasosa TPU-podia. Se on iso hyppy.
Ymmärrä, että nämä eivät ole pieniä järjestelmiä - Pod näyttää olevan noin neljän normaalin laskentatelineen kokoinen.
Ja jokaisella yksittäisellä prosessorilla näyttää olevan erittäin suuret jäähdytyselementit, mikä tarkoittaa, että levyjä ei voi pinota liian tiukasti. Google ei ole vielä antanut paljon yksityiskohtia siitä, mikä on muuttunut prosessorien tai yhdysliitännien tässä versiossa, mutta on todennäköistä, että tämäkin perustuu 8-bittisiin MAC-laitteisiin.
Viikko aiemmin Nvidia esitteli uusimman kategoriansa, massiivisen sirun, joka tunnetaan nimellä Telsa V100 Volta, jota se kuvasi ensimmäisenä prosessorina tällä uudella Volta-arkkitehtuurilla, joka on suunniteltu huippuluokan GPU-laitteille.
Nvidian mukaan uusi siru kykenee 120 TensorFlow-terafloppia (tai 15 32-bittistä TFLOPS tai 7, 5 64-bittistä.) Tämä käyttää uutta arkkitehtuuria, joka sisältää 80 suoratoistoprosessoria (SM), joista kukin sisältää kahdeksan uutta "Tensor-ydintä". ja on 4x4x4-taulukko, joka pystyy suorittamaan 64 FMA (Fused Multiply-Add) -operaatiota per kello. Nvidia kertoi tarjoavansa sirun DGX-1V-työasemissaan 8 V100 -levyllä kolmannella vuosineljänneksellä seuraten yrityksen aikaisempaa DGX-1: tä, joka käytti aikaisempaa P100-arkkitehtuuria.
Yhtiö sanoi, että tämän 149 000 dollarin laatikon tulisi tuottaa 960 teraflops harjoituksen suorituskykyä 3200 wattia käyttämällä. Myöhemmin, ensimmäinen sanoi, se lähettää henkilökohtaisen DGX-aseman neljällä V100: lla, ja viimeisellä neljänneksellä se sanoi suurten palvelimien toimittajien lähettävän V100-palvelimia.
Tämä siru ilmoitettiin ensimmäisenä käyttävän TSMC: n 12 nm prosessoria, ja se on valtava siru, jossa on 21, 1 miljardia transistoria 815 neliömetrin muotissa. Nvidia mainitsi sekä Microsoftin että Amazonin sirun varhaisina asiakkaina.
Huomaa, että näiden lähestymistapojen välillä on suuria eroja. Google TPU: t ovat todella räätälöityjä siruja, jotka on suunniteltu TensorFlow-sovelluksille, kun taas Nvidia V100 on hiukan yleisempi siru, joka pystyy käyttämään erilaisia matemaattisia sovelluksia muihin sovelluksiin.
Samaan aikaan muut suuret pilvipalveluntarjoajat etsivät vaihtoehtoja, sillä Microsoft käyttää sekä GPU: ta koulutukseen että kenttäohjelmoitavia porttiryhmiä (FPGA) neuvotteluihin ja tarjoaa molemmat asiakkaille. Amazon Web Services antaa nyt sekä GPU- että FPGA-ilmentymät kehittäjien saataville. Ja Intel on ajautunut FPGA-laitteita ja joukko muita tekniikoita. Samaan aikaan joukko uusia aloittavia yrityksiä työskentelee vaihtoehtoisten lähestymistapojen parissa.
Tämä on tietyllä tavalla dramaattisin muutos, jonka olemme nähneet työasemien ja palvelinten prosessoreissa vuosien varrella, ainakin siitä lähtien, kun kehittäjät aloittivat "GPU compute" -sovelluksen käytön useita vuosia sitten. On kiehtovaa nähdä miten tämä kehittyy.