Koti Etukäteen ajattelu Oracle, nvidia, arm ottavat valokeilaan kuumien sirujen kohdalla

Oracle, nvidia, arm ottavat valokeilaan kuumien sirujen kohdalla

2024

Video: What’s Jensen been cooking? (Marraskuu 2024)

Vaikka suuri osa sirujen jännityksestä tuli viime viikolla Intelin Broadwell-ilmoituksesta, vuosittaisessa Hot Chips -konferenssissa keskusteltiin yksityiskohtaisesti useista muista siruista, joissa on keskitytty lähinnä palvelimille ja tietokeskuksiin suunniteltuihin siruihin.

Show tunnetaan huippuluokan siruista. Intel, Oracle ja IBM keskustelivat viimeisimmistä ilmoituksistaan, mutta vain Oraclen Sparc M7 oli todella uusi. Sen sijaan suuri osa näyttelystä päätyi keskittymään ARM-pohjaisiin tuotteisiin, mukaan lukien ensimmäiset tiedot Nvidian tulevasta Tegra K1 -prosessorin 64-bittisestä "Denver" -versiosta

Oraclen, Intelin ja IBM: n tavoite on korkea palvelinpiireillä

Huippuluokan siruista vaikuttavin uutinen tuli Oraclelta, joka keskusteli SPARC-prosessorinsa seuraavasta sukupolvesta, M7: stä. Tässä sirussa on 32 S4 SPARC-ydintä (jokaisessa jopa kahdeksan dynaamista säiettä), 64 Mt L3-välimuistia, kahdeksan DDR4-muistiohjainta (enintään 2 Tt prosessoria kohti ja 160 Gt / s muistin kaistanleveys DDR4-2133: lla) ja kahdeksan data-analyyttistä kiihdytinä siruverkko.

Siru on jaettu kahdeksaan klusteriin, joissa on neljä ydintä, joissa molemmissa on jaettu L2-välimuisti ja osioitu 8 Mt L3-välimuistia, jonka kaistanleveys on yli 192 Gt / s ydin klusterin ja sen paikallisen L3-välimuistin välillä. Verrattuna M6: een (28 nm: n siru 12, 6 GHz: n SPARC S3 -ytimellä), M7 tarjoaa 3-3, 5 kertaa paremman suorituskyvyn muistin kaistanleveydellä, kokonaisluvulla, OLTP, Java, ERP-järjestelmillä ja liukulukuilla. Oraclen SPARC-arkkitehtuurin vanhempi johtaja Stephen Phillips kertoi, että tavoitteena oli suorituskyvyn lisääminen vaiheittain funktiona, ei asteittaisina voittoina.

M7 voi skaalata 8 liitäntättömään pistorasiaan (jopa 256 ydintä, 2 000 säiettä ja 16 Tt muistia) ja ASIC-kytkimellä hallita niiden välistä liikennettä SMP-kokoonpanossa, jopa 32 prosessoria, joten voit päätyä järjestelmällä, jossa on 1 024 ydintä, 8 192 säiettä ja jopa 64 kt muistia. Melko vaikuttava. Oracle kertoi tarjoavansa 3 - 3, 5 kertaa paremman suorituskyvyn erilaisissa testeissä verrattuna viime vuoden SPARC M6: iin. Yrityksen mukaan tämä optimoidaan Oraclen omaan ohjelmistopinoon, jota valmistetaan 20 nm prosessilla ja joka on saatavana järjestelmiin joskus ensi vuonna.

IBM antoi myös lisätietoja Power8-linjastaan, jonka se ilmoitti viime vuoden näyttelyssä. Tuolla sirun versiolla oli 12 ydintä, joissa jokaisessa oli jopa kahdeksan säiettä, joissa 512 kt SRAM-tason 2 välimuistia ydintä kohti (6 Mt L2) ja 96 Mt jaettua upotettua DRAMia tason 3 välimuistina. Tämä valtava siru, jonka koko on 650 neliömetriä 4, 2 miljardilla transistorilla, valmistetaan IBM: n 22 nm: n SOI-prosessilla ja aloitti toimituksen kesäkuussa IBM: n mukaan.

Muutama kuukausi sitten IBM julkisti kuuden ytimen version, jonka koko on 362 mm ². Tämän vuoden puhe oli siitä, kuinka IBM voi yhdistää kaksi kuuden ytimen versiota yhdeksi paketiksi 48 kaistaisella PCIe Gen 3: lla. IBM sanoi, että kahden kantaman versio, jossa on yhteensä 24 ydintä ja 192 säiettä, ylittää kahden prosessorin. Xeon Ivy Bridge -palvelin, jossa on 24 ydintä (48 säiettä). IBM myy virtaa pääosin korkean suorituskyvyn ja erikoistuneilla markkinoilla, joten useimmat ihmiset eivät vertaa näitä kahta, mutta se on mielenkiintoista. Pyrkiessään tekemään Power-arkkitehtuurista valtavirtaistampaa, IBM ilmoitti viime vuonna Open Power Consortium -yrityksestä, ja tänä vuonna yritys kertoi, että sillä on täysi avoimen lähdekoodin ohjelmistopaketti alustalle. Mutta toistaiseksi kukaan muu kuin IBM ei ole ilmoittanut alustaan perustuvasta palvelimesta.

Intel puhui "Ivytownista", Ivy Bridgen palvelinversiosta, joka sisältää vuosi sitten esitellyn Xeon E5: n ja helmikuussa esitellyn Xeon E7: n versiot. Tämän vuoden puhe keskittyi siihen, kuinka Intelillä on nyt periaatteessa yksi arkkitehtuuri, joka voi kattaa molemmat markkinat, siruilla, jotka sallivat jopa 15 ytimen, kahdella DDR3-muistin ohjaimella, kolmella QPI-linkillä ja 40 PCI Gen 3 -kaistalla, joka on järjestetty modulaariseen kerrokseen suunnitelma, joka voidaan muuttaa kolmesta erilaisesta muotista, joista kukin on suunniteltu eri pistorasioille, yhteensä yli 75 varianttia. Tätä voidaan käyttää kahden, neljän ja kahdeksan pistorasian palvelimissa ilman erityisiä yhdysliitoksia.

Nämä sirut tietysti muodostavat suurimman osan palvelinostoista nykyään, koska Intel vastaa suurimmasta osasta palvelinyksiköitä. Mutta suuri osa tiedoista on aiemmin käsitelty ISSCC: ssä, ja Intelin odotetaan laajasti esittelevän seuraavan E5-tuoteperheen version (E5-1600v3 ja E5-2600 v3) hyvin pian, joka perustuu päivitettyyn versioon, joka käyttää varianttia Haswell-arkkitehtuuri nimeltään Haswell-EP. (Viime viikolla Dell ilmoitti uusista työasemista, jotka perustuvat näihin uusiin siruihin.)

Intel keskusteli myös Atotoni C2000: stä, joka tunnetaan nimellä Avoton, joka tuli tuotantoon vuoden 2013 lopulla. Tämä siru sekä Ivy Bridge ja Haswell-sirut perustuvat kaikki Intelin 22nm: n prosessiin.

Nvidia, AMD, soveltaa mikrotavoitetta uusille markkinoille ARM: lle

Suurin yllätys näyttelystä oli todennäköisesti keskittyminen ARM-pohjaiseen tekniikkaan, mukaan lukien ARM-kaiuttimien avainsanat ja Nvidian yksityiskohdat tulevasta "Denver" -versiosta Tegra K1 -prosessoriin.

ARM CTO Mike Muller keskusteli avaintoiminnossa virranrajoituksista kaikissa antureista palvelimiin ja keskittyi siihen, kuinka ARM yritti laajentua yritykseksi. Muller lisäsi myös käsitettä käyttää ARM-anturisiruja esineiden internetiin. Aihe, joka toistettiin myös Qualcommin Rob Chandhokin avaintoiminnossa. Mutta kumpikaan yritys ei ilmoittanut uusista ytimistä tai prosessoreista.

Sen sijaan kyseisen rintaman uutisia tuli Nvidialta, joka antoi paljon lisätietoja K1-prosessorin uudesta versiosta. Kun yrityksen Denver-projekti julkistettiin ensimmäisen kerran, kuulosti siltä, että tämä siru oli suunnattu korkean suorituskyvyn tietotekniikkamarkkinoille, mutta nyt näyttää siltä, että yritys on keskittynyt enemmän tablettien ja automarkkinoiden kaltaisiin asioihin. Tegra K1 tulee kahtena versiona. Ensimmäisessä, joka julkistettiin aiemmin tänä vuonna ja joka lähetetään nyt yhtiön Shield-tabletissa, on neljä 32-bittistä ARM Cortex-A15 -ydintä sekä pienitehoinen "kumppanisydän" 4 + 1-kokoonpanossa, jonka Nvidia on tuonut mukanaan sen Tegra-linja useita vuosia.

Denver-versio on aivan erilainen kahdella uudella patentoidulla 64-bittisellä ytimellä, jotka Nvidia on suunnitellut, ja yritys todella mainostaa saamansa suorituskyvyn lisäykset. Ydin on seitsemänsuuntainen superskaalaari (tarkoittaen, että se voi suorittaa jopa seitsemän mikro-op-operaatiota samanaikaisesti), ja siinä on 128 kt: n nelisuuntainen L1-käskyvälimuisti ja 64 kt: n nelisuuntainen L1-välimuisti. Siru yhdistää kaksi näistä ytimistä yhdessä 2 Mt: n tason 2 välimuistin kanssa, joka palvelee molempia ytimiä, 192 "CUDA-ytimenä" (grafiikan ytimenä), jonka se jakaa 32-bittisen K1: n kanssa. Sellaisena se edustaa suurta poikkeamista 4 + 1 -arkkitehtuurista.

Yksi iso muutos sisältää sen, mitä Nvidia kutsuu "dynaamiseksi koodin optimoimiseksi", jonka tarkoituksena on ottaa usein käytetty ARM-koodi ja muuntaa se mikrokoodiksi, joka on erityisesti optimoitu prosessoria varten. Tämä on tallennettu 128 Mt välimuistiin (veistetty perinteisestä järjestelmän päämuistista). Tavoitteena on antaa sille suoritus tilausten ulkopuolella ilman, että tarvitaan niin paljon virtaa kuin kyseinen tekniikka yleensä käyttää. Konsepti ei ole uusi - Transmeta kokeili sitä vuosia sitten Crusoe-sirullaan - mutta Nvidian mukaan tämä toimii nyt huomattavasti paremmin.

Nvidia esitti useita vertailuarvoja, joissa se väitti, että uusi siru voi saavuttaa huomattavasti paremman suorituskyvyn kuin nykyiset neljän tai kahdeksan ytimen matkapuhelimet - viitaten erityisesti Qualcommin Snapdragon 800: een (MSM8974), Apple A7: een (jota joskus kutsutaan myös sykloniksi), jota käytetään iPhonessa 5s - ja jopa jotkut valtavirran PC-prosessorit. Nvidian mukaan se ylitti Atom (Bay Trail) -prosessorin ja oli samanlainen kuin Intelin 1, 4 GHz: n kaksoisydin Celeron (Haswell) -prosessori. Tietysti olen taipuvainen ottamaan myyjien suorituslukuja suolajyvällä: myyjien valinta ei ole vain vertailuarvojen valinta, ei ole ollenkaan selvää, että puhumme samoista kellonopeuksista tai samasta virrankulutuksesta.

Samaan aikaan enemmän palvelimille tarkoitettuihin siruihin AMD puhui enemmän Opteron A1100: staan, joka tunnetaan nimellä "Seattle", yrityksen kanssa sanoen, että se on tällä hetkellä otannassa ja sen pitäisi olla saatavana palvelimilla tämän vuoden lopulla. Tässä sirussa on kahdeksan 64-bittistä Cortex A57 -suorittimen ydintä; 4MB L2-välimuistia ja 8MB L3-välimuistia; kaksi muistikanavaa jopa 128 Gt DDR3- tai DDR4-muistiin virheenkorjauksella; paljon integroituja I / O (8 kaistaa PCIe Gen3 ja 6 Gbps SATA ja kaksi 10 Gbps Ethernet porttia); Cortex A5 "järjestelmäohjausprosessori" turvallista käynnistystä varten; ja kiihdyttimen salauksen ja salauksen purkamisen nopeuttamiseksi. Se valmistetaan GlobalFoundriesin 28 nm prosessilla. AMD ei ole vielä antanut yksityiskohtia sirun taajuudesta, tehosta tai suorituskyvystä, mutta osoitti sirun peruskaavion. (edellä)

Applied Micro on jo kauan väittänyt olevansa markkinoilla ensimmäinen ARM-palvelinsiru, jonka X-Gene 1 (tunnetaan nimellä Storm) sisältää 8 2, 4 GHz: n omistamia ARMv8-ytimiä, neljä DDR3-muistiohjainta, PCIe Gen3 ja 6Gbps SATA sekä 10 Gbps Ethernet.. Tämä on tällä hetkellä tuotannossa TSMC: n 40 nm prosessissa, yritys sanoo.

Hot Chips -sovelluksessa Applied Micro työnsi X-Gene 2 (Shadowcat) -mallinsa, jota on saatavana kahdeksalla tai 16 "parannetulla" ytimellä, jotka toimivat nopeudella 2, 4–2, 8 GHz, ja lisää RoCE (RDMA yli Converged Ethernet) -isäntä Kanavasovitin yhdistelmänä, joka on suunniteltu mahdollistamaan pienviiveiset yhteydet mikropalvelimien klusterien kesken. Tämä on suunniteltu käytettäväksi klustereissa, joissa yksi palvelinteline tukee jopa 6 480 säiettä ja 50 Tt muistia, jotka kaikki jakavat yhden säilytysvarannon. Yrityksen mukaan X-Gene 2 tarjoaa noin 60 prosenttia paremman kokonaisluvun suorituskyvyn, kaksinkertaisen suorituskyvyn Memcachessa ja noin 25 prosenttia paremman Apache Web -palvelun. Se on valmistettu 28 nm: n prosessilla, ja tällä hetkellä otetaan näytteitä.

Applied Micro sanoo, että X-Gene 2 täyttää aukon kilpailevien mikropalvelimien (Cavium ThunderX, Intel Atom C2000 "Avoton" ja AMD Opteron A1100 "Seattle") ja täysikokoisten Xeon-palvelimien välillä. Se antoi joitain yksityiskohtia seuraavasta sukupolvesta, X-Gene 3 (Skylark), joka on suunniteltu aloittamaan näytteenotto ensi vuonna. Tässä sirussa on 16 ARMv8-ydintä, jotka toimivat jopa 3 GHz: n taajuudella, ja se valmistetaan käyttämällä 16 nm: n FinFet-tekniikkaa.