Envoyer le message
Contactez nous
LEO

Numéro de téléphone : 13486085502

Une semaine énorme pour le bras – dans Data Center aussi

June 29, 2020

C'a été une semaine énorme pour le bras, et non seulement parce qu'Apple a annoncé le début du passage des processeurs d'Intel x86 à ses propres puces basées sur bras dans des ses ordinateurs de Mac. L'organisation sans but lucratif Top500 de rang d'ordinateur à haut rendement également a annoncé cette semaine que pour la première fois dans l'histoire, l'ordinateur géant le plus rapide du monde est actionné par des puces de bras.

Ajoutez deux développements plus grands pour le bras au centre de traitement des données annoncé cette semaine. Comme vous savez probablement à ce jour, la course pour produire le refroidisseur, des serveurs plus efficaces a pris un tour à partir de la loi de Gordon Moore de co-fondateur d'Intel et vers le rêve de Sophie Wilson. L'ampère basé sur Clara de Santa calculant, le démarrage de puce de serveur de bras constitué par le Président Renee James d'ex-Intel qui juste a en mars lancé sa unité centrale de traitement de bras d'Altra de 80 noyaux, a annoncé que l'échantillonnage d'un processeur maximum d'Altra de 128 noyaux commencera dans le quatrième trimestre. Concentré carrément sur des fournisseurs de nuage de hyperscale, l'ampère a conçu la pièce pour concurrencer le platine 8160 (liste suggérée par $9 899) de Xeon d'Intel et l'Epyc 7742 ($6 950) d'AMD sur la représentation.

En outre cette semaine, Cambridge, entreprise dont le siège est en Grande-Bretagne connue jusqu'à l'année dernière comme Kaleao et réorganisée en décembre dernier en tant que systèmes en bambou, a indiqué qu'il libérerait son premier serveur du bras 1U, la série de B1000N, dans le troisième trimestre. Le serveur est conçu pour les environnements de basse puissance, tels que des centres de traitement des données de bord.

Soudainement le chef de représentation

La « émergence » de l'architecture de processeur de bras aux centres de traitement des données par notre propre compte a lieu déjà bien dans sa cinquième année. Tellement au sujet de l'architecture et de la construction des centres de traitement des données modernes a directement ou indirectement dérivé de l'architecture du processeur x86 a créé à l'origine pour des PCs. Mais l'évolution du bras dans cet espace a été lente mais régulière.

La représentation du nouveau 128 noyau de l'ampère Altra maximum vise pour le territoire d'ordinateur géant. Là, platine de Xeon d'Intel 8160 puissances neuf systèmes dans le plus défunt Top500.

« À un haut niveau, nous fournissons tellement plus de représentation qu'Intel est sur une base par-unité centrale de traitement, » Jeff Wittich, le VP supérieur de l'ampère pour des produits, a dit. Les nombres crus ne sont pas encore, mais Wittich réclame le gain de la représentation 2.2x contre les processeurs x86 semblables, et la puce d'Intel de l'ampère du choix pour comparer sa nouvelle partie contre a été les 8160.

Altra maximum sera prise-compatible avec 80 le noyau Altra, qui a réclamé le compte de noyau de bras le plus élevé. Wittich a affirmé que le processeur de 128 noyaux maintiendra l'évolutivité linéaire, signifiant que le représentation-par-noyau ne chutera pas graduellement en tant qu'augmentations de compte de noyau.

Calcul d'ampèrebras chip.jpg d'altra d'ampère

Si sa réclamation juge vrai, qui serait un développement bienvenu depuis mai 2019. Dans une étude a édité que le mois [pdf], une université d'équipe de Bristol a comparé la performance de ce qui était alors le premier ordinateur géant basé sur bras, un scout de Cray XC50 que le système a doublé Isambard et actionne par des processeurs de bras de Marvell ThunderX2, contre des machines de Cray aux caractéristiques semblables, y compris une construites sur le platine de Xeon de 28 noyaux 8176 processeurs.

L'équipe de Bristol a constaté que la puce de Marvell a souffert de mesurer la descente d'efficacité, particulièrement après un compte de noeud de 16. À 64 noeuds de serveur, le mesurage de l'efficacité pour le processeur basé sur bras s'est laissé tomber en-dessous de 80 pour cent, alors que les puces d'Intel restaient tout au-dessus de 100 pour cent.

Les essais de l'ampère en revanche ne sont basés sur des comptes de noyau et de fil, pas comptes de noeud. Toujours, si quel Wittich a dit prouvait vrai, il signifierait que qui arment les ingénieurs de processeur ont surmonté un problème sérieux qui pourrait avoir rendu leurs produits non-compétitifs dans l'espace de l'HPC.

« Notre foyer a été nuage, ainsi nous optimisons tout pour notre environnement de nuage, » Wittich a dit la DCK. « Mais les beaucoup de les choses que nous faisons là s'appliqueraient également à un ordinateur géant fortement extensible. Ainsi nous verrons l'intérêt là à coup sûr. Il n'y a rien qui l'exclut. »

L'ampère vise à apporter Altra maximum dans la production de masse générale d'ici mi-2021.

Panda de discrétion

« Beaucoup de sociétés là mettent déjà des processeurs de bras dans leurs serveurs. HPE, Supermicro, Lenovo ont tout obtenu, » Tony Craythorne, Président des systèmes en bambou, a remarqué. « Mais tout qu'ils ont fait est littéralement branché une puce de bras à l'architecture x86. Cela peut te donner certains des avantages du bras — il réduira la puissance et le refroidissement — mais il ne te donnera pas les avantages l'uns des du traitement, de l'entrée-sortie, et de la capacité de sortie, où le bras a un avantage massif. »

Son point était que le bambou présentait pas simplement un serveur avec Intel ou un processeur d'AMD substitué avec le bras, mais une architecture complètement nouvelle établi autour de ce style de processeur. Montrant une partie de l'effort avec lequel son nom a été ouvré, il appelle lui architecture conçue par noeud parallèle de bras, ou le PANDA.

« Notre produit aujourd'hui peut sauver un client jusqu'à 50 pour cent de leurs frais d'acquisition à un minimum (et à lui pourrait aller encore plus haut), 75 pour cent de leur consommation d'énergie, et environ 80 pour cent de leur espace de support dû à la densité que nous pouvons entrer dans un facteur de forme très petit, » Craythorne a dit la DCK.

Bien que l'architecture en bambou soit conçue pour ce qu'il a appelé évolutivité de « mini-ordinateur géant », au moins à cette partie mesurant des débuts du bas de gamme. Chaque noeud en bambou de serveur peut contenir un ou deux lames, avec chaque lame contenant quatre unités de traitement complètes. Une boîte 1U contient huit serveurs de Linux, chacun avec de la mémoire consacrée et stockage. Plans en bambou pour fabriquer un produit 4U dans le courant de l'année.

Une « partie de la raison nous la lançons comme 1U [est] que nous comprenons que cette technologie est nouvelle, » Craythorne a dit. « Tout le monde a un système de legs d'Intel. Personne allant juste jeter cela et aller dépenser $150-200,000 sur un système 4U. Ils peuvent vouloir l'essayer juste. Ils veulent quelque chose il est facile acheter que, facile à se vendre, bon marché pour essayer, ainsi ils peuvent alors voir si elle va fonctionner pour eux. »

Par « coût bas » Craythorne a voulu dire $9 995. Tandis qu'un serveur 1U x86 de basse puissance typique peut se vendre pour au-dessous de $1 500, chacun « noeud » peut seulement contenir une unité centrale de traitement simple de quadruple-noyau. Le Président en bambou nous a indiqué que son équipe avait l'habitude le coût total d'AWS de la calculatrice de propriété pour estimer le coût de trois ans d'actionner un support de huit serveurs de 2U Dell PowerEdge R740XD se montant à 16kW de capacité. L'évaluation de trois ans de TCO d'AWS était approximativement $560 000.

Bien que le bambou ait soutenir encore un vrai essai de trois ans, la société réclame un support pareillement de exécution des serveurs de B1008N encourrait environ $200 000 au cours de la même période.

Il y a peu d'études de TCO pour les serveurs de bras avec lesquels pour comparer les projections du bambou. Une analyse 2014 de la première cartouche 64-bit du serveur ARMv8 de Hewlett-Packard (maintenant HPE), le ProLiant M400, par l'analyste Patrick Moorhead [pdf] a pu avoir créé au moins un certain précédent. Bien que le M400 ait été une « cartouche » plutôt qu'un 1U, une fois utilisé dans un scénario de web server, Moorhead a projeté que TCO de trois ans du M400 serait 35 pour cent inférieur à TCO d'un serveur pareillement de exécution de 1U x86. La recherche de Moorhead a inclus l'entrée des laboratoires nationaux de Sandia.

Craythorne a affirmé qu'un B1008N pourrait sauver des clients jusqu'à 50 pour cent dans des frais d'acquisition, au moins 75 pour cent dans la consommation d'énergie, et 80 pour cent de l'espace de support à cause d'une densité plus élevée de serveur. Bien qu'il ait dit sa société avait effectué l'essai interne et les graphiques produits pour indiquer ces essais ont impliqué les références publiquement connues, le bambou a libérer encore des nombres durs, mais Craythorne a dit qu'il ferait tellement dans un avenir proche.

Il a également admis que cette partie de TCO en bambou pourrait être dépensée en recompiling quelques applications à l'origine conçues pour que x86 coure sur le bras.

Chaque processeur de bras est une exécution de traiter l'architecture qui contient la propriété intellectuelle autorisée des participations de bras possédées par le groupe de Softbank et habituellement fabriquée par un tiers fabricant. En conséquence, on peut dire que presque chaque processeur de bras a sa propre architecture, du moins pour autant que la partie non-autorisée est concernée. Le bambou appelle son propre panda de version. Naturellement, après avoir été un PC dans son passé lointain, il omet les ports souvent requis d'expansion, laissant deux paires de ports Ethernet de QSFP (un pour chaque lame).

Systèmes en bambouserveur en bambou inside.jpg de panda

« C'est la partie fondamentale que beaucoup de personnes luttent pour comprendre au sujet de notre produit, » a admis Craythorne. Dans le panda, l'unité centrale de traitement est limitée à contrôler et à exécuter l'application, avec l'accès à la DRACHME et à la mémoire non-volatile (NVMe). Mais des tâches de mise en réseau et de stockage sont gérées exclusivement par un coprocesseur, et le commutateur de réseau intégré remplace un commutateur de dessus-de-support.

« Nous avons un commutateur L3 incolmatable à l'intérieur de chaque lame simple avec un gros morceau de la mise en réseau à l'intérieur de la lame, « avons noté Siobhan Ellis, le directeur du bambou de la gestion du produit. Tellement dans une certaine mesure nous n'avons pas besoin d'envoyer le trafic réseau en dehors de la lame. » Sur option, les deux ports de QSFP sur une lame peuvent être reliés à un commutateur, ou un port peut être relié à un commutateur et à l'autre à la porte à côté de lame. « Qui réduisent le nombre d'inverseurs externes des lesquels vous avez besoin dans le support. »