Semi-kritisk Intel Atom C2000 SoC-fejl opdaget, hardware-løsning kræves

I sidste uge, Paul Alcorn over på Tom's Hardware afhentet af en interessant erklæring fra Intel i deres Q4 2016 indtjeningskald. Virksomheden, hvis indtjening fra Data Center-koncernen var gået en smule år over år, ”observerede et produktkvalitetsproblem i fjerde kvartal med lidt højere forventede fiaskosatser under visse anvendelses- og tidsbegrænsninger.” Som et resultat havde virksomheden opsætning en reservefond som en del af deres større indsats for at tackle problemet, som ville omfatte en “mindre” design (dvs. silicium) til permanent løsning af problemet.

En smule mere grave efter Paul viste sig yderligere, at problemet var med Intels Atom C2000-familie, bedre kendt under kodenavnene Avoton og Rangeley. Som en opfriskning blev de Silvermont-baserede server SoC'er lanceret i Q3 af 2013 - for omkring tre og et halvt år siden - og tilbydes med 2, 4 og 8 kerner. Disse chips er til gengæld beregnet til brug i lavere effekt og med rimeligt højtrådede applikationer såsom mikroservere, kommunikations- / netværksudstyr og opbevaring. Som et resultat er C2000 en vigtig del af Intels produktsortiment - især da den direkte konkurrerer med forskellige ARM-baserede processorer på mange af sine markeder - men det er et navn, der er bedre kendt for enhedsproducenter og IT-ingeniører end det er for forbrugerne. Derfor løfter et problem med C2000-familien ikke øjeblikkeligt øjenbrynene.

Hopper en uge ind i nutiden, siden deres indtjeningskald Intel har lagt et opdateret specark til Atom C2000-familien. Mere vigtigt er, at enhedsproducenter er begyndt at sende nye meddelelser om errata om produkt; og mens de holder afstanden fra at navngive C2000 direkte, peger alle tegn på, at de berørte produkter er C2000-baserede. Som et resultat har vi endelig en vis indsigt i, hvad problemet er med C2000. Og selvom nyhederne ikke er tæt på ærgerligt, er det bestemt ikke gode nyheder for Intel. Som det viser sig, er der et nedbrydningsproblem med mindst nogle (hvis ikke alle) dele i Atom C2000-familien, som med tiden kan få chips til at mislykkes kun få år ind i deres levetid.

Problemet: Nedbrydning af tidligt kredsløb

Lad os starte med at forstå, hvad der foregår, og hvorfor C2000 SoCs kan mislykkes tidligt Intels opdaterede spec-ark, der indeholder de nye errata for problemet.

AVR54. Systemet kan opleve manglende evne til at starte eller ophøre med at fungere

Problem: SoC LPC_CLKOUT0- og / eller LPC_CLKOUT1-signaler (output med lavt pinantal-ur) kan muligvis stoppe med at fungere.

Implikation: Hvis LPC-uret (e) holder op med at fungere, vil systemet ikke længere kunne starte.

Løsning: En ændring på platformniveau er blevet identificeret og kan implementeres som en løsning på dette erratum.

På et højt niveau er problemet, at betjening uret til Lav pin antal bus kan stoppe med at arbejde. Grundlæggende en type legacy-bus, er LPC-bussen en simpel bus til enkle perifere enheder, bedst kendt for at understøtte ældre enheder som serielle og parallelle porte. Det er ikke en bus, der er strengt nødvendigt til betjening af en computer eller indlejret enhed, og i stedet afhænger dens betydning af, hvilke enheder der hænges ud af den. Sammen med ældre I / O-enheder er den næst mest almindelige enhedstype til at hænge ud af LPC'en boot-ROM / BIOS - på grund af det faktum, at det er en enkel enhed, der har brug for lidt båndbredde - og det er her C2000-fejlen virkelig rækker dets hoved.

Som Intels errata kort forklarer, hvis LPC-bussen går i stykker, vil ethvert system, der bruger den til at være vært for boot-ROM'en, ikke længere være i stand til at starte, da systemet ikke længere kunne få adgang til nævnte boot-rom. Den gode nyhed er, at Intel har en løsning (mere om det på et sekund), så det er en undgåelig fejl, men det er en hardware-løsning, hvilket betyder, at de berørte tavler skal omarbejdes for at ordne dem. Komplicerende spørgsmål, da Atom C2000 er en BGA-chip, der bruges integreret, betyder en LPC-fiasko, at hele kortet (hvis ikke hele enheden) skal udskiftes.

Når man dykker dybere, er det store spørgsmål naturligvis, hvordan LPC-bussen kunne bryde på denne måde. Til dette formål Registeret nåede til Intel og har været i stand til at få nogle flere detaljer. Som citeret af The Register siger Intel, at problemet er "en nedbrydning af et kredsløbselement under høje anvendelsesforhold med en hastighed, der er højere end Intels kvalitetsmål efter flere års service."

Selvom vi har tendens til at tænke på faststofelektronik som bare det - fast og uforanderligt - er kredsløbsnedbrydning en normal del af livscyklussen for en kompleks halvleder som en processor. Kvantetunneling og andre effekter i mikroskopisk skala vil nedbryde processorer, mens de er i brug, hvilket fører til eventuel ydelsesnedbrydning eller driftsfejl. Men selv med moderne processorer bør effekten tage et årti eller længere, meget længere end den forventede levetid for en chip. Så når der sker noget for at fremskynde nedbrydningsprocessen, hvis det er alvorligt nok, kan det skære en chips levetid til en brøkdel af, hvad den var planlagt til, hvilket får en chip (eller en linje med chips) til at mislykkes, mens den stadig er i aktiv brug. Og det er præcis, hvad der sker med Atom C2000.

For Intel er det anden gang i dette årti, at de har stødt på et nedbrydningsproblem som dette. Tilbage i 2011 måtte virksomheden gennemføre et meget større og mere pinligt reparations- og udskiftningsprogram til bundkort ved hjælp af tidlige Intel 6-serien chipsæt. På disse tavler kunne en overdreven (overdrevet) transistor, der kontrollerer nogle af SATA-porte, fejle tidligt og deaktivere disse SATA-porte. Og selvom Intel ikke har afklaret, om noget der ligner dette sker på Atom C2000, ville jeg ikke være for overrasket, hvis det var det. Hvilket ikke er unødvendigt at vælge Intel her; i betragtning af geometrier under spillet (husk lige hvor lille en 22nm-transistor er) er transistors pålidelighed en betydelig udfordring for alle spillere. Bare en smule for meget spænding på en enkelt transistor ud af milliarder kan være nok til at i sidste ende bryde en chip.

Løsningen: Nye silicium og omarbejdede bundkort

Under alle omstændigheder er den gode nyhed, at Intel har udviklet både en silicon-løsning og en platform-løsning. Den langsigtede løsning er selvfølgelig i gang med at udføre en ny revision af C2000-silicium, der indeholder en løsning til problemet, og Intel har fortalt The Register, de vil gøre netop det. Dette vil faktisk komme noget sent i processorens levetid, da den aktuelle B0-revision blev lanceret for tre og et halvt år siden og vil blive efterfulgt af Denverton dette år. Samtidig vil Intel som et IT-fokuseret produkt stadig have behov for at tilbyde Atom C2000-serien til kunder i et antal år fremover, så selv med omkostningerne ved en ny revision af silicium er det i Intels lang- sigt renter.

Mere med det samme kan platformfixen bruges til at forhindre problemet på tavler med B0-silicium. Desværre afslører Intel ikke bare, hvad platformfixen er, men hvis det er et transistorforspændingsproblem, involverer fixen sandsynligvis reduktion af spændingen til transistoren, hvilket i det væsentlige bringer dens nedbrydning tilbage til forventede niveauer. Nogle individuelle produktudbydere rapporterer også, at rettelsen kan omarbejdes til eksisterende (postproduktion) -kort, skønt det lyder som dette kun kan forhindre problemet, ikke løse et allerede ikke-startbart kort.

Påvirkede produkter: Routere, servere og NAS

Som et resultat af arten af ​​et problem er situationen en blandet taske til enhedsproducenter og ejere. Først og fremmest, mens mest fabrikanter har brugt LPC-bussen til at være vært for boot-ROM'en, ikke alle har dem. For det mindre antal producenter, der bruger SPI Flash, vil dette ikke påvirke dem, medmindre de brugte LPC-bussen til noget andet. Ellers for de fabrikanter, der er påvirket, er transistorforringelse stærkt afhængig af omgivelsestemperatur og anvendelse: jo varmere en chip er, og jo hårdere dens kørsel, desto hurtigere vil en transistor forringes. Selvom alle C2000-chips har fejlen, vil ikke alle C2000-chips følgelig have deres LPC-ur mislykkes, før en enhed når slutningen af ​​dens brugbare levetid. Og bestemt ikke alle C2000-chips mislykkes på samme tid.

Cisco, hvis routere påvirkes, estimerer de, at selvom problemer kan opstå så tidligt som 18 måneder ind, forventer de ikke en meningsfuld stigning i fejl, indtil 3 år (36 måneder) i. Dette sker selvfølgelig kun lidt kortere end alder for de første C2000-produkter, hvilket sandsynligvis er årsagen til, at dette problem ikke er kommet på lyset indtil nu. Svigt bliver derefter mere og mere sandsynligt, når tiden går, og derfor erstatter Cisco de ældste berørte routere først, da de er de mest sårbare over for nedbrydningsproblemet.

Som for andre leverandører, der sender Atom C2000-baserede produkter, opretter disse leverandører deres egne supportprogrammer. Patrick Kennedy over på ServeTheHome er allerede begyndt at udarbejde en liste over sælgersvar, inklusive Supermicro og Netgate. Men som det ser ud, udvikler mange leverandører stadig deres svar på problemet, så dette vil være en løbende proces.

Endelig er det, der sandsynligvis vil være mest berørt på forbrugersiden af ​​sager, på netværksmonteret lagerfronten. Som påpeget af vores egen Ganesh TS, Seagate, Synology, ASRock, Advantronix, og andre NAS-leverandører har alle afsendte enheder ved hjælp af de mangelfulde chips, og som et resultat er alle disse produkter sårbare over for tidlige fejl. Disse leverandører arbejder stadig på deres respektive supportprogrammer, men for dækkede enheder vil resultatet være det samme: de berørte NAS'er skal udskiftes til modeller med faste tavler / silicium. Så NAS-ejere vil gerne være meget opmærksomme her, da selv om disse enheder ikke nødvendigvis risikerer øjeblikkelig fiasko, risikerer de at mislykkes på lang sigt.

kilder: Toms Hardware, Registret, Og ServeTheHome

Giv en kommentar

Dette websted bruger Akismet til at reducere spam. Lær, hvordan dine kommentardata behandles.