Kunnen de betrouwbaarheidsnormen voor optische modules/apparaten in datacenters worden versoepeld?
Dec 11, 2025|
◆Vereisten voor energieverbruik optische module datacenter
Verschillen in de werkomgevingen van optische modules in telecommunicatie en datacenters
Er zijn drie belangrijke verschillen:
Verschillende bedrijfstemperaturen
Telecommunicatietoepassingen hebben te maken met dagelijkse temperatuurschommelingen als gevolg van dagelijkse temperatuurverschillen, maar ook met seizoensgebonden temperatuurschommelingen als gevolg van de veranderende seizoenen. Optische modules moeten zich aan deze variaties aanpassen. Toepassingen op telecommunicatie-niveau zijn onderverdeeld in binnen- en buitenomgevingen. Binnenomgevingen zijn 0 ~ 70 graden, algemeen bekend als commerciële kwaliteit; Buitenomgevingen vereisen over het algemeen -40 ~ 85 graden, algemeen bekend als industriële kwaliteit.
Datacenters zijn anders; hunoptische moduleshoeft slechts een temperatuurcyclus van 10 graden te ondergaan, wat uiterst stabiel is.
Kunnen we de vereisten voor betrouwbaarheidstests voor de levensduur bij hoge- temperatuur en hoge- vochtigheid verlagen, die we elke dag in datacenters eisen?
Verschillende productlevenscycli
Toepassingen op telecommunicatieniveau- zullen naar verwachting, eenmaal geïmplementeerd, tientallen jaren meegaan; typische betrouwbaarheidslevenscycli worden ontworpen en geëvalueerd op basis van 20 jaar.
Datacenterapplicaties worden doorgaans elke twee tot drie jaar vervangen.
Oké, dus ik maak iets dat 50 jaar lang niet kapot gaat, maar jij gebruikt het twee jaar en gooit het dan weg? Kunnen we de levensduureisen iets verlagen?

Verschillende redundantieontwerpen
Telecommunicatietoepassingen hebben lijnredundantieontwerpen, maar de redundantie is niet groot. Op kritieke lijnen wordt gebruik gemaakt van back-upcommunicatieschakeling. We horen echter vaak nieuwsberichten over tienduizenden gebruikers die getroffen zijn door het uitvallen van een enkel hoofdapparaat, wat gevolgen heeft voor hun telefoongesprekken en internettoegang. Kortom, het onvermogen van optische modules om te functioneren is een cruciaal probleem. Datacenters hebben een veel grotere redundantie, vooral omdat meer dan 90% van de servers cloudservers zijn. Daarom zijn gebruikers zich vrijwel niet bewust van eventuele defecten aan de optische module. Voor leveranciers kunnen, zelfs als sommige optische modules willekeurig defect raken, ze eenvoudigweg worden vervangen.
Kunnen de betrouwbaarheidseisen voor optische modules dus worden versoepeld? Vanuit een toepassingsperspectief hebben versoepeling van de betrouwbaarheidseisen weinig impact op klanten. De volgende vraag is: wat moet er versoepeld worden? Hoe moet het ontspannen? En waarom zou het versoepeld moeten worden?
Belangrijke storingscomponenten en oorzaken van storingen in optische modules

Facebook heeft faalstatistieken vrijgegeven voor a100G optische module, waaruit blijkt dat 97% van de storingen laser-gerelateerd was, waarbij de meeste zich binnen drie maanden na de eerste werking van de laser voordeden. Als het merendeel van de storingen binnen drie maanden plaatsvindt, moet de definitie van vroegtijdig falen dan worden aangepast? Onder de defecte lasers is het uitvalpercentage van DFB’s (Digital Bulbs) aanzienlijk hoger dan dat van EML’s (Electromagnetic Laminates) (enkele honderden keren groter). Dit roept de vraag op of Dr. Zeng van Facebook gelooft dat DFB's in directe modulatiemodus gevoeliger zijn voor storingen dan DFB's die continu licht uitstralen (net zoals een stationaire draad lang mee kan gaan, maar herhaaldelijk buigen deze gemakkelijk zal breken).
Moeten daarom de betrouwbaarheidstests voor lasers, die de voornaamste storingsdoelen zijn, worden uitgebreid op het niveau van de laserwafels? Als het verband houdt met de modulatiemodus, moeten levenslange tests op de lange- termijn dan ook verificatie in de modulatiemodus omvatten?
Versoepel de betrouwbaarheidseisen
Als we de betrouwbaarheidseisen willen versoepelen, moeten we dan vooral het aantal testitems verminderen, de testomstandigheden verlagen, de testtijd verkorten of het aantal testmonsters verminderen?
Het aantal testitems verminderen?
In feite zijn er niet veel betrouwbaarheidstestitems. Zelfs als er een of twee worden verwijderd, zijn ze niet de levensduurtest bij hoge temperatuur en hoge luchtvochtigheid waar fabrikanten van optische modules zich druk om maken. Het zijn eerder enkele minder belangrijke items. Het terugdringen van het aantal testitems is zinvol, maar niet erg significant.
Testomstandigheden verminderen?
Dit is mogelijk, maar hoeveel te verminderen vereist data-analyse om de juiste testomstandigheden te vinden.

Testtijd comprimeren?
Wat dacht je van 500 uur, niet 5000 uur, niet 2000 uur, niet 1000 uur, maar gewoon 500 uur? Op deze manier zullen betrouwbaarheidstests geen lange productlanceringscyclus veroorzaken.
Intel gaf een interessant antwoord: op basis van de versnellingsfactor van de GR468 kan een levensduur van 10 jaar in 6 weken worden getest, met een versnellingsfactor van 100x.
Als we vervolgens de betrouwbaarheidstesttemperatuur verhogen tot 130 graden, wordt de versnellingsfactor 1000x en kan een levensduur van 17 jaar in één week worden getest.
Dit lijkt de tijd nog meer te comprimeren, toch?
Kunnen we de testtijd met lange levensduur verkorten door de monstergrootte te vergroten, bijvoorbeeld 500 monsters voor 500 uur hoge temperatuur en vochtigheid?
De steekproefomvang voor betrouwbaarheidstests verkleinen?
Broadcom heeft een statistische analyse van de afwijking in de levensduurvoorspelling veroorzaakt door verschillende steekproefgroottes. De conclusie is dat "ongeacht welke technologie er wordt gebruikt, men niet kan verwachten dat het aantal monsters zal worden verminderd om het doel van het verminderen van de betrouwbaarheidseisen te bereiken", omdat een kleine steekproefomvang op zich al vooringenomenheid introduceert.
Als de betrouwbaarheidseisen moeten worden versoepeld, hoe moet de norm dan worden gedefinieerd?
20 jaar geleden was GR468 een maatstaf in de optische communicatie-industrie. Eigenlijk bestond er al in 2004 een betrouwbaarheidsstandaard genaamd GR3013 voor korte levenscycli.
Deze nieuwe standaard met versoepelde betrouwbaarheidseisen is echter weinig bekend, ik heb er tenminste van gehoord.
Vanmiddag gebruikten grote fabrikanten GR468 nog steeds voor analyse.
Moet de ontspannen betrouwbaarheidsnorm dus een compleet nieuwe standaardserie worden? Dat brengt het risico met zich mee van iets dat lijkt op GR3013: de industrie besteedt veel tijd aan het ontwikkelen van standaarden, en dan blijven ze onbekend…
Optie twee: GR3013 aanpassen, implementeren en vervolgens promoten.
Optie drie: ontwikkel een mildere versie van CR468 die geschikt is voor datacenters.
Dit is een heel specifiek probleem in de industriële keten.-Hoe implementeer ik dit?
De fundamentele vraag is: "Als de betrouwbaarheidsnormen worden versoepeld, zullen de kosten dan dalen?"
Wat winnen datacenterbeheerders met het versoepelen van de betrouwbaarheidseisen? Lage kosten zijn hun kerndoelstelling. Lasers hebben het hoogste uitvalpercentage. Fabrikanten als Sumitomo en Broadcom, die lasers produceren, gebruikten echter tekst, formules en diagrammen om de boodschap over te brengen dat het versoepelen van de betrouwbaarheidseisen de kosten niet verlaagt. In feite verhoogt het de kosten als het betrouwbaarheidsverificatieproces voor laserwafels wordt gewijzigd.
Bij lasers is de betrouwbaarheid afhankelijk van voortdurende technologische verbetering. Het versoepelen van de betrouwbaarheidseisen is geen manier om de kosten te verlagen. Zoals een zin in de presentatie van Broadcom luidde: "Denk na over andere manieren om de kosten te verlagen..."


