Fehlerbehebungshandbuch für FS 1G/10G/25G/40G/100G optische Transceiver
Umfassender Leitfaden zur Fehlerdiagnose für FS optische Transceiver (1G bis 100G). Erfahren Sie, wie Sie Probleme mit der physischen Schicht, DDM-Parameter, FEC-Einstellungen und I2C-Fehler auf Cumulus- und NVIDIA-Systemen identifizieren...
Schnelle Antworten aus der Anleitung
Kurze Antwort
- Zur Fehlerbehebung bei FS-Transceivern verwenden Sie Befehle wie 'l1-show' (Cumulus) oder 'show interfaces ib link-diagnostics' (MLNX-OS), um den Port-Status, DDM-Werte und Fehlercodes zu analysieren. Häufige Lösungen umfassen das Reinigen der Stecker, das Anpassen der FEC-Einstellungen oder das Update der Firmware. S. 2, 6, 12, 20
Wichtigste Schritte
- Reinigen Sie die Endflächen der optischen Stecker. S. 12, 22, 34
- Überprüfen Sie die DDM-Parameter (TX/RX Power, Bias Current). S. 5, 6, 14
- Stellen Sie sicher, dass die FEC-Einstellungen auf beiden Seiten übereinstimmen. S. 7, 17, 22
Probleme und Lösungen
Entfernen Sie Module nacheinander oder starten Sie den switchd-Prozess neu.
S. 19Überprüfen Sie TX/RX-Leistung und stellen Sie sicher, dass FEC- und Geschwindigkeitskonfigurationen übereinstimmen.
S. 22Fehlercodes
| Code | Bedeutung | Maßnahme | Seiten |
|---|---|---|---|
| 1 | Port durch Befehl geschlossen | Verwenden Sie den Befehl 'no shutdown', um den Port zu öffnen. | S. 22 |
| 1026 | Bus stuck (I2C) | Transceiver zurücksetzen (disable/enable), bei Bedarf Switch neu starten. | S. 26 |
Wartung und Reset
- Neustart des switchd-Prozesses (Cumulus) S. 19
Technische Daten
| Parameter | Wert | Hinweis | Seiten |
|---|---|---|---|
| 100GBASE-SR4 TX Power | -8.4 ~ 2.4 dBm | Erlaubter Bereich für die Sendeleistung. | S. 6 |
| 100GBASE-LR4 TX Power | -8.2 ~ +4.5 dBm | Erlaubter Bereich für die Sendeleistung. | S. 6 |
Wo es im PDF steht
- Fehlerbehebung physische Schicht S. 12, 17
- I2C-Fehlerbehebung S. 19
- Fehlercode-Tabelle S. 22, 23, 24, 25
Inhaltsverzeichnis
Abbildungen aus der Anleitung
Bild zum Vergrößern anklickenWichtige Informationen aus der Anleitung
Dieses Handbuch bietet standardisierte Verfahren zur Fehlerbehebung für optische Transceiver von FS. Es richtet sich an technische Ingenieure und deckt häufige Ausfallszenarien ab, wie z. B. nicht startende Ports, intermittierenden Paketverlust und Überhitzungsalarme. Das Dokument konzentriert sich auf die Diagnose in Cumulus- und NVIDIA MLNX-OS-Umgebungen.
Fehlerbehebung an der physischen Schicht
Probleme an der physischen Schicht (Layer 1) sind oft auf Konfigurationsfehler, Hardwaredefekte oder Signalintegritätsprobleme zurückzuführen. Verwenden Sie Befehle wie l1-show oder ethtool -m swp, um den Status des Moduls und die DDM-Parameter zu überprüfen.


- DDM/DOM-Überwachung: Überprüfen Sie Temperatur, Spannung, Bias-Strom sowie Sende- (TX) und Empfangsleistung (RX).
- Signalintegrität: Wenn die Signalintegrität schlecht ist, kann dies zu Verbindungsabbrüchen oder Jitter führen. Überprüfen Sie die Fehlerraten und reinigen Sie bei Bedarf die Steckverbindungen.
- FEC (Forward Error Correction): Stellen Sie sicher, dass die FEC-Einstellungen auf beiden Seiten der Verbindung konsistent sind.
I2C-Fehlerbehebung
I2C-Bus-Probleme können dazu führen, dass Module nicht mehr erkannt werden oder der Switch instabil wird. Symptome sind häufig Fehlermeldungen in /var/log/syslog bezüglich "smbus", "i2c" oder "EEPROM".
- Diagnose: Überprüfen Sie das Systemprotokoll auf kontinuierliche Lesefehler.
- Lösungsansätze: Entfernen Sie nacheinander die Module, um das fehlerhafte Gerät zu identifizieren. Ein Neustart des switchd-Prozesses oder ein vollständiger Reboot des Switches kann den Bus-Lock temporär beheben.
MLNX-OS (Infiniband) Systemdiagnose
Für NVIDIA-Systeme stehen spezifische Befehle zur Verfügung, um den Status von InfiniBand-Ports zu diagnostizieren:

- show interfaces ib link-diagnostics: Zeigt Schnittstelleninformationen und Fehlercodes an.
- Fehlercodes: Das Handbuch enthält eine detaillierte Tabelle mit Fehlercodes (z. B. 2 für AN-Fehler, 1026 für Bus-Stuck), die spezifische Gegenmaßnahmen erfordern.
Fallstudien und Lösungen
Das Handbuch enthält praktische Beispiele für häufige Probleme:


- Flapping: Oft verursacht durch physische Leitungsfehler oder inkompatible Port-Geschwindigkeiten.
- CRC-Fehler: Meist durch defekte Kabel oder inkompatible Kodierung verursacht.
- PID-Fehler: Wenn ein Modul als "Unsupported" oder "Invalid" angezeigt wird, prüfen Sie die Firmware-Kompatibilität oder führen Sie ein EEPROM-Update durch.
- Überhitzung: Optimieren Sie die Kühlung, reduzieren Sie die Portdichte oder verwenden Sie Module mit höherer thermischer Leistung.
Praktische Hilfe
Typische Probleme
Überprüfen Sie die Kabel auf Beschädigungen, stellen Sie sicher, dass die Port-Geschwindigkeiten auf beiden Seiten übereinstimmen, und prüfen Sie die DDM-Parameter auf Anomalien.
Suchen Sie in /var/log/syslog nach I2C-Fehlern. Entfernen Sie nacheinander die Module, um das defekte Gerät zu finden, oder starten Sie den switchd-Prozess neu.
Reinigen Sie die Steckverbindungen, tauschen Sie das Kabel aus oder prüfen Sie, ob die Kodierung des Moduls mit dem Gerät kompatibel ist.
Prüfen Sie die Firmware-Kompatibilität, stellen Sie sicher, dass das Modul in der Hardware-Kompatibilitätsliste (HCL) steht, oder führen Sie ein EEPROM-Update durch.
Verbessern Sie die Belüftung im Rack, erhöhen Sie die Lüftergeschwindigkeit oder verwenden Sie Module mit einem breiteren Betriebstemperaturbereich.
Vor der Verwendung
- Stellen Sie sicher, dass die Firmware des Switches aktuell ist.
- Überprüfen Sie die Kompatibilität des Moduls mit dem Switch-Modell (HCL).
- Reinigen Sie die Endflächen der optischen Stecker vor der Installation.
- Stellen Sie sicher, dass die FEC-Einstellungen auf beiden Seiten der Verbindung übereinstimmen.
- Prüfen Sie, ob die Port-Konfiguration (Geschwindigkeit, Autonegotiation) korrekt ist.
Technische Daten in der Praxis
- Bias Current
- Der Strom, der den Laser treibt. Ein Wert von 0 mA deutet auf einen Defekt hin; Werte weit über dem Schwellenwert deuten auf Laser-Alterung hin.
Abbildungen und Diagramme
- Augendiagramme (Eye Diagrams) zeigen die Signalintegrität; ein offenes 'Auge' signalisiert ein gutes Signal.
- Tabellen zu Leistungsklassen (Power Class) definieren den maximalen Stromverbrauch und die Anforderungen an die Switch-Ports.
Modellkompatibilität
- Einige NVIDIA-Switches erfordern für Drittanbieter-Module eine spezielle Konfiguration (transceiver third-party enable).
- Nicht alle Ports unterstützen Hochleistungsmodule (High-Power-Modus).
Autor der Aufbereitung
Thomas Schneider
Redakteur für technische Anleitungen
Prüft Bedienungsanleitungen mit Fokus auf Struktur, Sicherheitshinweise und schnelle Orientierung für Nutzerinnen und Nutzer.