FM4-Logo

jetzt live:

Aktueller Musiktitel:

Screenshots von NNT

NNT

Erich Moechel

Internet-Großausfälle werden immer wahrscheinlicher

Die wachsende Komplexität des Netzes, unzureichende Sicherheitsmaßnahmen und die zunehmende Monopolisierung des Internetverkehrs machen globale Blackouts immer wahrscheinlicher. Routing-Experte Michael Kafka im Gespräch.

Von Erich Moechel

Ein weltweiter Großausfall wie Ende Juni, der mit Cloudflare eine Unzahl von Providern rund um die Welt aus dem Netz katapultierte, „wird mit Sicherheit wieder passieren.“ Davon sind Routing-Fachleute wie Michael Kafka überzeugt, die mit der Fragilität des Internets täglich konfrontiert sind. Ein Zahlendreher, ein Eintrag im falschen Feld oder ein Hakerl zuviel in einem Formular bei einem Provinz-Provider können genügen, dass anderswo Internetkonzerne in die Knie gehen.

Derartige Ausfälle würden nicht weniger, sondern häufiger werden, sagte Kafka zu ORF.at, weil die Komplexität des Netzes schneller wachse als die Implementation von Sicherheitsmaßnahmen gegen solche fatalen Routing-Fehler. Die Monopoliѕierung großer Teile des Datenverkehrs durch wenige Großanbieter wie Cloudflare, Amazon oder Microsoft sei ein zusätzlicher destabilisierender Faktor, das habe der jüngste Großausfall am vergangenen Dienstag erneut gezeigt.

Screenshots von NNT

NNT

Wie komplex das Internet inzwischen ist, zeigen diese beiden Bilder. Sie resultieren aus einem 3D-Mapping der Verbindungen von 65.000 Knoten, aus denen sich das Internet im Wesentlichen konstituiert. Diese Knoten stehen für angeschlossene Subnetze von Internet- Providern, in diesem Fall wurde das Netz des Carriers Level3 Communications herangezoomt. Das Mapping zeigt das Internet von 2016 aus der Sicht eines einzigen Knotens, dem großen Netz des Carriers NTT. Es wären also 65.000 solche Mappings möglich.

Das Unbehagen in der Asymmetrie

Ein hochzentralisiertes, sternförmiges Netz wie im Iran eignet sich zwar perfekt für Zensur und Kontrolle,macht aber Totalausfälle durch Routing-Fehler umso wahrscheinlicher

Der zweite Ausfall des Großanbieters Cloudflare dauerte zwar nur eine Stunde, der Auslöser aber war ein einziger Kommandozeilenbefehl. Diese „Regular Expression“ war Teil eines Software-Updates, dessen Installierung zur Vollauslastung der Prozessoren in den Server-Clustern führte. Dadurch wurde der Fehler zwar relativ schnell entdeckt und das Update abgebrochen, die Beunruhigung über das krasse Missverhältnis von Ursache und Wirkung aber bleibt.

Eine ganz ähnliche Asymmetrie zeigt sich beim häufigsten Typ von Großausfällen, der mit einem falschen Eintrag in einer Datenbank beginnt. Den Großausfall Ende Juni, der Business-Kunden vom Netz holte, die von Cloudflare essentielle Services wie die Zuordnung von IP-Adressen zu Domainnamen (DNS) beziehen, hatte ein kleiner Internet-Provider im US-Bundesstaat Pennsylvania ausgelöst.Ein fehlerhafter Eintrag dort hatte zur Folge, dass für 20.000 IP-Adressen neue Routen angekündigt wurden.

Screenshot von Cloudfare

Cloudfare

Ein kleiner Auszug aus einer langen Liste der vom Ausfall im Juni betroffenen Knoten des Cloudflare-Netzes.

Fallende Dominosteine

Das ebenfalls sternförmige Netz in Syrien wurde im Dezember 2012 völlig abgeschaltet und kehrte mit neuen Exklusivanbindungen an die Netze von Tata (Indien) und Huawei (China) zurück.

„Das wäre an sich noch nicht tragisch gewesen, denn solche Fehler passieren weltweit mehrmals täglich. Die Folge sind in der Regel nur lokal beschränkte Ausfälle einzelner Provider, in diesem Fall wurde durch den Fehler aber eine Lawine ausgelöst“, sagte Kafka. Der Provider in Pennsylvania ist hauptsächlich über die US-Telekom Verizon angebunden - einen der größten Datenspediteure weltweit - und dieser Carrier hatte die „neuen Routen“ erst akzeptiert und dann weiterverbreitet. In Folge wurde der gesamte Verkehr aus dem Verizon-Netz in Richtung Cloudflare - und umgekehrt- über den Provinz-Provider und dann über ein Werk des US-Stahlkonzerns Allegheny umgeleitet.

Erst war das Stahlwerk offline, danach ging der Verkehr von Cloudflare und Teilen des Amazon-Netzes in die Knie, dann folgten deren Kunden. Die „neuen Routen“ verbreiteten sich ungehindert weiter, „wenn nämlich eine neue Route angemeldet wird, dann gilt die solange, bis sie zurückgezogen wird“, so Kafka dazu. Laut Cloudflare hatte Verizon acht Stunden lang nicht auf die Beschwerden reagiert, erst über den Provider aus Pennsylvania gelang es schließlich, die „neue Route“ zurückzuziehen. Im Anschluss vergingen weitere Stunden, bis die Falschinformation aus allen Routing-Tabellen wieder verschwunden war.

Screenshot von DTAG

DTAG

Dieser Auszug stammt aus dem Eintrag der Deutschen Telekom (DTAG) in der RIPE-Datenbank, die alle Provider in Europa samt den von ihnen verwalteten IP-Adressen listet. Mit am wichtigsten ist das Subsystem IRR, in der alle Provider die Routen eintragen, die sie bedienen(siehe unten). Die DTAG hat hier überhaupt nichts eingetragen und beruft sich dabei auf ihre Kunden, die ebenfalls unzuverlässige Einträge liefern würden. Nebenbei wird diese essentielle, wenngleich unvollständige Datenbank als Sauhaufen bezeichnet, zu dem man selbst nichts beitragen wolle. Nicht näher spezifiziert wird hingegen, wer hier die Säue sind.

Kafka ex Cathedra:

Porträt-Foto von Michael Kafka

Erich Moechel/FM4/CC BY 3.0

„Um solche Fehlfunktionen zu verhindern gibt es an sich die Internet Route Registry (IRR), das ist eine Datenbank, die zum Whois-Systemn gehört. Dort tragen alle Interprovider ihre Routen ein, theoretisch. Denn in der Praxis passiert das oft schleppend, unvollständig und in vielen Fällen wird kaum etwas bis gar nichts angegeben, das hängt gänzlich von den involvierten Providern ab. Die A1­ Telekom ist in dieser Beziehung zum Beispiel ein wahrer Musterknabe, alle Netze, an die sie Daten liefert - und umgekehrt - sind in ihrem Datenbankeintrag penibel aufgelistet“, so Kafka weiter.

„In diesem Fall genügt ein einfacher Abgleich mit der IRR, um festzustellen, ob eine irgendwo angekündigte neue Route, die irgendwie auch die A1 involviert, fehlerhaft oder überhaupt Unsinn ist. Die deutsche Telekom gibt in ihrem Eintrag hingegen überhaupt keine Routen an, die sie bedient, ihr gesamter Eintrag in die IRR-Datenbank ist überhaupt nicht vollziehbar. Das ist die eigentliche Schwäche der IRR-Datenbank: Verantwortungslose Großprovider, die einen gemeinsamen Sicherheitsmechanismus sabotieren“

Vorläufiges Fazit

Sachdienliche Informationen, Metakritiken et al. sind über dieses Formular verschlüsselt und anonym beim Autor einzuwerfen. Verbindungen via TOR-Netz willkommen. Wer eine Antwort will, gebe tunlichst eine Kontaktmöglichkeit an.

Ein zweiter Teil zum Thema wird in loser Folge hier erscheinen, der sich mit den lokalen und regionalen Netzausfällen weltweit befasst. Tagtäglich passieren irgendwo auf dem Globus solche Fehler, die etwas missverständlich als „BGP-Hijacking“ bezeichnet werden. Das „Border Gateway Protocol“ beschreibt den Datenaustausch und das Routing am Übergang zwischen den Netzbetreibern, „Entführungen“ einer solchen Route geschehen in den seltensten Fällen absichtlich. Fast immer sind es Zahlendreher, Eintragungen ins falsche Feld und meist passieren diese Fehler, wenn Softwares zur „Routenoptimierung“ dabei im Spiel sind. Jeder einzelne dieser Fehler, die täglich irgendwo im Netz passieren, könnte eine solche Kettenreaktion auslöѕen, wie sie hier beschrieben ist.

Diskutiere mit!

Aktuell: