Wir geben unser Bestes, unsere Services störungs- und unterbrechungsfrei anzubieten. Aber trotz großen Engagements und Vorsichtsmaßnahmen, kann es zu einem Ausfall oder einer Störung unserer Services kommen. Da wir, ebenso wie du, auf eine Reihe von Services von Fremdanbietern bauen, liegt das Problem (und seine Lösung) eventuell nicht in unserer Macht. Auf dieser Seite protokollieren wir Ereignisse und einige Hintergrundinformationen zum Geschehen. Sobald die Ursache bekannt ist, teilen wir die Einzelheiten hier mit.
Sicherheitsereignis bei Prüfobjekt-Screenshots (Juni 2024)
Am 28. Mai begannen wir mit einem Update-Roll-out an allen Monitoring-Checkpoint-Standorten von Uptrends. Die eingesetzte Version der Monitoring-Software sorgte dabei für ein Problem, durch das einige Screenshots von Webseiten, die von der Software erstellt wurden, anderen Uptrends Kunden angezeigt wurden. Dieses Problem wirkte sich nur auf HTTP/HTTPS-Prüfobjekte aus, sodass Browser-Prüfobjekte nicht betroffen waren.
Mit der Entdeckung am 30. Mai spielten wir eine Fehlerbehebung auf, die sofort im gesamten Checkpoint-Netzwerk in Kraft trat. Wir konnten schnell feststellen, welche Screenshots durch die fehlerhafte Software-Version erstellt wurden, und diese Screenshots wurden sofort entfernt, sodass kein weiteres Risiko mehr bestand, dass Screenshot-Daten anderen offengelegt wurden.
Analyse
Es konnten alle Screenshots, die von diesem Fehler betroffen waren, sowie auch die Prüfobjekte, auf die sie sich bezogen, identifiziert werden. Wir haben auch eine vollständige Sichtbarkeit auf die Zugriffsprotokolle von allen Monitoring-Daten und den zugrunde liegenden Daten, einschließlich Screenshots. Wir haben sorgfältig analysiert, welche betroffenen Screenshots schließlich aufgerufen wurden und welche nicht. Zu keinem Zeitpunkt bestand für andere Kunden oder Dritte die Möglichkeiten, Account-Daten von anderen – außer den genannten Screenshots – aufzurufen. Zu keinem Zeitpunkt bestand Zugriff auf Operator-Passwörter oder Anmeldedaten, die in den Vaults der entsprechenden Accounts gespeichert sind. Wir können auch bestätigen, dass Finanzdaten, darunter Kreditkartendaten, nicht gefährdet waren.
Maßnahmen
Wir haben unsere Verfahren überprüft und angemessene Schutzmaßnahmen ergriffen, um sicherzustellen, dass ein derartiger Vorfall sich nicht wiederholt. Wir möchten allen versichern, dass gemäß unserer Untersuchung dieser Fehler kein weiteres Risiko für unsere Kunden oder unsere Uptrends Software darstellt.
Sollten weitere Fragen oder Bedenken hierzu bestehen, zögere bitte nicht, dich an uns zu wenden.
Verspätete E-Mail-Aussendung (March 2024)
Am 12. März 2024 kam es zu einer Störung, die sich auf unseren E-Mail-Service und die rechtzeitige Aussendung von einigen Alarmierungs-E-Mails oder erwarteten Berichten auswirkte.
Details zum Ereignis
- Betroffener Service: E-Mail-System
- Startzeit: 12. März 2024, 22:00 Uhr CET
- Endzeit: 13. März 2024, 11:00 Uhr CET
- Auswirkung: Verzögerung beim Senden von Alarmierungs-E-Mails, Berichts-E-Mails und anderen E-Mails, die vom Uptrends System gesendet wurden.
Hinweis: Dieses Problem wirkte sich nicht unbedingt auf alle E-Mails aus: Ein Großteil der Benachrichtigungen wurde wie gewöhnlich pünktlich ausgesendet, bei einigen gab es jedoch Verzögerungen.
Lösung
Ab 11:00 Uhr CET am 13. März wurden alle Alarmierungs-E-Mails und andere E-Mails, die nach diesem Zeitpunkt ausgelöst wurden, wieder pünktlich gesendet. Zur selben Zeit lösten wir den Vorgang zum Senden aller nicht gesendeten E-Mails aus.
Die nächsten Schritte
Wir empfehlen, dein Postfach auf verspätete E-Mails, die eventuell nach der Behebung dieses Problems eingetroffen sind, zu überprüfen. Solltest du Bedenken oder Fragen zu bestimmten Warnmeldungen oder Berichten haben, zögere nicht, uns zu kontaktieren.
Wir bitten für eventuell entstandene Unannehmlichkeiten um Entschuldigung und danken für dein Verständnis, während wir an der Lösung des Problems gearbeitet haben. Unser Team hat sich dem Bereitstellen eines zuverlässigen Dienstes verschrieben und wir treffen Maßnahmen, um solche Ereignisse in Zukunft zu vermeiden.
Ereignis, das sich auf Transaktionsprüfobjekte ausgewirkt hat (März 2024)
Am 12. März 2024 kam es zu einer Störung, die sich auf einen Unterbereich des Transaktions-Monitorings auswirkte. Das Problem betraf nur Transaktionen, die die Einstellung ‘Chrome Standard’ verwenden, und führte zu einem nicht korrekten Bericht von Navigationsfehlern, insbesondere dem Fehlercode 7001.
Details zum Ereignis
- Betroffener Service: Transaktionsprüfobjekte (nur „Chrome Standard“-Einstellung)
- Startzeit: 14:00 Uhr CET
- Endzeit: 18:20 Uhr CET
- Auswirkung: Unterbrochene oder durchgehende Fehler aufgrund nicht korrekter Navigationsfehler-Meldungen, möglicherweise unbegründete Alarmierungen und nicht korrekt aufgezeichnete Ausfallzeiten.
Wir wissen, wie wichtig das korrekte Monitoring ist und dass dies eventuell Unannehmlichkeiten verursacht hat. Das Problem wurde bis 18:20 Uhr CET, vollständig behoben, und wir haben Schritte eingeleitet, um solche Ereignisse in Zukunft zu vermeiden.
Warst du betroffen?
Wenn deine Transaktionen mit der Einstellung „Chrome Standard“ ausgeführt werden, kann es sein, dass dein Monitoring beeinträchtigt war. Das Problem wirkte sich nicht sofort auf alle Überwachungen aus, was eventuell zu unterbrochenen Fehlermeldungen geführt hat.
Die nächsten Schritte für betroffene Kunden
-
Neuberechnung der Verfügbarkeit: Wir sind uns der Ungenauigkeit der Ausfallzeitberichte bewusst, die durch dieses Ereignis verursacht wurde. Weitere Informationen zum Löschen von Fehlern und der Neuberechnung der Verfügbarkeit findest du in unserer Knowledge Base.
-
Alarme überprüfen: Wir empfehlen, alle Alarme, die in diesem Zeitraum eingegangen sind, auf Korrektheit zu überprüfen.
Wir bitten für eventuell entstandene Unannehmlichkeiten um Entschuldigung und danken für dein Verständnis, während wir an der Lösung des Problems gearbeitet haben.
Verzögerte E-Mail-Zustellung (Dezember 2023)
Kürzlich wurde ein Zustellungsproblem bei unserem E-Mail-System identifiziert. In den letzten Tagen hat eine technische Störung dazu geführt, dass einige E-Mails, die von unserem Service generiert wurden, in einer Warteschlange aufgenommen wurden, statt sofort gesendet zu werden. Das Problem wurde am 20. Dezember 2023 behoben, indem unser Team das System auf die normale E-Mail-Zustellung zurückgesetzt hat und die sofortige Aussendung aller E-Mails der Warteschlange sicherstellte.
Aufgrund dieses Vorfalls ist es möglicherweise zu einer Empfangsverzögerung bestimmter E-Mails gekommen. Wir haben seitdem unsere Monitoring-Verfahren für die E-Mail-Zustellung verbessert, um ähnliche Probleme zukünftig zu vermeiden.
Wir bitten für eventuell entstandene Unannehmlichkeiten um Entschuldigung und danken für dein Verständnis. Solltest du Bedenken haben oder weitere Informationen zu diesem Problem benötigen, wende dich bitte an unser Support-Team.
Problem mit Timeline-Screenshots (Oktober 2023)
Um deine Endnutzer am besten wiederzugeben, ist Uptrends bestrebt, die neuesten Browserversionen für das browserbasierte Monitoring in deinem Accounts einzusetzen. Dafür folgen wir dem Chrome-Release-Rhythmus. Leider wurde mit dem Roll-out von Chrome 118 ein Fehler bei der Erstellung von Screenshots in den Chrome-Entwicklertools eingeführt. Für Uptrends bedeutete dies, dass bei allen Browser Checks, die von Checkpoints mit Chrome 118 ausgeführt wurden, Timeline-Screenshots fehlten. Statt einer Reihe von Screenshots zu enthalten, die verschiedene Phasen des Ladens der Seite erfassten, zeigt das Prüfobjektergebnis einen einzelnen leeren Screenshot.
Das langsame Ausbringen des neuen Chrome Releases bedeutete, dass seit dem Release von Chrome 118 Anfang des Monats mehr und mehr unserer Checkpoints von dem Problem betroffen waren. Daher werden bei immer mehr Ergebnissen von Browser Checks Timeline-Screenshots fehlen.
Wir haben eine Lösung entwickelt und sind derzeit dabei, unser gesamtes Checkpoint-Netzwerk zu aktualisieren.
Alarmierungsausfall (21.–22. August 2023)
Zwischen dem 21. und 22. August 2023 trat bei der Uptrends Plattform ein Problem auf, aufgrund dessen keine Alarmierungsbenachrichtigungen durch die verfügbaren Integrationen gesendet wurden. Das Problem begann am 22. August 01:47 CEST (21. August 19:47 EDT) und wurde am 22. August 02:52 CEST (21. August 20:52 EDT) behoben. Während dieser Zeit wurden keine Warnmeldungen gesendet. Alle Alarme, die in diesem Zeitraum generiert wurden, werden in der Alarmierungshistorie in deinem Account angezeigt, da nur die ausgehenden Benachrichtigungen betroffen waren. Das Monitoring war nicht beeinträchtigt.
Aufgrund dieses Ausfalls haben Plattformen, die eingehende Benachrichtigungen von Uptrends (wie zum Beispiel Incident Management Tools, Automatisierungstools oder Kommunikationsplattformen) handhaben, die Meldung nicht erhalten, die eine Reaktion wie die Erzeugung eines Tickets, eines Ereignisses oder einer Benachrichtigung hätte auslösen sollen, während darauffolgende „Ok“-Meldungen eingingen. Im Gegenzug wurden eventuell Warnmeldungen empfangen, für die nie eine „Ok“-Benachrichtigung gesendet wurde, sodass der Alarm oder das Ereignis bei externen Plattformen möglicherweise noch als aktuell gilt. Siehe in der Übersicht zum Meldestatus in deinem Account nach, um den Echtzeit-Status deiner Uptrends Alarme zu erfahren.
Unterbrochener Uptrends Service (6. April 2022)
Am 6. April 2022 kam es bei der Uptrends Plattform zu zwei nicht zusammenhängenden Ereignissen, die sich beide auf die Ausführungen von Prüfungen und Alarmierungen sowie auf den Zugriff auf die Plattform auswirkten.
Das erste Ereignis begann etwa um 8:15 Uhr UTC und dauerte bis etwa 9:00 Uhr UTC. Es wurde von einem Problem in der zugrunde liegenden Infrastruktur von AMS-IX verursacht, das sich auf eine große Anzahl von AMS-Kunden auswirkte, einschließlich beider Datenzentren von Uptrends. Für weitere Informationen zu diesem Ereignis verweisen wir auf diesen Ausfall-Bericht, der von AMX-IX veröffentlicht wurde.
Das zweite Ereignis begann etwa um 13:30 Uhr UTC und dauerte bis etwa 14:30 Uhr UTC. Dieses Problem wurde von einem Software-Fehler verursacht, der zuvor mit der Veröffentlichung einer neuen Version am selben Tag eingeführt wurde. Dies wirkte sich erheblich auf die Performance der Uptrends Datenbank aus. Sobald das Problem sichtbar wurde, arbeiteten unsere Software-Entwickler an seiner genauen Identifizierung und veröffentlichten eine Version, die das Problem eindämmte.
Unvollständiger Wasserfall aufgrund von Problemen mit Chrome Service Worker (16. November 2021)
Ab dem Release von Chrome 96 werden Service Worker nicht mehr korrekt installiert, sodass Objekte im Wasserfallbericht des Full Pagechecks eventuell fehlen. Uptrends führt seine Checkpoints immer auf der letzten stabilen Version von Chrome aus, wodurch die Uptrends Anwendung manchmal solchen Bugs ausgesetzt ist.
Hintergrund: Service Worker
Ein Service Worker ist ein Skript, das im Hintergrund deines Browsers unabhängig von einer Webseite ausgeführt wird. Es ermöglicht dir Funktionen wie den Cache, Push-Benachrichtigungen oder eine Datensynchronisation im Hintergrund zu nutzen. Service Worker sind in der Lage, Netzwerk-Traffic abzufangen und programmatisch Ergebnisse aus Caches abzurufen.
Was ist das Problem?
Ab Chrome 96 hat Chrome die Art geändert, wie Service-Worker-bezogene Ereignisse registriert werden. Das wurde jedoch nicht richtig in ChromeDriver implementiert. ChromeDriver, der auch vom Google-Team gepflegt wird, ist das Werkzeug, das Uptrends nutzt, um Browser-Checks zu automatisieren. Der Service Worker hängt sich bei der Installation auf, wodurch Objekte im Wasserfall des Full Pagechecks fehlen. Wir arbeiten mit den entsprechenden Teams zusammen, um das Problem zu beheben.
Auswirkung und Schadensminderung
Die meisten Websites, die Service Worker verwenden, werden die Seite immer noch korrekt laden. Jedoch werden einige oder sogar viele Objekte im Wasserfall fehlen. Auch kann sich das Verhalten der Seite ändern. Das führt dazu, dass Informationen eventuell nicht verfügbar sind, um Probleme zu beheben. Es kann sich auch auf die berichtete Gesamtzeit auswirken. Als Vorbeugung in Bezug auf nicht korrekte Gesamtzeiten kannst du auf die Ladezeitwerte auf Basis des W3C Events wechseln. Um mehr Objekte zu sehen, kannst du den Browser ändern, beispielsweise nach Firefox.
Weitere Informationen
Siehe https://bugs.chromium.org/p/chromium/issues/detail?id=1270761.
Let‘s Encrypt – Zertifikatsprobleme (30. April 2021)
Am Freitag, den 30. April 2021, um etwa 19:40 Uhr (UTC), meldeten eine erhebliche Anzahl HTTPS-Prüfobjekte von vielen Uptrends Kunden den Fehler, dass das HTTPS-Zertifikat nicht bestätigt werden konnte. Nicht alle Prüfobjekte meldeten dieses Problem: Betroffen waren nur Websites, die ein vom Zertifikatsaussteller Let‘s Encrypt ausgegebenes TLS-Zertifikat nutzten.
Hintergrund: HTTPS-Prüfobjekte führen Zertifikatsprüfungen aus
HTTPS-Prüfobjekte testen die Verfügbarkeit der angegebenen URL. Sie prüfen auch die Gültigkeit des vom Server bereitgestellten HTTPS-Zertifikats, wenn die Option SSL Zertifikat Fehler prüfen auf der Registerkarte Erweitert in den Prüfobjekteinstellungen aktiviert ist. Zertifikate sind nur gültig, wenn sie noch nicht abgelaufen sind. Neben dem automatischen Ablauf (üblicherweise nach einem Jahr) können Zertifikate auch von dem Zertifikatsaussteller widerrufen werden. Daher muss die HTTPS-Zertifikatsprüfung bestätigen, dass das Zertifikat nicht widerrufen wurde, um eine unumstößliche Prüfung vorzunehmen und sicherzustellen, dass dem Zertifikat vertraut werden kann. Ohne dem wäre die Prüfung im Wesentlichen nicht schlüssig.
Was war das Problem?
Die Prüfung auf Widerruf wird auf zwei Wegen durchgeführt: über das OCSP (Online Certificate Status Protocol) und über eine Zertifikat-Widerrufsliste (Certificate Revocation List, CRL). Mehrere Stunden nach dem Ereignis berichteten Mitarbeiter von Let‘s Encrypt, dass sie eine abgelaufene CRL veröffentlicht hatten, weshalb CRL-Prüfungen fehlschlugen und einen Fehler meldeten. Als Folge meldeten Uptrends‘ Prüfobjekte einen möglicherweise unsicheren Status, da die Gültigkeit der Zertifikate einfach nicht bestätigt werden konnte.
Dies wirkte sich nicht nur auf Uptrends‘ Prüfobjekte aus: Jeder, der .NET oder Java-Code nutzte, um auf Websites und APIs zuzugreifen, war von dieser Situation betroffen. Das Problem wurde von Let‘s Encrypt am Samstag, den 1. Mai 2021, um 00:04 Uhr (UTC) behoben.
Browser haben dieses Problem nicht gemeldet.
Browser verwenden häufig eine eigene interne Zertifikats-Widerrufsliste, die sich nicht auf Zertifizierungsstellen stützt. Daher wurden betroffene Websites ohne Probleme im Browser dargestellt.
Fazit, Empfehlungen und Follow-up
Es bestand ein echtes Problem. Daher waren die Fehlermeldungen (Fehler oder Alarme? Beides?), die von den Uptrends HTTPS-Prüfobjekten verzeichnet wurden korrekt. Wir konnten die Gültigkeit der Zertifikate nicht bestätigen und somit auch nicht die Sicherheit, die sie gewährleisten sollten.
Wir sehen jedoch, dass es für unsere Kunden praktisch unmöglich war, das Problem zu lösen, da die Störung vollständig auf externen Faktoren beruhte. Damit du in Zukunft mehrere Wahlmöglichkeiten hast, ziehen unsere Entwickler die Einrichtung zusätzlicher Einstellungsoptionen in Betracht, sodass du den Level der Zertifikatsprüfungen (einschließlich Prüfung von Widerrufslisten) bestimmen kannst.
Wenn ein Problem wie dieses auftritt und du sicher bist, diese Art von Fehler zeitweilig ignorieren zu wollen, kannst du die Zertifikatsprüfungen umgehen, indem du SSL Zertifikat Fehler prüfen auf der Registerkarte Erweitert in den Prüfobjekteinstellungen deaktivierst.
Der Statusbericht von Let‘s Encrypt zu diesem Problem ist unter https://letsencrypt.status.io/pages/incident/55957a99e800baa4470002da/608c9dd384a5cf052fc6ed24 zu finden.