Petya Petrova - Fotolia

Echtzeit-Datensammlung für Data Warehouses mit Oracle

Die Realtime-Datenintegration im Data Warehouse benötigt Lösungen mit einer hohen Anforderung an Live-Migration und Integration heterogener Systeme.

Eine der häufigsten Beschränkungen von Software für Data Warehouses liegt darin, dass auf den Quellsystemen ein Zeitfenster für die Erstellung von Extrakten zur Verfügung gestellt werden muss. Der ressourcenintensive Extraktionsprozess muss meist außerhalb der Geschäftszeiten vorgenommen werden und schränkt währenddessen den Zugriff auf kritische Quellsysteme ein.

Mit Software für Echtzeit-Datenintegration ohne große Belastungen können Sie Ihre Systeme von solchen Batch-Fenstern befreien. Für den Extraktionsteil kommt dabei eine nicht-intrusive Methode zum Einsatz, etwa das Auslesen der Transaktionslogs von Datenbanken, so dass nur veränderte Daten erfasst werden. Damit kann die Datenextraktion jederzeit und den ganzen Tag über erfolgen, während die Nutzer weiter online sind.

Wenn die Extraktion sogar in Echtzeit geschieht, können die gewonnen Daten für das Unternehmen einen enormen Wert bringen – auch wenn dafür Anpassungen einiger Elemente im Prozess der Datenextraktion nötig sind. Hinzu kommt: Die Daten müssen wirksam geschützt werden, doch bei ständig bewegten Daten ist es schwieriger, die üblichen Techniken für Disaster Recovery und Backups anzuwenden.

Zum Glück lässt sich genau die Technologie, die Echtzeit-Datenintegration in Data Warehouses ermöglicht, zugleich auch dafür nutzen, diese Daten besser zu sichern. Denn Technologie, die Daten in Echtzeit bewegt, interagiert mit ihnen natürlich auch in Echtzeit – ein guter Ansatzpunkt für Schutzmechanismen. Allerdings können durch die zusätzliche Latenz bei solchen Prozessen das Tempo und die Effizienz bei der Handhabung bewegter Daten beeinträchtigt werden.

Wenn Sie zu aktiver und mit dem Data Warehouse integrierter Datensammlung übergehen wollen, sollten Sie also als erstes überlegen, wie die Daten durch Ihre unterschiedlichen IT-Systeme fließen und wo dadurch Latenz auftreten kann. Mit anderen Worten: Echtzeit-Datenintegration erfordert gute Kenntnisse über die bewegten Daten und die Komponenten, die diese Bewegung fördern oder behindern können.

Selbstverständlich müssen Unternehmen für die Sicherheit ihrer Daten sorgen. Dabei wird Storage-Technologie zu einem kritischen geschäftlichen Asset – angesichts stetig steigender Datenmengen umso mehr. Und je stärker Echtzeit-Datenanalysen zum Teil der üblichen Prozesse von Abteilungen werden, desto intensiver muss auch hier für ständige Verfügbarkeit gesorgt werden.

Der einfachste Ansatz für Datensicherung und -Kontinuität besteht in Hardware- oder Software-Replikation, bei der automatisch eine sekundäre Kopie wichtiger Daten angelegt wird. Auch intern entwickelte Backup-Methoden oder auf Basis von Open-Source-Software sind nicht allzu ungewöhnlich.

In Bezug auf Daten-Management investieren Unternehmen in fünf kritische Bereiche: Disaster Recovery, hohe Verfügbarkeit, Backup, Performance der Datenverarbeitung und -Migration auf moderne Datenbanken. Dies bereitet das Feld für IT-Abteilungen, fortschrittliche Technologien wie Echtzeit-Datenintegration und die dazugehörigen Infrastruktur-Elemente zum Einsatz zu bringen.

Ebenso können die genannten strategischen Investitionen dazu genutzt werden, Budgets für eine beschleunigte Realisierung von Echtzeit-Technologien entstehen zu lassen. Dies kann die erwartete Rendite steigen lassen und den Business Case für Projekte zur Echtzeit-Datenintegration stärken.

Wichtig dabei ist jedoch, die Investitionen auf die entsprechenden Elemente von Systemen zur Echtzeit-Datenintegration abzubilden. Dazu sind gute Kenntnisse über die Komponenten für solche Systeme und darüber nötig, was die Datenanforderungen in Organisationen für diese Komponenten bedeuten. Zu den Anforderungen zählen:

  • Datenvolumen (Größe der Daten und Häufigkeit der Aktualisierung);
  • Häufigkeit von Datenbewegungen;
  • Anforderungen an die Transformation;
  • Ausfall-Fenster und Business Continuity.

Genau diese Aspekte bestimmen letztlich darüber, welche Produkte für den Aufbau einer umfassenden Infrastruktur für Echtzeit-Datenintegration gewählt werden. In Zusammenhang mit Technologien zur Datensammlung wird der Ausdruck „Echtzeit“ allerdings nicht immer wörtlich verstanden: Manche Technologien drehen sich eher um das Konzept der „Rechtzeitigkeit“ für Business Intelligence. Letztlich steht der Begriff hier also für die unterschiedlichen Bedürfnisse der Benutzer in Bezug auf den Zugriff auf Informationen, die auch vom jeweiligen Anwendungsfall abhängen.

Für den Betrieb von Data Warehouses sollte man sich allerdings mit „rechtzeitig“ nicht zufrieden geben – die Technologie sollte echte Echtzeit-Fähigkeiten haben und die geschäftlichen Nutzer selbst bestimmen lassen, wann die richtige Zeit für einen Zugriff auf die Daten ist. Trotzdem könnten manche Unternehmen auch Wert im Konzept von rechtzeitiger BI sehen. Das wirft eine Frage auf: Wann sollte eine Organisation wirklich zu Echtzeit-Datenintegration greifen?

In der Realität verwenden Unternehmen gemischte IT-Architekturen von unterschiedlichen Anbietern (was oft eine Folge ihrer Entstehungsgeschichte ist). Bei der Auswahl von Technologie für Echtzeit-Datenintegration sollten Sie deshalb nach etwas Ausschau halten, mit dem sich eine solche Vielfalt an Plattformen für Datenbanken und Anwendungen leicht zusammenbringen lässt. Dies ist der wichtigste Erfolgsfaktor.

Die Integrationsplattform bildet das Fundament für Echtzeit-Daten, und Produkt übergreifende Kompatibilität ist eine der Hauptstützen dafür. Allerdings ist es durchaus eine Herausforderung, eine Plattform zu finden, die alle nötigen Fähigkeiten aufweist und Echtzeit-Verarbeitung unterstützt, ohne neue Schwierigkeiten zu bringen.

Das Angebot von Oracle für diesen Zweck heißt GoldenGate und funktioniert mit Oracle Database sowie auch konkurrierenden Produkten. Natürlich gibt es noch weitere Echtzeit-Plattformen auf dem Markt. Wenn es um Echtzeit-Datenintegration geht, sollten sie alle in Bezug auf mehrere Szenarien untersucht werden:

Hohe Verfügbarkeit: Die Plattform sollte automatisch eine externe Live-Kopie der Interim-Daten Ihrer Anwendungen anlegen. Dadurch ist ein Failover zum sekundären Storage mit minimaler Ausfallzeit möglich, wenn Disaster Recovery nötig wird.

Live-Migration: Upgrades, Migration oder Wartung eines Produktiv-Systems bringen üblicherweise Ausfallzeiten mit sich. Eine Plattform zur Echtzeit-Datenintegration ermöglicht im Idealfall Migrationen ohne jede Unterbrechung, bei denen das neue System startklar gemacht wird, während das alte noch läuft.

Integration von heterogenen Systemen: Ihre Anwendungen können auf Oracle, Microsoft SQL Server, Sybase oder DB2 angewiesen sein, Mit der richtigen Plattform zur Echtzeit-Datenintegration lassen sie alle sich mit denselben, geteilten Daten betreiben, wobei nur minimaler Integrationsaufwand anfällt.

IT-Konsolidierung nach Fusionen und Übernahmen in wachsenden Unternehmen: Vor der Einrichtung Ihrer endgültigen, einheitlichen Architektur sind die Daten dran: Mit einer Technik für Change Data Capture (CDC) lassen sich Daten von Zweigstellen und Abteilungen rasch konsolidieren (nebenbei: Natürlich wissen wir alle, dass es so etwas wie eine „endgültige Architektur“ eigentlich gar nicht gibt).

Auslagerung von Abfragen: Ein interessanter Nebeneffekt des Verteilens replizierter Daten über mehrere Data Marts ist die Verbesserung von OLTP-Performance und -Verfügbarkeit. Wenn Anfragen gleichzeitig von mehreren Servern bearbeitet werden, sollten sie schneller erledigt sein, so dass Sie Ihre Berichte früher bekommen.

Für Oracle-Kunden gibt es noch weitere Optionen zur Unterstützung des Prozesses der Echtzeit-Datenintegration. Produkte wie Oracle Active Data Guard sind hilfreich, wenn Quelle und Kopien auf identischen Oracle-Versionen und Datenmodellen beruhen, Oracle Real Application Clusters verspricht ein transparentes Failover von Anwendungen, wenn die Kopien nah genug sind. Auch das Modell Infrastructure as a Service, das wegen seines günstiges Preises und seiner Flexibilität derzeit an Beliebtheit gewinnt, kann helfen: Mit ihm können Sie eine sekundäre Kopie von geschäftskritischen Daten in der Cloud unterbringen.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Erfahren Sie mehr über Business-Software