Hypercube Spezialindex & Volltextsuche

Hypercube - Spezialindex für komplexe Datenabfragen

Transbase® Hypercube ist die Index-Technologie für multidimensional strukturierte Daten und eignet sich ideal für Data Warehouse-Systeme oder OLAP-Applikationen sowie als High-End Datenbanksystem.

Es können auch hierarchisch aufgebaute Dimensionen einbezogen werden. Hypercube ist nahtlos in den Kern von Transbase® integriert und vereinfacht somit die Definition und Aktualisierung der Datenbestände erheblich.

Transbase® Hypercube eignet sich besonders zur Analyse und Auswertung großer Datenmengen (Big Data) nach unterschiedlichsten Kriterien.

Hypercube Anwendungsbereiche:

Transbase Hypercube - Gewinner des European Information Technology Preises

Transbase® Hypercube eignet sich besonders zur Analyse und Auswertung großer Datenmengen nach unterschiedlichsten Kriterien.

Dazu zählen insbesondere komplexe Applikationen aus den Bereichen:

  • Big Data
  • Business Analytics & Business Intelligence (BA/BI)
  • Business Performance Management
  • Internet of Things (IoT)
  • Planung, Analyse und Reporting
  • Statistikdatenbanken

Transbase® Hypercube überzeugt dann, wenn es darum geht, sehr große Datenmengen schnell nach mehreren Merkmalen gleichzeitig zu durchsuchen. So wurde Transbase® Hypercube z.B. erfolgreich von Mobilfunkanbietern zur geographischen Analyse von Funkmessdaten, sowie in der Marktforschung zur Aufbereitung der Verkaufszahlen von Musik, Büchern und und Spielen eingesetzt.

Transbase® weist eine Vielzahl von Eigenschaften auf, die bei spezialisierten OLAP-Lösungen nicht in gleicher Weise vorhanden sind. Gerade bei den oben genannten Applikationen sind sie aber wegen der großen Datenmengen von entscheidender Bedeutung.

Die Vorteile von Transbase® Hypercube zeigen sich durch:

  • Performanz und Skalierbarkeit
  • Backup- und Recovery
  • strikter Transaktionsschutz
  • Datenschutz durch Verschlüsselung

Nur durch die vollständige und nahtlose Integration der Hypercube-Technologie als echte Index Technologie in den Datenbank-Kern ergeben sich die entscheidenden Vorteile in allen Bereichen des Application-Lifecycle.

Die Auswertungseffizienz ergibt sich durch die ausgezeichneten Clustering-Eigenschaften des Hypercube-Index sowie durch die Einbeziehung der komplexen, aber effizienten Auswertungsalgorithmen in den Datenbank-Kern. Dabei ist vor allem die Integration der Hypercube-Algorithmen in den normalen Query-Optimierungs-Prozess zu nennen.

Die Effizienz der Anwendungsentwicklung ergibt sich durch:

  • übersichtliche Beschreibung der Hierarchien in der Definition des Datenbankschemas
  • standardkonforme SQL-Abfragen ohne spezielle Konstrukte, die die Semantik der Abfragen verschleiern
  • den automatischen Einsatz des Hypercube-Index durch den Query-Optimierer
  • den Wegfall von programmatischem Aufwand zur Wartung der Hilfsdaten
  • die Unterstützung von Standardschnittstellen

Für die Modellierung von Datenbanken mit Transbase® Hypercube eignet sich besonders der bereitgestellte graphische Datenbank-Editor TBJ. Er unterstützt den Entwurf und die Analyse von Datenbank-Schemata durch eine formularorientierte Darstellung und Definitionsmöglichkeit von Datenbankobjekten. Dabei werden insbesondere auch Hierarchien und MHC-Schemata übersichtlich dargestellt.


MHC-Technologie für multidimensionale Indexierung:

Mit der MHC-Technologie vereint der Transbase® Hypercube-Spezialindex zwei Indexierungstechnologien (multidimensionales Clustering und hierarchisches Clustering) zu einem effizienten und einfach einzusetzenden Werkzeug. Für die Realisierung des hierarchischen Clusterings verwendet Transbase® Hypercube eigene numerische Codierungen, sogenannte Surrogate.

Transbase® Hypercube beinhaltet den multidimensionalen Hypercube-Index und die dazu nötigen Verfahren zur effizienten Manipulation und Auswertung der gespeicherten Daten.

Mit der nahtlosen Integration in den Transbase® Kernel wird diese Technologie einfach, robust und effizient anwendbar.  Dadurch ergeben sich signifikante Produktivitätsvorteile - sowohl bei der Erstellung, Wartung und Weiterentwicklung als auch im Betrieb der entsprechenden Anwendungen. Durch die ausgezeichnete Performance werden in vielen Fällen Ad-hoc-Auswertungen überhaupt erst realistisch durchführbar.

Transbase® MHC (Multidimensionales Hierarchisches Clustering)

Transbase® Hypercube vereint zwei Indexierungstechnologien zu einem effizienten und einfach einzusetzenden Werkzeug:

  • Multidimensionales Clustering (MC)
  • Hierarchisches Clustering (HC)

Die Kombination dieser Techniken wird daher auch als Multidimensionales Hierarchisches Clustering (MHC) bezeichnet. Es unterstützt in besonderer Weise das Filtern und die Analyse von mehrdimensional und hierarchisch strukturierten Datenbeständen, wobei lineare und hierarchische Merkmale in beliebigen Kombinationen auftreten können.

Transbase® MC (Multidimensionales Clustering)

Multidimensionales Clustering unterstützt die Verarbeitung von mehrdimensional, d.h. nach verschiedenen unabhängigen Merkmalen, gegliederten Datenbeständen.

Mit dem Hypercube-Index als physische Datenstruktur werden Datensätze als mehrdimensionale Punkte im Raum geschickt organisiert und nach ihrer "räumlichen" Position gespeichert. Das bedeutet, dass sich Datensätze, die in räumlicher Nähe liegen, in wenigen Festplatten-Blöcken sammeln und damit durch wenige Leseoperationen vom Sekundärspeicher geladen werden.

Dies beschleunigt insbesondere die typischen Abfragen, die mehrdimensionale Bereiche als Treffermenge haben, da bei großen Datenbeständen die Effizienz der Auswertung fast ausschließlich durch den Zugriff auf den Sekundärspeicher bestimmt wird.

Transbase® HC (Hierarchisches Clustering)

Bei OLAP-Anwendungen sind die einzelnen Dimensionen oft hierarchisch organisiert. Die Hierarchien sind dabei im Wesentlichen durch die möglichen Auswertungsebenen gegeben.

Das hierarchische Clustering ermöglicht nicht nur das effiziente Filtern nach den Einheiten auf beliebigen Hierarchieebenen, sondern vor allem auch die effiziente Gruppierung und Auswertung des Datenbestandes nach diesen Einheiten.

Surrogat-Technik

Transbase® Hypercube verwendet eigene numerische Codierungen, sogenannte Surrogate. Im Prinzip ähnelt dies der Vergabe von Postleitzahlen, die die Hierarchie abbilden. Diese Codierung wird dann für die geclusterte Speicherung der Daten im Hypercube-Index verwendet, der dabei die Surrogate der einzelnen Dimensionen für die multidimensionale Indexierung verschränkt.

Die Vergabe und ggf. Aktualisierung dieser Surrogate wird dabei automatisch von Transbase® Hypercube vorgenommen. Vom Entwickler werden lediglich die Hierarchieebenen für die Dimensionen und die entsprechenden Fremdschlüsselbeziehungen definiert.

Durch die hierarchische Codierung mittels der Surrogat-Technik ergeben die Einschränkungen auf Hierarchieelemente jeweils zusammenhängende Intervalle im Surrogatbereich.

Datenhaltung:

Durch die automatische Pflege der Hierarchieinformation (Surrogate) in den Datenbeständen entfällt die Notwendigkeit einer speziellen Aufbereitung der Daten bei der Übernahme, was den ganzen Prozess erheblich erleichtert.
Außerdem tragen folgende Features dazu bei, dass die Datenübernahme und Auswertung in einfacher und effizienter Weise erfolgen kann.

  • Stored-Procedures und User-Defined-Functions ermöglichen komplexe Transformationen und Auswertungen während des ETL-Prozesses.
  • Der Transbase® OCI-Reader und der Transbase® JDBC-Reader ermöglichen den direkten Zugriff auf Oracle- bzw.  JDBC-fähige Datenbanken und machen so den Umweg über Export und Import überflüssig.
  • Verbreitete ETL-Tools können über Standard-Schnittstellen wie ODBC, OLEDB, ADO.NET und JDBC angeschlossen werden.
  • Spezielle Algorithmen beschleunigen das Einfügen großer Datenmengen in Transbase® Hypercube.
  • Mittels analytischer Funktionen können komplexe Auswertungen direkt in SQL formuliert werden (z.B. RANK, PARTITION OVER). Dadurch werden Reporting-Applikationen entlastet, während das Datenbanksystem seine Optimierungsmöglichkeiten voll ausschöpfen kann.

Datenauswertung:

Ein spezieller Algorithmus sorgt für die optimale Ausnutzung der in den Surrogaten enthaltenen Hierarchieinformation:

  • Zunächst werden die Restriktionen der Dimensionen ausgewertet. Dadurch entstehen Intervalle auf den Dimensionscodierungen, die auf der Faktentabelle über den Hypercube-Index besonders performant evaluiert werden.
  • Durch die Hierarchie-Kodierungen in der Faktentabelle kann bereits eine Gruppierung und Zusammenfassung (z.B. Summierung) von Daten vorgenommen werden, ohne dass dazu die einzelnen Datensätze mit den Dimensionen kombiniert werden müssen.
  • Der Aufwand für die Kombination der wenigen verbleibenden Gruppen mit den Dimensionen (der sog. „Rückjoin“) ist daher nahezu zu vernachlässigen.

Durch diese Query-Abarbeitung beschleunigt sich die Ausführung solcher Anfragen um Größenordnungen im Vergleich zu herkömmlichen Datenbanksystemen.

Erfahren Sie mehr über Transbase® Hypercube oder ein Anwendungsbeispiel zum effizienten Einsatz.


Transbase® Volltextsuche in großen Textsammlungen

Transbase® Volltext ist ein Spezialindex zur Volltextindexierung. Er erlaubt Ihnen große Textsammlungen in Sekundenschnelle nach definierten Begriffen effizient und lückenlos zu durchsuchen.

Die vollständige Integration in SQL ermöglicht die Kombination mit anderen, strukturierten Suchbegriffen. Damit ist Transbase® Volltext die ideale Basis für alle Datenbanken, die textuelle und strukturelle Suche verbinden. Die Textrepräsentation kann in Single-Byte, Multi-Byte oder UNICODE-Darstellung erfolgen.

Volltextindexe lassen sich auf Tabellenspalten vom Typ CHAR oder VARCHAR sowie auf BLOB- und CLOB-Spalten erstellen. Dabei können die BLOB-Objekte auch beliebige Mischungen aus Text und Bildern enthalten. Volltextindexe können dynamisch entfernt und hinzugefügt werden. 

Die Vorteile der Volltextindexierung sind:

Integration in SQL:

Suchprädikate sind daher beliebig mit anderen Suchprädikaten kombinierbar. Alle logischen Verknüpfungen sind innerhalb von Volltextprädikaten und gemischt mit Standardsuchprädikaten verwendbar.

Wortsuche und Pattern-Matching:

Der Grundbaustein der Volltextsuche ist die Suche nach einem Wort, die mit der Suchklausel <feld> CONTAINS ( ’wort’ ) ausgedrückt wird. Die Suche nach einem Wortmuster wird durch die Verwendung der in SQL üblichen Wildcards ’%’ und ’_’ ausgedrückt. Logische Verknüpfungen werden mit AND und OR in der Wortargumentliste ausgedrückt. 

Nachbarschaftssuche:

Durch eine zusätzliche Klausel beim Indextyp kann Transbase® Volltext auch die Nachbarschaftssuche abdecken. Dadurch ist es möglich, auf Vorkommnisse von Wortpaaren in einer gegebenen Distanz zu suchen. Beispielsweise sucht die Klausel <feld> CONTAINS ( ’wort1’  ’wort2’ ) auf Vorkommnisse von beiden Worten, die unmittelbar hintereinander im Text erscheinen. Außerdem ist optional auch eine beliebige minimale und maximale Distanz spezifizierbar.

Zeichen-Mapping, Stoppworte und Delimiter:

Zur Reduktion des Platzbedarfs kann bei der Kreierung des Volltextindexes eine beliebige Liste von Worten angegeben werden, die nicht indexiert werden. Umlaute und Großkleinschreibung können durch ein beliebig spezifizierbares Zeichen-Mapping behandelt werden. Sonderzeichen und Wortumbruch sind durch die Spezifikation von Delimiter-Zeichen bei Bedarf ebenfalls explizit spezifizierbar.

Erfahren Sie mehr über Transbase® Volltext.