Häufig gestellte Fragen

Verändern Sie die Arbeitsweisen in Ihrem Unternehmen durch den Einsatz der richtigen Daten: ONE DATA kann Ihre Datenprojekte vom Prototyp in die Produktion überführen. Da dies ein mehrstufiger Prozess sein kann, an dem verschiedene Interessengruppen beteiligt sind, ergeben sich Fragen, für die wir diesen Fragenkatalog zur Verfügung stellen. Für weitere Informationen nutzen Sie bitte das untenstehende Kontaktformular.

 

 

Allgemein

Wir haben festgestellt, dass aus verschiedenen Gründen viele Ideen und Projekte auf der Ebene einer Machbarkeitsstudie verharren und nicht in die Produktion überführt werden können. Bis dahin verursachen sie in der Regel hohe Kosten, aber nur wenige wertschöpfende Erkenntnisse, die im Unternehmen nachhaltig und profitabel genutzt werden können.
„Vom Prototyp zur Produktion“ bedeutet aus unserer Sicht, dass Ideen aus der Prototypenphase - also aus der Denkfabrik, in der Sie basteln und bauen – auf die Produktionsebene überführt und auf sinnvolle und effiziente Weise gewinnbringend innerhalb der Firma eingesetzt werden können. ONE DATA berücksichtigt die Produktivsetzung der Projekte bereits zu Beginn und nicht erst am Ende des Projekts.

  • Wenn Sie effizient im Team arbeiten möchten und die Möglichkeit haben, dies abteilungsübergreifend zu tun.
  • Wenn Transparenz für Sie wichtig ist und die Ergebnisse Ihrer Arbeit mithilfe interaktiver Dashboards leicht verständlich sein sollten, auch für Projektbeteiligte mit geringen IT-Kenntnissen aber hoher Fachkenntnis.
  • Wenn Sie Entscheider ohne fundierte IT-Kenntnisse sind und unabhängig von den Analysen Ihrer Kollegen individuelle Handlungsempfehlungen ableiten möchten.
  • Wenn Sie noch einen Schritt weitergehen und Parameter in Workflows und Analysen ändern möchten, die auf Ihre Bedürfnisse zugeschnitten sind.
  • Wenn Ihr Projekt die Integration und Harmonisierung heterogener Datenquellen benötigt.
  • Wenn Sie wissen, dass Sie mit Data Science Ihre erfolgreichen Ideen schneller, einfacher und effizienter umsetzen können, um Projekte vom Prototyp in die Produktion zu bringen.

Innerhalb der ONE DATA Plattform kann jedes Teammitglied in Ihrem Unternehmen oder auch externe Nutzer oder Kunden gemeinsam an Projekten arbeiten. Egal, ob Sie ein Entscheidungsträger mit weniger IT-Kenntnissen, ein Data Scientist, ein Dateningenieur, ein Assistent einer Abteilung oder ein externer Benutzer sind, jeder Benutzer hat einen individuellen Zugriff auf vordefinierte Bereiche innerhalb eines oder mehrerer Projekte.

Der Application Builder ONE DATA kann heterogene Datenquellen kombinieren. So können Sie Datenprodukte transparent und effizient erstellen und visualisieren, und nach nur kurzer Prototyping-Phase schnell in einer produktiven Umgebung einrichten. ONE DATA fungiert als unabhängige Self-Service-Plattform, ist ein Bindeglied zwischen verschiedenen Werkzeugen zum Verbinden von Schnittstellen und kann als Data Hub verwendet werden. Mit interaktiven Dashboards können auch Fachanwender ohne fundierte IT-Kenntnisse Data Science-Projekte nachverfolgen, verstehen und daraus auf einfache Weise Handlungsempfehlungen ableiten. Die Benutzeroberfläche der Plattform kann vollständig an Ihre Anforderungen angepasst werden. Es fügt sich nahtlos in die unternehmenseigene IT-Infrastruktur ein und lässt sich problemlos auf Unternehmensebene skalieren. Data Scientists und andere technisch versierte Anwender können eigene Analyseansätze entwickeln und weitere Optimierungspotenziale unkompliziert aufdecken.

ONE DATA wurde aus dem Drang heraus entwickelt, keine Ressourcen zu verschwenden. Als datengetriebener Application Builder verwandelt ONE DATA Daten schnell und effizient in einen Mehrwert für Ihr Unternehmen. Getreu unserem Grundsatz „from prototype to production“ ebnet ONE DATA den Weg, um Ideen bereits nach einer kurzen Prototyping-Phase schnell umsetzen zukönnen. Die Hauptkomponenten von ONE DATA sind Datensätze, Workflows, Modelle und interaktive Dashboards - die vier Hauptschichten eines typischen Data Science Prozesses. Unser Ziel innerhalb von ONE DATA ist es nicht, Data Science einfach zu machen - unser Ziel ist es, den Produktionsprozess von Data Science zu vereinfachen.

Funktional

ONE DATA bietet vollständige Transparenz für die berechtigten Personenkreise und Reproduzierbarkeit aller auf der Plattform erstellten Analyse-Workflows und Ergebnisse. ONE DATA speichert die gesamte Historie der Analyse-Workflows effizient und verschlüsselt auf der Plattform. Somit können Sie die Ergebnisse und die Qualität der implementierten Funktionalitäten jederzeit beibehalten. Mit ONE DATA können alle Ressourcentypen einzeln benannt, mit benutzerdefinierten Schlüsselwörtern versehen und gesucht werden. Ressourcen können auch zu bestimmten Projekten hinzugefügt und anschließend auf Projektebene zusätzlich dokumentiert werden. Prozessoren innerhalb eines Analyse-Workflows können umbenannt, farbcodiert und gruppiert uvm. werden. Darüber hinaus können Sie Ihre Ressourcen innerhalb eines Projekts freigeben.

Wir setzen eine Vielzahl von Werkzeugen ein, um Teamwork sinnvoll umsetzen zu können. ONE DATA ist in Projekte unterteilt, deren Teilnehmer unterschiedlichen Rollen und Rechten zugeordnet sind. Darüber hinaus bieten wir Ihnen die Option der Analyseberechtigung, mit der verschiedene Bereiche für verschiedene Personengruppen auf globaler Unternehmensebene sichtbar und / oder bearbeitbar gemacht werden können. Mithilfe von „Key Rings“ können zuvor definierte Personen Analysen kritischer Daten einsehen, bearbeiten oder verwenden, ohne vertrauliche Zugangsdaten weitergeben zu müssen.

Für die Auswertung der Ergebnisse bietet ONE DATA umfassende Berichtsfunktionen zur Visualisierung Ihrer Daten. Sie können die Analyseergebnisse Ihrer Workflows in interaktiven Apps visualisieren. Zusätzlich zu den Visualisierungen können Benutzer Container einbetten, um Parameter von Modellen oder Algorithmen zu ändern. Dies bietet Benutzern die Möglichkeit, Variablen oder Eingabeparameter zu ändern, ohne den gesamten zugrunde liegenden Workflow und die Analyse ändern zu müssen. ONE DATA bietet eine breite Palette von ca. 25 Visualisierungsmöglichkeiten, darunter Balkendiagramme, Messdiagramme, Boxplots, Heatmaps, KPI-Visualisierungen und vieles mehr, für verschiedene Endgeräte optimierbar und einer Beschreibungssprache, die keine Wünsche offen lässt.

 

Die ONE DATA Plattform bietet die Möglichkeit, Modelle ohne Code in Ihre Analyse-Workflows zu integrieren und auszuführen, extern entwickelte Modelle hochzuladen und ihre trainierten Modelle zu verwalten. Die Integration von Python und R-Code wird unterstützt. Die Algorithmen für maschinelles Lernen sind als non-Code Elemente verfügbar (basierend auf Spark ML). ONE DATA bietet ein modulares Setup, mit dem Sie für jeden Schritt Code- oder Non-Code-Tools auswählen können (Spark, R, Python, SQL werden unterstützt). Sie können Python- (inkl. Scikit-Learn) und R-Modelle mithilfe von Docker-Containern ausführen. Tensorflow wird derzeit in Python unterstützt. ONE DATA kann Modelle verschiedener Quellen (Spark, Mleap für R und Python) trainieren, warten und bedienen.

ONE DATA unterstützt verschiedene Arten des Datenzugriffs: Hochladen von Dateien, Hochladen von Modellen, relationalen Datenbanken, Web-APIs, Streaming-Daten, No-SQL-Datenbanken, spezifische Konnektoren und ist für zusätzliche Datenquellen erweiterbar:

 

ONE DATA bietet eine einheitliche Rechte- und Rollenverwaltung. Benutzer mit entsprechenden Rechten können auf einfache Weise Teilprojekte erstellen und Rollen innerhalb eines Projekts definieren. Jeder Rolle kann eine Gruppe von Benutzern zugewiesen werden, die über eine Reihe von Zugriffs- und Ausführungsrechten verfügen. Die Analyseberechtigung wird verwendet, um den Zugriff auf Daten auf Zeilenebene einzuschränken, sodass Projektbesitzer eine wachsende Benutzerbasis mit verschiedenen Verantwortlichkeitsebenen skalieren können. Nur durch explizite Berechtigungsdimensionen angegebene Gruppen oder Benutzer können auf die angegebenen Daten zugreifen. Mit dem Key Ring können Sie wie im echten Leben bestimmte Key Rings für externe ETL-Datenquellen zusammenfassen. Die "Credentials" speichern Benutzernamen und Kennwörter, um den Zugriff auf verschiedene Datenquellen zu erleichtern.

In ONE DATA ist jeder Analyseprozess als separater Workflow definiert. So kann der Anwender auf eine umfassende Bibliothek vordefinierter Prozesse und Methoden zurückgreifen, mit denen er Daten transformieren, statistische Methoden anwenden oder bequem ganze Analysesequenzen erstellen kann. Alle vorhandenen Prozesse können individuell angepasst und externe Codes (z.B. R oder Python) können zusätzlich integriert werden.

Dank des präzisen Rollen- und Rechteverwaltungssystems können nur Benutzer, die wirklich Zugriff benötigen, auf Analyse-Workflows zugreifen. Das Tool kümmert sich selbst um die Datenverwaltung und die Archivierung früherer Analysen. Dies sichert die Einhaltung von Audits und macht jede Änderung analysierbar, transparent und jederzeit nachvollziehbar.

IT Umgebung

ONE DATA ist auf einer Client-/Server-Architektur implementiert. Unsere zentrale Apache Spark-Komponente verwaltet die Parallelisierungs- und Ausführungslogik, einschließlich der verfügbaren physischen und virtuellen Infrastrukturkomponenten. Der Client basiert auf einem HTML5 / JavaScript-Frontend und die Serverkomponenten sind in Module unterteilt und unter Verwendung von Spring.io als Hauptanwendungsframework in Java implementiert. Die ONE DATA Plattform verwendet je nach erforderlichem Kontext Spark-, Python- und R-Berechnungen, um skalierbare und effiziente Workflow-Ausführungen zu erzielen. Ein HDFS- und ein Apache Parquet werden verwendet, um Zwischenergebnisse und Datensätze zu speichern. Benutzerverwaltungs- und Metainformationen werden in einem DBMS (Datenbankverwaltungssystem) gespeichert. ONE DATA kann vergrößert und verkleinert werden. Abhängig von der Verfügbarkeit minimaler Hardwareanforderungen kann mit der ONE DATA Plattform eine nahezu unbegrenzte Datenmenge verarbeitet werden.

Für eine Basisinstallation und die Ausführung einer Umgebung mit einem einzelnen Knoten sollten die folgenden Mindesthardwareanforderungen erfüllt sein:

  • 8 physikalische / dedizierte CPU-Kerne
  • 4 GB RAM auf jedem CPU-Core = 32 GB RAM
  • 100 GB System-Volume für Betriebssystem und temporäre Daten (SSD)
  • 2 TB Datenvolumen (Festplatte / Netzwerk)

Wenn die Datenmenge wahrscheinlich größer als 2 TB ist, ist ein Cluster-Setup die beste Möglichkeit, eine Installation von ONE DATA mit mindestens drei Knoten zu unterstützen, um Daten zu speichern und verteilte Vorgänge auszuführen:

  • 32+ CPU-Kerne
  • 8+ GB RAM pro CPU-Core
  • 250 GB System-Volume für Betriebssystem und temporäre Daten
  • 4 TB Datenvolumen für HDFS

Betriebssystem und Umgebung für die Installation:

  • Unterschiedliche Betriebssysteme werden unterstützt, vorzugsweise wird ein Linux-Betriebssystem (Red Hat oder Debian) eingesetzt
  • PostgreSQL (Version >= 9.6 und <10) zum Speichern von Metadaten
  • Java 1.8
  • Tomcat 8.5
  • PostgreSQL-JDBC-Treiber
  • JavaMail

Eine einheitliche Rechte- und Rollenverwaltung ist nativ in ONE DATA integriert. Unsere Benutzerverwaltung bietet benutzerbasierte Authentifizierung, Ressourcenbeschränkungen, Analyseberechtigung, umfassende Gruppen- und Rollenzuweisungen, Zugriff auf die Schlüsselverwaltung über ein integriertes Key Ring System sowie eine offene Registrierung und/oder einen Einladungsprozess. ONE DATA bietet modernste Sicherheits- und Sicherungstechnologien, um einen zuverlässigen Service in Form von transparenter Datenverschlüsselung, sicherer Datenbereitstellung durch tokenbasierte Authentifizierung zwischen Peers und sicherer Übertragung mithilfe von HTTPS und Kerberos-Unterstützung bereitzustellen.

Ja. Für eine umfassende Analyse kann ONE DATA mit einer Reihe von Datenquellen verbunden werden und Daten von diesen aufnehmen. ONE DATA kann auch eine Verbindung zu einer Nicht-SQL-Datenbank herstellen, da die Daten vor der Verarbeitung entsprechend transformiert werden. Für Apache Cassandra zum Beispiel unterstützt ONE DATA einen nativen Connector, der auf Daten von diesen Systemen zugreifen kann.

Haben Sie weitere Fragen bezüglich ONE DATA?