Daten in der aufstrebenden Welt der Stream-Verarbeitung

Dieser Gastposten kommt von Neha Narkhede, Mitbegründer und CTO bei Confluent, einem Startup, der sich auf Apache Kafka konzentriert und von seinen Schöpfern gegründet wurde.

Datensysteme in der modernen Welt sind keine Inseln, die alleine stehen, Daten fließen oft zwischen Datenbanken, Offline-Datenspeichern und Suchsystemen sowie Stream-Verarbeitungssystemen. Aber die Datentechnik in den Unternehmen war lange Zeit relativ homogen, die Daten standen vor allem an zwei beliebten Standorten: Betriebsdatenlager und Data Warehouse. Und ein wesentlicher Teil der Datenerfassung und -verarbeitung, die Unternehmen als große Batch-Jobs ausgeführt – CSV-Dateien aus Datenbanken, Log-Dateien gesammelt am Ende des Tages, etc.

Aber Unternehmen betreiben in Echtzeit und die Software, die sie laufen aufholen. Anstatt Daten nur am Ende des Tages zu verarbeiten, warum nicht darauf reagieren kontinuierlich, wie die Daten kommen? Diese Idee untermauert die aufstrebende Welt der Stream-Verarbeitung.

Getting real (Zeit) Der offensichtlichste Vorteil der Stream-Verarbeitung ist seine Fähigkeit, viele analytische oder Reporting-Prozesse in Echtzeit zu verschieben. Stream Processing-Anwendungen behandeln Daten nicht als statische Tabellen oder Dateien, sondern als ein nie endender unendlicher Strom, der von dem, was in der Vergangenheit passiert ist, was in der Zukunft passieren wird. Anstatt eine Abfrage auf Daten, die in der Vergangenheit gesammelt wurden, auszuführen, umfasst die Datenverarbeitung das Ausführen von Daten, wenn sie durch eine Abfrage ankommt, so dass die Ergebnisse inkrementell als ein kontinuierlicher Vorgang erzeugt werden.

Social Data LinkedIn stellt seine neue Blogging-Plattform, Big Data Analytics, ist das Alter von Big OLAP, Big Data Analytics, DataRobot zielt auf die Automatisierung von Low-hanging Obst der Datenwissenschaft, Big Data Analytics, MapR Gründer John Schroeder Schritte, COO zu ersetzen

Die Aufregung um die Stromverarbeitung geht weit über eine schnellere Analytik oder Berichterstattung hinaus. Was Stream Verarbeitung wirklich ermöglicht, ist die Fähigkeit, ein Unternehmen die Geschäftslogik und Anwendungen rund um Daten, die bisher nur verfügbar war in Batch-Form, aus dem Data Warehouse zu bauen und zu tun, dass in einer kontinuierlichen Art und Weise zu tun, anstatt einmal am Tag. Zum Beispiel kann ein Händler analysieren und Bericht über ihre Verkäufe in Echtzeit, und auch Kern-Anwendungen, die Produkte umordnen, und Anpassung der Preise nach Region, als Reaktion auf eingehende Umsatzdaten.

Ist es Stream? Aber Stream-Verarbeitung nur möglich, wenn die grundlegende Datenerfassung erfolgt in einem Streaming-Mode, schließlich können Sie nicht verarbeiten eine tägliche Batch von CSV-Dumps als Stream. Diese Verschiebung in Richtung Stream-Verarbeitung hat die Popularität von Apache Kafka getrieben. Die Annahme von Kafka ist bemerkenswert. Von der Silicon Valley Tech-Menge – die Ubers, AirBnBs, Netflixes, Ebays und Yahoos der Welt – zu Einzelhandel, Finanzen, Gesundheitswesen und Telekom. Für Tausende von Unternehmen rund um den Globus ist Kafka ein unternehmenskritischer Eckpfeiler ihrer Datenarchitektur geworden.

Meine eigene Erfahrung in diesem Bereich kam während der Arbeit bei LinkedIn während seiner frühen Tage. Im Jahr 2009 haben meine Mitarbeiter und ich erstellt Apache Kafka zu helfen LinkedIn sammeln alle seine Daten und machen es verfügbar für die verschiedenen Produkte und Systeme gebaut, um es zu verarbeiten. Die Idee war, dem Anwender eine echte Erfahrung zu bieten – schließlich wurde die Website 24 Stunden am Tag genutzt, so dass es keinen Grund gab, Daten nur einmal täglich zu verarbeiten und zu analysieren. In den folgenden Jahren setzten wir Kafka in die Produktion bei LinkedIn, die in zunehmend großem Maßstab und baute den Rest der LinkedIn der Stream-Daten-Plattform. Wir gaben ihm einen Datenstrom für alles, was im Unternehmen passiert – jeden Klick, Suche, E-Mail, Profilaktualisierung und so weiter. In diesen Tagen, Kafka bei LinkedIn Handles über eine Billion Updates pro Tag.

Alles in allem: Diese Umwandlung in die Datenströme und -verarbeitung bei LinkedIn ist für jede Organisation in jeder Branche relevant, überall gibt es Ströme – seien es Ströme von Börsentickerdaten für Finanzunternehmen, unaufhörliche Aufträge und Sendungen für Einzelhandelsunternehmen oder Nutzer Klicks für Web-Firmen. Durch die zentrale Bereitstellung aller Daten der Organisation als frei fließende Datenströme kann die Geschäftslogik als Stromverarbeitungsoperationen dargestellt werden. Dies hat einen tiefgreifenden Einfluss auf das, was mit allen bisher in Silos eingesperrten Daten möglich ist.

Die Daten, die in Ihr Offline-Data-Warehouse eingegeben wurden, stehen nun für die Stream-Verarbeitung zur Verfügung. Alle gesammelten Daten stehen für die Speicherung oder den Zugriff in den verschiedenen Datenbanken, Suchindizes und anderen Systemen im Unternehmen zur Verfügung. Daten, um kritische Geschäftsentscheidungen zu führen, stehen in kontinuierlicher Weise gegen einmal täglich gegen Mitternacht zur Verfügung. Anomalie und Bedrohungserkennung, Analytik und Reaktion auf Ausfälle können in Echtzeit getestet werden, wenn es zu spät ist. Und all dies ist möglich durch den Einsatz einer einzigen Plattform im Herzen Ihres Rechenzentrums, die Ihren Betriebsabdruck erheblich vereinfacht.

Bei Confluent, glauben wir stark, dass diese neue Art der Datenarchitektur, zentriert um Echtzeit-Streams und Stream-Verarbeitung, wird allgegenwärtig in den kommenden Jahren.

LinkedIn stellt seine neue Blogging-Plattform vor

Ist dies das Alter von Big OLAP?

DataRobot zielt auf die Automatisierung von tiefgreifenden Datenwissenschaften ab

MapR-Gründer John Schroeder geht nach unten, COO zu ersetzen