Cómo Apache Kafka está engrasando las ruedas para Big Data

2024

Introducción: ¿Qué es Apache Kafka? Tutorial en español

La analítica se describe a menudo como uno de los mayores desafíos asociados con Big Data, pero incluso antes de que ese paso pueda ocurrir, los datos deben ser ingeridos y puestos a disposición de los usuarios empresariales. Ahí es donde aparece Apache Kafka.

Kafka, originalmente desarrollado en LinkedIn, es un sistema de código abierto para administrar flujos de datos en tiempo real desde sitios web, aplicaciones y sensores.

Básicamente, actúa como una especie de empresa ". sistema nervioso central "que recopila datos de gran volumen sobre cosas como la actividad del usuario, registros, mediciones de aplicaciones, tickers de existencias e instrumentación del dispositivo, por ejemplo, y lo hace disponible como un flujo en tiempo real para consumo de los usuarios de la empresa.

[ Lectura adicional: Las mejores bombillas inteligentes LED blancas]

Kafka a menudo se compara con tecnologías como ActiveMQ o RabbitMQ para implementaciones locales, o con Kinesis de Amazon Web Services para clientes en la nube, dijo Stephen O'Grady, cofundador. y analista principal de RedMonk.

"Se está volviendo más visible porque es un proyecto de código abierto de alta calidad, pero también porque su capacidad para manejar flujos de información de alta velocidad tiene cada vez mayor demanda de uso en el mantenimiento de cargas de trabajo como IoT. entre otros ", agregó O'Grady.

Desde que se concibió en LinkedIn, Kafka ha ganado el apoyo de alto perfil de compañías como Netflix, Uber, Cisco y Goldman Sachs. El viernes recibió un nuevo impulso de IBM, que anunció la disponibilidad de dos nuevos servicios basados en Kafka a través de su plataforma Bluemix.

El nuevo servicio Streaming Analytics de IBM tiene como objetivo analizar millones de eventos por segundo para tiempos de respuesta de menos de milisegundos. toma de decisiones instantánea. IBM Message Hub, ahora en versión beta, ofrece mensajería asíncrona escalable, distribuida, de alto rendimiento para aplicaciones en la nube, con la opción de utilizar un REST o Apache Kafka API (interfaz de programación de aplicaciones) para comunicarse con otras aplicaciones.

Kafka de código abierto en 2011. El año pasado, tres de los creadores de Kafka lanzaron Confluent, una startup dedicada a ayudar a las empresas a utilizarla en la producción a escala.

"Durante nuestra fase explosiva de crecimiento en LinkedIn, no pudimos seguirle el paso al creciente usuario base y los datos que podrían utilizarse para ayudarnos a mejorar la experiencia del usuario ", dijo Neha Narkhede, uno de los creadores de Kafka y cofundadores de Confluent.

" Lo que Kafka le permite hacer es transferir datos a toda la empresa y hacerlo disponible como una corriente continua de flujo libre en cuestión de segundos para las personas que necesitan usarla ", explicó Narkhede. "Y lo hace a escala".

El impacto en LinkedIn fue "transformador", dijo. Hoy, LinkedIn sigue siendo el mayor despliegue de Kafka en producción; supera los 1,1 trillones de mensajes por día.

Confluent, por su parte, ofrece software de gestión avanzada por suscripción para ayudar a las grandes empresas a administrar Kafka para los sistemas de producción. Entre sus clientes se encuentra un importante minorista de grandes cajas y "uno de los mayores emisores de tarjetas de crédito en los Estados Unidos", dijo Narkhede.

Esta última está utilizando la tecnología para la protección contra el fraude en tiempo real, dijo.

Kafka es "un bus de mensajería increíblemente rápido" que ayuda a integrar muchos tipos diferentes de datos rápidamente, dijo Jason Stamper, analista de 451 Research. "Es por eso que está surgiendo como una de las opciones más populares".

Además de ActiveMQ y RabbitMQ, otro producto que ofrece una funcionalidad similar es Apache Flume, señaló; Storm y Spark Streaming son similares también en muchos aspectos.

En el espacio comercial, los competidores de Confluent incluyen IBM InfoSphere Streams, Ultra Messaging Streaming Edition de Informatica y Event Stream Processing Engine (ESP) de Software AG junto con Apama de Software AG, StreamBase de Tibco y Aleri de SAP, agregó Stamper. Los competidores más pequeños incluyen DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic y Glassbeam.

En la nube, el servicio de procesamiento de la secuencia Kinesis de AWS "tiene el beneficio adicional de la integración con el almacenamiento de datos Redshift y la plataforma de almacenamiento S3", dijo.

El nuevo Oyente anunciado de Teradata es otro competidor, y está basado en Kafka también, señaló Brian Hopkins, vicepresidente y analista principal de Forrester Research.

En general, hay una tendencia marcada hacia los datos en tiempo real, dijo Hopkins.

Hasta 2013 más o menos, "el big data era todo sobre enormes cantidades de datos metidos en Hadoop ", dijo. "Ahora, si no estás haciendo eso, ya estás detrás de la curva de poder".

Hoy, los datos de los teléfonos inteligentes y otras fuentes están dando a las empresas la oportunidad de interactuar con los consumidores en tiempo real y proporcionar experiencias contextuales, dijo. dijo. Eso, a su vez, se basa en la capacidad de comprender datos más rápidamente.

"Internet de las cosas es como una segunda ola de dispositivos móviles", explicó Hopkins. "Cada proveedor se está posicionando para una avalancha de datos".

Como resultado, la tecnología se está adaptando en consecuencia.

"Hasta 2014 todo se basaba en Hadoop, luego era Spark", dijo. "Ahora es Hadoop, Spark y Kafka. Son tres pares iguales en la tubería de la ingestión de datos en esta moderna arquitectura analítica".