Por el personal de Techopedia, 24 de febrero de 2016
Para llevar: la presentadora Rebecca Jozwiak discute el análisis de transmisión con los mejores expertos de la industria.
Actualmente no has iniciado sesión. Inicia sesión o regístrate para ver el video.
Rebecca Jozwiak: Damas y caballeros, ¡hola y bienvenidos a Hot Technologies de 2016! El título de hoy es "Aprovechar la manguera de bomberos: obtener valor comercial de Streaming Analytics". Esta es Rebecca Jozwiak. Soy el segundo al mando de la transmisión web cuando nuestro querido Eric Kavanagh no puede estar aquí, por lo que es bueno ver a tantos de ustedes hoy.
Este episodio es un poco diferente de los otros. Hablamos un poco sobre lo que está de moda y, por supuesto, este año está de moda. Los últimos años han sido calurosos. Siempre salen cosas nuevas. Hoy, estamos hablando de análisis de transmisión. El análisis de transmisión es algo nuevo en sí mismo. Por supuesto, la transmisión, los datos del centro, los datos de RFID, no son necesariamente nuevos. Pero en el contexto de las arquitecturas de datos, hemos estado tan centrados en los datos en reposo durante décadas. Bases de datos, sistemas de archivos, repositorios de datos, todo para el procesamiento principalmente por lotes. Pero ahora con el cambio para crear valor a partir de la transmisión de datos, emociones de datos, algunos lo llaman transmisiones vivas, realmente requieren una arquitectura basada en la transmisión, no las arquitecturas de datos en reposo a las que estamos acostumbrados y que deben ser capaces de manejo de ingestión rápida, procesamiento en tiempo real o casi en tiempo real. Tiene que ser capaz de satisfacer no solo el Internet de las cosas sino el Internet de todo.
Por supuesto, idealmente, sería bueno tener las dos arquitecturas viviendo juntas, una mano lavando la otra, por así decirlo. Si bien los datos de días, los datos de semanas, los datos de años todavía tienen valor, análisis históricos, análisis de tendencias, son los datos en vivo los que impulsan la inteligencia en vivo en estos días y es por eso que el análisis de transmisión se ha vuelto tan importante.
Estoy hablando más sobre eso hoy. Tenemos a nuestro científico de datos, Dez Blanchfield, llamando desde Australia. Es temprano en la mañana para él en este momento. Tenemos nuestro analista jefe, el Dr. Robin Bloor. Nos acompaña Anand Venugopal, jefe de producto de StreamAnalytix en Impetus Technologies. Están realmente centrados en el aspecto de análisis de transmisión de este espacio.
Con eso, voy a seguir adelante y pasarlo a Dez.
Dez Blanchfield: Gracias. Necesito tomar el control de la pantalla aquí y avanzar.
Rebecca Jozwiak: Aquí tienes.
Dez Blanchfield: Mientras agarramos las diapositivas, permítanme cubrir el tema central.
Voy a mantener un nivel bastante alto y lo mantendré en aproximadamente 10 minutos. Este es un tema muy grande. Participé en un evento donde pasamos dos o tres días profundizando en los detalles de lo que es el procesamiento de flujo y los marcos actuales que estamos desarrollando y lo que debería significar hacer análisis en esos flujos de alto volumen.
Solo vamos a aclarar lo que queremos decir con análisis de transmisión y luego profundizar en si se puede derivar el valor comercial porque eso es realmente lo que las empresas están buscando. Están buscando que la gente les explique de manera rápida y sucinta, ¿dónde puedo obtener valor aplicando alguna forma de análisis a nuestros datos de flujo?
¿Qué es el análisis de transmisión?
El análisis de transmisión por secuencias brinda a las organizaciones una forma de extraer valor de los datos de gran volumen y alta velocidad que han recibido a través del negocio en varias formas en movimiento. La diferencia significativa aquí es que hemos tenido una larga historia de desarrollo de análisis y lentes y vistas de datos que hemos estado procesando en reposo durante décadas desde que se inventó el mainframe. El cambio masivo de paradigma que hemos visto en los últimos tres a cinco años en lo que llamamos "escala web" es aprovechar las corrientes de datos que nos llegan en tiempo real o casi en tiempo real y no solo procesar y buscar la correlación de eventos o el evento se dispara pero realiza análisis muy detallados y detallados en esas transmisiones. Es un cambio significativo a lo que hemos estado haciendo antes, que es recopilar datos, colocarlos en algún tipo de repositorio, bases de datos tradicionalmente grandes ahora, grandes marcos de datos grandes como la plataforma Hadoop y realizar el procesamiento por lotes en eso y obtener algún tipo de perspicacia.
Somos muy buenos haciendo eso muy rápido y probando mucho hierro pesado en el material, pero todavía estamos realmente capturando datos, almacenándolos y luego mirándolos y obteniendo algún tipo de información o análisis sobre ellos. El cambio a realizar esos análisis a medida que se transmiten los datos ha sido un área de crecimiento muy nueva y emocionante para los tipos de cosas que suceden en torno a los grandes datos. Requiere un enfoque completamente diferente para capturar, almacenar y procesar y realizar análisis en.
Uno de los impulsores clave para el cambio y el enfoque para realizar análisis en la transmisión es que puede obtener un valor comercial significativo al obtener esos conocimientos más rápido y más rápidamente a medida que los datos llegan a usted, a medida que la información se pone a disposición del negocio. La idea de hacer el procesamiento al final del día ahora ya no es relevante en ciertas industrias. Queremos poder hacer los análisis sobre la marcha. Al final del día, ya sabemos lo que sucedió tal como sucedió en lugar de llegar al final del día y hacer un trabajo por lotes de 24 horas y obtener esas ideas.
La analítica de transmisión se trata de aprovechar esa transmisión, mientras que las transmisiones de datos generalmente son múltiples transmisiones de volúmenes muy altos de datos y datos que nos llegan en movimiento muy, muy rápidamente y obtener información o análisis de esas transmisiones a medida que se nos presentan. para permitir que salga en reposo y realizar análisis en ellos.
Como mencioné, hemos tenido décadas y décadas de realizar lo que llamo análisis por lotes. He puesto una foto realmente genial aquí. Esta es una foto de un caballero parado frente a una computadora simulada que fue creada por RAND Corporation hace una vida y así es como se veía una computadora en una casa. Lo interesante es que incluso entonces, tenían este concepto de todos estos pequeños diales y estos diales representaban la información que entraba desde la casa y se procesaba en tiempo real y le decía lo que estaba sucediendo. Un ejemplo simple es un conjunto de presión barométrica y temperatura que podemos ver dónde vemos lo que sucede en tiempo real. Pero me imagino que incluso en aquel entonces, cuando RAND Corporation reunió esa pequeña maqueta, en realidad ya estaban pensando en procesar datos y realizar análisis en ellos, ya que están en formato de flujo. No estoy muy seguro de por qué pusieron un volante en la computadora, pero eso es genial.
Desde la invención de la impresora, hemos tenido la visión de capturar datos y realizar análisis de lotes en ella. Como he dicho con el gran cambio ahora y lo hemos visto por los jugadores de escala web que todos conocemos, todas son marcas domésticas como Twitter, Facebook y LinkedIn, ese comportamiento interactivo que tenemos con esas redes sociales. Las plataformas requieren no solo capturar, almacenar y luego procesar en modo por lotes, sino que en realidad capturan e impulsan análisis sobre la marcha de los flujos de datos que ingresan. Cuando twitteo algo, no solo necesitan capturar y almacenar y hacer algo más tarde, sino que también deben poder volver a ponerlo de inmediato en mi transmisión y compartirlo con otras personas que me siguen. Ese es un modelo de procesamiento por lotes.
¿Por qué iríamos por esta ruta? ¿Por qué las organizaciones invertirían tiempo, esfuerzo y dinero incluso considerando el desafío de emprender el camino de la analítica de flujo? Las organizaciones tienen este deseo masivo de obtener un aumento de rendimiento sobre sus competidores en las industrias en las que se encuentran y ese aumento de rendimiento puede implementarse rápidamente a través de análisis de flujo simples y puede comenzar en un simple seguimiento de datos en tiempo real que ya estamos familiar con. Tengo una pequeña captura de pantalla de Google Analytics. Esta es probablemente una de las primeras veces que realmente tenemos el análisis práctico de nivel de consumidor. Entonces, cuando las personas visitaban su sitio web y usted obtiene esos recuentos de visitas, con un pequeño fragmento de JavaScript en la parte inferior de su página web en HTML incrustado en su sitio web, estos pequeños códigos se hicieron en tiempo real de regreso a Google y fueron realizando análisis sobre esas corrientes de datos que ingresan desde cada página de su sitio web, cada objeto en su sitio web en tiempo real y se lo envían a usted en esta pequeña página web realmente linda en un tablero de gráficos en tiempo real, pequeños histogramas lindos y gráfico de línea que muestra X número de personas que llegaron a su página históricamente, pero aquí hay cuántas hay en este momento.
Como puede ver en esa captura de pantalla, dice 25 en este momento. Esas 25 personas en este momento en el momento de la captura de pantalla estaban en esa página. Esa es la primera oportunidad real que jugamos en la herramienta de análisis de nivel de consumidor. Creo que mucha gente realmente lo entendió. Simplemente entendieron el poder de saber lo que estaba sucediendo y cómo pueden responder. Cuando pensamos en la escala de la aviónica, los aviones que vuelan, hay alrededor de 18.700 vuelos domésticos al día solo en los EE. UU. Leí un artículo hace algún tiempo, hace unos seis o siete años, que la cantidad de datos que producían esos aviones era de aproximadamente 200 a 300 megabytes en el antiguo modelo de ingeniería. En los diseños actuales de aviones, estos aviones están produciendo aproximadamente 500 gigabytes de datos o aproximadamente medio terabyte de datos por vuelo.
Cuando hace los cálculos muy rápidamente, esos 18, 700 vuelos domésticos cada 24 horas solo en el espacio aéreo de los EE. UU., Si todos los aviones modernos producen aproximadamente medio terabyte, son 43 a 44 petabytes de datos que ingresan y Está sucediendo mientras los aviones están en el aire. Está sucediendo cuando aterrizan y hacen volcados de datos. Ahí es cuando entran al taller y tienen un volcado de datos completo de los equipos de ingeniería para ver qué sucede en los rodamientos, las ruedas y el interior de los motores. Algunos de esos datos deben procesarse en tiempo real para que puedan tomar decisiones sobre si hay un problema real mientras el avión estaba en el aire o mientras está en tierra. Simplemente no puede hacer eso en modo por lotes. En otras industrias que vemos en torno a las finanzas, la salud, la fabricación y la ingeniería, también están viendo cómo pueden obtener esta nueva visión de lo que está sucediendo en tiempo real en lugar de lo que se está almacenando en las bases de datos en un término.
También existe este concepto de tratar con datos como lo que yo llamo un bien perecedero o un producto perecedero: que muchos datos pierden valor con el tiempo. Este es cada vez más el caso con las aplicaciones de movilidad y las herramientas de redes sociales porque lo que la gente dice y lo que está de moda ahora es a lo que quieres responder. Cuando piensa en otras partes de nuestras vidas con la logística y el envío de alimentos, entendemos el concepto de mercancía perecedera en ese sentido. Pero piense en los datos que pasan por su organización y el valor que tiene. Si alguien está haciendo negocios con usted en este momento y puede interactuar con ellos en tiempo real, no desea esperar una hora para que los datos se puedan capturar y poner en un sistema como Hadoop y luego presione este botón, usted no podrá tratarlo en este momento y desea poder hacerlo a pedido del cliente de inmediato. Hay un término que verás mucho ahora, donde la gente habla de tener este flujo de datos en tiempo real que puede brindarte personalización, y esa sintonización de personalización en el sistema que estás utilizando para tu experiencia individual. Entonces, cuando golpeas una herramienta como la herramienta de búsqueda de Google, por ejemplo, si hago una consulta y haces la misma consulta, invariablemente, no estamos obteniendo exactamente los mismos datos. Obtenemos esencialmente lo que yo llamo una experiencia de celebridad. Me tratan con una sola vez. Tengo mi propia versión personal de lo que sucede en estos sistemas en función de los perfiles y los datos que han recopilado sobre mí y pude realizar análisis en tiempo real en la transmisión.
Esta idea de que los datos son un producto perecedero es algo real por ahora y el valor de los datos que disminuyen con el tiempo es algo con lo que tenemos que lidiar hoy. No es cosa de ayer. Me encanta esta imagen de un oso agarrando un salmón que salta del río porque realmente pinta exactamente lo que veo en el análisis de transmisión. Es este enorme río de datos que nos llega, una manguera de bomberos si lo desea, y el oso está sentado en medio del arroyo. Realizará análisis en tiempo real sobre lo que sucede a su alrededor, de modo que pueda diseñar su capacidad de capturar ese pez en el aire. No es como sumergirse en la corriente y agarrar uno. Esta cosa está saltando en el aire y tiene que estar en el lugar correcto en el momento adecuado para atrapar ese pez. De lo contrario, no recibe desayuno ni almuerzo.
Una organización quiere hacer lo mismo con sus datos. Quieren extraer valor de lo que ahora son volúmenes masivos de datos en movimiento. Quieren realizar análisis sobre esos datos y datos de alta velocidad, por lo que no es solo la cantidad de datos que nos llegan, sino la velocidad a la que provienen de esto. En seguridad, por ejemplo, son todos sus enrutadores, conmutadores, servidores, firewalls y todos los eventos que provienen de esos y decenas de miles, si no cientos de miles de dispositivos, en algunos casos, que son datos perecederos. Cuando lo pensamos en el Internet de las cosas y en el Internet industrial, estamos hablando de millones, si no miles de millones de sensores eventualmente, y a medida que los datos están llegando a través de la realización de análisis, ahora estamos viendo el procesamiento de eventos complejos a órdenes de magnitud y velocidad que nunca antes habíamos visto y tenemos que lidiar con esto hoy. Tenemos que construir herramientas y sistemas alrededor de eso. Es un verdadero desafío para las organizaciones porque, por un lado, tenemos las grandes marcas que hacen bricolaje, hornean usted mismo, cuando tienen la capacidad de hacerlo y el conjunto de habilidades y la ingeniería. Pero para la organización promedio, ese no es el caso. No tienen los conjuntos de habilidades. No tienen la capacidad ni el tiempo ni el dinero para invertir en resolverlo. Todos apuntan a este concepto de toma de decisiones casi en tiempo real.
Los casos de uso con los que me he encontrado, y abarcan cada espectro amplio de cada sector que puedas imaginar, la gente está sentada y prestando atención y diciendo: ¿cómo aplicamos algunos análisis a nuestros datos de transmisión? Hablamos de servicios en línea a escala web. Están las plataformas de redes sociales tradicionales y el comercio electrónico en línea y venta minorista, por ejemplo, aplicaciones. Todos intentan darnos esta experiencia de celebridades en tiempo real. Pero cuando nos adentramos en más servicios tecnológicos, servicios telefónicos, voz y video, veo personas caminando por FaceTime en los teléfonos. Solo está explotando. Me sorprende que la gente sostenga el teléfono frente a ellos y le hable a una transmisión de video de un amigo en lugar de sostenerlo más cerca de su oído. Pero saben que pueden hacerlo y se adaptaron y les gustó esa experiencia. El desarrollo de estas aplicaciones y las plataformas que las entregan tienen que realizar análisis en tiempo real sobre ese tráfico y sobre los perfiles del tráfico para que puedan hacer cosas simples como enrutar ese video perfectamente para que la calidad de la voz en el el video que obtienes es adecuado para tener una buena experiencia. No puede procesar por lotes ese tipo de datos. No haría que la transmisión de video en tiempo real sea un servicio funcional.
Hay un desafío de gobernanza en las transacciones financieras. No está bien llegar al final del día y descubrir que violó la ley al mover datos privados por el lugar. En Australia, tenemos un desafío muy interesante en el que mover datos relacionados con la privacidad en alta mar es un no-no. No puede llevar mi PID, mis datos de identificación personal privada, en alta mar. Hay leyes en Australia para evitar que eso suceda. Los proveedores de servicios financieros en particular, ciertamente, los servicios y agencias gubernamentales, tienen que estar haciendo análisis en tiempo real de sus flujos de datos e instrucciones conmigo para asegurarse de que lo que me brindan no salga de las costas. Todo lo que tiene que quedarse localmente. Tienen que hacerlo en tiempo real. No pueden violar la ley y pedir perdón más tarde. Detección de fraude: es bastante obvio de lo que escuchamos con las transacciones con tarjeta de crédito. Pero a medida que los tipos de transacciones que estamos haciendo en los servicios financieros están cambiando muy, muy rápidamente, hay muchas cosas que PayPal está haciendo primero ahora para detectar el fraude en tiempo real, donde el dinero no se mueve de una cosa a otra, pero es Una transacción financiera entre sistemas. Las plataformas de licitación de Ebay, que detectan el fraude, deben hacerse en tiempo real en una oficina de transmisión.
Hay una tendencia ahora a realizar extracción y transformar la actividad de carga en las transmisiones, por lo que no queremos capturar nada que vaya a la transmisión. Realmente no podemos hacer eso. La gente ha aprendido que a los datos les gusta que se rompan muy rápido si capturamos todo. El truco ahora es realizar análisis en esos flujos y hacer ETL en ellos y simplemente capturar lo que necesita, potencialmente metadatos, y luego conducir análisis predictivos donde realmente podamos decir qué pasará un poco más adelante en lo que queremos. Acabo de ver en el flujo basado en el análisis que realizamos en eso.
Los proveedores de energía y servicios públicos están experimentando este deseo masivo de los consumidores de tener precios de demanda. Podría decidir que quiero comprar energía ecológica en un momento determinado del día porque estoy solo en casa y no estoy usando muchos dispositivos. Pero si tengo una cena, es posible que quiera tener todos mis dispositivos encendidos y no quiero comprar energía barata y esperar a que se entregue, pero estoy dispuesto a pagar más costos para obtener esa energía. Este precio de demanda, particularmente en los servicios públicos y el espacio energético, ya ha sucedido. Uber, por ejemplo, es un ejemplo clásico de cosas que puede hacer todos los días y todo está impulsado por los precios de la demanda. Hay algunos ejemplos clásicos de personas en Australia que obtienen tarifas de $ 10, 000 debido a la gran demanda en la víspera de Año Nuevo. Estoy seguro de que se han ocupado de ese problema, pero las analíticas de flujo se realizan en tiempo real mientras están en el automóvil diciéndole cuánto debo pagar.
Internet de las cosas y transmisiones de sensores: solo hemos arañado la superficie sobre esto y realmente hemos tenido una conversación básica sobre esto, pero veremos un cambio interesante en la forma en que la tecnología trata eso porque cuando estás hablando no casi miles o decenas de miles, pero cientos de miles y potencialmente miles de millones de dispositivos que le transmiten, casi ninguna de las pilas de tecnología que tenemos ahora están diseñadas para hacer frente a eso.
Hay algunos temas realmente candentes que veremos en todo el lugar, como la seguridad y el riesgo cibernético. Son desafíos muy reales para nosotros. Hay una herramienta realmente ordenada llamada Norte en la web donde puedes sentarte y mirar en una página web varios ataques cibernéticos que ocurren en tiempo real. Cuando lo miras, piensas "oh, es una linda y linda página web", pero después de unos cinco minutos allí, te das cuenta del volumen de datos que el sistema está haciendo análisis en todas las diferentes transmisiones de todos los diferentes dispositivos en todo el mundo que están siendo alimentados en ellos Comienza a aturdir la mente de cómo están realizando eso en el borde de ese registro esencialmente y proporcionándole esa pequeña pantalla simple que le dice qué hacer o algo más atacándolo en tiempo real y qué tipos de ataques. Pero es una pequeña forma realmente ordenada de tener una buena idea de lo que el análisis de flujo puede hacer por usted en tiempo real con solo mirar esta página y tener una idea del volumen y el desafío de tomar los flujos, procesar consultas de análisis en ellos y representando eso en tiempo real.
Creo que la conversación que tengo durante el resto de la sesión abordará todos esos tipos de cosas con una visión interesante, desde mi punto de vista, y ese es el desafío del bricolaje, hornearlo usted mismo, se adapta a algunos de los Unicornios clásicos que pueden permitirse construir ese tipo de cosas. Tienen miles de millones de dólares para construir estos equipos de ingeniería y para construir sus centros de datos. Pero para el 99.9% de las organizaciones que desean generar valor en su negocio de análisis de flujo, necesitan obtener un servicio estándar. Necesitan comprar un producto listo para usar y generalmente necesitan un servicio de consultoría y un servicio profesional para ayudarlos a implementarlo y recuperar ese valor en el negocio y venderlo al negocio como una solución de trabajo.
Con eso, te lo devolveré, Rebecca, porque creo que eso es lo que vamos a cubrir en detalle ahora.
Rebecca Jozwiak: Excelente. Muchas gracias, Dez. Esa es una gran presentación.
Ahora, le pasaré el balón a Robin. Llevatelo.
Robin Bloor: De acuerdo. Debido a que Dez se ha metido en el meollo del procesamiento de las transmisiones, no parecía tener sentido para mí cubrirlo nuevamente. Así que voy a tomar una visión completamente estratégica. Mirando casi desde un nivel muy alto hacia abajo sobre lo que está pasando y posicionándolo porque creo que podría ayudar a las personas, especialmente a las personas que no están encerradas en el procesamiento de flujos a gran profundidad antes.
El procesamiento de secuencias ha existido durante mucho tiempo. Solíamos llamarlo CEP. Había sistemas en tiempo real antes de eso. Los sistemas de control de procesos originales en realidad estaban procesando flujos de información, por supuesto, nada iba tan lejos como lo es hoy en día. Este gráfico que ves en la diapositiva aquí; en realidad señala muchas cosas, pero señala más allá de cualquier otra cosa: el hecho de que hay un espectro de latencias que aparecen en diferentes colores aquí abajo. Lo que realmente sucedió desde la invención de la informática o la informática comercial que llegó alrededor de 1960 es que todo se ha vuelto cada vez más rápido. Solíamos ser capaces de depender de la forma en que esto salía realmente si te gustaba en olas, porque así es como se ve. Esto realmente depende de ello. Porque todo fue impulsado por la ley de Moore y la ley de Moore nos daría un factor de aproximadamente diez veces la velocidad en un período de aproximadamente seis años. Luego, una vez que llegamos a aproximadamente 2013, todo se rompió, y de repente comenzamos a acelerar a un ritmo que nunca hemos alcanzado, lo cual es extrañamente sin precedentes. Estábamos obteniendo un factor de aproximadamente diez en términos de aumento de la velocidad y, por lo tanto, una reducción de la latencia aproximadamente cada seis años. En los seis años transcurridos desde aproximadamente 2010, tenemos un múltiplo de al menos mil. Tres órdenes de magnitud en lugar de uno.
Eso es lo que ha estado sucediendo y es por eso que la industria de una forma u otra parece moverse a velocidades fantásticas, porque así es. Simplemente pasando por el significado de este gráfico en particular, los tiempos de respuesta son en realidad en escala algorítmica en el eje vertical. El tiempo real es la velocidad de la computadora, más rápida que los seres humanos. Los tiempos interactivos son de color naranja. Es cuando estás interactuando con la computadora que es donde realmente quieres una décima parte de aproximadamente un segundo de latencia. Arriba, hay transacciones en las que realmente pensamos en lo que estás haciendo en la computadora, pero si eso desaparece en unos quince segundos, se vuelve intolerable. La gente simplemente no esperaría a la computadora. Todo se hizo en lote. Muchas de las cosas que se hicieron en lote ahora están llegando directamente al espacio transaccional, al espacio interactivo o incluso al espacio en tiempo real. Mientras que anteriormente, un ondulado con cantidades muy pequeñas de datos podríamos hacer algo de esto, ahora podemos hacerlo con cantidades muy grandes de datos utilizando un entorno enormemente escalado.
Básicamente, todo esto dice que es realmente la transacción y los tiempos interactivos de respuesta humana. Mucho de lo que se está haciendo con las transmisiones en este momento es informar a los seres humanos sobre las cosas. Parte de esto va más rápido que eso y está informando bien las cosas, así que es en tiempo real. Luego tomamos una licencia para simplemente caer como una piedra, haciendo que el análisis instantáneo sea factible y, por cierto, bastante asequible. No es solo que la velocidad ha bajado y la parte superior también se ha derrumbado. Probablemente el mayor impacto en todas estas aplicaciones entre las diversas aplicaciones, puede hacer todos estos análisis predictivos. Te diré por qué en un minuto.
Esto es solo la ferretería. Tienes un software paralelo. Estamos hablando en 2004. Arquitectura escalable, chips multinúcleo, aumento de memoria, CPU configurable. Los SSD ahora son mucho más rápidos que el disco giratorio. Puedes decirle adiós al disco giratorio. Los SSD también se encuentran en múltiples núcleos, por lo que nuevamente son cada vez más rápidos. Pronto aparecerá, tenemos el memristor de HP. Tenemos el 3D XPoint de Intel y Micron. La promesa de esos es que hará que todo vaya más y más rápido de todos modos. Cuando realmente está pensando en dos nuevas tecnologías de memoria, las cuales harán que todo el pequeño elemento fundamental, la placa de circuito individual vaya mucho más rápido, ni siquiera hemos visto el final.
La tecnología de transmisión, que es el próximo mensaje, llegó para quedarse. Tendrá que haber una nueva arquitectura. Quiero decir que Dez ha mencionado esto en varios puntos en su presentación. Durante décadas vimos la arquitectura como una combinación de montones de datos y canalizaciones de datos. Solíamos procesar los montones y solíamos canalizar los datos entre los montones. Ahora nos estamos moviendo fundamentalmente hacia lo que llamamos la arquitectura de datos Lambda que combina el procesamiento de flujos de datos con montones de datos. Cuando realmente está procesando una secuencia de eventos que se presentan contra datos históricos como un flujo de datos o un montón de datos, a eso me refiero con la arquitectura Lambda. Esto está en su infancia. Es solo una parte de la imagen. Si considera algo tan complejo como Internet de todo que Dez también ha mencionado, en realidad se dará cuenta de que hay todo tipo de problemas de ubicación de datos: decisiones sobre lo que debe procesar en la transmisión.
Lo que realmente digo aquí es que cuando procesábamos en lote, en realidad procesábamos secuencias. Simplemente no podíamos hacerlo uno a la vez. Solo esperamos hasta que haya un montón de cosas y luego lo procesamos todo de una vez. Nos estamos moviendo a una situación en la que realmente podemos procesar cosas en la transmisión. Si podemos procesar cosas en la secuencia, entonces los montones de datos que tenemos serán los datos estáticos a los que tenemos que hacer referencia para procesar los datos en la secuencia.
Esto nos lleva a esta cosa en particular. He mencionado esto antes en alguna presentación con la analogía biológica. La forma en que me gustaría que piensen es en el momento en que somos seres humanos. Tenemos tres redes distintas para el procesamiento predictivo en tiempo real. Se llaman somáticos, autónomos y entéricos. El entérico es tu estómago. El sistema nervioso autónomo se ocupa de las peleas y los vuelos. En realidad se ocupa de reacciones rápidas al medio ambiente. El somático que cuida el movimiento del cuerpo. Esos son sistemas en tiempo real. Lo interesante de esto, o creo que es algo interesante, es que muchos de ellos son más predictivos de lo que imaginas. Es como si realmente estuvieras mirando una pantalla a unas 18 pulgadas de tu cara. Todo lo que puedes ver claramente, todo lo que tu cuerpo es capaz de ver claramente es en realidad un rectángulo de 8 × 10. Todo lo que está fuera de eso está borroso en lo que respecta a su cuerpo, pero su mente está llenando los vacíos y no lo hace borroso. No ves nada borroso en absoluto. Lo ves con claridad. Su mente está haciendo un método predictivo del flujo de datos para que pueda ver esa claridad. Eso es algo curioso, pero en realidad puedes ver la forma en que funciona el sistema nervioso y la forma en que logramos movernos y comportarnos de manera razonable, al menos algunos de nosotros, razonablemente sensata y sin chocar con las cosas todo el tiempo.
Todo se hace mediante una serie de escalas de análisis neuronal aquí dentro. Lo que sucederá es que las organizaciones van a tener el mismo tipo de cosas y van a construir el mismo tipo de cosas y va a ser el procesamiento de las transmisiones, incluidas las transmisiones internas de la organización, las cosas que están sucediendo dentro de Por supuesto, las cosas que suceden fuera de él, las respuestas instantáneas que realmente deben hacerse son, por supuesto, alimentar al ser humano para tomar decisiones, para que todo esto suceda. Ahí es donde vamos, hasta donde puedo ver.
Una de las cosas que es consecuencia de eso es que el nivel de la aplicación de transmisión va bien. Va a haber muchísimo más de lo que vemos ahora. En este momento, estamos recogiendo el fruto bajo de hacer las cosas que son obvias.
De todos modos, esa es la conclusión aquí. La transmisión de análisis es una vez un nicho, pero se está convirtiendo en una corriente principal y pronto se adoptará en general.
Con eso, se lo devolveré a Rebecca.
Rebecca Jozwiak: Muchas gracias, Robin. Gran presentación como siempre.
Anand, eres el siguiente. El piso es tuyo.
Anand Venugopal: Fantástico. Gracias.
Mi nombre es Anand Venugopal y soy el Jefe de Producto de StreamAnalytix. Es un producto ofrecido por Impetus Technologies, de Los Gatos, California.
Impetus ha tenido una gran historia en ser un proveedor de soluciones de big data para grandes empresas. Así que, en realidad, hemos realizado una serie de implementaciones de análisis de transmisión como empresa de servicios y aprendimos muchas lecciones. También tomamos un cambio para convertirnos en una compañía de productos y una compañía impulsada por soluciones en los últimos años y la analítica de flujo está encabezando la carga de transformar Impetus en una compañía impulsada principalmente por productos. Hay algunos activos críticos, muy, muy importantes que Impetus eliminó gracias a nuestra exposición a las empresas y StreamAnalytix es uno de ellos.
Llevamos 20 años en el negocio y hay una gran combinación de productos y servicios que nos convierte en una gran ventaja. Y StreamAnalytix nació de todas las lecciones aprendidas de nuestras primeras cinco o seis implementaciones de transmisión.
Me referiré a algunas cosas, pero los analistas, Dez y Robin, han hecho un trabajo fantástico al cubrir el espacio en general, así que voy a omitir una gran cantidad de contenido que se superpone. Probablemente iré rápido. Además de los verdaderos casos de transmisión, vemos una gran cantidad de aceleración por lotes donde hay literalmente procesos por lotes muy, muy importantes en las empresas. Como puede ver, todo este ciclo de detectar un evento y analizarlo y actuar en consecuencia podría llevar semanas en grandes empresas y todos están tratando de reducirlo a minutos y, a veces, a segundos y milisegundos. Entonces, cualquier cosa más rápida que todos estos procesos por lotes son candidatos para la adquisición de negocios y eso está muy bien puesto que el valor de los datos disminuye drásticamente con su antigüedad, por lo que cuanto más valor haya en la porción inicial en los segundos que acaba de suceder. Idealmente, si pudiera predecir lo que iba a suceder, ese es el valor más alto, aunque eso depende de la precisión. El siguiente valor más alto es cuando está allí, cuando está sucediendo, puede analizarlo y responder. Por supuesto, el valor se reduce drásticamente después de eso, el principal BI restrictivo en el que estamos.
Es interesante. Es posible que espere una respuesta científica dramática sobre por qué el análisis de transmisión. En muchos casos, lo que estamos viendo es porque ahora es posible y porque todo el mundo sabe que el lote es viejo, el lote es aburrido y el lote no es bueno. Hay suficiente educación que todos han tenido ahora sobre el hecho de que es posible la transmisión y ahora todos tienen Hadoop. Ahora las distribuciones de Hadoop tienen una tecnología de transmisión integrada, ya sea Storm o Spark y, por supuesto, colas de mensajes, como Kafka, etc.
Las empresas que vemos están entrando y comenzando a experimentar con estos casos y estamos viendo dos grandes categorías. Uno tiene algo que ver con el análisis del cliente y la experiencia del cliente y la segunda inteligencia operativa. Me ocuparé de algunos de los detalles un poco más tarde. Todo el servicio al cliente y el ángulo de la experiencia del cliente y nosotros en Impetus StreamAnalytix lo hemos hecho de muchas maneras diferentes, realmente se trata realmente de capturar el compromiso multicanal del consumidor en tiempo real y brindarles experiencias muy sensibles al contexto que no son comunes hoy Si está navegando en la web, en el sitio web del Bank of America, estaba investigando algunos productos y simplemente llama al centro de atención telefónica. ¿Dirían: "Hola Joe, sé que estabas investigando algunos productos bancarios, quieres que te complete?" No esperas eso hoy, pero ese es el tipo de experiencia que es realmente posible con el análisis de transmisión. En muchos casos, hace una gran diferencia, especialmente si el cliente comenzó a investigar maneras de salirse de su contrato con usted al buscar cláusulas de terminación anticipada o términos y condiciones de terminación anticipada en su sitio web y luego llamar y no podrá confrontarlos directamente al respecto, pero solo indirectamente hacer una oferta sobre algún tipo de primera promoción porque el sistema sabe que esta persona está buscando una terminación anticipada y usted hace esa oferta en ese momento, podría muy bien proteger a ese cliente agitado y proteger ese activo .
Ese sería un ejemplo, además de que muchos servicios al cliente son muy buenos ejemplos. Estamos implementando hoy reduce el costo en el centro de llamadas, así como ofrece experiencias de cliente deliciosas y espectaculares. Dez hizo un gran trabajo al resumir algunos de los casos de uso. Puede mirar este cuadro durante un par de minutos. Lo clasifiqué como verticales, horizontales y áreas combinadas, IoT, aplicación móvil y centro de llamadas. Todos son verticales y horizontales. Depende de como lo veas. En pocas palabras, vemos una gran cantidad de usos horizontales que son bastante comunes en las verticales de la industria y hay casos de uso específicos verticales que incluyen servicios financieros, atención médica, telecomunicaciones, manufactura, etc. Si realmente se está haciendo la pregunta o se está diciendo a sí mismo que, "oh, no sé qué casos de uso hay. No estoy seguro de si realmente hay algún valor comercial en el análisis de transmisión para mi empresa o para nuestra empresa ", piense detenidamente, piense dos veces. Hable con más personas porque hay casos de uso que en su empresa son relevantes hoy. Entraré en el valor comercial sobre cómo se deriva exactamente el valor comercial.
En la parte inferior de la pirámide aquí, tiene mantenimiento predictivo, seguridad, protección de abandono, etc. Ese tipo de casos de uso constituyen protección de ingresos y activos. Si Target protegió su violación de seguridad que ocurrió durante horas y semanas, el CIO podría haber salvado su trabajo. Podría ahorrar decenas o cientos de millones de dólares, etc. Los análisis de transmisión en tiempo real realmente ayudan a proteger esos activos y las pérdidas. Ese es el valor comercial directo agregado allí mismo.
La siguiente categoría se está volviendo más rentable, reduciendo su costo y obteniendo más ingresos de la operación actual. Esa es la eficiencia de la empresa actual. Esas son todas las categorías de casos de uso que llamamos inteligencia operativa en tiempo real en la que obtiene una visión profunda de cómo se comporta la red, cómo se comportan las operaciones de sus clientes, cómo se comporta su proceso de negocio y puede ajustar todo eso en tiempo real porque recibe comentarios, recibe alertas. Obtiene desviaciones, desviaciones en tiempo real y puede actuar rápidamente y separar el proceso que está saliendo de los límites.
Potencialmente, también podría ahorrar mucho dinero en costosas actualizaciones de capital y cosas que cree que son necesarias que pueden no ser necesarias si optimiza el servicio de red. Nos enteramos de un caso en el que una importante empresa de telecomunicaciones aplazó una actualización de $ 40 millones en su infraestructura de red porque descubrieron que tenían la capacidad suficiente para administrar su tráfico actual, que es mediante la optimización y el mejor enrutamiento inteligente de su tráfico y cosas por el estilo. Todo eso es posible solo con un análisis en tiempo real y un mecanismo de acción que actúa sobre esas ideas en tiempo real.
El siguiente nivel de valor agregado es la venta ascendente, la venta cruzada, donde hay oportunidades para obtener más ingresos y ganancias de las ofertas actuales. Este es un ejemplo clásico que muchos de nosotros sabemos que han experimentado dónde, piensan en su vida dónde están dispuestos a comprar un producto hoy que no se les ofrece. En muchos, muchos casos, eso realmente sucede. Tienes cosas en mente que te gusta comprar que sabes que quieres comprar, que tienes una lista de cosas por hacer o algo así, que tu esposa te dijo o si no tienes esposa pero realmente querías comprar y vas de compras en un sitio web o estás interactuando en una tienda minorista, el escaparate simplemente no tiene el contexto, no tiene la inteligencia para calcular lo que podrías necesitar. Por lo tanto, no consiguen que sus negocios estén seguros. Si se pudiera implementar el análisis de transmisión para realmente hacer predicciones precisas y cuáles son realmente posibles en lo que más se adaptaría a este contexto particular, este cliente en este momento en esta ubicación, hay muchas ventas ascendentes y cruzadas, y eso nuevamente proviene de análisis de transmisión: poder tomar una decisión de propensión de lo que es probable que este cliente compre o responda en ese momento de verdad cuando hay una oportunidad. Es por eso que me encanta esa foto que Dez mostró con el oso a punto de comer ese pescado. Eso es practicamente todo.
También creemos que existe una gran categoría de cambios dramáticos y transformadores en una empresa que ofrece productos y servicios completamente nuevos simplemente basados en la observación del comportamiento del cliente, todo basado en la observación del comportamiento de otra empresa. Si, digamos, una compañía de telecomunicaciones o de cable realmente observa los patrones de uso de los clientes en qué segmento del mercado está viendo, qué programa a qué hora, etc., en realidad terminan creando productos y servicios que casi se están rogando. porque de alguna manera. Entonces, todo el concepto de comportamiento multipantalla en este momento, en el que ahora estamos casi dando por sentado que podemos ver contenido de TV o cable en nuestras aplicaciones móviles. Algunos de esos ejemplos provienen de los nuevos productos y servicios que se nos ofrecen.
Me ocuparé de "¿Cuáles son las consideraciones de arquitectura de la analítica de transmisión?" En última instancia, es lo que estamos tratando de hacer. Esta es la arquitectura Lambda en la que combina los datos históricos y las ideas en tiempo real y lo ve al mismo tiempo. Eso es lo que permite Sigma. Todos tenemos la arquitectura por lotes y la imagen empresarial de hoy. Estamos obteniendo algún tipo de pila de BI y pila de utilización y se agregó la arquitectura Lambda. Como la capa de velocidad o la necesidad y el Lambda se trata de fusionar esas dos ideas y ver eso de una manera combinada, de una manera rica que combina ambas ideas.
Hay otro paradigma llamado arquitectura Kappa que se propone donde la conjetura es que la capa de velocidad es el único mecanismo de entrada que persistirá a largo plazo. Todo va a pasar por esta capa de velocidad. Ni siquiera habrá un mecanismo ETL fuera de línea. Todo el ETL sucederá. Limpieza, limpieza de datos, ETL de calidad: todo eso sucederá en el cable, porque tenga en cuenta que todos los datos nacieron en tiempo real. En algún momento, fue en tiempo real. Nos hemos acostumbrado tanto a poner esto en lagos, ríos y océanos, y luego hacerlo en análisis estático que olvidamos que los datos nacieron en algún momento en tiempo real. Todos los datos en realidad nacen como un evento en tiempo real que sucedió en el punto de tiempo y la mayoría de los datos de hoy en el lago se pusieron en la base de datos para un análisis posterior y ahora tenemos la ventaja en la arquitectura de Lambda y Kappa de viéndolo, analizándolo, preprocesándolo y reaccionando a medida que llega. Eso es lo que permiten estas tecnologías. Cuando lo miras como una imagen general, se ve como algo así, donde hay Hadoop adentro, hay MPP y almacenes de datos que ya tienes.
Presentamos esto porque es importante no solo hablar de nuevas tecnologías en una isla. Tienen que integrarse. Tienen que tener sentido en el contexto empresarial actual, y como proveedores de soluciones que sirven a las empresas, somos muy sensibles a esto. Ayudamos a las empresas a integrar todo. Hay fuentes de datos en el lado izquierdo que se alimentan tanto de las capas de Hadoop como del almacén de datos, así como a la capa en tiempo real en la parte superior y cada una de esas entidades son computadoras de stock como puede ver y la capa de consumo de datos está a la derecha lado. Hay un esfuerzo constante para mover la mayoría del cumplimiento, la gobernanza, la seguridad, la gestión del ciclo de vida, etc., que está disponible hoy en día, todos se han acumulado en esta nueva tecnología.
Una de las cosas que está tratando de hacer el análisis de transmisión, si observa el panorama actual, hay muchas cosas que suceden en el panorama de la tecnología de transmisión y desde el punto de vista de un cliente empresarial, hay mucho que entender. Hay mucho para mantenerse al día. Hay mecanismos de recopilación de datos en el lado izquierdo: NiFi, Logstash, Flume, Sqoop. Obviamente, he presentado un descargo de responsabilidad diciendo que no es exhaustivo. Entrando en las colas de mensajes y luego entrando en los motores de transmisión de código abierto: Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron probablemente aún no sea de código abierto. No estoy seguro si es así, de Twitter. Esos motores de transmisión luego conducen o soportan un componente de aplicación analítica de configuración, como procesamiento de eventos complejos, aprendizaje automático, análisis predictivo, módulo de alerta, transmisión ETL, filtros de operaciones estadísticas de enriquecimiento. Esos son todos lo que llamamos ahora operadores. El conjunto de esos operadores, cuando se unen entre sí, también podría llegar a convertirse en una aplicación de transmisión que se ejecuta en un motor de transmisión.
Como parte de esa cadena de componentes, también necesita almacenar e indexar los datos en su base de datos favorita, su índice favorito. Es posible que también deba distribuir caché y, de nuevo, eso conduce a la capa de visualización de datos en el lado derecho en la parte superior a productos comerciales o productos de código abierto, pero finalmente necesita algún tipo de producto para visualizar esos datos en tiempo real. Además, a veces necesita calcular otras aplicaciones. Todos hemos visto que los valores derivados solo de la acción que realizas en la información, esa acción va a ser un disparador de una pila analítica a otra pila de aplicaciones que tal vez haya cambiado, eso es algo en el lado de IVR o dispara un centro de llamadas llamada saliente o algo así. Necesitamos tener esos sistemas integrados y algún mecanismo para que su clúster de transmisión active otras aplicaciones de envío de datos en sentido descendente.
Ese es el conjunto general de ir de izquierda a derecha. Luego tiene las capas de servicio, la supervisión media, la capa de servicio general de seguridad, etc. En cuanto a los productos que hay en el espacio empresarial que los clientes ven como distribuciones de Hadoop, que todo tiene transmisión como dije y hay comercial o individual -vendor soluciones que obviamente están en nuestros competidores. También hay muchos más en el paisaje que quizás no hayamos mencionado aquí.
Lo que está viendo allí es, en general, lo que está viendo el usuario empresarial. Un paisaje tecnológico complejo y en rápida evolución para el procesamiento de flujo, como puede ver. Tenemos que simplificar la elección y su experiencia de usuario. Lo que creemos que las empresas realmente necesitan es la abstracción funcional de todo eso en una interfaz única y fácil de usar que reúne todas esas tecnologías que lo hacen realmente simple de usar y no expone todas las partes móviles. y los problemas de degradación y los problemas de rendimiento y los problemas de mantenimiento del ciclo de vida de la empresa.
La abstracción de funcionalidad es una. La segunda parte es la abstracción del motor de transmisión. Los motores de transmisión y los dominios de código abierto aparecen una vez cada tres, cuatro o seis meses. Fue Storm durante mucho tiempo. Samza apareció y ahora es Spark Streaming. Flink está levantando la cabeza y comienza a llamar la atención. Incluso la hoja de ruta de Spark Streaming, están haciendo una manera de usar potencialmente un motor diferente para el procesamiento de eventos puros porque también se dan cuenta de que Spark fue diseñado para lotes y están abriendo un camino en su visión de arquitectura y su hoja de ruta para potencialmente tener una diferente motor para el procesamiento de transmisión además del patrón de microbatch actual en Spark Streaming.
Es una realidad con la que tienes que lidiar con que va a haber mucha evolución. Realmente necesitas protegerte de ese flujo tecnológico. Porque por defecto, tendrás que elegir uno y luego vivir con él, lo que no es óptimo. Si lo está viendo de otra manera, está luchando entre, "está bien, tengo que comprar una plataforma patentada donde no hay un bloqueo, no hay influencia del código abierto, podría ser un costo muy alto y limitado flexibilidad en comparación con todas estas fuentes de código abierto donde tienes que hacerlo tú mismo ”. Nuevamente, como dije, son muchos costos y demoras para llegar al mercado. Lo que estamos diciendo es que StreamAnalytix es un ejemplo de una gran plataforma que reúne a la clase empresarial, un proveedor único, confiable, con soporte profesional, todo lo que realmente necesita como empresa y el poder de flexibilidad del ecosistema de código abierto donde una sola plataforma los une: ingesta, CEP, análisis, visualización y todo eso.
También hace una cosa muy, muy única, que reúne muchos motores de tecnología diferentes bajo una sola experiencia de usuario. Realmente pensamos que el futuro se trata de poder usar múltiples motores de transmisión porque los diferentes casos de uso realmente exigen diferentes arquitecturas de transmisión. Como Robin dijo, hay un espectro completo de latencias. Si realmente está hablando del nivel de latencia de milisegundos, decenas o incluso cientos de milisegundos, realmente necesita Storm en este momento hasta que haya otro producto igualmente maduro para menos clemencia o un marco de tiempo indulgente y latencias de quizás en un par de segundos, tres, cuatro, cinco segundos, ese rango, entonces puedes usar Spark Streaming. Potencialmente, hay otros motores que podrían hacer ambas cosas. En pocas palabras, en una gran empresa, habrá casos de uso de todo tipo. Realmente desea que el acceso y la generalidad tengan múltiples motores con una sola experiencia de usuario y eso es lo que estamos tratando de construir en StreamAnalytix.
Solo una vista rápida de la arquitectura. Vamos a reelaborar esto un poco, pero esencialmente, hay múltiples fuentes de datos entrando en el lado izquierdo: Kafka, RabbitMQ, Kinesis, ActiveMQ, todas esas fuentes de datos y colas de mensajes que ingresan a la plataforma de procesamiento de flujo donde puedes armar una aplicación, donde puedes arrastrar y soltar desde operadores como los ETL, todo lo que hablamos. Debajo, hay múltiples motores. En este momento, tenemos Storm and Spark Streaming como la única y primera plataforma de transmisión de clase empresarial de la industria que tiene soporte para múltiples motores. Esa es una flexibilidad muy única que ofrecemos además de toda la otra flexibilidad de tener paneles en tiempo real. Motor CET integrado. Tenemos la integración perfecta con los índices Hadoop y NoSQL, los índices Solr y Apache. Puede acceder a su base de datos favorita sin importar cuál sea y crear aplicaciones realmente rápido y llegar al mercado muy rápido y mantenerse a prueba de futuro. Ese es todo nuestro mantra en StreamAnalytix.
Con eso, creo que concluiré mis comentarios. No dude en venir a nosotros para más preguntas. Me gustaría mantener el piso abierto para preguntas y respuestas y paneles de discusión.
Rebecca, hacia ti.
Rebecca Jozwiak: Genial, está bien. Muchas gracias. Dez y Robin, ¿tienen alguna pregunta antes de entregarla a la audiencia Preguntas y respuestas?
Robin Bloor: Tengo una pregunta. Volveré a ponerme los auriculares para que me escuches. Una de las cosas interesantes, si pudieras decirme esto amablemente, mucho de lo que he estado viendo en el espacio de código abierto parece lo que diría inmaduro para mí. En cierto sentido, sí, puedes hacer varias cosas. Pero parece que estamos viendo el software en su primer o segundo lanzamiento en realidad y me preguntaba con su experiencia como organización, ¿cuánto ve la inmadurez del entorno Hadoop como problemático o es algo que no lo hace? t crear demasiados problemas?
Anand Venugopal: Es una realidad, Robin. Estás absolutamente en lo correcto. La inmadurez no está necesariamente en el área de la estabilidad funcional y las cosas, sino también en algunos casos. Pero la inmadurez está más en la disponibilidad de uso. Los productos de código abierto a medida que salen e incluso cuando son ofrecidos por la distribución de Hadoop, son muchos productos capaces diferentes, componentes simplemente unidos. No funcionan juntos sin problemas y no están diseñados para una experiencia de usuario fluida y sin problemas que obtendremos como Bank of America o Verizon o AT&T, para implementar una aplicación de análisis de transmisión en cuestión de semanas. No están diseñados para eso con seguridad. Esa es la razón por la que entramos. Lo reunimos y lo hacemos realmente fácil de entender, implementar, etc.
La madurez funcional de la misma, creo que en gran medida, está ahí. Muchas grandes empresas usan, por ejemplo, Storm hoy. Muchas grandes empresas están jugando con Spark Streaming hoy. Cada uno de estos motores tiene sus limitaciones en lo que pueden hacer, por eso es importante saber lo que puede y lo que no puede hacer con cada motor, y no tiene sentido romperse la cabeza contra la pared y decir: "Mira, yo elegí Spark Streaming y no me funciona en esta industria en particular ”. No va a funcionar. Habrá casos de uso en los que Spark Streaming será la mejor opción y habrá casos de uso en los que Spark Streaming puede no funcionar en absoluto para usted. Es por eso que realmente necesitas múltiples opciones.
Robin Bloor: Bueno, necesitas tener equipos expertos a bordo para la mayor parte de esto. Quiero decir que ni siquiera sé por dónde empezar con esto tampoco. Una coacción sensata de personas capacitadas. Me interesa cómo se involucra el compromiso y cómo sucede. ¿Es porque una compañía en particular está buscando una aplicación específica o está viendo algo de lo que yo llamaría adopción estratégica donde quieren que una plataforma completa haga muchas cosas?
Anand Venugopal: Estamos viendo ejemplos de ambos, Robin. Algunas de las diez mejores marcas que todos conocen lo están haciendo de una manera muy estratégica. Saben que van a tener una variedad de casos de uso, por lo que están evaluando plataformas que se adapten a esa necesidad, que es una variedad de casos de uso diferentes de manera multiinquilino para ser implementados en una empresa. Hay historias de casos de uso único que también están comenzando. Hay un caso particular de uso del tipo de monitoreo de actividad comercial en una compañía hipotecaria en el que estamos trabajando en el que no se imaginaría como primer caso de uso, pero esa es la solución comercial o caso de uso que se les ocurrió y luego conectamos los puntos a la transmisión . Dijimos: "¿Sabes qué? Este es un gran caso para el análisis de transmisión y así es como podemos implementarlo ”. Así fue como comenzó. Luego, en ese proceso, se educan y dicen: "Oh, wow, si podemos hacer esto y si se trata de una plataforma genérica, entonces podemos separar la aplicación, colocarla en una plataforma y construir muchas aplicaciones diferentes en este plataforma."
Robin Bloor: Dez, ¿tienes alguna pregunta?
Anand Venugopal: Dez probablemente esté mudo.
Dez Blanchfield: Disculpas, mudo. Acabo de tener una buena conversación yo mismo. Simplemente siguiendo la observación original de Robin, tienes toda la razón. Creo que el desafío ahora es que las empresas tienen un ecosistema y un entorno cultural y de comportamiento donde el software libre y de código abierto es algo que conocen y pueden usar herramientas como Firefox como navegador y ha tenido un buen desempeño. de por vida hasta que se vuelva estable y seguro. Pero algunas de esas plataformas muy grandes que usan son plataformas propietarias de nivel empresarial. Por lo tanto, la adopción de lo que considero plataformas de código abierto no siempre es algo que les sea fácil de transmitir cultural o emocionalmente. He visto esto a través de la adopción de pequeños programas que eran proyectos locales para jugar con big data y análisis como concepto fundamental. Creo que uno de los desafíos clave, estoy seguro de que los ha visto ahora en todas las organizaciones, es su deseo de obtener el resultado, pero al mismo tiempo tener un pie atascado en la vieja lata donde podrían comprar esto. "Insertar una gran marca" Oracle, IBM y Microsoft. Estas marcas nuevas y conocidas están llegando con plataformas Hadoop y aún más. Están llegando marcas más emocionantes que tienen tecnología de punta como stream.
¿Cuáles son los tipos de conversaciones que ha tenido ese tipo de conversación? Sé que tenemos una asistencia masiva esta mañana y una cosa que estoy seguro está en la mente de todos es "¿Cómo puedo cortar toda esa capa desafiante desde el tablero hasta el nivel de gestión, oh, es demasiado de código abierto y demasiado sangriento? "¿Cómo van las conversaciones que tienes con los clientes y cómo llegas a ese punto en el que alivias ese tipo de miedos para considerar adoptar los gustos de StreamAnalytix?
Anand Venugopal: En realidad, nos resulta bastante fácil vender nuestra propuesta de valor porque los clientes se están moviendo naturalmente hacia el código abierto como una opción preferida. No se están rindiendo fácilmente y dicen: "Está bien, ahora voy a ir al código abierto". Realmente pasan por una evaluación muy comprometida de un producto importante, digamos que es un IBM o un producto típico, porque tienen Estas relaciones con los proveedores. No nos tratarían a nosotros ni al motor de código abierto contra ese producto. Pasarán de seis a ocho a doce semanas de evaluación. Se convencerán a sí mismos de que hay un grado de rendimiento y estabilidad aquí que quiero y luego se deciden diciendo: "Vaya, sabes qué, realmente puedo hacer esto".
Hoy, por ejemplo, tenemos una importante empresa de telecomunicaciones de primer nivel que tiene análisis de flujo que se ejecutan en producción en la parte superior de la pila y están evaluando eso contra otro proveedor muy, muy grande y conocido, y se convencieron solo después de que probamos todo El rendimiento, la estabilidad y todas esas cosas. No lo dan por sentado. Descubrieron que el código abierto es competente a través de sus evaluaciones y se dan cuenta de que, en el peor de los casos, “Quizás haya esos dos casos de uso que quizás no pueda hacer, pero la mayoría de los casos de uso de aceleración de mi negocio hoy en día son eminentemente posibles con el código abierto stack ". Y permitimos su uso. Entonces ese es el gran punto dulce justo allí. Querían el código abierto. Realmente están buscando salir de la situación de bloqueo de proveedores a la que han estado acostumbrados durante muchos, muchos años. Luego, aquí venimos y decimos: "Sabes qué, haremos que el código abierto sea mucho, mucho más fácil y amigable para ti".
Dez Blanchfield: Creo que el otro desafío que encuentran las empresas es que cuando traen al titular tradicional, a menudo están una generación detrás de algunos de los aspectos más emocionantes de las cosas emocionantes de las que estamos hablando aquí y no lo digo como un Negativo leve. Es solo que la realidad es que tienen que pasar por una generación y un viaje para lanzar lo que consideran plataformas estables, ciclos de desarrollo de la vieja escuela e integración UATN, pruebas y documentación, y marketing y ventas. Mientras que en el tipo que está haciendo, creo que lo que me interesa pensar es que al mirar algunos de sus últimos lanzamientos anoche haciendo algún tipo de trabajo de investigación, ahora tiene esta mezcla donde obtuvo el competencia desde un punto de vista de consultoría inicial y una implementación, pero también tiene una pila en la que puede ingresar. Creo que aquí es donde los titulares van a tener problemas durante algún tiempo. Hemos visto muchos de ellos como lo hice en el mercado. A menudo se encuentran en lo que yo llamo nodos de recuperación, mientras que por lo que nos está diciendo cuando está ahí afuera haciendo esas conversaciones y está implementando.
¿Puedes darnos un par de ejemplos de algunas de las verticales de la frontera que has visto adoptar? Por ejemplo, hay un entorno realmente nicho como la ciencia de cohetes y la colocación de satélites en el espacio y la recopilación de datos de Marte. Solo hay un puñado de personas haciendo eso en el planeta. Pero hay grandes verticales como la salud, por ejemplo, en aeronáutica, en transporte y logística, en manufactura e ingeniería, ¿cuáles son algunos ejemplos de los sectores industriales más grandes y más amplios que has visto hasta ahora y que has visto realmente bien? adopción en?
Anand Venugopal: Telco es un gran ejemplo.
Solo voy a arreglar rápidamente mis diapositivas aquí. ¿Puede ver la diapositiva aquí, estudio de caso 4?
Este es un caso de una gran empresa de telecomunicaciones que ingiere datos de decodificadores y hace varias cosas con ellos. Están mirando lo que los clientes realmente están haciendo en tiempo real. Están mirando dónde ocurren los errores en tiempo real en los decodificadores. Están tratando de informar al centro de llamadas, si este cliente llama en este momento, la información del enlace del código del decodificador de este cliente, la información del ticket de mantenimiento se correlaciona rápidamente si el decodificador de este cliente en particular tiene un problema o no, incluso antes El cliente habla una palabra. Cada compañía de cable, cada compañía de telecomunicaciones importante está tratando de hacer esto. Ellos ingieren los datos del decodificador, realizan análisis en tiempo real, analizan campañas para poder colocar sus anuncios. Hay un gran caso de uso.
Como dije, existe esta compañía hipotecaria que nuevamente es un patrón genérico en el que grandes sistemas están involucrados en el procesamiento de datos. Los datos que fluyen a través del sistema A al sistema B al sistema C y estos son negocios regulados que todo debe ser coherente. A menudo, los sistemas no están sincronizados entre sí, un sistema dice: "Estoy procesando cien préstamos con un valor total de $ 10 millones". El sistema dice: "No, estoy procesando 110 préstamos de algún otro diferente número ". Tienen que resolver eso realmente rápido porque de hecho están procesando los mismos datos y haciendo diferentes interpretaciones.
Ya sea que se trate de una tarjeta de crédito, procesamiento de préstamos, proceso comercial o si se trata de un proceso comercial hipotecario u otra cosa, los estamos ayudando a hacer la correlación y la reconciliación en tiempo real para garantizar que esos procesos comerciales permanezcan sincronizados. Ese es otro caso de uso interesante. Hay un importante contratista del gobierno de EE. UU. Que está mirando el tráfico DNS para detectar anomalías. Construyeron un modelo de entrenamiento fuera de línea y están haciendo la puntuación basada en ese modelo en el tráfico en tiempo real. Algunos de esos casos de uso interesantes. Hay una aerolínea importante que está mirando las colas de seguridad e intentan brindarle esa información que dice: “Oye, es la puerta de entrada de su avión para su vuelo. La cola de la TSA de hoy es de aproximadamente 45 minutos versus dos horas en comparación con otra cosa ”. Obtiene esa actualización por adelantado. Todavía están trabajando en eso. Caso de uso de IoT interesante pero excelente caso de análisis de transmisión que se dirige a la experiencia del cliente.
Rebecca Jozwiak: Esta es Rebecca. Mientras se ocupa del tema de los casos de uso, un miembro de la audiencia se hace una gran pregunta y se pregunta: “¿Son estos estudios de caso, estas iniciativas se están impulsando desde el lado analítico de los sistemas de información de la casa o se están impulsando más desde ¿El negocio que tiene preguntas o necesidades específicas en mente?
Anand Venugopal: Creo que vemos alrededor del 60 por ciento más o menos, 50 por ciento a 55 por ciento, en gran medida iniciativas tecnológicas muy proactivas y entusiastas que saben, que son bastante inteligentes y entienden ciertos requisitos comerciales y que probablemente tengan un patrocinador identificados, pero estos son equipos de tecnología que se preparan para la avalancha de casos de uso comerciales que se presentan y, una vez que desarrollan la capacidad, saben que pueden hacer esto y luego se dedican a los negocios y lo venden agresivamente. En 30 por ciento a 40 por ciento de los casos, vemos que las empresas ya tienen un caso de uso particular que está pidiendo una capacidad de análisis de transmisión.
Rebecca Jozwiak: Eso tiene sentido. Tengo otra pregunta un poco más técnica de un miembro de la audiencia. Se pregunta si estos sistemas admiten flujos de datos estructurados y no estructurados, como sedimentos de flujos de Twitter o publicaciones de Facebook en tiempo real, ¿o necesita ser filtrado inicialmente?
Anand Venugopal: Los productos y tecnologías de los que estamos hablando admiten de manera inminente tanto datos estructurados como no estructurados. Se pueden configurar. Todos los datos tienen algún tipo de estructura, ya sea un texto o un XML o cualquier cosa. Hay alguna estructura en términos de que hay una alimentación de marca de tiempo. Quizás haya otro blob que deba analizarse para que pueda inyectar análisis en la secuencia para analizar las estructuras de datos. Si está estructurado, entonces simplemente le decimos al sistema: "Bien, si hay valores separados por comas y el primero es una cadena, el segundo es una fecha". Entonces podemos inyectar esa inteligencia de análisis en las capas de la pantalla superior y procesar fácilmente datos estructurados y no estructurados.
Rebecca Jozwiak: Tengo otra pregunta de la audiencia. Sé que hemos pasado un poco más allá de la hora. Este asistente quiere saber, parece que las aplicaciones de transmisión en tiempo real pueden estar desarrollando tanto una necesidad como una oportunidad para integrarse nuevamente en los sistemas de transacciones, los sistemas de prevención de fraude que presentan, por ejemplo. En ese caso, ¿deben ajustarse los sistemas de transacción para que se ajusten a eso?
Anand Venugopal: Es una fusión, ¿verdad? Es una fusión de sistemas de transacción. A veces se convierten en la fuente de datos donde analizamos transacciones en tiempo real y en muchos casos donde digamos que hay un flujo de aplicaciones y aquí estoy tratando de mostrar un sitio de búsqueda de datos estáticos y luego en nuestro caso donde algún tipo de transmisión y está buscando una base de datos estática como un HBase o un RDBMS para enriquecer los datos de transmisión y los datos estáticos juntos para tomar una decisión o una visión analítica.
También vemos otra gran tendencia de la industria: la convergencia de OLAP y OLTP, y es por eso que tiene bases de datos como Kudu y bases de datos en memoria que admiten transacciones y procesamiento analítico al mismo tiempo. La capa de procesamiento de flujo estaría completamente en la memoria y analizaremos o interactuaremos con algunas de estas bases de datos transaccionales.
Rebecca Jozwiak: Creo que la carga de trabajo mixta ha sido uno de los últimos obstáculos para saltar. Dez, Robin, ¿ustedes dos tienen más preguntas?
Dez Blanchfield: Voy a saltar a una última pregunta y terminar con eso si no te importa. El primer desafío que las organizaciones con las que he estado lidiando durante la última década más o menos que llevan a este emocionante desafío de análisis de flujo, lo primero que tienden a volver a poner sobre la mesa cuando comenzamos la conversación en torno a este desafío es dónde tenemos el conjunto de habilidades? ¿Cómo reentrenamos el conjunto de habilidades y cómo conseguimos esa capacidad internamente? Hacer que Impetus entre y nos sostenga a mano durante el viaje y luego lo implemente como un gran primer paso y tiene mucho sentido hacerlo.
Pero para una organización mediana a grande, ¿cuáles son los tipos de cosas que está viendo en este momento para prepararse para esto, para desarrollar esa capacidad internamente, para obtener algo de un vocabulario básico a su alrededor y qué tipo de mensaje pueden hacer con ¿La organización en torno a la transición a este tipo de marco y reorganizando a su personal técnico existente de TI del CEO para que puedan ejecutarlo ellos mismos una vez que lo construya e implemente? Muy brevemente, qué tipo de desafíos y cómo los están resolviendo, los clientes con los que está lidiando, los tipos de desafíos que encontraron y cómo lograron resolver ese reciclaje y recuperar experiencia y conocimiento para prepararse para esto y estar capaz de andar operacionalmente?
Anand Venugopal: A menudo, el pequeño grupo de personas que intentan salir y comprar una plataforma de análisis de transmisión ya es razonablemente inteligente, ya que son conscientes de Hadoop, ya han adquirido sus habilidades de Hadoop MapReduce y porque están trabajando estrechamente con Hadoop proveedor de distribución, o están familiarizados. Todo se está poniendo Kafka, por ejemplo. Están haciendo algo con él y la transmisión de Storm o Spark está en su dominio de código abierto. Definitivamente, las personas están familiarizadas con él o desarrollan habilidades a su alrededor. Pero comienza con un pequeño grupo de personas que son lo suficientemente hábiles y lo suficientemente inteligentes. Ellos asisten a conferencias. Están aprendiendo y hacen preguntas inteligentes a los vendedores y, en algunos casos, aprenden con los vendedores. A medida que los vendedores vienen y presentan en la primera reunión, es posible que no sepan cosas, pero leen conjuntamente y luego comienzan a jugar con ellas.
Ese pequeño grupo de personas es el núcleo y luego comienza a crecer y ahora todos se dan cuenta de que el primer caso de uso comercial se operacionaliza. Comienza una ola y vimos en la cumbre de Spark la semana pasada donde una gran empresa como Capital One estaba allí y con toda su fuerza. Estaban optando por Spark. Estaban hablando de eso. Están educando a mucha de su gente en Spark porque también contribuyen en muchos casos como usuarios. Vemos lo mismo con muchas, muchas grandes empresas. Comienza con un pequeño grupo de personas muy inteligentes y luego comienza una ola de educación general y las personas saben que una vez que un vicepresidente sénior o un director sénior se alinean y quieren apostar por esto, se corre la voz y Todos comienzan a aprender estas habilidades.
Dez Blanchfield: Estoy seguro de que también pasas un tiempo fantástico construyendo esos campeones.
Anand Venugopal: Sí. Educamos mucho mientras trabajamos con los campeones iniciales y llevamos a cabo cursos de capacitación y muchos, muchos para nuestros grandes clientes, hemos regresado y tuvimos olas y olas de entrenamiento para llevar a muchos de los usuarios a la fase de uso general, especialmente en el sitio Hadoop MapReduce. Descubrimos que en una gran compañía de tarjetas de crédito que es cliente nuestro, hemos impartido al menos entre cinco y ocho programas de capacitación diferentes. También tenemos ediciones comunitarias gratuitas de todos estos productos, incluidos los nuestros, cajas de arena que las personas pueden descargar, acostumbrarse y educarse de esa manera también.
Dez Blanchfield: Eso es todo lo que tengo esta mañana para ti. Muchas gracias. Me resulta increíblemente interesante ver los tipos de modelos y casos de uso que tiene para nosotros hoy. Gracias.
Anand Venugopal: Genial. Muchas gracias amigos.
Rebecca Jozwiak: Gracias a todos por unirse a nosotros en este webcast de Hot Technologies. Ha sido fascinante saber de Dez Blanchfield, el Dr. Robin Bloor y de Impetus Technologies, Anand Venugopal. Gracias presentadores. Gracias oradores y gracias audiencia. Tenemos otro Hot Technologies el próximo mes, así que búscalo. Siempre puede encontrar nuestro contenido archivado en Insideanalysis.com. También publicamos mucho contenido en SlideShare y algunos fragmentos interesantes en YouTube.
Eso es todo amigos. Gracias de nuevo y que tengas un buen día. Adiós.