Hogar Audio Incruste análisis en todas partes: habilitando al ciudadano científico de datos

Incruste análisis en todas partes: habilitando al ciudadano científico de datos

Anonim

Por el personal de Techopedia, 25 de agosto de 2016

Para llevar: la presentadora Rebecca Jozwiak discute el fenómeno de los análisis integrados y los científicos de datos ciudadanos con el Dr. Robin Bloor, Dez Blanchfield y David Sweenor.

Debes registrarte en este evento para ver el video. Regístrese para ver el video.

Rebecca Jozwiak: Damas y caballeros, hola y bienvenidos a Hot Technologies. "Insertar en todas partes: habilitar al científico de datos ciudadanos" es nuestro tema de hoy. Estoy reemplazando a tu anfitrión habitual, esta es Rebecca Jozwiak reemplazando a Eric Kavanagh. Sí, este año es caluroso. Particularmente, el término "científico de datos" ha recibido mucha atención a pesar de que solíamos llamarlos nombres aburridos como "estadístico" o "experto en análisis", abordando el mismo tipo de actividades, pero tiene un nuevo nombre atractivo y es atrayendo mucha atención. Son altamente deseables para tener en el lugar de trabajo, beneficiosos para la organización, y todos quieren uno. Pero son: 1) caros, 2) difíciles de encontrar. Ya sabes, ha estado en todas las noticias sobre la escasez de habilidades de los científicos de datos, sí, pero aún así ofrecen un gran valor para la organización y las personas están clamando por descubrir cómo obtener ese valor sin tener que perder el centavo, por lo que hablar.

Pero la buena noticia es que estamos viendo la aparición de herramientas y software que compensan esa escasez. Tenemos automatización, aprendizaje automático, análisis embebido, que es lo que vamos a aprender hoy, y de alguna manera da lugar a este nuevo término, "el científico de datos ciudadanos", ¿y qué significa eso? No, no es su científico de datos capacitado, podría ser el usuario de su empresa, su experto en BI, alguien de TI, alguien que tenga los antecedentes pero quizás no necesariamente la experiencia. Pero lo que hace, estas herramientas y el software, es que le da a más personas acceso a esas soluciones inteligentes aunque no conozcan la codificación profunda. Pero solo ayuda a mejorar el rendimiento general cuando le da a todos un poco más de acceso a ese pensamiento analítico. No es necesario tener la capacitación necesaria para tener el tipo de curiosidad que puede conducir a una buena comprensión de su empresa.

Discutiendo que con nosotros hoy está nuestro propio Robin Bloor, analista jefe del Grupo Bloor, uno de los esquivos científicos de datos él mismo, Dez Blanchfield llamando, y luego tenemos a David Sweenor de Dell Statistica nos hará una presentación hoy. Y con eso, se lo pasaré a Robin Bloor.

Robin Boor: Bien, gracias por esa presentación. Pensé en esto en un contexto histórico. Lo que realmente estamos viendo aquí es uno de los diseños de Leonardo da Vinci para una especie de planeador que un hombre podría poner en su espalda. No tengo idea de si realmente funcionaría. No entraría en eso, debo decir. Sin embargo, da Vinci, cada vez que pienso en da Vinci, pienso en él como una de las personas más inquisitivas y analíticas que haya existido. Y está bastante claro si solo miras ese planeador que está diseñado sobre la base del ala de un pájaro y que de una forma u otra ha estudiado los vuelos de las aves para construirlo.

Si tomamos la perspectiva histórica, en realidad busqué esto, la analítica es quizás la aplicación más antigua de las matemáticas. Hay censos que se remontan al menos a los tiempos de Babilonia. Sabemos esto porque básicamente hay algunas tabletas cuneiformes que tienen datos como ese. No se sabe si hubo algo que haya retrocedido antes. Pero lo obvio es que tienes una civilización con una gran población de personas, en realidad requiere planificación y vale la pena saber qué estás planeando y cuáles son los requisitos de esas personas.

Y ahí es donde comenzó y también donde comenzó la informática porque las primeras computadoras, las primeras computadoras mecánicas, en realidad, creo que la primera fue el censo creado por Hollerith, que se convirtió en IBM, creo. Todo esto ha avanzado. Ha habido algún tipo de interludio entre quizás la década de 1970 y el día de hoy, donde hay una gran cantidad de otras aplicaciones y análisis, se podría decir que pasaron a un segundo plano. Sí, estaban sucediendo análisis: estaba sucediendo en grandes organizaciones, particularmente bancos y compañías de seguros, y en realidad en General Electric y telecomunicaciones y cosas así, pero generalmente no se usaba en todos los negocios y ahora está comenzando a usarse generalmente en todas partes. negocio. Y ha cambiado el juego, de verdad. Lo primero que pensé que llamaría la atención es la pirámide de datos, que particularmente me gusta. Esto es, quiero decir, dibujé uno de estos hace 20 años, al menos hace 20 años, para tratar de comprender, realmente, en ese momento, estaba tratando de entender BI y algunas de las primeras minas de datos que se estaban haciendo. Lo que he definido aquí es la idea de los datos y los ejemplos son señales, medidas, grabaciones, eventos, transacciones, cálculos, agregaciones, puntos de información individuales. Puede pensar en ellas como moléculas de información, pero son puntos individuales. Se convierte en información tan pronto como obtiene contexto. Datos vinculados, datos estructurados, bases de datos, visualización de datos, trazadores, esquemas y ontologías: todos califican en mi mente como información porque lo que ha hecho es agregar mucha variedad y crear algo mucho más que un punto de datos, algo que realmente tiene una forma, una forma matemática.

Por encima de eso tenemos conocimiento. Podemos, al examinar la información, podemos aprender que hay varios patrones y podemos aprovechar esos patrones formulando reglas, políticas, pautas, procedimientos, y luego toma la forma de conocimiento. Y casi todos los programas de computadora, sea lo que sea que estén haciendo, son un tipo de conocimiento, porque están trabajando en contra de los datos y les aplican reglas. Tenemos estas tres capas y hay un refinamiento cada vez mayor entre las capas. Y en el lado izquierdo de este diagrama, se muestran nuevos datos que ingresan, por lo que muchas de estas cosas son estáticas. Los datos se están acumulando, la información se está acumulando y el conocimiento está potencialmente creciendo. En la parte superior, tenemos "Comprensión" y yo mantendría, aunque es un argumento filosófico, que la comprensión reside solo en los seres humanos. Si me equivoco al respecto, todos seremos reemplazados por computadoras en algún momento. Pero en lugar de tener el debate, pasaré a la siguiente diapositiva.

Cuando miré esto, lo interesante, esto es algo reciente, lo interesante fue tratar de descubrir qué era realmente el análisis. Y finalmente, al dibujar varios diagramas y terminar con uno que se parecía a esto, llegué a la conclusión, de hecho, el desarrollo analítico es realmente solo desarrollo de software con una cantidad horrible de fórmulas matemáticas. La exploración analítica es un poco diferente al desarrollo de software en el sentido de que realmente tomaría muchos, muchos modelos diferentes y los investigaría para generar nuevos conocimientos sobre los datos. Pero una vez que lo ha generado, se implementa en lo que yo considero como soporte pasivo de decisión, que es información que acaba de alimentar a un usuario; soporte interactivo de decisiones, que es algo como OLAP, donde el usuario recibe un conjunto estructurado de datos que puede investigar y deducir cosas por sí mismo utilizando las diversas herramientas disponibles. Mucha visualización es así. Y luego tenemos automatización si puede convertir alguna información analítica que ha reunido en un conjunto de reglas que se pueden implementar, no necesariamente necesita un ser humano para participar. Ese es el tipo de forma en que lo miré cuando hice todo eso. Y varias cosas comenzaron a ocurrirme. Una vez que un área de actividad, digamos, una vez que realmente se extrae un dominio de datos, se extrae a fondo, se explora a fondo en todas las direcciones posibles, eventualmente se convierte en BI cristalizado. El conocimiento que se inventa comienza a convertirse en conocimiento que informa a varios usuarios de varias maneras y aumenta su capacidad, con suerte, para hacer realmente el trabajo que hacen.

Una de las cosas que noté y he analizado el análisis predictivo durante aproximadamente cinco años, pero el análisis predictivo se está convirtiendo en BI, en el sentido de que se está convirtiendo en información útil para alimentar a las personas y, como ya he señalado, hay informes automatizados de BI, BI exploratorio, BI, gradaciones muy diferentes y análisis predictivo en realidad va en las tres direcciones. Y el proceso analítico, como señalé, no es tan diferente al desarrollo de software, solo lo realizan personas diferentes con habilidades ligeramente diferentes. Supongo que debería enfatizar que las habilidades requeridas para hacer un científico de datos realmente bueno tardan años en adquirirse. No se adquieren fácilmente y no un gran número de personas pueden hacerlo, pero eso se debe a que implica comprender las matemáticas a un nivel muy sofisticado para saber qué es válido y qué no es válido. Desarrollos analíticos, descubrimiento de nuevos conocimientos, implantación analítica, se trata de hacer que el conocimiento sea operativo. Ese es el tipo de telón de fondo que veo para toda la analítica. Es un área enorme y tiene muchas, muchas dimensiones, pero creo que la generalización se aplica a todo.

Luego está la interrupción del negocio, como mencioné que hay varias organizaciones, las compañías farmacéuticas es otra, que tienen en su ADN que tienen análisis. Pero hay muchas organizaciones que realmente no lo tienen en su ADN, y ahora tienen la capacidad, ahora el software y el hardware son mucho más económicos de lo que solían ser, ahora tienen la capacidad de explotarlo. Yo diría una serie de cosas. Lo primero es que el análisis es, en muchos casos, es I + D. Es posible que solo esté aplicando análisis a un área específica de la organización y puede parecer mundano que de una forma u otra analice los pedidos de los clientes una vez más desde varias perspectivas, uniéndolo con otros datos. Pero la analítica en realidad crea la posibilidad de mirar a la organización como un todo y analizar prácticamente cualquier actividad particular que esté ocurriendo dentro de la organización y cadenas de actividades completas. Pero una vez que te mudes a esa área, mantendría que es investigación y desarrollo. Y hay una pregunta que me han hecho un par de veces, que es: "¿Cuánto debería gastar una empresa en análisis?" Y creo que la mejor manera de pensar en dar una respuesta es pensar en los análisis como I + D, y solo pregunte: "Bueno, ¿cuánto gastaría en I + D en el área de la eficiencia del negocio?"

Y las empresas que no son analíticas, hay muchas cosas que no saben. En primer lugar, no saben cómo hacerlo. Normalmente, si realmente van a adoptar una forma u otra de análisis dentro de la organización, realmente no tienen más opción que acudir a una consultoría que pueda ayudarlos a hacerlo porque, sería imposible o realmente muy difícil para la mayoría las empresas contratan a un científico de datos, encuentran uno, pagan uno y confían en que hagan lo que usted quiere que hagan. Muy dificil. La mayoría de las empresas no saben cómo contratar o educar al personal para que realmente haga este trabajo, y la razón de esto es simplemente que todavía no está en su ADN, por lo que no es parte de sus procesos comerciales naturales. Esto alimenta el siguiente punto. No saben cómo convertirlo en un proceso comercial. La mejor manera de hacerlo, por cierto, es copiar lo que las compañías farmacéuticas y las compañías de seguros, solo miren, y algunas compañías en el centro de atención médica, solo miren la forma en que usan los análisis y los copian. Porque es un proceso de negocio. No sé cómo vigilarlo o auditarlo. Eso realmente, especialmente ahora que una gran cantidad de compañías de software han creado productos que automatizan una gran cantidad de análisis. El punto sobre la auditoría es importante, cuando tienes una consultoría o alguien en el sitio en el que se puede confiar para comprender cuáles son los resultados de cualquier cálculo analítico, es un tipo de elección que tienes que hacer, pero si pones herramientas analíticas realmente poderosas en En manos de personas que no entienden adecuadamente los análisis, es probable que lleguen a conclusiones que podrían no ser correctas. Y como dije, las empresas no saben cómo presupuestarlo.

Estos son sabores de análisis, los revisaré. El análisis estadístico y el modelado estadístico son significativamente diferentes al análisis predictivo, la mayoría de los cuales, por cierto, se ajusta a la curva. El aprendizaje automático es diferente a esas cosas, el análisis de ruta y las series de tiempo, que básicamente se realiza en flujos de estado, son diferentes nuevamente. El análisis gráfico es diferente nuevamente, y el análisis de texto y el análisis semántico son diferentes nuevamente. Esto solo señala que esto es algo muy multigénero. No lo es, no comienzas a hacer análisis, comienzas a buscar los problemas que tienes y buscas las diversas herramientas y los diversos tipos de análisis que se adaptarán a esos. Y finalmente, la red neta. Debido a la evolución del hardware y el software, en mi opinión, el análisis está en su infancia. Hay mucho, mucho más por venir y lo veremos desarrollarse en los próximos años. Creo que puedo pasarle el balón a Dez ahora.

Dez Blanchfield: Sí, habla sobre un acto difícil de seguir, Robin. Voy a visitar este tema brevemente desde uno de mis ángulos favoritos, que es el ángulo del ser humano. Hay tantos cambios que tienen lugar en nuestra vida cotidiana. Una de las mayores interrupciones en nuestra vida cotidiana, actualmente en mi opinión, es solo el trabajo diario. Volviendo al trabajo e intentando hacer el trabajo para el que está contratado, y la creciente expectativa de que pasará de ser una persona común a un superhéroe y la cantidad de información que fluye alrededor de las organizaciones y se emite muy, muy rápidamente, Es un desafío importante y cada vez más tenemos que proporcionar herramientas cada vez mejores a las personas para tratar de hacer frente al flujo de conocimiento e información, por lo que pensé en intentarlo desde un ángulo un poco divertido . Pero, siempre me sorprende cómo tenemos esta mente alta o mobs flash y demás, que nos llevan a lo que hablamos como análisis, pero en realidad de lo que estamos hablando es de poner la información a disposición de las personas, y permitiéndoles interactuar con él y hacerlo de tal manera que sea natural y se sienta normal.

Y, de hecho, me recuerda a un video de YouTube de un niño pequeño, un bebé pequeño, sentado en el suelo y sentado allí jugando con un iPad y agitando y pellizcando y apretando y moviendo las imágenes y jugando con la pantalla, Los datos de allí. Y luego el padre se lleva el iPad y pone una revista, una revista impresa en el regazo del niño. Y este niño probablemente no tenga más de dos años. El niño comienza a tratar de deslizar con la pantalla de la revista, y pellizca y aprieta y la revista no responde. El niño levanta su dedo hacia arriba y lo mira y piensa: "Hmm, no creo que mi dedo esté funcionando", y se empuja en el brazo y piensa: "Ah no, mi dedo está funcionando. Puedo sentir mi brazo y eso se ve bien ", y menea el dedo, y el dedo se menea y responde. Si. Luego trata de interactuar con la revista nuevamente, y baja y mira que no pellizca, aprieta y se desplaza. Luego se llevan la revista y vuelven a poner el iPad en su regazo, y de repente todo funciona. Y aquí hay un bebé que ha venido y ha sido entrenado para usar una herramienta analítica o una herramienta de transmisión en vivo para el entretenimiento y no puede determinar cómo debería funcionar una revista y cómo pasar las páginas.

Y ese es un concepto interesante en sí mismo. Pero cuando pienso en el conocimiento que se mueve alrededor de las organizaciones, y la forma en que fluyen los datos y la forma en que las personas se comportan, a menudo pienso en este concepto de lo que la gente ha aprendido a ser un flash mob, que es un evento en el que las redes sociales hacen esto es aún más fácil de hacer, una idea como tal que es ir a este lugar a esta hora y fecha y acción, o grabar un video y aprender estos bailes, o usar este sombrero de color y apuntar hacia el norte a la una en punto. Y empujas esto a través de tu red, e invariablemente una gran cantidad de personas, cientos de ellas, aparecen en el mismo lugar al mismo tiempo, hacen lo mismo y existe este factor sorpresa, como: "Santa vaca, eso fue ¡realmente impresionante! ”Pero en realidad es una idea muy simple, y un concepto simple que simplemente se está extendiendo a través de nuestras redes y obtenemos este resultado que es visualmente impresionante y audiblemente impresionante. Y cuando piensas en una organización, la forma en que queremos que las personas se comporten y la forma en que queremos que se ocupen de los sistemas de información y los clientes, a menudo es así de simple, es una idea o un concepto o un rasgo cultural o de comportamiento que intentamos transmitir. a través y capacitar con herramientas e información.

Y apuntalando todo lo que es este mantra que he tenido durante más de dos décadas y media y que, si su personal no puede encontrar lo que necesitan para hacer su trabajo, ya sean herramientas o información, invariablemente reinventarán la rueda. Y este es un desafío cada vez mayor ahora, donde tenemos mucho conocimiento y mucha información y cosas que se mueven muy rápidamente, que queremos evitar que las personas reinventan la rueda. Y cuando pensamos en nuestro entorno de trabajo, volviendo al ángulo de las personas, que es uno de mis favoritos, me sorprendí cuando nos sorprendió que los cubículos no fueran un entorno propicio para buenos resultados, o alineamos cosas como esta horrible imágenes aquí, y no ha cambiado mucho, solo bajó las paredes y las llamó espacios abiertos de trabajo. Pero en el medio con el lazo amarillo a su alrededor, hay dos personas que intercambian conocimientos. Y, sin embargo, si miras el resto de la habitación, todos están sentados allí golpeando diligentemente, poniendo información en una pantalla. Y la mayoría de las veces, realmente no se intercambian conocimientos y datos, y hay una variedad de razones para eso. Pero la interacción en el medio del piso a la izquierda allí en el círculo amarillo, hay dos personas charlando allí, intercambiando conocimientos, y probablemente tratando de encontrar algo, tratando de decir: "¿Sabes dónde está este informe, dónde yo puedo encontrar estos datos, ¿qué herramienta utilizo para hacer esto? ”Y probablemente no funcionó, por lo que no obtuvieron nada y deambularon por el piso, rompieron la regla del espacio de oficinas de cubículos y lo hicieron en persona.

Y hemos tenido entornos similares en la oficina de los que nos burlamos en broma, pero la realidad es que son bastante poderosos y efectivos. Y uno de mis favoritos es la plataforma de análisis móvil o fija llamada el enfriador de agua, donde la gente sube y charla por ahí e intercambia conocimientos, y compara ideas y realiza análisis mientras está parado en el enfriador de agua, intercambiando ideas. Son conceptos muy poderosos cuando piensas en ellos. Y si puede traducirlos a sus sistemas y herramientas, obtendrá un resultado sorprendente. Y tenemos el favorito de todos los tiempos, que es esencialmente el centro de distribución de datos más poderoso de la oficina, también conocido como el mostrador de recepción. Y si no puedes encontrar algo, ¿a dónde vas? Bueno, caminas hacia el frente de la oficina y vas a la recepción y dices: "¿Sabes dónde está x, y, z?" Y me atrevo a que alguien me diga que no lo han hecho al menos una vez en un nuevo trabajo o en un momento en el que simplemente no pueden encontrar algo. Y tienes que preguntarte, ¿por qué es ese el caso? Debería estar en algún lugar de la intranet o alguna herramienta o lo que sea. Debería ser fácil de encontrar.

Entonces, cuando se trata de datos y análisis y las herramientas que hemos proporcionado a nuestro personal para hacer su trabajo y la forma en que los humanos interactúan con los trabajos, tengo la opinión de que antes de la reciente aparición de herramientas de análisis y plataformas de big data, o "procesamiento de datos", también llamado en la vieja escuela, la presentación de informes y el intercambio de conocimientos estaban lejos de ser dinámicos, colaborativos o abiertos, y cuando piensas en el tipo de sistemas con los que esperamos que las personas hagan su trabajo, tuvimos clásico, qué la gente lo llama legado ahora, pero la realidad es que solo se trata de un legado que se mantiene y todavía está aquí hoy, y por lo tanto no es realmente un legado. Pero los sistemas de recursos humanos y los sistemas ERP tradicionales: gestión de recursos humanos, planificación de recursos empresariales, gestión de datos empresariales y sistemas que utilizamos para gestionar la información para dirigir una empresa. Invariablemente está en silo. Y desde el extremo superior, plataformas simples como intranets departamentales, que intentan comunicar dónde están las cosas y cómo obtenerlas y cómo interactuar con el conocimiento del lugar. Lo mostramos en nuestra intranet. Es tan bueno como las personas que hacen tiempo y esfuerzo para poner eso allí, de lo contrario, solo se te queda en la cabeza. O tiene datos ubicados en la parte inferior de la cadena alimentaria, en las SAN corporativas y todo lo demás, por lo que sus redes de área de almacenamiento están llenas de archivos y datos, pero quién sabe dónde encontrarlos.

La mayoría de las veces, hemos construido estas plataformas de datos cerradas o sistemas cerrados, por lo que las personas han recurrido a hojas de cálculo y PowerPoints para pasar información por el lugar. Pero hubo algo interesante que ocurrió recientemente, en mi opinión, y fue que los dispositivos móviles e Internet en general funcionan de acuerdo con la idea de que las cosas podrían ser mejores. Y predominantemente en el espacio del consumidor. Y es interesante que en la vida cotidiana empezamos a tener cosas como la banca por Internet. No teníamos que ir físicamente a un banco para interactuar con ellos, podíamos hacerlo por teléfono. Originalmente eso era torpe, pero luego apareció Internet y tuvimos un sitio web. ¿Sabes, y cuántas veces has estado en tu banco últimamente? En realidad no puedo, tuve una conversación sobre esto el otro día, y en realidad no puedo recordar la última vez que fui a mi banco, que me sorprendió bastante, pensé que debía poder recordar esto, pero fue tan largo Hace realmente no puedo recordar cuando fui allí. Y ahora tenemos estos dispositivos en nuestras manos en forma de móviles y teléfonos, tabletas y computadoras portátiles, tenemos redes y acceso a herramientas y sistemas, y el espacio del consumidor hemos aprendido que las cosas pueden ser mejores, pero porque Debido al rápido cambio en el espacio del consumidor, que ha sido un cambio más letárgico y glacial dentro de la empresa y los entornos, no siempre hemos llevado ese cambio a la vida laboral cotidiana.

Y me encanta burlarme del hecho de que no puedes transmitir datos en vivo a una copia impresa. En esta imagen aquí hay una persona sentada mirando algunos análisis que se han realizado, y hay un hermoso gráfico producido por alguien a quien probablemente se le paga mucho dinero como estadístico o actuario, y están sentados allí tratando de hacer análisis en una copia impresa y hurgando en ella. Pero aquí está lo aterrador para mí: estas personas en esta sala de reuniones, por ejemplo, y usaré esto como un ejemplo, están interactuando con datos que ahora son históricos. Y es tan antiguo desde que esa cosa fue producida y luego impresa, así que tal vez es un informe de una semana. Ahora están tomando decisiones sobre no tanto datos malos como datos antiguos, que invariablemente pueden ser datos malos. Hoy toman una decisión basada en algo histórico, que es un mal lugar para estar. Logramos reemplazar esa copia impresa con tabletas y teléfonos similares porque trabajamos muy rápido en el espacio del consumidor, y ahora lo hemos logrado en el espacio empresarial, que el tiempo real es información es valor en tiempo real.

Y estamos mejorando cada vez más en eso. Y me lleva al punto que Robin planteó anteriormente, ese era el concepto del científico de datos ciudadanos y el impulso de este concepto. Para mí, un científico de datos ciudadanos son personas normales con las herramientas e información correctas sobre un iPad. No tienen que hacer los cálculos, no tienen que conocer los algoritmos, no tienen que saber cómo aplicar los algoritmos y los datos de las reglas, solo necesitan saber cómo usar la interfaz. Y eso me lleva de vuelta a mi introducción y al concepto del niño sentado allí con un iPad versus una revista, versus un iPad. El niño puede aprender de manera muy rápida e intuitiva cómo usar la interfaz de un iPad para sumergirse en la información e interactuar con ella, aunque sea un juego o un medio de transmisión o un video. Pero no podría obtener la misma respuesta o interacción de una barra de revista y solo parpadear página tras página, lo que no es muy atractivo, especialmente si eres un niño pequeño que ha crecido con iPads. Invariablemente, los seres humanos pueden mirar y aprender muy rápidamente cómo manejar herramientas y cosas que si solo les proporcionamos, y si les proporcionamos una interfaz como dispositivos móviles y particularmente tabletas y teléfonos inteligentes con pantallas lo suficientemente grandes, y particularmente si pueden interactuar al tacto, con movimientos de los dedos, de repente se obtiene este concepto de científico de datos ciudadano.

Alguien que pueda aplicar la ciencia de datos con las herramientas adecuadas, pero sin tener que saber cómo hacerlo. Y en mi opinión, gran parte de esto, como dije, fue impulsado por la influencia del consumidor, que se movió y se transformó en demanda y empresa. Un par de ejemplos realmente rápidos. Nosotros, muchos de nosotros comenzaríamos a hacer cosas con nuestros blogs y sitios web, como poner pequeños anuncios o mirar el seguimiento y el movimiento, utilizamos herramientas como Google Analytics y nos despertó el hecho de que en nuestros blogs y pequeños sitios web, podríamos poner pequeños trozos de código allí y Google nos daría información en tiempo real sobre quién visita el sitio web, cuándo y dónde y cómo. Y en tiempo real, pudimos ver personas visitando el sitio web, revisar las páginas y luego desaparecer. Y fue bastante sorprendente. Todavía me encanta hacerlo, cuando trato de explicar el análisis en tiempo real a las personas, lo simplifico a solo mostrarles un sitio web con Google Analytics conectado, y realmente veo la interacción en vivo con las personas que visitan los sitios web y les pregunto: "Imagínense si tenías ese tipo de información sobre tu negocio en tiempo real ".

Tomemos un ejemplo de venta minorista, y tal vez un producto farmacéutico, creo que lo llaman una farmacia en Estados Unidos, una farmacia donde entras y compras de todo, desde tabletas para el dolor de cabeza hasta crema solar y sombreros. Intentar dirigir esa organización sin información en tiempo real es un concepto aterrador ahora que sabemos lo que sabemos. Por ejemplo, puede medir el tráfico peatonal, puede colocar dispositivos alrededor de la tienda con una cara sonriente a un lado de la pantalla porque está contento y un rojo infeliz en el extremo derecho y algunos tonos diferentes en el medio. Y hay una plataforma llamada "feliz o no" en estos días, donde entras en una tienda y puedes golpear una cara feliz o triste, dependiendo de los comentarios de tus clientes en vivo. Y eso puede ser interactivo en tiempo real. Puede obtener precios en vivo basados ​​en la demanda. Si hay mucha gente allí, puede aumentar un poco los precios, y puede hacer una disponibilidad de existencias y decirle a la gente, por ejemplo: las aerolíneas, por ejemplo, le dirán a la gente cuántos asientos están disponibles ahora en el sitio web cuando está reservando un vuelo, no solo marca al azar y espera poder aparecer y obtener un vuelo. Datos de recursos humanos en vivo, puede saber cuándo las personas están encendiendo y apagando. Adquisiciones, si está en adquisiciones y tiene datos en vivo, puede hacer cosas como esperar una hora y protegerse contra el precio del dólar estadounidense para comprar su próxima carga de acciones y hacer que aparezca un camión de cosas.

Cuando le muestro a Google Analytics a las personas y les transmito ese tipo de anécdota, este momento eureka, este momento "¡a-ha!", Esta bombilla se enciende en su mente como, "Hmm, puedo ver muchos lugares donde podría hacer eso". . Si solo tuviera las herramientas y si solo tuviera acceso a ese conocimiento ”. Y ahora estamos viendo esto en las redes sociales. Cualquiera que sea un usuario inteligente de las redes sociales que no solo muestre fotos de su desayuno, tiende a ver cuántos me gusta están obteniendo y cuánto tráfico están obteniendo y cuántos amigos están obteniendo, y lo hacen con el Me gusta, por ejemplo, Twitter como herramienta de análisis. Puedes ir a Twitter.com para usar la herramienta, pero escribes en Google Twitter Analytics dot com, o haces clic en el botón superior derecho y despliegas el menú y lo haces, obtienes estos bonitos gráficos en vivo que te dicen cuántos tweets que estás haciendo tú mismo y cuántas interacciones con ellos. Y análisis en tiempo real solo en sus redes sociales personales. Imagínese si tuviéramos los gustos de Google Analytics y Facebook y LinkedIn y Twitter, las estadísticas de eBay vendrían a ti, pero en tu entorno de trabajo.

Ahora que tenemos el tipo de web y móvil en vivo al alcance de la mano, se convierte en un concepto de poder. Y eso me lleva a mi conclusión, y es que invariablemente he descubierto que las organizaciones que aprovechan las herramientas y la tecnología de manera temprana, obtienen una ventaja tan significativa sobre sus competidores que los competidores nunca pueden ponerse al día. Y estamos viendo eso ahora con el conflicto del ciudadano científico de datos. Si podemos llevar a las personas con las habilidades, el conocimiento para el que los contratamos, y podemos brindarles las herramientas adecuadas, particularmente la capacidad de ver los datos en tiempo real y descubrir datos y saber dónde están sin tener que caminar por los cubículos. y hacer preguntas en voz alta, tener que ir y pararse en el enfriador de agua para hacer un análisis comparativo con las personas o ir a preguntar a la recepción dónde está el índice. Si pueden hacerlo al alcance de su mano y pueden llevarlo a sus reuniones con ellos y sentarse en una sala de juntas mirando las pantallas en tiempo real en lugar de una copia impresa, de repente hemos empoderado a nuestro personal que no necesita ser real científicos de datos, pero en realidad usar la ciencia de datos e impulsar resultados sorprendentes para las organizaciones. Y creo que este punto de inflexión que realmente hemos pasado ahora, donde el consumidor se ve impulsado a la empresa, el desafío es cómo proporcionamos esa empresa, y ese es el tema que supongo de la discusión de hoy. Y con eso, voy a terminar mi pieza y entregarla para escuchar cómo podríamos resolver eso. David, a ti.

David Sweenor: Muy bien, muchas gracias chicos y gracias Robin. Sabes, Robin, estoy de acuerdo con tu evaluación original. Proceso analítico, no es realmente diferente al desarrollo de software. Creo que el desafío dentro de una organización es realmente, ya sabes, tal vez las cosas no están tan bien definidas, tal vez hay un componente exploratorio y un componente creativo. Y Dez, sabes, estoy de acuerdo contigo, hay mucho reinventar la rueda, y sabes, no hay una organización a la que vaya hoy, te preguntas, bueno, ¿por qué lo haces de esta manera? ¿Por qué el negocio funciona de esta manera? Y es fácil de cuestionar, y muchas veces cuando estás dentro de una organización, es difícil cambiar. Me encanta la analogía, la consumerización de las cosas. Y ya no cuando voy al aeropuerto y quiero cambiar mi asiento, lo hago en mi teléfono celular. No tengo que acercarme al agente en la cabina, y ver a ese agente escribir algo en un monitor monocromo durante 15 minutos para cambiar la asignación de mi asiento. Simplemente prefiero hacerlo en mi teléfono, por lo que es un desarrollo interesante.

Hoy vamos a hablar un poco sobre la inteligencia colectiva. Para aquellos que no lo saben, Statistica es una plataforma de análisis de vanguardia, que ha existido durante más de 30 años. Si observa cualquiera de las publicaciones que existen en la industria de los analistas, siempre aparece como uno de los paquetes de software de análisis avanzado más intuitivo y fácil de usar. Así que hemos pasado los últimos años trabajando en un concepto llamado inteligencia colectiva, y lo estamos llevando al siguiente nivel. Quería comenzar esta conversación con: ¿cómo se realiza el trabajo en su organización?

Y hay dos imágenes aquí. La de la izquierda es una imagen de la década de 1960, y no comencé mi carrera en la década de 1960, pero la imagen de la derecha es: esa es una fábrica de semiconductores donde comencé a trabajar. Y trabajé en ese edificio negro, tejado negro arriba a la izquierda. Pero hicieron cosas de semiconductores. Esta es una foto reciente de Google Images. Pero cuando vuelves a la imagen de 1960 a la izquierda, es muy interesante. Tienes a estas personas sentadas en una línea, y están haciendo, ya sabes, circuitos integrados y semiconductores. Pero hay una estandarización, hay una forma estándar de hacer las cosas, y hubo un proceso bien definido. Ya sabes, tal vez ya que todas estas personas están sentadas en un entorno abierto, tal vez hubo alguna colaboración. Creo que hemos perdido un poco de eso dentro de la fuerza laboral del conocimiento.

Cuando me senté en ese edificio en la esquina superior izquierda, si quería colaborar con alguien, no estaba abierto. Existían estas oficinas, tal vez parte del equipo era remoto, o tal vez tuve que caminar por este campus; fue una caminata de 25 minutos, y tendría que ir a hablar con alguien en el edificio en el extremo derecho. Creo que perdimos algo en el camino. Y así, ya sabes, tenía el mismo pensamiento: ¿por qué la gente, cuántas personas siguen reinventando la rueda dentro de su organización? Creo que, en general, las organizaciones hicieron un buen trabajo en los años 90 y 2000 con CRM y almacenamiento de datos, y hasta cierto punto BI. Por alguna razón, el análisis se ha retrasado un poco. Hubo importantes inversiones en el almacenamiento de datos, y en la estandarización y normalización de sus datos, y todo esto, y CRM, pero el análisis se ha retrasado por alguna razón. Y me pregunto por qué. Tal vez haya una creatividad, tal vez su proceso no esté bien definido, tal vez no sepa qué decisión o palanca está tratando de cambiar, ya sabe, en su negocio para cambiar las cosas. Cuando vamos a las organizaciones hoy, hay muchas personas que hacen las cosas de forma muy manual en hojas de cálculo.

Y sabes, miré una estadística esta mañana, creo que decía 80, 90 por ciento de las hojas de cálculo tienen errores, y algunos de estos pueden ser muy significativos. Como el de Whale, donde JPMorgan Chase perdió miles y miles de millones de dólares debido a errores en la hoja de cálculo. Así que creo que la premisa es que tiene que haber una mejor manera de hacer las cosas. Y como mencionamos, tenemos estos científicos de datos. Estos tipos son caros y son difíciles de encontrar. Y a veces son un poco un pato extraño. Pero creo que, si tuviera que resumir qué es un científico de datos, probablemente sea alguien que entienda los datos. Creo que es alguien que entiende las matemáticas, alguien que entiende el problema. Y realmente, alguien que puede comunicar los resultados. Y si usted es un científico de datos, tiene mucha suerte en este momento, porque su salario probablemente se ha duplicado en los últimos años.

Pero la verdad sea dicha, muchas organizaciones no tienen estos científicos de datos, pero su organización sí tiene personas inteligentes. Tienes una organización, tienes mucha gente inteligente y usan hojas de cálculo. Ya sabes, las estadísticas y las matemáticas no son su trabajo principal, pero usan datos para impulsar el negocio. Realmente, el desafío al que nos enfrentamos es, ¿cómo se toma, si tiene la suerte de tener un científico de datos o un estadístico o dos, cómo puede tomarlos y cómo puede mejorar la colaboración entre esas personas y el otras personas dentro de su organización? Si echamos un vistazo a cómo está estructurada nuestra organización, voy a comenzar, y voy a ir de derecha a izquierda. Y sé que esto es al revés, pero tenemos esta línea de usuarios comerciales.

Esta es la mayor parte de su población de trabajadores del conocimiento, y para estas personas, necesita incorporar análisis en su línea de aplicaciones comerciales. Quizás estén viendo resultados analíticos en una pantalla de centro de llamadas o algo así, y les está diciendo la siguiente mejor oferta para darle a un cliente. Tal vez sea un consumidor o proveedor en un portal web, y al instante les da crédito, o cosas así. Pero la idea es que están consumiendo análisis. Si vamos al medio, estos son estos trabajadores del conocimiento. Estas son las personas que están haciendo cosas con las hojas de cálculo hoy en día, pero las hojas de cálculo son propensas a errores y en algún momento se quedan sin gas. Estos científicos de datos ciudadanos, como los llamamos, ya sabes, lo que estamos tratando de hacer por ellos es realmente aumentar el nivel de automatización.

Y escuchas con análisis que del 80 al 90 por ciento del trabajo está en la pieza de preparación de datos, y no son las matemáticas reales, sino la preparación de datos. Estamos tratando de automatizar eso, ya sea que lo haga, y tenemos asistentes y plantillas y cosas reutilizables, y realmente no tiene que tener conocimiento de la infraestructura subyacente dentro de su entorno. Y luego, si miramos al extremo izquierdo, tenemos estos científicos de datos. Y como mencioné, son escasos. Y lo que estamos tratando de hacer para que sean más productivos es permitirles crear cosas que estos científicos de datos ciudadanos pueden hacer. Piense en ello como un bloque de Lego, por lo que estos científicos de datos pueden crear un activo reutilizable que un científico de datos ciudadano puede usar. Constrúyalo una vez, para que no tengamos que seguir reinventando la rueda.

Y luego también, estos tipos pueden estar preocupados si podemos hacer cosas en la base de datos y aprovechar las inversiones tecnológicas existentes que su empresa ha realizado. Ya sabes, hoy en día no tiene sentido mezclar datos de un lado a otro en todo el mundo. Entonces, si miramos Statistica, como mencioné, es una plataforma que ha existido durante bastante tiempo. Y es un producto muy innovador. Mezcla de datos, no ha habido una fuente de datos a la que no podamos acceder. Tenemos todas las cosas de descubrimiento y visualización de datos que usted esperaría; Podemos hacerlo en tiempo real. Y probablemente lo haya hecho: creo que hay más de 16, 000 funciones analíticas dentro de la herramienta de software, por lo que es más matemática de la que podría usar o entender, pero está ahí si la necesita.

Tenemos la capacidad de combinar reglas de negocios y flujos de trabajo analíticos para realmente tomar una decisión comercial. Vas más allá de lo simple, aquí hay un algoritmo, aquí hay un flujo de trabajo, pero tienes reglas comerciales con las que siempre tienes que lidiar. Estamos muy seguros en el gobierno. Estamos acostumbrados a muchos clientes farmacéuticos, ya que la FDA confía en nosotros. Ya sabes, solo prueba en el budín que tenemos los controles y la capacidad de auditoría para ser aceptados por ellos. Y por último, ya sabes, somos abiertos, flexibles y extensibles, por lo que debes crear una plataforma que sea eso, quieres que tus científicos de datos sean productivos, quieres que tus científicos de datos ciudadanos sean productivos, quieres poder para desplegar estos resultados analíticos a los trabajadores dentro de su organización.

Si lo miramos, aquí hay un ejemplo de algunas de las visualizaciones. Pero poder distribuir su salida analítica a usuarios de línea de negocio, por lo que el primer ejemplo a la izquierda es un diagrama analítico de red. Y quizás eres un investigador de fraudes, y no sabes cómo se hacen estas conexiones, y estas pueden ser personas, pueden ser entidades, pueden ser contratos, cualquier cosa realmente. Pero puede manipular esto con su mouse e interactuar con él para comprender realmente: si es un investigador de fraudes, comprender una lista priorizada de a quién investigar, correcto, porque no puede hablar con todos, así que tiene para priorizar.

Si miramos la imagen del lado derecho allí, para un panel de mantenimiento predictivo, este es un problema realmente interesante. Tal vez usted sea propietario de un aeropuerto y tenga estos escáneres corporales allí. Estos escáneres corporales, si va a un aeropuerto, hay algunos componentes que tienen una vida útil de aproximadamente nueve meses. Y estas cosas son muy, muy caras. Si tengo múltiples puntos de entrada, múltiples escáneres en mi aeropuerto, número uno, quiero asegurarme de contar con el personal adecuado en cada una de las puertas, y para las partes que están en los escáneres, no quiero ordenarlos también temprano, y quiero tenerlos antes de que se rompa. Tenemos capacidad, tal vez si posee un aeropuerto, para poder predecir cuándo se romperán estas cosas y predecir los niveles de personal.

Si miramos la esquina inferior derecha, esto es si estás en un entorno de fabricación, esto es solo una representación gráfica del flujo de fabricación. Y es un poco difícil de ver, pero hay semáforos rojos y verdes en estos diversos sectores de procesos, por lo que si soy ingeniero, hay matemáticas muy sofisticadas, pero puedo profundizar en ese sector de procesos en particular y observar los parámetros e ingrese eso, tal vez haciendo que eso esté fuera de control. Si miramos a nuestro científico de datos ciudadanos, nuestro objetivo es realmente facilitarle la tarea al científico de datos ciudadanos. Tenemos asistentes y plantillas, y una cosa que creo que es realmente interesante es que tenemos este nodo de verificación de estado de datos automatizado. Y realmente lo que esto hace, tiene inteligencia incorporada.

Mencioné la preparación de datos: lleva una cantidad de tiempo significativa, tanto en la agregación de datos como en la preparación. Pero supongamos que tengo mis datos, puedo ejecutarlos a través de este nodo de verificación de estado de datos, y verifica la invariabilidad, la dispersión y los valores atípicos, y todas estas cosas, completa los valores faltantes y hace muchas matemáticas. No entiendo, así que puedo aceptar los valores predeterminados, o si soy un poco más inteligente, puedo cambiarlos. Pero el punto es que queremos automatizar ese proceso. Esto hace aproximadamente 15 verificaciones y resultados diferentes en un conjunto de datos limpios. Lo que estamos haciendo es facilitar que las personas creen estos flujos de trabajo.

Aquí es donde estamos hablando de la colaboración entre los científicos de datos y los científicos de datos ciudadanos. Si miramos estas imágenes a la derecha, vemos este flujo de trabajo de preparación de datos. Y tal vez esto sea muy sofisticado, tal vez esta sea la salsa secreta de su empresa, no lo sé, pero sabemos que alguien dentro de su organización puede acceder a uno o más de estos silos de datos que tenemos. Necesitamos una forma de, número uno, agarrarlos y unirlos, y número dos, tal vez hay un procesamiento especial que queremos hacer, que está más allá de nuestro control de salud de datos, y esa es la salsa secreta de su empresa. Puedo crear este flujo de trabajo dentro de nuestra organización, y se colapsa como un nodo. Ves la flecha apuntando hacia abajo, es solo un nodo, y podemos tener cientos de estas cosas dentro de una organización. La idea es que tenemos personas que saben algo sobre cierto espacio, pueden crear un flujo de trabajo y alguien más puede reutilizarlo. Estamos tratando de minimizar la reinvención de la rueda.

Y podemos hacer lo mismo con los flujos de trabajo de modelado analítico. En este caso a la derecha, este flujo de trabajo, tal vez hay 15 algoritmos diferentes, y quiero elegir el mejor para la tarea. Y no tengo que entender como científico de datos ciudadanos lo que está sucediendo en ese desastre de la telaraña, pero simplemente se derrumba en un nodo, y tal vez ese nodo simplemente dice: "calcule el puntaje de riesgo de crédito". de una infección del sitio quirúrgico ", ¿qué tienes? "Calcule la probabilidad de que algo sea una transacción fraudulenta". Como científico de datos ciudadano, puedo usar esta matemática muy sofisticada que alguien más ha construido, tal vez uno de estos científicos de datos ha construido dentro de mi organización.

Desde la perspectiva de la ciencia de datos, ya sabes, he hablado con científicos de datos que aman escribir código, y he hablado con científicos de datos que odian escribir código. Y eso está bien, así que tenemos una interfaz de usuario muy visual y gráfica. Podemos tomar nuestros datos, podemos hacer nuestra verificación automática del estado de los datos, y tal vez quiera escribir código. Me gusta Python, me gusta R, pero la idea es que estos científicos de datos son escasos y les gusta el código en un lenguaje particular. En particular, no tenemos preferencia por el idioma en el que desea codificar, por lo que si desea hacer R, haga R; si quieres hacer Python, haz Python. Eso es genial. Si desea distribuir sus análisis a Azure, explote sus análisis a la nube. Por lo tanto, el objetivo aquí es realmente ofrecer flexibilidad y opciones para que sus científicos de datos sean lo más productivos posible.

Ahora los científicos de datos, son personas bastante inteligentes, pero tal vez no son especialistas en todo, y tal vez hay algunas lagunas en lo que pueden hacer. Y si observa dentro de la industria, existen muchos mercados analíticos diferentes. Este es un ejemplo de, tal vez necesito hacer reconocimiento de imágenes y no tengo esa habilidad, bueno, tal vez salgo a Algoritmia y obtengo un algoritmo de reconocimiento de imágenes. Tal vez salgo a Apervita y obtengo un algoritmo de atención médica muy especial. Tal vez quiero usar algo en la biblioteca de Azure Machine Learning. Tal vez quiero usar algo en la plataforma nativa de Statistica.

Una vez más, la idea aquí es que queremos aprovechar la comunidad analítica global. Debido a que no va a tener todas las habilidades dentro de sus cuatro paredes, entonces, ¿cómo podemos crear software, y esto es lo que estamos haciendo, que les permite a sus científicos de datos usar algoritmos de una variedad de mercados. Lo hemos estado haciendo con R y Python durante mucho tiempo, pero esto se está extendiendo a estos mercados de aplicaciones que existen. Y lo mismo que ves aquí además de esto, estamos usando H2O en Spark, por lo que hay muchos algoritmos analíticos allí. No tiene que concentrarse en crearlos desde cero, reutilicemos estos que viven en la comunidad de código abierto, y queremos que estas personas sean lo más productivas posible.

El siguiente paso, después de contar con nuestros científicos de datos ciudadanos y nuestros científicos de datos, es realmente ¿cómo promueve y distribuye estas mejores prácticas? Tenemos tecnología dentro de nuestro software que le permite distribuir análisis en cualquier lugar. Y esta es más una vista de gestión de modelos, pero ya no estoy obligado por las cuatro paredes o una instalación específica dentro de Tulsa o Taiwán o California, o lo que sea que tenga usted. Esta es una plataforma global, y tenemos muchos, muchos clientes que se implementan en su uso en múltiples sitios.

Y realmente, las cosas clave son, si estás haciendo algo en Taiwán y quieres replicarlo en Brasil, eso es genial. Entra allí, toma las plantillas reutilizables, toma los flujos de trabajo que quieras. Esto está tratando de crear esos estándares y la forma común de hacer las cosas, por lo que no estamos haciendo cosas completamente diferentes en todas partes. Y el otro componente clave de esto es que realmente queremos llevar las matemáticas al lugar donde viven los datos. No tiene que mezclar datos entre California y Tulsa y Taiwán y Brasil. Tenemos tecnología que nos permite llevar las matemáticas a los datos, y vamos a tener otro webcast de Hot Technology sobre ese tema.

Pero llamamos a esta arquitectura, y aquí hay un adelanto, Arquitectura de Análisis Distribuido Nativo. La idea clave detrás de esto es que tenemos una plataforma, Statistica, y puedo exportar un flujo de trabajo analítico como un átomo. Y podría hacer un modelo, o un flujo de trabajo completo, así que eso no importa. Pero puedo crear esto y exportarlo en un idioma apropiado para la plataforma de destino. En el lado izquierdo de esto, muchas personas hacen esto, pero hacen puntajes en el sistema fuente. Está bien, podemos hacer puntajes y podemos construir modelos en la base de datos, así que eso es interesante.

Y luego, en el lado derecho, tenemos a Boomi. Esta es una tecnología complementaria, trabajamos con todos estos. Pero también podemos tomar estos flujos de trabajo y esencialmente transportarlos a cualquier parte del mundo. Cualquier cosa que tenga una dirección IP. Y no tengo que tener un Statistica instalado en la nube pública o privada. Cualquier cosa que pueda ejecutar una JVM, podemos ejecutar estos flujos de trabajo analíticos, flujos de trabajo de preparación de datos o simplemente modelos en cualquiera de estas plataformas de destino. Ya sea en mi nube pública o privada, ya sea en mi tractor, mi automóvil, mi casa, mi bombilla, mi internet de las cosas, tenemos tecnología que le permite transportar esos flujos de trabajo a cualquier parte del mundo.

Revisemos. Ya sabes, tenemos una línea de usuarios comerciales, por lo que estas personas, tenemos tecnología que les permite consumir la producción en un formato con el que se sientan cómodos. Tenemos científicos de datos ciudadanos, y lo que estamos tratando de hacer es mejorar la colaboración, hacerlos parte de un equipo, ¿verdad? Y por eso queremos que la gente deje de reinventar la rueda. Y tenemos estos científicos de datos, podría haber una brecha de habilidades allí, pero pueden codificar en el lenguaje que deseen, pueden ir a los mercados analíticos y usar algoritmos allí. Y así, con esto, ¿cómo podría no pensar que todo es increíble con esto? Esto es perfecto, esto es lo que estamos haciendo. Estamos creando flujos de trabajo reutilizables, estamos dando instrucciones a las personas, les estamos dando los bloques de Lego para que puedan construir estos poderosos castillos y lo que quieran hacer. Para resumir, tenemos una plataforma que potencia a la línea de usuarios comerciales, científicos de datos ciudadanos, científicos de datos de programadores, tenemos: podemos abordar cualquier tipo de caso de uso de análisis de borde de IoT, y estamos habilitando esta noción de inteligencia colectiva. Con eso, creo que probablemente lo abriremos para preguntas.

Robin Bloor: Bueno, está bien. Creo que lo primero: quiero decir, para ser honesto, quiero decir que Dell Statistica me ha informado antes, y para ser honesto, en realidad estoy bastante sorprendido por las cosas que no sabía que mencionaste en la presentación . Y tengo que decir que la única cosa, es algo que ha sido un error para mí en la adopción de análisis, es que, ya sabes, obtener las herramientas, ¿no? Hay una gran cantidad de herramientas por ahí, hay herramientas de código abierto, y así sucesivamente, y hay varias, lo que yo llamaría, semi-plataformas. Pero creo que la diferencia que tiene es que me impresionó especialmente parte del flujo de trabajo.

Pero la diferencia es que parece proporcionar de extremo a extremo. Es como la analítica es un proceso comercial sofisticado que comienza con la adquisición de datos y luego pasa por una serie completa de pasos, dependiendo de cuán escamosos sean los datos, y luego puede ramificarse en una serie completa de diferentes ataques matemáticos en el datos. Y luego los resultados surgen de una forma u otra y esos deben ser acciones. Me he encontrado con una gran cantidad de análisis en los que se realizó un gran trabajo, pero no hay forma de ponerlo en práctica. Y parece que tienes mucho de lo que se requiere. No sé cuán completo es, pero es mucho más completo de lo que esperaba. Estoy increíblemente impresionado con eso.

Me gustaría que comentaras en las hojas de cálculo. Ya ha dicho algo, pero una de las cosas que noté, y he notado a lo largo de los años, pero se ha vuelto cada vez más evidente, es que hay una gran cantidad de hojas de cálculo que son sistemas de sombra y realmente creo la hoja de cálculo, quiero decir, fue una herramienta maravillosa cuando se introdujo y desde entonces ha sido maravillosa de muchas maneras diferentes, pero es una herramienta generalizada, no es realmente adecuada para su propósito. Ciertamente no es muy bueno en el contexto de BI y creo que es horrible en el contexto analítico. Y me preguntaba si tenía algún comentario que hacer sobre, digamos, ejemplos en los que, ya sabes, Statistica se haya vaciado, el uso excesivo de la hoja de cálculo o algún comentario que desee hacer al respecto.

David Sweenor: Sí, creo que, ya sabes, puedes buscar errores famosos en las hojas de cálculo. Google o cualquier motor de búsqueda que esté utilizando regresará con una letanía de resultados. No creo que nunca reemplacemos las hojas de cálculo. Esa no es nuestra intención, pero muchas de las organizaciones a las que voy, hay un par de estos magos de hojas de cálculo o ninjas o como quieras llamarlos, pero tienen estas hojas de cálculo muy sofisticadas y tienes que pensar qué pasa cuando estas la gente gana la lotería y no regresa? Entonces, lo que estamos tratando de hacer es saber que existirán hojas de cálculo para poder ingerirlas, pero creo que lo que estamos tratando de hacer es desarrollar una representación visual de su flujo de trabajo para que pueda ser entendido y compartido con otras personas. . Las hojas de cálculo son bastante difíciles, bastante difíciles de compartir. Y tan pronto como me pasas tu hoja de cálculo, la he cambiado, y ahora no estamos sincronizados y estamos obteniendo diferentes respuestas. Lo que estamos tratando de hacer es poner algunas barreras alrededor de esto y hacer que las cosas sean un poco más eficientes. Y las hojas de cálculo son realmente terribles al combinar varios conjuntos de datos, ¿sabes? Se caen allí. Pero no vamos a reemplazarlos, los ingerimos y tenemos personas que comienzan a cambiar porque si tenemos un nodo que dice "calcular el riesgo", eso es lo que la persona que usa la hoja de cálculo está tratando de hacer. Entonces esos se han ido.

Robin Bloor: Sí, quiero decir, diría que, ya sabes, desde una perspectiva desde la que miro las cosas, diría que las hojas de cálculo son excelentes para crear información. Incluso son excelentes para crear islas de conocimiento, pero son realmente malas para compartir conocimiento. No tienen ningún mecanismo para hacer eso, y si le pasas una hoja de cálculo a alguien, no es como si pudieras leerlo como si fuera un artículo que explicara exactamente lo que está haciendo. Simplemente no está allí. Creo que, lo que más me impresionó de la presentación y de las capacidades de Statistica, parece ser increíblemente agnóstico. Pero tiene este hilo ejecutándolo a través del flujo de trabajo. ¿Estoy en lo cierto al suponer que podría ver un flujo de trabajo de principio a fin, desde la adquisición de datos hasta la incorporación de resultados en aplicaciones de BI particulares o incluso aplicaciones en ejecución?

David Sweenor: Sí, absolutamente. Y tiene esa capacidad de extremo a extremo y algunas organizaciones la usan por completo, y no tengo la ilusión de que ninguna compañía compre en la actualidad todo de un proveedor. Tenemos una mezcla Algunas personas usan Statistica para todo y otras lo usan para los flujos de trabajo de modelado, algunas personas lo usan para los flujos de trabajo de preparación de datos. Algunas personas lo usan para distribuir cientos de informes de ingeniería a ingenieros. Y así tenemos todo en el medio. Y es realmente de principio a fin y es, ya sabes, una plataforma agnóstica, ya que si hay algoritmos que deseas usar en R o Python, Azure, Apervita, lo que sea, ya sabes, úsalos. Eso es genial, sea productivo, use lo que sabe, use lo que le resulte cómodo y tenemos mecanismos para asegurarnos de que sean controlados y auditables y todo ese tipo de cosas.

Robin Bloor: Me gusta particularmente ese aspecto. Quiero decir, no sé si puedes hablar más allá de lo que has dicho sobre la riqueza de lo que hay ahí fuera. Quiero decir, he visto esto, pero no lo he visto de manera exhaustiva y ciertamente hay una gran cantidad de bibliotecas de Python en nuestras bibliotecas, pero ¿hay algo que pueda agregar a esa imagen? Porque creo que es una cosa muy interesante, ya sabes, la idea de que tendrías componentes que fueran confiables, porque conocías a varias personas que los habían creado y a varias personas que los estaban usando que podías descargar. Sabes, ¿puedes enriquecer lo que ya has dicho sobre eso?

David Sweenor: Sí, creo que algunos de los mercados de aplicaciones, ya sabes, los mercados de algoritmos que existen. Por ejemplo, el Dr. John Cromwell, de la Universidad de Iowa, ha desarrollado un modelo que predecirá, que se usa en tiempo real mientras estamos siendo operados, le dará una puntuación si va a obtener un infección del sitio quirúrgico Y si ese puntaje es lo suficientemente alto, intervendrán directamente en la sala de operaciones. Eso es muy interesante. Entonces quizás haya otro hospital que no sea tan grande. Bueno, Apervita es un mercado de aplicaciones de salud para análisis. Puede buscar uno en muchos de estos mercados de aplicaciones, puede encontrar uno y reutilizarlos, y la transacción es entre usted y el propietario, pero puede buscar uno o puede decir: "Aquí está lo que necesito ". Creo que está aprovechando esa comunidad global porque todos somos especialistas en estos días y no se puede saber todo. Creo que R y Python son una cosa, pero esta idea de: "Quiero hacer esta función, poner una especificación en uno de estos mercados de aplicaciones y hacer que alguien la desarrolle para usted". Y pueden monetizar eso, creo eso es muy interesante y muy diferente al modelo de código abierto.

Robin Bloor: Muy bien. De todos modos, le pasaré el balón a Dez. ¿Te gustaría bucear, Dez?

Dez Blanchfield: Absolutamente y me gustaría quedarme en la hoja de cálculo solo por un momento porque creo que ha capturado la esencia correcta de mucho de lo que estamos hablando aquí. Y usted hizo un comentario, Robin, con respecto a la transición de una especie de viejas hojas de cálculo en su forma física a electrónica. Tuvimos algo interesante en el que, ya sabes, cuando las hojas de cálculo eran originalmente algo que eran solo hojas de papel con filas y columnas y anotabas las cosas manualmente, luego las cargabas y las calculabas, ya sea haciendo fuera de la parte superior de su cabeza o con algún otro dispositivo. Pero aún tenemos la oportunidad de que los errores se introduzcan con errores de escritura o dislexia, y ahora lo hemos reemplazado con errores tipográficos. El riesgo es que con las hojas de cálculo el perfil de riesgo es más rápido y más grande, pero creo que las herramientas como Statistica invierten la pirámide de riesgo.

A menudo dibujo esta imagen en la pizarra de una figura de palo de un ser humano en la parte superior, como una persona, y luego una colección de ellos en la parte inferior, digamos, imagina diez de ellos en la parte inferior de esa pizarra, y dibujo un pirámide donde el punto de la pirámide en la persona soltera y el pie de la pirámide es la colección de personas. Y uso esto para visualizar la idea de que si una persona en la parte superior hace una hoja de cálculo comete un error y la comparte con diez personas, y ahora tenemos diez copias del error. Tenga mucho cuidado con sus macros y tenga mucho cuidado con su Visual Basic si va a pasar a eso. Porque cuando creamos herramientas electrónicas como hojas de cálculo, es muy poderoso, pero también es poderoso de una manera buena y mala.

Creo que herramientas como Statistica brindan la capacidad de invertir ese perfil de riesgo y es que ahora puede llegar al punto en el que tiene muchas herramientas que están disponibles para la persona individual y a medida que avanzan de muchas herramientas en la parte superior de la pirámide y luego hasta el fondo donde el punto de la pirámide que ahora se invierte es la herramienta real, si tenemos un equipo de personas que están construyendo esas herramientas y esos algoritmos. Y el científico de datos no necesita ser un especialista en análisis regresivo de sus datos. Es posible que puedan usar la herramienta, pero es posible que tenga cinco o seis estadísticos y un actuario y un científico de datos y algunos matemáticos trabajando en esa herramienta, ese módulo, ese algoritmo, ese complemento y así en el lenguaje de la hoja de cálculo, así que imagine que todas las hojas de cálculo publicadas que podría usar fueron escritas por especialistas que probaron las macros, probaron Visual Basic, se aseguraron de que los algoritmos funcionaran, por lo que cuando lo obtuvo, podría ingresar datos pero no podría romperlo y por lo tanto ha sido mejor controlar.

Creo que muchas de las herramientas de análisis lo están haciendo. Supongo que llegar al punto de eso es, ¿está viendo eso ahora en el campo, está viendo la transición de las hojas de cálculo que potencialmente podrían impulsar errores y errores, hasta el punto donde las herramientas que está construyendo con su plataformas ahora, con el descubrimiento de datos siendo preciso en tiempo real y las personas que están construyendo los módulos y algoritmos están eliminando o reduciendo ese perfil de riesgo? ¿El servicio al cliente lo está viendo en un sentido real o crees que eso está sucediendo y no se dan cuenta?

David Sweenor: Sabes, creo que hay un par de formas de responder esto. Pero lo que estamos viendo es, ya sabes, en cualquier organización, y mencioné que el análisis creo que tal vez se ha retrasado desde una perspectiva de inversión corporativa, algo así como lo que hicimos con el almacenamiento de datos y CRM. Pero lo que estamos viendo, por lo tanto, se necesita mucho para cambiar una organización, para superar esa inercia organizacional. Pero lo que estamos viendo es que las personas toman sus hojas de cálculo, sus flujos de trabajo, y mencioné la seguridad y la gobernanza, "Bueno, tal vez tengo una hoja de cálculo", "Bueno, puedo bloquear esto y puedo controlar la versión". vemos muchas organizaciones, tal vez solo comienzan allí. Y si se cambia, hay un flujo de trabajo y termino yendo, número uno, ¿quién lo cambió? Por qué lo cambiaron. Cuando lo cambiaron. Y también puedo configurar un flujo de trabajo de modo que no vaya a poner esta nueva hoja de cálculo en producción a menos que sea validada y verificada por una, dos, tres, sin importar las partes que desee definir en su flujo de trabajo. Creo que la gente está comenzando a dar, y las organizaciones están comenzando a dar pequeños pasos allí, pero probablemente sugiera que tenemos un largo camino por recorrer.

Dez Blanchfield: De hecho, y creo que dado que está incorporando tanto los controles de seguridad como la gobernanza allí, entonces la carga de trabajo puede mapear automáticamente eso y todo hasta el director de riesgos, que ahora es una cosa. Puede comenzar a controlar cómo se accede a esas herramientas y sistemas y quién está haciendo qué con ellos, por lo que es muy poderoso. Creo que las otras cosas que surgen de esto es que los tipos de herramientas que usted proporciona, para mí, se prestan más al comportamiento humano que a las hojas de cálculo tradicionales de las que estamos hablando, en el sentido de que si tengo una habitación llena de personas con el mismo panel de control y acceso a los mismos datos que realmente pueden obtener una vista diferente y, como resultado, obtener información ligeramente diferente de la misma información, que se adapta a sus necesidades para que puedan colaborar. Luego tenemos una visión e interacción más humana con el negocio y el proceso de toma de decisiones, en lugar de ir a la misma reunión con el mismo PowerPoint y las mismas hojas de cálculo impresas, todos los mismos datos fijos.

¿Ves una transición en el comportamiento y la cultura en las organizaciones que toman sus herramientas ahora donde ven que eso ocurre, donde no es como cinco personas en la sala mirando la misma hoja de cálculo tratando de verbalizarla y tomar notas?, pero ahora están interactuando con los paneles y las herramientas en tiempo real, con visualización y análisis al alcance de la mano y obteniendo un flujo completamente diferente en la conversación y la interacción, no solo en las reuniones, sino solo en la colaboración general de la organización. Porque pueden hacerlo en tiempo real, porque pueden hacer las preguntas y obtener una respuesta real. ¿Es esa una tendencia que estás viendo en este momento o todavía no ha sucedido?

David Sweenor: No, creo que definitivamente ha comenzado por ese camino y creo que lo más interesante es, por ejemplo, si tomamos el ejemplo de una fábrica. Tal vez alguien que posee un sector de procesos en particular dentro de esa fábrica quiere ver e interactuar con estos datos de cierta manera. Y tal vez yo, pasando por alto todos los procesos, tal vez este en la parte inferior, tal vez quiera verlo en todo. Creo que lo que estamos viendo es, en primer lugar, que las personas están comenzando a usar un conjunto común de visualizaciones o visualizaciones estándar dentro de sus organizaciones, pero también se adapta a la función que desempeñan. Si soy un ingeniero de procesos, tal vez esa es una visión muy diferente a la de alguien que lo está mirando desde la perspectiva de la cadena de suministro, y creo que es genial porque tiene que adaptarse y debe observarse a través del lente que necesita para hacer su trabajo.

Dez Blanchfield: Supongo que el proceso de decisión se reduce, en términos de tiempo y velocidad, para tomar decisiones inteligentes y precisas también aumenta rápidamente, ¿no? Porque si tienes análisis en tiempo real, paneles en tiempo real, si tienes las herramientas Statistica al alcance de tu mano, no tienes que correr por el piso para preguntarle algo a alguien, lo tienes en copia impresa Puede colaborar, interactuar y tomar decisiones sobre la marcha y obtener ese resultado de inmediato. Lo cual creo que algunas de las compañías realmente todavía no han comprendido, pero cuando lo hagan será en este momento eureka que, sí, todavía podemos quedarnos en nuestros cubículos y trabajar en casa, pero podemos interactuar y colaborar y esas decisiones Cuando colaboramos, nos convertimos en resultados instantáneamente. Mira, creo que fue fantástico escuchar lo que tienes que decir hasta ahora y estoy ansioso por ver a dónde va. Y sé que tenemos muchas preguntas en las Preguntas y Respuestas, por lo que volveré a Rebecca para analizar algunas de ellas y así poder responderlas lo más rápido posible. Muchas gracias.

Rebecca Jozwiak: Gracias Dez, y sí Dave, tenemos algunas preguntas de la audiencia. Y gracias a Dez y Robin por sus ideas también. Sé que este participante en particular tuvo que dejarlo justo a la hora más alta, pero está preguntando, ¿ve que los departamentos de sistemas de información están dando más prioridad a los controles de datos sofisticados en lugar de sentirse cómodos al proporcionar herramientas para los trabajadores del conocimiento? Quiero decir, es eso, adelante.

David Sweenor: Sí, creo que depende de la organización. Creo que un banco, una compañía de seguros, tal vez tienen diferentes prioridades y formas de hacer las cosas, en comparación con una organización de marketing. Supongo que tendría que decir que solo depende de la industria y la función que estás viendo. Diferentes industrias tienen diferentes enfoques y énfasis.

Rebecca Jozwiak: Bien, eso tiene sentido. Y luego otro asistente quiso saber, ¿cuál es el motor detrás de Statistica? ¿Es C ++ o tus propias cosas?

David Sweenor: Bueno, no sé si puedo llegar a eso específicamente, ya que esto ha existido durante 30 años y se desarrolló antes de mi tiempo, pero hay una biblioteca central de algoritmos analíticos que son algoritmos Statistica que se ejecutan. Y viste aquí que también podemos ejecutar R, podemos ejecutar Python, podemos explotar en Azure, podemos ejecutar en Spark a H2O, así que supongo que tendría que responder esa pregunta en términos de, es una variedad de motores. Y dependiendo del algoritmo que elijas, si es uno Statistica, se ejecuta así, si eliges uno en H2O y Spark, lo usa, y entonces es una variedad de ellos.

Rebecca Jozwiak: Bien, bien. Otro asistente preguntó específicamente apuntando a esta diapositiva, queriendo saber, más o menos, ¿cómo sabe el científico de datos ciudadanos qué plantillas reutilizables usar? Y supongo que haré una pregunta más amplia sobre eso. Eso, ¿qué estás viendo cuando los usuarios de la línea de negocios o los analistas de negocios entran y quieren usar estas herramientas, qué tan fácil es para ellos comenzar a trabajar?

David Sweenor: Supongo que respondería eso y si puedes usar, si estás familiarizado con Windows, esta es una plataforma basada en Windows, así que corté la parte superior de estas capturas de pantalla, pero tiene la cinta de Windows. Pero, ¿cómo saben qué flujo de trabajo usar? Se parece al Explorador de Windows, por lo que hay una estructura de árbol y puede configurarlo y configurarlo como su organización quiera configurarlo. Pero podría ser, solo tendría estas carpetas y colocaría estas plantillas reutilizables dentro de estas carpetas. Y creo que probablemente haya una nomenclatura que su empresa podría adoptar, digamos que aquí está el "cálculo del perfil de riesgo", aquí está el "obtener datos de estas fuentes" y los nombra como quiera. Es solo una carpeta gratuita, simplemente arrastre las notas directamente a su lienzo. Entonces, bastante fácil.

Rebecca Jozwiak: Bien, bien. Tal vez una demostración la próxima vez. Luego, otro asistente aparece, y es de lo que tú y Robin y Dez estaban hablando en cuanto a las inexactitudes, especialmente en una hoja de cálculo, pero la basura entra / sale, y él lo ve como aún más crítico cuando se trata de a la analítica. Como mencionar que, ya sabes, el mal uso de los datos realmente puede conducir a algunas decisiones desafortunadas. Y se pregunta cuáles son sus puntos de vista sobre el desarrollo de más algoritmos a prueba de fallas, supongo que para eso, usa la palabra, uso "excesivamente entusiasta" de análisis. Ya sabes, alguien entra, se emociona mucho, quieren hacer estos análisis avanzados, quieren ejecutar estos algoritmos avanzados, pero tal vez no estén muy seguros. Entonces, ¿qué haces para protegerte de eso?

David Sweenor: Sí, así que supongo que responderé esto lo mejor que pueda, pero creo que todo se reduce a personas, procesos y tecnología. Tenemos tecnología que ayuda a habilitar a las personas y ayuda a habilitar cualquier proceso que desee poner dentro de su organización. En el ejemplo de enviar un cupón a alguien, tal vez eso no sea tan crítico, y si es digital realmente no tiene costo, tal vez haya un nivel de controles de seguridad y tal vez no nos importe. Si estoy prediciendo infecciones en el sitio quirúrgico, tal vez quiero ser un poco más cuidadoso al respecto. O si estoy prediciendo la calidad y seguridad de los medicamentos y cosas así, tal vez quiero ser un poco más cuidadoso al respecto. Tiene razón, entra / sale basura, así que lo que intentamos hacer es proporcionar una plataforma que le permita adaptarlo a cualquier proceso que su organización quiera adoptar.

Rebecca Jozwiak: Bien, bien. Tengo algunas preguntas más, pero sé que hemos pasado un poco más de la hora y solo quiero decirles a nuestros presentadores, que fue increíble. Y queremos agradecerle mucho a Dave Sweenor de Dell Statistica. Por supuesto, Dr. Robin Bloor y Dez Blanchfield, gracias por ser los analistas de hoy. Vamos a tener otra transmisión por Internet el próximo mes con Dell Statistica. Sé que Dave insinuó el tema. Se tratará de análisis en el borde, otro tema fascinante, y sé que algunos casos de uso muy convincentes se discutirán en ese webcast. Si te gustó lo que viste hoy, regresa por más el próximo mes. Y con eso, amigos, me despido de ustedes. Muchas gracias. Adiós.

Incruste análisis en todas partes: habilitando al ciudadano científico de datos