Hogar Bases de datos El poder de la sugerencia: cómo un catálogo de datos capacita a los analistas

El poder de la sugerencia: cómo un catálogo de datos capacita a los analistas

Anonim

Por el personal de Techopedia, 22 de junio de 2016

Para llevar: La presentadora Rebecca Jozwiak discute las ventajas de los catálogos de datos con Dez Blanchfield, Robin Bloor y David Crawford.

Debes registrarte en este evento para ver el video. Regístrese para ver el video.

Rebecca Jozwiak: Damas y caballeros, hola y bienvenidos a Hot Technologies de 2016. Hoy tenemos "El poder de la sugerencia: cómo un catálogo de datos capacita a los analistas". Soy su anfitriona Rebecca Jozwiak, reemplazando a nuestro anfitrión habitual Eric Kavanagh hoy, mientras viaja por el mundo, así que gracias por acompañarnos. Este año es caluroso, no solo hace calor en Texas donde estoy, sino que hace calor por todas partes. Está surgiendo una explosión de todo tipo de nuevas tecnologías. Tenemos IoT, transmisión de datos, adopción en la nube, Hadoop continúa madurando y siendo adoptado. Tenemos automatización, aprendizaje automático, y todo esto está, por supuesto, subrayado por los datos. Y las empresas se están volviendo cada vez más datos impulsados ​​por el día. Y, por supuesto, el objetivo es conducir al conocimiento y al descubrimiento y, ya sabes, tomar mejores decisiones. Pero para obtener realmente el mayor valor de los datos, debe ser fácil llegar a ellos. Si lo mantiene encerrado, enterrado o en el cerebro de unas pocas personas dentro de la empresa, no va a hacer mucho bien para la empresa en su conjunto.

Y estaba pensando en la catalogación de datos y, por supuesto, en las bibliotecas, donde hace mucho tiempo era a donde iban si necesitaban encontrar algo, si necesitaban investigar un tema o buscar información, iban a la biblioteca y, por supuesto, fuiste al catálogo de tarjetas, oa la mujer malhumorada que trabajaba allí. Pero también fue divertido deambular, si solo deseaba mirar, y seguro de que podría descubrir algo bueno, podría descubrir algunos datos interesantes que no sabía, pero si realmente necesitaba descubrir algo, y sabía lo que estaba buscando, necesitaba el catálogo de tarjetas y, por supuesto, el equivalente empresarial es un catálogo de datos, que puede ayudar a aclarar todos los datos para que nuestros usuarios los enriquezcan, descubran, compartan, consuman y realmente ayuden las personas acceden a los datos más rápido y más fácil.

Así que hoy tenemos a Dez Blanchfield, nuestro propio científico de datos, y tenemos al Doctor Robin Bloor, nuestro propio analista jefe, tenemos a David Crawford de Alation, quien hablará sobre la historia de catalogación de datos de su compañía, pero primero vamos a comenzar con Dez. Dez, te estoy pasando la pelota y el piso es tuyo.

Dez Blanchfield: Gracias, gracias por invitarme hoy. Este es un asunto en el que estoy extremadamente interesado, porque casi todas las organizaciones con las que me encuentro en mi trabajo diario, encuentro exactamente el mismo problema del que hablamos muy brevemente en las bromas previas al espectáculo, y es que La mayoría de las organizaciones que han estado en el negocio durante más de unos pocos años tienen una gran cantidad de datos enterrados alrededor de la organización, diferentes formatos, y de hecho tengo clientes que tienen conjuntos de datos que se remontan a Lotus Notes, bases de datos que todavía se están ejecutando en algunos casos como sus pseudointernets, y todos ellos se enfrentan a este desafío de encontrar realmente dónde están sus datos, y cómo obtener acceso a ellos, a quién proporcionarles acceso, cuándo proporcionarles acceso y cómo catálogo y cómo llevarlo a un lugar donde todos puedan: A) estar al tanto de lo que hay allí y de lo que contiene, y B), cómo acceder a él y usarlo. Y uno de los mayores desafíos, por supuesto, es encontrarlo, el otro gran desafío es saber qué hay allí y cómo acceder a él.

Bien puedo saber que tengo docenas de bases de datos, pero en realidad no sé qué hay allí o cómo averiguar qué hay allí, y tan invariablemente como descubrimos ahora en los datos previos al show, tienden caminar por la oficina y hacer preguntas, gritar a través de las paredes cúbicas y tratar de averiguar, a menudo mi experiencia es que incluso puede encontrar que vagabundea hacia la recepción, la recepción y pregunta si alguien sabe quién vas a ir a hablar con Muy a menudo, no siempre es el personal de TI porque desconocen el conjunto de datos porque alguien lo acaba de crear, y podría ser algo tan simple como: a menudo encontraremos un proyecto de algún tipo que esté de pie en el entorno de TI y el gerente del proyecto usó una hoja de cálculo de todas las cosas, y obtuvo una cantidad masiva de información valiosa sobre activos, contexto y nombres, y a menos que conozca ese proyecto y conozca a esa persona, simplemente no puede encontrar esa información. Simplemente no está disponible, y tienes que conseguir ese archivo original.

Hay una frase que se ha bromeado con respecto a los datos y no estoy necesariamente de acuerdo con ella, pero creo que es un poco desechable y es que cierta cantidad de personas piensa que los datos son el nuevo petróleo, y estoy seguro que también cubriremos eso en algún aspecto, más tarde hoy. Pero lo que he notado, ciertamente formando parte de esa transformación, es que las organizaciones de empresas que han aprendido a valorar sus datos han obtenido una ventaja significativa sobre sus competidores.

Hubo un documento interesante de IBM, hace unos cinco o seis años, y encuestaron a unas 4.000 empresas aquí en Australia, y tomaron toda la información, todos los datos de rendimiento, todos los datos financieros y los reunieron en una olla hirviendo y luego lo envió a la Escuela de Economía de Australia, y en realidad comenzaron una tendencia común aquí, y fue que las empresas que aprovecharon la tecnología siempre obtuvieron una ventaja tan competitiva sobre sus pares y competidores que sus competidores casi nunca se ponen al día, y creo ese es el caso ahora con los datos que hemos visto lo que las personas llaman una transformación digital donde las organizaciones que han descubierto claramente cómo encontrar los datos que tienen, ponerlos a disposición y ponerlos a disposición en algunos consumibles muy fáciles moda para la organización, sin necesariamente saber siempre por qué la organización podría necesitarla, y obtener una ventaja significativa sobre sus competidores.

Tengo un par de ejemplos en esta diapositiva, que puedes ver. Mi único argumento es que, según mi punto de vista, la interrupción a gran escala en casi todos los sectores de la industria está siendo impulsada por los datos, y si las tendencias actuales tienen algo que ver, mi opinión es que en realidad solo hemos llegado comenzó porque cuando las marcas de larga data finalmente se despiertan con lo que esto significa y entran al juego, van a ingresar al juego al por mayor. Cuando los principales minoristas que tienen montañas de datos comienzan a aplicar algún análisis histórico sobre los datos, si incluso saben que existe, algunos de los jugadores en línea recibirán una llamada de atención.

Pero con muchas de estas marcas, quiero decir que tenemos a Uber, que es la compañía de taxis más grande del mundo. No poseen taxis, entonces, ¿qué es lo que los hace mágicos, cuáles son sus datos? Airbnb, el proveedor de alojamiento más grande, tenemos WeChat, la compañía telefónica más grande del mundo, pero no tienen infraestructura real, ni teléfonos, ni líneas telefónicas. Alibaba, el minorista más grande del planeta, pero no poseen ninguno de los inventarios. Facebook, la compañía de medios más grande del mundo. Creo que en el último recuento tenían 1.400 millones de usuarios de datos activos ahora, que es un número alucinante. No está cerca: creo que alguien afirmó que una cuarta parte del planeta está allí todos los días, y sin embargo, aquí hay un proveedor de contenido que en realidad no crea el contenido, todos los datos que sirven no son creados por ellos, sino creados. por sus suscriptores, y todos conocemos este modelo.

SocietyOne, de la que quizás haya oído hablar o no, es una marca local, creo que en un par de países es un banco que realmente presta préstamos entre pares, por lo que, en otras palabras, no tiene dinero. Todo lo que hace es administrar las transacciones y los datos se encuentran debajo de ellas. Netflix, todos estamos muy, muy familiarizados con eso. Hay una frase interesante aquí. Cuando Netflix podía usarse legalmente en Australia, cuando se anunció oficialmente, no tenía que usar una VPN para acceder a ella, muchas personas en todo el mundo tienden a hacerlo, si no puede acceder a él en su área local. - Cuando se lanzó Netfix en Australia, aumentó el ancho de banda internacional en nuestros enlaces de Internet en un 40 por ciento, por lo que casi duplicó el uso de Internet en Australia de la noche a la mañana, con solo una aplicación, una aplicación alojada en la nube que no hace más que jugar con datos. Es solo una estadística alucinante.

Y, por supuesto, todos estamos familiarizados con Apple y Google, pero estas son las empresas de software más grandes del planeta, sin embargo, en realidad no escriben las aplicaciones. ¿Qué es lo consistente con todas estas organizaciones? Bueno, son datos, y no llegaron allí porque no sabían dónde estaban sus datos, y no sabían cómo catalogarlos.

Lo que estamos descubriendo ahora es que existe toda esta nueva clase de activos denominada datos, y las empresas se están dando cuenta. Pero no siempre tienen las herramientas y los conocimientos y el por qué para mapear todos esos datos, para catalogar todos esos datos y ponerlos a disposición, pero hemos descubierto que las empresas con casi ningún activo físico han ganado un alto valor de mercado en tiempo récord a través de esta nueva clase de activo de datos. Como he dicho, algunos de los viejos jugadores ahora se están dando cuenta de esto y ciertamente lo están sacando a relucir.

Soy un gran admirador de llevar a la gente en un pequeño viaje, así que en los dieciocho cientos, finales de los dieciocho cientos, y estarás más que familiarizado con esto en el mercado de los EE. UU., Resultó que para hacer un censo cada año más o menos, creo que los ejecutaban cada diez años en ese momento, pero si va a hacer un censo todos los años, podría tomar hasta ocho o nueve años para hacer el análisis de datos. Resultó que ese conjunto de datos se dejó en cajas en lugares en papel, y casi nadie pudo encontrarlo. Simplemente siguieron enviando estos informes, pero los datos reales fueron muy difíciles de alcanzar, tenemos una situación similar con otro momento significativo del mundo, alrededor de la década de 1940, con la Segunda Guerra Mundial, y esto es el Bletbe de Bletchley Park Bombe., y era una herramienta analítica masiva para descifrar números que atravesaba pequeños conjuntos de datos y encontraba señales, y se usaba para ayudar a descifrar códigos a través del Enigma.

Nuevamente, esto fue esencialmente un dispositivo diseñado, no mucho para catalogar, sino para etiquetar y mapear datos, y hacer posible tomar patrones y encontrarlos dentro de los conjuntos de datos, en este caso, romper códigos, encontrar claves y frases y encontrar regularmente en los conjuntos de datos, por lo que hemos pasado por este viaje de encontrar cosas en los datos y conducir a la catalogación de datos.

Y luego aparecieron estas cosas, estos estantes masivos de máquinas de bajo costo, solo máquinas estándar. E hicimos algunas cosas muy interesantes, y una de las cosas que hicimos con ellos es que construimos clústeres de muy bajo costo que podrían comenzar a indexar el planeta, y muy famoso estas grandes marcas que han ido y venido, pero probablemente Google sea el hogar más común marca de la que todos hemos oído hablar: se ha convertido en un verbo real y sabes que tienes éxito cuando tu marca se convierte en un verbo. Pero lo que Google nos enseñó, sin darse cuenta, posiblemente en el mundo de los negocios, es que pudieron indexar todo el planeta a un cierto nivel, y catalogar los datos de todo el mundo y ponerlos a disposición de una manera muy fácil, forma conveniente en una pequeña fórmula de una sola línea, una página web con casi nada, y escribe su consulta, va y la encuentra porque ya habían rastreado el planeta, lo indexaron y lo pusieron fácilmente a disposición.

Y lo que notamos fue: "Bueno, espera, no estamos haciendo esto en las organizaciones, ¿por qué es eso? ¿Por qué es que tenemos una organización que puede mapear todo el planeta e indexarlo, rastrearlo e indexarlo, y ponerlo a disposición? Podemos buscarlo, y luego hacer clic en el elemento para ir y encontrarlo, ¿cómo es que ¿no lo han hecho internamente? ”. Así que hay muchos de estos pequeños estantes de máquinas en todo el mundo que ahora hacen eso por intranets y encuentran cosas, pero todavía están realmente enfrentando la idea de ir más allá de la web tradicional página o un servidor de archivos.

En lugar de entrar ahora en esta próxima generación de catálogos de datos de muchas maneras, descubrir el acceso a los datos a través de notas post-it y conversaciones más frías no es realmente un método apropiado para el descubrimiento y la catalogación de datos, y de hecho, nunca lo creo Realmente lo fue. Ya no podemos liderar todo ese desafío a las personas que simplemente pasan notas, publican notas y conversan al respecto. Ahora estamos más allá del área donde este enfoque de próxima generación para la catalogación de datos ha ido y venido. Tenemos que abrazarlo. Si se tratara de un problema fácil, ya lo habríamos resuelto de muchas maneras antes, pero creo que no es un problema fácil, solo indexar y llamar a los datos es solo una parte, saber qué hay en los datos y construyendo metadatos alrededor de lo que descubrimos, y luego haciéndolo disponible en una forma fácil y consumible, particularmente para autoservicio y análisis. Todavía es un problema que se resuelve, pero muchas partes del rompecabezas en cinco años están bien resueltas y disponibles.

Como sabemos, los datos de catalogación de los humanos son una receta para el fracaso porque el error humano es una de las mayores pesadillas con las que lidiamos en el procesamiento de datos, y regularmente hablo sobre este tema donde, en mi opinión, los humanos que completan formularios en papel es probablemente la mayor pesadilla lidiamos con big data y análisis, a tener que arreglar constantemente las cosas que hacen, incluso a cosas simples como las fechas y los campos, las personas lo ponen en el formato incorrecto.

Pero como he dicho, hemos visto que los motores de búsqueda en Internet indexan el mundo todos los días, por lo que ahora estamos pensando en que eso se puede hacer en los conjuntos de datos comerciales en el proceso de descubrimiento, y ahora las herramientas y sistemas están fácilmente disponible como estás a punto de aprender hoy. Entonces, el truco, en mi opinión, es seleccionar las herramientas adecuadas, las mejores herramientas para el trabajo. Y más apropiadamente además de eso, encontrar la parte correcta para ayudarlo a comenzar por este camino. Y creo que vamos a escuchar sobre eso hoy, pero antes de hacerlo, voy a pasar a mi universidad, Robin Bloor, y escuchar su opinión sobre el tema. Robin, ¿puedo pasarte?

Robin Bloor: Sí, ciertamente puedes. A ver si esto funciona, oh sí. Bien, vengo de una dirección diferente a la de Dez realmente, pero terminaré en el mismo lugar. Se trata de conectarse a los datos, así que pensé en caminar a través de la realidad de la conexión a los datos, punto por punto realmente.

Hay un hecho de que los datos están más fragmentados que nunca. El volumen de datos está creciendo fenomenalmente, pero en realidad, las diferentes fuentes de datos también están creciendo a un ritmo increíble y, por lo tanto, los datos se fragmentan cada vez más. Pero debido a las aplicaciones de análisis en particular, pero esas no son las únicas aplicaciones, tenemos una muy buena razón para conectarnos con todos estos datos, por lo que estamos atrapados en un lugar difícil, estamos atrapados en un mundo de datos fragmentados, y hay oportunidad en los datos como lo llamaba Dez, el nuevo petróleo.

Sobre los datos, bueno, solía vivir en un disco giratorio, ya sea en sistemas de archivos o bases de datos. Ahora vive en un entorno mucho más variado, vive en sistemas de archivos pero también vive en instancias de Hadoop hoy en día, o incluso en instancias de Spark. Vive en múltiples especies de base de datos. No hace mucho tiempo, estandarizamos alguna base de datos relacional, bueno, ya sabes que se fue por la ventana en los últimos cinco años, porque hay una necesidad de bases de datos de documentos y una necesidad de bases de datos gráficas, así que ya sabes, el juego tiene cambiado Entonces vivió en un disco giratorio, pero ahora vive en SSD. La última cantidad de SSD, definitivamente la última unidad SSD que sale de Samsung, veinte gigabytes, que es enorme. Ahora vive en la memoria, en el sentido de que la copia principal de los datos puede estar en la memoria, en lugar de en el disco, no solíamos construir sistemas así; lo hacemos ahora. Y vive en la nube. Lo que significa que puede vivir en cualquiera de estas cosas, en la nube, no necesariamente sabrá dónde está en una nube, solo tendrá su dirección.

Solo para resaltar el punto, Hadoop ha fallado hasta ahora como un almacén de datos extensible. Esperábamos que se convirtiera en un almacén de datos escalable extensible, y que se convirtiera en un sistema de archivos para todo, y lo haría: básicamente aparecerían arcoíris en el cielo y los unicornios bailarían, y nada de eso sucedió. Lo que significa que terminamos con un problema de transporte de datos, y no hay necesidad de transporte de datos, a veces, pero también es una dificultad. Los datos realmente tienen gravedad hoy en día, una vez que te has metido en los múltiples terabytes de datos, los recoges y los arrojas, hace que aparezcan latencias en tu red o que aparezcan en varios lugares. Si desea transportar datos, el tiempo es un factor. Casi siempre, hoy en día, hay algunos límites sobre cuánto tiempo tienes para obtener una cosa, una información de un lugar a otro. Solía ​​haber lo que solíamos pensar como ventanas por lotes, cuando la máquina estaba inactiva, y sin importar la cantidad de datos que tenía, simplemente podía tirarla y todo saldría bien. Bueno, eso se fue, estamos viviendo en un mundo mucho más real en tiempo real. Por lo tanto, el tiempo es un factor. Tan pronto como desee mover los datos, entonces si los datos tienen gravedad, probablemente no pueda moverlos.

La gestión de datos es un factor en el sentido de que realmente tiene que administrar todos estos datos, no los obtiene de forma gratuita, y la replicación puede ser necesaria para que los datos realmente hagan el trabajo que necesita hacer, porque Puede que no esté donde lo haya puesto. Es posible que no tenga recursos suficientes para realizar el procesamiento normal de los datos. Entonces los datos se replican y los datos se replican más de lo que imagina. Creo que alguien me dijo hace mucho tiempo que el dato promedio se replica al menos dos veces y media. Los ESB o Kafka presentan una opción para el flujo de datos, pero hoy en día exige arquitectura. Hoy en día realmente necesitas pensar de una forma u otra, sobre lo que realmente significa lanzar los datos. Por lo tanto, para acceder a los datos donde están, generalmente es preferible, siempre y cuando, por supuesto, pueda obtener el rendimiento que necesita cuando realmente busca los datos y eso depende del contexto. Por lo tanto, es una situación difícil, de todos modos. En términos de consultas de datos, solíamos ser capaces de pensar en términos de SQL, hemos surgido realmente ahora, ya sabes, diferentes formas de consultas, SQL sí, pero adyacentes, también consultas gráficas, Spark es solo un ejemplo de haciendo gráficos, porque también necesitamos hacer búsquedas de texto, más de lo que lo hicimos antes, también búsquedas de tipo regex, que son búsquedas realmente complicadas de patrones y coincidencia de patrones genuinos, todas estas cosas realmente están surgiendo. Y todos ellos son útiles porque te dan lo que estás buscando, o te pueden dar lo que estás buscando.

Las consultas ahora abarcan varios datos, por lo que no siempre lo hizo y, a menudo, el rendimiento es terrible si lo hace. Por lo tanto, depende de las circunstancias, pero las personas esperan poder consultar datos de múltiples fuentes de datos, por lo que la federación de datos de un tipo u otro se está volviendo cada vez más actual. La virtualización de datos, que es una forma diferente de hacerlo, dependiendo del rendimiento, también es muy común. Las consultas de datos son en realidad parte de un proceso, no todo el proceso. Vale la pena señalar que si realmente está analizando el rendimiento de la analítica, la analítica real puede tomar mucho más tiempo que la recopilación de datos, porque eso depende de las circunstancias, pero las consultas de datos son una necesidad absoluta si desea hacer alguna tipo de análisis en múltiples fuentes de datos, y simplemente, realmente tienes que tener capacidades que abarquen.

Entonces sobre los catálogos. Los catálogos existen por una razón, al menos estamos diciendo que, ya sabes, tenemos directorios, y tenemos esquemas en las bases de datos, y tenemos cada catálogo y tenemos donde sea que vayas, encontrarás un lugar y luego realmente descubrimos que hay algún tipo de catálogo, y el catálogo global unificado es obviamente una buena idea. Pero muy pocas compañías tienen tal cosa. Recuerdo, en el año dos mil, el año dos mil pánico, recuerdo que los comunistas ni siquiera podían precisar cuántos ejecutables tenían, no importa cuántos almacenes de datos diferentes tenían, y probablemente sea el caso ahora., ya sabes, que la mayoría de las empresas no saben activamente en el sentido global, qué datos tienen. Pero obviamente cada vez es más necesario tener un catálogo global, o al menos tener una imagen global de lo que está sucediendo debido al crecimiento de las fuentes de datos y el crecimiento continuo de las aplicaciones, y es particularmente necesario para el análisis, porque también de una manera, y hay otros problemas aquí, como el linaje y los problemas con los datos, y es necesario para la seguridad, muchos aspectos de la gobernanza de datos, si realmente no sabe qué datos tiene, la idea que vas a gobernar es simplemente absurdo. Entonces, en eso, todos los datos están catalogados de alguna manera es solo un hecho. La pregunta es si el catálogo es coherente y qué puede hacer con él. Así que pasaré de nuevo a Rebecca.

Rebecca Jozwiak: Bien, gracias Robin. A continuación tenemos a David Crawford de Alation, David. Voy a seguir adelante y pasarte la pelota, y puedes quitártela.

David Crawford: Muchas gracias. Realmente aprecio que me tengan en este programa. Creo que voy a comenzar con esto, así que creo que mi papel aquí es tomar parte de esa teoría y ver cómo se está aplicando realmente, y los resultados que podemos conducir a clientes reales, para que pueda ver Algunos en la diapositiva, quiero hablar sobre los resultados que podremos ver en el análisis, posiblemente, las mejoras. Entonces, para motivar la discusión, vamos a hablar sobre cómo llegaron allí. Así que tengo la suerte de poder trabajar muy de cerca con muchas personas realmente inteligentes, estos clientes, y solo quiero señalar a algunos que han podido medir realmente y hablar sobre cómo tener un catálogo de datos ha impactado a su analista flujo de trabajo Y solo para permanecer brevemente al frente, creo que una de las cosas que vemos cambiar, con catálogos de datos frente a soluciones mediadas anteriores y una de las formas en que las relaciones realmente piensan en las soluciones que reunimos, es comenzar desde los analistas y trabajar al revés. Es decir, hagamos esto para permitir la productividad de los analistas. A diferencia de solo el cumplimiento, o en lugar de solo tener un inventario, estamos creando una herramienta que hace que los analistas sean más productivos.

Entonces, cuando hablo con un científico de datos en la compañía de servicios financieros Square, hay un chico, Nick, que nos contaba cómo era suyo, solía tomar varias horas para encontrar el conjunto de datos adecuado para comenzar un informe, ahora puede hágalo en cuestión de segundos usando la búsqueda en la participación de mercado, hablamos con su CTO que sacó a sus analistas que usaban Square, disculpe, estaba usando Alation para averiguar cuáles eran, qué beneficios vieron y reportaron un 50 Porcentaje de aumento de la productividad, y que, uno de los principales minoristas del mundo, eBay, tienen más de mil personas que realizan análisis SQL de forma regular, y yo trabajo muy de cerca con Deb Says, ¿quién es el proyecto? gerente en su equipo de herramientas de datos, y descubrió que cuando los consultantes adoptan Alation, adoptan un catálogo, están viendo el doble de velocidad de escribir nuevas consultas en la base de datos.

Así que estos son resultados reales, estas son personas que realmente aplican el catálogo en su organización, y quiero llevarlo a través de lo que se necesita para configurarlo. La forma en que se establece un catálogo en una empresa, y tal vez lo más importante que se debe decir, es que muchas cosas suceden automáticamente, por lo que Dez habló sobre sistemas, aprendió sobre sistemas, y eso es exactamente lo que hace un catálogo de datos moderno. Entonces instalan Alation en su centro de datos y luego lo conectan a varias fuentes de metadatos en su entorno de datos. Me centraré un poco en las bases de datos y las herramientas de BI: de ambos extraeremos metadatos técnicos, básicamente sobre lo que existe. Bien, entonces, ¿qué mesas? Que informes ¿Cuáles son las definiciones del informe? Entonces extraen esos metadatos técnicos, y se crea automáticamente una página de catálogo para cada objeto dentro de esos sistemas, y luego, también extraen y superponen esos metadatos técnicos, superponen los datos de uso. Esto se realiza principalmente leyendo registros de consultas de la base de datos, y esta es una fuente de información realmente interesante. Entonces, cada vez que un analista escribe una consulta, cada vez que una herramienta de informes, ya sea de cosecha propia o no, si una herramienta de informes ejecuta una consulta para actualizar el tablero, cuando una aplicación ejecuta una consulta para insertar datos para operar un conjunto de datos: todas esas cosas se capturan en los registros de consultas de la base de datos. Ya sea que tenga un catálogo o no, se capturan en el registro de consultas con la base de datos. Lo que puede hacer un catálogo de datos, y especialmente lo que puede hacer el catálogo de Alation, es leer esos registros, hacer las consultas dentro de ellos y crear un gráfico de uso realmente interesante basado en esos registros, y lo ponemos en juego para informar a los futuros usuarios de los datos sobre cómo los han utilizado los usuarios anteriores de los datos.

Entonces, reunimos todo ese conocimiento en un catálogo, y solo para hacer esto realidad, estas son las integraciones que ya están implementadas en los clientes, entonces, hemos visto Oracle, Teradata, Redshift, Vertica y un montón de otros bases de datos relacionales. En el mundo de Hadoop, hay una gama de SQL en Hadoop, una especie de meta almacenamientos relacionales sobre el sistema de archivos Hadoop, Impala, Tez, Presto y Hive, también hemos tenido éxito con proveedores privados de Hadoop en la nube como Altiscale, y nosotros también ha podido conectarse a servidores de Tableau, servidores de MicroStrategy e indexar los paneles allí, así como integraciones con herramientas de gráficos de ciencia de datos como Plotly.

Por lo tanto, nos conectamos a todos estos sistemas, hemos conectado estos sistemas a los clientes, hemos incorporado los metadatos técnicos, hemos incorporado los datos de uso y de alguna manera imprimamos automáticamente el catálogo de datos, pero de esa manera, centralizar el conocimiento, pero solo centralizar las cosas en un catálogo de datos no proporciona por sí solo esos incrementos de productividad realmente maravillosos de los que hablamos con eBay, Square y la cuota de mercado. Para hacerlo, en realidad necesitamos cambiar la forma en que pensamos sobre la entrega de conocimiento a los analistas. Una de las preguntas que están pidiendo para prepararse para esto fue "¿Cómo impacta realmente el catálogo en el flujo de trabajo de un analista?"

Eso es en lo que pasamos todo el día pensando, y para hablar sobre este cambio de pensamiento, de un modelo push a ver un modelo pull, quería hacer una analogía rápida de cómo era el mundo antes y después de leer en un Kindle. Entonces, es solo una experiencia que algunos de ustedes podrían tener, cuando están leyendo un libro físico, se encuentran con una palabra, no están seguros de conocer la definición de esa palabra súper bien, tal vez puedan adivinarla por contexto, no es tan probable que se levantarán del sofá, caminarán hacia su estantería, encontrarán su diccionario, lo desempolvarán y cambiarán al lugar correcto en la lista alfabética de palabras para asegurarse de que sí, tenían la definición correcta, y saben los matices de la misma. Entonces, en realidad no sucede. Entonces, compra una aplicación Kindle y comienza a leer libros allí, ve una palabra de la que no está totalmente seguro y toca la palabra. De repente, justo en esa misma pantalla, está la definición del diccionario de la palabra, con todos sus matices, diferentes usos de ejemplo, y deslizas un poco, y obtienes un artículo de Wikipedia sobre ese tema, deslizas de nuevo, obtienes una herramienta de traducción que puede traducirlo a otros idiomas o desde otros idiomas, y de repente tu conocimiento del idioma es mucho más rico, y solo sucede una cantidad asombrosa de veces, en comparación con cuando tenías que ir y saca ese recurso por ti mismo.

Entonces, lo que voy a argumentar es que el flujo de trabajo para un analista y la forma en que un analista tratará con la documentación de datos, en realidad es muy similar a cómo un lector interactuará con el diccionario, ya sea físico o Kindle, y lo que nosotros, la forma en que realmente vimos este aumento de productividad, no es derramar el catálogo, sino conectarlo con el flujo de trabajo del analista, por lo que me pidieron que haga una demostración aquí, y quiero para hacer de eso el foco de esta presentación. Pero solo quiero configurar el contexto para la demostración. Cuando pensamos en transmitir el conocimiento de los datos a los usuarios cuando lo necesitan, creemos que el lugar correcto para hacerlo, el lugar donde pasan su tiempo y donde están haciendo el análisis, es una herramienta de consulta SQL. Un lugar donde escribe y ejecuta consultas SQL. Entonces, creamos uno, y lo creamos, y lo que es realmente diferente de otras herramientas de consulta es su profunda integración con el catálogo de datos.

Entonces, nuestra herramienta de consulta se llama Alation Compose. Es una herramienta de consulta basada en la web y se la mostraré en un segundo. Una herramienta de consulta basada en la web que funciona en todos los logotipos de la base de datos que vio en la diapositiva anterior. Lo que voy a intentar demostrar en particular es la forma en que la información del catálogo llega a los usuarios. Y lo hace a través de este tipo de tres formas diferentes. Lo hace a través de intervenciones, y ahí es donde alguien que es un gobernador de datos, o un administrador de datos, o una especie de administrador de alguna manera, o gerente, puede decir: "Quiero intervenir con una nota o una advertencia en el flujo de trabajo y asegúrese de que se entregue a los usuarios en el momento adecuado ”. Así que es una intervención y lo demostraremos.

Las sugerencias inteligentes son una forma en que la herramienta utiliza todo su conocimiento agregado del catálogo para sugerir objetos y partes de una consulta mientras la escribe. Lo más importante que hay que saber es que realmente aprovecha el registro de consultas para hacer eso, para sugerir cosas basadas en el uso y también para encontrar incluso partes de consultas que se han escrito anteriormente. Y lo mostraremos.

Y luego avances. Las vistas previas son, a medida que escribe el nombre de un objeto, le mostramos todo lo que el catálogo sabe, o al menos las cosas más relevantes que el catálogo sabe sobre ese objeto. Entonces, las muestras de los datos, quién los había usado antes, el nombre lógico y la descripción de ese objeto, se te ocurren mientras lo escribes sin tener que ir a pedirlo.

Entonces, sin hablar más, iré a la demostración y solo esperaré a que aparezca. Lo que les voy a mostrar aquí es la herramienta de consulta. Es una interfaz de escritura SQL dedicada. Es una interfaz separada del catálogo, en cierto sentido. Dez y Robin hablaron sobre el catálogo, y estoy saltando un poco sobre la interfaz del catálogo directamente sobre cómo se trajo directamente al servicio del flujo de trabajo.

Solo estoy mostrando aquí un lugar donde puedo escribir SQL, y en la parte inferior verás que tenemos algo de información sobre los objetos a los que estamos haciendo referencia. Así que voy a comenzar a escribir una consulta y me detendré cuando llegue a una de estas intervenciones. Entonces escribiré "select" y quiero el año. Quiero el nombre Y voy a buscar algunos datos salariales. Entonces este es un conjunto de datos educativos. Tiene información sobre instituciones de educación superior, y estoy viendo el salario promedio de los docentes que se encuentra en una de estas tablas.

Así que en realidad escribí la palabra "salario". No es exactamente en el nombre de la columna de esa manera. Utilizamos los metadatos lógicos y los metadatos físicos para hacer sugerencias. Y lo que quiero señalar aquí es esta caja amarilla que aparece aquí. Dice que hay una advertencia en esta columna. No busqué eso, no tomé una clase sobre cómo usar estos datos correctamente. Se me ocurrió, y resulta ser una advertencia sobre un acuerdo de confidencialidad que tiene que ver con estos datos. Entonces hay algunas reglas de divulgación. Si voy a consultar estos datos, voy a tomar datos de esta tabla, debo tener cuidado con la forma en que los divulgo. Entonces tienes una política de gobernanza aquí. Existen algunos desafíos de cumplimiento que hacen que sea mucho más fácil cumplir con esta política cuando la conozco en el momento en que estoy viendo los datos.

Así que me lo planteo, y luego también voy a ver la matrícula. Y aquí vemos que los avances entran en juego. En esta columna de matrícula, veo: hay una columna de matrícula en la mesa de la institución, y estoy viendo un perfil de eso. Alation va y saca datos de muestra de las tablas, y en este caso, me muestra algo que es bastante interesante. Me muestra la distribución de los valores, y me muestra que el valor cero apareció 45 veces en la muestra, y más que cualquier otro valor. Así que tengo la sensación de que podríamos estar perdiendo algunos datos.

Si soy un analista avanzado, esto podría ser parte de mi flujo de trabajo. Especialmente si soy particularmente meticuloso, donde haría un montón de consultas de perfil antes de tiempo. Cada vez que me acerco a un nuevo dato, siempre pienso en cuál es nuestra cobertura de datos. Pero si soy nuevo en el análisis de datos, si soy nuevo en este conjunto de datos, podría suponer que si hay una columna, se completa todo el tiempo. O podría suponer que si no se completa, no es cero, es nulo o algo así. Pero en este caso, tenemos muchos ceros, y si hiciera un promedio, probablemente estarían equivocados, si simplemente asumiera que esos ceros en realidad eran cero en lugar de datos faltantes.

Pero Alation, al incluir esta vista previa en su flujo de trabajo, le pide que eche un vistazo a esta información y le da la oportunidad incluso a analistas novatos de ver que hay algo que notar aquí sobre esos datos. Entonces tenemos esa vista previa.

Lo siguiente que voy a hacer es tratar de averiguar de qué tablas obtener esta información. Así que aquí vemos las sugerencias inteligentes. Ha estado funcionando todo el tiempo, pero en particular aquí, ni siquiera he escrito nada, pero me va a sugerir qué tablas podría querer usar para esta consulta. Y lo más importante que debe saber sobre esto es que aprovecha las estadísticas de uso. Entonces, en un entorno como, por ejemplo, eBay, donde tienes cientos de miles de tablas en una sola base de datos, tener una herramienta que pueda golpear el trigo de la paja, y usar esas estadísticas de uso, es realmente importante para hacer estas Sugerencias que valen algo.

Entonces va a sugerir esta tabla. Cuando miro la vista previa, en realidad resaltamos tres de las columnas que ya he mencionado en mi consulta. Entonces sé que tiene tres, pero no tiene el nombre. Necesito obtener el nombre, así que voy a unirme. Cuando hago una unión, ahora nuevamente tengo estas vistas previas para ayudarme a encontrar dónde está la tabla con el nombre. Así que veo que este tiene un nombre bien formateado, con mayúsculas. Parece tener una fila con un nombre para cada institución, así que voy a tomar eso, y ahora necesito una condición de unión.

Y así, aquí lo que está haciendo Alation es volver a mirar los registros de consultas, ver las veces anteriores que se han unido estas dos tablas y sugerir diferentes formas de unirlas. Una vez más, hay alguna intervención. Si miro uno de estos, aparece una advertencia que me muestra que esto solo debe usarse para el análisis agregado. Probablemente producirá algo incorrecto si está tratando de hacer algo a través de la institución por institución. Mientras que esta, con la ID de OPE, está respaldada como la forma correcta de unir estas dos tablas si desea datos de nivel universitario. Así que hago eso, y es una consulta corta, pero he escrito mi consulta sin tener realmente ninguna idea de cuáles son los datos. Nunca he visto un diagrama ER de este conjunto de datos, pero ya sé bastante sobre estos datos porque me llega la información relevante.

Entonces, esas son las tres formas en que un catálogo puede, a través de una herramienta de consulta integrada, impactar directamente el flujo de trabajo mientras escribe consultas. Pero uno de los otros beneficios de tener una herramienta de consulta integrada con un catálogo es que, cuando termino mi consulta y la guardo, puedo poner un título como "Matrícula de la institución y salario de la facultad", y luego tengo un botón aquí que me permite simplemente publicarlo en el catálogo. Me resulta muy fácil retroalimentar esto. Incluso si no lo publico, se está capturando como parte del registro de consultas, pero cuando lo publico, se convierte en parte de la forma en que se encuentra el lugar centralizado donde se encuentra todo el conocimiento de datos.

Entonces, si hago clic en Buscar todas las consultas en Alation, me llevarán, y aquí verán algo más de la interfaz del catálogo, me llevarán a una búsqueda de consultas dedicada que me muestra una forma de encontrar consultas en toda la organización Y ves que mi consulta recién publicada está en la parte superior. Y algunos podrían notarlo aquí, a medida que capturamos las consultas, también capturamos a los autores, y establecemos esta relación entre mí como autor y estos objetos de datos de los que ahora sé algo. Y me estoy estableciendo como experto en esta consulta y en estos objetos de datos. Eso es realmente útil cuando las personas necesitan aprender sobre datos, luego pueden buscar a la persona adecuada para aprender. Y si en realidad soy nuevo en datos, si soy un analista avanzado, como analista avanzado, podría mirar esto y ver un montón de ejemplos que me ayudarían a comenzar con un nuevo conjunto de datos. Como alguien que podría no sentirse súper inteligente con SQL, puedo encontrar consultas prefabricadas que son informes que puedo aprovechar.

Aquí hay uno de Phil Mazanett sobre puntajes promedio de SAT. Haga clic en esto y obtendré una especie de página de catálogo para la consulta en sí. Habla de un artículo escrito que hace referencia a esta consulta, por lo que hay algo de documentación que puedo leer si quiero aprender a usarlo. Y puedo abrirlo en la herramienta de consulta haciendo clic en el botón Redactar, y puedo ejecutarlo yo mismo aquí sin siquiera editarlo. Y en realidad, puede ver un poco de nuestras capacidades de informes livianos, donde, cuando escribe una consulta, puede colocar una variable de plantilla como esta y crea una forma simple de crear un formulario para ejecutar una consulta basada en un par de parámetros

Entonces eso es lo que tengo para la demostración. Voy a volver a las diapositivas. Solo para recapitular, mostramos cómo un administrador, un gobernador de datos, puede intervenir colocando advertencias sobre los objetos que aparecen en la herramienta de consulta, cómo Alation usa su conocimiento del uso de objetos de datos para hacer sugerencias inteligentes, cómo aporta en la elaboración de perfiles y otros consejos para mejorar los flujos de trabajo de los analistas cuando tocan objetos particulares, y cómo todo ese tipo de información vuelve al catálogo cuando se escriben nuevas consultas.

Obviamente soy un portavoz en nombre de la empresa. Voy a decir cosas buenas sobre los catálogos de datos. Si desea escuchar directamente a uno de nuestros clientes, Kristie Allen en Safeway dirige un equipo de analistas y tiene una historia realmente genial sobre un momento en que necesitaba vencer el reloj para realizar un experimento de marketing y cómo El equipo utilizó Alation para colaborar y dar la vuelta muy rápido en ese proyecto. Por lo tanto, puede seguir este enlace bit.ly para ver esa historia, o si desea escuchar un poco sobre cómo Alation podría traer un catálogo de datos a su organización, nos complace configurar una demostración personalizada. Muchas gracias.

Rebecca Jozwiak: Muchas gracias, David. Estoy seguro de que Dez y Robin tienen algunas preguntas antes de pasar a la audiencia Preguntas y respuestas. Dez, ¿quieres ir primero?

Dez Blanchfield: Absolutamente. Me encanta la idea de este concepto de consultas publicadas y vincularlo con la fuente de la autoría. He sido un gran defensor de esta idea de una tienda de aplicaciones interna y creo que esta es una gran base para construir sobre eso.

Llegué a tener una idea de algunas de las organizaciones que estás viendo haciendo esto, y algunas de las historias de éxito que podrían haber tenido con todo este viaje de no solo aprovechar tu herramienta y plataforma para descubrir los datos, sino También luego transforman sus rasgos culturales y de comportamiento internos. Ahora que tiene este tipo de tienda de aplicaciones interna donde simplemente descarga, el concepto en el que no solo pueden encontrarlo, sino que también pueden comenzar a desarrollar pequeñas comunidades con los guardianes de ese conocimiento.

David Crawford: Sí, creo que nos hemos sorprendido. Creemos en el valor de compartir consultas, tanto de mi pasado como gerente de producto en Adtech como de todos los clientes con los que hemos hablado, pero todavía me sorprende la frecuencia con la que es una de las primeras cosas que los clientes hablamos del valor que obtienen de Alation.

Estaba haciendo algunas pruebas de usuario de la herramienta de consulta en uno de nuestros clientes llamado Invoice2go, y tenían un gerente de producto que era relativamente nuevo, y dijeron: en realidad me dijo, sin avisar durante la prueba de usuario, "En realidad no lo haría". estaré escribiendo SQL, excepto que Alation lo ha facilitado ". Y, por supuesto, como PM, me pregunto:" ¿Qué quieres decir, cómo hicimos eso? "Y él dijo:" Bueno, en realidad es solo porque puedo iniciar sesión y puedo ver todas estas consultas existentes ". Comenzar con una pizarra en blanco con SQL es algo increíblemente difícil de hacer, pero modificando una consulta existente donde puede ver el resultado que se publica y puede decir: "Oh, solo necesito esta columna adicional" o "Necesito filtrarla a un rango particular de fechas", eso es mucho más fácil de hacer.

Hemos visto algunos de estos roles auxiliares, como gerentes de producto, tal vez personas en operaciones de ventas, que comienzan a aprender y que siempre quisieron aprender SQL y empezar a aprender usando este catálogo. También hemos visto que muchas compañías han intentado hacer una especie de código abierto. Intenté construir este tipo de cosas internamente, donde rastrean las consultas y las ponen a disposición, y hay algunos desafíos de diseño realmente complicados para que sean útiles. Facebook ha tenido una herramienta interna que llamaron HiPal que capturó todas las consultas escritas en Hive, pero lo que descubres es que si no empujas a los usuarios de la manera correcta, simplemente terminas con un lista muy larga de declaraciones selectas. Y como usuario que está tratando de averiguar si una consulta es útil para mí o si es buena, si solo reviso una larga lista de declaraciones de selección, me tomará mucho más tiempo sacar algo de valor allí que empezando desde cero. Pensamos con mucho cuidado acerca de cómo hacer un catálogo de consultas que traiga las cosas correctas al frente y las proporcione de manera útil.

Dez Blanchfield: Creo que todos pasamos por este viaje desde una edad muy temprana, hasta la edad adulta, de muchas maneras. Un montón de tecnologías. Yo, personalmente, he pasado por esa misma cosa genuina, como aprender a cortar código. Revisaba revistas y luego libros, y estudiaba hasta cierto nivel, y luego necesitaba ir y realmente obtener más capacitación y educación sobre el tema.

Pero inadvertidamente descubrí que incluso cuando iba de enseñarme a mí mismo y de leer revistas y leer libros y cortar los programas de otras personas y de ir a los cursos, seguía aprendiendo tanto de los cursos como solo hablando con otros. personas que tuvieron algunas experiencias. Y creo que es un descubrimiento interesante que, ahora que lo llevas al análisis de datos, básicamente estamos viendo ese mismo paralelismo, que los seres humanos son invariablemente bastante inteligentes.

La otra cosa que realmente estoy ansioso por entender es que, a un nivel muy alto, muchas organizaciones van a preguntar: "¿Cuánto tiempo lleva llegar a ese punto?" su plataforma instalada y comenzaron a descubrir los tipos de herramientas? Con qué rapidez las personas simplemente ven que esto se convierte en un momento "a-ha" realmente inmediato en el que se dan cuenta de que ya ni siquiera se preocupan por el ROI porque está ahí, pero ahora están cambiando la forma de hacer negocios. ? Y han descubierto un arte perdido y esperan poder hacer algo realmente divertido.

David Crawford: Sí, puedo tocarlo un poco. Creo que cuando nos instalamos, una de las cosas buenas, una de las cosas que a la gente le gusta de un catálogo que está directamente conectado a los sistemas de datos, es que no empiezas en blanco donde tienes que completarlo por páginas. Y esto es cierto para las soluciones de datos anteriores en las que comenzaría con una herramienta vacía y tendría que comenzar a crear una página para todo lo que desea documentar.

Dado que documentamos tantas cosas automáticamente mediante la extracción de los metadatos, esencialmente dentro de unos días de haber instalado el software, puede tener una imagen de su entorno de datos que es al menos el 80 por ciento allí en la herramienta. Y luego creo que tan pronto como las personas comienzan a escribir consultas con la herramienta, se guardan automáticamente en el catálogo y, por lo tanto, comienzan a aparecer también.

No quiero estar demasiado ansioso por decirlo. Creo que dos semanas es una estimación conservadora bastante buena, a un mes. De dos semanas a un mes, una estimación conservadora de realmente darse la vuelta y sentir que está obteniendo valor de ello, como si estuviera comenzando a compartir algunos conocimientos y poder ir allí y descubrir cosas sobre sus datos.

Dez Blanchfield: Realmente es bastante sorprendente cuando lo piensas. El hecho de que algunas de las grandes plataformas de datos que está indexando y catalogando de manera efectiva tomarán algunas veces hasta un año para implementarse, implementarse y ponerse en pie de manera adecuada.

La última pregunta que tengo para ti antes de entregarle a Robin Bloor, es conectores. Una de las cosas que inmediatamente me llama la atención es que obviamente tienes todo ese desafío resuelto. Entonces hay un par de preguntas muy rápido. Uno, ¿con qué rapidez se implementan los conectores? Obviamente, comienzas con la plataforma más grande, como los Oráculos y las Teradatas, etc., y los DB2. Pero, ¿con qué frecuencia está viendo nuevos conectores y qué tiempo de respuesta toman? Me imagino que tienes un marco estándar para ellos. ¿Y qué tan profundo entras en eso? Por ejemplo, los Oráculos e IBM del mundo, e incluso Tereadata, y luego algunas de las plataformas de código abierto más populares de los últimos tiempos. ¿Están trabajando directamente con usted? ¿Lo están descubriendo ustedes mismos? ¿Tienes que tener conocimiento interno en esas plataformas?

¿Qué aspecto tiene desarrollar un conector y qué tan profundo se involucra con esas asociaciones para asegurarse de que esos conectores descubran todo lo que pueda?

David Crawford: Sí, claro, es una gran pregunta. Creo que, en su mayor parte, podemos desarrollar los conectores. Ciertamente lo hicimos cuando éramos una startup más joven y no teníamos clientes. Podemos desarrollar las conexiones sin necesidad de ningún acceso interno. Nunca tenemos acceso especial a los sistemas de datos que no están disponibles públicamente y, a menudo, sin necesidad de información privilegiada. Aprovechamos los servicios de metadatos disponibles por los propios sistemas de datos. A menudo, esos pueden ser bastante complejos y difíciles de trabajar. Conozco SQL Server en particular, la forma en que administran el registro de consultas, hay varias configuraciones diferentes y es algo en lo que realmente tiene que trabajar. Debe comprender los matices y las perillas y diales para configurarlo correctamente, y eso es algo en lo que trabajamos con los clientes, ya que lo hemos hecho varias veces antes.

Pero, hasta cierto punto, aprovechamos las API públicas que están disponibles o las interfaces públicas disponibles. Tenemos alianzas con varias de estas compañías, lo que es principalmente un motivo para la certificación, por lo que se sienten cómodos diciendo que trabajamos y también nos pueden proporcionar recursos para realizar pruebas, a veces acceso temprano tal vez a una plataforma que está saliendo para asegurarse de que Trabajamos en las nuevas versiones.

Para cambiar una nueva conexión, diría nuevamente, tratando de ser conservador, digamos seis semanas o dos meses. Depende de cuán similar sea. Entonces, algunos de los trabajos de Postgre se parecen mucho a Redshift. Redshift y Vertica comparten muchos de sus detalles. Entonces podemos aprovechar esas cosas. Pero sí, seis semanas o dos meses serían justos.

También tenemos API, por lo que, pensamos en Alation como una plataforma de metadatos también, así que si algo no está disponible para que podamos alcanzarlo y tomarlo automáticamente, hay formas en que puede escribir el conector usted mismo e insertarlo en nuestro sistema para que todo se centraliza en un solo motor de búsqueda.

Dez Blanchfield: Fantástico. Soy consciente de que. Así que se lo entregaremos a Robin, porque estoy seguro de que también tiene una gran cantidad de preguntas. ¿Robin?

Rebecca Jozwiak: Robin puede estar mudo.

Dez Blanchfield: Te has quedado mudo.

Robin Bloor: Sí, claro. Lo siento, me he silenciado. Cuando implementa esto, ¿cuál es el proceso? Tengo curiosidad porque puede haber muchos datos en muchos lugares. Entonces, ¿cómo funciona eso?

David Crawford: Sí, claro. Entramos, primero es una especie de proceso de TI para asegurarnos de que nuestro servidor esté provisto, asegurándose de que las conexiones de red estén disponibles, que los puertos estén abiertos para que podamos acceder a los sistemas. Todos a menudo saben con qué sistemas quieren comenzar. Saber dentro de un sistema de datos, que, y a veces en realidad los ayudaremos. Los ayudaremos a hacer un primer vistazo a su registro de consultas para comprender quién está usando qué y cuántos usuarios tienen en un sistema. Así que ayudaremos a averiguar dónde: a menudo, si tienen cientos o miles de personas que podrían estar iniciando sesión en las bases de datos, en realidad no saben dónde están iniciando sesión, por lo que podemos averiguarlo desde el consulta registra cuántas cuentas de usuario únicas tiene realmente iniciando sesión y ejecutando consultas aquí en aproximadamente un mes.

Entonces podemos aprovechar eso, pero a menudo solo en los más importantes. Los configuramos y luego hay un proceso de decir: "Vamos a priorizar". Hay una variedad de actividades que pueden ocurrir en paralelo. Me enfocaría en la capacitación para usar la herramienta de consulta. Una vez que las personas comienzan a usar la herramienta de consulta, en primer lugar, a muchas personas les encanta el hecho de que es solo una interfaz única para todos sus diferentes sistemas. También les encanta el hecho de que está basado en la web, no implica ninguna instalación si no lo desean. Desde el punto de vista de la seguridad, les gusta tener una especie de punto de entrada único, desde el punto de vista de la red, entre una especie de red informática y el centro de datos donde viven las fuentes de datos de producción. Y así, configurarán Alation como una herramienta de consulta y comenzarán a usar Compose como punto de acceso para todos estos sistemas.

Entonces, una vez que eso sucede, en lo que nos enfocamos en la capacitación es en comprender cuáles son algunas de las diferencias entre una herramienta de consulta basada en la web o en el servidor versus una que tendría en su escritorio, y algunos de los matices del uso ese. Y al mismo tiempo, lo que intentaremos hacer es identificar los datos más valiosos, nuevamente aprovechando la información del registro de consultas y diciendo: "Oye, quizás quieras entrar y ayudar a las personas a comprenderlos". Comencemos a publicar consultas representativas en estas tablas ”. Esa es a veces la forma más efectiva de hacer que la gente se acelere rápidamente. Veamos su propio historial de consultas, publique estas cosas para que aparezcan como las primeras consultas. Cuando las personas miran una página de la tabla, pueden ver todas las consultas que tocaron esa tabla y pueden comenzar desde allí. Y luego comencemos a agregar títulos y descripciones a estos objetos para que sean más fáciles de encontrar y buscar, para que conozca algunos de los matices de cómo usarlo.

Nos aseguramos de obtener un análisis exhaustivo del registro de consultas para poder generar linaje. Una de las cosas que hacemos es mirar a través del registro de consultas en los momentos en que los datos se mueven de una tabla a otra, y eso nos permite hacer una de las preguntas más frecuentes sobre una tabla de datos: ¿de dónde vino esto? ¿Cómo confío en ello? Entonces, lo que podemos mostrar no es solo de qué otras tablas proviene, sino cómo se transformó en el camino. Una vez más, esto es impulsado por el registro de consultas.

Por lo tanto, nos aseguramos de que esas cosas estén configuradas y de que tengamos linaje en el sistema, y ​​apuntemos a las piezas de metadatos más valiosas y más apalancadas que podamos establecer en las páginas de la tabla, para que cuando buscas, encuentras algo útil.

Robin Bloor: De acuerdo. La otra pregunta, hay muchas preguntas de la audiencia, así que no quiero ocupar mucho tiempo aquí, la otra pregunta que me viene a la mente es, solo los puntos débiles. Se compra mucho software porque la gente, de una forma u otra, tiene dificultades con algo. Entonces, ¿cuál es el punto de dolor común que lleva a las personas a Alation?

David Crawford: Sí. Creo que hay algunos, pero creo que uno de los que escuchamos con bastante frecuencia es la incorporación de analistas. "Voy a necesitar contratar a 10, 20, 30 personas en el corto plazo que tendrán que producir nuevas ideas a partir de estos datos, ¿cómo van a ponerse al día?" Entonces, la incorporación de analistas es algo que ciertamente entrada. También está aliviando a los analistas senior de que pasen todo su tiempo respondiendo preguntas de otras personas sobre los datos. Esa también es muy frecuente. Y ambos son esencialmente problemas de educación.

Y luego diría que otro lugar en el que vemos que las personas adoptan Alation es cuando quieren establecer un nuevo entorno de datos para que alguien trabaje. Quieren publicitar y comercializar esto internamente para que las personas se aprovechen. Hacer que Alation sea el front-end de ese nuevo entorno analítico es muy atractivo. Tiene la documentación, tiene un único punto de introducción a - un único punto de acceso a los sistemas, y ese es otro lugar donde la gente vendrá a nosotros.

Robin Bloor: Bien, te pasaré a Rebecca porque la audiencia está tratando de contactarte.

Rebecca Jozwiak: Sí, tenemos muchas preguntas de audiencia realmente buenas aquí. Y David, este fue planteado específicamente para ti. Es de alguien que aparentemente tiene cierta experiencia con personas que hacen mal uso de las consultas, y dice que cuanto más facultamos a los usuarios, más difícil será gobernar el uso responsable de los recursos informáticos. Entonces, ¿puede defenderse contra la propagación de frases de consulta equivocadas pero comunes?

David Crawford: Sí, veo esta pregunta. Es una gran pregunta, una que recibimos con bastante frecuencia. Yo mismo he visto el dolor en compañías anteriores, donde necesitas capacitar a los usuarios. Por ejemplo, “Esta es una tabla de registro, tiene registros que se remontan desde hace años. Si va a escribir una consulta en esta tabla, realmente tiene que limitar por fecha ”. Entonces, por ejemplo, esa es una capacitación que realicé en una compañía anterior antes de que me dieran acceso a la base de datos.

Tenemos un par de formas en que tratamos de abordar esto. Diría que creo que los datos del registro de consultas son realmente valiosos para abordarlos. Proporciona otra idea frente a lo que hace la base de datos internamente con su planificador de consultas. Y lo que hacemos es una de esas intervenciones: tenemos las intervenciones manuales que mostré, y eso es útil, ¿verdad? Entonces, en una unión particular, por ejemplo, puede decir: "Vamos a desaprobar esto". Tendrá una gran bandera roja cuando aparezca en una sugerencia inteligente. Esa es una forma de tratar de llegar a las personas.

Otra cosa que hacemos es automatizada en las intervenciones en tiempo de ejecución. Eso realmente usará el árbol de análisis de la consulta antes de ejecutarlo para ver si incluye un cierto filtro o un par de otras cosas que también hacemos allí. Pero uno de los más valiosos y el más simple de explicar es, ¿incluye un filtro? Entonces, como en el ejemplo que acabo de dar, esta tabla de registro, si va a consultarla, debe tener un rango de fechas, puede especificar en la página de la tabla allí que exige que se aplique ese filtro de rango de fechas. Si alguien intenta ejecutar una consulta que no incluye ese filtro, en realidad los detendrá con una gran advertencia y dirá: "Probablemente debería agregar un SQL que se vea así a su consulta". Pueden continuar si ellos quieren. En realidad, no les prohibiremos por completo que lo usen, también es una consulta, al final del día, debe ejecutar consultas. Pero colocamos una barrera bastante grande frente a ellos y les damos una sugerencia, una sugerencia concreta aplicable para modificar la consulta para mejorar su rendimiento.

De hecho, también lo hacemos automáticamente en algunos casos, nuevamente observando el registro de consultas. Si vemos que un porcentaje realmente grande de consultas en esta tabla se aprovecha de un filtro particular o una cláusula de unión particular, en realidad lo mostraremos. Promoveremos eso a una intervención. En realidad, me pasó en un conjunto de datos interno. Tenemos datos de clientes y tenemos ID de usuario, pero el ID de usuario establecido, ya que es algo así, tenemos ID de usuario en cada cliente. No es único, por lo que debe emparejarlo con una ID de cliente para obtener una clave de combinación única. Y estaba escribiendo una consulta e intenté analizar algo y apareció y dijo: "Oye, todos los demás parecen unir estas tablas con la ID del cliente y la ID del usuario. ¿Estás seguro de que no quieres hacer eso? ”Y en realidad me impidió hacer un análisis incorrecto. Por lo tanto, funciona tanto para la precisión del análisis como para el rendimiento. Así es como abordamos ese problema.

Rebecca Jozwiak: Eso me parece efectivo. Dijiste que no necesariamente bloquearás a las personas para que acaparen recursos, sino que les enseñes que lo que están haciendo podría no ser lo mejor, ¿verdad?

David Crawford: Siempre asumimos que los usuarios no son maliciosos, les damos las mejores intenciones, y tratamos de ser bastante abiertos de esa manera.

Rebecca Jozwiak: De acuerdo. Aquí hay otra pregunta: “¿Cuál es la diferencia entre un administrador de catálogo, como con su solución, y una herramienta MDM? ¿O en realidad se basa en un principal diferente al ampliar la elección de las tablas de consulta, mientras que MDM lo haría automáticamente, pero con el mismo principal subyacente de recopilación de metadatos ".

David Crawford: Sí, creo que cuando miro las soluciones MDM tradicionales, la diferencia principal es filosófica. Se trata de quién es el usuario. Como dije al comienzo de mi presentación, Alation, creo, cuando fuimos fundados, fuimos fundados con el objetivo de permitir a los analistas producir más ideas, producirlas más rápido, ser más precisos en las ideas que ellos Produce. No creo que ese haya sido el objetivo de una solución MDM tradicional. Esas soluciones tienden a estar dirigidas a personas que necesitan producir informes de qué datos se han capturado en el SCC o internamente para algún otro tipo de propósito de auditoría. A veces puede habilitar a los analistas, pero con mayor frecuencia, si va a habilitar a un profesional en su trabajo, es más probable que habilite un arquitecto de datos como un DBA.

Cuando piensa en las cosas desde el punto de vista de un analista, es cuando comienza a construir una herramienta de consulta que una herramienta MDM nunca haría. Es entonces cuando comienza a pensar en el rendimiento y la precisión, así como en comprender qué datos se relacionan con las necesidades de mi negocio. Todas esas cosas son cosas que aparecen en nuestras mentes cuando diseñamos la herramienta. Entra en nuestros algoritmos de búsqueda, entra en el diseño de las páginas del catálogo y la capacidad de contribuir con el conocimiento de toda la organización. Entra en el hecho de que creamos la herramienta de consulta y que incorporamos el catálogo directamente en ella, por lo que creo que realmente proviene de eso. ¿Qué usuario tienes primero en mente?

Rebecca Jozwiak: Bien, bien. Eso realmente ayudó a explicarlo. quien se moría por conseguir los archivos porque tenía que irse, pero realmente quería que su pregunta fuera respondida. Dijo que se mencionó al principio que hay varios idiomas, pero ¿es SQL el único lenguaje aprovechado dentro del componente Compose?

David Crawford: Sí, eso es verdad. Y una de las cosas que he notado, al ser testigo de la explosión de los diferentes tipos de bases de datos, de bases de datos de documentos, de bases de datos de gráficos, de almacenes de valores clave, es que son realmente potentes para el desarrollo de aplicaciones. Pueden satisfacer necesidades particulares allí realmente bien, en mejores formas que las bases de datos relacionales.

Pero cuando lo devuelve al análisis de datos, cuando lo devuelve, cuando desea proporcionar esa información a las personas que van a realizar informes ad hoc o excavaciones ad hoc en los datos, siempre vuelven a una relación, al menos, interfaz para los humanos. Parte de eso es solo porque SQL es la lengua franca del análisis de datos, lo que significa que, para los humanos, también es para las herramientas que se integran. Creo que esta es la razón por la que SQL en Hadoop es tan popular y hay tantos intentos de resolverlo, porque al final del día, eso es lo que la gente sabe. Probablemente hay millones de personas que saben cómo escribir SQL, y me atrevería a no millones que saben cómo escribir una consulta de marco de canalización de agregación Mongo. Y que es un lenguaje estándar que se utiliza para la integración en una gran variedad de plataformas. Entonces, todo lo que dice, rara vez se nos pide que salgamos de ella porque esta es la interfaz que usan la mayoría de los analistas, y es un lugar donde nos enfocamos, especialmente en Compose, que nos enfocamos en escribir SQL.

Yo diría que la ciencia de datos es el lugar donde más se aventuran fuera, por lo que ocasionalmente tenemos preguntas sobre el uso de Pig o SAS. Estas son cosas que definitivamente no manejamos en Compose, y que nos gustaría capturar en el catálogo. Y estoy viendo también R y Python. Tenemos un par de formas en que hemos creado interfaces para que pueda usar las consultas escritas en Alation dentro de los scripts R y Python, por lo que, a menudo, cuando es un científico de datos y está trabajando en un lenguaje de script, su los datos de origen están en una base de datos relacional. Comienza con una consulta SQL y luego la procesa más y crea gráficos dentro de R y Python. Y hemos creado paquetes que puede importar a esos scripts que extraen las consultas o los resultados de la consulta de Alation para que pueda tener un flujo de trabajo combinado allí.

Rebecca Jozwiak: Bien, genial. Sé que hemos pasado un poco más de la hora, solo voy a hacer una o dos preguntas más. Sé que habló de todos los diferentes sistemas a los que puede conectarse, pero en lo que respecta a los datos alojados externamente y los datos alojados internamente, ¿se pueden buscar juntos en su única vista, en su única plataforma?

David Crawford: Claro. Hay algunas formas de hacerlo. Quiero decir, alojado externamente, me imagino, estoy tratando de pensar exactamente qué significa eso. Podría significar una base de datos que alguien está alojando en AWS para usted. Podría significar una fuente de datos pública de data.gov. Nos conectamos directamente a las bases de datos iniciando sesión como cualquier otra aplicación, con una cuenta de bases de datos, y así es como extraemos los metadatos. Entonces, si tenemos una cuenta y tenemos un puerto de red abierto, podemos acceder a él. Y luego, cuando no tenemos esas cosas, tenemos algo que se llama una fuente de datos virtual, que le permite empujar esencialmente la documentación, ya sea automáticamente, escribiendo su propio conector o rellenándolo incluso como una carga CSV, para documentar los datos junto con sus datos internos. Eso se coloca todo en el motor de búsqueda. Se vuelve referenciable dentro de los artículos y otra documentación y conversaciones dentro del sistema. Así es como manejamos cuando no podemos conectarnos directamente a un sistema.

Rebecca Jozwiak: Bien, eso tiene sentido. Voy a dispararte una pregunta más. Un asistente es preguntando: "¿Cómo se debe validar, verificar o mantener el contenido de un catálogo de datos, a medida que se actualizan los datos de origen, a medida que se modifican los datos de origen, etc."

David Crawford: Sí, es una pregunta que recibimos mucho, y creo que una de las cosas que nosotros, una de nuestras filosofías, como dije, no creemos que los usuarios sean maliciosos. Asumimos que están tratando de aportar el mejor conocimiento. No van a entrar y deliberadamente engañar a la gente sobre los datos. Si eso es un problema en su organización, tal vez Alation no sea la herramienta adecuada para usted. Pero si asume buenas intenciones por parte de los usuarios, entonces, pensamos que es algo en lo que entran las actualizaciones y, por lo general, lo que hacemos es poner a un administrador a cargo de cada objeto de datos o cada sección de datos. Y podemos notificar a esos administradores cuando se realizan cambios en los metadatos y pueden manejarlo de esa manera. Ven actualizaciones, las validan. Si no están en lo cierto, pueden regresar y modificarlos e informar, y con suerte incluso comunicarse con el usuario que contribuyó con la información y ayudarlos a aprender.

Así que esa es la forma principal en que pensamos en hacerlo. Este tipo de sugerencia por parte de la multitud y la administración por parte de los comisarios, por lo que tenemos algunas capacidades al respecto.

Rebecca Jozwiak: Bien, bien. Y si pudieras decirle a la gente cómo pueden comenzar mejor con Alation, y dónde pueden ir específicamente para obtener más información. Sé que compartiste eso un poco. ¿Es ese el mejor lugar?

David Crawford: Alation.com/learnmore Creo que es una excelente manera de hacerlo. Para suscribirse a una demostración, el sitio de Alation.com tiene muchos recursos excelentes, informes de clientes y noticias sobre nuestra solución. Así que creo que es un buen lugar para comenzar. También puedes enviar un correo electrónico.

Rebecca Jozwiak: Bien, genial. Y lo sé, asistentes, perdón si no llegué a todas las preguntas hoy, pero si no, se las enviarán a David o su equipo de ventas o alguien de Alation, por lo que definitivamente pueden ayudar a responder sus preguntas y ayudar a comprender qué hace Alation o qué hacen mejor.

Y con eso, amigos, seguiré adelante y nos firmaré. Siempre puede encontrar los archivos en InsideAnalysis.com. También puede encontrarlo en Techopedia.com. Tienden a actualizarse un poco más rápido, así que definitivamente échale un vistazo. Y muchas gracias a David Crawford, Dez Blanchfield y Robin Boor hoy. Ha sido un gran webcast. Y con eso, te despediré. Gracias amigos. Adiós.

David Crawford: gracias.

El poder de la sugerencia: cómo un catálogo de datos capacita a los analistas