Por el personal de Techopedia, 8 de junio de 2016
Para llevar: El presentador Eric Kavanaugh discute las innovaciones en tecnología de bases de datos con los expertos Dez Blanchfield, Robin Bloor y Bert Scalzo.
Actualmente no has iniciado sesión. Inicia sesión o regístrate para ver el video.
Eric Kavanagh: Damas y caballeros, es miércoles a las cuatro, hora del Este. Estoy en Nueva Orleans, se acerca el verano, ¡eso significa que hace calor! Es hora de Hot Technologies, sí, sí, sí. Mi nombre es Eric Kavanagh, seré tu anfitrión. Voy a patear la pelota aquí para Hot Technologies. El tema de hoy es "Impulso progresivo: avanzar más allá de lo tradicional". Amigos, hoy tenemos tres expertos en bases de datos por teléfono, así que si tienen alguna pregunta, envíenles las difíciles, no sean tímidos. Tenemos un montón de buen contenido preparado para ti hoy. Hay un punto sobre el tuyo verdaderamente, suficiente sobre mí. Por supuesto, este año es caluroso. Estamos hablando de las mejores tecnologías en este programa, que es una asociación con nuestros amigos de Techopedia. Y hoy vamos hasta la base de la gestión de la información, que por supuesto es la base de datos. Vamos a hablar sobre cómo llegamos aquí, qué está sucediendo hoy y qué está sucediendo en el futuro. Están sucediendo muchas cosas muy interesantes.
Obviamente tenemos una seria innovación en el espacio de la base de datos. Estuvo un poco tranquilo durante un rato; Si habla con algunos de los analistas en el negocio, diría que probablemente del año 2005 al 2009 o '10, no parecía que hubiera demasiadas cosas en términos de innovación. Y de repente estalló, como un jailbreak o algo así, y ahora están sucediendo todo tipo de cosas interesantes. Mucho de eso se debe a la escala de la web y a todas las propiedades interesantes de la web que están haciendo diferentes cosas interesantes. De ahí surgió el concepto NoSQL. Y eso significa dos cosas diferentes: significa que no hay SQL, ya que no admite SQL, también significa no solo SQL. Hay un término "NewSQL" que algunas personas han usado. Pero obviamente, los SQL, el lenguaje de consulta estructurado, realmente son la base, es la base de las consultas.
Y es interesante que todos estos motores NoSQL, ¿qué pasó? Bueno, salieron, había mucha emoción al respecto, y luego, unos años más tarde, ¿qué comenzamos a escuchar? Oh, SQL en Hadoop. Bueno, todas estas compañías comenzaron a colocar interfaces SQL en sus herramientas NoSQL, y cualquiera que esté en el mundo de la programación sabe que esto conducirá a algunos desafíos y dificultades, y algunos cables cruzados, etc. Así que vamos a descubrir muchas de esas cosas hoy.
Están nuestros tres presentadores: tenemos a Dez Blanchfield llamando desde Sydney, nuestro propio Robin Bloor que está en Texas, y también Bert Scalzo, él también está en Texas. Entonces, antes que nada, tendremos noticias de Dez Blanchfield. Amigos, twittearemos en el hashtag de #HotTech, así que siéntanse libres de enviar sus comentarios, o enviar sus preguntas a través del componente de preguntas y respuestas de la consola de transmisión web, o incluso a través de la ventana de chat. Y con eso, Dez Blanchfield, quítatelo.
Dez Blanchfield: Gracias Eric. Hola a todos. Así que voy a tratar de establecer la escena en un punto de vista de 30, 000 pies de lo que sucedió en la última década, y los cambios significativos que hemos visto, o al menos una década y media de todos modos, del sistemas de administración de bases de datos, y algunos de los impactos desde un punto de vista comercial o técnico, y algunas de las tendencias que hemos soportado últimamente, y nos llevan a la conversación que estamos a punto de tener hoy sobre el tema.
Mi imagen de portada aquí es una duna de arena, y hay viento que sopla pequeños pedacitos de arena de la parte superior. Y como resultado de eso, lo que sucede es que la duna de arena camina lentamente de un espacio a otro. Y es un fenómeno sorprendente, donde estas enormes montañas de arena de 40 y 50 pies de altura, efectivamente, se mueven. Y se mueven muy lentamente, pero se mueven seguramente, y a medida que se mueven, cambian el paisaje. Y es bastante algo para ver si pasas algún tiempo en un área donde las dunas de arena son algo natural. Porque puedes mirar por la ventana un día y darte cuenta de que esta enorme montaña de arena, pequeños granos pequeños se han movido por sí solos, en efecto, y que el viento la mueve lentamente de un lugar a otro.
Y creo que, en muchos sentidos, ese ha sido el mundo de los sistemas de bases de datos durante bastante tiempo. Hasta muy, muy recientemente, ese cambio muy pequeño en forma de granos de arena que mueve una montaña gigante de arena en forma de duna de arena. Se han producido pequeños cambios en las plataformas de bases de datos a lo largo de los años, y ha sido un entorno bastante estable y sólido en torno a los sistemas y plataformas de bases de datos, a través del mainframe de la era de rango medio. Pero en los últimos tiempos, nos han sucedido algunas cosas bastante importantes con nuestras necesidades comerciales y nuestros impulsores técnicos. Voy a guiarnos a través de esos.
Tengo la opinión de que el concepto básico de una base de datos, tal como lo conocimos durante muchos, muchos años, y como puede haber escuchado en las bromas previas al espectáculo, nuestros dos expertos que están conmigo hoy tuvieron una vida de por vida. este espacio y tienen toda la razón al compartir el derecho a presumir de estar allí cuando todo comenzó a principios de los años 80. Pero hemos visto este cambio masivo en la última década y un poco, y voy a guiarnos rápidamente antes de entregarlo al Dr. Robin Bloor.
Hemos pasado por esto, lo que yo llamo, una experiencia "más grande, mejor, más rápida, más barata". Como dije, la definición de una base de datos ha cambiado. El panorama en el que las plataformas de bases de datos han tenido que abordar el rendimiento y los requisitos técnicos y comerciales también han cambiado. Hemos visto este aumento en la demanda de soluciones para hacer frente a requisitos comerciales más complejos o técnicos más complejos. Entonces, un vistazo muy rápido a lo que eso realmente significa, en mi opinión, es que llegamos a los años 90, y vimos la tecnología de bases de datos impactada por la introducción de Internet, y algo de lo que llamamos en ese entonces Internet escala. No solo estábamos hablando de personas sentadas frente a las terminales, originalmente como las terminales de teletipo con impresoras físicas incorporadas y 132 columnas de texto que salen en papel. Luego los primeros terminales de pantalla verde, golpeando con teclados.
Pero ya sabes, nuestro mundo eran terminales y cables seriales o cables de red que hablaban con las computadoras durante mucho tiempo. Luego llegó Internet, y este crecimiento explosivo de conectividad, que ya no tenía que estar conectado a la computadora. Para acceder a un sistema de base de datos solo necesitabas un navegador web. Por lo tanto, la tecnología de la base de datos tuvo que cambiar drásticamente, para hacer frente a la escala de todo, desde las tecnologías básicas de los motores de búsqueda que se utilizaron para indexar el mundo, y almacenar un índice de información, en el ejemplo de la escala del formato de la base de datos. Y personas como Google y otros proporcionaron una plataforma para hacerlo. Y se produjeron todos los nuevos tipos de almacenamiento de bases de datos, consultas e indexación. Y luego tuvimos sitios de música y sitios de películas.
Y luego, en la década de 2000, vimos el auge de las puntocom, y eso produjo una explosión aún más dramática en la cantidad de personas que usan sistemas que siempre funcionan con una base de datos de alguna forma. En esta etapa, las bases de datos relacionales aún enfrentaban la mayor parte de la carga, simplemente las colocamos en una lata más grande, y de alguna manera fuimos a los muy, muy, muy grandes sistemas de rango medio que ejecutan plataformas Unix de personas como IBM y Sun, etc. . El auge de las puntocom solo hizo que las cosas fueran más grandes y más rápidas desde un punto de vista de hardware y rendimiento, y hubo algunos cambios significativos en los motores de la base de datos, pero en su mayor parte, seguía siendo lo mismo que habíamos visto durante un tiempo. largo tiempo.
Y luego tenemos esta era de la web 2.0, como nos referimos a ella. Y este fue un cambio monstruoso, porque de repente necesitábamos plataformas de bases de datos mucho más simples, y tenía que haber una escala en forma horizontal. Y ese fue un cambio tan significativo en la forma en que abordamos la idea de lo que era una base de datos. Todavía estamos realmente poniéndonos al día ahora desde mi punto de vista. Y ahora estamos lidiando con todo este atolladero, y digo que con un giro positivo, no una connotación negativa, este atolladero de lo que llamamos grandes datos, y una enorme explosión, y quiero decir explosión. Este cambio escandaloso verticalmente en el gráfico del número de opciones que tenemos cuando hablamos de una base de datos y alguna forma de capacidad de consulta relacional.
Y curiosamente, personalmente considero que creo que los grandes datos realmente son solo la punta del iceberg. Tendemos a entusiasmarnos un poco sobre el impacto de los grandes datos y los tipos de opciones que tenemos disponibles ahora. Tenemos todo de motores NoSQL, tenemos motores de gráficos, tenemos todos estos diferentes tipos de plataformas a las que podemos lanzar datos y hacer cosas con ellos. Incluso hasta el punto en que, de hecho, una de las primeras conversaciones que tuve con Eric Kavanagh, quien está aquí hoy con nosotros, fue en torno a una conversación relacionada con algo llamado Apache Drill, que es un proyecto de código abierto que le permite consultar los datos dentro del modelo diferentes tipos de datos: todo, desde archivos CSE sin procesar ubicados en un disco duro, hasta sistemas de archivos HDFS a escala de petabytes. Y ya sabes, te permite hacer estas consultas de estilo SQL de datos estructurados y no estructurados de todo tipo de plantas interesantes.
Estamos a punto de ver que el "edificio inteligente" se convierte en una cosa, y nos gustaría pensar que tenemos edificios inteligentes de seguridad y gestión del calor, pero estoy hablando de edificios inteligentes que saben mucho más sobre quién eres y dónde estás cuando entras, y haces todo tipo de cosas ordenadas a ese nivel, a través de ciudades inteligentes, ecosistemas enteros a nivel de ciudad, que saben cómo hacer las cosas de manera inteligente. Y más allá de eso, tenemos esta cosa increíble que no creo que nadie en el mundo entienda completamente, y esa es la forma de Internet de las cosas. Ha habido todos estos cambios diferentes durante la última década y un poco, tal vez dos décadas más o menos, si lo redondeamos, eso ha impactado el mundo de lo que consideramos bases de datos, en mi opinión.
Ha habido un par de cosas importantes que lo han hecho posible. El costo de los discos duros se ha reducido drásticamente, y de muchas maneras eso es lo que hizo posible manejar algunas de las arquitecturas de referencia, como el modelo Hadoop, ya que tomamos muchos datos y los distribuimos en muchos discos duros, y hacer cosas inteligentes con eso. Y, en efecto, lo que se convirtió en fragmentación, en mi opinión, de la base de datos relacional o modelo de unidad de base de datos tradicional. Y la RAM se volvió muy, muy barata, y eso nos dio una oportunidad completamente nueva para jugar con diferentes arquitecturas de referencia, como en la memoria, y para hacer cosas como particionar grandes cantidades de datos.
Y esto nos dio esta pequeña imagen que estamos viendo ahora, que es un diagrama que muestra los tipos de plataformas que están disponibles si estás en el panorama de los grandes datos. Y es muy, muy difícil de leer, y la razón de eso es que hay demasiada información al respecto. Hay muchas opciones de hacer, modelar y fabricar formas de poner datos en sistemas de bases de datos de cualquier forma, consultarlos y realizar las lecturas y escrituras tradicionales. Y no todos son compatibles, de hecho, muy pocos cumplen incluso con cualquier estándar de estilo básico, pero aún se consideran una base de datos. Y le mostraré un par de pantallas en un segundo para darle un contexto sobre lo que quiero decir con el cambio de los años 90 y la escala de Internet a la web 2.0, y luego todo el crecimiento a través de big data. Si creemos que este gráfico de panorama de tecnología de grandes datos es emocionante porque tiene muchas opciones, echemos un vistazo a una vertical clave.
Veamos la tecnología de marketing. Estas son las opciones para los sistemas de administración de bases de datos, o la administración de datos dentro del espacio de tecnología del mar, por lo que la tecnología está relacionada con el marketing. Ahora esto fue en 2011, hace unos años; Hace cinco años, así era el paisaje. Si solo vuelvo brevemente una diapositiva, así es como se ve el panorama de datos de hoy en día en las diversas marcas y ofertas que tenemos en tecnologías de bases de datos. Así era una vertical hace cinco años, solo en tecnología de marketing.
Ahora, si voy a la vista de hoy, así es como se ve, y es completamente impenetrable. Es solo este muro de marcas y opciones, y son miles y miles de combinaciones de software que se consideran en la clase de base de datos, que pueden capturar, crear o almacenar y recuperar datos en varias formas. Y creo que estamos entrando en un momento muy, muy interesante y valiente, donde alguna vez pudiste conocer las principales marcas, pudiste conocer las cinco o seis plataformas diferentes de Oracle e Informix, DB2, etc., y ser casi un experto en todas las marcas que estaban disponibles hace unos 20 años. Hace diez años, se volvió un poco más fácil porque algunas de las marcas se cayeron, y no todas las marcas pudieron hacer frente a la escala del boom de las puntocom, y algunas compañías simplemente se arruinaron.
Hoy en día, es absolutamente imposible ser un experto en toda la tecnología de bases de datos que existe, ya sean bases de datos relacionales o plataformas de administración de bases de datos estándar que hemos conocido en las últimas décadas. O probablemente el caso, los motores más modernos como Neo4j y esos tipos. Entonces, creo que estamos entrando en un mundo muy valiente donde hay muchas opciones disponibles, y tenemos plataformas en escala de forma horizontal, ya sea en memoria o en disco ahora. Pero creo que es un momento desafiante para los responsables de la toma de decisiones tecnológicas y empresariales, porque necesitan tomar algunas decisiones muy importantes sobre las pilas de tecnología, que en algunos casos solo han existido durante esencialmente meses. Dieciocho meses no es un número aterrador ahora para algunas de las plataformas de bases de datos de código abierto más emocionantes y nuevas. Y comienzan a fusionar plataformas y se vuelven aún más nuevas y más emocionantes.
Creo que hoy tendremos una gran conversación sobre cómo todo esto ha impactado las plataformas de bases de datos tradicionales y cómo están respondiendo a ellas, y los tipos de tecnologías que se están lanzando a eso. Y con eso en mente, voy a pasar ahora al Dr. Robin Bloor y obtener sus ideas. Robin, hacia ti.
Robin Bloor: Bien, gracias por eso. Sí, este es un tema demasiado grande. Quiero decir, si solo tomaste una astilla de una de las ilustraciones que Dez te mostró, podrías tener una larga conversación sobre una de las astillas. Pero sabes, puedes ir a una base de datos: he estado buscando bases de datos, no lo sé, desde la década de 1980, y puedes mirar la base de datos de diferentes maneras. Y una de las cosas que pensé que haría, simplemente participar en la conversación de hoy, fue hablar sobre la razón por la que han sucedido cosas disruptivas a nivel de hardware. Y hay que tener en cuenta que también han sucedido muchas cosas disruptivas a nivel de software, por lo que esta no es la imagen completa de nada, esto es solo una cuestión de hardware.
No iba a hablar por mucho tiempo tampoco, solo quería darte la imagen del hardware. Una base de datos tenía capacidades de recuperación de datos que abarcaban CPU, memoria y disco, y eso está cambiando dramáticamente. Y la razón por la que digo eso es que aprendí a entender la base de datos desde la perspectiva de lo que realmente hiciste. Sabes, hay una diferencia en la latencia entre los datos realmente en la CPU y los datos que se extraen de la memoria desde la CPU, y los datos que se extraen del disco a la memoria y a través de la CPU. Y las arquitecturas de bases de datos antiguas solo intentaban equilibrar eso. Sabes, solo decían: "Bueno, esto va muy lento, almacenaremos en caché los datos en el disco para que estén en la memoria". Intentaremos hacerlo de una manera realmente precisa para que una buena proporción de los datos que solicitamos ya esté en la memoria. Y enviaremos los datos a la CPU lo más rápido que podamos ".
Y las bases de datos se escribieron en los viejos tiempos, las máquinas se escriben para pequeños grupos. Y ahora, para los ignorantes del paralelismo. Porque si va a obtener algo de rendimiento de un clúster, tendrá que hacer varias cosas en paralelo. El paralelismo es una parte del juego, nada como ahora. Simplemente caminaré por lo que pasó.
En primer lugar, el disco. Bueno, el disco ha terminado, de verdad. Ya casi se ha acabado la base de datos. Creo que hay varios contextos para el archivo de datos, e incluso los lagos de datos muy grandes que se ejecutan en Hadoop, el peor disco giratorio es probablemente viable hoy en día. Realmente, el problema con el disco giratorio era que las velocidades de lectura no mejoraron particularmente. Y cuando la CPU estaba subiendo, la velocidad de la ley de Moore, un tipo de orden de magnitud, más rápida cada seis años. Y la memoria seguía un poco a su paso, entonces esos dos estaban razonablemente manteniendo el ritmo el uno con el otro, no fue del todo fácil, pero lo hicieron.
Pero la lectura aleatoria en un disco donde la cabeza vuela sobre el disco, quiero decir, aparte de cualquier otra cosa, es un movimiento físico. Y si está haciendo lecturas aleatorias desde un disco, es increíblemente lento en comparación con la lectura de la memoria, es como 100, 000 veces más lento. Y recientemente, la mayoría de las arquitecturas de bases de datos que he analizado en profundidad solo han estado leyendo en serie desde discos. Realmente desea, de una forma u otra, simplemente almacenar en caché todo lo que pueda del disco, sacarlo de ese dispositivo lento y colocarlo en un dispositivo rápido. Y hay muchas cosas inteligentes que puedes hacer con eso, pero se acabó.
Y los discos de estado sólido, o unidades flash, realmente, es lo que son, están reemplazando muy rápidamente al disco giratorio. Y eso cambia de nuevo por completo, porque la forma en que los datos se organizan en un disco, se organiza de acuerdo con la forma en que funciona el disco. En realidad, se trata de una cabeza que se mueve a través de una superficie giratoria, en realidad varias cabezas que se mueven a través de múltiples superficies giratorias y que recogen los datos a medida que avanzan. Una unidad de estado sólido es solo un bloque de cosas que puede leer. Quiero decir, lo primero es que todas las bases de datos tradicionales fueron diseñadas para disco giratorio, y ahora están siendo rediseñadas para SSD. Probablemente, las nuevas bases de datos pueden: cualquiera que esté escribiendo una nueva base de datos en este momento puede ignorar el disco giratorio, no pensar en absoluto. Pero Samsung, el principal fabricante de SSD, nos dice que los SSD están realmente en la curva de la ley de Moore.
Creo que ya eran unas tres o cuatro veces más rápidas que el disco giratorio, pero ahora se volverán mucho más rápidas cada 18 meses, básicamente. Doble en velocidad y 10 veces en velocidad hasta aproximadamente seis años. Sin embargo, si eso fuera todo, no lo es, como te diré en un momento. El disco giratorio, por supuesto, se está convirtiendo en un medio de archivo.
Sobre la memoria Lo primero es lo primero, RAM. La relación de CPU entre RAM por CPU solo aumenta todo el tiempo. Y eso, por supuesto, ofrece una velocidad muchísimo mayor, porque los acres de memoria que puede tener ahora pueden almacenar mucho más. Lo que esto realmente hace es que reduce la presión sobre las aplicaciones de tipo MLTP, o aplicaciones de lectura aleatoria, porque es más fácil de atender, porque ahora tiene mucha memoria y de esa manera, puede almacenar en caché todo lo que sea Es probable que se lea en la memoria. Pero tiene problemas con un montón de datos más grande, por lo que los datos grandes no son tan simples, de verdad.
Y luego tenemos Intel con 3D Xpoint, e IBM con lo que ellos llaman PCM, que es memoria de cambio de fase, están entregando algo que ellos creen que es, bueno, es al menos 10 veces más rápido que los SSD actuales, y creen que obtendrá muy cerca de ser la misma velocidad que la RAM. Y, por supuesto, es menos costoso. Entonces, anteriormente, tenía esta estructura de base de datos de CPU, memoria y disco, y ahora nos estamos moviendo hacia una estructura que tiene cuatro capas. Tiene CPU, memoria o RAM, y luego este tipo de memoria más rápida que SSD, que en realidad no es volátil, y luego SSD. Y estas nuevas tecnologías no son volátiles.
Y está el memristor de HP, que aún no está, ya sabes, porque se anunció hace unos siete años, pero aún no apareció. Pero los rumores que escucho son que HP también va a cambiar el juego un poco con un memristor, así que solo tienes una nueva situación de memoria. No es que tengamos cosas más rápidas, sino que tenemos una capa completamente nueva. Y luego tenemos el hecho de que el acceso SSD, puede leerlo en paralelo. No puede leer el disco giratorio en paralelo, excepto por tener muchos discos giratorios diferentes. Pero un bloque de SSD, en realidad puede leer en paralelo. Y debido a que puede leer eso en paralelo, va mucho más rápido que sus velocidades de lectura simples, si realmente configura múltiples procesos en los distintos procesos en una sola CPU, y solo tiene que hacerlo con el SSD.
Se estima que puede obtener casi velocidades de RAM haciendo eso. Y todo lo que esto dice es que el futuro de la arquitectura de memoria no está claro. Quiero decir, la realidad es que los diversos proveedores dominantes, sean quienes sean, probablemente determinarán la dirección del hardware. Pero nadie sabe a dónde va en este momento. He hablado con algunos ingenieros de bases de datos que dicen: "No tengo miedo de lo que está sucediendo", pero no saben cómo optimizarlo desde el principio. Y siempre lo hiciste, así que es interesante.
Y luego está la CPU. Bueno, las CPU multinúcleo no eran solo CPU multinúcleo. También tenemos volúmenes significativos de caché L1, L2 y L3, particularmente L3, que es, no sé, decenas de megabytes. Puedes poner mucho allí, ya sabes. Y, por lo tanto, puede usar el chip como medio de almacenamiento en caché. Entonces eso cambió el juego. Y ciertamente, el procesamiento de vectores y la compresión de datos, varios proveedores lo han hecho, arrastrando esas cosas a la CPU para que todo vaya mucho más rápido en la CPU. Luego se da el hecho de que, bueno, las CPU con GPU son realmente buenas para acelerar el análisis. Y son realmente bastante buenos en ciertos tipos de consultas, solo depende de cuál sea su consulta.
Puede crear placas con CPU y GPU, o como AMD está haciendo en este momento, produce algo llamado APU, que es una especie de matrimonio de una CPU y una GPU; Tiene ambos tipos de capacidad. Entonces ese es un tipo diferente de procesador. Y luego el reciente anuncio de Intel de que van a poner un FPGA en el chip, eso me hizo pensar. Estaba pensando: "¿Cómo va a suceder?" Porque si tienes el posibilidad de CPU, GPU, y tienes la posibilidad de CPU, FPGA, y por cierto, si realmente quieres, en la misma placa puedes poner una CPU, una GPU y un FPGA. No tengo idea de cómo ejecutarías algo de esa manera, pero sí sé de empresas que están haciendo cosas como esta, y están obteniendo respuestas de consulta muy, muy rápidas. Esto no es algo que se vaya a ignorar, es algo que será utilizado por los proveedores establecidos y por los nuevos proveedores que se aproximen, tal vez. Los DBMS siempre fueron paralelos, pero ahora las posibilidades paralelas acaban de explotar, porque esto le permite paralelizar esto con eso, con eso, con eso de varias maneras.
Finalmente, ¿aumentar o reducir la escala? Ampliar es realmente la mejor solución, pero para empezar. Obtendrá un rendimiento de nodo mucho mejor si puede optimizar absolutamente el rendimiento de la CPU y la memoria en el disco en un nodo. Y usará menos nodos, por lo que será más barato, ¿verdad? Y será más fácil de administrar. Desafortunadamente, es un diseño que depende del hardware y, a medida que el hardware cambia, cada vez es menos posible hacerlo, a menos que sus ingenieros puedan ejecutarlo tan rápido como el hardware está cambiando. Y tiene problemas de carga de trabajo, porque cuando está ampliando, está haciendo varias suposiciones sobre qué va a hacer la carga de trabajo.
Si escalas, es decir, si tu arquitectura enfatiza escalar antes de escalar, en realidad tienes que hacer ambas cosas, es solo que enfatizas una. Entonces obtendrá un mejor rendimiento de la red, porque la arquitectura se encargará de ello. Será más costoso en términos de hardware porque habrá más nodos, pero habrá menos problemas de carga de trabajo y habrá un diseño más flexible.
Y solo pensé en tirar eso, porque si realmente piensas en todos los cambios de hardware, solo señalé con el dedo, y luego pensaste, ¿cómo vas a escalar y escalar en esas cosas? Entonces te das cuenta de que los ingenieros de bases de datos, al menos en mi opinión, están bien mal pagados. Entonces, si solo contempla la capa de hardware, los desafíos de la base de datos son claros. Ahora le paso esto a Bert, que nos hará sentir educados a todos.
Eric Kavanagh: ¡ Eso es! Bert?
Bert Scalzo: Muchas gracias. Permítanme entrar directamente en estas diapositivas. Tengo que pasar muchas diapositivas, así que en algunas de ellas puedo ir bastante rápido. Vamos a hablar sobre este "impulso hacia adelante: avanzar más allá de lo tradicional". Ya no es la base de datos de tu padre. Las cosas han cambiado y, como dijo un orador anterior, en los últimos seis a siete años, el panorama ha cambiado radicalmente.
Yo mismo, he estado haciendo bases de datos desde mediados de los años 80. He escrito libros sobre Oracle, SQL Server, benchmarking y muchas otras cosas. “El mundo está cambiando muy rápido. Lo grande ya no será más pequeño. Será rápido vencer a lento ”. Agregué“ adaptar ”. Eso fue de Rupert Murdoch. Realmente creo que esto va a ser cierto. No podrás hacer cosas de la base de datos como lo hiciste hace 10, 15 o 20 años. Tendrás que hacerlo de la forma en que la empresa lo quiere ahora.
Voy a tratar de mantenerme un poco genérico en lo que estoy presentando, pero la mayoría de las características de las que estoy hablando las encontrará en Oracle, en SQL Server, MySQL, MariaDB y algunas de las otras grandes jugadores La revolución de la base de datos relacional, de nuevo estoy de acuerdo con los oradores anteriores. Si nos fijamos en 2010, pasamos del auto rojo al amarillo. Hubo un cambio significativo, y para 2020, creo que verán otro cambio radical. Estamos en un momento muy interesante.
Ahora, esta diapositiva es clave, por eso puse una llave allí. Está ocurriendo todo este cambio, y en el lado izquierdo tengo tecnología, y en el lado derecho tengo negocios. Y la pregunta es, ¿cuál está causando cuál y cuál está apoyando cuál? Tenemos todos estos cambios de hardware: discos que bajan, el tamaño del disco sube, nuevos tipos de discos, por lo que fue cubierto por los altavoces anteriores. El precio de la pérdida de memoria, todas estas versiones más nuevas de bases de datos. Pero en el lado derecho, tenemos protección y cumplimiento de datos, almacenamiento de datos, inteligencia empresarial, análisis, retención de datos obligatoria. Ambos lados de la ecuación están manejando, y ambos lados de la ecuación harán uso de todas estas nuevas características.
En primer lugar, tenemos nuestro disco giratorio SAS típico, ahora son de hasta 10 terabytes. Si no lo ha visto, Western Digital, HGST tiene lo que ellos llaman su unidad de helio, que ahora asciende a unos 10 terabytes. Los costos del disco giratorio se están volviendo bastante bajos. Como se mencionó anteriormente, puede obtener discos de estado sólido de hasta aproximadamente dos terabytes, pero Samsung tiene una unidad de 20 terabytes próximamente. Los costos se están volviendo razonables. Una cosa que voy a hablar sobre los demás no es el concepto de discos flash. PCIe, eso es PCI Express, en comparación con NVMe, es posible que haya escuchado o no de este expreso de memoria no volátil. Básicamente, NVMe será un reemplazo para SAS y SATA, y en realidad es más un protocolo de comunicación que cualquier otra cosa. Pero esos discos son de hasta tres terabytes ahora.
También puede haber visto que algunas unidades SAS ahora vienen con conectores U.2, que es una especie de conector diferente a un SAS o SATA, que admite NVMe con un disco estándar; el disco también debe admitirlo, por supuesto. Y luego SATA con conectores M.2, y esos están comenzando a obtener NVMe. De hecho, hay vendedores de computadoras portátiles que ahora venden computadoras portátiles que tienen un disco flash NVMe, y esas cosas gritarán en comparación con la tecnología que ha usado antes.
Mucha gente no sabe cuáles son todos estos destellos diferentes. Si miras en la esquina inferior derecha, ese es un ejemplo de un M.2. Puede decir: "Bueno, caramba, se parece mucho a la unidad mSATA a la izquierda de la misma". Pero como puede ver, tiene dos espacios en los pines en lugar de uno, y es un poco más grande. Y también, el M.2 puede venir en tres tamaños diferentes.
Y luego el flash PCI Express y el flash NVMe. Ahora, el flash NVMe también es PCI Express, pero el PCI Express sigue siendo un algoritmo de controlador de tipo SAS o SATA que se escribió para disco giratorio, y NVMe son los algoritmos o técnicas que se escribieron específicamente para flash. Y de nuevo, vas a ver todo esto.
NVMe ofrece bastantes cosas. Creo que las dos mejoras más importantes son, en la esquina superior derecha, la latencia se reduce hasta en un 70 por ciento. De hecho, he visto incluso más alto que eso. Además, si mira en la esquina inferior derecha, cuando su sistema operativo habla con el disco NVMe, atraviesa muchos menos niveles de software. Básicamente, se pasa por el controlador NVMe que se incluye ahora con el sistema operativo y se comunica directamente con los medios. Hay muchas razones por las que esta tecnología va a cambiar radicalmente el mundo de la base de datos.
Y muchas veces, la gente dice: "Bueno, ¿qué tan rápido es NVMe?". Ya sabes, en los viejos tiempos, en 2004 y antes, nos emocionaba si teníamos Ultra-320 SCSI, 300 megabytes por segundo. Velocidades de hoy, muchos de ustedes probablemente están en fibra o InfiniBand, y ese tipo de rendimiento. NVMe allá a la derecha, comienza donde terminan las tecnologías actuales. Lo que quiero decir es que PCI Express 3.0 con un enlace de ocho carriles comienza en casi 8000, y aumentará a medida que obtengamos versiones más nuevas de PCI Express, versiones cuatro, etc. NVMe no tiene a dónde ir, excepto arriba.
Ahora, ¿cuáles son algunas de las cosas que están cambiando en la base de datos? Ahora en las esquinas superiores derecha de mis diapositivas, pongo las razones comerciales que creo que la tecnología apareció. En este caso, debido al almacenamiento de datos y por razones regulatorias para la retención obligatoria de datos, las bases de datos están comenzando a ofrecer compresión en ellos. Ahora, algunas bases de datos ofrecen compresión como complemento, algunas lo ofrecen como integrado al estándar, digamos la edición empresarial de su base de datos, y aún algunas bases de datos, como en Oracle, podrían incluso tener una versión aún mejor de compresión que es en, digamos, su plataforma Exadata, por lo que en realidad han construido hardware que puede soportar una compresión muy especializada y la de Exadata, por ejemplo, obtiene una tasa de compresión de 40x, por lo que es muy importante. Y creo que es la retención de datos obligatoria, las personas solo quieren datos por más tiempo. Las empresas, para realizar análisis y BI, necesitan los últimos 5, 10, 15 años de datos.
Ahora, otra característica que comenzó a aparecer en ese período 2008-2009 fue la partición. Una vez más, encontrará esto en bases de datos como Oracle, SQL Server, y en las dos que tiene que pagar. En Oracle debe comprar la opción de particionamiento y en SQL Server debe estar en la edición del centro de datos. Es su técnica tradicional de divide y vencerás y lo que haces es tener el concepto de una gran mesa lógica en la parte superior allí y cuando se pone en el disco, en realidad se divide en cubos. Y puede ver que esos depósitos están organizados por algunos criterios para la separación, generalmente referenciados o llamados su función de partición, y de la misma manera, también puede subdividir en algunas plataformas de bases de datos y puede ir aún más lejos.
Nuevamente, creo que tanto el almacenamiento de datos como la retención obligatoria de datos han impulsado esto, y en algunas de estas bases de datos puede tener hasta 64, 000 particiones, y creo en algunas otras bases de datos, incluso hasta 64, 000 subparticiones. Esto le permite dividir sus datos en partes manejables. También dividirá los índices; es una opción, no tiene que hacerlo, pero también puede particionar sus índices. Una de las razones para hacer esto podría ser que tiene una ventana deslizante de datos. Desea conservar 10 años de datos, pero para eliminar los índices para ejecutar la carga por lotes de esta noche, no desea tener que eliminar los índices en cada fila, solo en las filas que se encuentran en el grupo actual. El particionamiento es en realidad una muy buena herramienta administrativa, aunque la mayoría de las personas piensan que su gran beneficio es eliminar la partición en sus planes y, por lo tanto, acelerar sus consultas. Eso es realmente una guinda del pastel.
Ahora probablemente escuchaste sobre fragmentos y probablemente pienses: "Bueno, ¿por qué pusiste esta diapositiva aquí?" Este es uno de esos NoSQL, este es uno de esos entornos tipo Hadoop. Oracle 12c lanzó dos, que aún no es G8, pero que se está mostrando o previsualizando en realidad tiene fragmentos. Tendrá un sistema de base de datos tradicional como Oracle y podrá fragmentar como lo hace en el modelo Hadoop, por lo que tendrá otra técnica de dividir y conquistar que dividirá su tabla en filas en agrupaciones por nodo y esto va a ser, al igual que lo que ves en algunas de tus bases de datos NoSQL. Y en realidad MySQL, puedes lograr esto usando una de sus técnicas de agrupamiento, pero está llegando a una base de datos tradicional y supongo que Microsoft no querrá quedarse atrás. Estos dos juegan a saltar la rana entre sí todo el tiempo, por lo que esperaría ver fragmentos en quizás la próxima versión de SQL Server.
Gestión del ciclo de vida de los datos, una vez más retención obligatoria de datos, pero también para inteligencia empresarial y análisis. Realmente, esta es una técnica de divide y vencerás, y normalmente los DBA lo hacen de forma manual, y es: "Voy a mantener los datos de este año en discos rápidos, los datos del año pasado en discos ligeramente más lentos, tal vez voy a para mantener los últimos dos años anteriores en discos aún más lentos, y luego tendré algún método de archivo ". Por lo general, ya no está grabado, por lo general, tienes algún tipo de almacenamiento conectado a la red o algún dispositivo que tiene mucho de almacenamiento y es, ya sabes, rentable pero todavía está girando disco.
Y ahora, en realidad, tanto en Oracle como en SQL Server, puede comprar una opción en la que defina las reglas y esto solo ocurre automáticamente en segundo plano. Ya no tienes que escribir guiones, no tienes que hacer nada. Y si ha visto SQL Server 2016, que acaba de salir el primero de junio, hay una nueva característica que se llama "Stretch Databases" que básicamente le permite hacer, en la esquina inferior derecha, puede moverse desde varias capas directamente a la nube y de nuevo, esta es una característica que está integrada en la base de datos, simplemente dice algo como: "Si los datos tienen más de 365 días de antigüedad, muévalos a la nube y, ya sabe, hágalo automáticamente para mí".
Esta será una característica realmente genial, de hecho, estoy pensando que puede ser lo que veremos en el futuro, es decir, tendrás bases de datos híbridas donde mantendrás algunas y algunos en la nube. Antes de esto, la gente pensaba: "Oh, o voy a hacer in situ o voy a hacerlo en la nube". Ahora estamos viendo el matrimonio de las dos tecnologías de esta manera híbrida. Creo que esto será bastante grande y Microsoft llegó primero.
Redacción, esto se debe a la protección de datos y el cumplimiento. Ahora, en los viejos tiempos, podríamos haber dicho: "Oye, desarrollador de aplicaciones, cuando muestra esto en el informe, cuando muestra esto en la pantalla aquí hay algunas cosas de seguridad que debe verificar y, por favor, ya sabe, solo muestre los datos se supone que deben ver o enmascarar o redactar los datos que no deben ver ". Bueno, como es habitual, cuando lo envías a la aplicación no se hace en un lugar, por lo que se hace de manera diferente o no No te hagas en algunos lugares. Entonces, ahora tienes esta capacidad en tus sistemas de bases de datos.
Ahora, en SQL Server 2016, esta característica está integrada, por lo que no es un elemento de costo opcional que aún no se haya agregado al centro de datos, creo; y en Oracle 12 tiene que comprar su complemento de administración del ciclo de vida, pero esto es algo nuevo y nuevamente está siendo impulsado por el negocio. Y especialmente porque ahora conserva tantos datos y realiza la extracción de datos, por lo que el BI y los análisis, debe saber quién está accediendo a qué datos y asegurarse de que solo se les permita ver qué Se les permite ver.
Del mismo modo, vuelva a mirar eso, protección de datos y cumplimiento. Descubrirá que muchos de los sistemas de bases de datos ahora están creando compresión, o lo siento, cifrado directamente en la base de datos y lo que es importante acerca de este cifrado, si mira la flecha hacia abajo y la flecha hacia arriba en el diagrama que lo escribe hasta el disco cifrado y luego lo vuelve a leer en la memoria y lo descifra. Ese es en realidad un modelo, hay otro modelo que, ya sabes, en realidad solo lo haría cuando comunica esos datos a través de la red a la aplicación cliente real.
En ese caso, incluso en el servidor de la base de datos en la memoria, podría cifrarse y descifrarse solo cuando se envíe a la aplicación cliente. Hay dos modelos diferentes aquí y los encontrará en las bases de datos, y de hecho una de las bases de datos que acaba de agregar esto recientemente fue MariaDB en su versión 10.X; Creo que ahora están en 10.1 o 10.2. Y en realidad hice algunas evaluaciones comparativas sobre este cifrado, y para obtener este cifrado, solo experimenté una disminución de aproximadamente el 8 por ciento en el rendimiento o la velocidad. En una prueba de evaluación comparativa, el cifrado no causó tanto, por lo que es una característica muy útil.
Ahora, hemos mencionado anteriormente sobre la memoria flash y los SSD y cosas así. Una de las características que tiene en Oracle y SQL Server que mucha gente no se da cuenta es que puede tomar un flash o SSD que está en su servidor de base de datos y puede decirle a la base de datos: "Use esto como si fuera memoria. Trate la RAM como preferencial, pero simule que esta es una memoria lenta y úsela como una memoria caché extendida ”. Ahora, en SQL Server 2014, esto salió y se llamó“ Buffer Pool Extension ”, es gratis. En Oracle, salió en 11g R2 y se llamaba "Database Flash Cache" y también era gratis allí.
Sin embargo, mi consejo es probar esta característica con cuidado. Cada vez que aumenta el caché cuando va a hacer una búsqueda, se tarda más. Si coloca una tarjeta flash de tres terabytes y le dice a la base de datos, "Agregue eso a su memoria", en realidad podría encontrar que algo se desaceleró debido al tiempo de mirar y ver si está en flash, ¿está sucio o ¿limpiar? Hay un punto de retorno decreciente. Mi consejo es volver a probar esto, ver qué funciona para usted, pero nuevamente, está en su base de datos y en el caso de Oracle, tanto en SQL Server como en Oracle, ha estado allí durante un par de años.
Y luego eso nos lleva al abuelo, que eran las bases de datos en memoria y eso es porque los precios de la base de datos han bajado. La otra razón por la que probablemente pensaría que esto ha ocurrido es que muchos de los análisis requieren que los datos sean accesibles rápidamente, por lo que deben estar en la memoria. Tenga en cuenta que los algoritmos que usan las bases de datos para acceder a estos datos, comprimirlos, encriptarlos, almacenarlos, saben que en algunos casos algunas bases de datos pueden continuar almacenando en la memoria como una fila.
En algunos casos, algunas bases de datos pueden dividir esto en una columna orientada y la razón por la que lo hacen es que obtienen un nivel de compresión mucho más alto, en algún lugar alrededor de 11 a 12X al almacenarlo en orden de columna versus orden de fila. Esto apareció por primera vez en SQL Server 2014, se llamaba "Hekaton". Se ha aumentado radicalmente en SQL Server 2016, lo verán referenciado por algunos nombres diferentes y salió en Oracle 12c; Digo el segundo lanzamiento aquí, no R2. Hubo dos versiones diferentes de Oracle 12c, la 12.1.0.1 y la 12.1.0.2. Es la segunda versión de la versión R1 de la base de datos.
Y la forma en que lo define, el objeto en memoria es similar en ambas bases de datos. Aquí puede ver en la esquina superior derecha, estoy creando un SQL Server y puede ver que dice con memoria optimizada y durabilidad siendo solo un esquema. No voy a repasar todos estos significados de sintaxis, y en Oracle en realidad es aún más simple, simplemente modifica una tabla y dice en memoria o no y puede cambiar eso. Puedo decir que hoy está en la memoria y mañana no lo está, por lo que es muy flexible.
Hice algunas pruebas en Oracle con tablas en memoria, tuve algunas pruebas que tardaron casi 40 minutos en ejecutarse, allí en la fila superior. Ahora, lo que es importante es que cuando llegué a las dos filas inferiores, había aumentado el tiempo de ejecución o disminuido, debería decir, a cinco minutos aproximadamente, y cuando miré el factor de compresión, los datos en la memoria eran en realidad 3.6 a 4.6 veces más pequeño. Eso es importante porque en este caso estaba usando el formato orientado a columnas y es la compresión. ¿Y adivina qué? En realidad, estaba guardando casi cuatro o cinco veces más datos en mi memoria. No solo estaba obteniendo la ventaja de la memoria interna, la ventaja de la columna orientada, sino también la ventaja de muchos más datos, hasta cinco veces más datos en la memoria caché, por lo que esta es una técnica bastante poderosa. Una vez más, Oracle y SQL Server, desea ver estos, son características realmente geniales. Y con eso, creo que lo abriré a preguntas.
Eric Kavanagh: Bueno, Bert, antes que nada, has sido muy desinteresado en toda esta maravillosa educación. ¿Podrían hablar por un minuto sobre lo que hacen? Porque tienes una tecnología habilitadora que puede facilitar lo que has estado hablando. Solo hablen por un minuto sobre lo que hacen y luego hagamos que Dez y Robin sigan en la ecuación aquí.
Bert Scalzo: Sí, trabajo para una compañía llamada IDERA. Estamos en Texas, tenemos nuestra sede en Houston, y estoy sentado en Austin en este momento, pero estoy en Dallas. Creamos herramientas de bases de datos y creamos herramientas de bases de datos para ayudarlo a resolver problemas. Ese problema podría ser algo tan simple como la productividad, en cuyo caso tenemos una herramienta llamada DBArtisan que le permite realizar las tareas administrativas de su base de datos y es una herramienta que le permite administrar 12 plataformas de bases de datos diferentes. Puedo administrar SQL Server, puedo administrar Oracle, puedo administrar MySQL, DB2, Postgres, y estoy usando una herramienta, un ejecutable, un diseño de GUI y un conjunto consistente de flujos de trabajo. También creamos herramientas para cumplir, tenemos una herramienta llamada SQL Compliance Manager para ayudarlo a satisfacer sus necesidades de cumplimiento. Otra herramienta llamada Seguridad de SQL, por lo que tratamos de hacer que las herramientas que lo ayuden sean efectivas y eficientes, y lo que es realmente bueno si visita nuestro sitio web, tenemos un montón de programas gratuitos, así que, si nada más, vaya a descargar - Creo que tenemos como 20 o 25 freewares. Hay algunas cosas realmente buenas de software gratuito como un servidor SQL y una comprobación de ayuda de Windows que básicamente verán lo que tienes y te dirán si tienes problemas o cosas y es totalmente gratis.
Eric Kavanagh: Y realmente eres un poco …
Bert Scalzo: Definitivamente lo primero.
Eric Kavanagh: Estás hablando de la heterogeneidad en el mercado hoy, solía haber una especie de ecuación única que, de hecho, recuerdo haber entrevistado al Dr. Michael Stonebraker en 2005, cuando continuó. un gran impulso hablando del veredicto sobre el movimiento de la base de datos orientado a columnas y él estaba hablando sobre cómo el modelo relacional de talla única dominó durante muchos años, y estaba prediciendo que todo cambiaría, y tenía razón. ese. Ahora tenemos este entorno realmente diverso e interesante con muchas opciones y oportunidades diferentes, pero usted necesita a alguien para manejar todo eso y me parece que su empresa está enfocada de manera bastante aguda en resolver problemas matemáticos, por lo tanto, es un facilitador de encabezado de heterogeneidad, ¿verdad?
Bert Scalzo: Absolutamente. Quiero decir que siempre habrá DBA que digan: "No quiero usar una herramienta GUI, hago todo con scripts", ¿sabes? Piensan que son el tipo de DBA de superhombre y eso está bien, pero para la mayoría de nosotros, la gente, solo queremos hacer el trabajo y, ya sabes, uso Microsoft Word para escribir mis documentos. Yo uso Microsoft Outlook para hacer mi correo electrónico. Quiero decir, tengo herramientas para hacer tareas. Estamos construyendo el mismo tipo de concepto, estamos creando herramientas para que los administradores y desarrolladores de bases de datos les ayuden a centrarse en lo que quieren hacer y no en cómo deben hacerlo.
Eric Kavanagh: Eso tiene sentido, pero permítanme entregarles a nuestros expertos, y la gente no dude en sumergirse. Recibimos un par de comentarios de la audiencia. ¿Quizás, Dez, un par de preguntas y Robin un par de preguntas?
Dez Blanchfield: Claro. Una de las primeras preguntas que quiero hacerte, dada la enorme experiencia que tienes, ¿ves algún momento en el tiempo cuando algo de esto vaya a disminuir? ¿O crees que estamos realmente en el punto de entrada de esta línea de cambio de crecimiento continuo? Creo que uno de los mayores problemas a los que se enfrentan las empresas, y luego, invariablemente, las personas que intentan respaldar la tecnología que proporcionan esas empresas para administrar sus negocios, es que la tasa de cambio es tan dramática que simplemente no pueden mantenerse al día con todo las diferentes características, software, sistemas, marcos y arquitecturas, y el nuevo código que viene, y luego el hardware debajo de eso, ¿ve que la tasa actual de cambio se desacelera de inmediato? Quiero decir, si manejas una gama tan amplia de plataformas con toda la suite IDERA, ¿vamos a reducir la velocidad pronto o estamos en este loco tren de carga desbocado por mucho tiempo?
Bert Scalzo: Creo que estamos en el primer 20 por ciento de esa curva de crecimiento y tenemos un largo camino por recorrer y hay dos cosas que lo impulsan. La tecnología sigue evolucionando. Usted ha mencionado algunos de los nuevos tipos de memoria que saldrán, será fantástico. Samsung va a tener una unidad flash de 20 terabytes aquí muy pronto. Eso va a cambiar las cosas. Tenemos todas estas bases de datos NoSQL y en la nube, esto simplemente continuará. Sin embargo, lo único divertido es que cuando miro bases de datos como Oracle y SQL Server y algunas de las otras, ya no son bases de datos relacionales. Puedo poner datos no estructurados en Oracle y, sin embargo, mantener el cumplimiento de ACID. Si me hubieras dicho eso hace 20 años, te habría dicho que estabas drogado.
Dez Blanchfield: Sí, sí, son geniales. Bueno, incluso ahora aquellos motores que tienen verticales bastante agradables como GIS, simplemente mejor que la capacidad nativa ahora. Hiciste algunos comentarios excelentes sobre los desafíos que enfrentan los DBA y los diferentes momentos de los DBA que esperamos ver en todo el lugar, pero ¿cómo es el mundo con el tipo de esa capa del negocio con el que estás tratando? Quiero decir, estas son las personas que usan las diferentes plataformas desde su administrador de diagnóstico, hasta las herramientas de inventario, y hasta el siguiente paso hasta la desfragmentación, ¿cómo están lidiando los DBA con este cambio y cómo lo hacen?, ¿qué están haciendo con sus herramientas para lidiar con este cambio significativo en su panorama?
Bert Scalzo: Bueno, volveré hace casi 20 años, luego diré que los DBA resuelven un papel muy específico en una organización. Por lo general, trabajan con una plataforma de base de datos, tal vez dos, y administraron un número relativamente pequeño de bases de datos. Ahora avanzando rápidamente hasta hoy y el administrador de la base de datos, en realidad va a conocer 10 plataformas de bases de datos. Está administrando, y esto no es broma, en algunos casos miles de bases de datos; eso es más sobre el mundo de SQL Server o el mundo de MySQL. Pero aún en el mundo de Oracle podrían estar administrando cientos de bases de datos. Y, entonces, tienen todas estas nuevas características que salen, tienen todas estas nuevas plataformas, y tienen todas estas bases de datos de las que son responsables. Están buscando herramientas para permitir su productividad y también para ayudarles a aprender algunas cosas.
Y le daré un ejemplo: si quiero particionar una tabla, es una sintaxis bastante oscura, y si quiero subdividirla, la sintaxis se vuelve aún más difícil. Sé lo que quiero hacer, quiero crear cubos. Si tengo una herramienta como DBArtisan que dice: "Oye, aquí hay una buena pantalla que te permite concentrarte en lo que estás tratando de hacer en lugar de en cómo estás tratando de hacerlo, y, por cierto, presiona el botón Mostrar el botón SQL cuando haya terminado y le mostraremos cuál era el SQL para que pueda comenzar a aprender realmente y dominar esto ".
Los DBA están descubriendo que las herramientas que los ayudan a hacer el trabajo, pero también les ayudan a enseñarles todas estas cosas nuevas que están utilizando y lo mismo sería cierto: digamos que soy un chico de Oracle y voy a MySQL y digo: “Está bien, crea una base de datos, DBArtisan. Ahora muéstrame el SQL porque me pregunto cómo es crear una base de datos en MySQL y acabo de aprender a la sintaxis ”. Por lo tanto, no solo los estamos ayudando a trabajar en la base de datos, sino que también los estamos educando en la base de datos.
Dez Blanchfield: Se vuelve aún más interesante cuando se llega a algunos de los más modernos, o no más modernos, eso no es justo, pero una vez una base de datos es una base de datos. En estos días, veo todo lo que está hablando allí con el desafío adicional que la tecnología acumula que tradicionalmente vemos de los proveedores y que es una especie de código abierto y también que son buenos. No solo se ocupa de los motores de bases de datos y los lenguajes de consulta, sino que también se ocupan de los tipos de datos, estructurados y no estructurados, ya sabes, el desafío de tener que lidiar con todo, desde el extremo más alejado del espectro de un HDFS de múltiples petabytes entorno a pequeños contenedores pequeños, y paquetes de archivos y varios formatos de archivo de registro.
Y creo que eso es algo que ahora estamos viendo donde simplemente no hay un ser humano, sin importar qué tan superman, supermujer, sea lo que sea que piensen que son, físicamente, simplemente no pueden lidiar mentalmente con esa tasa de cambio y La escala de variaciones. Creo que el conjunto de herramientas que está ofreciendo ahora llegará a un punto en el que casi estarán en un conjunto predeterminado de muchas maneras para que no podamos ejecutar los entornos de base de datos que obtuvimos sin ellos porque solo físicamente No puedo arrojar tantos cuerpos sobre ellos. Realmente disfruté tu presentación. Voy a pasarle al Dr. Robin Bloor, estoy seguro de que también tiene muchas preguntas para ti.
Robin Bloor: De acuerdo. Bueno, ciertamente tengo preguntas. Bert, no sé a dónde vas: tuve una conversación realmente interesante hace un par de días en la que alguien comenzó a contarme sobre la última protección de datos de DU, y me pareció por lo que decían que era increíblemente draconiano en términos de cosas en las que insistieron. Me preguntaba si realmente habías mirado eso; ¿Es algo con lo que estás familiarizado?
Bert Scalzo: Absolutamente. Si.
Robin Bloor: 2016, está bien, cuéntanoslo.
Bert Scalzo: Y en realidad …
Robin Bloor: Profundamente interesante.
Bert Scalzo: De hecho, trabajé durante un tiempo para un proveedor de flash, en su área de base de datos ayudándoles a construir productos flash para bases de datos, y puedo decirles que el draconiano se desploma. Lo que quiero decir es que, si recuerdas mi única diapositiva, dije en algunas bases de datos que hará el cifrado, pero lo pone en la memoria del servidor y en algunas bases de datos, el cifrado: todavía está cifrado en la memoria del servidor, solo se descifra cuando Se envía al cliente. Bueno, también encontrará algunos de estos estándares gubernamentales, especialmente el Departamento de Defensa o militar aquí en los EE. UU., También llegan hasta el nivel de destello y quieren saber no solo que admite el cifrado y descifrado en su hardware, pero que si alguien robó los chips que, ya sabes, los sacó de la cosa, de su servidor, que lo que hay allí está encriptado y, a pesar de que tienen el almacenamiento, no puede ser y lo harían todo el camino hasta lo real, no a la parte flash sino a los chips individuales. Querían saber que chip por chip, todo estaba encriptado.
Robin Bloor: Wow. Quiero decir que hay muchas cosas que, ya sabes, creo que solo trajiste una o dos diapositivas sobre esto, pero fue algo, un escenario que creo que es realmente interesante. La redacción de la información, por ejemplo, tiene que ser un poco más inteligente que simplemente enmascarar varios campos porque, especialmente con el aprendizaje automático hoy en día, puede hacer cosas deductivas que le permiten sacar a la superficie información que antes no podía sacar a la superficie.
Si está tratando de proteger, digamos información de salud, entonces esa es una regla muy, muy draconiana en los Estados Unidos con respecto a la información de salud, pero en realidad puede, utilizando varias técnicas de aprendizaje automático, a menudo puede averiguar quién es la información médica de alguien en realidad es. Me preguntaba si tienes algo que decir sobre eso porque todos piensan que es un área interesante.
Bert Scalzo: Sí, absolutamente, y solo estoy usando esto como ejemplo, no estoy tratando de decir que una base de datos es mejor que otra, pero este es un muy buen ejemplo de lo que acaba de preguntar. En Oracle, si no se me permite ver una fila de datos, por ejemplo, como tampoco se me permite ver el historial médico de John Smith. En Oracle, si digo: "Seleccione ese registro", se me bloqueará o se me permitirá ver lo que se me permite ver y se eliminará. Y si digo: "Seleccione la estrella de la cuenta de la tabla donde es igual a John Smith", obtendré cero.
En SQL Server, puede hacer la redacción pero tiene algunos agujeros. Si digo: "Seleccione la estrella de la cuenta de la tabla donde es igual a John Smith", en realidad obtendré uno, así que sé que hay un John Smith. Uno es más seguro que el otro. Ahora espero que arreglen eso, siempre juegan a saltar la rana entre ellos. Y de nuevo, no estoy tratando de diferenciar entre las bases de datos que no sea mostrar un ejemplo de: miren de lo que estamos hablando ahora, algo tan simple como seleccionar cuenta también debe ser cortado por la redacción, aunque técnicamente hablando, no se está redactando nada más que la existencia de la fila.
Robin Bloor: Sí, claro. Eso es un poco interesante. Quiero decir, otra pregunta general porque no tengo mucho tiempo, se trata realmente de las mejoras. Quiero decir que has estado en uno en el que sé que nos has estado mostrando ejemplos de varios resultados de pruebas que has ejecutado: ¿crees que las bases de datos tradicionales, llamémoslas bases de datos dominantes, SQL Server y Oracle? ¿Crees que se van a adelantar a la finalización? ¿O crees que en realidad se verán atrapados por uno u otro de varios tipos de interrupciones en el mercado que realmente corren por ellos? ¿Cual es tu opinion?
Bert Scalzo: Tengo una opinión y es, ya sabes, nuevamente voy a decir que es mi opinión, Microsoft, por ejemplo, en la era posterior a Ballmer me está impresionando muchísimo. Me refiero a esta base de datos elástica obteniendo SQL Server en Linux, obteniendo .NET en Linux, obteniendo PowerShell en Linux; No creo que los proveedores de bases de datos tradicionales se queden atrás. Creo que han decidido: “Oye, deja que los nuevos chicos, las startups definan algo. Permítales descubrir qué es el fragmentación y cómo debe perfeccionarse, y una vez que hayan realizado toda la investigación y desarrollo, sabemos exactamente lo que los usuarios quieren, ahora agreguemos fragmentación a Oracle ". Creo que se están volviendo inteligentes y diciendo: "Oye, ser el segundo o el tercero no es malo cuando eres el jugador dominante porque la gente no migrará fuera de ti".
Robin Bloor: Sí, quiero decir que es una estrategia que se ha utilizado. Quiero decir, IBM solía hacer eso y la totalidad de la gama de productos, y se califica razonablemente bien hasta que a alguien se le ocurre algo completamente fuera de lo común que nadie ha pensado nunca, pero no puede planificar contra eso de todos modos.
¿Preguntas de la audiencia, Eric?
Eric Kavanagh: Sí, pero tienes tiempo, creo que solo para uno y sé que Bert tiene que correr. Aquí había algo sobre, bueno, la arquitectura de fragmentación en Oracle 12c es una indicación de, o ¿qué es eso en tu opinión, qué crees que está sucediendo allí?
Bert Scalzo: Bueno, Oracle está absorbiendo y / y ofreciendo todo lo que son todos los demás proveedores de bases de datos. Por ejemplo, puedo poner datos no estructurados en Oracle. No sé cómo puede poner datos no estructurados y luego llamarlo una base de datos relacional, por lo que no tiene ningún sentido, pero puede hacerlo. Y ahora Oracle está agregando fragmentos, por lo que Oracle dice: “¿Sabes qué? Lo que el mercado quiera, haremos nuestra oferta de base de datos porque el mercado quiere lo que quiere el mercado y queremos ofrecer la solución, queremos que se queden con nosotros ”.
Creo que vas a ver artículos adicionales. No me sorprendería ver la agrupación de nodos de base de datos similar a Hadoop, no en un rack de Oracle o en un clúster de aplicaciones reales, sino básicamente en una agrupación de tipo Hadoop tradicional que hace ese fragmentación. Entonces, creo que podrá implementar una base de datos como Oracle como lo haría con un Hadoop, y este tipo de tendencias continuará. Estos grandes proveedores de bases de datos ganan miles de millones de dólares y no quieren perder su mercado, por lo que están dispuestos a adaptarse o adoptar cualquier cosa.
Eric Kavanagh: Bueno, ya sabes, es gracioso porque he seguido a los vendedores de código abierto durante bastante tiempo y me he preguntado todo eso mientras tendrá un gran impacto en la tecnología tradicional de puertas cerradas, y durante un tiempo seguro sentí que los vendedores de código abierto estaban haciendo progresos serios, y ahora, cuando miro el mercado, veo algo de lo que estás diciendo, que los tipos grandes han hecho sus cálculos, han afilado sus lápices y descubrieron cómo pueden tejer muchas de esas cosas en sus arquitecturas. Ya sea IBM, Oracle o SAP, el mes pasado estuve en la Conferencia SapphireNow y Steve Lucas, que dirige la mitad de esa compañía, se jactó de que SAP ahora incorpora en su plataforma en la nube HANA, más componentes de código abierto que cualquiera de sus competidores. Si haces los cálculos con eso, es una declaración bastante impresionante y me dice que los grandes no irán a ningún lado pronto.
Bert Scalzo: No, apostaría mi dinero en ambos. Quiero decir, si miras, las acciones de Microsoft recientemente estaban en alrededor de $ 50 y, ya sabes, hace unos años eran en 25. No duplicas el precio de tus acciones en un período corto a menos que estés haciendo cosas buenas y, tú Sabe, desde hacer todo lo posible desde que Windows 10 es gratis durante el primer año hasta todas las otras cosas inteligentes que están haciendo, esta característica de base de datos elástica creo que es fenomenal. Creo que lo que va a pasar es que mucha gente va a terminar en Azure, no directamente, no como dijeron: "Migremos mi base de datos a Azure". Va a migrar allí mágicamente porque se archivará allá usando esta nueva función de base de datos elástica, por lo que la adopción de Azure se disparará.
Eric Kavanagh: Bueno, esa es una de las tendencias en el mercado que incluso yo puedo ver, incluso en tu Mac. A medida que avanza en su Mac para guardar algunos documentos, ahora lo hacen, y los Mac más nuevos simplemente siguen la nube, ¿verdad? Quiero decir, hay mucho sentido en esa estrategia y también la miro y digo: "Está bien chicos, están tratando de atraerme pieza por pieza a su entorno de nube, y luego algún día cuando quiera ver alguna película si mi tarjeta de crédito ha caducado, voy a estar en problemas ".
Bert Scalzo: Sí, pero lo haces en Facebook.
Eric Kavanagh: Sí. Es verdad.
Bert Scalzo: Pones todo en Facebook.
Eric Kavanagh: Bueno, no todo.
Bert Scalzo: No, quiero decir …
Eric Kavanagh: Sí, adelante.
Bert Scalzo: Estas tendencias sociales están llegando a las empresas. Ahora las empresas todavía tienen muchas otras cosas que tienen que hacer, pero están viendo estas tendencias y están haciendo el mismo tipo de cosas. No veo que Oracle o Microsoft desaparezcan. De hecho, voy a comprar acciones de ambos cada vez que haya una caída.
Eric Kavanagh: Sí, de hecho. Bueno amigos, visiten idera.com, IDERA dot com. Como dijo Bert, tienen un montón de cosas gratis allí y es una de las nuevas tendencias en el mercado: darte algunas cosas gratis para jugar, engancharte y luego ir a comprar las cosas reales.
Amigos, esta ha sido otra tecnología de moda. Gracias por su tiempo hoy, Bert, Dez, por supuesto, y Robin también. Hablaremos con ustedes la próxima semana, amigos, hay muchas cosas pasando. Si tiene alguna idea, no dude en enviar la suya por correo electrónico. Hablaremos con ustedes la próxima vez amigos, cuídense. Adiós.