Data warehouses that don't compromise™

 

   
 
 Value-Based Storage
 
   
 
Incremental Queries  
 
 Associative Queries  
 
 Data mining comparado  










Inicio Tecnología Value-Based Storage

Value-based storage (VBS) ofrece rápidas consultas ad hoc

La característica fundamental de la base de datos correlacional de illuminate (CDBMS) es su exclusiva estructura de almacenamiento value-based storage (VBS). A diferencia de las estructuras de almacenamiento de datos en columnas o en registros, en el modelo VBS cada registro se desglosa durante la carga para crear un valor exclusivo, que se almacena una sola vez. La base de datos, sumamente rápida y compacta, crea automática e instantáneamente su propio data-generated schema durante el proceso de carga, lo que indexa cada correlación y proporciona contexto a los valores de datos para el análisis y la elaboración de informes.

Gracias al enfoque VBS, un CDBMS se estructura de manera óptima para un excepcional rendimiento de consultas ad hoc.

Cómo funciona VBS

La estructura de VBS en el motor de base de datos de iLuminate consta de tres conjuntos de objetos físicos que se almacenan y administran:

  • un diccionario de datos (metadatos);
  • un archivo de datos de enlace e indexación (metadatos adicionales), y
  • los valores de datos propiamente dichos que constituyen la información almacenada.

A diferencia de las estructuras a base de registros (que almacenan datos en tablas, similar en concepto a un archivo de Excel) o de las estructuras a base de columnas (que almacenan datos en columnas y permiten la compresión al eliminar automáticamente valores consecutivos nulos y duplicados), la arquitectura de VBS almacena cada valor exclusivo una sola vez. En el caso del enfoque de estructuras en columnas, la información de enlace y de indexación se almacena por separado.

En la estructura de VBS, los valores exclusivos se almacenan juntos en value pool según su tipo: todos los números enteros en un grupo, los caracteres en otro, etc. No es necesario construir ordenamientos complejos ni conjuntos de enlace en el almacenamiento de datos como en los sistemas en columnas.

Además de los valores de datos típicos, el almacenamiento de valores de datos contiene un tipo especial de datos para almacenar correlaciones entre tablas. Esto funciona de modo parecido a los códigos externos en un RDBMS (Sistema de Administración de Bases de Datos Relacionales); sin embargo, con un CDBMS, la correlación es reconocida por el diccionario y se almacena como un valor de dato, Esto permite que la navegación entre tablas lógicas sea completamente automática y ofrece consultas ad hoc sumamente rápidas.

El diccionario de datos contiene metadatos típicos, además de datos estadísticos adicionales sobre tablas, columnas y presencias de valores en el esquema lógico. El almacenamiento de enlaces e índices contiene toda la información necesaria para reorganizar en columnas, registros y tablas los valores exclusivos almacenados. El almacenamiento de enlaces, diccionario e índice en un CDBMS conservan el enlace entre los registros originales, independientemente de cualquier cambio en los valores de datos.

Con la estructura de VBS, que se utiliza en un sistema de administración de base de datos (DBMS) correlacional, no es necesario tomar decisiones con respecto al diseño y los requisitos comerciales en constante desarrollo nunca exigen cambios en la estructura física. Todos los valores se almacenan siempre en value pools y no es necesario reorganizarlos. Además, como la búsqueda se realiza en un solo lugar cuando se seleccionan los registros, todas las búsquedas se aceleran gracias a la indexación.

Por qué VBS es ideal para data warehouses y data marts

La base de datos correlacional con VBS es una plataforma de data warehouse sumamente novedosa que ofrece rendimiento rápido sin comprometer el diseño. El tiempo de respuesta en un CDBMS es constante, independientemente de la complejidad (ya que no hay que recargar un optimizador de consultas) o del tamaño de la base de datos. Como su data-generated schema incluye todas las correlaciones posibles, no es necesario reestructurar la base de datos para incorporar nuevos tipos de consultas; además, se pueden agregar nuevos datos sin tener que recurrir al rediseño.

Funciones exclusivas de consulta ad hoc

VBS ofrece la flexibilidad de diseñar y ejecutar consultas cuya configuración en SQL resultaría muy difícil e incluso imposible. A diferencia de RDBMS (ya sean dispositivos de data warehouse o software únicamente) y de las bases de datos en columnas, un CDBMS permite realizar dos tipos de consultas exclusivas. Una associative query (búsqueda de un valor sin calificar) es una consulta simple y rápida que no se puede hacer con otras estructuras.

Otro tipo de consulta que se puede hacer con esta estructura es la incremental query, una serie de búsquedas cada vez más minuciosa donde cada nueva consulta ad hoc depura los resultados y se basa en las respuestas de consultas anteriores. Estas consultas son completamente flexibles y permiten realizar un análisis profundo en todas las direcciones.

Basta de "Queries from Hell"

VBS elimina las consultas extremadamente extensas conocidas como "query from hell" que pueden afectar los data warehouses RDBMS. Estas consultas generan búsquedas completas y consumen todos los recursos disponibles, impidiendo de este modo el acceso a otros usuarios hasta que se complete el proceso. VBS le quita un gran peso de encima al administrador de base de datos, quien, en última instancia, es responsable del rendimiento de la consulta. Por lo tanto, inclusive usuarios relativamente inexpertos pueden crear sus propias consultas sin perjudicar a otros usuarios.

Ventajas de VBS con respecto a las bases de datos en columnas y en registros

Si bien las bases de datos relacionales en registros son hasta el momento la opción más común en implementaciones de data warehouse, su estructura dista de ser la ideal. Los sistemas de data warehouse relacionales a base de registros son difíciles de diseñar, son sumamente ineficientes en cuanto a la utilización del espacio del disco y a la I/O, implican un mantenimiento complejo y exigen que los diseñadores tengan que lograr un equilibrio entre la optimización del rendimiento de la consulta y la maximización de la flexibilidad de la misma.

Los dispositivos de data warehouse se elaboraron para contrarrestar estas desventajas. Estos dispositivos son bases de datos relacionales (RDBMS) incorporadas en el hardware configurado de manera personalizada. Presentan las mismas ventajas y desventajas que RDBMS, con la diferencia de que el paquete de hardware/software está optimizado para ofrecer consultas más rápidas a un precio total más bajo. Los dispositivos de data warehouse aún necesitan mucho de la planificación, diseño y administración propios de las bases de datos relacionales a base de registros; además, la flexibilidad de la consulta todavía se ve limitada por el acceso de datos en SQL.

Las bases de datos en columnas también exigen una definición de requisitos para usuarios directos y el diseño físico y lógico de la base de datos, como los data warehouses RDBMS. También resulta difícil lograr un equilibrio entre la optimización para inserción de nuevos registros y la selección y recuperación de datos. Sin embargo, utilizan menos espacio del disco y son más eficientes ante las demandas de I/O (entrada/salida) si se comparan con data warehouses RDBMS.

VBS supera las limitaciones de ambas alternativas, brindando óptimos resultados en cuanto a flexibilidad y rendimiento de consultas, sin comprometer rendimiento/flexibilidad. Con VBS, una base de datos correlacional es, en sí misma, compacta y eficiente; además se pueden agregar nuevos datos en cualquier momento, sin reestructuración. La siguiente tabla sintetiza las diferencias entre estos tres enfoques sobre almacenamiento de datos.