Por Paloma Rojo Crespo en Data Warehouse Slider

En esta nota discutiremos cómo los almacenes de datos empresariales tradicionales tienen la mala reputación de ser lentos en su implementación, costosos de mantener y de no responden a las cambiantes demandas comerciales.

Recientemente hemos visualizado un cambio rotundo en cuanto al almacenamiento de datos basado en la nube. Existe un aumento en la adopción de nuevas soluciones de esta tecnología que tienden a ser más ágiles, rentables y flexibles que las soluciones tradicionales, lo cual resulta propicio para iniciativas de análisis que ayudan a impulsar a las empresas.

Compartimos algunas preguntas y respuestas interesantes para despejar dudas y continuar potenciando nuestros conocimientos en base a esta temática tan importante para los negocios actuales.

¿Cuál es la mejor compañía para proporcionar SaaS para Data Warehouse en la nube?

Existen varios grandes almacenes de datos en la nube en el mercado y la plataforma de integración de datos de Qlik admite Amazon Redshift, Azure SQL Data Warehouse, Google BigQuery y Snowflake por igual. Este artículo de Datamation enumera los criterios que la organización debe tener en cuenta al momento de elegir un servicio de almacenamiento de datos en la nube.

Dado que las bases de datos en la nube son de columnas (Redshift, Snowflake, etc.) ¿Es necesario un esquema de estrella?

Existen tres conceptos con el almacenamiento de datos:

  • El modelo de data mart (esquema en estrella)
  • La carga de trabajo o las características de la consulta (por ejemplo, OLTP frente a OLAP)
  • La organización de datos físicos (columnar) en el disco.

El modelo de datos (esquema en estrella) generalmente produce un mercado de datos (subconjunto de datos del almacén de datos) que está optimizado para generar informes y generalmente no tiene relación con el almacenamiento organizado por columnas.

¿Es positivo o negativo contar con un esquema de estrella en la nube desde la perspectiva de costo y rendimiento?

Generalmente, los almacenes de datos en la nube cobran por el almacenamiento y el procesamiento informático de las consultas. Con un esquema en estrella, aumentamos el almacenamiento pero reducimos el tiempo para el cálculo basado en consultas

El almacenamiento suele ser más barato que el cómputo, por lo que definitivamente existe una compensación

Además, cada empresa posee diferentes requisitos de almacenamiento de datos y frecuencias de consulta que varían de empresa a empresa e incluso de departamento a departamento. Por lo tanto, es extremadamente difícil estimar si un esquema de estrella tiene un efecto negativo en el costo

Sin embargo, podemos estar seguros de que el almacenamiento de datos en la nube es un orden de magnitud más rentable que las opciones tradicionales, independientemente del patrón de diseño.

¿Cuál es el caso de uso para tener DW en la nube en 10s de petabytes en lugar de aprovechar los data lakes?

Los lagos de datos y los almacenes se usan ampliamente para almacenar datos, pero no son términos intercambiables

Un lago de datos es un conjunto de datos no estructurados sin procesar cuyo propósito puede no conocerse en el momento de la ingesta. Un almacén de datos es un depósito de datos estructurados donde el propósito es generalmente conocido en el momento del almacenamiento. En consecuencia, los lagos de datos usan el patrón «esquema en lectura» y el almacén de datos generalmente usa «esquema en escritura».

La tecnología de almacenamiento del lago de datos generalmente se basa en archivos, y la tecnología de almacenamiento de datos generalmente se basa en la teoría de bases de datos. Por lo tanto, los primeros a menudo se usan en industrias donde existe el requisito de almacenar muchos datos no estructurados (por ejemplo, en la atención médica hay notas del médico, datos clínicos, imágenes médicas, etc.) pero se desconoce la carga de consultas. 

Por su parte, los casos de uso del almacén de datos se centran en proporcionar informes y análisis de alto nivel que conducen a decisiones comerciales más informadas.

En muchos casos, las empresas usan AMBOS

¿Existen nuevas tendencia en el anonimato de datos?

Hay algunas áreas donde el anonimato de datos se usa cada vez más, sobretodo en entornos de desarrollo, prueba, control de calidad y tráfico web

Además, actualmente se aplica a los datos de PII para ciertos casos de uso de ciencia de datos cuando se requiere correlación.

Conclusión

La nube definitivamente ha traído nueva vida e interés al dominio de Data Warehousing. Sin embargo, si realmente queremos obtener sus beneficios, la flexibilidad ilimitada y la escalabilidad deben combinarse con lo aprendido de décadas pasadas en cuanto a implementaciones de almacenamiento de datos. 

¿Tu empresa necesita potenciar esta área? En Data IQ contamos con soluciones Qlik de última generación para que puedas lograrlo. ¡Contactanos!

Hablemos

¿Interesado en
potenciar tu negocio?

Aprovechá el máximo potencial de tus datos para mejorar los procesos de negocio.

¡Trabajemos juntos!