¿Cuál es la diferencia entre un arquitecto de datos, un desarrollador de bases de datos, un ingeniero de datos y un desarrollador de ETL?


Respuesta 1:

Todas son designaciones y roles definidos por Organización Individual y de manera tradicional. Permítanme responder el rol tradicional y la responsabilidad de estos roles y lo que está sucediendo ahora:

Desarrollador ETL: quien escribe el mapeo y la transformación de datos, el flujo de trabajo y el flujo de procesos de un trabajo ETL que comenzó principalmente en la herramienta como Informatica, PL / SQL, Datastage, ODI, Ab Initio

Desarrollador de bases de datos: quién escribe los procedimientos almacenados, los procedimientos almacenados, los desencadenadores de SQL, PL / SQL para realizar un trabajo específico dentro de las secuencias de comandos Shell y de la base de datos y ejecutar trabajos de Programador o CRON

Arquitecto de datos: quien diseña el modelo de datos, la arquitectura, la estrategia de gestión de datos para una organización; normalmente para cualquier herramienta de gestión de datos en toda la industria

El término actual es el ingeniero de datos, que es experto en adquisición de datos de varias fuentes (estructuradas o no estructuradas), varios tipos de formato de datos, volúmenes y velocidad, y almacena los datos en la plataforma Big Data Platform / Data Lake (plataforma relacional o Hadoop). o de cualquier otra manera), realice la integración de datos utilizando ETL / fuentes abiertas, garantice la calidad de los datos y la programación de la gestión y el intercambio de datos en tiempo real. Esto representa el 60–70% del esfuerzo en una plataforma analítica organizacional.

Espero que esto se aclare


Respuesta 2:

El arquitecto de datos diseña el flujo de extremo a extremo de los mensajes desde el origen hasta el destino. Qué protocolo usar, qué características de seguridad considerar, todos los NFR como alta disponibilidad, DR, etc. - decide el arquitecto.

El desarrollador de bases de datos se ocupa de crear la base de datos, tablas, esquemas, etc. junto con restricciones de acceso, mantenimiento, etc.

El ingeniero de datos administra el flujo de datos desde el origen hasta el destino, cuando los datos son grandes. toman la ayuda de funcionalidades informáticas distribuidas (por ejemplo, chispa en hadoop) para manejar la entrada de grandes datos junto con la limpieza, transformación y almacenamiento en hdfs, bases de datos.

Los desarrolladores de ETL usan herramientas estándar sofisticadas de la industria (en su mayoría vienen con un alto costo de licencia) como abinitio, datastage para extraer datos de la fuente-> transformar los datos a la estructura deseada-> cargar a un destino específico.