Ingeniero de datos (Big data)

¿Qué es un ingeniero de datos?

El ingeniero de datos es el profesional encargado de sentar las bases para la adquisición, el almacenamiento, la transformación y la gestión de los datos en una organización. Este especialista asume la configuración de la infraestructura tecnológica necesaria para que el gran volumen de datos no estructurados recogidos se convierta en materia prima accesible para otros especialistas en Big Data, como los data analysts y los científicos de datos.
Los data engineers trabajan diseñando, creando y manteniendo la arquitectura de las bases de datos y de los sistemas de procesamiento, de manera que la posterior labor de explotación, análisis e interpretación de la información pueda llevarse a cabo sin incidencias, de manera ininterrumpida, segura y eficaz.

Funciones de un ingeniero de datos

El día a día del ingeniero de datos transcurre, fundamentalmente, entre procesos ETL (Extract, Transform, Load), es decir, desarrollando tareas de extracción, transformación y carga de datos, moviéndolos entre diferentes entornos y depurándolos para que lleguen normalizados y estructurados a las manos de analistas y data scientists. El papel del data engineer es, en este caso, comparable al de un fontanero, ya que se centra en implementar y mantener en buen estado la red de pipelines (tuberías) por la que los datos (a semejanza del agua) correrán para alimentar el funcionamiento de toda la organización.

  • Extracción
    En la primera etapa del proceso ETL, el ingeniero de datos se encarga de sacar los registros de distintas localizaciones, así como de estudiar la incorporación de nuevas fuentes al flujo Big Data de la compañía. Estos datos se presentan en diferentes formatos, integrando variables muy diversas, y pasarán a un data lake, u otro tipo de repositorio donde esta información quedará almacenada en bruto, disponible para cualquier uso futuro.
  • Transformación
    En un segundo paso, el data engineer coordina la limpieza de los datos, eliminando duplicados, corrigiendo errores y desechando el material inservible; y los elabora y clasifica para convertirlos en un conjunto homogéneo
  • Carga
    Finalmente, el ingeniero de datos lidera la carga de estos en su destino, ya sea este una base de datos ubicada en un servidor propio de la compañía o un data warehouse en la nube. Además de la correcta exportación, una de las preocupaciones recurrentes en esta etapa final es la vigilancia de la seguridad, puesto que el data engineer ha de garantizar que la información se guarda a salvo de ciberataques y de accesos no autorizados.