El gigantesco volumen de datos que producen y recolectan las organizaciones, requiere contar con amplias capacidades de procesamiento, y profesionales con competencias suficientes para analizarlos y utilizarlos en pos de lograr mejores resultados corporativos. En este contexto, el perfil de data scientist es muy requerido y valorado por las empresas. Características, funciones y requerimientos para una profesión con elevados índices de empleabilidad.
El científico de datos o data scientist refiere a un profesional que aplica sus conocimientos en programación, matemáticas y estadística, sobre grandes bases de datos, mayormente desestructurados. Su objetivo consiste en recopilar, extraer y procesar información relevante. Así lo explican desde Deloitte, destacando que Big Data es como una mina de oro para las empresas.
En Oracle sostienen que las empresas disponen un tesoro de datos sin aprovechar. Resolver esta brecha es el valor agregado a aportar por parte de un data scientist.
En esta línea, un reciente informe publicado en el Centro de e-Learning de la UTN.BA, advertía que la información que generan y obtienen las organizaciones es uno de sus principales activos, junto a sus recursos humanos.
A tal punto, que las capacidades que posee una compañía para el análisis de datos impacta directamente en los niveles de productividad y competitividad de los equipos. Es por ello que contar con estrategias de data science efectivas, permite tomar mejores decisiones y alcanzar mayores resultados.
Si bien el acceso a grandes volúmenes de datos ofrece la posibilidad de obtener información para tomar mejores decisiones, no es suficiente. El desafío es saber interpretarla y aprovecharla.
Es claro, entonces, que quienes incorporen las competencias necesarias para desarrollar estrategias de data science, tendrán una excelente posibilidad de desarrollo profesional, al tratarse de una de las capacidades más requeridas por el mercado laboral.
Índice de contenidos
Data scientist: contexto de empleabilidad
El 89% de las empresas que participaron de una encuesta realizada por Mercer señalaron que tienen dificultad para atraer Data Scientists, un perfil que identifican entre los cuatro más demandados por las áreas de tecnología de las organizaciones.
Por su parte, una medición global de Deloitte reveló que:
- Los responsables de tecnología consideran a la analítica como prioridad de inversión, y un factor de alto impacto en la organización.
- Los ejecutivos de negocio entienden que la información y su explotación analítica se encuentran entre las 5 cuestiones claves del futuro, identificándola como una palanca clave para lograr ventajas competitivas.
Las empresas disponen de un tesoro de datos sin aprovechar. Resolver esta brecha es el valor agregado a aportar por parte de los data scientist.
Mientras que en un encuentro de expertos en Big Data organizado por Google for Startups, se coincidió en que este tipo de perfiles:
- son cada vez más imprescindibles en todas las áreas de las empresas, gracias a su capacidad para entender e interpretar los datos.
- deben ser polifacéticos, contar con un nivel técnico alto y poseer habilidades comunicativas.
Actualmente, los científicos de datos se encuentran entre los 10 profesionales más buscados en el ámbito de Big Data.
Data Scientist: funciones específicas
Los expertos en Ciencia de Datos generan información y conocimiento a partir de los datos que obtienen de múltiples fuentes, para aplicar a necesidades concretas de una organización:
- resolviendo problemáticas,
- realizando recomendaciones,
- facilitando la toma de decisiones,
- planificando acciones,
- anticipando comportamientos del mercado.
Desde Deloitte explican que un Data Scientist puede desempeñar funciones diferentes de acuerdo a la empresa para la que trabaje. De todos modos, existen tareas comunes para este tipo de profesionales. Entre ellas: la extracción, depuración y limpieza de datos, utilizando sofisticados software de análisis, machine learning y estadística, que permiten aplicar los datos obtenidos en modelos prescriptivos y predictivos.
89% de las empresas tienen dificultad para atraer Data Scientists.
Un data scientist debe:
- analizar datos cuantitativos y cualitativos del entorno digital, para extraer información de valor.
- diseñar, implantar y optimizar una estrategia a largo plazo del manejo de la información.
- realizar análisis del entorno y diseñar un sistema de reporting para la visualización de los datos.
- administrar sistemas de almacenamiento distribuido.
- utilización de herramientas como, Hadoop, Hive o Pig.
- manipular datos, como data wrangling, data munging o data tyding.
- desarrollo de consultas con bases de datos utilizando SQL o PL/SQL.
- desarrollo de programas estadísticos, utilizando lenguajes como R o Python.
En este sentido, el laboratorio inLab FIB UPC menciona cuatro pasos a observarse por parte de un data scientist, en el marco de sus procesos de análisis de datos:
1. Extraer datos independientemente de las fuentes de las cuales los obtiene.
2. Eliminar las distorsiones de los datos a partir del objetivo que se busca lograr.
3. Procesar información implementando inferencia estadística, pruebas de hipótesis, o modelos de regresión, entre otros métodos.
4. Presentar en forma gráfica los datos, apoyándose en soluciones tecnológicas.
Data Scientist: requerimientos para un perfil de alta demanda
El diferencial de un buen Data Scientist reside en su capacidad para hacer descubrimientos “buceando” en un océano de información masiva y compleja.
O como sostiene Josh Wills, el científico de datos es mejor en estadística que cualquier programador, y mejor programador que cualquier estadístico.
Antonio Vazquez Brust explica que la Data Science aplicada requiere desarrollar competencias en cuatro áreas:
- Programación: simplificar una tarea compleja.
- Estadística: extraer conocimiento de los datos e interpretarlos.
- Comunicación: explicar procesos complejos y visualizar los datos de modo que puedan leerse adecuadamente.
- Conocimiento específico: experiencia acumulada en un campo puntual, que complementa las habilidades analíticas, y permite elaborar las preguntas que se requieren resolver, para luego discernir el valor y sentido de las respuestas obtenidas.
La información que generan y obtienen las organizaciones es uno de sus principales activos, junto a sus recursos humanos.
En tanto, desde Deloitte señalan que un Data Scientist necesita establecer una simbiosis entre:
- conocimientos técnicos (matemáticas, estadística y programación),
- habilidades personales (curiosidad intelectual, comunicación efectiva y conocimiento del negocio).
Por su parte, un informe de Sol Drincovich publicado en Apertura y El Cronista Comercial, identifica las habilidades blandas que pesarán cada vez más en un Data Scientist:
- Inteligencia emocional
- Creatividad
- Adaptabilidad al cambio
- Apertura mental
A estas soft skills se deben agregar:
- Resolución de problemas
- Aptitud para explicar en forma entendible evitando conceptos científicos, y expresarse en lenguajes informáticos
- Predecir comportamientos futuros
- Iniciativa, planificación y control.
- Pensamiento lógico
- Detección de patrones
En cuanto a conocimientos específicos, se destacan:
- Ingeniería de software en sistemas distribuidos, algorítmica y estructuras de datos.
- Experto en matemáticas, estadística, informática, etc.
- Machine Learning, lenguajes de programación como R o Python, y el uso de notebooks y ecosistemas Big Data.
- Facilidad en álgebra lineal, cálculo y probabilidad.
- Nociones en estadística (en descriptiva o regresiones lineales).
- Comprensión y manejo de las técnicas de machine learning.
- Uso de librerías como TensorFlow para técnicas de Deep Learning basadas en redes neuronales.
Mientras que en términos de estudios académicos desde el portal de empleo Indeed se informa que los científicos de datos provienen de los campos más diversos. Casi en su totalidad proceden de carreras con formación técnica y solo 5% de ciencias sociales. El 9% de tiene estudios específicos en la materia, y uno de cada 5 posee estudios de doctorado.
Entre los leguajes de programación que debe dominar un Data Scientist se encuentra Python (83% de los científicos de datos lo usan), seguido de SQL (44%) y R (36%). Así lo revela un estudio de Kaggle, destacando que 3 de cada 4 profesionales del sector recomiendan aprender Python en primera instancia.
Quienes incorporen las competencias necesarias para desarrollar estrategias de data science, tendrán una excelente posibilidad de desarrollo profesional
¿Cómo encontrar trabajo como Data Scientist?
Hay tres aspectos centrales a tener en cuenta en un proceso de búsqueda de empleo:
1) Capacitarte para incorporar y actualizar competencias en forma constante, es una de las prioridades críticas a tener en cuenta, ya que las capacidades incorporadas inciden directamente en la posibilidad de obtener trabajos mejor remunerados.
2) El CV continúa siendo la principal carta de presentación, complementado con Linkedin. Te sugerimos leer un artículo en el que se presentan pautas y recomendaciones para elaborar un curriculum vitae estratégico. En paralelo, tener un perfil actualizado en la red social profesional más popular del mundo, también te aportará volumen profesional.
3) Considerar a tu búsqueda laboral como un trabajo. Un reporte publicado por el Blog del Centro de e-Learning de la UTN.BA te aporta claves para que establezcas una estrategia efectiva para buscar empleos vinculados a competencias IT, aportándote consultoras, portales y empresas que te acercarán a tu próximo empleo de desarrollador web.
¿Dónde capacitarse para trabajar en el área de data science?
Para adquirir las competencias necesarias para desempeñarte como data scientist, el Centro de e-Learning de la UTN.BA ofrece una interesante oferta formativa, entre la que destacan los siguientes cursos:
Data Scientist con R: busca formar profesionales Científicos de Datos, brindándoles la posibilidad de gestionar información masiva de Big Data, y conocer la estructura, sintaxis y algoritmos de R para el diseño y uso de repositorios de datos.
Especialista en Big Data con Apache Hadoop: aporta conocimientos sobre las funciones del marco de trabajo Apache Haddop en JAVA, para aplicar las técnicas y herramientas del Big Data.
Google Data Studio: Tableros dinámicos en tiempo real. El curso permite aprender a utilizar la herramienta Google Data Studio para armar informes, gráficos, tableros de análisis y fuentes de datos de forma ágil y con actualización en tiempo real.
Diplomatura en Business Intelligence: para aprender a aplicar las herramientas conceptuales de inteligencia de negocios a problemas simples, que permitan interpretar los resultados obtenidos, incluyendo técnicas de Investigación Avanzadas.