Skip to content

¿Qué es un Científico de Datos, y como puede ayudar a su Compañía?

Científico de Datos

Científico de Datos

Entre los startups de tecnología, el científico de datos es un término cada vez más común usado para referirse a los geeks de datos capaces de puentear las áreas funcionales tradicionalmente separadas de la inteligencia de datos. Un científico de datos es alguien que se siente cómodo realizando varios (si no todos) aspectos de los proyectos de inteligencia de datos:

  • Adquisición de datos: Esto puede implicar la escritura de analizadores personalizados y rastreadores web o scripts que apuntan a servicios web específicos o APIs para fuentes de datos no tradicionales.
  • Administración de datos: ETL, manipula, consulta y mantiene datos en bases de datos, almacenes de valores clave o Hadoop.
  • Visualización de información: Descubrir patrones mediante el uso de kits de herramientas de visualización estática y / o plataformas interactivas basadas en Flash, JavaScript o Procesamiento.
  • Análisis: Esto puede ir desde técnicas sencillas a complejas en estadísticas multivariantes, aprendizaje de máquinas y PNL.
  • Búsqueda: Extraiga, resuma y presente los hallazgos clave a una amplia audiencia.

Hay muchas herramientas, habilidades y detalles técnicos, y uno puede pasar años dominando cada uno de los elementos mencionados anteriormente. Mientras que un científico de datos puede no poseer verdadero conocimiento experto en cualquiera de las áreas, él o ella esta cómodo en saltar hacia adelante y hacia atrás y realizar tareas básicas en todos ellos. El resultado es un geek de datos lo suficientemente ágil como para investigar rápidamente un proyecto de datos y producir respuestas a las preguntas (de alto nivel) de la administración.

Para nutrir a los científicos de datos, las empresas necesitan centrarse más en la cultura y la estructura organizativa. Muchos trabajadores de datos tienen suficientes habilidades y capacitación para convertirse rápidamente en productivos en múltiples áreas de inteligencia de datos. El problema es que la mayoría no funcionan en entornos que los animan a convertirse en científicos de datos. Están atrapados en silos y están limitados a una o dos áreas de inteligencia de datos. A menudo, están restringidos a usar herramientas “aprobadas” por sus gerentes.

La manifestación más común es la separación entre el análisis de datos y la gestión de datos. En muchas grandes empresas, la mayoría de los analistas / estadísticos tienen que esperar los datos de un equipo de almacenamiento de datos designado, y en muchos casos esperan datos de múltiples propietarios de diferentes almacenes de datos.

Cómo fomentar la ciencia de datos en una organización

Por el momento, los científicos de datos prosperan en pequeñas empresas, empresas de Internet y otras organizaciones donde hay menos énfasis en funciones y tareas definidas. Pero realmente no hay razón por la cual organizaciones grandes y maduras no pueden unirse a la diversión. (No hay ninguna razón por la que sus estadísticos no puedan aprender a escribir rascadores web simples y por qué la gente de su base de datos no puede aprender estadísticas y visualización sencillas). A continuación se presentan algunas sugerencias sobre cómo hacer que suceda:

Implemente fuentes de datos no tradicionales

Una manera de hacer que la gente piense más allá de sus roles tradicionales es usar fuentes de datos fuera de aquellas controladas por grupos de almacenes de datos existentes. Muchas compañías limitan la inteligencia de datos a los datos de los sistemas ERP o proveedores de datos (o una variedad de archivos de “registro”). La red está inundada de datos, muchos de los cuales podrían ser útiles para su análisis de negocios si usted tenía un equipo de científicos de datos.

Comience con un equipo pequeño

Una vez que se compromete a formar un equipo de científicos de datos, puede comenzar por identificar los empleados actuales que podrían encajar en el perfil. Tienen que ser de mente abierta, orientado al equipo, y tienen algunas habilidades de programación en una de las áreas descritas anteriormente. Idealmente, tendría una mezcla de personas de ciencias de la computación, estadísticas / cuantitativas o orientadas a los datos antecedentes. Los miembros del equipo deben estar dispuestos a compartir herramientas simples, hacks y técnicas entre sí. La fertilización cruzada ocurrirá naturalmente si los miembros del equipo se emocionan acerca de aprender unos de otros. Los empleados que son reacios a compartir técnicas, herramientas e ideas obstaculizarían el progreso.

Permitir el uso de nuevas herramientas y técnicas

Científico de DatosMuchos departamentos de TI son muy estrictos en lo que los empleados pueden instalar y utilizar. Muchas de las herramientas favoritas utilizadas por los científicos de datos son gratuitas y / o de código abierto, y pueden no estar familiarizadas con el departamento de TI. (Muchos provienen de trabajos muy recientes realizados por académicos.) Las nuevas fuentes de datos también pueden requerir el uso de rastreadores web y servicios que pueden no ser del agrado de aquellos que mantienen sus firewalls y filtros existentes. Los vendedores comenzarán a ofrecer herramientas que cubren múltiples áreas de inteligencia de datos, reduciendo así el cambio de contexto y permitiendo el flujo. Pero por el momento, los científicos de datos utilizan una variedad de herramientas, y en cualquiera de las áreas descritas anteriormente, se puede disponer de herramientas simples a avanzadas. Las herramientas simples son una gran manera de introducir las habilidades básicas que pueden formar la base para un aprendizaje más avanzado.

Comience con proyectos sencillos y experimentos

La iteración rápida y la experimentación son importantes a medida que comienza. Posee hipótesis sencillas y concretas. Empiece despacio, tal vez utilizando herramientas sencillas, servicios web y fuentes de datos gratuitas. En lugar de rastrear grandes sitios web o de realizar tareas complejas de análisis de texto y PNL, aproveche los datos semiestructurados disponibles a través de servicios web y API, mientras se expande lentamente su conjunto de fuentes de datos no tradicionales. En lugar de saltar a Hadoop o una base de datos NoSQL, podría ser aconsejable ir con bases de datos SQL más familiares; Greenplum tiene una versión libre de un solo nodo de su base de datos SQL MPP. Los kits de herramientas de visualización estática como R y las herramientas de visualización interactiva gratuitas de Google Docs (o la API de Google Viz) ofrecen una variedad de opciones de infovizaciones.

Escudo de sus datos Científicos de (Medio) Gerentes

Una vez que los gerentes se dan cuenta de que hay un equipo jugando con nuevas fuentes de datos, podrían intentar poner obstáculos (“¿Qué pasa con la integridad de los datos? No están usando las técnicas apropiadas de aprendizaje de la máquina / estadísticas! ¿Pueden combinar eso con nuestros datos? “). Sin apoyo político, su equipo de científicos de datos se encontrará con fuego (no) amistoso. Las cosas nuevas tienden a ser percibidas como amenazas, por lo que es mejor tranquilizar rápidamente a los gerentes que los científicos de los datos complementan lo que hacen. Los conocimientos descubiertos por su pequeño equipo de científicos de datos se pueden utilizar para informar a más datos formales / proyectos analíticos. Los científicos de los datos no van a eliminar la necesidad de los estadísticos, pero pueden señalarlos hacia diferentes conjuntos de datos y preguntas.

Utilice su equipo inicial de científicos de datos como evangelistas

Si seleccionó su equipo inicial de científicos de datos correctamente, deberían estar cómodos presentando sus hallazgos a otros en su empresa. Mejor aún, estarían entusiasmados con eso! Utilizarlos para influir en cómo el resto de la compañía ve la inteligencia de datos y para derribar lentamente esos silos.

No estoy diciendo que no se necesitarán nuevas herramientas de capacitación y de empresa a medida que forman su equipo interno de científicos de datos. Pero creo que al abordar las estructuras culturales y organizativas, muchas compañías pueden usar sus propios empleados junto con herramientas gratuitas, para sembrar un pequeño equipo de científicos de datos. Hablo de experiencia, habiendo trabajado para grandes empresas, el talento está ahí y las técnicas no son tan difíciles de aprender, pero los silos organizacionales son difíciles de superar. Sus filas ya incluyen un grupo de talentos listos para brillar, si no por las rígidas estructuras corporativas que limitan lo que pueden hacer.