Desde los LLM que transforman los conjuntos de datos modernos hasta la “observabilidad” de los datos para las bases de datos vectoriales, estas son mis predicciones sobre las principales tendencias de ingeniería de datos en 2024.

«El espacio de los datos y la IA se mueve rápido. Si no te detienes y miras a tu alrededor de vez en cuando, es posible que te pierdas».

2023 fue el año de GenAI. Y 2024 se perfila para… otro año de IA Generativa.

Pero mientras que en 2023 los equipos se apresuraron a dar nombres notables a sus modelos IA, en 2024 los equipos priorizarán los problemas empresariales reales para sus modelos de IA. Y con un enfoque renovado vienen nuevas prioridades.

Cuando se trata del futuro de los datos, una marea creciente sigue elevando todos los barcos. Y GenAI seguirá creciendo en 2024, elevando los estándares -y las prioridades- de la industria de datos.

Estas son mis 10 principales predicciones sobre lo que sigue para los equipos de datos e IA, y cómo su empresa puede mantenerse un paso por delante.

1. Los LLM transformarán los conjuntos de datos

Esto era un hecho.

No es exagerado decir que los grandes modelos de lenguaje (LLM) han transformado la cara de la tecnología en los últimos 12 meses. Desde empresas con casos de uso legítimos hasta equipos fugaces que vuelan de noche con tecnología prestada a la caza de algún problema, todo el mundo y su administrador de datos están tratando de utilizar la IA generativa (GenAI) de una forma u otra.

Los LLM continuarán esa transformación en 2024 y más allá, desde impulsar una mayor demanda de datos y requerir nuevas arquitecturas como las bases de datos vectoriales (también conocidas como la » AI stack «), hasta cambiar la forma en que manipulamos y usamos los datos para nuestros usuarios finales.

El análisis y la activación automatizados de datos se convertirán en una herramienta esperada en todos los productos y en todos los niveles de los conjuntos de datos. La pregunta es: ¿cómo nos aseguramos de que estos nuevos productos aporten un valor real en 2024 y no sólo un pequeño destello nuevo para el crédito de marketing y las relaciones públicas?

2. Los equipos de datos se parecerán a los equipos de software

Los equipos de datos más sofisticados ven sus activos de datos como productos de datos de buena fe, con requisitos de productos, documentación, proyecto e incluso SLA (o ANS en español, contrato que establece las obligaciones y responsabilidades de una empresa con su cliente) para los usuarios finales.

Por lo tanto, a medida que las organizaciones comiencen a asignar más y más valor a sus productos de datos definidos, más y más equipos de datos comenzarán a verse y a ser administrados como los equipos de productos críticos que son.

3. Los equipos de software se convertirán en profesionales de datos

Cuando los ingenieros intentan crear productos de datos o GenAI sin pensar en los datos, no terminará nada bien. Solo pregúntele a Unidad Healthcare.

A medida que la IA siga comiéndose el mundo, la ingeniería y los datos se convertirán en una misma cosa. Ningún desarrollo de software importante entrará en el mercado sin tener en cuenta la IA, y ninguna IA importante entrará en el mercado sin algún nivel de datos empresariales reales que la impulsen.

Eso significa que, a medida que los ingenieros busquen elevar los nuevos productos de IA, deberán desarrollar un ojo de observación hacia los datos, y cómo trabajar con ellos, para construir modelos que agreguen valor nuevo y continuo.

4. RAG (Retrieval Augmented Generation - generación aumentada por recuperación) será todo un dolor de cabezas

Después de una serie de fracasos de GenAI de alto perfil, la necesidad de datos de contexto limpios, confiables y seleccionados para aumentar los productos de IA se ha vuelto cada vez más obvia.

A medida que el campo de la IA continúa desarrollándose y los puntos ciegos en la formación general de LLM se hacen dolorosamente evidentes, los equipos con datos patentados recurrirán a RAG (generación aumentada de recuperación) y a los ajustes en masa para aumentar sus productos de IA empresarial y ofrecer un foso de valor demostrable para sus partes interesadas.

RAG todavía es relativamente nuevo en la escena (fue introducido por primera vez por Meta AI en 2020), y las organizaciones aún no han desarrollado experiencia o mejores prácticas en torno a RAG, pero están llegando.

5. Los equipos pondrán en funcionamiento productos de IA listos para las empresas

La tendencia de la ingeniería de datos que sigue creciendo: los productos de datos. Y no nos equivoquemos pues la IA, al fin y al cabo, es un producto de datos.

Si 2023 fue el año de la IA, 2024 será el año de la puesta en marcha de los productos de IA. Ya sea por necesidad o coerción, los equipos de datos de todos los sectores adoptarán productos de IA listos para la empresa. La pregunta es: ¿estarán realmente preparados para la empresa?

Atrás quedaron (con suerte) los días de crear funciones de chat aleatorias solo para decir que está integrando IA cuando la junta lo pide. En 2024, es probable que los equipos se vuelvan más sofisticados sobre cómo desarrollan productos de IA aprovechando mejores prácticas de capacitación para crear valor e identificando problemas para resolver en lugar de bombear tecnología para crear nuevos problemas.

6. La “observabilidad” de los datos será compatible con la IA y las bases de datos vectoriales

En  la encuesta CDO Insights 2023 de Amazon Web Services (AWS), se preguntó a los encuestados cuál era el mayor desafío de su organización para aprovechar el potencial de la IA generativa.

¿La respuesta más común? Calidad de los datos.

La IA generativa es, en esencia, un producto de datos. Y como cualquier producto de datos, no funciona sin datos fiables. Pero a la escala de los LLM, la supervisión manual no puede proporcionar la cobertura de calidad completa y eficiente necesaria para que cualquier IA sea fiable.

Para tener un verdadero éxito, los equipos de datos necesitan una estrategia de “observabilidad” de datos que viva y respire adaptado a todos los conjuntos de datos de IA que les permita detectar, resolver y prevenir el tiempo de inactividad de los datos de forma coherente en el contexto de un entorno dinámico y en crecimiento. Y esas soluciones deben priorizar la resolución, la eficiencia de las conexiones y las infraestructuras de transmisión/vectores que admiten la IA para ser un contendiente en la batalla moderna de la confiabilidad de la IA en 2024.

7. El big data se hará pequeño

Hace treinta años, un ordenador personal era una novedad. Ahora, con los Macbooks modernos que cuentan con la misma potencia de cálculo que los servidores de AWS en 2012, el hardware está difuminando las líneas entre las soluciones comerciales y empresariales.

Dado que la mayoría de las cargas de trabajo son pequeñas, los equipos de datos comenzarán a usar bases de datos en proceso y en memoria para analizar y mover conjuntos de datos

Especialmente para los equipos que necesitan escalar rápidamente, estas soluciones son rápidas para ponerse en marcha y pueden alcanzar la funcionalidad de nivel empresarial con ofertas comerciales económicas en la nube.

8. El tamaño correcto tendrá prioridad

Los líderes de datos de hoy en día se enfrentan a una tarea imposible. Utilizar más datos, crear más impacto, aprovechar más IA, pero deben reducir los costos de la nube.

Como dice Harvard Business Review, los presupuestos de datos e IA están hechos para fallar. A partir del primer trimestre de 2023, el gasto en infraestructura en la nube aumentó a $21.5 mil millones. Muchas empresas están viendo el gasto en la nube crecer hasta un 30% cada año.

Los enfoques de bajo impacto, como la supervisión de metadatos y las herramientas que permiten a los equipos ver y utilizar el tamaño adecuado, tendrán un valor incalculable en 2024.

9. El Iceberg se soltará... (Apache Iceberg)

Apache Iceberg es un formato de tabla de data lakehouse de código abierto desarrollado por el equipo de ingeniería de datos de Netflix para proporcionar una forma más rápida y sencilla de procesar grandes conjuntos de datos a escala. Está diseñado para poder consultarse fácilmente con SQL, incluso para tablas analíticas grandes con petabytes de datos.

Mientras que los almacenes de datos modernos ofrecerán tanto computación como almacenamiento, Iceberg se centra en proporcionar un almacenamiento estructurado y rentable al que puedan acceder los diferentes motores que se pueden aprovechar en toda la organización al mismo tiempo, como Apache Spark, Trino, Apache Flink, Presto, Apache Hive e Impala.

10. Regreso a la oficina para... siempre?

Trabajo Remoto: las palabras menos favoritas de todos. ¡O posiblemente sus palabras favoritas! Si bien las opiniones parecen estar divididas sobre el tema, cada vez más equipos son llamados a regresar a su entorno de trabajo, de manera flexible durante al menos un par de días a la semana.

Según un informe de septiembre de 2023 de Resume Builder, el 90% de las empresas planean aplicar políticas de regreso a la oficina para fines de 2024, casi cuatro años después de la terrible pandemia de 2020.

De hecho, varios directores ejecutivos poderosos, incluidos Andy Jassy de Amazon, Sam Altman de OpenAI y Sundar Pichai de Google, ya han promulgado políticas de regreso a la oficina en los últimos meses. Y parece haber al menos algunos beneficios de trabajar en  una oficina (al menos a tiempo parcial) en comparación con trabajar exclusivamente desde casa.

¿Te gustaría quedarse en casa para siempre? Parece que la respuesta, como siempre ocurre, tiene que ver con lo que dicen los datos y esto es: el trabajo presencial aporta más valor en la empresa. A pesar de los recientes vientos en contra de la economía y su impacto en el mercado laboral, los equipos de datos e IA tienen una gran demanda. Y los empleadores a menudo harán lo que sea necesario para obtenerlos y conservarlos. Mientras que algunas empresas exigen que todos los empleados regresen a la oficina independientemente de su función, otras empresas como Salesforce están solicitando que los ingenieros no remotos asistan mucho menos, por un total de 10 días por trimestre.

 

Opinión de Atec Ingeniería

El mundo empresario se encuentra en el proceso evolutivo mas crítico de la historia y la gestión de los datos marcará la diferencia en la supervivencia de las empresas. Conocer los datos en tiempo real es la ventaja competitiva más trascendente de los últimos años para las compañías. La capacidad de analizar grandes volúmenes de información y extraer insights valiosos se ha vuelto indispensable en el entorno empresarial actual. Las organizaciones que logren dominar el uso de analytics y big data estarán mejor posicionadas para tomar decisiones acertadas, innovar, predecir tendencias y satisfacer las necesidades cambiantes de los clientes. Manejar datos de manera inteligente es clave para mantenerse relevante y rentable en medio de la transformación digital cada vez más vertiginosa.

Adaptado al español por Atec Ingeniería

Fuente Original: Medium, Barr Moses

Monte Carlo Data

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *