Nvidia no solo es el pegamento de la IA: ahora tiene un modelo omnipotente que lee, ve y escucha. Todo a la vez
Hace ocho años, cuando Nvidia aún era una compañía que hacía gráficas para videojuegos, la compañía apuntó a algo que está empezando a entrar en la conversación: la robótica física . Son los robots con inteligencia artificial integrada para comportarse de forma autónoma. Como un ChatGPT con brazos, oídos y ojos. Ha llovido mucho desde entonces y es ahora cuando estamos empezando a entrar en ese futuro. Sin embargo, Nvidia ha seguido experimentando con esa forma de hacer que el mundo físico y dig
Escuchá el resumen
Exclusivo para suscriptores Premium

Hace ocho años, cuando Nvidia aún era una compañía que hacía gráficas para videojuegos, la compañía apuntó a algo que está empezando a entrar en la conversación: la robótica física . Son los robots con inteligencia artificial integrada para comportarse de forma autónoma. Como un ChatGPT con brazos, oídos y ojos. Ha llovido mucho desde entonces y es ahora cuando estamos empezando a entrar en ese futuro. Sin embargo, Nvidia ha seguido experimentando con esa forma de hacer que el mundo físico y dig
- Sin embargo, Nvidia ha seguido experimentando con esa forma de hacer que el mundo físico y digital converjan, y su último producto es Nemotron 3 Nano Omni
- Y eso es lo que Nvidia afirma que puede hacer Nemotron 3 Nano Omni
- Según la compañía, está construido sobre una arquitectura híbrida de mezcla de expertos (las IAs entrenadas en diversas materias) con 30.000 millones de parámetros, de los cuales 3.000 millones son para inferencia
- Imagen | Nvidia En Xataka | Hay una empresa que ha crecido un 3.000% en bolsa batiendo incluso el rendimiento de Nvidia: Sandisk
Hace ocho años, cuando Nvidia aún era una compañía que hacía gráficas para videojuegos, la compañía apuntó a algo que está empezando a entrar en la conversación: la robótica física. Son los robots con inteligencia artificial integrada para comportarse de forma autónoma. Como un ChatGPT con brazos, oídos y ojos.
Ha llovido mucho desde entonces y es ahora cuando estamos empezando a entrar en ese futuro. Sin embargo, Nvidia ha seguido experimentando con esa forma de hacer que el mundo físico y digital converjan, y su último producto es Nemotron 3 Nano Omni. Un modelo de IA que ve, escucha y lee el mundo físico.
Modelos Omni. Estos modelos son multimodales, pero en un sentido mucho más estricto. Mientras los modelos que solemos usar a diario necesitan de canales separados para procesar y generar audio, texto, imagen y vídeo, un modelo omni está diseñado para ser intrínsecamente multimodal.
Esto implica que utilizan una arquitectura de red neuronal única entrenada de extremo a extremo para que la interacción entre modelos y estímulos sea más natural, veloz y capaz de reconocer más matices. Un ejemplo es una IA que puede “ver” lo que captura una cámara, analizar toda la situación y dar un feedback al usuario de una forma más rápida que una que puede hacer lo mismo, pero cuyo modelo de texto tiene que preguntar al de vídeo qué ha visto para, después, generar el contenido. En menos palabras aún: imita mejor la forma en la que los humanos percibimos y respondemos a los estímulos del mundo.
Integración. Y eso es lo que Nvidia afirma que puede hacer Nemotron 3 Nano Omni. En la misma arquitectura, es un modelo que integra capacidades de visión, audio y lenguaje para eliminar el flujo de trabajo fragmentado de los actuales agentes de IA.
Según la compañía, está construido sobre una arquitectura híbrida de mezcla de expertos (las IAs entrenadas en diversas materias) con 30.000 millones de parámetros, de los cuales 3.000 millones son para inferencia. Se ha diseñado como un modelo nueve veces más rápido que los modelos separados y que tiene tres veces más rendimiento que otros modelos omni abiertos consumiendo 2,75 veces menos capacidad de cómputo en tareas como el razonamiento a partir de un vídeo. Vale, pero para qué.
Esa es la pregunta clave, más allá de los números y de las capacidades en bruto de esta tecnología. Los casos de uso que detalla la compañía son los siguientes: - Agentes: impulsar esos agentes que navegan por las interfaces gráficas del usuario, razonando en base al contenido en pantalla y entendiendo lo que está viendo en tiempo real y de forma persistente. La resolución de entrada nativa es de 1.920 x 1.080 para lograr esa comprensión visual en HD. - Documentos: interpreta gráficos, tablas, documentos, capturas de pantalla y entradas de medios mixtos. - Comprensión de audio y vídeo: es capaz de comprender lo que ve y escucha para mantener una coherencia en su interpretación en lugar de razonar en base a modelos desconectados.
Para profesionales. Lo que está claro es que Nemotron 3 Nano Omni no es algo que se lance con el objetivo de que sea algo para las masas como otros modelos de IA que vemos a diario. Nvidia lo enfoca en algo empresarial, una herramienta a la que acceder a través de plataformas como Hugging Face y para implementarse en sistemas locales como DGX Spack o Jetson.
Es decir, no es algo al alcance de cualquiera. Lo interesante es que es una tecnología que está empujando fuerte la narrativa de los agentes como entes omnipotentes, y cuadra con el discurso más reciente de Jensen Huang, CEO de la compañía, de que la IA no llegará para quitarnos el trabajo, sino para ‘micromanagearnos’. Imagen | Nvidia En Xataka | Hay una empresa que ha crecido un 3.000% en bolsa batiendo incluso el rendimiento de Nvidia: Sandisk
Preguntale a la nota
Hacé preguntas y la IA responde usando solo este artículo
2 preguntas restantes · Respuestas basadas en el contenido del artículo
Recibí las noticias en WhatsApp
Seguí nuestro canal para recibir lo más importante del día, directo a tu celular.
Noticias Relacionadas

La inteligencia artificial no destruye empleo: elimina tareas de bajo valor y crea trabajo de mayor calidad
Dos economistas de Pennsylvania y Boston quieren tasar la automatización. La historia los contradice. Y el mercado laboral argentino también.

Las personas que evitan la cajas de pago automático no rechazan la tecnología, buscan un contacto humano breve: lo que revela la psicología sobre este hábito
Puede parecer un gesto mínimo, incluso una simple costumbre. La psicología sugiere que esos intercambios breves también pueden influir en el bienestar y en la sensación de conexión social.

"Cada día sabemos más y entendemos menos", Albert Einstein
Esta popular frase atribuida al científico y teórico de origen alemán adquiere una relevancia especial en el contexto de la educación, el avance de la Inteligencia Artificial (IA) y el desarrollo de las nuevas tecnologías.

Este es el accesorio perfecto para tu Amazon Fire TV. Adiós a los problemas de conexión o Internet lento
Tener un Amazon Fire TV y que se quede pillado es una de las situaciones más incómodas que hay. Los motivos son diversos, aunque hay uno que se repite en buena parte de los hogares: la conexión. Pasa sobre todo en los aparatos más antiguos, y la solución no es sencilla si no conoces la […]
Comentarios
para dejar un comentario