Según un informe de Webmaster House del 12 de octubre, el equipo de IA/ML de Apple y el equipo de investigación de la Universidad de Columbia desarrollaron un modelo multimodal de gran tamaño "Ferret" que puede encontrar con precisión los semáforos en las imágenes, que funciona mejor que GPT-4V y mejora la precisión de los modelos grandes en tareas de "mirar, hablar, responder". La innovación clave de Ferret radica en la estrecha combinación de la comprensión espacial de la referencia y la conexión a tierra, lo que permite que el modelo comprenda la semántica de una región determinada y encuentre el objetivo correspondiente al mismo tiempo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Según un informe de Webmaster House del 12 de octubre, el equipo de IA/ML de Apple y el equipo de investigación de la Universidad de Columbia desarrollaron un modelo multimodal de gran tamaño "Ferret" que puede encontrar con precisión los semáforos en las imágenes, que funciona mejor que GPT-4V y mejora la precisión de los modelos grandes en tareas de "mirar, hablar, responder". La innovación clave de Ferret radica en la estrecha combinación de la comprensión espacial de la referencia y la conexión a tierra, lo que permite que el modelo comprenda la semántica de una región determinada y encuentre el objetivo correspondiente al mismo tiempo.