Згідно зі звітом Webmaster House від 12 жовтня, команда Apple AI/ML та дослідницька група Колумбійського університету розробили мультимодальну велику модель «Ferret», яка може точно знаходити світлофори на зображеннях, яка працює краще, ніж GPT-4V, і підвищує точність великих моделей у завданнях «дивитися, говорити, відповідати». Ключова інновація Ferret полягає в тісному поєднанні просторового розуміння як посилання, так і заземлення, що дозволяє моделі зрозуміти семантику заданої області і одночасно знайти відповідну ціль.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Згідно зі звітом Webmaster House від 12 жовтня, команда Apple AI/ML та дослідницька група Колумбійського університету розробили мультимодальну велику модель «Ferret», яка може точно знаходити світлофори на зображеннях, яка працює краще, ніж GPT-4V, і підвищує точність великих моделей у завданнях «дивитися, говорити, відповідати». Ключова інновація Ferret полягає в тісному поєднанні просторового розуміння як посилання, так і заземлення, що дозволяє моделі зрозуміти семантику заданої області і одночасно знайти відповідну ціль.