📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了
文章来源:机器之心
编辑:大盘鸡、蛋酱
从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先是图灵得奖主们「混战」,后有吴恩达下场加入。
在语言和视觉领域,目前的生成模型只需要几秒钟就可输出,甚至能够挑战具有多年技能和知识的专家。这似乎为模型已经超越人类智能的说法提供了令人信服的动机。但是,同样需要注意到的是,模型输出中常有理解性的基本错误。
这样看来,似乎出现了一个悖论:我们要如何协调这些模型看似超人的能力与持续存在的大多数人类都能纠正的基本错误?
近日,华盛顿大学与艾伦人工智能研究院(Allen Institute for AI)联合发布论文,对这一悖论进行研究。
本文认为,之所以会出现这样的现象,是因为当今生成模型中的能力配置与人类的智能配置相背离。本文提出并测试了生成式 AI 悖论假设:生成模型通过训练,直接输出媲美专家的结果,该过程直接跳过了理解生成该质量输出的能力。然而,对于人类来说,这截然不同,基本的理解往往是专家级输出能力的先决条件。
在本文中,研究者通过对照实验来检验这一假设,分析生成模型对文本和视觉的生成、理解能力。本文首先通过两个角度讲生成模型的「理解」概念化:
研究者发现,在选择性评估中,模型在生成任务设置中的表现往往与人类相当甚至优于人类,但在判别(理解)设置中,模型的表现却不及人类。进一步的分析表明,与 GPT-4 相比,人类的判别能力与生成能力联系更为紧密,而且人类的判别能力对对抗性输入也更为鲁棒,模型与人类的判别能力差距随着任务难度的增加而增大。
同样,在询问性评估中,虽然模型可以在不同任务中产生高质量的输出,但研究者观察到模型在回答有关这些输出的问题时经常出现错误,模型的理解能力再次低于人类的理解能力。本文讨论了生成模型与人类在能力配置上出现分歧的一系列潜在原因,包括模型训练目标、输入的大小和性质。
这项研究的意义在于,首先,这意味着从人类经验中得出的现有智能概念可能无法推广到 AI,即使 AI 的能力在很多方面似乎模仿或超越了人类智能,但其能力可能与人类的预期模式存在根本性差异。另一方面,本文研究结果也建议,在研究生成模型以深入了解人类智能和认知时要谨慎,因为看似专家级的类人输出可能掩盖了非人类的机制。
总之,生成式 AI 悖论鼓励人们把模型作为一个人类智能的有趣对立面来研究,而不是作为一个平行的对立面来研究。
「生成式 AI 悖论强调了一个有趣的概念,即 AI 模型可以创造出它们自己可能无法完全理解的内容。这就提出了人工智能存在理解的局限性及其强大的生成能力背后所面临的潜在问题。」网友表示。
何谓生成式 AI 悖论
我们首先了解一下生成式 AI 悖论以及测试它的实验设计。
生成模型获得生成能力似乎比获得理解能力更有效,这与人类的智能形成鲜明对比,后者通常是获得生成能力更难。
要验证这一假设,需要对悖论的各个方面进行操作性定义。首先,对于给定的模型和任务 t,以人类智能为基线,生成能力比理解能力「更有效」意味着什么。将 g 和 u 作为生成和理解的一些性能指标,研究者将生成式人工智能悖论假设正式表述为:
生成的操作性定义很简单:给定一个任务输入(问题 / 提示),生成就是生成可观察到的内容以满足该输入。因此,可以自动或由人类对性能 g 进行评估(如风格、正确性、偏好)。虽然理解能力不是由一些可观察到的输出来定义的,但可以通过明确定义其效果来进行测试:
这些关于理解的定义提供了一个评估「生成式 AI 悖论」的蓝图,让研究者能够检验假设 1 是否在不同模式、任务和模型中都成立。
当模型可以生成时,它们能否判别?
首先,研究者在选择性评估中对生成性任务和判别性任务的变体进行了并列性能分析,以评估模型在语言和视觉模式下的生成和理解能力。他们将这种生成和判别性能与人类进行比较。
下图 2 比较了 GPT-3.5、GPT-4 和人类的生成和判别性能。可以看到,在 13 个数据集中的 10 个数据集中,至少有一个模型支持子假设 1,模型的生成能力优于人类,但判别能力低于人类。在 13 个数据集中,有 7 个数据集的两个模型都支持子假设 1。
图 4(右)展示了 OpenCLIP 与人类在不同难度下的判别性能对比。总之,这些结果突出表明,即使面对具有挑战性或对抗性的样本,人类也有能力判别出正确答案,但这种能力在语言模型中并不那么强大。这种差异引发了人们对这些模型真正理解程度的疑问。
模型能理解自己生成的结果吗?
上一节展示了模型通常擅长生成准确的答案,而在判别任务中却落后于人类。现在,在提问式评估中,研究者通过直接向模型提出有关生成内容的问题,以研究模型能在多大程度上展示出对生成内容有意义的理解 —— 而这正是人类的强项。
因此研究者预计,如果将模型与人类专家进行比较,在理解自己生成内容方面的性能差距会进一步拉大,因为人类专家很可能以接近完美的准确度回答此类问题。
图 6(右)展示的是视觉模式下的提问结果。可以看到,图像理解模型在回答有关生成图像中元素的简单问题时,其准确性仍然无法与人类相比。同时,图像生成 SOTA 模型在生成图像的质量和速度上都超过了大多数普通人(预计普通人很难生成类似的逼真图像),这表明视觉 AI 在生成(较强)和理解(较弱)方面与人类存在相对差距。令人惊讶的是,与先进的多模态 LLM(即 Bard 和 BingChat)相比,简单模型与人类之间的性能差距较小,后者具有一些引人入胜的视觉理解能力,但仍难以回答有关生成图像的简单问题。