📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
田渊栋给OpenAI神秘Q*项目泼冷水:合成数据不是AGI救星,能力仅限简单数学题
来源:新智元
Q*猜想,持续在AI社区火爆。
大家都在猜测,Q*是否就是「Q-learning + A*」。
AI大牛田渊栋也详细分析了一番,「Q*=Q-learning+A*」的假设,究竟有多大可能性。
与此同时,越来越多人给出判断:合成数据,就是LLM的未来。
不过,田渊栋对这种说法泼了冷水。
Q*=Q-learning+A,有多大可能
田渊栋表示,根据自己过去在 OpenGo(AlphaZero 的再现)上的经验,A* 可被视为只带有值(即启发式)函数Q的确定性MCTS版本。
相比之下,围棋却是另一番景象:下一步候选棋相对容易预测(只需通过检查局部形状),但要评估棋盘形势,就棘手得多。
这就是为什么我们也有相当强大的围棋机器人,但它们只利用了策略网络。
传说中的Q*,已经在解决数学问题上有了重大飞跃,这种可能性又有多大呢?
田渊栋表示,自己是这样猜测的:因为解决的入门级数学问题,所以值函数设置起来应该相对容易一些(例如,可以从自然语言形式的目标规范中预测)。
如果想要解决困难的数学问题,却不知道如何该怎么做,那么这种方法可能还不够。
有网友表示怀疑称,「要使A*有效,就需要一个可证明的、可接受且一致的启发式函数。但我非常怀疑能有人想出这样的函数,因为确定子序列的值并不容易。」
即使做出的是小学数学题,Q*也被寄予厚望
对大模型稍微有些了解的人都知道,如果拥有解决基本数学问题的能力,就意味着模型的能力取得了重大飞跃。
这是因为,大模型很难在训练的数据之外进行泛化。
AI训练初创公司Tromero的联合创始人Charles Higgins表示,现在困扰大模型的关键按难题,就是怎样对抽象概念进行逻辑推理,如果实现了这一步,就是毫无疑问的重大飞跃。
数学是关于符号推理的学问,比如,如果X比Y大,Y比Z大,那么X就比Z大。
Tromero联创Sophia Kalanovska表示,这具有非常重要的象征意义,但在实践层面上,它不太可能会终结世界。
那为什么坊间会有「Q*已现AGI雏形」的说法传出呢?
Kalanovska认为,从目前传出的说法看来,Q*能够结合大脑的两侧,既能从经验中了解一些事情,还能同时推理事实。
现有模型的最大限制,就是仅能从训练数据中反刍信息,而不能推理和发展新的想法。
解决看不见的问题,就是创建AGI的关键一步。
但如果LLM真的能够解决全新的、看不见的问题,这就是一件大事,即使做出的数学题是相对简单的。
合成数据是未来LLM的关键?
所以,合成数据是王道吗?
Q*的爆火引起一众大佬的猜想,而对于传闻中「巨大的计算资源,使新模型能够解决某些数学问题」,大佬们猜测这重要的一步有可能是RLAIF(来自 AI 反馈的强化学习)。
RLAIF是一种由现成的 LLM 代替人类标记偏好的技术,通过自动化人工反馈,使针对LLM的对齐操作更具可扩展性。
这也就意味着,合成数据才是王道,并且使用树形结构为以后提供越来越多的选择,以得出正确的答案。
不久前Jim Fan就在推特上表示,合成数据将提供下一万亿个高质量的训练数据。
Jim Fan还引用了Richard S. Sutton的文章《The Bitter Lesson》,来说明,人工智能的发展只有两种范式可以通过计算无限扩展:学习和搜索。
「在撰写这篇文章的2019 年是正确的,而今天也是如此,我敢打赌,直到我们解决 AGI 的那一天。」
Richard S. Sutton是加拿大皇家学会和英国皇家学会的院士,他被认为是现代计算强化学习的创始人之一,对该领域做出了多项重大贡献,包括时间差异学习和策略梯度方法。
利用计算的通用方法最终是最有效的,而且效率很高。但有效的原因在于摩尔定律,更确切地说是由于每单位计算成本持续呈指数下降。
最初,研究人员努力通过利用人类知识或游戏的特殊功能来避免搜索,而一旦搜索得到大规模有效应用,所有这些努力都会显得无关紧要。
统计方法再次战胜了基于人类知识的方法,这导致了整个自然语言处理领域的重大变化,几十年来,统计和计算逐渐成为了主导。
人工智能研究人员经常试图将知识构建到系统中,这在短期内是有帮助的,但从长远来看,有可能会阻碍进一步的进展。
突破性的进展最终将通过基于搜索和学习的方法来实现。
心灵的实际内容是极其复杂的,我们应该停止尝试寻找简单的方法来表示思想,相反,我们应该只构建可以找到并捕获这种任意复杂性的元方法。
——所以,看起来Q*似乎抓住了问题的关键(搜索和学习),而合成数据将进一步使它突破以往的限制,达成自己的飞跃。
对于合成数据,马斯克也表示人类确实打不过机器。
对此,Jim Fan与马斯克互动说,
Jim Fan认为 RLAIF 或者来自 groundtruth 反馈的 RLAIF 如果正确扩展将有很长的路要走。此外,合成数据还包括模拟器,原则上可以帮助LLM开发世界模型。
对于两人的一唱一和,LeCun表示有话要说:
所以,使用更多的数据(合成或非合成)是一种暂时的权宜之计,只是因为我们目前的方法有局限性。
对此,支持「大数据派」的网友表示不服:
LeCun于是给出一个例子作为解释,人类用于承接几百万年进化成果的手段只有基因,而人类基因组中的数据量很小,只有800MB。
另外,黑猩猩和人类基因组之间的差异约为1%(8MB)。这一点点差别完全不足以解释人与黑猩猩之间能力的差异。
而说到后天学习的数据量,一个 2 岁的孩子看到的视觉数据总量是非常小的, 他所有的学习时间约 3200 万秒(2x365x12x3600)。
人类有 200 万根光神经纤维,每根神经纤维每秒传输大约 10 个字节。——这样算下来总共有 6E14 个字节。
相比之下,LLM 训练的数据量通常为 1E13 个token,约为 2E13 个字节。——所以2岁孩子获得的数据量只相当于LLM的 30 倍。
不论大佬们的争论如何,大型科技公司如Google、Anthropic、Cohere 等正在通过过程监督或类似 RLAIF 的方法创建预训练大小的数据集,为此耗费了巨大的资源。
所以大家都清楚,合成数据是扩大数据集的捷径。在短期内,我们显然可以利用它创建一些有用的数据。
只是这是否就是通往未来的道路?只能等待时间来告诉我们答案。
参考资料: