📢 Gate广场专属 #WXTM创作大赛# 正式开启!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),总奖池 70,000 枚 WXTM 等你赢!
🎯 关于 MinoTari (WXTM)
Tari 是一个以数字资产为核心的区块链协议,由 Rust 构建,致力于为创作者提供设计全新数字体验的平台。
通过 Tari,数字稀缺资产(如收藏品、游戏资产等)将成为创作者拓展商业价值的新方式。
🎨 活动时间:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 参与方式:
在 Gate广场发布与 WXTM 或相关活动(充值 / 交易 / CandyDrop)相关的原创内容
内容不少于 100 字,形式不限(观点分析、教程分享、图文创意等)
添加标签: #WXTM创作大赛# 和 #WXTM#
附本人活动截图(如充值记录、交易页面或 CandyDrop 报名图)
🏆 奖励设置(共计 70,000 枚 WXTM):
一等奖(1名):20,000 枚 WXTM
二等奖(3名):10,000 枚 WXTM
三等奖(10名):2,000 枚 WXTM
📋 评选标准:
内容质量(主题相关、逻辑清晰、有深度)
用户互动热度(点赞、评论)
附带参与截图者优先
📄 活动说明:
内容必须原创,禁止抄袭和小号刷量行为
获奖用户需完成 Gate广场实名
国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用
来源:量子位
首个中英双语的语音对话开源大模型来了!
这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。
支持文本语音输入,手机也可玩
据研究人员表示,LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。
那么,就来看看它的语音文本输入和中英双语能力如何。
首先来个中英文化碰撞,让它用英文评价一下李白:
可以看出,模型思考一会后给出了非常中立的评价,也具备大模型的基本“端水常识”(手动狗头)
我们试着用语音输入“给我推荐一个菜谱吧”:
可以看到模型准确地输出了一个“茄子芝士”的菜谱,就是不知道好不好吃。
不过,我们在尝试的时候也发现,这个模型有时候会出bug。
例如有时候它并不能很好地“听懂人话”。
要求输出中英混合的内容,它会假装看不懂并输出英文:
不过分开的话,它的中英文表述能力还是不错的。
那么,这样的模型究竟是怎么实现的呢?
做了个什么新模型?
从试玩来看,LLaSM主要有两个特点:一个是支持中英输入,另一个是语音文本双输入。
要做到这两点,分别需要在架构和训练数据上做一些调整。
架构上,LLaSM将当前的语音识别模型和大语言模型做了个整合。
LLaSM由三个部分构成,分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。
其中,Whisper负责接收原始语音输入,并输出语音特征的向量表示;模态适配器负责对齐语音和文本嵌入;LLaMA则负责理解语音和文本输入的指令,并生成回复。
训练数据上,研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。
而在50.8万个语音-文本样本中,有8万个中文语音样本,42.8万个英文语音样本。
研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集,通过文本转语音技术,给这些数据集生成语音包,同时过滤掉无效对话。
不过,论文暂时没有对比它和其他语音模型或文本模型的输出效果。
作者介绍
这篇论文来自LinkSoul.AI、北京大学和零一万物。
共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI,此前曾经在北京智源人工智能研究院工作。
LinkSoul.AI是一家AI初创公司,之前推出过首个开源Llama 2的中文语言大模型。
Demo地址: