美团发布并全面开源原生多模态大模型LongCat-Next
美团发布并全面开源原生多模态大模型LongCat-Next及其核心组件——离散原生分辨率视觉分词器(dNaViT)。该模型打破当前大模型以语言为中心的传统拼凑式架构,将图像、语音与文本统一映射为同源的离散Token,通过纯粹的下一个Token预测范式,让视觉与语音成为AI的原生母语。这是美团在通往物理世界AI道路上的重要进展。
相关股票
3 只 · 按关联度排序
视
80%
加载行情
哎今天有个事儿挺有意思的,美团刚发了一个大模型叫LongCat-Next,关键是全面开源了。说白了就是美团自己在AI这块儿往前迈了一大步,同时把技术成果分享出来了。
这个模型有啥特别的呢?之前的大模型基本都是围绕语言文字做的,图像啊语音啊都是后来拼上去的。但美团这个不一样,它是把图像、语音、文本都放在同一个架构里,用同一种"语言"来处理。官方说法叫离散原生分辨率视觉分词器,听着挺复杂,但本质上就是让AI像 native speaker 一样直接"看"和"听",而不是先翻译成文字再处理。
恒
80%
加载行情
哎今天有个事儿挺有意思的,美团刚发了一个大模型叫LongCat-Next,关键是全面开源了。说白了就是美团自己在AI这块儿往前迈了一大步,同时把技术成果分享出来了。
这个模型有啥特别的呢?之前的大模型基本都是围绕语言文字做的,图像啊语音啊都是后来拼上去的。但美团这个不一样,它是把图像、语音、文本都放在同一个架构里,用同一种"语言"来处理。官方说法叫离散原生分辨率视觉分词器,听着挺复杂,但本质上就是让AI像 native speaker 一样直接"看"和"听",而不是先翻译成文字再处理。
开
80%
加载行情
哎今天有个事儿挺有意思的,美团刚发了一个大模型叫LongCat-Next,关键是全面开源了。说白了就是美团自己在AI这块儿往前迈了一大步,同时把技术成果分享出来了。
这个模型有啥特别的呢?之前的大模型基本都是围绕语言文字做的,图像啊语音啊都是后来拼上去的。但美团这个不一样,它是把图像、语音、文本都放在同一个架构里,用同一种"语言"来处理。官方说法叫离散原生分辨率视觉分词器,听着挺复杂,但本质上就是让AI像 native speaker 一样直接"看"和"听",而不是先翻译成文字再处理。