
自我反思(尤其是肤浅的)有时对模型性能的助益不大。
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
与其颠覆Transformer,不如专注改良 Attention?
深度学习领域围绕着如何改进 Transformer 架构的讨论从未停歇。此前,许多研究者试图寻找能够完全替代 Transformer 的新架构,以解决其在计算效率和内存占用方面的局限性。然而,随着研究的深入,继续使用Transformer但改进注意力机制(Attention Mechanism)的做法又开始升温。
大厂、AR 厂商们扎堆 AI 眼镜产品,仅为了数据积累能活到下一轮吗?
近期,AI 眼镜产品在 CES2025 上爆火,百度、阿里等国内大厂也在陆续涌进 AI 眼镜赛道。
合成数据,能与不能?
合成数据的优势涵盖可以大规模生成,可定制,可避开敏感信息,适应多模态学习和可帮助 AI Alignment 等。在2024年里,合成数据似乎开始兑现潜力,绕开模型崩溃的障碍,有望真正开始解决数据稀缺的问题。
黄仁勋「看中」的14款人形机器人,国产占据近半壁江山?
近日,2025 年度 Consumer Electronics Show(CES)在美国拉斯维加斯会展中心举办。英伟达 CEO 黄仁勋在 CES 2025 的一场主题演讲中提到,「机器人技术领域,特别是人形机器人和通用机器人技术,即将迎来 ChatGPT 时刻般的突破。」
AI 时代下,2025 年有哪些关键法律问题?
DENTONS 律师事务所近期发布了一份名为《Global AI trends report: key legal issues for 2025》的报告,全面地介绍了在人工智能技术发展的趋势下,所带来的主要法律和风险趋势变化。
No More Next-Token Prediction?
Meta 的研究者在 2024 年 12 月发布了多项工作中探索了模型的潜在空间(Latent Space),试图通过改变潜空间的排列方式,彻底改变模型的思维表征,进而实现更符合人类思维方式的推理。对潜在空间探索的背景部分原由在于,当前所有开源、闭源的 LLM 均缺乏在抽象层面、独立于特定语言或模态的信息处理和生成的显式分层结构。
Week 04 · 与其颠覆Transformer,不如专注改良 Attention?
本周,月之暗面发布多模态思考模型 Kimi k1.5;OpenAI 正式推出智能体 Operator。
Week 03 · 合成数据,能与不能?
本周,谷歌团队提出适应长期记忆任务的 Titan 架构;UC 伯克利开源成本仅 450 美元的 32B 推理模型 Sky-T1。
Week 02 · No More Next-Token Prediction?
本周,英伟达发布 Cosmos 世界模型平台及技术报告;前 Sora 负责人宣布将领导谷歌 DeepMind 世界模型团队。
Week 01 · Agents Are Not Enough? !
本周,OpenAI 宣布组织架构调整;智谱 AI 发布推理模型 GLM-Zero-Preview。
Week 52 · 让大模型理解「内外远近」更重要?「空间推理」成大厂竞逐焦点
本周,深度求索开源 DeepSeek-V3 模型引热议;传 OpenAI 计划重新研发人形机器人。
Week 51 · 舍弃 Tokenizer 才是做多模态的正解?
本周,CMU 等多家机构联合推出生成式物理引擎 Genesis;谷歌发布 Gemini 2.0 Flash Thinking 版模型。
自我反思(尤其是肤浅的)有时对模型性能的助益不大。
RTX 3080 移动版能训练哪种大模型?本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。
“What I cannot create, I do not understand.”---Richard Feynman
近日,小米集团新一代 Kaldi 团队关于语音识别算法的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》被 ICLR 2025 接收。
奥特曼兑现了承诺。
现代生活几乎必然让我们留下庞大的数字档案——短信、照片、社交媒体帖子,而我们也开始思考它们在对抗失去、寄托哀思中应该扮演什么角色。
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。
钉钉AI助理接入DeepSeek,一键启用R1。
网易有道率先宣布全面拥抱DeepSeek-R1,旗下AI全科学习助手“有道小P”结合DeepSeek-R1超长思维链所提供的思考及分析能力,进一步优化了其个性化答疑功能,能够提供更具深度、更强准确性的解题思路,大幅度升级了用户体验。
2月3日百度智能云宣布 DeepSeek-R1和 DeepSeek-V3模型上架百度智能云千帆平台,并宣布提供行业领先的超低推理价格。模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。
昨天,伊丽莎白女王工程奖发布了今年度的获奖人员名单。
距离他加入 Anthropic,仅仅过去了半年时间。
最热文章