大模型周报2025-05-03
type
status
date
slug
summary
tags
category
icon
password
网址
大家好,今天是2025年05月03日。以下是这篇周报内容的摘要:
(1).png?table=block&id=1e8e97fe-d823-818d-9ca9-fd7ab5ee31bf&t=1e8e97fe-d823-818d-9ca9-fd7ab5ee31bf)
本周AI领域的重要进展包括:
- 人形机器人运动突破:北京人形机器人创新中心的天工 Ultra 完成半程马拉松,用时2小时40分42秒。
- 医疗AI:浙大团队发布智能眼科诊断方案Eyecare Kit,包含数据集、评估基准和视觉理解模型。
- 视频生成:生数科技推出Vidu Q1视频大模型,支持1080P分辨率的多类型视频生成,性能超越多个国际知名模型。
- AI安全研究:港理工开发CheatAgent框架,揭示大模型推荐系统的安全漏洞。
- 智能工具创新:
- LiveCC:新型体育视频实时解说模型
- Fellou:支持跨网页深度搜索的智能体浏览器
- AI Slides:智能PPT生成工具
- BitNet:微软推出高效1-bit大模型
- PlaneGlow:个性化学习计划生成系统
- ProGen 3:新一代蛋白质设计模型
以下是详细信息:
- 在上周六的人形机器人半程马拉松比赛中,北京人形机器人创新中心研发的天工 Ultra 以 2 小时 40 分 42 秒完赛,虽远落后于人类冠军的 1 小时 11 分 07 秒。本次比赛全程 21 公里,约 20 台双足人形机器人与逾万名人类选手参赛。赛事设置机器人与人类分道隔离。尽管有些机器人刚起跑就退赛,且机器人不一定非要用双足人形设计来跑马拉松,但这种看似无用的尝试可能蕴含着未来的价值。
- 浙江大学研究团队面向智能眼科诊断(intelligent ophthalmic diagnosis)推出 Eyecare Kit 解决方案。针对该领域缺乏高质量数据系统化基准和精细化模型的问题,团队构建了眼科视觉指令数据集 Eyecare-100K,设计了评估 LVLMs 诊断能力的基准 Eyecare-bench,并开发了支持细粒度眼科视觉理解的 Eyecare-GPT,在多项眼科任务中均表现优异。
- 生数科技上线视频大模型 Vidu Q1,该模型在理解提示词语义和镜头逻辑方面有重大突破。模型支持 1080P 分辨率,可生成动漫、短剧、电商和品牌广告等视频内容,实现即时生成和商用。根据 vbench 1.0 和 vbench 2.0 的测试结果,Vidu Q1 的性能超越了 Runway、Sora 和快手 Kling 等国内外顶尖模型。
- 大语言模型正在赋能推荐系统,但相关安全问题研究仍显不足。为此,香港理工大学研究团队推出攻击框架 CheatAgent,通过分析和迭代完善,让基于大模型的智能体对推荐系统进行攻击。广泛实验证实了该攻击方法的有效性,揭示了大模型推荐系统在对抗攻击面前的脆弱性。
- 新加坡国立大学与字节跳动的研究团队推出体育视频实时解说模型 LiveCC(CC for closed caption),能模仿人类解说员进行体育比赛解说。测试表明,LiveCC-7b-Instruct 模型在实时解说质量上超越了拥有 720 亿参数的领先模型 LLaVA-Video-72B。
- 中国团队推出智能体浏览器 Fellou(agent's browser),它能自动分解用户目标任务,支持跨网页深度搜索和操作,包括安全访问需要登录的平台。这意味着它可以登录账号访问私有数据,例如登录微博账号以更好地完成端到端任务。此外,Fellou 还配备影子空间(shadow workspace),让智能体在虚拟环境中执行任务时不会影响用户正常浏览。用户评测显示,Fellou 在可读性、表述清晰度、准确度以及思考的深度和广度方面表现出色,任务执行速度也明显优于 menus 和 opening ID research。
- GenSpark 推出 AI Slides 智能幻灯片工具,可基于上传的 Word、Excel、PDF 等格式文件,或按主题要求自行搜索研究来生成专业级 PPT。工具支持后期优化,包括按提示词整合图表、插入音视频、手动修改内容等,还能生成不同风格的趣味 PPT。Microsoft Research 推出原生 1-bit 大模型 BitNet-b1.58 2B4T(20 亿参数,基于 4 万亿 token 训练),将模型权重量化为三元值,每个权重信息量为 1.58 位。与传统的 32 位和 16 位浮点数计算相比,这种量化方法大幅降低了计算复杂度和能耗。该模型在语言理解、数学推理、编码和绘画等多个领域的评估中表现出色,与同规模的全精度大模型相当。BitNet 旨在实现在普通 CPU 上运行数十亿至数百亿参数级大模型。
- 德州农工大学研究团队推出面向个性化学习的 PlaneGlow 系统,通过以用户为中心的交互方式,生成个性化且解释清晰的学习计划。评估显示,相比 Khanmigo 等基准系统,PlaneGlow 在可用性、可控性和可解释性方面更胜一筹,其生成的学习计划也获得教育专家认可。AI 驱动的蛋白质设计公司 ProFluent 发布新一代技术模型 ProGen 3,可设计全新蛋白质或优化现有蛋白结构,满足药物研发和基因编辑等生物工程需求。模型基于 34 亿个蛋白质序列训练,最大版本达 460 亿参数。湿实验室(wetlab)评估发现,模型规模越大,越能为更多样的蛋白质家族生成具有功能活性的蛋白质,对实验数据的响应能力也更强。这表明模型具备更强的自我调整能力,在蛋白质适应性预测和序列生成方面表现更优。
上一篇
大模型周报2025-04-24
下一篇
KServe快速开始
Loading...