早报：谷歌Gemini生图功能紧急关闭；谷歌发布VideoPrism：通用视觉编码器刷新30项SOTA

当前位置 : 上海方锐云网络科技有限公司 > 新闻资讯

早报：谷歌Gemini生图功能紧急关闭；谷歌发布VideoPrism：通用视觉编码器刷新30项SOTA

时间：2024-02-26 11:24:26

　　我会每日推送 AI 领域资讯新闻，每双月推送关于 AI 的精选线下活动。

　　众多用户在使用人像生成服务时发现，Gemini 似乎拒绝在图像中描绘白人，以至于生成了不少违背基本事实（性别、种族、宗教等）的图片。图灵奖获得者 Yann LeCun表示图像重建任务会受到训练数据集统计的严重偏差影响，生成图像模型的性能会受到训练数据集中种族组成的影响。对此，谷歌承认了错误，谷歌高管为Gemini性别歧视致电马思克道歉，暂停了 Gemini 的人物图像生成功能，表示正在开发改进版本。

　　谷歌团队推出「通用视觉编码器」VideoPrism，旨在解决广泛的视频理解任务，包括分类、本地化、检索、字幕和问答。在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练，能够通过单一冻结模型，处理各种视频理解任务，性能刷新30项SOTA。

　　基于Transformer的架构和LLM依然难以处理规划和推理任务。已有研究证明，LLM难以应对多步规划任务或高阶推理任务。基于此，MetaFAIR田渊栋团队近日提出了Searchformer，提出了一种新方法：搜索动态引导（searchdynamicsbootstrapping）。据悉该方法首先是训练一个Transformer模型来模仿A∗的搜索过程。

　　谷歌将付费访问 Reddit 的数据 API，Reddit 将向谷歌提供其论坛上发布的内容，谷歌将利用这些内容来训练和更新人工智能聊天机器人，据报道，这笔交易每年价值 6000 万美元。谷歌并不是唯一一家掏腰包的公司。OpenAI 同意每年支付数百万美元来获取和德国出版商 Axel Springer SE 的新闻文章

　　多模态大模型初创公司香港WeituAI公司完成了天使轮融资，天使轮估值一亿美金。据WeituAI公司介绍，多模态大模型的研发最重要的是两种能力需要同时具备，一种是基础的大模型的研发能力，一种是长期专注的多模态能力，对多模态数据，建模，任务的理解和认知。WeituAI团队不仅具有全栈式多模态大模型的研发能力，还将瞄准多模态大模型驱动的AI产品研发，给用户带来更加智能，更加好用的人工智能产品。

　　字节跳动发布了最新的文生图模型——SDXL-Lightning，已经向社区开放。该模型通过渐进式对抗蒸馏（ProgressiveAdversarialDistillation）技术生成速度，能够在2步或4步内生成极高质量和分辨率的图像，将计算成本和时间降低十倍，官方介绍甚至可以在1步内为超时敏感的应用生成图像。

　　谷歌最近的Chrome更新引入了一个创新工具“帮我写作”，展示了人工智能通过了解用户上下文并提供量身定制的建议来彻底改变日常任务的潜力，特别是在写作方面。GoogleChrome中由人工智能驱动的写作工具彻底改变了数字写作任务的游戏规则。它简化了电子邮件的撰写和在线内容的制作，为用户提供了情境化的建议。对企业而言，该工具可以简化客户沟通并增强产品描述，从而有可能消除对专业文案的需求。

新闻资讯

早报： 谷歌Gemini生图功能紧急关闭；谷歌发布VideoPrism：通用视觉编码器刷新30项SOTA

早报：谷歌Gemini生图功能紧急关闭；谷歌发布VideoPrism：通用视觉编码器刷新30项SOTA