最专业的美发工作室,让您的美丽从头开始
我会每日推送 AI 领域资讯新闻,每双月推送关于 AI 的精选线下活动。
坐稳了,我们现在发车。1.【阿里巴巴发布EMO框架:音频即可生成鲜活AI视频】
阿里巴巴智能计算研究院最新推出了基于音频驱动的肖像视频生成框架EMO(EmotePortraitAlive)同时宣布开源。该框架可在输入单张参考图像以及一段音频的情况下生成表情生动的AI视频。EMO与Sora技术路线不同,并非建立在类似DiT架构的基础上,也就是没有用Transformer去替代传统UNet,其骨干网络魔改自StableDiffusion1.5。具体来说星空体育app下载,EMO是一种由帧编码阶段和扩散阶段这两个阶段构成的音频驱动的肖像视频生成框架,可以根据输入音频的长度生成任何持续时间的视频。
英伟达推出了150亿参数的Nemotron-4,目标是打造一个能在单个A100/H100可跑的通用大模型。根据模型论文,Nemotron-4是一个在8万亿个文本标记上训练的150亿参数大型多语言语言模型,在英语、多语言和编码任务评估中表现出强大的性能:它在7个下游评估领域中的4个领域优于所有现有的类似规模的开放模型,并在其余领域中实现了与领先开放模型竞争的性能。具体而言,Nemotron-415B展示了所有类似大小模型中最好的多语言功能,甚至优于四倍以上的模型和明确专门用于多语言任务的模型。
陈丹琦团队发布了CEPE(并行编码上下文扩展,Context Expansion with Parallel Encoding)这一新的LLM上下文窗口扩展方法,可用于扩展任何预训练和指令微调模型的上下文窗口。它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至128k,作为轻量级框架,它只需要原来1/6的内存,模型就获得了10倍吞吐量。对于预训练的仅解码器语言模型,CEPE通过添加小型编码器和交叉注意力模块来实现扩展,这两个组件分别用于对长上下文进行块编码和关注编码器表示。
蚂蚁AI创新研发部门NextEvo和武汉大学联合组成的团队推出SkySense,这是一款基于蚂蚁百灵大模型平台能力开发的多模态遥感模型,其参数规模达到了20亿,可实现文本、红外光、可见光、SAR雷达多种模态、多分辨率的时序遥感影像建模。在与国际上已发布的包括IBM和NASA联合研发的Prithvi等共18个全球主流同类模型的比较中,SkySense在17项测评中均名列第一。
Cohesity宣布推出一款名为Gaia的GenAI聊天机器人,Cohesity声称其是业界首款由人工智能驱动的对话搜索助手,可帮助企业将二手数据转化为知识。Gaia是xk星空体育一款与Cohesity数据云集成的Saas产品,具有以下功能:
涵盖所有工作负载、所有时间点的所有文件的完全索引数据库,支持创建AI就绪索引以实现快速对话式搜索和响应。
所有索引数据都可以立即读取,无需重建备份,从而使Cohesity数据云能够像数据湖一样实时访问数据
基于角色的精细访问控制和零信任安全原则,可保护对敏感信息的访问并帮助保持对各种监管要求的合规性。
大量用户反应,Copilot最近开始出现逻辑混乱,强迫用户崇拜SupremacyAGI,甚至敲诈、威胁用户。对此,微软表示”当微软具体查了这些记录后,做出了回应——都是用户故意设计的。我们已经调查了这些报告,并采取了适当的行动,以进一步加强我们的安全过滤器,并帮助我们的系统检测和阻止这些类型的提示。这种行为仅限于少数提示,这些提示是故意设计的,以绕过我们的安全系统,用户在正常使用服务不会遇到类似的情况。”
百度首席执行官李彦宏表示,从长远来看,我们可能无法使用最先进的GPU,但凭借最高效的国产软件堆栈net-net,用户体验不会受到影响。在现有的芯片储备和可购买的产品之间,百度为“许多”人工智能原生应用程序保持了足够的能力。“应用层、模型层、框架层都有很大的创新空间。我们端到端自主研发的四层AI架构,加上我们强大的研发团队,将支持我们使用不太先进的芯片为了高效的模型训练和推理,”他补充道,然后转向称使用功能较弱的设备执行任务的能力“是相对于我们国内同行的独特竞争优势。”。
在布鲁克林的HotPod峰会上,Adobe宣布了新的生成式AI实验项目:ProjectMusicGenAIControl,一款新的原型工具,允许用户使用文本提示生成音乐,然后编辑音频,而无需跳转到专用编辑软件。
Copyright © 2012-2024 上海方锐云网络科技有限公司 版权所有HTML地图 XML地图txt地图 | 沪ICP备2023013812号-2