(华盛顿/上海综合讯)阿里巴巴旗下的通义千问实验室星期二(3月11日)开源R1-Omni模型,提升了多模态情感识别性能,据说能通过视频解读人类情绪。
综合彭博社与《科创板日报》报道,在两场演示视频中,通义千问实验室研究员展示了R1-Omni模型,它可推断视频人物的情绪状态,同时还可描述他们的衣服和环境。
R1-Omni是业界首个将具有可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards,简称RLVR)应用于全能多模态大语言模型。RLVR是深度求索(DeepSeek)模型R1的训练模式。
开发团队称,研究人员利用RLVR对开源Omni模型HumanOmni-0.5B进行优化,在推理能力、情感识别准确性和泛化能力三个关键方面显著提高了性能。
在DeepSeek-R1今年1月亮相并震撼科技圈后,阿里巴巴也加快人工智能(AI)领域的推进步伐,目前在多个领域推出新的AI工具和应用。
阿里巴巴对标DeepSeek的模型通义千问,成为苹果在中国大陆市场的合作伙伴,为中国iPhone用户提供AI服务。与此同时,阿里似乎也在与美国的OpenAI较量。
OpenAI今年早些时候推出GPT-4.5模型,称它能更好地识别和响应用户书面提示的微妙线索,但这款模型价格不菲,最初只提供给每月支付200美元(266新元)的用户,而阿里免费将R1-Omni提供给用户下载。
阿里巴巴首席执行官吴泳铭2月称,通用人工智能是阿里巴巴AI战略的首要目标,即AI能完成80%以上的人类能力。
您查看的内容可能不完整,部分内容和推荐被拦截!请对本站关闭广告拦截和阅读模式,或使用自带浏览器后恢复正常。