融资快报
无限光年完成新一轮融资:无限光年的核心产品是可信大模型,这是漆远认为通往人工智能通用智能的道路。可信大模型结合了大语言模型与符号推理,旨在解决大模型的幻觉问题和遗忘性灾难,提高模型的可信度和可解释性。无限光年已完成多轮融资,并与金融和医疗行业的头部企业合作,打造了针对特定行业的精专大模型。此次投资人包括阿里云、启明创投等头部投资机构。创始人漆远从蚂蚁集团副总裁任上离职后,漆远先是重返学界,在复旦担任教职,而后又产学研并行地创立了大模型公司无限光年。
Benchmark募资4.25亿美元投向AI新时代:据《福布斯》获得的一封投资者信显示,风险投资公司 Benchmark 正在为其第十一期基金募集 4.25 亿美元。新基金将被命名为 "Benchmark 1",据悉,该公司的所有合伙人预计都会在其典型的专注领域(如消费科技、云计算或加密货币)内寻找人工智能公司。
软银宣布4亿英镑收购AI芯片公司Graphcore:日本软银宣布将以4亿英镑收购陷入困境的人工智能初创公司 Graphcore,该交易还需要获得英国政府的审查批准才能生效。Graphcore成立于2016年,生产称为智能处理器单元的AI芯片,旨在挑战英伟达。由于英伟达的设备需求量很大,投资者们纷纷向这家初创公司注入资金,寻找替代英伟达的可行方案。2020年,Graphcore以28亿美元的估值筹集2.22亿美元,使其成为英国最有前途的初创公司之一。
EvolutionaryScale获超1.42亿美元种子轮融资:该公司创始团队的八位成员全都来自于meta的FAIR部门 。去年八月meta官宣旗下的蛋白质折叠团队meta-FAIR解散。EvolutionaryScale旨在通过开放、安全的研究方式,来指导蛋白质设计领域的人工智能技术开发,团队开发用于创造新型蛋白质和其他生物系统的大型语言模型ESM,已迭代到ESM-3。本次融资由Nat Friedman和Daniel Gross以及Lux Capital领投,亚马逊、NVentures和天使投资人参投。
DNEG集团获2亿美元战略投资:DNEG是好莱坞视效技术提供商,曾参与多部知名好莱坞电影的制作,如“狂怒”、“银翼杀手2049”和“星际穿越”。这一投资将推动DNEG集团新成立的Brahma,开发人工智能驱动的CGI工具,以简化视觉效果的创作过程。Brahma的AI创作者解决方案将利用超过25年的VFX数据生成逼真的视觉效果。该笔融资来自United Al Saqer Group,将使DNEG集团的估值超过20亿美元。
焱融科技完成双轮融资:焱融科技核心产品YRCloudFile 高性能文件存储系统,在 AI 和高性能计算场景中崭露头角。完成 B 轮和 B+ 轮融资,累计融资额近 2 亿元人民币。两轮融资分别由丰年资本和北京股权领投,老股东耀途资本、卓源亚洲、信雅达等知名投资机构持续跟投。
大道智创完成500万人民币融资:大道智创是一家专注于研发安保机器人的公司,主要研发和销售巡逻机器人、安保机器人等商用服务型机器人,以视觉定位为主,配合多传感器融合,在复杂环境下实现全自主定位巡航,目前已推出了一代产品“e巡 ”机器警长。投资方为中关村科技租赁。
Altrove AI获400万美元种子融资:Altrove使用AI生成无机材料的潜在配方,特别是稀土元素。融资由Contrarian Ventures领投。
Phaidra获1200万美元融资:该公司的系统从设施内的数千个传感器收集数据,并使用人工智能模型就如何更有效地管理和冷却设备做出实时决策。融资由Index Ventures 领投。
OpenLedger 筹集了 800 万美元的种子资金:用于 AI 模型开发的去中心化数据基础设施
(欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品)
国内情报:
2024 世界人工智能大会线下参观人数创历史新高,预计总投资额超 400 亿元:
大会线下参观人数突破 30 万人次,全网流量突破 10 亿,比上届增长了 90%,据悉,本次大会对接 132 个采购团组,形成了 126 个项目采购需求,预计意向采购金额达 150 亿元,推动 24 个重大产业项目的签约,预计总投资额超过 400 亿元。本次大会的展览面积超过 5.2 万平方米,500 余家知名企业、超过 1500 项展品参展,50 余款新品首发首秀,均创历史新高。
快手可灵 AI 网页端上线,文生图大模型“可图”开源:
快手可灵 AI 网页端正式上线,所有功能限时免费。“文生视频”开放最长 10 秒生成能力,“图生视频”新增运镜控制、自定义首尾帧等功能。据悉,已有超过50万用户申请可灵的内测资格,视频生成数量达700万。此外,文生图大模型“可图”开源,已上线网页版和微信小程序,支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。
科大讯飞大模型新增投入超 6.5 亿元、AI 学习机发布预售11699 元:
科大讯飞发布 2024 上半年业绩预告,预计净亏损 3.8 亿元至 4.6 亿元,上年同期盈利 7357.2 万元,同比下降 725.24%~616.50%。科大讯飞表示,公司在全力加大“讯飞星火大模型”研发投入的同时,加快了大模型的落地推广力度。2024 年上半年营收、毛利预计增长 15%-20%,且毛利增速高于收入增速。
此外科大讯飞近期还发布了 AI 学习机新品 T30 Ultra,内置星火大模型,屏幕尺寸为 14.7 英寸,12GB+1TB 版本到手 11699 元,将于 7 月 20 日开售。
智谱开源代码生成大模型 CodeGeeX 第四代,号称百亿以下规模性能最强:
该产品集成了代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等功能,支持超过 300 种编程语言,并且能够处理 128K 上下文,这使得其能够更好地理解和处理复杂的代码文件。CodeGeeX4-ALL-9B 在 Berkeley Function Calling Leaderboard 上的测试表现超过 90% 的成功率,被誉为目前唯一能实现 Function Call 的代码大模型。
腾讯发布大模型时代的AI十大趋势,走进“机器外脑”时代:
腾讯研究院、上海交通大学、腾讯优图实验室、腾讯云智能联合发布了《2024大模型十大趋势——走进“机器外脑”时代》报告。报告指出,我们正在进入一个“机器外脑”时代。海量GPU和新一代大模型的组合起来,使人工智能在三个方向上有了实质性的飞跃:推理分析、创意生成和情绪智能。这意味着AI第一次拥有了类人的交互能能力,新一代AI正在成为人类的“机器外脑”,提供智力的外挂。
上海AI lab开源超强多模态LLM InternLM-XComposer-2.5:
上海 AI 实验室联合香港中文大学、商汤科技集团以及清华大学研发了 IXC-2.5 模型。模型具备长上下文处理能力,能够处理超长的文本和图像输入,同时在视觉能力上有特殊优势,包括超高分辨率的图像理解和细粒度的视频理解。模型架构包括轻量级的视觉编码器、大型语言模型,以及部分 LoRA 对齐技术。在 28 个基准测试中,IXC-2.5 在 16 项测试中超过了现有的开源模型,其余 16 项测试中的表现也接近或超过了 GPT-4V 和 Gemini Pro。
支付宝发布多模态医疗大模型,支持千亿级视觉识别:
支付宝多模态医疗大模型成为国内首批多模态医疗大模型之一。基于蚂蚁百灵的多模态能力,模型可实现直接理解并训练音频、视频、图、文等多模态数据,使其更像人一样感知和互动,能“看”会“听”、能“说”会“画”,支持千亿级别参数医疗视觉识别。据悉,蚂蚁百灵大模型已具备原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。
金山办公发布 WPS AI 2.0,新增 4 个 AI 办公助手,政务自研模型首次亮相:
WPS AI 2.0包含 WPS AI 办公助手、WPS AI 政务版等应用,并首次公开了 13B 级别的政务自研模型,金山政务办公模型 1.0。为个人用户新增了 4 个 AI 办公助手,分别为 AI 写作助手、AI 阅读助手、AI 数据助手、AI 设计助手。此次发布的金山政务办公模型 1.0 擅长公文写作,实现无口语化描述且按照公文风输出,输出的内容自带公文格式,模型了解国家相关政策,回答均基于可靠依据。
阿里“通义”APP上线特殊AI绘本工具“追星星的AI”:
这是一款为孤独症儿童提供定制 AI 绘本服务的工具。它基于阿里自研 Modelscope-Agent 框架,调用了通义大模型的多项服务,可实现从一句话故事梗概到完整有声绘本的生成。上海美术电影制片厂免费授权了旗下经典动画形象供公益绘本使用。“通义”APP 已经限时上线以孙悟空和大耳朵图图为主角的 AI 绘本。
商汤科技发布日日新5.5大模型体系:
该大模型体系包括6000亿参数基础模型日日新5.5,性能提升30%;流式多模态交互模型日日新5o,是国内首个所见即所得模型,可进行实时多模态交互和问答;日日新5.5Lite在端侧模型进行升级,模型精度提升10%、首包延迟降低40%,推理效率提升15%。
王坚称美国AI发展的电力瓶颈短板我国不存在,最不缺就是电:
中国工程院院士、阿里云创始人王坚表示,美国AI人工智能发展的瓶颈是电力,这对中国来说不是问题。“中国一年的发电量是美国、日本、俄罗斯的总和还要多”,王坚说道。另外他提出一个应用、模型、电力和算力的不等式,认为在此不等式下,目前从事人工智能的人还不用担心瓶颈问题。
MiniMax创始人闫俊杰称至少三年后才会出现“杀手级”AI应用:
闫俊杰表示,虽然国内很多公司正在迎头赶上ChatGPT,但是目前模型的错误率在60%-70%的水平,远不及GPT-4的30%-40%。类似于微信、抖音、今日头条这种规模的“杀手级”AI超级应用(Killer App),至少要到三年之后才能实现。
无问芯穹发布全球首个单任务千卡异构芯片混合训练平台,算力利用率达 97.6%:
无问芯穹联合创始人兼 CEO 夏立雪发布无问芯穹大规模模型的异构分布式混合训练系统,称千卡异构混合训练集群算力利用率最高达到了 97.6%。夏立雪还宣布无问芯穹 Infini-AI 云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性。
中国公司开始大量订购NVIDIA H20芯片:
摩根士丹利报告,NVIDIA特供中国市场的人工智能芯片H20系列,开始吸引包括百度、阿里巴巴、腾讯和字节跳动在内的中国科技巨头的采购兴趣。尽管H20在性能上不及英伟达的H100,其AI算力只有H100的不到15%,甚至部分性能不及Ascend 910B,但在国产AI芯片供应不足的情况下,中国厂商的选择显得有些无奈。
百度李彦宏称开源模型是智商税,闭源模型更强大、推理成本更低:
李彦宏称:“我觉得,开源其实是一种智商税”,“当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。今天无论是 ChatGPT、还是文心一言等闭源模型,一定比开源模型更强大,推理成本更低。”
李彦宏还指出,当前AI领域存在一种不良风气,即各个公司竞相发布新一代大语言模型,宣称自己的模型参数规模和训练数据量超越了GPT-4,但在实际应用落地方面却鲜有成熟方案。AI技术的发展不应仅仅停留在跑分和刷榜上。今天一个震撼发布,明天一个史诗级更新,但实际应用却迟迟未见。只有将AI技术应用于实际产业和场景,才能创造出真正的价值。
中国工程院院士高文称今天的人工智能是低水平智能,有一点中水平的假象:
他认为,AI技术的智能水平可以划分为低中高三阶段。低水平智能,是对显式知识的记忆和使用来表现智能,即所谓的记忆学习。中水平智能,是利用得到的少量显式知识,可以类比推理得到相关隐式知识簇。能够举一反三,触类旁通。高水平智能,是利用极少的线索,创造新知识和知识体系,例如牛顿力学和相对论。今天的人工智能,主要还是低水平智能,因为深度神经网络是使用数据训练出来的,是基于统计的模型,连知识都不能算,等到什么时候可解释了,才能算知识。“大语言模式是由不同种的知识涌现,原则上还是低水平智能,有一点中水平的假象,相当于熟读唐诗三百首,不会作诗也会吟,属于熟能生巧的范畴。”
此外高文认为,AI技术需要完善理论基础验证,并实现模型的可解释性;要严格控制人工智能的底层价值取向,实现技术的标准化;在应用阶段,需要预防人为造成的人工智能安全问题,对人工智能进行动机选择。应对强人工智能,必须加强国际合作。
阿里云创始人王坚院士称GPT的潜力还没有被完整地探索:
王坚认为,今天的AI有别于过去的AI,GPT的潜力事实上还没有被完整地探索。此外他还谈到,AI时代下一定会有新的大公司出现,也一定会有大公司“浴火重生”。对于不同规模的企业来说,大企业一定会觉得AI是“工具的革命”;小企业一定会觉得这是“革命的工具”,“如果大企业也意识到这是革命的工具,那变化就来了”。
另外阿里云 CTO 周靖人宣布通义千问开源模型下载量增长 2 倍,突破 2000 万次,阿里云百炼服务客户数从 9 万增长至 23 万,涨幅超 150%。「到今天,通义千问已经实现真正意义上的全尺寸、全模态开源,拉平了开源、闭源模型之间的差距。」
芯原创始人直言百模大战就是“群模乱舞”,是在浪费电:
在中国RISC-V产业联盟理事长、芯原微电子创始人戴伟民博士看来,当前AI领域的"百模大战"现象更像是一种资源的浪费。这种"群模乱舞"的现象实际上并不经济。要实现超越人脑智能的AI,需要不断扩大模型参数规模,这对计算力的需求呈指数级增长,将导致巨大的电力消耗。
他预测,到2028年,中国基础大模型的数量将少于10个,更理想的状态是5个。戴伟民还提到,目前全球有超过100款AI大模型,但这种模式并不可持续,他认为应该集中资源发展更高效、更环保的AI技术,而不是盲目追求模型数量。此外,戴伟民还探讨了生成式AI所需的算力芯片发展趋势,他认为未来将有更多专用芯片出现,挑战现有的GPU/GPGPU架构。
华为张平安称中国 AI 发展离不开算力基础设施的创新,必须摒弃“没有最先进芯片就无法发展”的观念:
张平安指出,华为创新的方向是将端侧的 AI 算力需求通过光纤和无线网络释放到云上,通过端云协同获得无缝的 AI 算力。通过云侧的算力,让端侧既保持了丰富的功能,又极大地降低了功耗和对芯片的依赖。他强调,中国的 AI 发展道路,追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI,积极地开放行业的业务场景,中国很有机会在 2B 领域构筑起全球的领先优势。
更多国内情报:
工信部透露中国算力规模位居全球第二:截至 5 月底,全国规划具有高性能计算机集群的智算中心已达十余个,智能算力在算力总规模中的比重超过了30%。目前,我国已经培育了 421 家国家级智能制造示范工厂,人工智能企业的数量也超过了 4500 家,并推动制定了 48 项智能制造相关的国际标准。
全球最大甲骨文“数据集”开源:“数字甲骨共创中心”正式开源全球最大的甲骨文多模态数据集,共包含一万片甲骨的拓片、摹本,甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法,加速甲骨文研究智能化进程。
B站首次展出自研大语言模型:哔哩哔哩公布了多项自主研发的 AI 技术成果和 AIGC 多元创意,包括最新定制的 AI 语音声库、自研音视频大模型必剪 Studio 以及自研 AI 动态漫技术等。
百度文心智能体平台升级,向开发者免费开放文心大模型4.0:开发者在文心智能体平台上制作智能体时,可灵活选择文心大模型 3.5 或 4.0 版本。
AI罗永浩评10年前与王自如“约架”:有媒体向智谱的数字员工AI老罗提问还记得王自如吗?AI老罗表示:“可别提了,让我想起来的都是些不愉快的事,我们俩在直播辩论的时候,他那个所谓的客观独立第三方的评测,简直让人笑掉大牙。”“我可是为了真理和正义而战,他只会躲在数据后面,不敢正面回应,这种对手不提也罢。”
国内首款鸿蒙人形机器人正在蔚来、亨通等工厂检测验证:“盘古大模型 + 夸父人形机器人”将在工业和家庭两大场景同步推进应用。
国际情报:
英伟达今年在华销售额预计将达120亿美元,发货超100万颗芯片:
芯片咨询公司SemiAnalysis报告预估,今年英伟达有望在中国销售价值约120亿美元的人工智能芯片。黄仁勋曾表示,希望借助新的芯片使得英伟达在中国的业务实现最大化。英伟达有望在未来几个月内在中国交付超过100万颗定制版H20芯片,这些芯片的设计不受美国对向中国客户销售人工智能处理器的限制。据悉,每颗H20芯片的价格在12000至13000美元之间。
消息称黑客去年曾侵入OpenAI内部系统,部分AI设计细节被盗:
据悉,一名黑客去年曾成功“黑入”了OpenAI的内部消息系统,并窃取了有关人工智能技术和研究材料的敏感讨论,但黑客并未进入托管人工智能源代码的服务器。OpenAI高管在去年4月的全体员工大会上向员工和公司董事会通报了这一漏洞,但高管并未对外公开这一消息。
meta AI 重磅发布,多标记预测模型现已开放研究:
meta 在Hugging Face上发布了采用多标记预测方法的预训练模型,可能改变大型语言模型的开发和部署方式。这种新技术模型同时预测多个未来单词,可能改善语言结构和上下文理解,有望提高人工智能效率,加速人机协作编码的趋势。
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍:
DeepMind 研究团队提出了一种名为 JEST(多模态对比学习与联合示例选择)的新算法,旨在加快 AI 训练过程并减少所需的计算资源和能耗。JEST 算法能够以 13 倍更少的迭代次数和 10 倍更少的计算量,超越最先进的模型。这一发现揭示了数据筛选水平可以作为评判 Scaling Law 的一个新维度。JEST 算法通过从 “超级 batch” 中筛选出最具可学习性的 “子 batch”,实现了高效的数据管理和训练过程。实验结果表明,JEST 方法在效率提升和性能优化方面取得了显著成效,尤其是在多模态学习加速和数据质量引导方面。
解锁动物语言?SuperAnimal这款AI神器,颠覆人与自然的关系:
SuperAnimal是一款开源AI模型,能自动识别和分析动物的运动行为,提供精确的姿态分析;该模型通过统一的预训练模型和关键点空间映射,减少人工标注需求,提高数据整合和模型泛化能力;SuperAnimal应用于兽医学、生物医学研究和野生动物保护,使用高级模型架构和独特训练方法以提高性能和适应性。
更多国际情报:
布局 AI 等市场,格芯收购泰戈尔科技氮化镓技术和相关团队:氮化镓成为可持续高效电源管理(尤其是在数据中心)的关键解决方案。泰戈尔科技公司工程师团队将加入格芯,进一步开发氮化镓技术。
“高达”式铁路机器人在日本大范围推广:主要设计用于修剪铁轨上的树枝,固定和喷漆列车上方电缆的金属框架等等。
互联网巨头公司正合法利用用户数据来训练其 AI 模型:多家硅谷科技公司,如谷歌、meta、X、Snap 和 Zoom 在隐私政策和服务条款中,加入了使用用户数据来训练 AI 模型的条款。
真实商战?报告称谷歌曾试图禁止苹果 Safari 浏览器用户使用 AI 摘要功能:美国司法部调查谷歌在搜索行业的统治地位,涉及谷歌每年向苹果支付超 200 亿美元费用,以成为 iPhone 的默认搜索引擎。谷歌试图增加 iPhone 用户在在 Safari 浏览器以外的平台上进行搜索的比例,目标是到 2030 年时达到 50%。为此曾考虑限制 AI 摘要功能,但最终决定不采取这一措施。
YouTube 测试“AI 音频橡皮擦”:该工具使用 AI 算法来专门检测和删除相关歌曲,创作者可轻松移除受版权保护背景音乐,而不会影响包括对话或音效在内的任何其他音频。
Product Hunt 热榜, Pygma
Pygma是一款AI驱动社交媒体管理助手,专为Instagram用户和中小企业量身打造。这款智能工具通过深度分析用户风格和受众反应,在几秒钟内生成定制化的帖子、故事和Reels内容,大大简化了社交媒体流程。
不仅提供内容创作,还集成了智能编辑、排程发布等功能,真正实现一站式社媒管理。其独特的AI生成器和编辑器,加上即将推出的目标受众分析功能,使Pygma成为提升品牌形象和吸引目标受众的强大工具。
?https://www.pygma.me/
GitHub Trending 热榜,智能办公AI助手AnythingLLM
获 YC 投资,为企业构建一站式内部 Agent 和 RAG 应用解决方案的 Mintplex Labs 开源其跨端应用 anything-llm是一款多功能AI商业智能工具,支持多种大型语言模型和操作系统。该工具提供一键安装的桌面应用程序,强调用户隐私保护,支持自定义模型和多种文档格式处理。AnythingLLM适用于个人和组织用户,可在离线环境下运行。
该工具提供全面的开发者API和外观定制选项,支持企业级和开源模型。AnythingLLM的官方网站提供了详细的产品信息,包括定价、使用方法和与其他类似工具的比较。这些特性使AnythingLLM成为一个全面的AI商业智能解决方案。
?https://github.com/Mintplex-Labs/anything-llm
开发者推荐
1.AI模型评测:Artificial Analysis
Artificial Analysis平台专注于对各大LLM API提供商进行全面基准测试,不仅评估模型输出质量,还重点关注响应速度。通过整合LMSYS Chatbot Arena、Hugging Face排行榜和斯坦福HELM项目等多方数据,Artificial Analysis为开发者提供了更全面、更实用的模型选择参考。
这一创新approach填补了现有AI评测体系的空白,特别适合对令牌生成速度要求较高的应用场景。业内专家认为,Artificial Analysis的出现将激励AI服务提供商不断优化模型性能,推动整个行业向更高效、更实用的方向发展。对开发者而言,这个网站的评测结果将帮助他们更精准地选择适合自身需求的AI模型,从而提升应用效果和用户体验。
?https://artificialanalysis.ai2.KREA免费生成和增强图像与视频
KREA 旨在通过强大的人工智能技术,让用户能够直观地生成和增强图像与视频。该平台提供了多种功能,包括实时视频生成、图像增强、视频增强以及免费访问的 AI 视频生成。此外,KREA 还推出了一系列迷你应用程序,如 “Logo Illusions” 和 “AI Patterns”,以及旧版应用程序,如 “AI Training” 和 “Canvas Project Studio”。用户需要在浏览器中启用 Javascript 以正确查看页面。
?https://www.krea.ai/home
3.AI视频创作一条龙,达摩院“寻光”突破可控编辑难题:
寻光定位为PUGC一站式AI视频创作平台,能够实现视频创作的全流程 AI 辅助,包括剧本创作、分镜图设计、视频素材编辑等。让视频编辑像操作PPT一样简单,主要用于辅助创作剧本、分镜图,支持对素材进行AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能,解决了 AI 视频内容的可控编辑问题。
?https://xunguang.damo-vision.com/
前沿技术
1.LivePortrait:AI 肖像动画技术
快手科技团队推出 LivePortrait,这是一种基于隐式关键点框架的高效肖像动画技术。它能从单张源图像和驱动视频生成生动的视频,展现出优秀的泛化能力、可控性和效率。
研究者通过扩大训练数据集、采用混合训练策略、升级网络架构等方法提升了生成质量。LivePortrait 在 RTX 4090 GPU 上每帧仅需 12.8 毫秒,效果媲美扩散模型方法。该项目的推理代码和模型已开源。
?https://liveportrait.github.io/
2.通义语音团队开源了语音基座大模型,SenseVoice和CosyVoice:
SenseVoice多语言音频理解大模型:多语言语音识别在中文和粤语上相比Whisper相对提升+50%,推理速度快15倍,并且支持SOTA的情绪识别和音频事件检测。
CosyVoice多语言音频生成大模型:通过超过17万小时的多语言音频数据训练,支持多语言、音色和情感控制,CosyVoice则在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。
?https://fun-audio-llm.github.io/
3.斯坦福大学发布OccFusion,可完整渲染出被遮挡的人体:
OccFusion 是一种基于高效 3D 高斯分片和预训练 2D 扩散模型的人体渲染技术,它能在人体被部分遮挡的情况下渲染出完整的形态。OccFusion 在 ZJU-MoCap 和 OcMotion 序列上进行了评估,表现出色,达到了遮挡人体渲染的最新水平。整个训练过程仅需在单个 Titan RTX GPU 上花费 10 分钟。
?https://cs.stanford.edu/~xtiange/projects/occfusion/
4.浦语灵笔 IXC-2.5 展现多模态实力
上海人工智能实验室最新推出的浦语灵笔 IXC-2.5 模型引发业界关注。这款基于7B LLM的多模态大模型在图像和视频理解方面表现出色,据称能力可与GPT-4V相媲美。其特色功能包括高分辨率图像理解、精细视频分析和多轮多图像对话。该模型还拓展了实用领域,能够自动生成网页和创作高质量文章,利用逐步推理方法确保长文本内容的逻辑性和连贯性。浦语灵笔 IXC-2.5 的推出为人工智能在多模态应用领域开辟了新的可能性。
?https://huggingface.co/spaces/Willow123/InternLM-XComposer
5.推荐系统新范式:DiffMM开启多模态精准推荐时代
港大和腾讯研究人员联手打造的DiffMM多模态推荐系统引发业界关注。这一创新模型通过构建包含用户和视频多元信息的图谱,并结合图扩散技术和对比学习方法,实现了对用户喜好的深度理解。在三个公共数据集的实验中,DiffMM展现出卓越性能,超越现有基线模型。该项目已开源,为推荐系统研究提供了新思路,有望在短视频等领域带来更精准的个性化推荐体验。
?https://github.com/HKUDS/DiffMM
6.快手AI绘画新里程碑:Kolors模型双语图像生成
快手科技旗下Kolors团队近日推出了一款突破性的文本到图像生成模型Kolors。这一基于潜流扩散技术的大规模模型在数十亿文本-图像对上进行训练,在视觉质量、语义准确性和中英文字体渲染方面均展现出卓越表现。Kolors支持中英双语输入,特别在生成中文内容时表现出色。通过人类专家评估和机器评测,Kolors在视觉吸引力和整体满意度方面均领先于现有开源和闭源模型。
?https://github.com/Kwai-Kolors/Kolors
热议话题
AI应用现状:期待与现实的差距
Retool 2024年上半年AI状况报告指出AI应用的真实情况:
1.AI采用,进展缓慢但稳定:AI在企业中的实际应用进展并不如想象中迅速。报告显示,仅有约30%的受访者认为他们的公司在AI采用方面处于"运行"或"飞行"阶段,这一比例甚至较2023年有所下降。
2.AI影响尚未达到变革性水平:尽管AI已在多个领域得到应用,但影响力似乎被夸大了。受访者给出的平均影响评分仅为6.7/10,远未达到"变革性"的程度。
3.投资态度,谨慎乐观:尽管AI的实际影响有限,但大多数企业并不认为他们在AI上投资过度。相反,42%的受访者认为投资"恰到好处",40.5%甚至认为投资"不够"。企业对AI的长期潜力持乐观态度,愿意继续投入资源。
4.AI应用场景以内部为主,外部谨慎:企业更倾向于在内部应用AI技术。最常见的用例包括编写代码或查询(42.1%)、知识库问答(36.4%)和支持聊天机器人(33.9%)。相比之下,面向客户的AI应用相对较少。这种倾向可能源于企业希望在内部环境中先行试验和完善AI应用,以降低风险。
5.OpenAI独占鳌头,新星崭露头角:在AI技术栈方面,OpenAI的模型仍然主导市场,GPT-4和GPT-3.5合计占据70%的份额。不过像Anthropic的Claude 3和Mistral这样的新兴模型正在崭露头角,AI技术生态趋向多元化。
6.潜力巨大,道路漫长:业内人士对AI未来发展保持乐观。总的来说,AI技术的发展正处于一个关键的转折点。虽然其影响力尚未达到预期,但企业和开发者正在积极探索和实践,为未来的突破奠定基础。
?https://retool.com/blog/state-of-ai-h1-2024
本文地址:http://www.dbeile.cn/quote/65.html 多贝乐 http://www.dbeile.cn/ , 查看更多