胖白系列 UPSTAGE为何构建微型讲话模子
发布日期:2025-01-06 01:54 点击次数:112
胖白系列
这家韩国公司专注于提供适应使用的讲话模子,这些模子比大型讲话模子更低廉,也更准确。
97自拍超频在线译自WhyUpstageBuildsSmallLanguageModels,作家AlexWilliams。
拉斯维加斯——Upstage是一家韩国企业AI公司,构建微型讲话模子(SLM)以匡助公司科罚文档处理问题。它领先是一家使用光学字符识别(OCR)为韩国大型公司扫描文档的公司。
当ChatGPT出当前,客户开动接头Upstage对于大型讲话模子(LLM)的问题。Upstage使用其OCR功能竣事了95%的准确率,但客户但愿达到100%的准确率。因此,Upstage团队开动寻找粗略悠闲得回更高准确率条目的模子。LLM具有通用性,但较小的模子更适用于文档处理所需的窄小焦点。
微型讲话模子(SLM)莫得得到太多关心,但它们的功能包括提供公司专用甚而国度专用的LLM。
“客户思要一个适应他们我方使用的讲话模子,”麇集首创东说念主兼首席居品官在AWSre:Invent的一次采访中说说念。“是以这即是咱们开动构建微型讲话模子的原因之一。是以面前咱们正在连络文档处理引擎和大型讲话模子。”
模子会通以创建SLM
Upstage,一家AWS生成式AI加快器参与者,使用开源模子,允许在单个GPU上运行。其旗舰模子Solar,与其他在单个GPU上运行的微型模子非常,包括Llama3.81B、MistralSmallInstruct2409和HuggingFace的ExaOne3.07.8BInstruct。
暗示Upstage将两个微型LLM的副本归拢成一个大型LLM。举例,它会将一个70亿参数的模子集成到一个100亿参数的模子中。“若是咱们有一个140亿参数的模子,咱们会将其彭胀到一个220亿参数的模子,”她说说念。“这即是咱们最近一直在作念的。”
模子会通,一种组合LLM的时刻,已在AI社区得回招供。竣事包括诸如权重平均之类的实验,这是一种用不同智商的多个独处模子的参数进行归拢的格局。笔据南洋理工大学、东北大学和中山大学的连络东说念主员8月份发表的一篇论文,模子会通允许数据科学家“在无需走访原始试验数据或奋斗的策动的情况下构建通用模子”。
暗示Upstage仍是发现使用组合模子格局不错擢升其基准测试成果。笔据Upstage网站,SolarPro是一个微型讲话模子,与SolarPro预览版比较,其东亚讲话掌合手智商擢升了64%。
SLM在讲话方面的雠校反应了它们日益普及的趋势。SLM试验较小的数据集,使其粗略活泼地用于Upstage这么的规模中心格局。
暗示大型讲话模子专注于通用智能。微型讲话模子也提供了更窄的焦点。
举例,Upside为泰语构建了一个特定模子。对于泰语,它相同于GPT4,OpenAI的模子。
SLM的建树本钱也低得多。假定,暗示,思象一下一个构建本钱为10好意思元的SLM。一个大10倍的LLM可能要消耗100好意思元。
她暗示,客户将接纳三种遴荐来部署模子。若是他们是在腹地部署模子,他们不错使用Upstage铁心台,该铁心台通过AWS商场提供API。举例,SolarPro模子面前已在AmazonBedrockMarketplace上提供。
本文在云云众生(https://yylives.cc/)首发胖白系列,迎接天下走访。