專屬客服號
微信訂閱號
全面提升數(shù)據(jù)價值
賦能業(yè)務(wù)提質(zhì)增效
5月6日 記者獲悉,國內(nèi)權(quán)威的大模型評測機構(gòu)SuperCLUE發(fā)布《中文大模型基準測評2024年度4月報告》。其中,騰訊混元大模型位列國內(nèi)大模型第一梯隊,在基礎(chǔ)和場景應(yīng)用上均處于領(lǐng)先位置,位于卓越領(lǐng)導(dǎo)者象限。
SuperCLUE是國內(nèi)權(quán)威的通用大模型綜合性測評基準,其前身是知名的第三方中文語言理解測評基準CLUE(The Chinese Language Understanding Evaluation)。SuperCLUE基于通用大模型在學(xué)術(shù)、產(chǎn)業(yè)與用戶側(cè)的廣泛應(yīng)用,構(gòu)建了多層次、多維度的綜合性測評基準,由十大基礎(chǔ)任務(wù)組成,包括邏輯推理、代碼、語言理解、長文本、角色扮演等。
報告選取了國內(nèi)外具有代表性的32個大模型4月份的版本,通過多維度綜合性測評,真實準確地反映了國內(nèi)外大模型在中文領(lǐng)域的綜合能力和發(fā)展現(xiàn)狀。測評報告的總分排名上,騰訊混元大模型位列前三,體現(xiàn)了領(lǐng)先的模型實力。
在十大能力得分中,騰訊混元大模型的各項能力較為均衡,在語義理解能力上,以75.4的高分排名國內(nèi)第一;在角色扮演、安全能力、計算、邏輯推理、工具使用、長文本能力上,也均處于位于國內(nèi)一流水平。
整體來看,國內(nèi)大模型的第一梯隊已達到或接近國際一流的水平,其中既有騰訊混元、文心一言、通義千問等來自大廠的大模型,也有GLM-4、Baichuan3、Moonshot和Minimax等大模型創(chuàng)業(yè)公司的代表。
作者:宋婧 來源:中國電子報、電子信息產(chǎn)業(yè)網(wǎng)
本文為本網(wǎng)轉(zhuǎn)載,出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性,如涉及侵權(quán),請權(quán)利人與本站聯(lián)系,本站經(jīng)核實后予以修改或刪除。
請完善以下信息,我們的顧問會在1個工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)
評論