亚洲国产爱久久全部精品_日韩有码在线播放_国产欧美在线观看_中文字幕不卡在线观看

Skip to content

kwai/KwaiYii

Folders and files

NameName
Last commit message
Last commit date

Latest commit

?

History

38 Commits
?
?
?
?

Repository files navigation

「快意」大規(guī)模語言模型(KwaiYii)

簡介

????????「快意」大模型(KwaiYii) 是由快手AI團(tuán)隊(duì)從零到一獨(dú)立自主研發(fā)的一系列大規(guī)模語言模型(Large Language Model,LLM),當(dāng)前包含了多種參數(shù)規(guī)模的模型,并覆蓋了預(yù)訓(xùn)練模型(KwaiYii-Base)、對話模型(KwaiYii-Chat)。這里面我們介紹13B規(guī)模的系列模型KwaiYii-13B,其主要特點(diǎn)包括:

  • KwaiYii-13B-Base預(yù)訓(xùn)練模型具備優(yōu)異的通用技術(shù)底座能力,在絕大部分權(quán)威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。例如,KwaiYii-13B-Base預(yù)訓(xùn)練模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前處于同等模型規(guī)模的領(lǐng)先水平。
  • KwaiYii-13B-Chat對話模型具備出色的語言理解和生成能力,支持內(nèi)容創(chuàng)作、信息咨詢、數(shù)學(xué)邏輯、代碼編寫、多輪對話等廣泛任務(wù),人工評估結(jié)果表明KwaiYii-13B-Chat超過主流的開源模型,并在內(nèi)容創(chuàng)作、信息咨詢和數(shù)學(xué)解題上接近ChatGPT(3.5)同等水平。

Benchmark評測效果

????????我們選取了行業(yè)中被廣泛認(rèn)可的權(quán)威Benchmark進(jìn)行評測,例如體現(xiàn)英文綜合能力的MMLU、體現(xiàn)中文綜合能力的C-Eval和CMMLU、體現(xiàn)中小學(xué)數(shù)學(xué)能力的GSM8K以及體現(xiàn)代碼能力的HumanEval,并與行業(yè)上的主流模型在上述Benchmark上匯報(bào)的指標(biāo)結(jié)果進(jìn)行比較。具體對比結(jié)果如下所示:

  • C-Eval是一個(gè)全面的中文基礎(chǔ)模型評測數(shù)據(jù)集,由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建,包含12342道單項(xiàng)選擇題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等52個(gè)不同學(xué)科和四個(gè)難度級別,是最具影響力的中文綜合性考試評測集之一。其采用5-shot的方式進(jìn)行評測。
Model 5-shot Average STEM Social
Sciences
Humanities Others
預(yù)訓(xùn)練模型 KwaiYii-13B-Base 62.6 52.7 74.1 68.8 63.7
ChatGLM2-12B-Base 61.6 55.4 73.7 64.2 59.4
Qwen-7B 59.6 52.8 74.1 63.1 55.2
Baichuan-13B-Base 53.6 47 66.8 57.3 49.8
對話模型 ChatGLM2 71.1 64.4 81.6 73.7 71.3
GPT-4 68.7 67.1 77.6 64.5 67.8
KwaiYii-13B-Chat 59.0 49.9 69.2 63.9 61.0
ChatGLM2-12B-Chat 57.0 52.1 69.3 58.5 53.2
GPT-3.5 54.4 52.9 61.8 50.9 53.6
Baichuan-13B-Chat 51.5 43.7 64.6 56.2 49.2
  • MMLU由加州大學(xué)伯克利分校等知名高校共同打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目,包含14079道單項(xiàng)選擇題,主要目標(biāo)是對模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。其內(nèi)容廣泛,從初級水平一直涵蓋到高級專業(yè)水平,同樣采用5-shot方式進(jìn)行評測。
Model 5-shot Average STEM Social
Sciences
Humanities Others


預(yù)訓(xùn)練模型
KwaiYii-13B-Base 57.42 46.82 68.83 51.56 64.96
Qwen-7B 56.7 - - - -
ChatGLM2-12B-Base 56.18 48.18 65.13 52.58 60.93
Llama2-13B-Base 54.8 - - - -
Baichuan-13B-Base 51.6 41.6 60.9 47.4 58.5
Llama1-13B-Base 46.9 - - - -


對話模型
GPT-4 86.4 - - - -
GPT-3.5 70.0 - - - -
KwaiYii-13B-Chat 56.44 46.79 66.36 50.73 64.28
ChatGLM2-12B-Chat 52.13 47.00 61.00 46.10 56.05
Baichuan-13B-Chat 52.1 40.9 60.9 48.8 59.0
  • CMMLU是一個(gè)綜合性的中文評估基準(zhǔn),專門用于評估語言模型在中文語境下的知識(shí)和推理能力。CMMLU涵蓋了從基礎(chǔ)學(xué)科到高級專業(yè)水平的67個(gè)主題,包括:需要計(jì)算和推理的自然科學(xué),需要知識(shí)的人文科學(xué)和社會(huì)科學(xué),以及需要生活常識(shí)的中國駕駛規(guī)則等,共11582道單項(xiàng)選擇題。此外,CMMLU中的許多任務(wù)具有中國特色,可能在其他地區(qū)或語言中并不普遍適用,是一個(gè)完全中國化的中文測試基準(zhǔn)。評測分別采用5-shot和0-shot的方式進(jìn)行。
Model 5-shot 平均分 STEM 人文學(xué)科 社會(huì)科學(xué) 其他 中國特定
主題

預(yù)訓(xùn)練模型
KwaiYii-13B-Base 61.73 46.54 69.22 64.49 65.09 63.10
Qwen-7B-Base 58.66 48.39 63.77 61.22 62.14 58.73
MiLM-6B 57.17 46.85 61.12 61.68 58.84 59.39
Baichuan-13B-Base 55.82 42.38 61.61 60.44 59.26 56.62
ChatGLM2-6B-Base 48.80 42.55 50.98 50.99 50.80 48.37
對話模型 GPT-4 70.95 65.23 72.11 72.06 74.79 66.12
KwaiYii-13B-Chat 59.97 47.33 65.85 62.19 62.23 61.00
Baichuan-13B-Chat 55.8 42.8 62.6 59.7 59.0 56.1
GPT-3.5 55.51 47.81 55.68 56.50 62.66 50.69
Model 0-shot 平均分 STEM 人文學(xué)科 社會(huì)科學(xué) 其他 中國特定
主題
預(yù)訓(xùn)練模型 KwaiYii-13B-Base 61.22 46.82 69.35 63.42 64.02 63.26
MiLM-6B 60.37 48.88 63.49 66.20 62.14 62.07
Qwen-7B-Base 57.57 46.33 62.54 60.48 61.72 58.77
Baichuan-13B-Base 54.63 42.04 60.49 59.55 56.60 55.72
ChatGLM2-6B-Base 49.95 41.28 52.85 53.37 52.24 50.58
對話模型 GPT-4 68.90 63.16 69.19 70.26 73.16 63.47
KwaiYii-13B-Chat 60.41 46.15 66.49 63.25 62.68 61.94
GPT-3.5 53.22 44.80 53.61 54.22 59.95 49.74
  • GSM8K是由OpenAI構(gòu)建的高中數(shù)學(xué)應(yīng)用題數(shù)據(jù)集,包含8500道高質(zhì)量的數(shù)據(jù),主要目標(biāo)是對模型的數(shù)學(xué)推理能力進(jìn)行評測,其中測試集1319條數(shù)據(jù),每個(gè)問題都需要2-8個(gè)步驟來解決,解決方案主要包括使用基本算術(shù)運(yùn)算(+ ? × ÷)進(jìn)行一系列的基本計(jì)算,以得到最終答案。其采用8-shot進(jìn)行評測。
Model 8-shot GSM8K
預(yù)訓(xùn)練模型 Qwen-7B-Base 51.6
KwaiYii-13B-Base 48.4
ChatGLM2-12B-Base 40.94
Llama2-13B-Base 28.7
Baichuan-13B-Base 22.44


對話模型
GPT-4 92.0
GPT-3.5 57.1
KwaiYii-13B-Chat 52.2
Qwen-7B-Chat 43.5
ChatGLM2-12B-Chat 38.13
  • HumanEval是OpenAI和Anthropic AI一起制作的代碼數(shù)據(jù)集,包含164個(gè)原創(chuàng)編程題,涉及語言理解、算法、數(shù)學(xué)和軟件面試幾種類型的題目。其采用0-shot的方式進(jìn)行評測。
Model 0-shot HumanEval
@Pass1


預(yù)訓(xùn)練模型
KwaiYii-13B-Base 40.8
Qwen-7B-Base 24.4
Llama2-13B-Base 18.3
Llama1-13B-Base 15.8


對話模型
GPT-4 67.0
GPT-3.5 48.1
KwaiYii-13B-Chat 43.3
Qwen-7B-Chat 24.4
Llama2-13B-Chat 15.85

????????從對比結(jié)果可以看出,KwaiYii-13B-Base及KwaiYii-13B-Chat模型在各榜單中均處于領(lǐng)先水平。在MMLU、CMMLU、C-Eval等體現(xiàn)綜合學(xué)科類的Benchmark上領(lǐng)先,說明KwiiYii-13B-Base預(yù)訓(xùn)練模型在中英文雙語學(xué)科和行業(yè)領(lǐng)域的知識(shí)能力突出。在GSM8K數(shù)學(xué)評測集上及HumanEval編程測評集上的優(yōu)異表現(xiàn),則體現(xiàn)了模型較好的數(shù)理邏輯及代碼能力。

人工評測結(jié)果

????????Benchmark指標(biāo)體現(xiàn)了語言模型的基礎(chǔ)理解能力,更直觀地,我們?nèi)斯ぴu估了模型在各類任務(wù)上遵循用戶指令的能力。我們構(gòu)建了一個(gè)高質(zhì)量評測集,包含了內(nèi)容創(chuàng)作、信息咨詢、數(shù)學(xué)解題、邏輯推理、代碼能力和多輪對話共6個(gè)類別。其中內(nèi)容創(chuàng)作包括文章寫作、翻譯、摘要總結(jié)等根據(jù)給定約束生成文本的任務(wù),以及對實(shí)體/事件的觀點(diǎn)描述等;信息咨詢偏向信息獲取,如知識(shí)/常識(shí)咨詢,景點(diǎn)、電影和音樂推薦等;數(shù)學(xué)解題主要包含四則運(yùn)算、應(yīng)用題、方程等數(shù)學(xué)問題;邏輯推理主要包括事實(shí)推理、演繹推理和數(shù)據(jù)統(tǒng)計(jì)等;代碼能力包含代碼編寫、代碼調(diào)試、Bug分析;多輪對話則主要體現(xiàn)在一個(gè)Session中持續(xù)對話的上下文意圖理解和產(chǎn)生正確回復(fù)的能力。

????????為了直觀地比較待評測模型與ChatGPT的效果差異,對于評測集中的每個(gè)問題,我們都評測了其與ChatGPT的Good:Same:Bad(下文簡稱GSB,其中Good表示評測集中,待評測模型比ChatGPT表現(xiàn)更好的數(shù)量,Same則表示表現(xiàn)持平的數(shù)量,Bad則是待評測模型比ChatGPT表現(xiàn)更差的數(shù)量)結(jié)果。具體而言,我們將待評測模型與ChatGPT進(jìn)行雙盲對比測試:對于每一個(gè)Query,我們隱藏模型信息,并打亂兩個(gè)模型的答案順序,然后分配給多名評測者,評測人員根據(jù)內(nèi)容正確性、內(nèi)容相關(guān)性、內(nèi)容詳實(shí)性等維度進(jìn)行打分,然后從“模型A好”、“模型B好”、“兩者一樣好”、“兩者都一般”以及“兩者一樣差”五個(gè)選項(xiàng)中進(jìn)行選擇,最終再根據(jù)多名評測人員的GSB評測結(jié)果,按照規(guī)則擬合成該條數(shù)據(jù)的統(tǒng)一GSB結(jié)果。

????????我們對KwaiYii-13B-Chat模型以及同等參數(shù)規(guī)模的行業(yè)主流模型,均與ChatGPT(3.5)進(jìn)行了對比和人工評估,其各自的得分如下圖所示。從人工評估的結(jié)果來看,KwaiYii-13B-Chat超過了同等規(guī)模的開源模型,并接近ChatGPT同等水平。在內(nèi)容創(chuàng)作、信息咨詢、邏輯推理和數(shù)學(xué)解題上,基本與ChatGPT(3.5)效果相當(dāng)。在多輪對話能力方面,KwaiYii-13B-Chat超過同等規(guī)模的開源模型,但與ChatGPT(3.5)仍有一定差距。注意:人工評估結(jié)果受到評測數(shù)據(jù)覆蓋面、標(biāo)注主觀性等因素的影響,無法全面反映大語言模型的所有能力。

Image

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •  
亚洲国产爱久久全部精品_日韩有码在线播放_国产欧美在线观看_中文字幕不卡在线观看

    
    

    9000px;">

      
      

      91麻豆免费在线观看| 久久精品国产77777蜜臀| 欧洲精品视频在线观看| 欧美日韩免费观看一区二区三区| 久久久久国色av免费看影院| 色婷婷精品大视频在线蜜桃视频| 免费观看在线色综合| 亚洲精品成a人| 国产大陆亚洲精品国产| 中文字幕乱码一区二区免费| 成人综合婷婷国产精品久久蜜臀 | 欧美日韩不卡视频| 久久精品国产亚洲高清剧情介绍| 亚洲精品一区在线观看| 色偷偷久久一区二区三区| 蜜臀av一级做a爰片久久| 欧美综合在线视频| 一本色道久久综合亚洲91| 亚洲精品写真福利| 成人午夜视频免费看| 国产精品久久一级| 91精品国产综合久久福利| 国产美女在线精品| 亚洲一区二区精品视频| 久久伊人中文字幕| 91麻豆精品国产91久久久久| 欧美日韩一区二区三区在线| 久久国产精品99久久久久久老狼| 欧美日韩精品欧美日韩精品| 亚洲欧洲国产日本综合| 欧美亚洲日本国产| 久久国产福利国产秒拍| 国产精品成人午夜| 91高清视频在线| 亚洲精品一区在线观看| 麻豆精品国产传媒mv男同| 中文字幕亚洲欧美在线不卡| 久久久久久久久久看片| 欧美性猛交xxxxxxxx| 国产一区二区三区四| 亚洲一区二区三区四区在线 | 日韩av一区二区在线影视| 激情六月婷婷久久| 在线精品视频免费观看| jlzzjlzz亚洲女人18| 欧美婷婷六月丁香综合色| 欧美日韩国产综合一区二区三区| 在线免费精品视频| 极品少妇一区二区三区精品视频 | 日韩午夜精品电影| 久久尤物电影视频在线观看| 337p日本欧洲亚洲大胆色噜噜| 欧美日本一区二区在线观看| 不卡一区二区在线| 欧美日韩免费视频| 91精品在线免费观看| 欧美va亚洲va香蕉在线| 久久免费看少妇高潮| 天天亚洲美女在线视频| 日本久久电影网| 中文字幕免费观看一区| 国产真实乱对白精彩久久| 精品999久久久| 国产精品99久久久久久似苏梦涵| 欧美在线看片a免费观看| 亚洲一区影音先锋| 欧美日韩一二三| 石原莉奈一区二区三区在线观看| 99r精品视频| 亚洲私人黄色宅男| 欧美性色欧美a在线播放| 亚洲午夜久久久久久久久电影网 | 国产欧美综合在线| 亚洲精品一二三四区| 91在线播放网址| 亚洲国产精品黑人久久久| 国产在线观看一区二区| 欧美精品粉嫩高潮一区二区| 中文字幕一区二区三区不卡| 极品少妇一区二区三区精品视频| 欧美另类z0zxhd电影| 亚洲免费成人av| 国产麻豆精品在线| 国产精选一区二区三区| 日韩免费高清av| 亚洲一二三四久久| 成人国产电影网| 亚洲成人黄色影院| 国产欧美精品一区二区三区四区| 91蝌蚪porny九色| 国产精品网站在线观看| 国产精品久久久一区麻豆最新章节| 午夜精品久久一牛影视| 欧美视频在线一区| 一区二区三区在线不卡| 欧美亚洲一区二区在线观看| 日韩伦理免费电影| 7777精品伊人久久久大香线蕉的 | 337p日本欧洲亚洲大胆精品| 久久成人综合网| 久久久99精品免费观看不卡| 国产精品一区二区x88av| 亚洲精品五月天| 欧美一区二区三区在线观看 | 国产福利视频一区二区三区| 国产精品第13页| 91麻豆精品国产91久久久久久久久| 日韩精品午夜视频| 亚洲精品在线三区| 91麻豆自制传媒国产之光| 天天av天天翘天天综合网| 日韩美女在线视频| 欧美日韩一区二区不卡| 九九精品一区二区| 亚洲一本大道在线| 国产精品久久三| 日韩亚洲欧美一区二区三区| 99久久99久久久精品齐齐| 麻豆一区二区三| 亚洲免费观看高清完整| 国产亚洲综合av| 日韩精品一区在线| 9191久久久久久久久久久| 国产成人鲁色资源国产91色综| 天天综合色天天综合色h| 亚洲免费观看高清完整| 中文字幕一区二区三区不卡| 久久亚洲免费视频| 精品久久久久久综合日本欧美| 欧美日韩一区二区三区视频| 91亚洲永久精品| 成人一区二区三区视频在线观看 | av高清不卡在线| 岛国精品在线播放| 成人精品一区二区三区中文字幕 | 樱花草国产18久久久久| 亚洲欧美国产77777| 欧美一级xxx| 欧美一区二区三区播放老司机| 欧美午夜一区二区| 欧美特级限制片免费在线观看| 99v久久综合狠狠综合久久| 色婷婷精品久久二区二区蜜臀av | 日本精品免费观看高清观看| 色香色香欲天天天影视综合网| 在线视频一区二区三| 91精品一区二区三区在线观看| www久久精品| 亚洲婷婷在线视频| 丝袜国产日韩另类美女| 国产精品主播直播| 欧美午夜精品电影| 国产视频视频一区| 亚洲午夜三级在线| 粉嫩av一区二区三区在线播放 | 日韩电影网1区2区| www.66久久| wwww国产精品欧美| 亚洲综合清纯丝袜自拍| 国产精品一色哟哟哟| 欧美少妇一区二区| 国产精品色呦呦| 粉嫩av一区二区三区粉嫩 | 国产日韩欧美不卡| 亚洲卡通欧美制服中文| 国产精品入口麻豆九色| 久久日一线二线三线suv| av亚洲精华国产精华精| 亚洲国产人成综合网站| 中文在线一区二区| 日本一区二区三区久久久久久久久不| 欧美日韩国产乱码电影| 7777精品伊人久久久大香线蕉超级流畅 | 久久99最新地址| 中文字幕亚洲综合久久菠萝蜜| 日韩欧美资源站| 色综合 综合色| 成人激情动漫在线观看| 夜夜嗨av一区二区三区四季av| 日本午夜一本久久久综合| 国产一区二区看久久| 国产精品一品二品| 色综合久久中文综合久久牛| 成人免费看片app下载| 99视频超级精品| 欧美日韩国产综合一区二区三区| 欧洲一区二区av| 欧美一级片在线观看| 精品国产麻豆免费人成网站| 久久夜色精品一区| **性色生活片久久毛片| 毛片av中文字幕一区二区| 91蝌蚪porny| 亚洲色图在线播放| 成人性生交大片免费看中文 | 欧美日韩三级一区二区| 色综合视频在线观看| 精品99一区二区三区| 日韩国产欧美在线播放| 99国产精品国产精品久久|