從浪潮“源1.0”看巨量模型并非一味比大
人工智能在算法領(lǐng)域的不斷突破,不同數(shù)值精度帶來了跨度更大的計(jì)算類型,對計(jì)算芯片指令集、架構(gòu)的要求更加細(xì)分。圖靈獎(jiǎng)獲得者John Hennessy和David Patterson共同發(fā)表的《計(jì)算機(jī)架構(gòu)的新黃金時(shí)代》中提出:當(dāng)摩爾定律不再適用,一種更加以硬件為中心的DSA(Domain Specific Architecture)架構(gòu)設(shè)計(jì)會(huì)成為主導(dǎo),這種設(shè)計(jì)的核心在于針對特定問題或特定領(lǐng)域來定義計(jì)算架構(gòu)。基于DSA思想設(shè)計(jì)的AI芯片,在特定AI工作負(fù)載上表現(xiàn)出遠(yuǎn)超通用芯片的處理能力,大大推動(dòng)了AI芯片的多元化發(fā)展。
從浪潮“源1.0”看巨量模型并非一味比大(圖片來自itpro.co.uk)
“人工智能如何發(fā)展出像人類具備邏輯、意識(shí)和推理的認(rèn)知能力,是人工智能研究一直在探索的方向。目前來看,通過大規(guī)模數(shù)據(jù)訓(xùn)練超大參數(shù)量的巨量模型,被認(rèn)為是非常有希望實(shí)現(xiàn)通用人工智能的一個(gè)重要方向。”在AICC 2021上,中國工程院院士、浪潮首席科學(xué)家王恩東認(rèn)為,隨著巨量模型的興起,巨量化已成為未來人工智能發(fā)展非常重要的一個(gè)趨勢。
目前,全球知名的AI領(lǐng)先公司在巨量模型上都予以重兵投入,谷歌、微軟、英偉達(dá)、浪潮、智源研究院、百度、阿里等公司相繼推出了各自的巨量模型。
巨量化的一個(gè)核心特征就是模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大。以浪潮人工智能研究院開發(fā)的全球最大規(guī)模的中文AI巨量模型“源1.0”為例,其參數(shù)量高達(dá)2457億,訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到5000GB。相比GPT3模型的1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集,“源1.0”的參數(shù)規(guī)模增加了40%,訓(xùn)練數(shù)據(jù)集規(guī)模增加近10倍。
此外,巨量化也表現(xiàn)在模型應(yīng)用規(guī)模大。互聯(lián)網(wǎng)頭部公司的AI開放平臺(tái)已經(jīng)吸引了超百萬的AI開發(fā)者,這些AI開放平臺(tái)每天承載著數(shù)萬億次的調(diào)用量,數(shù)百萬小時(shí)的語音識(shí)別,超過百億張圖像識(shí)別,超過萬億句自然語言理解等等。如此巨量的調(diào)用對算力中心的應(yīng)用支撐能力帶來了極大的挑戰(zhàn)。
差異化的場景需求為AI發(fā)展指出了一條新道路,泛化能力成為AI在各行各業(yè)應(yīng)用時(shí)實(shí)現(xiàn)規(guī)模化創(chuàng)新的基礎(chǔ),而這離不開超大參數(shù)量模型對大規(guī)模數(shù)據(jù)的訓(xùn)練。事實(shí)上,包括谷歌、微軟、英偉達(dá)、浪潮、阿里在內(nèi)的企業(yè)都相繼推出了各自的巨量模型。2020年,OpenAI發(fā)布了GPT-3深度學(xué)習(xí)模型,GPT-3模型憑借1750億個(gè)參數(shù),在文本分析、機(jī)器翻譯、機(jī)器寫作等自然語言處理領(lǐng)域表現(xiàn)出色。前不久,浪潮人工智能研究院開發(fā)出了全球最大規(guī)模的中文AI巨量模型“源1.0”,參數(shù)量達(dá)到2457億,訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到5000GB。相比GPT-3模型的1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集,“源1.0”的參數(shù)規(guī)模增加了40%,訓(xùn)練數(shù)據(jù)集規(guī)模增加近10倍。
OpenAI的GPT-3帶來了較好的小樣本學(xué)習(xí)和泛化能力,前者的小樣本甚至是零樣本的學(xué)習(xí)能力,可以削弱預(yù)訓(xùn)練階段基礎(chǔ)模型的復(fù)雜性,以及針對不同場景進(jìn)行模型調(diào)整所引發(fā)的大量工作,后者可以使得模型訓(xùn)練一次后得到的大模型用于支持各類任務(wù),具有更好的普適性。因此,大模型的特性更符合人們對于通用智能的期待。相比此前GPT-3完成訓(xùn)練需要1萬塊GPU,源1.0只需要2000多塊GPU即可完成。為了訓(xùn)練源1.0,浪潮研發(fā)了業(yè)界最大規(guī)模的中文高質(zhì)量數(shù)據(jù)集5TB,為此清洗了近860TB的互聯(lián)網(wǎng)數(shù)據(jù)。在精度上,源1.0在自然語言處理任務(wù)CLUE零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的榜單中排名第一,在中文問答任務(wù)如WebQA上也大幅提升了性能。
當(dāng)然,模型并不是一味的在比大。斯坦福大學(xué)計(jì)算機(jī)科學(xué)系教授李飛飛曾指出,對于均質(zhì)和突現(xiàn)來說,均質(zhì)就是有更好的泛化能力,突現(xiàn)就是表現(xiàn)出來的零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的能力,這些能力是模型參數(shù)量較小時(shí)看不到的,只有當(dāng)參數(shù)量變大之后,才會(huì)出現(xiàn)一些獨(dú)特的性質(zhì)。“大不是目的。AI的下一步是從系統(tǒng)1到系統(tǒng)2、從感知到認(rèn)知,從專用智能走向通用智能。”浪潮人工智能研究院首席科學(xué)家吳韶華稱,“我們研究過不同尺寸的模型結(jié)構(gòu),發(fā)現(xiàn)隨著模型參數(shù)量的增大,尤其是小樣本學(xué)習(xí)的能力會(huì)持續(xù)改進(jìn),‘大’能帶來在算法、結(jié)構(gòu)等方面的改進(jìn),加速對于前沿技術(shù)的探索。”
不過,大模型也有一些局限性,有些問題同樣困擾著深度學(xué)習(xí)相關(guān)的幾乎所有模型,例如不可解釋性,難度會(huì)隨著模型參數(shù)量的增長而加大。除此之外,概率的不可控性,以及約束推理(在受限的條件下/給定的條件下對模型進(jìn)行推理)等問題也需要被解決。在落地實(shí)踐的過程中,模型的針對性、精準(zhǔn)性都會(huì)根據(jù)行業(yè)應(yīng)用場景而改善,這就離不開模型的開放性,要與合作伙伴共同優(yōu)化。自源1.0上線以來,已經(jīng)接收到很多來自產(chǎn)業(yè)各界的企業(yè)和機(jī)構(gòu)申請使用。
吳韶華認(rèn)為,任何技術(shù)的發(fā)展都會(huì)有從興起到成熟再到落地的階段,“從這個(gè)規(guī)律來看,大模型正處于興起的階段,大家正在圍繞模型的體量,以及模型體量帶來的精度效應(yīng)開展持續(xù)探索,當(dāng)大模型探索走向成熟之后,一定會(huì)考慮應(yīng)用等具體問題,比如響應(yīng)化,運(yùn)用響應(yīng)化、高性能的推理部署等等,會(huì)有一個(gè)比較科學(xué)的曲線。”
當(dāng)模型算法進(jìn)入到“巨量時(shí)代”,單靠任何一家企業(yè)或機(jī)構(gòu)都難以完成大模型的研發(fā)、訓(xùn)練、交互,生態(tài)的重要性被提升到了更高的優(yōu)先級。埃森哲的一份調(diào)研報(bào)告顯示,70%以上有技術(shù)的研究機(jī)構(gòu)、科技公司缺少需求場景、領(lǐng)域知識(shí)和數(shù)據(jù),70%以上的行業(yè)用戶缺少技術(shù)人才、AI平臺(tái)和實(shí)踐能力。因此,只有將AI算法、芯片等領(lǐng)域的前沿技術(shù)與行業(yè)場景連接起來,才能向客戶交付整體解決方案。
聯(lián)想ThinkSystem SR650(Xeon Silver 4210R/32GB/1.2TB*4)
進(jìn)入購買
華為5G CPE Pro 2
進(jìn)入購買
浪潮英信NF5280M5 2U機(jī)架式服務(wù)器主機(jī):銀牌4210*2/16G*4內(nèi)存/4TSATA*3硬盤/PM8204 2G緩存/導(dǎo)軌/550W雙電
進(jìn)入購買
2022-01-13 08:29:23
2022-01-13 08:27:53
2022-01-13 08:25:49
2022-01-13 08:24:48
2022-01-13 08:23:24
2022-01-13 08:21:58
2022-01-13 08:19:20
2022-01-13 08:17:53
2022-01-13 08:12:40
2022-01-13 08:11:31
2022-01-13 08:08:09
2022-01-12 16:50:28
2022-01-12 14:16:53
營業(yè)執(zhí)照公示信息
相關(guān)新聞