亚洲电影在线观看,福利视频在线导航,99插插插

從浪潮“源1.0”看巨量模型并非一味比大

來源：中關(guān)村在線 2021-11-10 06:37:38

分享到：

人工智能在算法領(lǐng)域的不斷突破，不同數(shù)值精度帶來了跨度更大的計(jì)算類型，對計(jì)算芯片指令集、架構(gòu)的要求更加細(xì)分。圖靈獎(jiǎng)獲得者John Hennessy和David Patterson共同發(fā)表的《計(jì)算機(jī)架構(gòu)的新黃金時(shí)代》中提出：當(dāng)摩爾定律不再適用，一種更加以硬件為中心的DSA（Domain Specific Architecture）架構(gòu)設(shè)計(jì)會(huì)成為主導(dǎo)，這種設(shè)計(jì)的核心在于針對特定問題或特定領(lǐng)域來定義計(jì)算架構(gòu)。基于DSA思想設(shè)計(jì)的AI芯片，在特定AI工作負(fù)載上表現(xiàn)出遠(yuǎn)超通用芯片的處理能力，大大推動(dòng)了AI芯片的多元化發(fā)展。

從浪潮“源1.0”看巨量模型并非一味比大（圖片來自itpro.co.uk）

“人工智能如何發(fā)展出像人類具備邏輯、意識(shí)和推理的認(rèn)知能力，是人工智能研究一直在探索的方向。目前來看，通過大規(guī)模數(shù)據(jù)訓(xùn)練超大參數(shù)量的巨量模型，被認(rèn)為是非常有希望實(shí)現(xiàn)通用人工智能的一個(gè)重要方向。”在AICC 2021上，中國工程院院士、浪潮首席科學(xué)家王恩東認(rèn)為，隨著巨量模型的興起，巨量化已成為未來人工智能發(fā)展非常重要的一個(gè)趨勢。

目前，全球知名的AI領(lǐng)先公司在巨量模型上都予以重兵投入，谷歌、微軟、英偉達(dá)、浪潮、智源研究院、百度、阿里等公司相繼推出了各自的巨量模型。

巨量化的一個(gè)核心特征就是模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大。以浪潮人工智能研究院開發(fā)的全球最大規(guī)模的中文AI巨量模型“源1.0”為例，其參數(shù)量高達(dá)2457億，訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到5000GB。相比GPT3模型的1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集，“源1.0”的參數(shù)規(guī)模增加了40%，訓(xùn)練數(shù)據(jù)集規(guī)模增加近10倍。

此外，巨量化也表現(xiàn)在模型應(yīng)用規(guī)模大。互聯(lián)網(wǎng)頭部公司的AI開放平臺(tái)已經(jīng)吸引了超百萬的AI開發(fā)者，這些AI開放平臺(tái)每天承載著數(shù)萬億次的調(diào)用量，數(shù)百萬小時(shí)的語音識(shí)別，超過百億張圖像識(shí)別，超過萬億句自然語言理解等等。如此巨量的調(diào)用對算力中心的應(yīng)用支撐能力帶來了極大的挑戰(zhàn)。

差異化的場景需求為AI發(fā)展指出了一條新道路，泛化能力成為AI在各行各業(yè)應(yīng)用時(shí)實(shí)現(xiàn)規(guī)模化創(chuàng)新的基礎(chǔ)，而這離不開超大參數(shù)量模型對大規(guī)模數(shù)據(jù)的訓(xùn)練。事實(shí)上，包括谷歌、微軟、英偉達(dá)、浪潮、阿里在內(nèi)的企業(yè)都相繼推出了各自的巨量模型。2020年，OpenAI發(fā)布了GPT-3深度學(xué)習(xí)模型，GPT-3模型憑借1750億個(gè)參數(shù)，在文本分析、機(jī)器翻譯、機(jī)器寫作等自然語言處理領(lǐng)域表現(xiàn)出色。前不久，浪潮人工智能研究院開發(fā)出了全球最大規(guī)模的中文AI巨量模型“源1.0”，參數(shù)量達(dá)到2457億，訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到5000GB。相比GPT-3模型的1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集，“源1.0”的參數(shù)規(guī)模增加了40%，訓(xùn)練數(shù)據(jù)集規(guī)模增加近10倍。

OpenAI的GPT-3帶來了較好的小樣本學(xué)習(xí)和泛化能力，前者的小樣本甚至是零樣本的學(xué)習(xí)能力，可以削弱預(yù)訓(xùn)練階段基礎(chǔ)模型的復(fù)雜性，以及針對不同場景進(jìn)行模型調(diào)整所引發(fā)的大量工作，后者可以使得模型訓(xùn)練一次后得到的大模型用于支持各類任務(wù)，具有更好的普適性。因此，大模型的特性更符合人們對于通用智能的期待。相比此前GPT-3完成訓(xùn)練需要1萬塊GPU，源1.0只需要2000多塊GPU即可完成。為了訓(xùn)練源1.0，浪潮研發(fā)了業(yè)界最大規(guī)模的中文高質(zhì)量數(shù)據(jù)集5TB，為此清洗了近860TB的互聯(lián)網(wǎng)數(shù)據(jù)。在精度上，源1.0在自然語言處理任務(wù)CLUE零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的榜單中排名第一，在中文問答任務(wù)如WebQA上也大幅提升了性能。

當(dāng)然，模型并不是一味的在比大。斯坦福大學(xué)計(jì)算機(jī)科學(xué)系教授李飛飛曾指出，對于均質(zhì)和突現(xiàn)來說，均質(zhì)就是有更好的泛化能力，突現(xiàn)就是表現(xiàn)出來的零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的能力，這些能力是模型參數(shù)量較小時(shí)看不到的，只有當(dāng)參數(shù)量變大之后，才會(huì)出現(xiàn)一些獨(dú)特的性質(zhì)。“大不是目的。AI的下一步是從系統(tǒng)1到系統(tǒng)2、從感知到認(rèn)知，從專用智能走向通用智能。”浪潮人工智能研究院首席科學(xué)家吳韶華稱，“我們研究過不同尺寸的模型結(jié)構(gòu)，發(fā)現(xiàn)隨著模型參數(shù)量的增大，尤其是小樣本學(xué)習(xí)的能力會(huì)持續(xù)改進(jìn)，‘大’能帶來在算法、結(jié)構(gòu)等方面的改進(jìn)，加速對于前沿技術(shù)的探索。”

不過，大模型也有一些局限性，有些問題同樣困擾著深度學(xué)習(xí)相關(guān)的幾乎所有模型，例如不可解釋性，難度會(huì)隨著模型參數(shù)量的增長而加大。除此之外，概率的不可控性，以及約束推理（在受限的條件下/給定的條件下對模型進(jìn)行推理）等問題也需要被解決。在落地實(shí)踐的過程中，模型的針對性、精準(zhǔn)性都會(huì)根據(jù)行業(yè)應(yīng)用場景而改善，這就離不開模型的開放性，要與合作伙伴共同優(yōu)化。自源1.0上線以來，已經(jīng)接收到很多來自產(chǎn)業(yè)各界的企業(yè)和機(jī)構(gòu)申請使用。

吳韶華認(rèn)為，任何技術(shù)的發(fā)展都會(huì)有從興起到成熟再到落地的階段，“從這個(gè)規(guī)律來看，大模型正處于興起的階段，大家正在圍繞模型的體量，以及模型體量帶來的精度效應(yīng)開展持續(xù)探索，當(dāng)大模型探索走向成熟之后，一定會(huì)考慮應(yīng)用等具體問題，比如響應(yīng)化，運(yùn)用響應(yīng)化、高性能的推理部署等等，會(huì)有一個(gè)比較科學(xué)的曲線。”

當(dāng)模型算法進(jìn)入到“巨量時(shí)代”，單靠任何一家企業(yè)或機(jī)構(gòu)都難以完成大模型的研發(fā)、訓(xùn)練、交互，生態(tài)的重要性被提升到了更高的優(yōu)先級。埃森哲的一份調(diào)研報(bào)告顯示，70%以上有技術(shù)的研究機(jī)構(gòu)、科技公司缺少需求場景、領(lǐng)域知識(shí)和數(shù)據(jù)，70%以上的行業(yè)用戶缺少技術(shù)人才、AI平臺(tái)和實(shí)踐能力。因此，只有將AI算法、芯片等領(lǐng)域的前沿技術(shù)與行業(yè)場景連接起來，才能向客戶交付整體解決方案。

聯(lián)想ThinkSystem SR650(Xeon Silver 4210R/32GB/1.2TB*4)

[經(jīng)銷商]京東商城

[產(chǎn)品售價(jià)]32062元

進(jìn)入購買

華為5G CPE Pro 2

[經(jīng)銷商]京東商城

[產(chǎn)品售價(jià)]7899元

進(jìn)入購買

浪潮英信NF5280M5 2U機(jī)架式服務(wù)器主機(jī)：銀牌4210*2/16G*4內(nèi)存/4TSATA*3硬盤/PM8204 2G緩存/導(dǎo)軌/550W雙電

從浪潮“源1.0”看巨量模型并非一味比大

相關(guān)新聞

熱門文章

熱點(diǎn)專題