123,123,123

在大模型時(shí)代下，AI廠(chǎng)商不僅需要具備軟硬件結(jié)合的能力，更需要提前布局智能終端萬(wàn)物互聯(lián)的未來(lái)，以「連接」技術(shù)加速大模型在場(chǎng)景下的落地應(yīng)用。

這年頭，安卓廠(chǎng)商沒(méi)個(gè)大模型，都不敢開(kāi)手機(jī)發(fā)布會(huì)了。

　　前腳OPPO剛用大模型升級(jí)了語(yǔ)音助手，后腳vivo就官宣自研手機(jī)AI大模型;

　　小米發(fā)布會(huì)則直接將大模型當(dāng)場(chǎng)塞進(jìn)手機(jī)系統(tǒng)……其競(jìng)爭(zhēng)激烈程度，不亞于搶芯片首發(fā)。

　　到底是怎么回事?

　　究其原因，還是智能終端已經(jīng)成為了各類(lèi)AIGC應(yīng)用的落地“新灘頭”。

　　先是圖像生成大模型接二連三地被塞進(jìn)手機(jī)，從十億參數(shù)的Stable Diffusion，在手機(jī)上快速生成一只金毛小狗：

△圖源油管Android Authority

　　到手機(jī)上運(yùn)行十五億參數(shù)的ControlNet，快速生成一張限定圖像結(jié)構(gòu)的AI風(fēng)景照：

　　隨后，文本生成大模型們也爭(zhēng)先恐后地推出了手機(jī)新應(yīng)用——

　　國(guó)內(nèi)有文心一言、智譜清言APP，國(guó)外則有OpenAI的移動(dòng)版ChatGPT，Llama 2手機(jī)版也在加急準(zhǔn)備中。

　　現(xiàn)在，這一波智能終端大模型熱潮之中，最底層的軟硬件技術(shù)齒輪開(kāi)始轉(zhuǎn)動(dòng)。

　　從高通到蘋(píng)果，最新的芯片廠(chǎng)商發(fā)布會(huì)，無(wú)一不在強(qiáng)調(diào)軟硬件對(duì)機(jī)器學(xué)習(xí)和大模型的支持——

　　蘋(píng)果M3能運(yùn)行“數(shù)十億參數(shù)”機(jī)器學(xué)習(xí)模型，高通的驍龍X Elite和驍龍8 Gen 3更是已經(jīng)分別實(shí)現(xiàn)將130億和100億參數(shù)大模型裝進(jìn)電腦和手機(jī)。

　　并且這不僅僅是已支持或跑通的數(shù)字參數(shù)，而是實(shí)實(shí)在在到了可落地應(yīng)用的程度。

△高通現(xiàn)場(chǎng)演示和手機(jī)中的百億大模型對(duì)話(huà)

　　從十億到百億，更大參數(shù)的移動(dòng)端AI模型暗示了更好的體驗(yàn)，但也意味著一場(chǎng)更艱巨的挑戰(zhàn)——

　　或許可以將這樣機(jī)遇與挑戰(zhàn)并存的大模型時(shí)代，稱(chēng)之為「模力時(shí)代」。

　　「模力時(shí)代」下，芯片廠(chǎng)商究竟要如何沖破大模型移植智能終端面臨的算力、體積和功耗等限制?

　　進(jìn)一步地，大模型的出現(xiàn)又給底層芯片設(shè)計(jì)帶來(lái)了哪些改變?

　　是時(shí)候掰開(kāi)揉碎，好好分析一番了。

　　「模力時(shí)代」，硬件圍繞AI而生

　　從大模型風(fēng)暴刮起之初，算力就成為了科技圈的焦點(diǎn)話(huà)題。

　　就在最近，OpenAI還因?yàn)镈evDay后“遠(yuǎn)超預(yù)期”的大模型調(diào)用流量，出現(xiàn)了全線(xiàn)產(chǎn)品宕機(jī)的史上最大事故。

　　相比于云端，移動(dòng)終端的算力更為受限。想要把大模型裝進(jìn)手機(jī)，算力問(wèn)題自然構(gòu)成了第一重挑戰(zhàn)。

　　計(jì)算單元之外，有限的內(nèi)存單元，是大模型進(jìn)手機(jī)面臨的第二道難關(guān)：大模型推理需要大量計(jì)算資源做支撐，與此同時(shí)，內(nèi)存大小決定了數(shù)據(jù)處理速度的上限以及推理的穩(wěn)定性。

　　另外，在手機(jī)上跑大模型，也給電池帶來(lái)了更大的壓力。因此芯片能耗成為一大關(guān)鍵。

　　在各大廠(chǎng)商的最新探索之中，我們可以觀(guān)察到，解決之道目前分為軟、硬兩路。

　　先來(lái)看硬件部分。

　　高通最新推出的第三代驍龍8移動(dòng)平臺(tái)，就被定位為高通“首個(gè)專(zhuān)門(mén)為生成式AI打造的移動(dòng)平臺(tái)”：

　　能夠在終端側(cè)運(yùn)行100億參數(shù)大模型，面向70億參數(shù)大語(yǔ)言模型，每秒能生成20個(gè)token。

　　較之前代產(chǎn)品，第三代驍龍8最重要的變化，就是驅(qū)動(dòng)終端側(cè)AI推理加速的高通AI引擎。

　　這個(gè)AI引擎由多個(gè)硬件和軟件組成，包括高通Hexagon NPU、Adreno GPU、Kryo CPU和傳感器中樞。

　　其中最核心、與AI最密切相關(guān)的，是Hexagon NPU。

　　高通公布的數(shù)據(jù)顯示，Hexagon NPU在性能表現(xiàn)上，比前代產(chǎn)品快98%，同時(shí)功耗降低了40%。

　　具體而言，Hexagon NPU升級(jí)了全新的微架構(gòu)。更快的矢量加速器時(shí)鐘速度、更強(qiáng)的推理技術(shù)和對(duì)更多更快的Transformer網(wǎng)絡(luò)的支持等等，全面提升了Hexgon NPU對(duì)生成式AI的響應(yīng)能力，使得手機(jī)上的大模型“秒答”用戶(hù)提問(wèn)成為可能。

　　Hexagon NPU之外，第三代驍龍8在Sensing Hub(傳感器中樞)上也下了功夫：增加下一代微型NPU，AI性能提高3.5倍，內(nèi)存增加30%。

　　值得關(guān)注的是，官方提到，Sensing Hub有助于大模型在手機(jī)端的“定制化”。隨時(shí)保持感知的Sensing Hub與大模型協(xié)同合作，可以讓用戶(hù)的位置、活動(dòng)等個(gè)性化數(shù)據(jù)更好地為生成式AI所用。

　　而在內(nèi)存方面，第三代驍龍8支持LPDDR5X，頻率從4.2GHz提高到了4.8GHz，帶寬77GB/s，最大容量為24GB。

　　更快的數(shù)據(jù)傳輸速度，更大的帶寬，也就意味著第三代驍龍8能夠支持更大更復(fù)雜的AI模型。

　　并且，此番高通在內(nèi)存和Hexagon NPU矢量單元之間增加了直連通道，進(jìn)一步提高了AI處理效率。

　　恰逢驍龍峰會(huì)期間，SK海力士還特別宣布，其產(chǎn)品LPDDR5T已經(jīng)在高通第三代驍龍8上完成了性能及兼容性驗(yàn)證，速度達(dá)到9.6Gbps。由此看來(lái)，搭載第三代驍龍8的手機(jī)在內(nèi)存方面還有更多的選擇。

　　除此之外，在CPU方面，第三代驍龍8采用“1+5+2”架構(gòu)(1個(gè)主核心、5個(gè)性能核心和2個(gè)能效核心)，相較于前代的“1+4+3”，將1個(gè)能效核心轉(zhuǎn)換為性能核心。其中超大核頻率提升到3.3GHz，性能核心頻率提升到最高3.2GHz，能效核心頻率提升到2.3GHz。

　　新架構(gòu)下，Kryo CPU性能提高了30%，功耗降低了20%。

　　GPU方面，第三代驍龍8則在性能和能效方面均實(shí)現(xiàn)25%的提升。

　　值得一提的是，AI引擎之外，第三代驍龍8的ISP、調(diào)制解調(diào)器等其他模塊，也已根植AI基因。

　　現(xiàn)在，高通的認(rèn)知ISP是醬嬸的：

　　支持多達(dá)12層的照片/視頻幀實(shí)時(shí)語(yǔ)義分割;

　　融合生成式AI技術(shù)，支持聲控拍照和視頻編輯;

　　支持利用AI技術(shù)從視頻中刪除不需要的人和物;

　　支持AI擴(kuò)展照片;

　　……

　　調(diào)制解調(diào)器同樣有5G AI處理器的加持：通過(guò)分析信號(hào)完整性和信噪比，AI能夠改善無(wú)線(xiàn)帶寬、延遲等性能指標(biāo)。

　　由此看來(lái)，在大模型進(jìn)手機(jī)的過(guò)程中，行業(yè)領(lǐng)軍者的硬件解決之道可以從兩方面來(lái)總結(jié)：

　　其一，是針對(duì)算力、內(nèi)存、能耗三要素的性能提升和功耗平衡。

　　其二，是用AI來(lái)定義硬件，跟AI技術(shù)本身做更深層的結(jié)合。

　　不過(guò)，雖說(shuō)硬件技術(shù)能解決大模型移植到智能終端的關(guān)鍵難點(diǎn)，但要想讓它真正落地應(yīng)用，仍需要邁過(guò)另外一重門(mén)檻。

　　降低大模型軟件開(kāi)發(fā)門(mén)檻

　　這道門(mén)檻，具體可以分解為兩個(gè)問(wèn)題：

　　技術(shù)更新、體積更大的模型，如何快速實(shí)時(shí)地裝進(jìn)手機(jī)?

　　裝進(jìn)手機(jī)后，又要如何快速裝進(jìn)手機(jī)以外的智能終端?

　　要想解決這兩大問(wèn)題，就不能僅僅從硬件側(cè)入手，而同樣要在軟件開(kāi)發(fā)上做好準(zhǔn)備。

　　首先，需要先增強(qiáng)智能終端對(duì)不同大模型的適配能力，即使是架構(gòu)算法存在差異也同樣能裝進(jìn)手機(jī)。

　　即使最新大模型體積超出預(yù)期，也要能確保在不影響性能的情況下，將之應(yīng)用到智能終端。

　　這里依舊以高通為例。

　　從最早在手機(jī)上運(yùn)行10億參數(shù)Stable Diffusion，到快速基于驍龍8 Gen 3適配百億參數(shù)大模型，背后實(shí)際上還離不開(kāi)一類(lèi)軟件能力——

　　AI壓縮技術(shù)。

　　最新的AI壓縮技術(shù)，從高通今年發(fā)表在A(yíng)I頂會(huì)上的幾篇論文可以窺見(jiàn)一斑。

　　像是這篇被NeurIPS 2023收錄的論文，就針對(duì)當(dāng)前大模型的“基石”Transformer架構(gòu)進(jìn)行了量化相關(guān)的研究。

　　量化是壓縮AI模型的一種經(jīng)典方法，然而此前在壓縮Transformer模型的時(shí)候，容易出現(xiàn)一些問(wèn)題。

　　這篇論文提出了兩種方法來(lái)對(duì)Transformer模型進(jìn)行量化，在確保壓縮效果的同時(shí)，進(jìn)一步提升模型輸出性能，確保模型看起來(lái)“更小更好”。

　　然后，還需要增強(qiáng)大模型軟件在不同軟件終端之間的通用性，進(jìn)一步加速落地。

　　對(duì)于大模型而言，從一個(gè)硬件設(shè)備遷移到另一個(gè)硬件設(shè)備，并沒(méi)有想象中那么容易。

　　不同的計(jì)算平臺(tái)之間，硬件的配置往往差異很大，電腦上能運(yùn)行的大模型，放到手機(jī)上還真不一定就能立刻運(yùn)行。

　　而這也正是阻礙大模型在種類(lèi)繁多、部件繁雜的智能終端落地的另一重原因。

　　對(duì)此，高通的準(zhǔn)備是一個(gè)“轉(zhuǎn)換器”一樣的角色：高通AI軟件棧。

　　這是一套容納了大量AI技術(shù)的工具包，全面支持各種主流AI框架、不同操作系統(tǒng)和各類(lèi)編程語(yǔ)言，能提升各種AI軟件在智能終端上的兼容性。

　　不僅如此，這套軟件棧還包含高通AI Studio，相當(dāng)于將高通的所有AI工具集成到一起，直接進(jìn)行可視化開(kāi)發(fā)。

　　其中，如AI模型增效工具包、模型分析器和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)等都在里面。

　　AI軟件只需要在里面從設(shè)計(jì)、優(yōu)化、部署到分析“走一趟流程”，就能快速轉(zhuǎn)換成在其他操作系統(tǒng)和平臺(tái)上也可以運(yùn)行的軟件產(chǎn)品。

　　只需要一次開(kāi)發(fā)，甚至是大模型軟件的開(kāi)發(fā)，就能讓它在多個(gè)平臺(tái)運(yùn)行，不需要擔(dān)心適配的問(wèn)題，像Stable Diffusion就已經(jīng)部署到其中，其他平臺(tái)也同樣可以隨取隨用了。

　　這樣一來(lái)，不僅僅是將百億參數(shù)大模型塞進(jìn)手機(jī)，甚至還能將它塞進(jìn)汽車(chē)、XR、PC和物聯(lián)網(wǎng)。

　　原本的設(shè)備類(lèi)型繁多的缺點(diǎn)也能化為優(yōu)勢(shì)，進(jìn)一步加速大模型軟件的落地。

　　總結(jié)來(lái)看，大模型移植到智能終端所需的技術(shù)，不僅是硬實(shí)力，軟件上也同樣需要有所儲(chǔ)備。

　　所以，對(duì)于在大模型時(shí)代下蓄勢(shì)待發(fā)的移動(dòng)端軟硬件廠(chǎng)商而言，究竟如何才能抓住這次難得的機(jī)遇?

　　或者說(shuō)，各廠(chǎng)商要如何提前做好準(zhǔn)備，才能確保大模型時(shí)代依舊屹立于技術(shù)浪潮之巔?

　　大模型時(shí)代需要怎樣的終端芯片

　　一個(gè)時(shí)代有一個(gè)時(shí)代的計(jì)算架構(gòu)。

　　深度學(xué)習(xí)時(shí)代是如此，計(jì)算攝影時(shí)代是如此，大模型時(shí)代依舊如此——

　　無(wú)論軟硬件，「模力時(shí)代」下的智能終端芯片評(píng)判標(biāo)準(zhǔn)已經(jīng)悄然生變。

　　一方面，對(duì)于硬件性能而言，芯片已經(jīng)從單純的硬件性能對(duì)比、算力較量、功耗計(jì)算，逐漸轉(zhuǎn)變成對(duì)AI算力的比拼，甚至是對(duì)AI軟硬件技術(shù)能力的全面要求。

　　這種轉(zhuǎn)變，從大模型廠(chǎng)商巨頭的技術(shù)儲(chǔ)備棧變化可以窺見(jiàn)一斑。

　　以微軟為例，這家科技巨頭和云廠(chǎng)商，近期開(kāi)始注重起AI軟硬件結(jié)合的技術(shù)，如大模型訓(xùn)練等。

　　在微軟前不久的一篇訓(xùn)練研究中，就系統(tǒng)闡述了大模型在FP8精度下訓(xùn)練的效果，能在同樣硬件成本下，訓(xùn)練更大規(guī)模的大模型、同時(shí)確保訓(xùn)練出來(lái)的模型性能。

△圖源論文FP8-LM: Training FP8 Large Language Models

　　以AI算法研究著稱(chēng)的OpenAI，則被曝出有造芯的意向，開(kāi)始朝硬件方向的技術(shù)發(fā)力。

　　顯然，從不同科技巨頭最新研究中能看出，在這個(gè)技術(shù)日新月異的時(shí)代，手握一張底牌就能抓住機(jī)遇、打出自身價(jià)值的概率，正變得越來(lái)越低。

　　如果還停留在“硬件公司造好芯、軟件公司做好算法”的階段，勢(shì)必只會(huì)被其他虎視眈眈的廠(chǎng)商超過(guò)，在「模力時(shí)代」失去已有的競(jìng)爭(zhēng)力。

　　反觀(guān)硬件場(chǎng)景有優(yōu)勢(shì)的芯片公司，亦是如此。

　　除了硬件性能的提升以外，與時(shí)俱進(jìn)擴(kuò)展軟件技術(shù)棧、提升軟硬件結(jié)合的AI能力，同樣不可或缺。

　　高通在前陣子推出的白皮書(shū)中就提到，將大模型部署到個(gè)人智能終端上，不僅要考慮硬件，也同樣需要考慮模型個(gè)性化、計(jì)算量等問(wèn)題。

　　但相比等待大模型廠(chǎng)商去解決這些問(wèn)題，高通選擇自己在軟件方面進(jìn)行研究，最新成果也同樣實(shí)時(shí)寫(xiě)成論文分享出來(lái)。

　　只有這樣，才能更好地了解算法軟件側(cè)對(duì)于硬件的需求，從而更好地提升芯片的性能。

　　另一方面，對(duì)于算力更受限、用戶(hù)范圍更廣的終端而言，未來(lái)的趨勢(shì)必然是無(wú)縫互聯(lián)。這就意味著，跨平臺(tái)適用性會(huì)成為AI解決方案的關(guān)鍵。

　　這種動(dòng)向，從今年的驍龍峰會(huì)上發(fā)布的Snapdragon Seamless技術(shù)就能窺見(jiàn)一斑。

　　像是將平板上的照片，用鼠標(biāo)就能“一鍵平移”到PC，在電腦上進(jìn)行快速處理：

　　處理完畢后，還能將照片在另一個(gè)設(shè)備上打開(kāi)，并用PC的鍵盤(pán)給它重命名：

　　即使只有一個(gè)設(shè)備擁有鍵盤(pán)和鼠標(biāo)，也能對(duì)各類(lèi)設(shè)備進(jìn)行無(wú)縫控制，甚至讓AI軟件也無(wú)障礙在各個(gè)設(shè)備之間連接使用。

　　對(duì)于數(shù)據(jù)傳輸延遲不是問(wèn)題的未來(lái)而言，打通多終端協(xié)作和互聯(lián)，勢(shì)必是智能終端的下一個(gè)未來(lái)：

　　不僅手機(jī)和PC等不同的終端設(shè)備之間可以共享數(shù)據(jù)、更可能讓同一套設(shè)備在不同的操作系統(tǒng)之間完成一系列流暢操作，像是手機(jī)和PC的音頻在耳機(jī)之間無(wú)縫切換：

　　之前只有在手機(jī)上能使用的AI應(yīng)用，有了這套系統(tǒng)就能擴(kuò)展到千萬(wàn)臺(tái)智能終端設(shè)備上，包括PC、XR、平板和汽車(chē)。

　　這樣一來(lái)，大模型就不再會(huì)受限于某一臺(tái)設(shè)備、或是某一個(gè)操作系統(tǒng)，而是能快速將已經(jīng)在一類(lèi)終端中實(shí)現(xiàn)的AI能力快速套用到更多設(shè)備中，最終實(shí)現(xiàn)“萬(wàn)物皆可大模型”的操作。

　　總結(jié)來(lái)看，在大模型時(shí)代下，AI廠(chǎng)商不僅需要具備軟硬件結(jié)合的能力，更需要提前布局智能終端萬(wàn)物互聯(lián)的未來(lái)，以「連接」技術(shù)加速大模型在場(chǎng)景下的落地應(yīng)用。

　　高通已經(jīng)給出了自己的行動(dòng)路徑。

　　對(duì)于其他不同企業(yè)而言，依舊要在場(chǎng)景中探索自身的價(jià)值，才可能在「模力時(shí)代」下找到新的出路。

掰開(kāi)安卓手機(jī)，滿(mǎn)屏都是三個(gè)字：大模型

相關(guān)閱讀:

掰開(kāi)安卓手機(jī)，滿(mǎn)屏都是三個(gè)字：大模型

相關(guān)閱讀:

掰開(kāi)安卓手機(jī)，滿(mǎn)屏都是三個(gè)字：大模型