英特爾第一時(shí)間深度優(yōu)化Qwen3大模型,升級(jí)AI PC能力賦能多樣化場(chǎng)景
為持續(xù)推動(dòng)尖端AI模型的創(chuàng)新發(fā)展,英特爾始終與業(yè)界領(lǐng)先的創(chuàng)新力量保持深度協(xié)作。我們欣然宣布,全新升級(jí)的英特爾AI解決方案已全面覆蓋PC客戶端、邊緣計(jì)算、智能駕艙等場(chǎng)景,在第一時(shí)間為Qwen3系列大模型的發(fā)布提供技術(shù)支撐。
本文引用地址:http://2s4d.com/article/202504/470052.htm全新Qwen3系列大模型的五大亮點(diǎn):
1. 稀疏MoE模型深度優(yōu)化,端側(cè)高效部署Qwen3
2. 首次在NPU上Day 0支持大模型,提供更好的性能和功耗表現(xiàn)
3. 端側(cè)微調(diào),提升模型智能,優(yōu)化用戶體驗(yàn)
4. 動(dòng)態(tài)稀疏注意力賦能Qwen3長(zhǎng)上下文窗口,解鎖端側(cè)Agent新應(yīng)用
5. 擁抱開源生態(tài),Day 0支持魔搭社區(qū)Ollama
在本次阿里巴巴開源的新一代通義千問(wèn)Qwen3系列模型中,最為引人注目的是 30B 參數(shù)規(guī)模的 MoE混合專家模型 (Mixture of Experts)(Qwen3-30B-MOE-A3B)。該模型憑借其先進(jìn)的動(dòng)態(tài)可調(diào)混合專家架構(gòu),在有效提升計(jì)算效率方面表現(xiàn)出色, 使其在本地設(shè)備(客戶端和邊緣設(shè)備)上具備廣闊的應(yīng)用前景。然而,其在部署環(huán)節(jié)存在較大難度,且對(duì)系統(tǒng)整體資源的消耗依然較高。為應(yīng)對(duì)這些挑戰(zhàn),英特爾與阿里緊密合作,針對(duì) MoE 模型展開了全面的技術(shù)適配工作。通過(guò)實(shí)施多種優(yōu)化策略,基于OpenVINOTM工具套件成功地將 Qwen 模型高效部署于英特爾硬件平臺(tái)之上。具體而言,在 ARL-H 64G內(nèi)存的系統(tǒng)上部署的 30B 參數(shù)規(guī)模MoE模型,實(shí)現(xiàn)了33.97 token/s 1的吞吐量,而且相較于同等參數(shù)規(guī)模的稠密模型,取得了顯著的性能提升。英特爾采用的軟件優(yōu)化策略涵蓋了針對(duì)稀疏混合專家模型架構(gòu)(Sparse MoE)的算子融合,針對(duì)3B 激活MOE模型定制化的調(diào)度和訪存優(yōu)化以及針對(duì)不同專家之間的負(fù)載均衡, 這些技術(shù)能夠助力更多MOE模型在英特爾平臺(tái)上實(shí)現(xiàn)高效部署。
此次發(fā)布的 Qwen3系列模型主要集中于中小參數(shù)量的稠密架構(gòu) LLM,參數(shù)規(guī)模涵蓋 0.6B 至 32B,能夠適配更廣泛的硬件資源,滿足多樣化的使用場(chǎng)景需求。英特爾的 CPU、GPU、 NPU 架構(gòu)全面適配 Qwen 系列模型,為模型的部署進(jìn)行優(yōu)化,使用英特爾OpenVINOTM工具套件和PyTorch社區(qū)工具都可以為全系列 Qwen 模型在英特爾酷睿Ultra平臺(tái) (酷睿Ultra 100系列/200系列) 和英特爾銳炫? A系列顯卡和B系列顯卡上的部署實(shí)現(xiàn)卓越性能表現(xiàn)。
值得一提的是,英特爾首次在 NPU上對(duì)模型發(fā)布提供第零日(Day 0)支持,體現(xiàn)了英特爾和開源生態(tài)更加深入的合作,針對(duì)不同模型參數(shù)量和應(yīng)用場(chǎng)景提供更多樣化的、更有針對(duì)性的平臺(tái)支持。針對(duì)從0.6B到高達(dá)8B的中小參數(shù)量模型全面支持,吞吐量最高達(dá)到36.68 token/s 2,借助英特爾Lunar Lake NPU平臺(tái)和英特爾OpenVINOTM工具套件,可以在保持低能耗的同時(shí),又可以獲得優(yōu)異性能。
同時(shí),在酷睿Ultra 的iGPU平臺(tái)上,英特爾持續(xù)為模型帶來(lái)卓越的性能。針對(duì)小尺寸的模型,在FP16精度下,最高達(dá)到66 token/s2,針對(duì)中小尺寸模型,在INT4精度下,最高達(dá)到35.83 token/s 2。開發(fā)者可以根據(jù)適合的使用場(chǎng)景,找到精度和性能的最佳組合。在英特爾銳炫B系列顯卡更強(qiáng)大算力加持下,Qwen3-8B模型可實(shí)現(xiàn) 70.67 token/s3 ,開發(fā)者能夠即刻領(lǐng)略到最新模型與英特爾卓越平臺(tái)能力的超強(qiáng)組合,暢享前沿科技帶來(lái)的高效與便捷。
作為生成式AI模型中的輕量級(jí)選手,0.6B 參數(shù)量的小型 LLM 具備靈活高效的部署優(yōu)勢(shì)以及快速迭代更新的能力。然而,在實(shí)際應(yīng)用落地過(guò)程中,人們常常對(duì)其知識(shí)的深度與廣度以及處理復(fù)雜任務(wù)的能力存在顧慮。通過(guò)借助特定的數(shù)據(jù)集對(duì)這些小型 LLM 進(jìn)行端側(cè)微調(diào)(Fine-tune),可以提升模型智能,優(yōu)化用戶體驗(yàn)。為此,基于Unsloth和Hugging Face參數(shù)高效微調(diào)框架(Parameter-Efficient Fine-Tuning, PEFT),英特爾構(gòu)建了一套完整的端側(cè)解決方案,使模型變得更加智能,AI PC應(yīng)用也真正變成用戶的貼心智能小助手。
00:00/00:40480P倍速
借助這個(gè)方案,在Qwen3 0.6B模型的多語(yǔ)言能力,可以更好的發(fā)揮作用,這里就是一個(gè)用多語(yǔ)言對(duì)圖片進(jìn)行查詢的實(shí)例
在本次發(fā)布的 Qwen3 模型中,我們注意到其 LLM 長(zhǎng)上下文能力得到了顯著提升。面對(duì)有限的算力資源,如何有效利用模型的長(zhǎng)上下文能力,避免計(jì)算資源消耗呈指數(shù)級(jí)增長(zhǎng),進(jìn)而拓展 LLM 在客戶端的應(yīng)用場(chǎng)景,英特爾已給出解決方案。基于動(dòng)態(tài)稀疏注意力,在保證近乎無(wú)損精度的前提下,我們可以使長(zhǎng)上下文窗口處理速度成倍提升。采用該方案后,Qwen3-8B 模型在英特爾LNL 平臺(tái)上可實(shí)現(xiàn) 32K 的上下文長(zhǎng)度。
這樣的長(zhǎng)上下文能力,解鎖了更多端側(cè)Agent新應(yīng)用。結(jié)合Qwen3更強(qiáng)的Agent和代碼能力,以及對(duì)MCP協(xié)議的加強(qiáng)支持,使得基于端側(cè)大模型調(diào)用MCP服務(wù)來(lái)開發(fā)各種AI PC Agent首次成為可能。視頻展示了,在英特爾AI PC上,基于Qwen3-8B模型調(diào)用必優(yōu)科技ChatPPT.cn MCP服務(wù)自動(dòng)生成PPT的過(guò)程。
00:00/00:49480P倍速
英特爾持續(xù)擁抱開源生態(tài),英特爾優(yōu)化版Ollama也第一時(shí)間支持了包括MoE 模型在內(nèi)的Qwen3 系列模型,使開發(fā)者可以在英特爾客戶端平臺(tái) (如英特爾酷睿Ultra AI PC,英特爾銳炫A/B 系列顯卡)上,利用 Ollama框架來(lái)搭建基于Qwen3系列模型的智能應(yīng)用。優(yōu)化版Ollama還 提供了基于魔搭的模型下載源設(shè)置,使得本地開發(fā)者可以從魔搭社區(qū)更高效下載和部署安裝包及模型。
英特爾在車端艙內(nèi)對(duì)新發(fā)布的Qwen3 系列模型,也已經(jīng)順滑匹配?;谟⑻貭栜囕d軟硬件解決方案(含第一代英特爾AI增強(qiáng)軟件定義汽車(SDV) SOC、剛剛在上海車展發(fā)布的第二代SDV SoC NPU,以及英特爾銳炫?車載獨(dú)立顯卡),英特爾能讓Qwen3系列模型很快就有機(jī)會(huì)上車部署,從而充分發(fā)揮車端的本地算力。其中,率先在汽車行業(yè)內(nèi)采用了多節(jié)點(diǎn)芯粒架構(gòu)的第二代SDV SOC,其生成式和多模態(tài)AI性能,相比上一代,最高可提升十倍4,這讓汽車AI體驗(yàn),如艙內(nèi)的實(shí)時(shí)對(duì)話、自然語(yǔ)言交互和復(fù)雜指令的響應(yīng)等,都充滿AI的靈性。
快速上手指南 (Get Started)
下面將以Qwen3-8B為例,介紹如何利用OpenVINO?的Python API在英特爾平臺(tái)(GPU, NPU)上運(yùn)行Qwen3系列模型。 也可以參考下面的完整示例:
https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot
https://github.com/openvinotoolkit/openvino.genai/tree/master/samples/python/text_generation
第一步,環(huán)境準(zhǔn)備
基于以下命令可以完成模型部署任務(wù)在Python上的環(huán)境安裝。
第二步,模型下載和轉(zhuǎn)換
在部署模型之前,我們首先需要將原始的PyTorch模型轉(zhuǎn)換為OpenVINOTM的IR靜態(tài)圖格式,并對(duì)其進(jìn)行壓縮,以實(shí)現(xiàn)更輕量化的部署和最佳的性能表現(xiàn)。通過(guò)Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉(zhuǎn)換和權(quán)重量化任務(wù)。
optimum-cli使用方法可以參考:
https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html
此外我們建議使用以下參數(shù)對(duì)運(yùn)行在NPU上的模型進(jìn)行量化,以達(dá)到性能和精度的平衡。
第三步,模型部署
OpenVINOTM目前提供兩種針對(duì)大語(yǔ)言模型的部署方案,如果您習(xí)慣于Transformers庫(kù)的接口來(lái)部署模型,并想體驗(yàn)相對(duì)更豐富的功能,推薦使用基于Python接口的Optimum-intel工具來(lái)進(jìn)行任務(wù)搭建。如果您想嘗試更極致的性能或是輕量化的部署方式,GenAI API則是不二的選擇,它同時(shí)支持Python和C++兩種編程語(yǔ)言,安裝容量不到200MB。
· Optimum-intel部署示例
· GenAI API部署示例
這里可以修改device name的方式將模型輕松部署到NPU上。
· 此外Ollama package on Modelscope(https://www.modelscope.cn/models/Intel/ollama/summary) is ready to download now
1. 性能數(shù)據(jù)通過(guò)在 SKU1平臺(tái)上使用OpenVINO 框架 2025.1.0 版本進(jìn)行測(cè)試。計(jì)算任務(wù)由集成顯卡(iGPU)完成。這些測(cè)試評(píng)估了在 INT4混合精度設(shè)置下 ,處理1K input 時(shí)的內(nèi)存占用、首個(gè)token延遲和平均吞吐量。每次測(cè)試在預(yù)熱階段后執(zhí)行 3 次,選取中間值作為報(bào)告數(shù)據(jù)。(Sku1: Brand: Intel, OEM: n/a, Model: CSRD(Reference Design), CPU: Core Ultra 9-285H, Memory: 64GB LPDDR5-8400MHz, Storage: 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: -, Screen Size: 15", Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM's Power App): -, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 65, Short Duration Power Limit (W): 70, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)
2. 性能數(shù)據(jù)通過(guò)在SKU2平臺(tái)上使用OpenVINO框架2025.1.0版本進(jìn)行測(cè)試,計(jì)算任務(wù)由集成顯卡(iGPU)或神經(jīng)處理單元(NPU)完成。測(cè)試評(píng)估了INT4混合精度、INT8通道權(quán)重精度及FP16精度設(shè)置下,處理1K input 時(shí)的內(nèi)存占用、首個(gè) token 延遲和平均吞吐量。每次測(cè)試在預(yù)熱階段后執(zhí)行 3 次,選取中間值作為報(bào)告數(shù)據(jù)。(Sku2: Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.3624), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: NYCN66WW, Screen Size: 15", Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM's Power App): Extreme Performance, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 30, Short Duration Power Limit (W): 37, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)
3. 性能數(shù)據(jù)通過(guò)在 SKU3 上使用 OpenVINO 框架 2025.1.0 版本進(jìn)行測(cè)試,計(jì)算任務(wù)在獨(dú)立顯卡上完成。測(cè)試評(píng)估了在 INT4混合精度、INT8量化和 FP16 精度設(shè)置下,處理1K input時(shí)的內(nèi)存占用、首個(gè)token延遲和平均吞吐量。每次測(cè)試在預(yù)熱階段后執(zhí)行三次,選取中間值作為報(bào)告數(shù)據(jù)。(Sku3: Brand: Intel, Model: Desktop, CPU: Core i7-14700K, Memory: 32GB DDR5-5600MHz, Storage: SAMSUNG 980 PRO 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc B580 GPU(vRAM=12GB), Graphics Driver Version: 32.0.101.6737, Resolution: 2560 x 1440, NPU Driver Version: n/a, PC BIOS: 2801, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): -, Short Duration Power Limit (W): -, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)
4. 性能因使用情況、配置和其他因素而異。 欲了解更多信息,請(qǐng)?jiān)L問(wèn)intel.com/performanceindex?;趯?duì)第二代英特爾AI增強(qiáng)SDV SoC GPU+NPU與MBL i7-13800HAQ CPU+GPU(關(guān)閉睿頻)的內(nèi)部預(yù)測(cè),AI性能最高可提升十倍。
評(píng)論