一,、建設背景
隨著大數(shù)據(jù),、云計算等技術(shù)的不斷進步,,大模型技術(shù)已成為人工智能領(lǐng)域的重要研究方向,,其在自然語言處理,、計算機視覺,、語音識別等領(lǐng)域展現(xiàn)出強大的應用潛力,。自2022年11月ChatGPT問世以來,,大模型開始備受關(guān)注,,科技們紛紛推出大模型實驗室解決方案。大模型的價值不知在于互聯(lián)網(wǎng)場景,,而在于大模型能力垂直化,,能夠與具體的業(yè)務需求深度融合。
大模型實驗室是在學?,F(xiàn)有的實驗室建設基礎(chǔ)上,,依托企業(yè),聚焦行業(yè)大模型產(chǎn)業(yè)發(fā)展方向,,建設一個產(chǎn)學研一體化的合作教學平臺,,形成“教與學緊密結(jié)合,、理論與實踐緊密結(jié)合,學校與企業(yè)緊密結(jié)合”的創(chuàng)新教育模式,。大模型實驗室不僅可以賦能院?!半p師型”師資隊伍建設,還能培養(yǎng)大模型應用開發(fā)方面的復合型,、創(chuàng)新型人才,。
基于產(chǎn)教融合實訓基地開放共享應用需要和校企合作項目化特點,建設集教學培訓,、項目實踐,、科研于一體的“大模型技術(shù)應用實訓室”,滿足集教學,、科研,、培訓、社會服務于一體的應用,、管理與服務需要,,形成一批有影響力的社會服務成果,促進科技成果轉(zhuǎn)化和產(chǎn)業(yè)化,,不斷提升學校服務地方經(jīng)濟社會發(fā)展的能力,。
在當前信息化社會背景下,高職院校作為培養(yǎng)高技能人才的重要基地,,面臨著培養(yǎng)具有創(chuàng)新能力,、實踐能力和跨界融合能力的高素質(zhì)人才的需求。因此,,建設大模型技術(shù)應用實訓室,,為學生提供實踐平臺,對于提升高職院校人才培養(yǎng)質(zhì)量,、推動產(chǎn)學研用深度融合具有重要意義,。建設大模型技術(shù)應用實訓室,有助于培養(yǎng)更多具備大模型技術(shù)應用能力的高素質(zhì)人才,,滿足社會經(jīng)濟發(fā)展的需求,。
二、關(guān)鍵技術(shù)
模型架構(gòu)設計與優(yōu)化:大模型的架構(gòu)設計至關(guān)重要,,它決定了模型能否有效地處理海量數(shù)據(jù)并提取出有價值的信息,。同時,模型的優(yōu)化也是提升性能的關(guān)鍵,,包括超參數(shù)調(diào)整,、模型剪枝、量化等技術(shù),,以減少計算量,、提高推理速度,。
預訓練與遷移學習:預訓練技術(shù)使得模型在大量無標注數(shù)據(jù)上進行學習,從而掌握通用的知識表示,。遷移學習則允許將預訓練好的模型遷移到新的任務上,,通過微調(diào)適應特定領(lǐng)域的需求,極大地提高了模型在新任務上的性能,。
分布式計算與并行處理:大模型的訓練往往需要處理海量的數(shù)據(jù)和進行復雜的計算,,因此分布式計算和并行處理技術(shù)成為關(guān)鍵。通過將這些任務分散到多個計算節(jié)點上并行處理,,可以顯著提高訓練效率,。
數(shù)據(jù)處理與特征工程:高質(zhì)量的數(shù)據(jù)是訓練出優(yōu)秀模型的基礎(chǔ)。數(shù)據(jù)處理包括數(shù)據(jù)清洗,、標注,、增強等操作,以提高數(shù)據(jù)的質(zhì)量,。特征工程則是從原始數(shù)據(jù)中提取出有意義的特征,,以供模型學習使用。
自動化機器學習(AutoML):隨著模型規(guī)模和復雜度的增加,,手動調(diào)整超參數(shù)和模型結(jié)構(gòu)變得越來越困難。AutoML技術(shù)通過自動化地搜索的超參數(shù)和模型結(jié)構(gòu),,降低了模型調(diào)優(yōu)的難度,,提高了模型性能。
模型壓縮與部署:大模型往往具有較高的計算復雜度和存儲需求,,不利于在實際應用中部署,。模型壓縮技術(shù)如剪枝、量化等可以降低模型的復雜度和大小,,便于部署到資源有限的設備上,。同時,高效的模型部署技術(shù)也是確保模型能夠在實際場景中發(fā)揮作用的關(guān)鍵,。
三,、建設目標
1)完善高校大模型技術(shù)應用課程體系
提供豐富的大模型課程案例,在人工智能教學資源基礎(chǔ)上加入的大模型技術(shù),、案例等內(nèi)容,,并增加實驗、實訓環(huán)節(jié)的比重,,通過實際操作案例,,讓學生在理論學習的基礎(chǔ)上,加深對大模型應用技術(shù)的理解和應用能力,,助力高校人才培養(yǎng),。
2) 建成設施的大模型技術(shù)應用實訓室
在學?,F(xiàn)有的實驗室建設基礎(chǔ)上,依托企業(yè),,聚焦大模型技術(shù)發(fā)展,,以“面向產(chǎn)業(yè)、項目驅(qū)動,、能力培養(yǎng),、全面發(fā)展”的教育指導理念,依托的人工智能教學科研平臺和真實的行業(yè)案例,,形成“教與學緊密結(jié)合,、理論與實踐緊密結(jié)合,學校與產(chǎn)業(yè)緊密結(jié)合”的教育模式,。通過實驗室的建設,,依托校企共建的人工智能教學、科研平臺,,與學校深度融合共育技術(shù)技能人才,,實現(xiàn)包括專業(yè)教學實訓、師資培訓,、資源開發(fā),、實習實踐、科學研究等教學活動,。
3)培養(yǎng)人工智能開發(fā)應用的復合型人才
實驗室建設的核心目標是為了培養(yǎng)具有扎實基礎(chǔ)的大模型開發(fā),、大模型應用人才,實驗室建設后,,通過完善教學實訓資源及應用軟件建設,,全面支撐大模型技術(shù)應用領(lǐng)域相關(guān)教學實訓開展,為培養(yǎng)大模型開發(fā)和應用方面的核心人才提供支撐,。
4)培養(yǎng)創(chuàng)新創(chuàng)業(yè)能力
在實際案例操作過程中,,推動人工智能與其他學科的有機融合教育,如藝術(shù),、設計,、傳媒等,通過大模型輔助激發(fā)學生創(chuàng)新思維,,培養(yǎng)學生的跨領(lǐng)域創(chuàng)新能力,,為社會培養(yǎng)更多具有創(chuàng)新意識和實踐能力的“智能型”人才。
四,、實訓室建設內(nèi)容
4.1 大模型技術(shù)應用教學平臺
大模型技術(shù)應用教學平臺是針對職業(yè)教育發(fā)展現(xiàn)狀,,以計算機技術(shù)、多媒體技術(shù)、網(wǎng)絡通信技術(shù)等現(xiàn)代信息技術(shù)手段構(gòu)建的一種新型教學模式,,是融合了現(xiàn)代教育理念,、教學內(nèi)容和現(xiàn)代信息技術(shù)的具有多種功能的開放式的教、學,、訓一體化交互平臺,。
平臺采用B/S結(jié)構(gòu),運用spring cloud微服務技術(shù),,采用kubernetes技術(shù)進行部署,,支持公有云、私有云,、混合云模式安裝,;平臺支持多數(shù)據(jù)源從而保證技術(shù)的一致性;確保服務的穩(wěn)定,、可擴展,、彈性擴容;每個獨立服務支持分布式集群部署,,可以無限橫向擴展,,提高系統(tǒng)處理能力,支持大規(guī)模并發(fā)教學全場景和數(shù)字化專業(yè)群教學實踐應用,。主要包含通用課程模塊和考試模塊,。
通用教學模塊包含以下功能:課程制作工具、作業(yè),、活動,、云盤、共享課,、我的課、云優(yōu)選課,、云視頻庫,、3D模型庫。
(1)課程制作工具模塊:支持pdf,、ppt,、word、excel等不同格式的文本,、圖片,、音頻、視頻,、超鏈接等進行混合編排,,并自動生成動態(tài)課程目錄,支持多源格式文件(至少包含:圖片,、視頻,、壓縮文件,、word、ppt,、excel,、pdf等)同屏展示。
(2)作業(yè)模塊:支持單選,、多選,、判斷、主觀題等題型,,支持自定義出題支持自動出題,,支持監(jiān)控,支持自動進行客觀題判題,。
(3)共享課程模塊,。
(4)我的課程:支持老師利用平臺提供的課程制作的課程或者平時積累的課程自動歸檔為我的課程,也可以將共享課程和云優(yōu)選課,、云視頻庫課程轉(zhuǎn)換成我的課程,,支持我的課程一鍵分享到共享課程、云優(yōu)選課中,。
(5)課堂活動模塊:課堂活動至少包括:簽到,、主題討論、提問,、分組任務,、投票、問卷,、計時器等功能,。
(6)云優(yōu)選課模塊:將教學中多門課程的教材,教案,,課件,,微課,教學配套材料等教學元素整合到云優(yōu)選課模塊,,通過互聯(lián)網(wǎng)技術(shù)保證教學的實施與效果,;支持智能備課、一鍵上課,。內(nèi)置豐富在線課程資源,,至少包含100個視頻,每個不低于20分鐘,。
(7)云視頻庫模塊:云視頻庫模塊提供數(shù)字化的教學內(nèi)容,,支持課堂教學,支持視頻顯示和多媒體課件互動,支持網(wǎng)絡課堂和遠程教學,。豐富學生的課外學習,,可為學校的專業(yè)建設提供有力支持,可充實校內(nèi)圖書館的數(shù)字資源,,建立數(shù)字閱覽室,,可為學校進行示范性職業(yè)院校建設、精品課程建設,、核心專業(yè)建設提供支持,。
個人云盤:平臺為用戶提供云盤服務,云盤內(nèi)所有文件都會按照不同的文件類型進行分類,、分類至少包含視頻,、音頻、圖片,、文檔,、回收站等、支持一鍵上傳,、刪除,、新建、重命名,、移動等功能
(8)3D模型庫:至少包含3D模型50個,,具備虛擬仿真教學制作工具,可播放 3D 模型,、進行交互,。
內(nèi)置豐富大模型技術(shù)基礎(chǔ)課程:大模型簡介、Python與大模型,、LLM大模型 API,、C++與大模型、CUDA基礎(chǔ),、LangChain基礎(chǔ),、向量數(shù)據(jù)庫、prompt工程,、大模型應用開發(fā)等課程資源。
4.2 大模型項目實訓管理平臺
大模型項目實訓管理平臺的功能主要涵蓋了實訓項目的全生命周期管理,,從實訓任務,、文檔管理、代碼開發(fā)與測試,、實驗環(huán)境管理到成果提交與評估等各個環(huán)節(jié),。
用戶創(chuàng)建新的實訓項目,并設置項目的基本信息、目標,、團隊成員等,。為項目成員分配具體的任務,并實時跟蹤任務的完成情況,,確保項目按計劃進行,。提供項目成果的展示平臺,方便團隊成員分享和交流項目經(jīng)驗,、技術(shù)文檔等,。
支持用戶上傳、編輯和保存各類實訓文檔,,如需求文檔,、設計文檔、測試報告等,。提供文檔分類功能,,便于用戶按項目、類型等快速檢索所需文檔,。支持文檔的版本控制,,確保文檔內(nèi)容的準確性和一致性;同時支持多人協(xié)同編輯,,提高團隊協(xié)作效率,。
集成大模型開發(fā)所需的各種工具,如模型訓練框架,、數(shù)據(jù)預處理工具,、性能分析工具等,方便用戶一站式完成代碼開發(fā)與測試工作,。平臺能夠自定義調(diào)用CPU和內(nèi)存資源,,自由配置專門針對大模型和深度學習等任務的硬件加速器(如GPU或XPU),能夠高效地執(zhí)行大模型的prompt工程,、大模型應用開發(fā)和大模型的微調(diào),。平臺支持主流的大模型基座,支持大模型基座私有化部署,,包括智譜的ChatGLM,、百川的Baichuan、阿里的Qwen等,,助力用戶快速進行大模型的開發(fā)和微調(diào),。平臺還提供了豐富大模型開發(fā)工具、整套開發(fā)環(huán)境和資源監(jiān)控功能,,能夠靈活分配資源,,方便用戶輕松使用,、開發(fā)、管理大模型應用,。
平臺實時監(jiān)控實驗機的運行狀態(tài),,包括CPU、內(nèi)存,、磁盤等使用情況,;提供實驗機的遠程管理功能,方便用戶進行故障排除和日常維護,。收集并展示項目的進度,、任務完成情況、代碼提交量等統(tǒng)計數(shù)據(jù),,幫助用戶了解項目整體情況,。設置不同的用戶角色和權(quán)限,確保不同用戶只能訪問和操作其權(quán)限范圍內(nèi)的內(nèi)容,。
4.3 大模型項目項目資源包
l基于 LLM(Large Language odel)大型語言模型的知識庫問答系統(tǒng),,它提供了一整套開箱即用的功能,包括數(shù)據(jù)處理,、模型調(diào)用等能力,,并且通過可視化的 Flow 進行工作流編排,從而實現(xiàn)復雜的問答場景,。
l智能證件照制作算法,,本項目基于OpenCV模型,使用 Python 語言實現(xiàn)智能摳圖,、人臉檢測,、尺寸切割等功能于一體,采用了一套完善的機器學習模型工作流,,實現(xiàn)對多種用戶拍照場景的識別,、摳圖與證件照生成。具體包含輕量級摳圖,、根據(jù)不同尺寸規(guī)格生成不同的標準證件照,、智能換正裝等;
l計算機視覺應用手寫數(shù)字識別,,采用深度學習技術(shù)來構(gòu)建一個手寫數(shù)字識別模型,,基于MINST數(shù)據(jù)庫,使用 TensorFlow 和 Keras 這兩個流行的深度學習框架來實現(xiàn)手寫數(shù)字識別,。
4.4 大模型技術(shù)應用平臺
大模型技術(shù)應用平臺是一款專為高校大模型應用場景教學和科研打造的知識庫問答系統(tǒng),。該平臺易于使用,知識庫支持常見的txt,、doc,、pdf、md等數(shù)據(jù)文件上傳,,同時提供了簡潔易懂的操作配置界面,,使用戶可以輕松地搭建和訓練AI應用,并快速調(diào)用,,滿足不同領(lǐng)域的交互式對話場景需求,。此外平臺還支持可視化的工作流編排,能夠滿足復雜的問答場景搭建需求,。通過大模型應用平臺,,能夠更好幫助用戶更好地應用大模型技術(shù),提升教學和科研質(zhì)量,。
4.5 大模型技術(shù)應用教學平臺硬件
CPU:多核心處理器,,如 Intel 志強系列,不少于24核,,以支持并發(fā)處理多個微服務實例,。
RAM:至少 64 GB DDR4 RAM,以確保能夠同時運行多個微服務實例和相關(guān)的應用程序,。
存儲:SATA SSD 或 HDD:至少 4 TB 用于數(shù)據(jù)存儲和備份,,根據(jù)需要可增加容量。
網(wǎng)絡:至少 10 GbE 網(wǎng)絡接口,,用于高速內(nèi)部網(wǎng)絡通信和負載均衡,。
主板: 主板應支持硬件虛擬化技術(shù),如 Intel VT-x 或 AMD-V,,以提高虛擬機性能,。支持多核心 CPU 和大量 RAM 的主板。足夠的 PCIe 插槽,,用于擴展網(wǎng)絡適配器和存儲設備,。
電源供應:至少 750W 的電源,具有或白金效率認證,,以確保穩(wěn)定供電,。
散熱系統(tǒng):高性能 CPU 散熱器,如空氣散熱器或液冷系統(tǒng),。
數(shù)據(jù)傳輸和連接:USB 3.0 或更高版本的端口,,用于外部存儲和其他設備的連接。HDMI端口,,用于連接顯示器,。
4.6 大模型項目實訓平臺硬件
CPU:Intel Xeon Gold 6230 或 AMD EPYC 7742 等,具有多個核心(至少 24 核)和高速緩存,,以支持并行處理和高效的數(shù)據(jù)預處理,。
GPU:NVIDIA GeForce RTX 4090:具備大量的 CUDA 核心和高速內(nèi)存,,適合進行深度學習模型的訓練。
RAM:至少 256 GB DDR4 ECC 內(nèi)存,,以支持大型模型的訓練和數(shù)據(jù)處理,。
存儲:HDD 或 SSD:至少 8 TB 用于數(shù)據(jù)存儲和備份。
主板:支持 dual-width GPU 插槽,,以確保顯卡能夠正確安裝和散熱,。
足夠的 PCIe 插槽,用于擴展其他高速設備,。
電源供應:至少 1200W 的電源,,具有或白金效率認證,以確保穩(wěn)定供電,。
散熱系統(tǒng):強勁的 CPU 散熱器,,如液冷或大型空氣散熱器。顯卡專用的散熱系統(tǒng),,如水冷或高性能風扇,。
機箱:大型機箱,具有良好的散熱和擴展空間,,以便安裝多個 GPU 和散熱設備,。
網(wǎng)絡:至少 10 GbE 網(wǎng)絡接口,用于快速數(shù)據(jù)傳輸和模型同步,。
數(shù)據(jù)傳輸和連接:
USB 3.0 或更高版本的端口,,用于外部存儲和其他設備的連接。
HDMI 端口,,用于連接顯示器,。
五、實訓室建設清單
相關(guān)產(chǎn)品
免責聲明
- 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,,均為浙江興旺寶明通網(wǎng)絡有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品,。已經(jīng)本網(wǎng)授權(quán)使用作品的,,應在授權(quán)范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”,。違反上述聲明者,,本網(wǎng)將追究其相關(guān)法律責任。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,,目的在于傳遞更多信息,,并不代表本網(wǎng)贊同其觀點和對其真實性負責,不承擔此類作品侵權(quán)行為的直接責任及連帶責任,。其他媒體,、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,,必須保留本網(wǎng)注明的作品第一來源,并自負版權(quán)等法律責任,。
- 如涉及作品內(nèi)容,、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,,否則視為放棄相關(guān)權(quán)利。