摘要
前期回顧:
機器學習與連續(xù)流連載系列丨使用康寧反應器集成在線光譜,,通過半監(jiān)督機器學習識別化學反應式計量和動力學模型點擊進入原文查看
本期亮點
本期將對機器學習做一次全面感性認識:
什么是機器學習,?
機器學習的工作流程是怎樣的?
機器學習有幾種類型,?
機器學習也有局限性,?
機器學習(Machine Learning, ML)作為人工智能(Artificial Intelligence, AI)的一個分支,正在逐漸改變我們與技術的互動方式,。本文將探討機器學習的核心概念,、工作流程,、類型、優(yōu)勢與局限,。
點擊關注公眾號,,我們下期不見不散!
在回答機器學習前,,先回到人類的學習,,什么叫做學習或者學會了?簡而言之就是發(fā)現(xiàn)規(guī)律,,能根據(jù)已有情況,,尋找規(guī)律,解決新問題,。
“過擬合”,,打個比方就像某學生做大量題,他死記硬背,,只會做已經做過的相同的題,,遇到相同知識基礎的新題(稍微變化一下)就不會解答,也就是“泛化能力”差,。
比如某某學生在模擬考試中,,考試成績好,到了正式考試時,,成績不理想,,很多家長認為沒有考試運。當然這個有很多原因,,比如考試時緊張,,身體出現(xiàn)不適等,但有個原因就是其“泛化能力”差,,模擬考是他做過的題,,沒有從中“泛化”出規(guī)律去解答新題。
機器學習類似人類學習,,根據(jù)大量題型總結規(guī)律,,根據(jù)規(guī)律去解決新問題。
人工智能先驅Arthur Samuel,,在1950年代將“機器學習”定義為,,“使計算機能夠在沒有明確編程的情況下進行學習的研究領域”。
Nvidia認為“機器學習最基本的是使用算法解析數(shù)據(jù),,從中學習,,然后對世界上的事物做出決定或預測。”
傳統(tǒng)編程
機器學習
傳統(tǒng)編程需要寫好嚴格的詳細的程序指令,,根據(jù)輸入數(shù)據(jù)得到輸出結果,。其難度在于程序的編寫,,有時不能覆蓋某些新情況。比如做饅頭,,寫好買1kg白面粉,,和面加入X kg水,捏好形狀,,放入蒸籠蒸X分鐘,。如果遇到了玉米粉,它就不會做玉米饅頭了,。
機器學習是通過算法和大量的做饅頭的書籍介紹等,,總結出通用規(guī)律,這樣遇到玉米粉也能輸出相應做玉米饅頭的步驟,。所以機器學習難在解析數(shù)據(jù)結構,,發(fā)現(xiàn)規(guī)律。
機器學習的工作流程包括以下幾個關鍵步驟:
數(shù)據(jù)收集:從不同來源收集數(shù)據(jù),,如音樂錄音,、患者病史或照片。
數(shù)據(jù)準備:清洗數(shù)據(jù),、去除錯誤,,并進行格式化,使其適合計算機處理,。
選擇和訓練模型:根據(jù)任務選擇合適的機器學習模型,,并開始訓練過程。
模型優(yōu)化:通過調整參數(shù)或設置來提高模型的準確性,。
模型評估:使用未包含在訓練數(shù)據(jù)中的新數(shù)據(jù)來測試模型的泛化能力,。
模型部署:將訓練和評估好的模型用于對新數(shù)據(jù)進行預測或識別模式。
機器學習模型主要分為四種類型:
監(jiān)督學習:使用帶有明確描述或標簽的訓練數(shù)據(jù),,算法在“監(jiān)督者”的幫助下學習,。監(jiān)督學習就像做題,,有答案和目標可以參照,。
無監(jiān)督學習:使用未標記的訓練數(shù)據(jù),目的是在沒有具體指導的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式,、結構或關系,。
半監(jiān)督學習:嚴格意義上來說不算獨立分類,顧名思義就是有一部分有明確描述的數(shù)據(jù)來訓練,。例如上篇文章提到的半監(jiān)督學習,。就是先做一部分給答案的題,然后根據(jù)規(guī)律去做另一半沒有答案的題目,。
強化學習:計算機程序通過與環(huán)境的交互來學習,,通過試錯來確定在特定情境下的最佳行動,。
優(yōu)勢
數(shù)據(jù)處理能力:機器學習能夠處理大量數(shù)據(jù),并自行發(fā)現(xiàn)模式和進行預測,。
靈活性:機器學習模型可以適應新數(shù)據(jù),,并隨著時間的推移不斷提高準確性。
自動化:機器學習模型消除了手動數(shù)據(jù)分析和解釋的需要,,實現(xiàn)了決策自動化,。
局限
過擬合和泛化問題:機器學習模型可能過于適應訓練數(shù)據(jù),導致無法泛化到未見過的例子,。
可解釋性:一些機器學習模型像“黑箱”一樣運作,,即使是專家也無法解釋它們的決策或預測。
算法偏差:由于訓練數(shù)據(jù)可能包含人類的偏見,,這可能導致算法偏差,,產生不公平的結果。
立即詢價
您提交后,專屬客服將第一時間為您服務