
數(shù)據(jù)分析軟件的實(shí)驗(yàn)形成以及算法
一,、實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)分析軟件的實(shí)驗(yàn)的設(shè)計(jì),即對實(shí)驗(yàn)的?種安排,,需要考慮實(shí)驗(yàn)所要解決的問題類型,、對結(jié)論賦予何種程度的普遍性、希望以多?功效作檢驗(yàn)、試驗(yàn)單元的?性,、每次試驗(yàn)的耗資耗時等??,,選取適當(dāng)?shù)囊?和相應(yīng)的?平,從?給出實(shí)驗(yàn)實(shí)施的具體程序和數(shù)據(jù)分析的框架,。試驗(yàn)設(shè)計(jì)?法有:正交設(shè)計(jì),、*隨機(jī)設(shè)計(jì)、隨機(jī)區(qū)組設(shè)計(jì),、均勻設(shè)計(jì),、響應(yīng)?設(shè)計(jì)。
二,、降維算法
機(jī)器學(xué)習(xí)領(lǐng)域中所謂的降維就是指采?某種映射?法,,將原?維空間中的數(shù)據(jù)點(diǎn)映射到低維度的空間中。降維的本質(zhì)是學(xué)習(xí)?個映射函數(shù)f(x)->y,,其中x是原始數(shù)據(jù)點(diǎn)的表達(dá),,?前最多使?向量表達(dá)形式。y是數(shù)據(jù)點(diǎn)映射后的低維向量表達(dá),,通常y的維度?于x的維度(當(dāng)然提?維度也是可以的),。f可能是顯式的或隱式的、線性的或?線性的,。
降維算法有:PCA,、LDA、LLE,、LE,、TSNE、ISOMAP,。
三,、分類算法
數(shù)據(jù)研究的基礎(chǔ)是給數(shù)據(jù)“貼標(biāo)簽”進(jìn)?分類。類別分得越精準(zhǔn),,我們得到的結(jié)果就越有價值,。分類是?個有監(jiān)督的學(xué)習(xí)過程,?標(biāo)數(shù)據(jù)庫中有哪些類別是已知的,,分類過程需要做的就是把每?條記錄歸到對應(yīng)的類別之中,。由于必須事先知道各個類別的信息,并且所有待分類的數(shù)據(jù)條?都默認(rèn)有對應(yīng)的類別,,因此分類算法也有其局限性,,當(dāng)上述條件?法滿?時,我們就需要嘗試聚類分析,。
分類算法有: LDA、 PLS-DA、BP( PCA-BP,、 LDA-BP),、 SVM( PCA-BP、 LDA-BP),、KNN( PCA-KNN,、 LDA-KNN)
四、回歸算法
回歸算法是監(jiān)督型算法的?種,,通過利?測試集數(shù)據(jù)來建?模型,,再利?這個模型訓(xùn)練集中的數(shù)據(jù)進(jìn)?處理的算法。線性回歸旨在尋找到?根線,,這個線到到達(dá)所有樣本點(diǎn)的距離的和是最?的,。常?在預(yù)測和分類領(lǐng)域。
回歸算法有:PLSR,、BP,、SVM
五、 聚類算法
聚類分析是?種將數(shù)據(jù)所研究的對象進(jìn)?分類的統(tǒng)計(jì)?法,事先不知道類別的個數(shù)和結(jié)構(gòu),據(jù)以進(jìn)?分析的數(shù)據(jù)是對象之間的相似性和相異性的數(shù)據(jù),。將這些相似(相異)的數(shù)據(jù)可以看成是對象與對象之間的“距離”遠(yuǎn)近的?種度量,將距離近的對象看做?類,不同類之間的對象距離較遠(yuǎn),這個可以看作為聚類分析?法的?個共同的思路,。聚類和分類是兩種不同的分析。分類的?的是為了確定?個點(diǎn)的類別,,具體有哪些類別是已知的,。聚類的?的是將?系列點(diǎn)分成若?類,事先是沒有類別的,。
聚類算法有:歐式距離聚類,、閔式距離聚類、??距離聚類,、K-Means聚類,。
六、 繪圖