進入展臺在線留言

歡迎聯系我

有什么可以幫您,？在線咨詢

顯微課堂 | UMAP、t-SNE與PacMAP降維大對決

來源：徠卡顯微系統（上海）貿易有限公司 2024年09月19日 14:06

從高維到低維：

Aivia帶你輕松駕馭3種數據降維技術

數據降維大揭秘：

UMAP,、t-SNE與PacMAP的zhongji對決

降維將數據從高維空間轉換到低維空間,，以簡化數據解釋。

在Aivia中的應用：通過選擇不同的測量方法,，幫助用戶為不同類別實現清晰的決策邊界,，這些測量方法可以用于不同的聚類技術。

Aivia中的三種降維方法：

UMAP – 比t-SNE更快

PacMAP – 比UMAP更快,，并且更好地保留高維數據的局部和全局結構

t-SNE – 保留局部結構

關于參數和不同使用示例的詳細技術說明,，請參見Aivia Wiki。

UMAP

UMAP（統yiliu形近似與投影）是一種現代降維技術,，主要用于高維數據集的可視化,。它的用途與t-SNE相似，但通常速度更快且能夠處理更大的數據集,。UMAP基于保持數據的拓撲結構的原則,，通過利用黎曼幾何和代數拓撲來近似數據的底層流形。通過捕捉局部和全局結構,，它提供了數據簇和關系的全面視圖,。

UMAP的兩個主要步驟

步驟1

創(chuàng)建一個高維圖。這是一個加權圖,，其中一個點與其最近的鄰居相連,。

步驟2

創(chuàng)建一個盡可能類似于高維圖的低維或二維圖，生成UMAP 1和UMAP 2參數,。

深入了解UMAP理論

UMAP的核心工作原理與t-SNE非常相似——兩者都使用圖布局算法在低維空間中排列數據,。UMAP構建數據的高維圖表示，然后優(yōu)化一個低維圖,，使其在結構上盡可能相似,。UMAP通過基于每個點的第n個最近鄰的距離來局部選擇半徑，從而確保局部結構與全局結構的平衡,。

如何（誤）解讀UMAP

雖然UMAP相較于t-SNE有許多優(yōu)勢,，但它絕不是萬能的——解讀和理解其結果需要一定的謹慎。需要注意以下幾點：

超參數非常重要：選擇合適的值取決于數據和你的目標。

UMAP圖中的簇大小毫無意義：簇之間的相對大小基本上沒有意義,。

簇之間的距離可能毫無意義：盡管UMAP在全局位置上更好地保留了簇的位置,，但它們之間的距離并不具有意義。

隨機噪聲不總是看起來隨機：特別是在n_neighbors值較低時,，可能會觀察到虛假的聚類,。

你可能需要不止一張圖：由于UMAP算法是隨機的，不同的運行可能產生不同的結果,。

優(yōu)點

保留局部和全局結構：UMAP捕捉數據中的非線性關系,，適用于處理復雜數據集。

速度和可擴展性：UMAP在計算上更高效,，適合處理大數據集,。

參數調優(yōu)：UMAP提供了參數調優(yōu)的靈活性，允許用戶在保留局部和全局結構之間進行權衡,。

缺點

可解釋性：UMAP嵌入可能不如一些其他方法（如PCA）那樣具有可解釋性,。

對超參數的敏感性：UMAP的性能可能對超參數選擇敏感，找到合適的參數可能需要進行實驗,。

在高維空間中的局限性：UMAP在非常高維的空間中可能表現不佳,。

計算資源需求：對于極其龐大的數據集,UMAP仍然可能需要大量的計算資源。

圖2:對Fashion MNIST數據集應用降維,。10類服裝物品的28x28圖像被編碼為784維向量,，然后通過UMATt-SNE投影到3維,。

t-SNE（t-隨機鄰域嵌入）

t-SNE（t-隨機鄰域嵌入）是一種流行的降維方法,，用于高維數據的可視化。t-SNE通過保留數據的局部結構來工作,，通常會導致簇的清晰分離,。與專注于zuida化方差的PCA（主成分分析）不同，t-SNE強調在降維空間中保持相似的距離接近,，不相似的距離遠離,。然而，由于其對局部結構的強調,，它有時會夸大簇,，并不總是能保留數據的全局結構。此方法計算量大,，尤其是對于大型數據集,。

優(yōu)點

局部結構的保留

t-SNE在保留數據的局部結構方面表現出色，使其在識別相似數據點的聚類時非常有效,。

靈活性

與某些線性方法（如PCA）不同,，它可以有效處理非線性數據結構。

可視化

特別適用于將高維數據可視化為二維或三維。

缺點

計算強度

該算法在處理大型數據集時可能會非常耗費計算資源,。

隨機性

由于算法的隨機性,，最終的可視化結果在不同運行之間可能會有所不同，這可能導致不一致性,。

超參數敏感性

結果可能對困惑度（perplexity）的選擇非常敏感,。

可解釋性

t-SNE圖中聚類之間的距離并不總是具有有意義的解釋。該算法優(yōu)先保留局部結構而非全局結構,。t-SNE可視化中的數據點密度不一定代表原始高維空間中的密度,。

僅適用于可視性

雖然在可視化方面表現出色，但t-SNE嵌入可能并不總是適合作為其他機器學習算法的輸入,。

PaCMAP（成對控制流形近似）

PaCMAP（成對控制流形近似）是一種降維技術,，作為t-SNE和UMAP等方法的替代方案被引入。該方法旨在平衡數據中局部和全局結構的保留,，解決其他技術中觀察到的一些挑戰(zhàn),。它引入了成對吸引和排斥項，以在流形學習過程中控制平衡,，并以其速度和處理大數據集的能力而著稱,，同時能夠生成可解釋的嵌入。

優(yōu)點

混合方法

PacMAP結合了局部和全局結構保留的優(yōu)點,，旨在從t-SNE（局部）和PCA（全局）等方法中捕捉兩者的最佳特性,。PacMAP旨在結合t-SNE（局部結構保留）和UMAP/PCA（全局結構保留）的優(yōu)勢。

局部和全局結構保留的靈活性

該方法可以根據數據的性質和用戶的目標,，調整以強調局部或全局結構,。

減少擁擠問題

該方法旨在緩解t-SNE中常見的“擁擠問題”，這種問題會導致簇被推得過遠,。

減少隨機性

與t-SNE的隨機性相比,，PacMAP在多次運行中提供了更一致的結果。雖然有參數需要調整,，但該方法設計得比t-SNE對參數變化更具魯棒性,。

缺點

復雜性和熟悉度

作為一種混合方法，PacMAP可能對熟悉簡單,、單一目標方法的用戶來說更難理解,。一些數據分析社區(qū)可能對PacMAP不太熟悉，導致在采用或解釋時可能面臨挑戰(zhàn),。由于其較新,，可能沒有像t-SNE或PCA等長期存在的方法在各種應用中經過廣泛驗證。

參數敏感性

盡管設計得對參數變化更具魯棒性,，但結果仍可能因參數選擇而異,。根據數據的不同,，如果調整不當，可能會有過度強調局部或全局結構的風險,。

可解釋性

與其他降維技術一樣,，解釋降維后的維度仍然可能是不直觀的。

Aivia賦能數據驅動的空間洞察

降維工具大解析

微信圖片_20240919110833.jpg

參考文獻：

1. Becht E, McInnes L, Healy J, Dutertre CA, Kwok IW, Ng LG, Ginhoux F, Newell EW. Dimensionality reduction for visualizing single-cell data using UMAP. Nature biotechnology. 2019 Jan;37(1):38-44.

2. Wang Y, Huang H, Rudin C, Shaposhnik Y. Understanding how dimension reduction tools work: an empirical approach to deciphering t-SNE, UMAP, TriMAP, and PaCMAP for data visualization. The Journal of Machine Learning Research. 2021 Jan 1;22(1):9129-201.

3. Van der Maaten L, Hinton G. Visualizing data using t-SNE. Journal of machine learning research. 2008 Nov 1;9(11).

4. McInnes L, Healy J, Melville J. Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426. 2018 Feb 9.

相關產品

免責聲明

凡本網注明“來源：化工儀器網”的所有作品,，均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,，未經本網授權不得轉載、摘編或利用其它方式使用上述作品,。已經本網授權使用作品的,，應在授權范圍內使用，并注明“來源：化工儀器網”,。違反上述聲明者,，本網將追究其相關法律責任。
本網轉載并注明自其他來源（非化工儀器網）的作品,，目的在于傳遞更多信息,，并不代表本網贊同其觀點和對其真實性負責，不承擔此類作品侵權行為的直接責任及連帶責任,。其他媒體,、網站或個人從本網轉載時，必須保留本網注明的作品第一來源,，并自負版權等法律責任,。
如涉及作品內容、版權等問題,，請在作品發(fā)表之日起一周內與本網聯系,，否則視為放棄相關權利。

顯微課堂 | UMAP、t-SNE與PacMAP降維大對決

免責聲明

聯系我們

關注我們