湯どうふ

『高次元の統計学』を読む:高次元データの可視化

高次元データを幾何学的に眺めることによって、高次元データの性質を知りたい。高次元データを双対空間で可視化する。高次元データ(小標本)を双対空間で表現することによって、次元を圧縮することができ、数値計算をする上でやさしい。

p.16 図2.2をMATLABで再現してみた。d次元標準正規分布からnだけサンプリングする。n=3として、dを変化させて双対空間におけるデータを眺める。上のサンプルセットを49個生成しその結果をプロットする。次元が大きくなるにつれて、データが球面周辺に集中する。正規分布は一致性条件(p. 15)が成り立つ場合であるが、t分布の場合は一致性条件が成り立たない。

 

f:id:covariance:20190621112830j:plain

d=4

f:id:covariance:20190621112855j:plain

d=40

f:id:covariance:20190621112910j:plain

d=400

f:id:covariance:20190621112923j:plain

d=4000

f:id:covariance:20190621113614j:plain

d40000

後記

時間もかからないので、実際に計算してみると楽しい。

 

高次元の統計学 (統計学One Point)

高次元の統計学 (統計学One Point)