高维空间(重新认识维数灾难--反直觉的高维空间)

作者：哪吒游戏网来源：哪吒游戏网 2020-06-05 07:15:52

高维空间(重新认识维数灾难--反直觉的高维空间)，哪吒游戏网给大家带来详细的高维空间(重新认识维数灾难--反直觉的高维空间)介绍，大家可以阅读一下，希望这篇高维空间(重新认识维数灾难--反直觉的高维空间)可以给你带来参考价值。

或者翻译成维度的咒语，这个咒语出现在很多方面：

sampling采样

如果数据是低维的，所需的采样点相对就比较少；如果数据是高维的，所需的采样点就会指数级增加，而实现中面对高维问题时往往无法获得如此多的样本点（即使获得了也无法处理这么庞大数据量），样本少不具有代表性自然不能获得正确的结果。

combinatorics组合数学

由于每个维度上候选集合是固定的，维度增加后所有组合的总数就会指数级增加。

machinelearning机器学习

在机器学习中要求有相当数量的训练数据含有一些样本组合。给定固定数量的训练样本，其预测能力随着维度的增加而减小，这就是所谓的Hughes影响或Hughes现象。

datamining数据挖掘

在组织和搜索数据时有赖于检测对象区域，这些区域中的对象通过相似度属性而形成分组。然而在高维空间中，所有的数据都很稀疏，从很多角度看都不相似，因而平常使用的数据组织策略变得极其低效。

距离在高维环境下失去意义

在某种意义上，几乎所有的高维空间都远离其中心，或者从另一个角度来看，高维单元空间可以说是几乎完全由超立方体的“边角”所组成的，没有“中部”。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。这对于理解卡方分布是很重要的直觉理解。

卡方分布：若N个随机变量服从标准正态分布，那么它们的平方和（注意在计算欧氏距离时就要用到各个变量的平方和）构成的新的变量服从卡方分布，N是自由度。下面是其概率密度图：

自由度越大（维度越高）时，图形越”平阔“。

然而，也由于本征维度的存在，其概念是指任意低维数据空间可简单地通过增加空余（如复制）或随机维将其转换至更高维空间中，相反地，许多高维空间中的数据集也可削减至低维空间数据，而不必丢失重要信息。这一点也通过众多降维方法的有效性反映出来，如应用广泛的主成分分析方法。针对距离函数和最近邻搜索，当前的研究也表明除非其中存在太多不相关的维度，带有维数灾难特色的数据集依然可以处理，因为相关维度实际上可使得许多问题（如聚类分析）变得更加容易。另外，一些如马尔可夫蒙特卡罗或共享最近邻搜索方法经常在其他方法因为维数过高而处理棘手的数据集上表现得很好。

原文来自:博客园（华夏35度）作者:张朝阳

1.通过公式的推导（这里就不推导了），会发现高维度空间的体积主要分布在壳部和角部。

2.随着维度的增加，体积（Vc（正方形），Vr（圆形））会迅速增加。这样的好处是在样本空间，样本的分布会非常稀疏，不易重叠，利于分类。

然后老师又说了一句话：对高维进行概率密度函数设计特别困难，设计分类器也很困难高维空间，所以降维是必须的。

这里的理解是，对于高维空间，人为的靠感觉设定一个超平面是可以的，但是要通过计算机计算设定一个超平面，是很困难的，因为概率密度函数不好的设计，所以要降维。

3.高维度空间样本分布稀疏，导致同类样本分布相对集中，落在一个较低的子空间中，利于投影，不会导致信息丢失。

4.高维度空间的数据主要分布在壳部和角部，不是均匀分布在整个空间中。

5.根据中心极限定理，高维空间的数据投影到很低维度的空间中，数据将会呈现正态分布。所以，说降维是对分类有效的。

6.根据一个人fakanage的实验结论：

对于监督分布，设计分类器所需要的样本数量于空间的维度呈现正比例关系。

对于非监督分布高维空间，设计分类器所需要的样本数量于空间的维度呈现指数关系。

这就解释了，神经网络的隐藏层的数量不是越多越好，而是要有足够的数据样本作为支持才行。