特征可视化
Hint
作者: 唐青梅
翻译:颜杰龙
校对: 丰一帆
基本用法
DHG提供了一种简单的接口来可视化特征分布:
输入特征及标签(可选的);
指定参数 (例如, 可视化的维度, 顶点大小, 颜色 和 降维方法);
调用
plt.show()函数显示图片/动画。
Note
plt 为 matplotlib.pyplot 模块的缩写。
在欧几里得空间中进行特征可视化
>>> import dhg
>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> import dhg.visualization as vis
>>> lbl = (np.random.rand(200)*10).astype(int)
>>> ft = dhg.random.normal_features(lbl)
>>> vis.draw_in_euclidean_space(ft, lbl)
>>> plt.show()
在庞加莱空间中进行特征可视化
>>> import dhg
>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> import dhg.visualization as vis
>>> lbl = (np.random.rand(200)*10).astype(int)
>>> ft = dhg.random.normal_features(lbl)
>>> vis.draw_in_poincare_space(ft, lbl)
>>> plt.show()
制作动画
我们提供了制作 3D 旋转动画来可视化特征的函数。
欧几里得空间中特征的旋转可视化
>>> import dhg
>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> import dhg.visualization as vis
>>> lbl = (np.random.rand(200)*10).astype(int)
>>> ft = dhg.random.normal_features(lbl)
>>> vis.animation_of_3d_euclidean_space(ft, lbl)
>>> plt.show()
庞加莱空间中特征的旋转可视化
>>> import dhg
>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> import dhg.visualization as vis
>>> lbl = (np.random.rand(200)*10).astype(int)
>>> ft = dhg.random.normal_features(lbl)
>>> vis.animation_of_3d_poincare_ball(ft, lbl)
>>> plt.show()
双曲空间的数学原理
双曲空间是一个处处具有恒定高斯常数负曲率的流形,其有几种不同的模型并且非常适合基于梯度的优化。 我们以下工作基于庞加莱球模型展开。
具有恒定负曲率 \(-1 / k(k>0)\) 的庞加莱球模型对应于黎曼流形 \(\left(\mathbb{P}^{n,k}, g_{\mathbf{x}}^{\mathbb{P}}\right)\) 。 \(\mathbb{P}^{n,k} = \left\{\mathbf{x} \in \mathbb{R}^{n}: \| \mathbf{x}\|<1 \right\}\) 是一个 \(n\) 维单位开球, 其中 \(\|. \|\) 代表欧几里得范数。 它的度量张量是 \(g_{\mathbf{x}}^{\mathbb{P}} = \lambda_{\mathbf{x}}^{2} g^{E}\) , 其中 \(\lambda_{\mathbf{x}} = \frac{2} {1- k\|\mathbf{x}\|^{2} }\) 为保形因子、 \(g^{E}=\mathbf{I}_{n}\) 为欧几里得度量张量。 对于两点 \(\mathbf{x}, \mathbf{y} \in \mathbb{P}^{n,k}\) ,我们使用莫比乌斯加法 \(\oplus\) 将陀螺空间框架与黎曼几何连接来进行加法运算:
\(\mathbf{x}, \mathbf{y} \in \mathbb{P}^{n,k}\) 两点之间的距离是通过度量张量的集成来计算的,如下:
将点 \(\mathbf{z} \in \mathcal{T}_{\mathrm{x}} \mathbb{P}^{n,k}\) 表示为以双曲空间中任意点 \(\mathbf{x}\) 为中心的切线(欧几里得)空间。 对于切向量 \(\mathbf{z} \neq \mathbf{0}\) 和点 \(\mathbf{y} \neq \mathbf{0}\) , 满足 \(\mathbf{y} \neq \mathbf{x}\) 的 指数映射 \(\exp _{\mathbf{x}}: \mathcal{T}_{\mathbf{x}} \mathbb{P}^{n,k} \rightarrow \mathbb{P}^{n,k}\) 和对数映射 \(\log_{\mathbf{x}}: \mathbb{P}^{n,k} \rightarrow \mathcal{T}_{\mathbf{x}} \mathbb{P}^{n,k}\) 由下式给出:
以及
需要注意的是,我们的初始数据是在欧几里得空间上,需要转换成双曲空间上的嵌入。 所以首先把之前得到的欧几里得空间上的数据投影到双曲流形空间上, 以便使用基于谱域的超图双曲卷积网络来学习从而更新节点嵌入。 以 \(t:=\{\sqrt{K}, 0, 0, \dots, 0\}\in\mathbb{P}^{d, K}\) 为参考点进行切线空间运算, 其中 \(-1/K\) 为双曲线模型的负曲率。 上述前提使 \(\langle(0, \mathbf{x}^{0, E}), t\rangle=0\) 成立, 所以 \((0, \mathbf{x}^{0, E})\) 可以看成是超图结构在双曲流形空间 \(\mathcal{T}_t\mathbb{P}^{d, K}\) 切面上的初始嵌入表示。 然后使用以下等式将初始超图结构嵌入映射到双曲流形空间 \(\mathbb{P}\) :
双曲运算是通过欧几里得空间和双曲空间之间的特征映射来完成的。