> 这是2019年12月6日发表在顶级期刊《现代物理评论》上的一篇综述文章“Machine learning and the physical sciences”。作者为Giuseppe Carleo ,Ignacio Cirac ,Kyle Cranmer ,Laurent Daudet ,Maria Schuld ,Naftali Tishby ,Leslie Vogt-Maranto ,Lenka Zdeborová .<br>
## 摘要
机器学习包含用于大量数据处理任务的广泛算法和建模工具,这些已进入近年来最科学的学科。我们以选择性的方式回顾了有关机器学习与物理科学之间的交叉领域的最新研究。这包括以物理见解为动力的机器学习(ML)的概念性发展,机器学习技术在物理学中多个领域的应用以及这两个领域之间的交叉应用。在给出了机器学习方法和原理的基本概念之后,我们介绍了**如何使用统计物理学来理解机器学习中的方法的例子**。然后,我们将**介绍机器学习方法在粒子物理学和宇宙学,量子多体物理学,量子计算以及化学和材料物理学中的应用**。我们还将重点介绍旨在加速机器学习的新型计算体系结构的研究和开发。 在每个部分中,我们都描述了最近的成功以及特定领域的方法和挑战。
##目录
[Ⅰ 引言](#1)<br>
[Ⅱ.统计物理](#2)<br>
[Ⅲ.粒子物理与宇宙学](#3)<br>
[Ⅳ.量子多体物质](#4)<br>
[Ⅴ.量子计算](#5)<br>
[Ⅵ 化学和材料科学](#6)<br>
[Ⅶ 借助传统和量子硬件实现 AI 加速](#7)<br>
<div id="1"></div>
## Ⅰ 引言
在过去的十年中,基于机器学习(ML)的技术有了惊人的发展,影响了工业中的许多领域,包括自动驾驶,医疗保健,金融,智能制造,能源等。就像在1980年代和1990年代的计算机一样,ML在很大程度上被视为我们这个时代的主要突破性技术之一。机器学习的总目标是识别数据中的模式,这些模式为处理未见问题提供了依据。例如,在高度复杂的系统(例如自动驾驶汽车)中,必须将来自传感器的大量数据转换为如何通过“学习”识别“危险”模式的计算机来控制汽车的决策。
ML在最近的成功首先是在通过对某些现有技术的显著改进(例如在图像识别领域)方面。这些进步在很大程度上构成了机器学习方法可能对专业化任务产生影响的第一个证明。最近,特别是通过深度学习技术,成功地研发了传统上无法使用自动化软件的应用程序。例如,强化学习技术在游戏中的应用,对整个领域正在向通用人工智能的预期迈进了一步的感觉产生了深远的影响。
**与ML技术在工业应用中的兴起同时,科学家对ML在基础研究中的潜力也越来越感兴趣,物理学也不例外**。在某种程度上,这并不奇怪,因为机器学习和物理学都共享它们的一些方法和目标。这两门学科都关注收集和分析数据以设计模型的过程,这些模型可以预测复杂系统的行为。但是,这些领域在实现其基本目标的方式上明显不同。一方面,物理学家希望了解自然的机制,并以使用自己的知识,智慧和直觉为模型提供信息感到自豪。另一方面,机器学习通常相反:模型不可知,机器通过从数据中提取来提供“智能”。尽管通常强大,但众所周知,生成的模型与数据模式本身一样,对我们的理解是不透明的。因此,物理学中的机器学习工具受到了一些人的热烈欢迎,而另一些人则对此表示怀疑。难以否认的是,它们在某些情况下会产生令人惊讶的良好结果。
**在这篇综述中,我们试图提供一个关于ML与物理学的不同交集的连贯选择的说明**。具体来说,我们研究了ML近期在众多领域中的广泛应用(从统计和量子物理学到高能和宇宙学),并讨论了在不同情况下“智能”数据挖掘技术的潜在应用和挑战。我们从 第Ⅱ部分的统计物理学领域 开始本次回顾,在该节中,与机器学习的交互已有很长的历史,它利用物理学中的方法来更好地理解机器学习中的问题。然后,我们将方向转向使用机器学习进行物理学的另一个方向。 第Ⅲ节介绍了 高能物理和宇宙学领域 的进展,第Ⅳ节回顾了 机器学习思想如何帮助理解多体量子系统的奥秘,第Ⅴ节简述了在 量子计算中机器学习的前景,在第Ⅵ节中 ,我们重点介绍由于 ML应用而在计算化学和材料设计方面 取得的一些令人惊奇的进步。在第Ⅶ节中,我们讨论了一些 仪器仪表方面 的进展,这些进展可能会导致适用于执行机器学习任务的硬件。 第Ⅷ节给出了一些相关的展望。
### A. 机器学习相关概念
出于综述的目的,我们将简要解释机器学习中使用的一些基本术语和概念。为了进一步阅读,我们提供了一些参考文献,其中一些资源特别针对物理读者。对于该领域的发展历史回顾,我们推荐参考文献(LeCun等人,2015; Schmidhuber,2014)。(Mehta等,2018)是物理学家最近对机器学习的出色介绍其中包括具有实践示范的例子。Florian Marquardt的物理学家的机器学习课程是一个非常有用的在线资源(https://machine-learning-for-physicists.org/)。机器学习研究人员撰写的有用教科书如Christopher Bishop的标准教科书(Bishop,2006),以及(Goodfellow等人,2016)的《深度学习》,该书侧重于深度学习的理论和基础,并涵盖了当今研究的许多方面。各种在线教程和讲座对于获得基本概述和开始该主题很有用。
要了解1980年代至1990年代在神经网络统计物理学方面取得的理论进展,我们推荐一本比较易读的书《统计力学》(Engel和Van den Broeck,2001年)。要了解统计物理中重复试验方法的详细信息及其在计算机科学,信息论和机器学习中的应用,我们将推荐《 Nishimori》(Nishimori,2001年)一书。对于最新的统计物理学方法论,梅扎德和蒙塔纳里的教科书是一个很好的参考书(梅扎德和蒙塔纳里,2009年)。
为了对机器学习能够解决的问题类型有一个基本的了解,定义三个大类的学习问题很有用:监督学习,无监督学习和强化学习。 这也将使我们能够陈述基本术语,构建基本设备以解释一些机器学习的基本工具。
### 1.监督学习和神经网络( Supervised learning and neural networks)
在监督学习中,我们得到了一组$n$个数据样本,让我们表示一个这样的样本$X_\mu \in \mathbb{R}^p$,其中$\mu=1,\dots,n$ 。为了具体起见,每个$X_\mu$可能是动物的黑白照片,而像素数是$p$。对于每个样本$X_\mu$,我们进一步得到标记$y_\mu \in \mathbb{R}^d$,最常见的是$d = 1$。标签可以编码例如照片上的动物种类。 监督学习的目的是找到一个函数$f$,以便在没有标签的情况下呈现新样本$X_{new}$时,函数$f(X_{new})$的输出很好地逼近标签。数据集$\{X_\mu,y_\mu\}_{\mu=1}^{n}$被称为训练集。为了测试结果函数$f$,通常将可用数据样本分为用于学习该函数的**训练集**和用于评估性能的**测试集**。现在让我们描述最常用的找合适函数$f$的训练过程。最常见的是,该函数用一组参数表示,称为权重$w \in \mathbb{R}^k$,得到$f(w)$。然后对一个样本µ构造一个所谓的损失函数$\mathcal{L}[f_w(X_\mu),y_\mu]$,让损失函数取最小值,就得到预测标签与实际标签越相近。然后将训练集上的损失平均值称为经验值
$$
risk \quad \mathcal{R}(f_w) = \sum_{\mu=1}^n \mathcal{L}[f_w(X_\mu),y_\mu] /n.
$$
在训练过程中,调整权重$w$以便最大程度地减少经验风险。训练误差衡量了这种最小化的效果。最重要的错误概念是泛化错误,与在训练集中未发现的数据样本$X_{new}$的预测标签$y_{new}$的性能有关。在应用中,通常的做法是通过随机选择一部分可用数据来构建测试集,然后使用剩余部分作为训练集来进行训练。我们注意到,在文献的一部分中,泛化误差是测试集的性能与训练集的性能之间的差异。
最常用的使权重上的经验风险函数最小化的算法是基于权重$w$的梯度下降。这意味着权重在经验风险梯度的方向上进行迭代调整
$$
w^{t+1} = w^t - \gamma \nabla_w \mathcal{R}(f_w). \quad (1)
$$
执行该速率的参数$\gamma$称为学习速率。梯度下降的一个非常常用且成功的变体是随机梯度下降( stochastic gradient descent,SGD),其中,全部经验风险函数$\mathcal{R}$都被少量样本的贡献所代替。样本的这个子集称为**微型批次**(mini-batch ) ,可以小到单个样本。用物理学的术语来说,SGD算法经常与有限温度下的 Langevin动力学进行比较。零温度下的Langevin动力学是梯度下降的。正温度会引入热噪声,在某种程度上类似于SGD产生的热噪声,但与其他噪声不同。在实践中使用了SGD算法的许多变体。权重的初始化在实践中可能会改变性能,学习速率的选择和各种所谓的正则化项也可能会改变,例如权重衰减会对权重趋于收敛到较大的绝对值的权重进行惩罚。**选择好的算法很重要,有很多启发式经验法则,当然希望有更多关于该问题的理论见解**。
监督学习任务的一个典型例子是分类,即当标签$y_\mu$取离散集合中的值,然后所谓的准确性被测量为所学习函数对数据点进行正确分类的概率。另一个例子是回归,其目标是学习实值函数,并且通常根据真实标签与其获悉的估计值之间的均方误差来衡量准确性。其他例子是序列到序列学习,其中输入和标签都是维数大于一的向量。
有许多监督学习的方法,每种方法都有许多变体。 最基本的监督学习方法之一是广泛使用的**线性回归**,其中函数$f_w(X)$的参数形式为$f_w(X_\mu)= X_\mu w$,其中$w \in \mathbb{R}^p$。当数据集取自高维空间中并且样本数量不比维度大很多时,必不可少使用线性回归的**正则化**形式(称为岭回归或Tikhonov正则化)。 岭回归(ridge regression )在形式上等同于假设权重$w$具有高斯先验。参数化$f_w(X_\mu)= g(X_\mu w)$的线性回归的一般形式也经常使用,其中$g$是某些输出通道函数,其性质在第II.D.1节中描述。另一种流行的正则化方法是基于在分类任务中分离例子,以使它们之间的类别被尽可能宽的明显间隙分开。 这个想法支持所谓的**支持向量机**方法的定义。岭回归的一种相当强大的非参数概括是内核岭回归。 核岭回归与高斯过程回归密切相关。支持向量机方法通常与内核方法结合使用,因此在许多应用程序中仍然是最先进的方法,尤其是在可用样本数量不是很大的情况下。
另一种经典的监督学习方法是基于所谓的**决策树**。决策树用于从对数据样本的观察(在分支中表示)到关于项目目标值(在叶子中表示)的结论。决策树在物理科学中最著名的应用是在**粒子加速器的数据分析**中,如第 III.B.节所述。
过去十年机器学习革命背后的监督学习方法是**多层前馈神经网络**(FFNN),有时也称为多层感知器。对于本次综述而言,这也是一种非常相关的方法,在此我们将对其进行简要介绍。 在$L$层全连接的神经网络中,函数$f_w(X_\mu)$的参数设置如下
$$
f_w(X_\mu) = g^{(L)}(W^{(L)}\dots g^{(2)}(W^{(2)}g^{(1)}(W^{(1)}X_\mu))), \quad (2)
$$
其中$w=\{W^{(1)},\dots,W^{(L)}\}_{i=1,\dots,L}$。$W^{(i)} \in \mathbb{R}^{r_i \times r_{i-1}}$,其中$r_0 = p, r_L = d$,为权重矩阵。 对于$1 \leq i \leq L-1$, $r_i$ 表示第$i-1$个隐含层的宽度。函数$g^{(i)}$是所谓的激活函数,它们分别对向量起作用。我们注意到激活函数中的输入是前一层的输出的十个稍微更通用的变换,它们仅对矩阵乘法进行矩阵运算,例如偏差。层数$L$称为网络的深度。 深度大于某个小整数的神经网络称为深度神经网络。 随后,基于深度神经网络的机器学习称为**深度学习**。
神经网络理论告诉我们,没有隐藏层($L = 1$,对应于广义线性回归),可以用这种方式近似的函数集非常有限(Minsky和Papert,1969)。另一方面,已经有一个隐藏层$L = 2$,它足够宽,即$r_1$足够大,并且在函数$g^{(1)}$是非线性的情况下,原则上可以很好地近似一类非常普通的函数( Cybenko,1989年)。但是,这些理论并未告诉我们怎样更有效地学习$\{W^{(1)},\dots,W^{(L)}\}$的最佳参数集(激活函数,层的宽度和深度) 。从过去十年的经验成功中我们知道,使用梯度下降或SGD算法的深层神经网络可以处理许多令人感兴趣的任务。在深度神经网络中,使用链规则来计算权重的导数,从而导致著名的**反向传播算法**,该算法可以有效地调度计算所有梯度所需的运算(Goodfellow等,2016)。
(深度)前馈神经网络的一个非常重要且功能强大的变体是所谓的**卷积神经网络**(Goodfellowet等人,2016),其中,通过应用于输入空间的一小部分的过滤器,可以将每个隐藏单元的输入信息获取。然后将过滤器移至与不同隐藏单元相对应的不同位置。卷积神经网络实现转换的不变性,尤其适合图像分析。与完全连接的神经网络相比,卷积神经网络的每一层参数数量要少得多,这在实践中有利于学习算法。卷积神经网络的类型和方差很多,其中我们将提到**残差神经网络**(ResNets) 使用快捷方式跳过某些层。前馈神经网络相近的是所谓的**递归神经网络**(RNN) ,其中单元的输出在下一个时间步中在输入端进行反馈。因此,在RNN中,结果是由一组权重给出的,但也由状态的整个时间序列给出的。由于其固有的动力学性质,RNN特别适合于学习时间数据集,例如语音,语言和时间序列。同样,RNN上有很多类型和变体,但是在过去十年中引起人们最大兴奋的是可以说的**长短期记忆**(LSTM)网络(Hochreiter和Schmidhuber,1997)。LSTM及其深层变体是语音处理,音乐创作和自然语言处理等任务中的最新技术。
### 2.无监督学习和生成建模
无监督学习是一类学习问题,其中获得的数据与有监督学习一样,但是没有标签可用。此处学习的目标是恢复数据集中的一些基础(可能是非平凡的)结构。无监督学习的一个典型例子是**数据聚类**,其中将数据点按组分配,这样每个组都具有一些共同的属性。在无监督学习中,人们通常会寻找一种概率分布,该概率分布会生成与观察到的数据样本在统计上相似的样本,这通常被称为生成建模。在某些情况下,此概率分布以显式形式编写,并显式或隐式参数化。 生成模型内部包含潜在变量作为随机性的来源。当潜在变量的数量远小于数据的维数时,我们称之为**维数缩减**。进行无监督学习的一种方法是搜索潜在变量的值,以使观察到的数据的可能性最大化。
在一系列应用中,与所观察到的数据相关的可能性未知,或者计算起来本身很难。在这种情况下,下面讨论的某些生成模型会采用替代的无可能性路径。 在第III.D节中,我们还将讨论所谓的ABC方法,它是一种无可能性的推断,并且在物理学中出现的许多情况下被证明非常有用。
无监督学习的基本方法包括**主成分分析**(PCA)及其变体。 我们将在第II.C.1节中介绍使用物理学获得的有关这些方法的一些理论见解。物理上非常吸引人的无监督学习方法是所谓的**玻尔兹曼机**(BM) 。BM基本上是反伊辛模型,其中数据样本被视为来自成对相互作用的伊辛模型的Boltzmann分布的样本。目的是了解相互作用和磁场的值,以便观察到的数据的可能性(以玻耳兹曼度量的概率)很大。**受限玻尔兹曼机机**(RBM) 是BM的一种特殊情况,其中两种变量-可见的单位(可看到输入数据)和隐藏的单位通过有效耦合相互作用。在这种情况下,仅在可见和隐藏单元之间进行交互,并再次进行调整,以使观察到的数据的可能性较大。考虑到对物理模型的吸引人的解释,BM和RBM的应用在几个物理领域中得到了广泛的应用,例如在IV.A节中。
**自动编码器**是执行非监督学习但能够 使用监督学习开发 的所有方法和算法的一个非常巧妙的想法。自动编码器是一种前馈神经网络,其输入数据既在输入上,又在输出上。在某些中间层与数据维数相比具有非常小的宽度的意义上,其目的是在通常遇到瓶颈的同时重现数据。当时的想法是,自动编码器旨在找到一种简洁的数据表示形式,该数据仍保持每个样本的显着特征。 **变分自动编码器**(VAE) (Kingma and Welling,2013; Rezende等人,2014)结合变分推理和自动编码器为数据提供了一个深层的生成模型,可以以无监督的方式对其进行训练。
值得一提的另一种无监督学习方法是**对抗生成网络**(GAN) (Goodfellow 等人,2014)。GAN在过去的几年中引起了广泛的关注,并且构成了另一种富有成效的方式,可以利用在有监督学习的过程中取得的进展来进行无监督学习。GAN通常使用两个前馈神经网络,一个称为生成器,另一个称为鉴别器。生成器网络用于从随机输入生成输出,并经过设计,以使输出看起来像观察到的样本。鉴别器网络用于区分真实数据样本和生成器网络生成的样本。鉴别器的目标是在此分类任务中实现尽可能最高的准确性,而调整生成网络以使鉴别器的准确性尽可能最小。GAN当前是用于**图像处理**中许多应用程序的最先进系统。
建模分布的其他有趣方法包括对流量和自回归模型进行归一化,其优势在于具有可控制的可能性,因此可以通过最大的可能性进行训练(Larochelle和Murray,2011; Papamakarios等,2017; Uria等,2016)。
在应用中重要的监督学习和非监督学习之间的混合包括半监督学习(其中只有一些标签可用)或主动学习(其中可以以一定成本为一组选定的数据点获取标签)。
### 3.强化学习
**强化学习**(Sutton and Barto,2018)是机器学习的一个领域,其中(人工)代理人在环境中采取行动以达到最大回报的目的。该动作以某种方式改变环境状态,并且代理通常观察到一些有关环境状态和相应奖励的信息。根据这些观察,代理决定下一个动作,从而优化选择哪个动作的策略,以最大程度地提高回报。这种学习方式设计用于以下情况:了解环境属性的唯一方法是与环境进行交互。强化学习中的一个关键概念是,在迄今发现的良好策略的利用与探索之间寻求最佳的策略。我们还应该注意,强化学习与控制理论的领域密切相关,特别是**最优控制理论**。
在许多作品中应用的强化学习的主要类型之一是所谓的**Q学习**。Q学习基于值矩阵Q,该值矩阵在环境处于给定状态时分配给定动作的质量。然后迭代地精炼该值函数Q。 在Q学习的最新高级应用中,状态和动作的集合是如此之大,以至于甚至无法存储整个矩阵Q。在那些情况下,使用深度前馈神经网络以简洁的方式表示功能。 这引起了深入的Q学习。
强化学习成功的最著名的最近例子是计算机程序**AlphaGo和AlphaGo Zero**,这在历史上第一次在传统的棋盘游戏中达到了超人的表现。 强化学习的另一个众所周知的用途是**机器人的运动**。
<div id="2"></div>
## Ⅱ.统计物理
### A.发展历史
虽然机器学习作为物理学研究的一种广泛使用的工具是一个相对较新的现象,但两个学科之间的交叉应用可以追溯到很远的时期。尤其是统计物理学家为我们对学习的理论理解做出了重要贡献(正如“统计学”一词无疑暗示的那样)。
当从例子中进行统计学习接管了基于逻辑和规则的AI时,统计力学与学习理论之间的联系就开始了,这是在1980年代中期。两篇开创性的论文标志着这种转变,Valiant的**可学习理论**(Valiant,1984年)为AI进行严格的统计学习开辟了道路,Hopfield的**联想记忆神经网络模型**(Hopfield,1982年)激发了概念的广泛应用 ,从旋转玻璃理论到神经网络模型。这一点由Amit,Gutfreund和Sompolinsky(Amit等人,1985年)对Hopfield模型的存储容量计算以及随后的工作进行了见证。伊丽莎白·加德纳(Elizabeth Gardner)的开创性工作在学习模型上进行了更为严格的应用,他利用重复实验的技巧(Gardner,1987,1988)为有监督和无监督学习模型计算了简单前馈神经网络的权重空间中的体积。
Gardner的方法能够明确地计算学习曲线,即典型的训练和泛化误差与训练样本数量的函数,非常特殊的锥度和两层神经网络(Györgyi和Tishby,1990; Seung等,1992a; Sompolinsky等,1990)。这些分析性的统计物理学计算表明,学习动态可以表现出比最坏情况下的自由PAC边界所预测的行为更为丰富的行为(PAC表示可证明是近似正确的)(Valiant,1984年)。特别地,学习可以表现出从不良到良好概括的阶段性转变(Györgyi,1990)。如各种模型所示,这种 丰富的学习动力和曲线可能会出现在许多机器学习问题中,请参见例如 最近的综述(Zdeborová和Krzakala,2016年)。学习统计物理学在1990年代初达到顶峰,但对机器学习从业者和理论家的影响较小,他们专注于与输入分配无关的一般性广义界限,其特征是: 假设类别的Vapnik-Chervonenkis维数(VC维)或Rademacher复杂度。
### B.深度学习中的理论难题
在新千年中,机器学习的特征是更大范围的学习问题,其中输入/模式的训练数据的尺度和可调整参数的数量从数百个变为数百万个。大规模前馈神经网络模型的回归,以及具有更多隐藏层的深度神经网络模型,得到了极大的证明。这些深度神经网络本质上与80年代已经提出的前馈卷积神经网络相同。但是不知何故,由于有了更大规模的输入和庞大而干净有效的训练数据(以及更多的技巧和黑客手段),大约 2010年及以后,这些网络在许多不同的模式识别和其他机器学习竞赛中开始击败最新技术。深度学习的惊人性能,采用相同的随机梯度下降(SGD)错误反向传播算法进行训练,使每个人都感到惊讶。
困惑之一是,现有的学习理论(基于最坏情况的类似PAC的泛化界限)无法解释这种惊人的成功。**现有理论无法预测为什么可调整参数/权重的数量/维数远高于训练样本数量的深层网络具有良好的泛化特性**。如今,在一篇经典文章中(Zhang等人,2016年)弥补了这种理论上的不足,作者在数字上证明了用于分类的最新神经网络能够对完全随机生成的标签进行分类。在这种情况下,现有的学习理论不能对泛化误差提供任何有用的限制。然而实际上,当在真实标签上训练时,我们观察到了相同深度神经网络的良好概括。
继续讨论未解决的问题,我们对哪些学习问题在计算上是可以解决的没有很好的理解。这一点特别重要,因为从计算复杂性理论的角度来看,在最坏的情况下,我们遇到的大多数学习问题都是NP难题。**当前深度学习的另一个关键问题是关于超参数和体系结构的选择**,到目前为止,超参数和网络结构的选择是由大量的反复试验和研究人员令人印象深刻的经验共同指导的。在ML的应用扩展到许多领域的同时,该领域也要求采用更加系统化和基于理论的方法。 在当前的深度学习中,基本问题(例如,为了能够以良好的精度学习给定任务而需要的最小样本数是多少)是完全开放的。
同时,有关深度学习的最新研究充斥着**有趣的数值观察和需要解释的实验**。对于物理学的听众来说,可以将这种情况与量子力学刚刚发展之初的基础小规模物理学的最新水平进行比较。该领域充满了无法解释的实验,正在逃避现有的理论理解。显然,这是一些物理学思想研究神经网络以复活和重新审视机器学习中当前存在的问题和方向的最佳时机。
鉴于统计物理学中神经网络研究的悠久历史,我们不会针对这一研究方向进行全面综述。我们将选择性地关注物理学方面的最新贡献,我们认为这些贡献对当前的学习和机器学习理论具有重要影响。出于本次综述的目的,我们还搁置了在统计物理学中针对循环神经网络的大量工作,并考虑到了生物学应用。
### B.无监督学习中的统计物理
#### 1.有助于理解基本的无监督方法
跨学科无监督学习的最基本工具之一是 基于观察到的数据矩阵的低秩分解的方法。数据聚类、主成分分析(PCA)、独立成分分析(ICA) 、矩阵完成和其他方法是此类中的例子。
在数学语言中,低秩矩阵分解问题表示如下:我们观察到$n$个$p$维数据$x_i\in \mathbb{R}^p$的样本,$i = 1\dots,n$。低秩分解方法的基本思想表示$X$为数据的$n\times p$矩阵,它假定$X$(或$X$的某些分量函数)可以写为带有噪声的秩为$r$的矩阵样本,其中$r\ll p; r \ll n$,即秩远低于维数和样本数,因此名称为低秩。一个特别具有挑战性但又相关且有趣的机制是,当维数$p$可与样本数量$n$相比较时,并且当噪声水平很大时,无法对信号进行完美估计。事实证明,**可以将高维噪声状态下的低秩矩阵估计建模为具有$r$维矢量变量和特殊构造的自旋玻璃的统计物理模型**。具体而言,可以在师生情景中定义该模型,在该情景中,教师根据给定的概率分布$P_u(u^\*_i)$生成三维潜在变量$u^\*_i \in \mathbb{R}^r,i = 1,\dots,n$, 从给定的概率分布$P_v(v^\*_j)$取$r$维潜变量$v^\*_j \in \mathbb{R}^r,j = 1,\dots,p$。 然后,教师根据某些给定的条件概率分布$P_{out}(X_{ij} | u^\*_i\cdot·v^\*_j)$生成数据矩阵$X$的分量。 然后,学生的目标是从$X$和分布$P_{out}$,$P_u$,$P_v$的知识中尽可能精确地恢复潜变量$u^*$和$v^\*$。
自旋玻璃理论可用于在极限$p,n \rightarrow \infty$,$n / p =\alpha=\Omega(1)$,$r =\Omega(1)$的情况下获得对低秩矩阵估计的师生模型的完全理解。人们可以用复制法计算出在理论上估计$u^\*$和$v^*$的最佳信息误差,这是学生可能达到的,因为在(Barkai and Sompolinsky,1994; Biehl and Mietzner, 1993;沃特金和纳达尔, 1994)这些关于物理学的早期工作的重要性在有关统计学的一些里程碑式的论文中得到了认可,例如 (Johnstone and Lu,2009)。但是,由于缺乏数学上的严格性以及对算法可处理性的理解有限,导致这些工作对机器学习和统计的影响仍然有限。
对统计物理方法进行低秩矩阵分解的兴趣的复活来自**对稀疏网络中的集群/社区进行检测的随机块模型的研究**。在统计物理学中,对启发式算法和算法进行了广泛的研究,对社区检测问题进行了研究(Fortunato,2010年)。然而,随机块模型的精确解和对算法局限性的理解来自(Decelle等,2011a,b)中的自旋玻璃理论。这些工作(非严格地)计算了渐近最优性能,并通过置信传播(belief propagation ,BP)算法(Yedidia等人,2003)清晰地界定了可达到此性能的参数区域。模型中出现的二阶相变与可以通过BP有效地进行聚类的区域相分离,在该阶段聚类不能比通过随机猜测更好地进行。然后,一阶相变及其旋节线之一将区域分开,在该区域不可能进行聚类,使用BP算法可能但不能进行聚类,而使用BP算法则容易进行聚类。参考(Decelle等,2011a,b)还推测,当BP算法无法在模型的大型实例上达到最佳性能时,则其他多项式算法都将无法实现。这些作品吸引了数学,统计学,机器学习和计算机科学界的大量后续工作。
对**随机块模型**的统计物理学理解以及关于置信传播算法在所有多项式中都是最优的猜想,**激发了发现稀疏数据(即当矩阵$X$稀疏时)的一类新的光谱算法的发现**(Krzakala等人, 2013b)。**频谱算法是基于矩阵$X$或$X$函数的奇异值分解的数据分析的基本工具**(Ng等,2002; Von Luxburg,2007)。但是对于稀疏矩阵$X$,已知频谱具有领先的奇异值,而局部奇异矢量与潜在的基础结构无关。通过将置信度传播线性化,可以获得更鲁棒的光谱方法,从而获得了所谓的**非回溯矩阵**(Krzakala等人,2013b)。基于Bethe自由能的Hessian的算法解释的这种光谱方法的变体也起源于物理学(Saade等,2014)。
这一由统计物理学启发的研究领域正在成为统计学和机器学习的主流。这很大程度上要归功于以下方面的最新进展:(a)**通过对近似消息传递**(analysis of approximate message passing,AMP)算法的分析,我们对算法的局限性有所了解(Bolthausen,2014; Deshpande和Montanari,2014; Javanmard和Montanari,2013; Matsushita和Tanaka (2013年; Rangan和Fletcher,2012年)进行低秩矩阵估计,该矩阵是Thouless-Anderson-Palmer方程(Thouless等人,1977年)的推广,在旋转玻璃上的物理文学中广为人知。 (b)以**数学上严格的方式证明许多相应结果的进展**。这方面的一些有影响力的论文(与低秩矩阵估计有关)(Barbieret等人,2016; Coja-Oghlan等人,2018; DeshpandeandMontanari,2014; Lelargeand Miolane,2016)证明了该公式在复制信息理论上的最佳性能。
#### 2.受限玻尔兹曼机
Boltzmann机器和特别是受限的Boltzmann机器是机器学习中经常使用的另一种无监督学习方法。从方法的名称可以明显看出,它与统计物理学有很强的联系。的确,玻尔兹曼机在物理学研究中通常被称为**伊辛逆模型**,并在一定范围内广泛使用,有关玻尔兹曼机的最新研究见(Nguyen等,2017)。
关于受限玻尔兹曼机器,物理学上有许多研究阐明了这些机器如何工作以及可以学习什么结构。在(Cocco 等,2018; Tubiana and Monasson,2017)中研究了随机受限的Boltzmann机器模型,在该模型中权重被施加为随机且稀疏且未学习。相对于隐藏单元上的一系列潜力而言,这项工作显着地揭示了即使单层RBM也能够表示成分结构。这项工作最近被用于根据其序列信息对蛋白质家族进行建模(Tubiana等人,2018)。对RBM学习过程的分析研究极具挑战性,这通常是使用**基于Gibbs抽样的对比散度算法**完成的(Hinton,2002年)。在学习过程的开始阶段(Decelle等。,2017)中研究了第一步,其中可以**使动力学线性化**。统计物理学的另一个有趣方向是用 Thouless-Anderson-Palmer方程(Thouless等,1977)代替对比发散训练算法中的吉布斯采样。这已经在(Gabrié等,2015; Tramel等,2018)中完成,其中证明了这种训练具有竞争力,并讨论了该方法的应用。**带有随机权重的RBM及其与Hopfield模型的关系**在(Barra 等,2018;Mézard,2017)中得到了证实。
#### 3.现代无监督学习与生成模型
深度学习的曙光为无人监督和生成模型学习带来了令人兴奋的创新。 例如,一些经典和较新概念的物理友好概述(Wang,2018)。
具有线性激活功能的自动编码器与PCA密切相关。 变分自动编码器(VAE)(Kingma and Welling,2013; Rezende 等,2014)是更接近物理学家思维模式的变体,其中自动编码器通过图形模型表示,并使用先验的潜变量和变分进行训练推理。具有单个隐藏层的VAE与信号处理中其他广泛使用的技术(例如字典学习和稀疏编码)紧密相关。字典学习问题已通过统计物理技术进行了研究(Kabashima等人,2016; Krzakala等人,2013a; Sakata和Kabashima,2013)。
**生成对抗网络**(GANs) –(Goodfellow 等人,2014)的工作中出现了一组强大的想法,旨在生成与训练集中类型相同的样本(例如,酒店客房的图像)。以物理为灵感的GAN研究开始出现,例如 (Wang等人,2018)对GAN的可解模型所做的工作是对感知器中在线学习的早期统计物理学工作的有趣概括。
我们还想让读者注意**自回归生成模型**(Larochelle和Murray,2011; Papamakarios等,2017; Uria等,2016)。自回归模型的主要思想来自于以下事实:**它们是显式概率模型的一个家族,为此可以进行直接和无偏采样**。 这些模型的应用已经实现了统计学(Wu等人,2018)和量子物理学问题(Sharir等人,2019)。
### D.监督学习中的统计物理学
#### 1.感知器和GLM
可以说,监督学习最基本的方法是线性回归,其中的一个目的是找到一个系数$w$的向量,以使其与数据点$X_iw$的标量积对应于所观察到的标签$y$。这通常通过最小二乘法来解决,其中$\Vert y-Xw\Vert ^2_2$在$w$上取最小值。 在贝叶斯语言中,最小二乘法对应于假设高斯相加噪声$\xi$,因此$y_i = X_iw +\xi_i$。在高维度设置中,使用权重的正则化几乎总是必不可少的。 在贝叶斯中,最常见的岭正则化可以解释为对权重作高斯先验假设。可以通过假设一般先验$P_W(\cdot)$和由条件概率分布$P_{out}(y_i | X_iw)$表示的一般噪声来概括这种概率思想。所得模型称为**广义线性回归或广义线性模型**(generalized linear model,GLM)。数据分析和学习中感兴趣的许多其他问题可以表示为GLM。 例如,稀疏回归仅要求$P_W$在零上具有大权重,对于阈值为$\kappa$的感知器,输出具有特殊形式$P_{out}(y|z)= \mathbf{I}(z > \kappa)\delta (y-1) + \mathbf{I}(z \leq \kappa)\delta(y+1)$ 。
用神经网络的语言,GLM表示单层(无隐藏变量)完全连接的前馈网络。
对于一般的噪声/激活通道$P\_{out}$,统计中的传统理论不适用于非常有限的数据体制,在这种情况下,维数$p$和样本数$n$都变大,而它们的比率$n / p =\alpha$仍然是固定的。基本问题如下:**最佳可得的泛化误差如何取决于样本数,仍然是未知数**。然而,与该方案和相关的问题引起了极大的兴趣,并且在GLM的背景下很好地理解它们似乎是了解更多相关问题的前提,例如深度学习方法。
通过考虑将数据视为随机独立的均匀分布(iid)矩阵,并对在教师环境中创建的标签进行建模,可以使用统计物理方法来获得有关高维GLM的特定结果。教师生成权重为$w$的实验真向量,以使$w_j\sim P_w,j = 1,\dots,p$。 然后,教师使用此向量和数据矩阵$X$生成从$P_{out}(y_i | X_iw ^∗)$中提取的标签$y$。然后,学生知道$X,y$,$P_w$和$P_{out}$,并应该学习老师使用的规则,即理想情况下学习$w^*$。随着样本数量的变化,这种具有随机输入数据的设置已经为问题的算法可处理性提供了有趣的见解。
这方面的工作是由 Elisabeth Gardner(Gardner and Derrida,1989)所开创的,并且在过去对$P_{out}$和$P_W$的特殊情况进行了积极的物理学研究,例如 (Györgyi和Tishby,1990; Seung等,1992a; Sompolinsky等,1990)。复制方法可用于计算该师生模型中$X$和$y$之间的互信息,这与物理学中的自由能有关。然后,可以得出向量$w ^*$的最佳估计误差以及最佳的泛化误差。(Barbier 等人,2019)最近取得了显着进步,已证明复制方法可以为GLM提供正确的结果,并为通用Pout和PW随机输入。将这些结果与对近似消息传递算法的分析(Javanmard和Montanari,2013年)相结合,可以推断出 **AMP算法能够达到最佳性能的情况以及无法达到最佳性能的区域**。在这种情况下,AMP算法被认为是所有多项式算法中最好的。 因此,可以使用教师-学生模型来了解在只有非常有限数量的样本的情况下通用算法离最优性还有多远。
#### 2.多层神经网络的物理研究结果
深度神经网络中学习和泛化属性的统计物理分析是一项艰巨的任务。 在几个互补的方向上已经取得了进展。
影响力之一是涉及线性深度神经网络的研究。虽然线性神经网络不具有表示通用函数的表达能力,但梯度下降算法的学习动力学与非线性网络的学习动力学非常相似。同时,可以通过封闭形式的解决方案来描述深度线性神经网络中的学习动力学(Saxe等,2013)。线性神经网络的学习动力学也能够重现关于在非线性网络中进行数值观察的泛化和过度拟合的一系列事实,请参见(Advani and Saxe,2017)。
已经详细分析的另一种特殊情况称为 **委员会机器(committee machine)**,有关详细内容,请参见例如 (Engel and Van den Broeck,2001)。委员会机器是一个全连接的神经网络,它在随机输入数据上学习教师规则,只学习第一层权重,而随后的权重则固定下来。该理论被限制在这样的极限上,即隐藏神经元的数量$k = O(1)$,而输入$p$的维数和样本数量$n$都发散,其中$n / p =\alpha= O(1)$。随机梯度下降学习(在线学习)(Saad和Solla,1995a,b)和最佳批量学习泛化误差都可以在这种情况下以封闭形式进行分析(Schwarze,1993)。最近,已经严格建立了最佳泛化特性的副本分析(Aubinet等,2018)。委员会机器的关键特征是它显示了所谓的专业化阶段过渡。当样本数量较少时,通过对每个隐藏单元都相同的权重配置来实现最佳误差,从而有效地实现了简单的回归。只有当隐藏单元的数量超过专业化阈值时,不同的隐藏单元才能学习到不同的权重,从而改善了泛化误差。 关于委员会机器的另一个有趣的观察结果是,随着潜在单元数量的增加,从理论上讲可以很好地实现一般性的信息,但是在处理上却难于把握的困难阶段变得更大。委员会机器还用于分析神经网络中过度参数化的后果(Gold等人,2019a,b)。
**最近的一系列工作分析了两层神经网络的另一个显著局限性**(Mei等人,2018年; Rotsko Rot和Vanden-Eijnden,2018年)。在这些工作中,对网络进行了限制,其中隐藏单元的数量很大,而输入的维数则固定不变。在这个极限范围内,权重之间的相互作用很小(导致平均场) ,并且它们的演化可以通过类似于玻璃系统研究的普通差分方程来追踪(Dean,1996)。当隐藏层较大时,对极限的一种相关但不同的处理是基于围绕初始条件的动力学线性化,从而导致与高斯过程和核方法的关系,例如 (Jacot等人,2018; Lee等人,2018)
#### 3.信息瓶颈
**信息瓶颈**(Tishby等人,2000年)是统计物理学中衍生出的另一个概念,它**在寻求理解深度学习成功背后的理论方面具有重要意义**。深度学习的信息瓶颈理论(Shwartz-Ziv和Tishby,2017; Tishby和Zaslavsky,2015)旨在量化神经网络中的各层在保持有关输入的足够信息以至于输出标签之间进行交易的概念可以进行预测,同时获取尽可能多的不必要信息,以使学习的表示保持简洁。
信息理论分析的有趣结果之一是,网络的传统容量或表达性维度(例如VC维度)被输入和压缩隐藏层表示之间的**互信息指数**所取代。这意味着表示压缩的每一位等效于训练数据对泛化误差的影响加倍。
(Shwartz-Ziv and Tishby,2017)的分析还表明,这种表示压缩是通过随机梯度下降(SGD)通过在相关维数软问题中的扩散实现的。据此,通过权重的分散,通过逐层降低不相关尺寸的SNR,可以实现任何单位非线性的压缩。对这种见解的一个有趣的预测是,收敛到良好的泛化尺度的时间是层数的负幂定律。该理论还预测了隐藏层与信息瓶颈表示的分叉或相变之间的联系。
尽管内部表示的互信息本质上很难直接在大型神经网络中进行计算,但上述预测均不依赖于互信息值的显式估计。
统计物理学中的相关工作旨在提供可靠的可伸缩近似值和模型,其中互信息易于处理。互信息可以在线性网络中精确计算(Saxe等,2018)。它可以在神经网络模型中可靠地近似,其中在学习权重矩阵足够接近旋转不变性之后,然后在复制理论中加以利用以计算所需的互信息(Gabrié等,2018)。
#### 4.深度学习的场景和复杂性( Landscapes and glassiness of deep learning)
训练深度神经网络通常是**通过损失函数的非凸态下的随机梯度下降(SGD) 来完成的**。统计物理学在研究复杂的能源格局及其与动力学行为的关系方面具有长期的经验。梯度下降算法与Langevin 动力学密切相关,后者在物理学中经常被考虑。 一些物理学启发的作品(Choromanska等人,2015)广受欢迎,但在探索这种类比时有些天真。
关于玻动力与深度神经网络学习之间关系的有趣见解在(Baity-Jesi 等,2018)中提出。尤其要强调的是,过度参数化在使景观看起来不那么玻璃化的过程中起到了作用,并且与参数化不足的网络形成了对比。(Baldassi等,2016,2015)探索了将神经网络中的学习与景观特性相关联的另一项有趣的工作。这项工作基于以下认识:在二元感知器的简单模型中,学习动力学以具有许多低损耗近距离配置的权重空间的一部分结束。它继续表明学习在权重空间中偏爱这些较宽的部分,并认为这可以**解释为什么算法被广泛的局部极小吸引,以及为什么这样做会提高其泛化特性**。这个理论的一个有趣的衍生是(Chaudhari 等,2016)提出的随机梯度下降算法的变体。
### E.机器学习在统计物理中的应用
当理论物理学的研究人员遇到深度神经网络时,早期的层正在学习比后面的层更精细的尺度来表示输入数据,她立即考虑物理学中的重正化群,以便从微观规则中提取宏观规律。例如(Bény,2013年; Mehta和Schwab,2014年)对此类比进行了探索。(Bradde and Bialek,2017)报告了重归一化组与主成分分析之间的类比。
一个自然的想法是 使用神经网络来学习新的重正化方案。 对此方向的首次尝试出现在(Koch-Janusz和Ringel,2018; Li and Wang,2018)中。但是,这是否会导致先前尚不为人所知的模型带来新的物理发现还有待观察。
**相变是物质不同相之间的边界**。 它们通常使用顺序参数确定。 在某些系统中,如何确定适当的顺序参数尚无先验。一个自然的想法是,神经网络无需先验的物理知识就可以学习适当的阶次参数并定位相变。这个想法在(Carrasquilla and Melko,2017; Morningstar and Melko,2018; Tanaka and Tomiya,2017a; Van Nieuwenburg等,2017)中进行了探索,使用了一系列模型,这些模型使用从感兴趣模型中统一采样的配置(使用Monte方法获得) 在不同的阶段或在不同的温度下使用Carlo学习),并使用监督学习对配置进行分类。扩展到训练集中未使用的配置可能导致确定研究模型中的相变。 这些通用指导原则已在许多应用中用于分析合成数据和实验数据。 IV.C节详细介绍了多体量子物理学中的特定情况。
在识别以前未知的阶跃参数方面,以及对它们**是否能够可靠地区分真正的热力学相变和仅仅是交叉现象,尚需进一步详细了解这些方法的局限性**。在(Mehta 等,2018)中对Ising模型进行的实验提供了有关该方向的一些初步想法。 在(Kashiwa等,2019)中讨论了一些潜在的机制。在(Greitemann等,2019; Liu等,2019)中引入并研究了 基于内核的学习方法,该方法用于学习受挫磁性材料中的相,该方法更易于解释并且能够识别复杂的阶次参数。
还研究了有序的玻璃状固体,其中阶数参数的识别特别具有挑战性。特别是(Nussinov等,2016; Ronhovde等,2011)使用多尺度网络聚类方法来识别眼镜的空间和时空结构(Cubuk等,2015),学会识别结构流缺陷,(Schoenholz等,2017)认为要确定一个参数,该参数可以捕获无序系统的历史依赖关系。
为了超越监督学习的局限性来进行阶段分类和确定阶段过渡,目前正在探索无监督学习的几个方向。例如,在(Wetzel,2017)中用于Ising和$XY$模型,在(Wang and Zhai,2017,2018)中用于沮丧的自旋系统(frustrated spin systems)。(Martiniani等,2019)的工作探索了从简单压缩基本配置中识别阶段的方向。
**机器学习还提供了令人兴奋的工具集,用于研究,预测和控制非线性动力系统**。 例如(Pathak等,2018,2017)使用称为回波状态网络的循环神经网络或储层计算机(Jaeger and Haas,2004)来预测混沌动力学系统的轨迹和用于天气预报的模型。(Reddy等人,2016,2018)的作者使用强化学习来教授自主滑翔机,利用大气中的热量来使滑翔机像鸟一样飞翔。
### F.展望与挑战
这里描述的统计物理学方法在处理高维数据集和模型方面非常强大。传统学习理论与统计物理学理论之间的最大区别在于,后者通常基于虚构的数据生成模型。从某种意义上说,这可以得出可求解的模型,可以以封闭的形式(包括常数项)来计算感兴趣的数量(例如,可以实现的误差)。这与主流学习理论中的目的相反,后者旨在在对设置(数据结构或体系结构)的一般假设下提供错误的最坏情况界限。这两种方法是相辅相成的,一旦我们了解了实际情况接近于最坏情况的关键条件以及现实数据和功能的正确模型是什么,理想的情况是将来会遇到。
**统计物理方法的下一个挑战是公式化和求解模型**,这些模型属于感兴趣的实际设置的某种通用性类别。 这意味着它们再现了在神经网络的实际应用中观察到的行为的所有重要方面。为此,我们不再需要将输入数据建模为iid向量,而是将其建模为生成神经网络的输出(如Gabrié等人,2018年),或将其作为感知流形(如Chung等人,2018年) 。生成标签的教师网络(在有监督的设置中)需要适当地对数据中的结构与标签之间的相关性进行建模。我们需要找出如何分析(随机)梯度下降算法及其相关变量。 在这个方向上有希望的工作是依赖于眼镜的动态均场理论的(Mannelli 等,2018,2019)。我们需要将现有方法推广到具有广泛隐藏层宽度的多层网络。
回到将机器学习用于物理学的方向,机器学习在非线性动力系统和统计物理学研究中的全部潜力尚未发现。 前面提到的这些工作无疑提供了令人兴奋的开胃菜。
<div id="3"></div>
## Ⅲ.粒子物理与宇宙学
从正在进行中的有计划的实验中,有各种各样的组合可以很好地探索宇宙,从难以想象的小基本粒子世界到令人敬畏的宇宙规模。诸如大型强子对撞机(Large Hadron Collider,LHC)和大型天气观测望远镜(Large Synoptic Survey Telescope ,LSST)之类的实验可提供大量数据,可与特定理论模型的预测进行比较。这两个领域都有完善的物理模型作为基础假设:粒子物理和$\Lambda$CDM宇宙学的标准模型,其中包括冷暗物质和宇宙常数$\Lambda$。有趣的是,所考虑的大多数其他假设都是在相同的理论框架中提出的,即量子场论和广义相对论。
尽管有如此敏锐的理论工具,但挑战仍然是艰巨的,因为与零值的预期偏差预计将是难以置信的微小,而揭示这种细微差别需要对复杂的实验设备进行稳健的处理。**使统计推断复杂化的是,对数据的最高保真度预测不是来自简单的封闭式方程式,而是来自复杂的计算机模拟**。机器学习在粒子物理学和宇宙学中掀起了一股浪潮,因为它提供了一系列技术来应对这些挑战,并提出了激发大胆新策略的新观点。令人兴奋的是,这些领域涵盖了理论和实验方面,既包括具有直接影响的应用,又包括从长远来看将发生更多变革的前景。
### A.模拟的作用
在粒子物理学和宇宙学中使用机器学习的一个重要方面是使用计算机模拟来生成标记训练数据$\{X_\mu,y_\mu\}^n_{\mu = 1}$的样本。例如当目标$y$指的是粒子类型,特定的散射过程或基础理论中出现的参数时,通常可以直接在模拟代码中指定目标$y$,以便模拟直接采样$X\sim p(\cdot | y)$。在其他情况下,模拟不是直接以$y$为条件,而是提供样本$(X,Z) \sim p(\cdot)$,其中$Z$是描述模拟内部发生的事情的潜在变量,但在实际实验中无法观察到。如果可以通过函数$y(Z)$从这些潜在变量中计算出目标标签,则还可以从仿真中创建标签化的训练数据$\{X_\mu,y_\mu\}^n_{\mu = 1}$。使用高保真模拟生成标记的训练数据不仅是在这些领域进行监督学习的早期成功的关键,而且还是解决这种方法缺点的研究重点。
粒子物理学家已经开发出一套高保真模拟系统,这些模拟是分层构成的,用于描述各种长度尺度上的相互作用。这些模拟的组成部分包括量子域理论的费曼图解扰动展开,复杂辐射模式的现象学模型以及检测器中粒子与物质相互作用的详细模型。虽然生成的模拟具有很高的保真度,但模拟本身具有可以调整的自由参数,并且在下游分析任务中必须考虑到模拟中的残留不确定性量。
同样,宇宙学家可以使用广义相对论以及相关的物质和辐射非引力效应(在结构形成过程中变得越来越重要)来模拟不同长度尺度下的宇宙演化。与数十亿重力相互作用的大型物体的计算昂贵的$N$体模拟相比,在特定的设置中可以进行大量的近似处理,从而提供了极大的加速,而一旦包含非重力反馈效应,这种模拟的花费将变得过高。
宇宙学模拟通常涉及由于原始量子波动而导致的随机初始条件的确定性演化。$N$体模拟非常昂贵,因此模拟相对较少,但它们涵盖了较大的时空量,该量在统计上是各向同性的,并且在大范围内是均匀的。相反,从最初的高能散射到探测器中的低能相互作用,粒子物理模拟都是随机的。高能对撞机实验的仿真可以并行方式在硬件上运行,但是物理目标需要大量的模拟碰撞。
由于模拟在这些领域中起着至关重要的作用,因此机器学习中的许多最新研究都以一种或另一种方式与模拟相关。这些近期工作的目标是:
+ 通过将领域知识直接整合到机器学习模型中来开发更具数据效率的技术;
+ 将模拟中的不确定因素纳入训练过程;
+ 开发可用于实际数据且不依赖模拟的弱监督程序;
+ 开发异常检测算法以发现数据中的异常特征,而无需模拟特定的信号假设;
+ 改善模拟的调整,重新加权或调整模拟数据以更好地匹配真实数据,或使用机器学习为模拟和真实数据之间的残差建模;
+ 学习用于模拟的快速神经网络代理,该代理可用于快速生成合成数据;
+ 开发有效利用模拟的近似推理技术;
+ 学习可直接用于统计推断的快速神经网络代理。
### B.粒子物理学中的分类和回归
机器学习技术已经在实验粒子物理学中使用了数十年,以帮助进行粒子识别和事件选择,这可以看作是分类任务。机器学习也已用于重建,可以看作是回归任务。 监督学习用于基于大量标记的训练样本$\{X_\mu,y_\mu\}^n_{\mu = 1}$来训练预测模型,其中$X$表示输入数据,$y$表示目标标签。在进行颗粒识别的情况下,输入特征$X$表征检测器中的局部能量沉积,标记$y$表示少数颗粒种类(例如,电子,光子,介子等)之一。在重建任务中,使用了相同类型的传感器数据$X$,但是目标标记$y$是指负责这些能量沉积的粒子的能量或动量。 这些算法适用于LHC数据的批量数据处理。
事件选择是指选择与目标分析任务最相关的一小部分碰撞的任务。例如,在寻找希格斯玻色子时,超对称性和暗物质数据分析人员必须选择与这些假设的“信号”过程特征一致的LHC数据的一小部分。通常,这些事件选择要求也可以通过所谓的“背景”过程来满足,这些过程由于实验限制或基本的量子力学效应而模仿信号的特征。以其最简单的形式进行的搜索减少了将满足这些要求的数据中的事件数量与仅背景虚假假设和信号加背景虚假假设的预测进行比较。因此,事件选择要求在拒绝后台过程和接受信号过程中越有效,则结果统计分析将越有效。**在高能物理学中,机器学习分类技术传统上被称为多变量分析**,以强调与基于简单阈值(或“切割”)的传统技术的对比,传统阈值适用于精心选择或设计的特征。
在1990年代和2000年代初期,简单的前馈神经网络通常用于这些任务。 十多年来,神经网络很大程度上被**提升决策树**(BDT) 取代,成为分类和回归任务的必经之路(Breiman等,1984; Freund和Schapire,1997; Roe等,2005)。从2014年左右开始,基于深度学习的技术应运而生,并被证明在多种应用中具有更强大的功能(有关历史的近期回顾,请参见参考文献(Guest等,2018; Radovic等,2018))。
深度学习首先用于事件选择任务,其目标是根据标准模型之外的理论来假设虚拟粒子。它不仅性能优于增强型决策树,而且不需要经过工程设计的功能即可实现这一令人印象深刻的性能(Baldi等人,2014)。在此概念验证工作中,网络是一个深层的多层感知器,使用简化的检测器设置对它进行了非常大的训练。此后不久,引入了参数化分类器的概念,其中将二元分类器的概念扩展到了$y = 1$信号假设被提升为连续参数化的复合假设的情况,例如根据质量 假设粒子的数量(Baldi等人,2016b)。
#### 1.射流物理学( Jet Physics)
**强子对撞机(例如大型强子对撞机)上最丰富的相互作用会在最终状态下产生高能夸克和胶子。这些夸克和胶子放射出更多的夸克和胶子,由于约束现象最终结合成色中性复合粒子**。撞击探测器的介子和重子的准直喷雾统称为**射流**。几十年来,开发一种在理论上很健壮并且可用于测试 **量子色动力学(QCD)**预测的射流结构的有用表征一直是粒子物理研究的活跃领域。此外,超出标准模型的物理学许多场景都预测会衰减为两个或更多个射流的粒子产生。如果产生的不稳定颗粒具有较大的动量,则将生成的射流增强,使射流重叠成具有非琐碎子结构的单个脂肪射流。从夸克和胶子的标准模型过程中,通过大量生产的喷气机对这些增压喷气机或胖喷气机进行分类,可以显着改善大型强子对撞机的物理范围。更一般而言,识别喷气机的祖先是一项分类任务,通常称为喷气机标记。
在首次将深度学习应用于事件选择之后不久,深度卷积网络就被用于检测射流标签,其中低级检测器数据使其自身具有像图像的表示(Baldi等人,2016a; de Oliveira等人 等人,2016年)。虽然机器学习技术已在粒子物理学中使用了数十年,但实践始终仅限于具有固定维数的输入特征$X$。 射流物理学中的一个挑战是数据的自然表示形式是粒子,并且与射流相关的粒子数量会发生变化。递归神经网络在粒子物理学中的首次应用是在风味标记(flavor tagging)的背景下(Guestet等,2016)。最近,关于使用不同网络架构(包括在序列,树和图形上运行的递归网络)的研究激增(有关喷气物理学的最新评论,请参见参考文献(Larkoski等人,2017))。这包括在架构设计中利用领域知识的混合方法。 例如,受自然语言处理技术的启发,设计了递归网络,该递归网络在由一类喷射聚类算法创建的树结构上运行(Louppe等人,2017a)。类似地,网络的发展是受不变性的影响,即对呈现给网络的粒子进行排列不变,并对粒子的辐射方向图细节保持稳定(Komiske等,2018b,2019)。最近,已经组织了针对特定基准问题的不同方法的比较(Kasieczka等,2019)。
除了分类和回归之外,机器学习技术还用于密度估计和平滑光谱建模,在这种形式中,分析形式的动机不足,并且模拟存在重大不确定性(Frate等人,2017)。这项工作还允许人们用先验扩散而不是特定的具体物理模型来模拟替代信号假设。 更抽象地讲,这项工作中的 高斯过程正用于对非均匀泊松点过程的强度进行建模,这是在粒子物理学,天体物理学和宇宙学中发现的一种情况。该工作线的一个有趣方面是,高斯过程核可以使用与物理学家直观地用来描述观测结果的因果模型清晰对应的组成规则来构造,这有助于解释性(Duvenaud等,2013)。
#### 2.中微子物理学(Neutrino physics)
中微子与物质的相互作用非常弱,因此实验需要大体积的检测器才能达到可观的相互作用速率。不同类型的相互作用,无论它们来自中微子的不同种类还是背景宇宙射线过程,都在探测器体积中留下了局部能量沉积的不同模式。检测器体积均匀,这激发了卷积神经网络的使用。
深层卷积网络在粒子物理实验数据分析中的第一个应用是在使用**闪烁矿物油的**$NO\nu A$**实验**中。$NO\nu A$中的相互作用导致产生光,这是从两个不同的有利位置成像的。 $NO\nu A$开发了同时处理这两个图像的卷积网络(Aurisano等,2016)。他们的网络将相同纯度的电子中微子的选择效率(真实阳性率)提高了40%。该网络已用于搜索电子中微子的外观和假设的**无菌中微子**。
同样,MicroBooNE 实验可检测到在Fermilab中产生的中微子。它使用170吨液氩时间投射室。 带电粒子使液氩电离,电离电子通过该体积漂移到三个线平面。处理后的结果数据由一个33兆像素的图像表示,该图像主要是噪声,而稀疏的是合法的能量沉积。MicroBooNE合作使用 Faster R-CNN 算法(Ren等人,2015)来识别和定位与边界框的中微子相互作用(Acciarri等人,2017)。这一成功对于未来基于液氩时间投射室的中微子实验(例如Deep Underground Neutrino Experiment ,DUNE)非常重要。
除了加速器设施产生的能量相对较低的中微子外,还使用机器学习技术通过位于南极的 IceCube 天文台来研究高能中微子。特别是,3D卷积和图神经网络已应用于信号分类问题。在动态方法中,检测器阵列被建模为图形,其中顶点是传感器,而边缘是传感器的空间坐标的学习函数。**发现图神经网络的性能优于传统的基于物理学的方法以及经典的3D卷积神经网络**(Choma等人,2018)。
#### 3.系统不确定性的稳健性 ( Robustness to systematic uncertainties)
实验粒子物理学家敏锐地意识到,模拟虽然非常精确,却并不完美。结果,社区制定了许多策略,这些策略大致分为两大类。首先涉及在使用模拟进行训练时合并错误建模的影响。这涉及通过模拟和分析链传播潜在的不确定性源(例如,校准,检测器响应,质子的夸克和胶子组成,以及来自扰动理论的高阶校正的影响等)。对于这些不确定性来源中的每一个,都包括一个讨厌的参数$\nu$,并且通过这些讨厌的参数对所得的统计模型$p(X | y,\nu)$进行参数化。此外,在惩罚最大似然分析的情况下,数据的似然函数用表示这些不确定性来源中的不确定性的项$p(\nu)$进行了扩充。在机器学习的背景下,通常使用从标称模拟$\nu=\nu_0$生成的数据来训练分类器和回归器,从而得出预测模型$f(X |\nu_0)$。将该预测模型视为固定的,可以使用模型$p(X | y,\nu)p(\nu)$通过$f(X |\nu_0)$传播$\nu$中的不确定性。但是,基于这种方法的下游统计分析不是最佳的,因为未对预测模型进行训练,而未考虑$\nu$的不确定性。
在机器学习文献中,**这种情况通常称为由训练分布$\nu_0$和目标分布$\nu$表示的两个域之间的协变量偏移**。存在多种用于域适应的技术来训练对这种变化具有鲁棒性的分类器,但是它们倾向于局限于二进制域$\nu \in \{train,target\}$。为了解决这个问题,开发了一种对抗训练技术,将域自适应扩展到$\nu \in \mathbb{R}^q$参数化的域(Louppe等人,2016)。对抗方法鼓励网络学习关键量,其中$p(f(X)| y,\nu)$独立于$\nu$,或者等效地$p(f(X),\nu | y)= p(f(X)| y)p(\nu)$。 这种对抗性方法也已用于算法公平性的环境中,在这种算法中,人们希望训练独立于(或与之相关的)特定连续属性或可观察量的分类器或回归器。例如,在射流物理学中,人们通常希望射流标签器与射流不变质量无关(Shimmin等人,2017)。以前,开发了一种称为uboost的不同算法来实现增强决策树的类似目标(Rogozhnikov等人,2015; Stevens和Williams,2013)。
**在粒子物理学中用于处理模拟中系统错误建模的第二种通用策略是避免使用模拟对分布$p(X | y)$进行建模**。在下文中,令$R$表示满足相应选择要求的数据的各个子集上的索引。已经开发出各种数据驱动策略,以将控制区域中的数据分布$p(X|y,R=0)$与感兴趣区域中的分布$p(X|y,R=1)$相关联。这些关系也涉及模拟,但是这种方法的技术是将这些关系建立在模拟的可靠方面。最简单的例子是通过标识由$y$和$p(y|R = 0) \approx 1$主导的数据$R = 0$的子集来估计特定过程$y$的分布$p(X|y,R = 1)$。这是一种极端情况,适用性受到限制。
近来,已经开发了仅在识别仅类别比例的区域或假设相对概率$p(y|R)$不是线性相关的弱监督技术(Komiske等人,2018a; Metodiev等人,2017)。该技术还假定分布$p(X|y,R)$独立于$R$,这在某些情况下是合理的,而在其他情况下是可疑的。该方法已被用来训练区分夸克和胶子的喷气式标签机,在夸克和胶子之间,模拟的精确度已不再足够,并且该方法的假设是合理的。**这种弱监督数据驱动的方法是粒子物理机器学习的一项重大发展,尽管它仅限于部分问题**。例如,如果目标类别$y$之一对应于数据中可能不存在或不存在的假设粒子,则此方法不适用。
#### 4.触发方式 (Triggering)
对撞机实验(例如大型强子对撞机)需要收集大量数据,因为目标现象是极为罕见的。大部分冲突在于包含先前已研究和表征的现象,与完整数据流相关的数据量实在太大。因此对撞机实验使用了称为**触发器的实时数据缩减系统**。 触发器决定要保留哪些事件以供将来分析以及丢弃哪些事件。ATLAS 和 CMS 实验每100,000个事件中仅保留约1个。 这些系统在不同程度上使用了机器学习技术。本质上,相同的粒子识别(分类)任务在这种情况下会出现,尽管在实时环境中,根据误报和否定的计算要求和性能是不同的。
LHCb 实验一直是触发中使用机器学习技术的领导者。LHC 触发器选择的数据大约有70%是通过机器学习算法选择的。最初,实验为此目的使用了提升决策树(Gligorov和Williams,2013),后来被Yandex开发的MatrixNet算法取代(Likhomanenko等人,2015)。
触发系统通常使用专用的硬件和固件,例如现场可编程门阵列(FPGA)。最近,已经开发出工具来简化针对 FPGA 的机器学习模型的编译,以针对这些实时触发系统的需求(Duarte等人,2018; Tsaris等人,2018)。
#### 5.理论粒子物理学 (Theoretical particle physics)
虽然粒子物理学和宇宙学中的大部分机器学习都集中在对观测数据的分析上,但也有一些例子将机器学习用作理论物理学中的工具。例如,**机器学习已被用于表征弦论的概貌**(Carifio等人,2017),**识别量子色动力学**(QCD)的相变(Pang等人,2018)并研究 AdS / CFT 对应关系(Hashimoto等,2018a,b) 。其中一些工作与将机器学习作为凝聚态物质或多体量子物理学中的工具的使用紧密相关。 具体而言,深度学习已在格点 QCD(LQCD)的背景下使用。在这个方向上的探索性工作中,深度神经网络被用来根据晶格配置预测 QCD 拉格朗日参数(Shanahan等人,2018)。许多多尺度动作匹配方法都需要这样做,目的是提高计算密集型 LQCD 计算的效率。这个问题被设置为回归任务,挑战之一是训练样本相对较少。 此外,机器学习技术已被用于减少马尔可夫链中的自相关时间(Albergo等人,2019; Tanaka和Tomiya,2017b)。为了以较少的训练例子解决此任务,重要的是利用已知的空间-时间和局部规范在晶格数据中的对称性。考虑到对称性丰富,数据扩充不是可扩展的解决方案。取而代之的是,作者进行了特征工程,这些工程施加了规范对称性和时空平移不变性。尽管这种方法被证明是有效的,但还是需要考虑一类较丰富的网络,它们与数据的对称性是等变的(或协变的)(此类方法在第III.F节中进行了讨论)。这项工作的延续是由Argon Leadership Computing Facility支持的。全新的 Intel-Cray 系统 Aurora 将具有超过1万种的能力,并且专门针对将传统高性能计算与现代机器学习技术结合在一起的问题。
### C.宇宙学的分类与回归( Classification and regression in cosmology)
#### 1.光度红移 (Photometric Redshift)
由于宇宙的膨胀,遥远的发光物体发生了红移,而距离-红移关系是观察宇宙学的基本组成部分。可以通过光谱学获得非常精确的红移估计值。 然而,这种光谱调查是昂贵且费时的。基于宽带测光或在几个色带中成像的光度测量可以粗略估算光谱能量分布。**光度红移是指从光度数据估计红移的回归任务**。 在这种情况下,地面实况训练数据来自精确的光谱调查。
传统的光度红移方法基于模板拟合方法(Benítez,2000; Brammer等,2008; Feldmann等,2006)。十多年来,宇宙学家还使用了基于神经网络和提升决策树的机器学习方法来进行光度红移(Carrasco Kind和Brunner,2013; Collister和Lahav,2004; Firth等人,2003)。这类工作的一个有趣的方面是尝试红移的点估计。存在各种方法来确定红移估计的不确定性并获得后验分布。
尽管不是从模拟生成训练数据,但是仍然存在这样的担忧:**即训练数据的分布可能无法代表将应用模型的数据的分布**。这种类型的协变量偏移是由光谱调查中的各种选择效果和光度调查中的细微差别引起的。暗能量调查(Dark Energy Survey)考虑了许多此类方法,并建立了验证过程以对其进行严格评估(Bonnett等人,2016)。最近,有人在使用层次模型来建立模型中的其他因果结构,以应对这些差异。用机器学习的语言来说,这些新模型有助于迁移学习和领域适应。层次模型还旨在将传统模板拟合方法的可解释性与机器学习模型的灵活性相结合(Leistedt等人,2018)。
#### 2.引力透镜的发现和参数估计 (Gravitational lens finding and parameter estimation)
**广义相对论最引人注目的效果之一是引力透镜,其中巨大的前景物体扭曲了背景物体的图像**。例如,当巨大的前景星系与背景源在天空上几乎重合时,就会发生强烈的引力透镜效应。这些事件是对大型星系暗物质分布的有力探测,可以提供有价值的宇宙学约束。但是,这些系统很少见,因此可扩展且可靠的镜头查找系统对于应对大型测量(如LSST,Euclid和WFIRST)至关重要。简单的前馈、卷积和残差神经网络(ResNets)已应用于该监督分类问题(Estrada等,2007; Lanusse等,2018; Marshall等,2009)。 在这种情况下,训练数据来自使用 PICS(宇宙强图像的管道)透镜进行模拟(Li等人,2016)进行强透镜射线追踪,以及使用 LensPop(Collett,2015)进行模拟 LSST 观察。一旦确定,通过最大似然估计来表征透镜物体是一项计算量大的非线性优化任务。 最近,卷积网络已被用于快速估计奇异等温椭球体密度分布的参数,通常用于对强透镜系统建模(Hezaveh等人,2017)。
#### 3.其他例子(Other examples)
除了上面的例子(其中对象的基本事实与劳动密集型方法相对不明确)之外,宇宙学家还利用机器学习来推断涉及不可观察到的潜在过程或基本宇宙学模型参数的数量。
例如,**训练3D卷积网络根据暗物质的空间分布预测基本的宇宙学参数**(Ravanbakhsh等人,2017年)(见图1)。在这项概念验证工作中,使用计算密集型$N$体模拟对网络进行了训练,以模拟宇宙中暗物质的演化,并假设标准$\Lambda$CDM宇宙学模型中的10个参数具有特定值。在该技术对可见物质的实际应用中,将需要对可见示踪剂相对于潜在暗物质分布的偏差和方差建模。为了缩小这一差距,已经对卷积网络进行了训练,以**学习暗物质和可见星系之间的快速映射**(Zhang等人,2019),从而可以在模拟精度和计算成本之间进行权衡。这项工作面临的挑战(对于固态物理学,晶格场论和许多体量子系统而言,是常见的)在于,因为模拟的计算量很大,因此大型模拟$X_\mu$的统计独立实现相对较少。随着深度学习趋向于需要大量的标注训练数据集,因此已经探索了各种类型的子采样和数据增强方法来改善这种情况。下采样(subsampling)的另一种方法是 backdrop,通过在反向传播管道中引入随机潜在因子,即使在单个样本上也可以提供损失函数的随机梯度(Golkar和Cranmer,2018)。

<font face="黑体" color=#888 size=2>图1. 用不同参数组产生的三个立方体中的暗物质分布。每个立方体被划分成小的子立方体进行训练和预测。请注意,尽管此图中的立方体是使用约束采样集中非常不同的宇宙学参数生成的,但其效果是看不见的。来自(Ravanbakhsh等人,2017年)。</font>
对基本宇宙学模型的推断也可以使用分类问题来解决。尤其是,带有大量中微子的修正重力模型可以模拟标准$\Lambda$CDM模型所预测的弱透镜可观察物的预测。将$X_\nu$限制为二阶统计量时,存在的简并性可以通过合并高阶统计量或弱透镜信号的其他丰富表示形式来打破。特别是(Peel 等,2018)中构造了**弱透镜信号的小波分解作为卷积网络输入**的新颖表示。由此产生的方法能够以83%–100%的精度区分先前退化的模型。
**深度学习也已用于估计星系团的质量**,这些星系团是宇宙中最大的受重力约束的结构,也是强大的宇宙学探测工具。这些星系团的质量大部分以暗物质的形式出现,这是无法直接观察到的。可以通过重力透镜,对团簇内介质进行 X 射线观察或对星团的星系进行动力学分析来估计星系团的质量。机器学习用于动态集群质量估计的第一次使用是在仅暗物质的模拟(Ntampaka等,2015,2016)上使用支持分配机(Póczos等,2012)进行的。**使用MACSIS仿真(Henson等,2016)将许多非神经网络算法(包括高斯过程回归(内核岭回归),支持向量机,梯度提升树回归等)应用于此问题(Henson等,2016)**。 该模拟超越了仅暗物质模拟,并且融合了各种天体物理过程的影响,并允许开发可应用于观测数据的真实处理管道。大型调查(例如eBOSS,DESI,eROSITA,SPT-3G,ActPol和Euclid)推动了对准确,自动化的质量估算流程的需求。作者发现,与传统的$sigma$-M关系相比,使用机器学习技术预测的真实质量比降低了4倍(Armitage 等,2019)。最近,卷积神经网络已被用于缓解病毒标度关系中的系统变量,从而进一步改善了动态质量估计(Ho等人,2019)。卷积神经网络也已用于通过合成(模拟)X射线观测来估计星团质量。卷积神经网络也已用于通过星系团的合成(模拟)X射线观测来估计团块质量,与传统的基于X射线发光度的方法相比,作者发现预测质量的散布减小了。
### D.反问题和无似然推断(Inverse Problems and Likely-hood- free Inference)
正如反复强调的那样,粒子物理学和宇宙学都具有积极进取的高保真正演模拟的特征。这些前向模拟要么是内在随机的(例如在粒子模拟中发现的概率衰减和相互作用的情况下),要么是确定的(例如在重力透镜法或$N$体重力模拟下)。但是,即使是确定性的物理模拟,通常也会在基于 Poission 计数或仪器噪声模型的基础上对观测值进行概率描述。在这两种情况下,可以考虑将模拟隐式定义为分布$p(X,Z | y)$,其中$X$表示观察到的数据,$Z$是未观察到的潜在变量,它们在模拟中具有随机值,$y$是正向模型的参数,例如拉格朗日系数或ΛCDM宇宙学中的10个参数。 许多科学任务可被描述为反问题,其中人们希望从$X = x$推断$Z$或$y$。我们考虑过的最简单的情况是分类($y$代表分类值)和回归($y\in \mathbb{R}^d$)。 点估计$\hat{y}(X = x)$和$\hat{ Z}(X = x)$ 是有用的,但在科学应用中,我们经常需要不确定性的估计。
在许多情况下,反问题的解决方案是非适定(ill-posed)的,$X$的小变化会导致估计值的大变化。这意味着估计将具有高方差。 在某些情况下,前向模型等效于线性算子,并且最大似然估计$\hat{y}_{MLE} (X)$ 或 $\hat{Z}_{MLE} (X)$可以表示为矩阵求逆。在这种情况下,逆条件的不稳定性会与条件较差的正向模型有关。尽管最大似然估计可能会保持不变,但方差往往较高。 惩罚最大似然、岭回归(Tikhonov正则化)和高斯过程回归是偏差权衡的密切相关方法。
在粒子物理学中,这种类型的问题通常称为展开。 在那种情况下,人们通常会对检测器作用之前的碰撞的某些运动学特性的分布感兴趣,并且$X$代表在检测器作用折叠后该量的拖尾形式。同样,估计描述质子内部夸克和胶子的部分密度函数也可以看作是这种反问题(Ball等人,2015; Forteet等人,2002)。最近,神经网络和具有更复杂,受物理启发的内核的高斯过程都已应用于这些问题(Bozson等人,2018; Frate等人,2017)。**在宇宙学的背景下,一个反问题的例子是将激光干涉仪重力波观测器(LIGO)时间序列降为重力波的基础波形(Shen等人,2019)** 。生成对抗网络(GANs)甚至已经被用于反问题的背景中,在逆问题中,它们被用来对星系图像进行去噪和恢复(Schawinski等人,2017)。另一个例子涉及在被前景物体重力镜头之前估计背景物体的图像。在这种情况下,很难描述背景对象的物理动机。 最近,引入了递归推理机(Putzky and Welling,2017)作为隐式学习此类反问题的先验方法,并将其成功应用于强引力透镜(Morningstar等人,2018,2019)。
解决反问题的更雄心勃勃的方法包括提供给定$X$的$y$的详细概率表征。在频率学派,人们希望表征似然函数$L(y)= p(X = x|y)$。而在贝叶斯学派,人们希望表征后验概率分布$p(y|X = x) \propto p(X=x|y)p(y)$。对于给定X的潜在变量Z的推论发生了类似情况。基于可能性的详细建模,马尔可夫蒙特卡洛(MCMC),粒子物理学和宇宙论都拥有完善的统计推论方法(Foreman-Mackey等,2013 ),汉密尔顿特卡洛(Hamiltonian Monte Carlo)和变分推理(Jain等人,2018; Lang等人,2016; Regier等人,2018)。 但是,所有这些方法都要求似然函数是易处理的。
#### 1.无似然推断( Likelihood-free Inference)
令人惊讶的是,由模拟器隐式定义的概率密度$p(X = x|y)$通常无法直接求解。概率密度可以写成$p(X|y)=\int p(X,Z|y) dZ$,其中$Z$是模拟的潜在变量。 最新模拟的潜在变量空间是巨大且高度结构化的,因此无法通过分析来执行进行积分运算。在大型强子对撞机的一次碰撞模拟中,$Z$可能具有数亿个组件。在实践中,模拟通常基于蒙特卡洛技术来生成样本$(X_\mu,Z_\mu)\sim p(X,Z|y)$,据此可以估算密度。挑战在于,如果$X$是高维的,则很难准确地估计这些密度。例如,基于朴素直方图的方法无法缩放到高维度,并且核密度估计技术仅在大约5维范围内值得信赖。挑战在于,分布具有较大的动态范围,有趣的物理学现象常位于分布的尾部。
**由模拟隐式定义的似然函数的难解性不仅是粒子物理学和宇宙学的基础问题,也是许多其他科学领域的基础问题,包括流行病学和系统发育学**。 这激励了所谓的无似然推断算法的发展,该算法仅要求能够以正向模式从模拟生成样本。
一种著名的技术是近似贝叶斯计算(ABC)。在 ABC 中,人们使用 MCMC 或拒绝采样方法执行贝叶斯推理。在这种方法中,似然使用概率$p(\rho(X,x) < \epsilon)$来近似,其中$x$是要作为条件的观测数据,$\rho(x',x)$ 是$x$与模拟器$x'$的输出之间的某种距离度量,而$\epsilon$是容忍参数。当$\epsilon \rightarrow 0$时,等价于精确的贝叶斯推断。 但是,该过程的效率消失了。 ABC的挑战之一,尤其是高维$x$的挑战之一,是距离度量$\rho(x',x)$的规范,该度量要保持合理的接受效率而又不降低推理质量(Beaumontet等,2002; Marinet等, 2012; Marjoram等,2003; Sisson和Fan,2011; Sisson等,2007)。这种估计可能性的方法与使用直方图或核密度估计来近似$\hat{p}(x | y) \approx p(x | y)$的粒子物理学中的传统实践非常相似。 在这两种情况下,都需要领域知识来识别有用的摘要,以减少数据的维数。ABC技术的一个有趣扩展是利用通用概率编程。 特别是,一种称为推理编译的技术是一种重要的采样的复杂形式,其中神经网络控制概率程序中的随机数生成,以使模拟偏差以产生更接近观察到的$x$的输出$x'$(Le等,2017 )。
术语ABC通常与更通用的术语无可能性推断同义; 然而,还有许多其他方法涉及学习近似似然或似然比,该近似似然或似然比用作难处理似然(比率)的替代。例如,已使用具有自回归模型和归一化流量的神经密度估计(Larochelle和Murray,2011年; Papamakarios等人,2017年; Rezende和Mohamed,2015年)用于此目的并扩展到更高维度的数据(Cranmer和Louppe,2016年) ; Papamakarios等人,2018)。或者,训练分类器来区分$x\sim p(x | y)$和$x\sim p(x | y')$可以用来估计似然比$\hat{ r}(x | y,y')\approx p(x | y)/ p(x | y')$,可用于频率范式或贝叶斯范式(Brehmer等,2018c; Cranmer等,2015; Hermans等,2019)。
#### 2.粒子物理学中的例子 (Examples in particle physics)
包括希格斯玻色子的发现在内的成千上万的物理学成果涉及 基于替代似然率$\hat{p}(x | y)$的统计推断,该似然率由密度估计技术构建,该密度估计技术应用于从模拟生成的合成数据集中。 这些通常仅限于一维或二维汇总统计信息,或者除了观察到的事件数量外根本没有任何功能。尽管术语“无可能性推断”相对较新,但它是实验粒子物理学方法学的核心。
最近,已经开发了一套基于神经网络的无可能性推理技术,并将其应用于物理模型,超越了以有效场理论(EFT)表示的标准模型(Brehmer等人,2018a,b)。EFT 提供了围绕标准模型的理论的系统扩展,该标准模型由量子力学算子的系数进行参数化,量子算子在这种情况下扮演y的角色。这项工作中一个有趣的发现是,即使似然比和似然比是难解的,但联合似然比$r(x,z | y,y')$和联合得分$t(x,z | y)=\nabla y \log p(x ,z | y)$易于处理,可用于扩充训练数据(见图2)并显着提高这些技术的样本效率(Brehmer等人,2018c)。

<font face="黑体" color=#888 size=2>图2. 一种基于机器学习的无似然推理方法的原理图,其中模拟为神经网络提供训练数据。在随后的推断中,神经网络用作难解的似然的替代。来自(Brehmer等人,2018b)。</font>
另外,推论编译技术已经被应用于推论$\tau$-轻子衰变。 这种概念验证需要开发概率编程协议,该协议可以集成到现有的领域特定的模拟代码中,例如 SHERPA 和 GEANT4(Baydin等,2018; Casado等,2017)。这种方法提供了对潜在变量$p(Z|X = x)$的贝叶斯推断和更深的可解释性,因为后验对应于模拟的完整堆栈轨迹上的分布,从而可以概率性地检查模拟的任何方面。
由粒子物理学的挑战激发的另一种无可能性推理技术被称为**对抗性变分优化**(AVO( Louppe等人,2017b)。AVO 平行于生成对抗网络,其中生成模型不再是神经网络,而是领域特定的模拟。目标不是优化网络的参数,而是优化模拟的参数,以使生成的数据与目标数据分布相匹配。主要挑战在于,与神经网络不同,大多数科学模拟器都是不可区分的。为了解决这个问题,使用了变分优化技术,该技术提供了不同的代理损失函数。 目前正在研究这项技术以调整模拟参数,这是一项计算量大的任务,最近还使用了贝叶斯优化(Ilten等人,2017)。
#### 3.宇宙学的例子 (Examples in Cosmology)
在宇宙学中,ABC 的早期用途包括限制银河系的厚盘形成情况(Robin等人,2014年)以及推断高红移时星系形态转化率的推论(Cameron和Pettitt,2012年),目的是追踪银河系。 从Ia型超新星测量得出的哈勃参数演变。这些经验促使开发诸如 CosmoABC 之类的工具,以简化该方法在宇宙学应用中的应用(Ishida等人,2015)。
最近,基于宇宙学的经验,还开发了基于机器学习的无似然推断方法。为了应对ABC对于高维观测$X$的挑战,开发了一种数据压缩策略,该策略可学习摘要统计信息,从而最大程度地利用 Fisher 参数上的信息(Alsing等人,2018; Charnock等人,2018)。学到的摘要统计量近似一些名义或基准参数值的小邻域中隐式似然的充分统计量。这种方法与(Brehmer等人,2018c)的方法紧密相关。 最近,这些方法已扩展到学习对系统不确定性具有鲁棒性的汇总统计信息(Alsing和Wandelt,2019) 。
### E.生成模型(Generative Models)
机器学习研究中的一个活跃领域涉及使用无监督学习来训练生成模型,以产生与某些经验分布匹配的分布。 这包括生成对抗网络(GAN)(Goodfellow等,2014),变分自编码器(VAE)(Kingma和Welling,2013; Rezende等,2014),自回归模型和基于归一化流的模型(Larochelle和Murray) ,2011; Papamakarios等,2017; Rezende和Mohamed,2015)。
有趣的是,激发无似然推断的同一问题,由模拟器隐式定义的密度的难处理性也出现在生成对抗网络(GAN)中。如果GAN的密度易处理,则可以通过标准的最大似然来训练 GAN,但是由于它们的密度难以控制,因此需要技巧。诀窍是引入对抗,即用于对生成模型中的样本和目标分布中的样本进行分类的判别网络。判别器有效地估计了两个分布之间的似然比,这提供了与基于分类器的无似然推断方法的直接联系(Cranmer and Louppe,2016)。
在操作上,这些模型起着与传统科学模拟器相似的作用,尽管传统模拟代码还为基于物理原理的基础数据生成过程提供了因果模型。但是,由于感兴趣的分布是从低水平的微观物理描述中出现的,因此传统的科学模拟器通常非常慢。例如,在大型强子对撞机上模拟碰撞涉及原子级的电离和闪烁物理学。同样,宇宙学模拟涉及大量质量物体之间的引力相互作用,并且还可能包含涉及辐射,恒星形成等的复杂反馈过程。因此,学习这些模拟的快速逼近法非常有价值。
在粒子物理学中,此方向上的早期工作包括用于量热计中粒子能量沉积的 GAN(Paganini等人,2018a,b),ATLAS 合作正在对其进行研究(ATLAS Collaboration,2018)。**在宇宙学中,已使用生成模型来学习宇宙结构形成的模拟**(Rodríguez等人,2018)。在一种有趣的混合方法中,深度神经网络被用来根据基于线性摄动理论的快速物理模拟中的残差来预测宇宙的非线性结构形成(He等,2018)。
在其他情况下,动机不高的模拟并不总是存在或不切实际。然而,对于此类数据而言,具有生成模型的数据对于校准很有价值。在这个方向上的一个说明性例子来自(Ravanbakhshet等人,2016),见图3。 作者指出,下一代对弱引力透镜的宇宙学调查依赖于对遥远星系表观形状的精确测量。但是,形状测量方法需要精确的校准才能满足科学分析的精度要求。此校准过程具有挑战性,因为它需要大量昂贵的高质量星系图像。 因此,GAN 启用了参数引导程序的隐式泛化。
### F.展望和挑战( Outlook and Challenges)
尽管粒子物理学和宇宙学在利用机器学习方法方面有着悠久的历史,但机器学习所应用的主题范围却显着增长。如今,机器学习被视为应对升级的高光度 LHC 挑战的关键策略(Albertsson等人,2018; Apollinari等人,2015),并且正在影响未来在宇宙学和粒子物理学领域的实验策略( Ntampaka等,2019)。在大型强子对撞机中特别引起关注的一个领域是**识别高发光环境中带电粒子留下的轨迹的挑战**(Farrell 等,2018),这是最近kaggle比赛挑战的重点 。
在将机器学习应用于物理问题的几乎所有领域中,都希望以已知存在于数据或数据生成过程中的层次结构,组成结构,几何结构或对称形式的形式并入领域知识。最近,机器学习社区在这方面进行了大量工作(Bronsteinet等,2017; Cohen和Welling,2016; Cohenet等,2018; Cohenet等,2019; Kondor,2018; Kondor等 ,2018; Kondor and Trivedi,2018)。这些进展受到物理学家的密切关注,并已被纳入该领域的当代研究中。

<font face="黑体" color=#888 size=2>图3. 来自GALAXY-ZOO数据集的样本与使用条件生成对抗网络生成的样本。每个合成图像是通过对一组特征进行调节而产生的128×128彩色图像(这里是倒置的)。每列中观察到的图像和生成的图像对对应于相同的y值。来自(Ravanbakhsh等人,2016年)。。</font>
<div id="4"></div>
## Ⅳ.量子多体物质(MANY-BODY QUANTUM MATTER)
量子力学的内在概率性质使该领域的物理系统成为有效的无限大数据源,是机器学习应用的一个极具吸引力的领域。一个这种概率性质的范例是量子物理学中的测量过程。绕核运动的电子的位置$\rm{r}$只能根据测量结果大致推断。无限精确的经典测量设备只能用于记录对电子位置的特定观察结果。最终,由波函数$\Psi(\rm {r})$给出了测量过程的完整表征,其平方模最终定义了在空间中给定位置观察电子的概率$P(\rm {r})=|\Psi(\rm {r})|^2$。在单个电子的情况下,有效地执行了$P(\rm {r})$的理论预测和实验推断。而在许多量子粒子的情况下,情况变得更加复杂。例如,观察到的$N$个电子的位置概率分布为$P(\rm{r}_1,\dots,\rm{r}_\mathit{N})$本质上是一个高维函数,当$N$大于几十时就很少能准确确定。估计$P(\rm{r}_1,\dots,\rm{r}_\mathit{N})$的指数难度本身是估计复值多体振幅$\Psi(\rm{r}_1,\dots,\rm{r}_\mathit{N})$的直接结果,通常被称为**量子多体问题** 。量子多体问题在各种情况下都表现出来。这些最重要的功能包括复杂量子系统(大多数材料和分子)的理论建模和模拟,而通常仅提供近似的解决方案。量子多体问题的其他非常重要的表现形式包括对实验结果的理解和分析,尤其是与物质的复杂相有关。在下文中,我们讨论了一些 ML 应用,这些应用着重于缓解一些具有挑战性的量子多体问题带来的理论和实验问题。
### A.神经网络在量子态上的应用(Neural-Network quantum states)
神经网络量子态(NQS)用人工神经网络(ANN)表示多体波函数。通常采用的选择是将波函数振幅参数化为前馈神经网络:
$\Psi(\rm{r}) = \mathit{g^{(L)}(W^{(L)}...g^{(2)}(W^{(2)}g^{1}(W^{(1)}}r)))$,
与等式(2)中引入的符号类似。
早期工作主要集中在浅层网络上,最著名的是**受限玻尔兹曼机**(RBM)。隐藏单元取值为$\{±1\}$且在可见单元上没有偏差的 RBM 对应于深度$L = 2$的前馈全连接神经网络(FFNN),且激活函数为$\mathit{g}^{(1)}(x)= \mathrm{\log \cosh}(x),\mathit{g}^{(2)}(x)= \mathrm{\exp}(x)$。与RBM应用在无监督学习概率分布的一个重要区别是,当用作NQS时,RBM状态通常具有复数权重。最近的工作对更深的体系结构进行了不断的研究和介绍。例如,基于完全连接的NQS和卷积深度网络,如图4所示的例子。使用深度FFNN网络的一个动机是因为深度学习在工业中的成功应用,也因为在量子物理中的更一般的理论。例如,研究表明在量子纠缠方面,深度NQS方法比 RBM 更有效。NQS 表示的其他扩展涉及密度矩阵描述的混合状态的表示,而不是纯波函数。 在这种情况下,可以定义密度矩阵的正定 RBM 参数。

量子领域中出现的具体挑战之一是在 NQS 表示中强加物理对称性。在物质的周期性排列的情况下,可以使用类似于图像分类任务中所使用的卷积结构来施加空间对称性。也有一些工作在不同对称扇区中选择高能态。虽然空间对称性在其他 ML 应用中具有类似的对应关系,但要满足更多涉及的量子对称性,通常需要对 ANN 架构进行深刻的反思。在这种意义上,最显著的情况是交换对称性。对于玻色子,这相当于使波函数相对于粒子指数的交换是置换不变的。
Bose-Hubbard模型已被用作 ANN 玻色模型结构的基准,并获得了最新的结果。**但是,最具挑战性的对称性肯定是费米离子对称性**。 在这种情况下,NQS 表示需要对波函数的反对称性进行编码(例如,交换两个粒子位置会符号转变)。在这种情况下,已经探索了不同的方法,主要是针对现有的费米子变体ansatz进行扩展。校正反对称相关部分的对称RBM波函数已用于研究二维相互作用的晶格费米子(Nomura 等,2017)。其他方法通过对Slater行列式进行后向转换来解决费米子对称性问题(Luo和Clark,2018),或者直接在第一次量化中起作用(Han等人,2018a)。由于对称性的特殊性质,目前对于 ML 方法来说,费米子的情况无疑是最具挑战性的。 在应用方面,到目前为止,NQS 表示已沿三个主要的不同研究领域使用。
#### 1.表示理论(Representation theory)
与其他变异状态族相比,研究的活跃领域涉及NQS的一般表达能力。关于NQS表示性质的理论活动旨在了解描述有趣的相互作用量子系统的神经网络的大小和深度。结合以RBM状态获得的第一个数值结果,很快就发现纠缠是NQS表达能力的可能候选者。例如,RBM状态可以有效地支持体积定律校准(Deng等人,2017b),其中许多变参数仅随系统大小按多项式缩放。 在这个方向上,张量网络的语言在阐明NQS的某些特性方面特别有用(Chen等人,2018b; Pastori等人,2018)。已显示基于RBM状态的NQS家族等同于称为相关乘积-状态的某些变异状态家族(Clark,2018; Glasser 等,2018a)。但是,确定属于NQS形式方程式(3)和计算有效的张量网络的各个量子态的类别的问题仍然存在。物质的几个有趣阶段的精确表示,包括拓扑状态和稳定器代码(Deng等人,2017a; Glasser等人,2018a; HuangandMoore,2017; Kaubrueggeret等人,2018; Lu等人,2018; Zheng等人 (2018年)。不足为奇的是,考虑到其深度较浅,RBM体系结构也普遍受到限制。 具体而言,通常不可能以紧凑的RBM状态来写所有可能的物理状态(Gao和Duan,2017年)。还引入了类似的网络结构作为可能的理论框架,以替代量子力学的标准路径-积分表示形式(Carleo 等,2018)。
#### 2.从数据中学习 ( Learning from data)
与了解NQS的理论性质的活动并行,该领域的一系列研究涉及以下问题:了解在实践中很难从数值数据中学习量子态。这可以使用合成数据(例如来自数值模拟的数据)或直接通过实验来实现。
在有监督的学习环境中探索了这一研究领域,以了解NQS可以如何很好地表示不容易以ANN形式表达(以封闭分析形式表示)的状态。然后,目标是训练NQS网络$|\Psi\rangle$,以尽可能接近地表示可以有效计算其幅度的某个目标状态$|\Phi\rangle$。该方法已成功用于学习费米离子,沮丧的和玻色的哈密顿量的基态(Cai和Liu,2018)。这些代表了有趣的研究案例,因为目标波函数的符号/相位结构可能对FFNN中使用的标准激活函数构成挑战。同样,有人提出了一种监督方法来学习具有浅NQS的随机矩阵乘积状态波函数(Borin和Abanin,2019),以及具有可计算处理的DBM形式的广义NQS(Pastori等,2018)。在后一种情况下,这些研究显示了进行学习的有效策略,而在前一种情况下,已显示出学习一些随机MPS的难度。目前,推测此硬度源自随机MPS的纠缠结构,但是尚不清楚这是否与NQS优化景观的硬度或浅NQS的固有限制有关。
除了对给定量子态的有监督学习之外,使用NQS的数据驱动方法还主要集中在无监督方法上。在此框架中,只有来自某些目标状态$|\Phi\rangle$或密度矩阵的测量可用,并且目标是使用此类测量以NQS形式重建完整状态。 在最简单的设置中,给定一个数据集,该数据集根据Born规则处方$P(r)=|\Phi(r)|^2$分布M个测量值$\rm(r)^{(1)},\dots,\rm(r)^{(M)}$,其中$P(r)$为待重建。在波函数为正定的情况下,或者仅提供特定基础上的测量值的情况下,使用标准无监督学习方法重建$P(r)$足以重建基础量子态$\Phi$上的所有可用信息。例如,已使用基于RBM的生成模型对随机哈密顿量的基态(Torlai等人,2018)证明了这种方法。 在一系列经典的难以从量子态采样的案例中,也证明了基于深度VAE生成模型的方法(Rocchetto等人,2018),对于这种证明网络深度对压缩的效应。
在更一般的情况下,问题是要使用来自多个量子数基础的测量结果来重构纯或混合的一般量子态。这些对于重新构造量子态的复数相特别重要。该问题对应于量子信息中的一个众所周知的问题,称为量子状态层析成像,为此已经引入了特定的NQS方法(Carrasquilla等,2019; Torlai等,2018; Torlai和Melko,2018)。 在专用的第V.A节中,还将结合用于此任务的其他ML技术,对这些内容进行更详细的讨论。
#### 3.变分学习 (Variational Learning)
最后,NQS表示的主要应用之一是在多体量子问题的变分近似中。这些方法的目标是,例如,使用NQS表示法来近似求解薛定谔方程方程。在这种情况下,找到一个给定的量子哈密顿量H的基态的问题用变分形式表述为学习NQS权重$\mathit{W}$ 使 $\mathit{E(W)}$ = $\langle\Psi(W)| H |\Psi(W)\rangle/\langle\Psi(W)|\Psi(W)\rangle$最小的问题。这是使用 基于变分蒙特卡洛优化的学习方法 来实现的(CarleoandTroyer,2017)。在该应用系列中,没有给出表示量子态的外部数据,因此与NQS的有监督和无监督的学习方案相比,它们通常需要更大的计算负担。
各种自旋的实验(Choo等人,2018; Deng等人,2017a; Glasser等人,2018a; Liang等人,2018),bosonic(Chooet等人,2018; Saito,2017,2018; Saito和Kato,2017年)和铁离子(Han等人,2018a; Luo和Clark,2018年; Nomuraet等人,2017年)模型表明,可以获得与现有最先进方法竞争的结果。在某些情况下,已经证明了对现有变分结果的改进,尤其是对于二维晶格模型(Carleo和Troyer,2017年; Luo和Clark,2018年; Nomura等人,2017年)以及物质的拓扑阶段(Glasser等人,2017年) 等人,2018a; Kaubruegger等人,2018)。
其他NQS应用涉及时间依赖的Schrödinger方程的解(Carleo和Troyer,2017年; Czischek等人,2018年; Fabiani和Mentink,2019年; Schmitt和Heyl,2018年)。在这些应用中,人们使用狄拉克(Dirac)和弗伦克尔(Frenkel)的时间相关变分原理(Dirac,1930; Frenkel,1934)来学习网络权重的最佳时间演化。这也可以适当地推广到开放的耗散量子系统,为此可以实现Lindblad方程的变分解(Hartmann和Carleo,2019年; Nagy和Savona,2019年; Vicentini等人,2019年; Yoshioka和Hamazaki,2019年) 。
在这里讨论的绝大多数变体应用中,使用的学习方案通常是比标准SGD方法更高阶的技术。随机重构(SR)方法(Beccaand Sorella,2017; Sorella,1998)及其对时间依赖情况的推广(Carleo等,2012)已被证明特别适合NQS的变分学习。SR方案可以看作是用于学习概率分布的自然梯度方法(Amari,1998)的量子模拟,它建立在与神经网络参数相关的内在几何上。 最近,为了不使用比最初采用的网络更深入,更具表现力的网络,基于一阶技术的学习方案得到了更一致的使用(Kochkov和Clark,2018; Sharir等,2019)。这些构成了解决同一问题的两种不同哲学。 一方面,早期的应用程序侧重于通过非常准确但昂贵的训练技术学习的小型网络。另一方面,后来的方法集中在更深的网络和更便宜但又不太准确的学习技术上。 以计算有效的方式将这两种哲学相结合是该领域面临的开放挑战之一。
### B.加快多体模拟(Speed up many-body simulations)
在量子多体问题领域中使用ML方法已远远超出了量子态的神经网络表示。 研究相互作用模型的有效技术是**量子蒙特卡洛(QMC)方法**。这些方法通过映射到有效的经典模型(例如,借助路径积分表示)来随机计算量子系统的属性。由贴图程序得出的一个实用问题,即提供有效的高维空间采样方案(路径积分,扰动序列等),需要仔细进行调整,通常取决于问题。因此,为这些表示设计通用采样器是一个特别具有挑战性的问题。但是,无监督的ML方法可以用作加快经典和量子应用程序蒙特卡洛采样的工具。已经提出了在该方向上的几种方法,并且利用无监督学习的能力很好地近似了从基础蒙特卡洛方案中采样的目标分布。相对简单的基于能量的生成模型已用于古典系统的早期应用中(Huang和Wang,2017; Liu等,2017b)。然后,“自学习”蒙特卡洛技术也已推广到费米离子系统(Chen等,2018a; Liu等,2017c; Nagai等,2017)。总的来说,已经发现这种方法在减少自相关时间方面是有效的,特别是与效率较低的马尔可夫链蒙特卡洛族和本地更新的族相比。最近,采用了最新的生成ML模型来加快特定任务中的采样速度。 值得注意的是(Wu等,2018)使用了深度自回归模型,该模型可以使自旋玻璃等经典难题更有效地采样。寻找潜在的经典模型的有效抽样方案的问题随后被转化为寻找有效的相应自回归深度网络表示的问题。在(Sharir 等,2019)中,这种方法也已经推广到量子情况,其中引入了 波函数的自回归表示。 该表示自动归一化,并允许在上述变分学习中绕过马尔可夫链蒙特卡洛方法。
QMC技术虽然适用于大量的玻色子和自旋系统,但在处理几种有趣的铁离子模型以及沮丧的自旋哈密顿量时,通常会引起严重的信号问题。在这种情况下,很容易使用ML方法来尝试直接或间接减少符号问题。虽然仅在第一阶段,但该系列应用程序已被用来通过格林函数中的隐藏信息来推断有关铁离子相的信息(Broecker等人,2017b)。
同样,机器学习技术可以帮助减轻量子模型动力学特性中符号问题更细微表现的负担。特别是,从虚数时间相关性重构频谱函数的问题也是一个领域,其中ML可以用作传统最大熵技术的替代方法,以执行QMC数据的解析连续性(Arsenault等人,2017年) ; Fournier等人,2018; Yoon等人,2018)。
### C.多体量子相位分类( Classifying many-body quantum phases)
多体量子态的复杂性所带来的挑战以许多其他形式表现出来。 特别是,在数值模拟和实验中,难以确定和查明量子物质的几个难以捉摸的阶段。由于这个原因,用于识别物质相的ML方案在量子相的背景下变得特别流行。 在下文中,我们将回顾量子域的某些特定应用,而有关识别相和相变的更一般的讨论将在II.E中找到。
#### 1.合成数据 (Synthetic data)
继有监督方法在相分类的早期发展(Carrasquilla and Melko,2017; Van Nieuwenburg等,2017; Wang,2016)之后,许多研究从那时起就着重于对合成数据中的物相进行分析,主要是通过量子系统模拟。尽管我们在这里不尝试详尽地回顾朝这个方向出现的许多研究,但我们着重介绍了两个大的问题系列,这些问题到目前为止在很大程度上已成为新的机器学习工具的基准。
量子多体定位的第一个具有挑战性的阶段分类方案是试验台。 这是一个难以捉摸的阶段,显示了多体波函数本身的特征指纹,但不一定从更传统的阶次参数中浮现出来[例如,有关该主题的最新评论,请参见(例如,Alet和La fl orencie,2018年)。该方向上的最初研究集中于 针对哈密顿或纠缠光谱的训练策略(Hsu等人,2018; Huembeli等人,2018b; Schindler等人,2017; Venderley等人,2018; Zhang等人。 ,2019)。这些工作证明了**在相对较小的系统中通过精确的对角化技术可以有效地学习MBL相变的能力**。相反,其他研究着重于 直接在实验上相关的量中识别特征,特别是从局部量的多体动力学中发现特征(Doggen等,2018; van Nieuwenburg等,2018)。目前,后一种方案似乎是最有希望的应用实验,而前者已被用作在相关疾病存在时识别意外阶段存在的工具。
分析物质的拓扑阶段时会发现另一类非常具有挑战性的问题。 这些在很大程度上被认为是ML计划的一项重要测试,因为这些阶段通常以非本地顺序参数为特征。反过来,对于用于图像的流行分类方案来说,很难学习这些非局部顺序参数。 当分析具有拓扑相变的经典模型时,已经存在该特定问题。例如,在存在BKT型过渡的情况下,在原始蒙特卡洛配置上训练的学习方案是无效的(Beachet等,2018; Hu等,2017)。这些问题可以通过使用预先设计的功能(Broecker等人,2017a; Cristoforetti等人,2017; WangandZhai,2017; Wetzel,2017)而不是原始蒙特卡罗样本来设计训练策略来规避。这些特征通常依赖于要寻找的相变性质的一些重要的先验假设,从而在寻找物质的新相时会降低其有效性。在量子世界的更深处,沿着 有监督的方式,拓扑不变性学习 的方向开展了研究活动。可以使用神经网络对非交互拓扑哈密顿主义者的族进行分类,例如使用离散的系数(不真实的(Ohtsuki和Ohtsuki,2016,2017)或动量空间(Sun等,2018; Zhang等,2018c)作为输入。在这些情况下,发现神经网络能够重现(已经预先已知的)拓扑不变量,例如绕组数,贝里曲率等。与非相互作用谱带模型的情况相比,高度相关的拓扑物质的上下文在很大程度上更具挑战性。在这种情况下,一种常见的方法是 在原始数据之上定义一组经过精心设计的功能。 一个众所周知的例子是所谓的量子环地形学(ZhangandKim,2017),它是对本地操作员进行训练的,该操作员是根据采样波函数助行器的单次镜头计算得出的,例如在变体蒙特卡洛中所做的。研究表明,这种对局部特征的非常具体的选择能够区分相互作用强烈的分数Chern绝缘子以及Z2量子自旋液体(Zhang等,2017)。已经实现了类似的方法来对物质的更多奇异相进行分类,包括磁性天sky相(Iakovlev等,2018)和反天rm动力学中的动力学状态(Ritzmann等,2018)。
尽管到目前为止在这里描述的多个方向上都取得了进步,但是可以说,物质的拓扑阶段,尤其是对于相互作用的系统,是构成阶段分类的主要挑战之一。虽然已经取得了一些良好的进展(Huembeli等,2018a; Rodriguez-Nieva和Scheurer,2018),但未来的研究将需要解决不依赖于数据特征预选的训练方案的问题。
### 2.实验数据 ( Experimental data)
除了对数值模拟的数据进行广泛研究以外,受监督的方案还发现了它们作为分析量子系统实验数据的工具的方式。在超冷原子实验中,有监督的学习工具已被用来绘制非相互作用粒子的拓扑相以及有限光阱中Mott绝缘相的开始(Rem等人,2018)。在这种特定情况下,这些阶段是已知的并且可以用其他方法识别。 但是,将先验的理论知识与实验数据相结合的基于ML的技术具有进行真正的科学发现的潜力。
例如,当实验数据必须归因于许多可用的且同样可能的先验理论模型之一,但是手头的实验信息不容易解释时,机器学习可以在有趣的情况下进行科学发现。通常会出现一些有趣的情况,例如,当顺序参数是实验结果的复杂且仅是隐式已知的非线性函数时。在这种情况下,机器学习方法可以用作有效学习给定理论的基本特征的强大工具,并提供可能公正的实验数据分类。高温超导体中不相称的情况就是这种情况,其扫描隧道显微镜图像显示出复杂的图案,而这些图案很难使用常规分析工具进行解读。在这种情况下使用监督方法,最近的工作(Zhang et al。,2018d)表明可以推断这些系统中空间排序的性质,见图5。
类似的想法也已经被用于费米子的另一种原型相互作用量子系统,即哈伯德模型,这是在光学晶格中的超冷原子实验中实现的。在这种情况下,参考模型提供了热密度矩阵的快照,可以通过监督学习的方式对其进行预分类。这项研究的结果(Bohrdt等人,2018)是,实验结果与所提出的一种理论具有良好的一致性,在这种情况下,该理论是针对电荷载流子的几何弦理论。
在上述的最后两个实验应用中,监督方法的结果在很大程度上是非常重要的,并且很难根据现有的其他信息来进行先验预测。然而,由要分类的理论的选择引起的内在偏差是这类方法面临的当前限制之一。

### D.用于机器学习的张量网络(Tensor networks for machine learning)
**目前为止,研究主题主要涉及ML思想和工具在量子多体物理学领域研究问题的使用。作为这种哲学的补充,该领域中一个有趣的研究方向探索相反的方向,研究了量子多体物理学中的思想如何激发和设计出新的强大的ML工具**。这些发展的核心是多体量子态的张量网络表示。这些是非常成功的多体波函数变体族,自然地从量子态的低纠缠表示中浮现出来(Verstraete等,2008)。在有监督的和无监督环境中,T张量网络都可以用作ML任务的实用工具和概念工具。
这些方法基于以下思想:提供物理学启发的学习模式和网络结构代替较常规采用的随机学习模式和FFNN网络。例如,**矩阵乘积态(MPS)表示**是一组用于相互作用的一维量子系统模拟工具(White,1992),已被重新用于分类任务(Liu等,2018; Novikov 等人,2016; Stoudenmire和Schwab,2016),最近还被用作无监督学习的显式生成模型(Han等人,2018b; Stokes和Terilla,2019)。值得一提的是,在应用数学的背景下开发的其他相关高阶张量分解已用于机器学习目的(Acar和Yener,2009; Anandkumar等,2014)。形式上与MPS表示形式等效的张量-列分解(Oseledets,2011)已用作各种机器学习任务的工具(Gorodetsky等,2019; Izmailov等,2017; Novikov等, 2016)。 还已经探索了与MPS紧密相关的网络以进行时间序列建模(Guo等人,2018) 。
为了增加在这些低秩张量分解中编码的纠缠量,最近的工作集中在用张量网络表示代替MPS形式。一个著名的例子是使用具有层次结构的树张量网络(Hackbusch和Kühn,2009; Shi等,2006),这些技术已在分类(Liu等,2017a; Stoudenmire,2018)和生成模型 (Cheng等人,2019)任务取得了成功。另一个例子是元格纠缠态使用(Changlani等人,2009; Gendiar和Nishino,2002; Mezzacapo等人,2009)和弦键合状态(Schuch等人,2008),都显示了分类任务的显著改进。 超过MPS状态(Glasser et al,2018b)。
从理论上讲,张量网络与量子多体波函数的复杂性度量(例如纠缠熵) 之间的深层联系可用于理解并可能启发成功的ML网络设计。张量网络形式主义已被证明可以通过重归一化组概念来解释深度学习。在这个方向上的开拓性工作已经将MERA张量网络状态(Vidal,2007)连接到分层贝叶斯网络(Bény,2013)。在后来的分析中,卷积算术电路(Cohen 等,2016)是一个具有乘积非线性的卷积网络家族,已经引入了一种方便的模型来将张量分解与FFNN体系结构联系起来。除了它们在概念上的相关性,这些联系可以帮助建立归纳性偏见在现代和普遍采用的神经网络中的作用(Levine等人,2017)。
### F.展望与挑战(Outlook and Challenges)
**在过去的几年中,ML在量子多体问题上的应用取得了飞速的发展,涉及从数值模拟到数据分析的各种主题。在这种情况下,机器学习技术的潜力已经浮出水面,相对于针对选定问题的现有技术而言,已经显示出更高的性能。然而,在很大程度上,机器学习技术在该领域的真正力量仅得到了部分证明,还有一些悬而未决的问题有待解决。**
例如,在使用NQS进行变分研究的情况下,到目前为止,与其他种类的变分状态家族(如张量网络)一样,对于不同种类的神经网络量子态所获得的经验成功的起源还没有得到很好的理解。费米离子系统的表示和模拟仍然面临着主要的开放挑战,对于它们,仍然需要有效的神经网络表示。
用于ML的张量网络表示形式,以及用于NQS的复数网络,在将领域桥接回计算机科学领域中发挥着重要作用。**该研究方向未来的挑战在于有效地与计算机科学界进行交互,同时保留物理工具的兴趣和通用性**。
对于机器学习方法用于实验数据的关注,该领域仍处于起步阶段,到目前为止,仅展示了一些应用。这与其他领域(例如高能和天体物理学)形成了鲜明的对比,在后者中,机器学习方法已经发展到一个阶段,在该阶段,它们通常被用作数据分析的标准工具。要在量子领域中实现相同的目标,需要在理论和实验方法之间进行更紧密的协作,并且需要更深入地了解ML可以带来实质性差异的特定问题。
总体而言,鉴于ML方法应用于多体量子物质的时间相对较短,但是有充分的理由相信,这些挑战将在未来几年得到大力解决,其中一些挑战已得到了解决。
<div id="5"></div>
## Ⅴ.量子计算( QUANTUM COMPUTING)
量子计算使用量子系统来处理信息。在最流行的基于门的量子计算框架(Nielsen和Chuang,2002年)中,一种量子算法描述了通过离散变换将$n$个两级系统(称为量子比特)的量子系统的初始状态$|\mathit{\Psi}_{0}\rangle$演化为最终状态$|\mathit{\Psi}_{f}\rangle$的过程。门通常仅作用于少量的量子位,并且门的顺序定义了计算。
机器学习和量子计算的交叉领域在过去几年中已成为活跃的研究领域,并且包含多种将两个学科融合的方法[参考Dunjko和Briegel的综述(2018)]。**量子机器学习解决的问题是如何利用量子计算机增强、加速或创新机器学习**(Biamonte等人,2017; Ciliberto等人,2018; Schuld和Petruccione,2018a)(另见第VII和V节)。** 量子学习理论重点在于研究量子框架下学习的理论方面**(Arunachalam and de Wolf,2017)。
**本节我们关注第三个维度,即机器学习如何帮助我们构建和研究量子计算机**。这个维度包括很多主题,包括使用智能数据挖掘方法来发现材料中可用作量子位的物理区域(Kalantre等,2019),量子装置的验证(Agresti等,2019),学习量子算法的设计(Bang等人,2014; Wecker等人,2016),促进量子电路的经典模拟(Jónsson等人,2018),量子实验的自动化设计(Krenn等人,2016; Melnikov) 等人,2018),并学习从测量中提取相关信息(Seif等人,2018)等。
**我们关注三个与量子计算有关的,可以通过一系列机器学习方法来解决的一般问题:利用测量重建基准量子态的问题; 利用量子控制制备量子态的问题; 通过量子纠错来保持状态中存储的信息的问题**。第一个问题被称为量子态层析成像,它特别有助于理解和改进当前量子硬件的局限性。量子控制和量子纠错解决了相关问题,但是前者通常指的是与硬件相关的解决方案,而后者则使用算法解决方案来解决用量子系统执行计算协议的问题。
与本综述中的其他学科相似,机器学习在所有这些领域都显示出令人鼓舞的结果。并且从长远来看,它将有可能进入量子计算工具箱,与其他公认的方法并列使用。
### A 量子态层析成像
量子态层析成像(QST)的总体目标是通过实验获得的测量结果来重建未知量子态的密度矩阵。QST 通常是量子信息和量子技术领域的核心工具,通常被用作评估实验平台的质量和局限性的一种方式。然而,执行全量子态层析成像所需的资源极其苛刻,所需的测量数量随着量子位或量子自由度而指数增长[(Paris and Rehacek,2004)是关于该主题的综述,(Haah等人,2017年; O’Donnell和Wright,2016年)探讨了状态层析成像学习的难度]。
机器学习工具已经在几年前被用来降低全量子态层析成像成本的工具,主要是利用了密度矩阵的某些特殊结构。压缩感知(Gross等人,2010)是解决该问题的一种重要方法,对于秩为$r$和维数为$d$的密度矩阵,可以将所需的测量次数从$d^2$减少到$O(rd\log(d)^2)$。 例如,已经针对六光子状态(Tóth等人,2010)或捕获离子的七量子比特系统(Riofrío等人,2017)实现了该技术的成功实验。
在方法论方面,全 QST 最近已经看到了深度学习方法的发展。例如,使用基于神经网络的有监督方法,将全密度矩阵作为输出,并将可能的测量结果作为输入(Xu和Xu,2018) 。 最近还使用基于神经网络的方法解决了为 QST 选择最佳测量基础的问题,该方法使用贝叶斯规则优化了目标密度矩阵上的先验分布(Quek等人,2018)。通常,全 QST 的机器学习方法可以用作减轻测量要求的可行工具,但是它们不能对 QST 的固有指数规模提供改进。
通常仅在假定量子态具有某些特定正则性的情况下才能克服指数壁垒。基于密度矩阵的张量网络参数化的层析成像是该方向上的重要第一步,能够对大型低纠缠量子系统进行层析成像(Lanyon等,2017)。近年来,基于参数化 QST 的 ML 方法已成为一种可行的选择,尤其是对于高度纠缠的状态。 具体而言,假设采用 NQS 形式(在纯态情况下,请参见方程3),可以将QST重新表述为无监督机器学习任务。在纯态的情况下,已经证明了一种获取波函数相位的方案(Torlai等人,2018)。
在这些应用中,多体波函数的复数相位是在不同基础上重构与测量过程相关的几种概率密度时获得的。总的来说,这种方法可以演示高达约100量子位的高度纠缠态的QST,这对于全 QST 技术而言是不可行的。 层析成像方法可以适当地概括为混合态,以基于纯化的NQS(Torlai和Melko,2018)或基于深度归一化流量(Cranmer等,2019)引入密度矩阵的参数化。前一种方法也已经用 Rydberg 原子进行了实验证明(Torlai等,2019)。
最近也提出了一种有趣的替代方法,用于断层摄影的 NQS 表示(Carrasquilla等,2019)。这是基于直接根据正算子值度量(POVM)对密度矩阵进行参数化。因此,这种方法具有直接学习测量过程本身的重要优势,并且已经证明可以在相当大的混合状态下很好地缩放。与基于 NQS 的方法中的显式参数化相反,此方法可能的不便之处在于,仅根据生成模型隐式定义了密度矩阵。
QST 的其他方法还探索了使用参数化为局部哈密顿量基态的量子态(Xin等人,2018),或绕过 QST 直接测量量子纠缠的可能性(Gray等人,2018)。扩展到更复杂的量子过程层析成像问题也很有希望(Banchi等,2018),而基于 ML 的方法在更大系统上的可扩展性仍然带来挑战。最后,从实验测量中学习量子态的问题也对理解量子系统的复杂性具有深远的影响。在此框架中,PAC 量子态的可学习性(Aaronson,2007)在(Rocchetto等人,2017)中进行了实验证明,**而“阴影层析成像”方法(Aaronson,2017)则表明即使是线性大小的训练集也可以提供足够的信息以成功完成某些量子学习任务。** 这些信息理论保证带有计算限制,学习仅对特殊类别的状态有效(Rocchetto,2018)
### B.控制和制备量子比特
量子控制的中心任务如下:给定一个演化$U(\theta)$,该演化依赖于参数$\theta$并将初始量子态$|\Psi_{0}\rangle$映射到$|\Psi(\theta)\rangle$=$U(\theta)$|$\Psi_{0}\rangle$,其中$\theta^*$是最小制备状态与目标状态之间的重叠或距离$|\langle\Psi(\theta)|\Psi_{target}\rangle|^2$。
为了促进分析研究,通常将可能的控制干预空间离散化,以使$U(\theta)$= $U(s_{1},\dots,s_{T})$成为步骤序列$s_{1},\dots,s_{T}$。 例如,可以仅在两个不同的强度$h_{1}$和$h_{2}$上应用控制场,目标是找到最优策略$s_{t}\in$ { $\mathit{h_{1}}$,$\mathit{h_{2}}$},$t = 1,\dots,\mathit{T}$以使初始状态仅使用这些离散操作尽可能接近目标状态。
这可以直接推广到强化学习框架(Sutton和Barto,2018)。在该框架中,智能体从允许的控制干预列表中选择“动作”,例如应用于量子位量子态的两个场强。事实证明,该框架在各种环境下均能与最新方法竞争,例如相互作用量子比特的不可整合多体量子系统中的状态准备(Bukov等人,2018)或使用强周期振荡准备所谓的“ Floquet-engineered”状态(Bukov,2018年)。最近的一项研究(强化学习)与传统优化方法(例如,随机梯度下降)用于准备单个量子状态的比较表明,如果“动作空间”自然离散且足够小,则学习是有利的(Zhang等, 2019)。
在更现实的设置(例如控制存在噪声)中问题变得越来越复杂(Niu等人,2018)。有趣的是,控制问题也已通过使用递归神经网络来分析历史噪声的时间序列来预测未来的噪声来解决。使用该预测,可以校正预期的未来噪声(Mavadia等,2017)。
**另一种基于机器学习的量子比特制备方法则试图找到蒸发冷却的最佳策略来产生玻色-爱因斯坦凝聚**(Wigley等,2016)。 这种基于贝叶斯优化的在线优化策略(Frazier,2018; Jones等,1998)采用高斯过程作为统计模型,来捕捉控制参数与冷凝液质量之间的关系。**对于冷却协议,这种机器学习模型发现的策略的迭代次数比纯优化技术少10倍。这里与传统机器学习不同的是,高斯过程可以确定哪些控制参数比其他参数更重要 。**
另一个维度是通过“学习”光学仪器的序列制备高度纠缠的光子量子态(Melnikov等人,2018)。
### C 纠错
**建立通用量子计算机的主要挑战之一是纠错。 在任何计算过程中,硬件的物理缺陷都会引入错误** 。经典计算机可以简单地通过复制信息进行纠错,但量子力学的不可克隆定理需要更复杂的解决方案。最著名的表面编码方案规定将一个“逻辑量子比特”编码成几个“物理量子比特”的拓扑状态。对这些物理量子比特的测量揭示了一系列错误事件的“足迹”,称为综合症。 解码器将综合症映射到错误序列,一旦知道该错误序列,就可以通过再次应用相同的错误序列来纠正该错误序列,而不会影响存储实际量子信息的逻辑量子位。粗略地说,因此,量子纠错技术的艺术是从综合征中预测误差,这是一个很自然地适合机器学习框架的一项任务。
**在过去的几年中,已经将各种模型应用于量子纠错,从有监督学习到无监督学习和强化学习**。它们的应用细节变得越来越复杂。 其中一个方法从$(error, syndrome)$对形式的数据集中训练玻尔兹曼机来描述$p(error, syndrome)$。$p(error, syndrome)$可以用来从分布$p(error, | syndrome)$中采样样本(Torlai和Melko,2017)。这个简单的方法在某些错误类型上的性能可与普通基准媲美。综合症与错误之间的关系同样可以通过前馈神经网络来学习(Krastanov and Jiang,2017; Maskara等,2019; Varsamopoulos等,2017)。
然而,由于可能的解码器空间爆炸并且数据采集成为问题,因此这些策略受到可扩展性问题的困扰。最近,神经网络已经与重整化群概念相结合来解决这个问题(Varsamopoulos等,2018),例如研究神经网络不同超参数的意义(Varsamopoulos等,2019)。
除了可扩展性之外,量子纠错中的一个重要问题是综合征测量过程也可能引入错误,因为它涉及应用小的量子电路。此设置增加了问题的复杂性,但对于实际应用而言是必不可少的。 可以通过重复进行综合征测量循环来减少错误识别中的噪声。为了考虑额外的时间维度,已经提出了递归神经网络架构(Baireuther等人,2018)。另一个途径是将解码视为强化学习问题(Sweke等,2018),智能体可以选择对物理量子位(而不是逻辑量子位)进行连续操作来校正综合症,如果序列可以得到奖励 ,则错误得到更正。
虽然许多用于纠错的机器学习都侧重于根据某种设置方案用物理量子位表示逻辑量子位的表面代码,但强化智能体也可以与代码无关地设置(有人可以说,他们与解码策略一起学习了代码 )。量子存储器已经做到了这一点,量子系统应该在其中存储而不是操纵量子态(Nautrup等人,2018),以及在反馈控制框架中保护量子位免受退相干(Fösel等人, 2018)。最后,除了传统的强化学习之外,射影模拟等新策略也可用于对抗噪声(Tiersch等人,2015)。
**总而言之,用于量子纠错的机器学习是一个具有多层复杂性的问题。对于实际应用而言,它需要相当复杂的学习框架。尽管如此,机器学习,尤其是强化学习,是一个非常好的选择**。
<div id="6"></div>
## Ⅵ 化学和材料科学
机器学习方法已被应用于预测分子和固体的能量和性质,并且这种应用的受欢迎程度急剧增加。原子相互作用的量子性质使能量评估的计算量很大,因此,当需要进行许多此类计算时,机器方法尤其有用。**近年来,ML 在化学和材料研究中的不断扩展的应用包括预测相关分子的结构,基于分子动力学(MD)模拟计算能表面,识别具有所需材料特性的结构以及创建机器学习的密度泛函**。对于这些类型的问题,输入描述符必须以紧凑的方式解决原子环境中的差异。
当前使用ML进行原子建模的许多工作都是基于早期工作(Behler和Parrinello,2007)。将具有对称函数的局部原子环境,用于输入原子神经网络,使用高斯过程回归方法(Bartók)表示原子势。 等人,2010年),或使用按核电荷加权的排序的原子间距离(库仑矩阵)作为分子描述符(Rupp等人,2012年)。 Behler(2016)进一步综述了合适结构表示方面的工作。Butler(2018)等人讨论了关于化学系统的通用 ML 方法,包括学习结构-特性关系。 Rupp(2018)重点关注数据增强的理论化学。 在以下各节中,我们将介绍 ML 在化学物理学中的最新应用案例。
### A 基于原子环境的能量和力
ML 在化学和材料研究中的主要用途之一是预测一系列相关系统的相对能量,最典型的是比较相同原子组成的不同结构。这些应用旨在确定最可能在实验中观察到的结构,或鉴定可合成为候选药物的分子。以有监督学习为例,这些 ML 方法采用各种量子化学计算来标记具有相应能量($\rm{y}_{\mu}$)的分子表示($X_{\mu}$),以生成训练(和测试)数据集$\{X_{\mu},\rm{y}_{\mu}\}^{n}_{\mu=1}$。
在量子化学应用中,神经网络在预测一大类系统的相对能方面取得了巨大的成功。例如通过描述每个原子局部原子邻域的多体对称函数来组成异构体和分子的非平衡构型(Behler,2016年)。该领域的许多成功都源于这种类型的分子能的原子分解,每种元素都使用单独的 NN 表示(Behler和Parrinello,2007)(见图6(a))。例如,ANI-1是一种深层的NN电势,已被成功训练以返回任何具有多达8个重原子$(H,C,N,O)$的分子的密度泛函理论(DFT)能量(Smith等人,2017)。在这项工作中,训练集的原子坐标被选择使用正常模式采样,包括一些振动扰动和优化的几何结构。
**分子和原子系统的通用神经网络的另一个例子是深势分子动力学方法,该方法专门用于在对体模拟的能量进行训练后运行分子动力学模拟(Zhang等人,2018)**。除了通过系统的总能量简单地包含非局部相互作用之外,另一种方法是从标准计算物理中使用的多体扩展中得到启发的。在这种情况下,增加层以允许原子为中心的NN之间相互作用可以改善分子能的预测(Lubbers等人,2018)。

<font face="黑体" color=#888 size=2>图6 目前在 ML 模型中有几种表示法用来描述分子系统,包括(a)原子坐标,其对称函数编码局部成键环境,作为基于元素的神经网络的输入。(b) 用高斯函数和近似核势作为电子密度的输入核岭回归模型。</font>
由于在 NN 输入中引入了对称函数,因此上面的例子使用了原子环境的平移和旋转不变表示。对于某些应用,例如描述分子反应和材料相变,原子表示也必须是连续且可微的。原子位置(SOAP)内核的平滑重叠通过包括原子环境之间的相似性度量标准来满足所有这些要求(Bartók等,2013)。保留交替分子表示中的对称性的最新工作以不同的方式解决了这个问题。 为了利用"库仑矩阵"输入的已知分子对称性,结合了键(刚性)和动态对称性以改善配置空间中训练数据的覆盖范围(Chmiela 等,2018)。这项工作还包括训练中的力,允许在小分子耦合簇计算的水平上进行分子动力学模拟,这在传统上是很难解决的。还可以了解分子的对称性,如确定使用连续过滤器卷积描述原子相互作用的局部环境描述符(Schütt等人,2018)。紧凑、独特和可区分的原子环境描述符的进一步发展必将促进 ML 模型在分子和材料研究中的新用途。
**但是,机器学习也已经以与常规方法更紧密集成的方式应用,以便更容易地并入现有代码**中。例如,可以学习与经典力场兼容的原子电荷分配,而无需为每个感兴趣的新分子进行新的量子力学计算(Sifain等人,2018)。另外,分子种类的凝聚相模拟需要准确的分子内和分子间电势,这很难进行参数化。为此,可以将局部NN电势与物理激励的远程库仑和范德华力贡献相结合来描述更大的分子系统(Yao等人,2018) 。局部 ML 描述还可以与多体扩展方法成功结合,以允许将 ML 势能应用于大型系统,例如水团簇(Nguyen等,2018)。另外,可以将分子间的相互作用拟合到一组在单体上训练的 ML 模型,以创建二聚体和簇的可转移模型(Bereau等,2018)。
### B 势能面和自由能面
机器学习方法也被用来描述自由能表面(FES)。不同于如上所述直接学习每个分子构象的势能,另一种方法是学习系统的自由能表面作为集体变量的函数,例如全局Steinhardt阶参数或一组原子局部的二面角 。使用 NN 的自由能表面的紧凑 ML 表示,可以在计算取决于构象体集合的可观察物时改进对高维空间的采样。例如,可以对学习到的FES 进行采样,以预测压力下固体氙的等温可压缩性,或预测肽的预期 NMR Spinspin J 偶联(Schneider等人,2017)。代表 FES 的小型 NN 也可以使用实时自适应采样生成的数据点进行迭代训练(Sidky和Whitmer,2018年)。
这种有前途的方法强调了在使用 ML 模型本身生成新的训练数据时,使用完整配置空间的平滑表示的好处。**随着使用机器学习的 FES 表示法的增加,确定小型 NN 的精度极限以及如何将这些模型用作大型网络或其他ML架构的起点将变得很重要**。
**一旦在 FES 上确定了相关的最小值,下一个挑战就是要了解将一个系统从一个盆地转移到另一个盆地的过程**。例如,开发描述构象变化的马尔可夫状态模型需要降维以将分子坐标转换为整体反应坐标空间。为此,已利用时滞自动编码器方法进行深度学习的功能来识别肽折叠例子中缓慢变化的集体变量(Wehmeyer和Noé,2018)。基于变分神经网络的方法也已被用于识别蛋白质折叠模拟过程中的重要动力学过程,并为统一坐标转换和FES 表面探索提供了框架(Mardt等人,2018)。一种有前途的替代方法是使用 ML 直接采样构象分布。 玻尔兹曼生成器可以对集体变量空间的平衡分布进行采样,然后提供代表FES上状态分布的一组状态(Noé等人,2019)。
此外,在我们了解理解 M L模型为何表现出如此普遍成功的同时,在复杂的能源格局中寻找极小值之间关系的悠久历史也可能会有用。目前用于描述分子系统的方法和思想与相应方法之间的关系在(Ballard等,2017)中进行了综述。展望未来,物理学家开发的用于探索和量化能量分布特征的许多工具可能有助于创建新算法,以在训练过程中有效地优化模型权重。 (另请参阅第II.D.4节中的相关讨论。)跨学科研究领域有望产生对机器学习和物理领域都有用的方法。
### C 材料特性
**使用基于局部环境学习的原子间势也极大地改善了材料性能的计算**。匹配实验数据通常需要从可能的配置集合中进行采样,这在使用大型模拟单元和常规方法代价通常很大。最近,使用分子动力学预测了非晶硅的结构和材料特性,并且仅在小型模拟单元上通过密度泛函理论(DFT)计算训练了ML势(Deringer等人,2018)。Sosso(2018)等人综述了使用 ML 电势来建模材料(例如GeTe和非晶碳)的晶体和非晶区域之间的相变的相关应用。**在原子和材料尺度上产生足够精确地描述相变和缺陷的相对能量的计算可控势是非常困难的,但是硅性能的最新成功表明 ML 方法正直面这个挑战(Bartók等 ,2018)**。
理想情况下,也可以将实验测量结果纳入旨在预测材料性能的数据驱动的 ML 方法中。但是,当前的研究结果往往仅限于高性能材料,而没有针对训练过程的反例。另外,带噪声的数据加上缺少输入到 ML 模型所需的精确结构信息。**对于有机分子晶体,通过使用对 DFT 计算的已知结构值进行训练的高斯过程回归框架,克服了对局部环境非常敏感的 NMR 化学位移预测的挑战(Paruzzo等,2018)。在训练ML模型之前,将计算值与实验结果进行匹配可以验证预测的药物晶体结构**。
**其他有趣的方向包括通过聚类识别结构相似的材料,并使用凸包构造确定在某些热力学约束下,许多预测结构中哪一个最稳定(Anelli等,2018)**。使用核 PCA 描述符来构造凸包的过程已被用于识别冰晶相,并被证明可以聚集成千上万个仅因质子无序或堆垛层错而不同的结构(Engelet等,2018)(见图7)。**基于有监督和无监督技术相结合的机器学习方法无疑有望在未来成为一个富有成果的研究领域。特别地,识别、预测或甚至建议表现出特定所需特性的材料仍然是令人兴奋的挑战**。

<font face="黑体" color=#888 size=2>图7 基于机器学习的描述符对成千上万种可能的冰结构进行聚类,识别出观察到的形式,并将相似的结构组合在一起。(Engel et al., 2018)</font>
### D 密度泛函理论的电子密度
**在上面的许多例子中,密度泛函理论计算已用作训练数据的来源。 可以肯定的是,机器学习在创建新的密度函数中也发挥着作用**。对于 DFT 等情况,我们不了解精确解决方案的函数形式,因此机器学习是很自然的选择。通过逼近一维势阱中电子分布的动能函数来说明这种识别密度泛函的方法的好处(Snyder等,2012)。为了在基于 Kohn-Sham 的标准 DFT 代码中使用,ML 函数的导数也必须用于发现适当的基态电子分布。在没有进一步修改的情况下使用核岭回归可以导致噪声的导数,但是使用 PCA 将产生的能量投射回学习的空间可以解决此问题(Li等,2015)。一维系统已经证明了基于神经网络的学习交换相关潜力的方法(Nagai等人,2018)。 在这种情况下,ML 方法直接利用了神经网络训练步骤中生成的导数。
如图6(b)所示,通过使用 ML 生成与核势相对应的适当基态电子密度,也有可能完全绕开函数导数(Brockherde等,2017)。此外,这项工作表明,还可以利用电子密度作为输入来学习分子系统的能量,从而可以基于 DFT 能量对质子转移事件进行反应性分子动力学模拟。有趣的是,近似的电子密度(例如来自孤立原子的密度之和)也已成功地用作预测分子能量的输入(Eickenberg等人,2018)。一种用于周期性结晶固体的相关方法是使用嵌入式原子方法的局部电子密度来训练贝叶斯 ML 模型以返回总系统能量(Schmidt等人,2018)。由于总能量具有广泛的性质,因此还开发了基于局部电子密度总和的可扩展 NN 模型,以对2D多孔石墨烯片材进行基于DFT的大型模拟(Mills等人,2019)。**有了这些成功,很明显在给定密度的情况下,机器学习提供了学习电子密度和相应系统能量的新方法**。
如今,许多基于人工的方法来改善所使用的近似功能都依赖于施加物理上的约束。到目前为止,包括对基于 ML 的方法的这些类型的限制仅取得了部分成功。例如,要求 ML功能满足一个以上的约束(例如缩放定律和大小一致性)以系统依赖的方式提高整体性能(Hollingsworth等,2018)。对于尚未获得此目标明确训练的物理学知识的 ML 功能和潜能,尤其对于具有构象变化的分子而言,获得准确的导数仍然是一个悬而未决的问题(Bereau等,2018; Snyder等,2012)。
### E 数据集生成
机器学习的其他应用还包括提供比较各种方法需要标准化的数据集。对于量子化学,这些包括 QM9 数据集中的134,000个分子(Ramakrishnan等人,2014)和由其他小分子和肽数据集的随机采样子集组成的 COMP6 基准数据集,每个条目均使用相同的参数进行计算优化方法(Smith等人,2018)。
在化学和材料研究中,计算数据的生成十分昂贵,因此必须仔细考虑训练数据点的选择。 输入和输出表示形式也可以作为选择数据的标准。对大多数 QM9 数据集的 ML 预测分子能的检查表明,选择能够传达构象异构体变化的输入数据结构非常重要(Faber等人,2017)。
另外,并非总是需要化学成分空间的密集采样。例如,(Smith等人,2018)最初使用的$22 \times 10^6$个分子的训练集可以替换为使用主动学习方法选择$5.5 \times 10^6$训练点,该学习方法在每个训练周期中添加了预测较差的分子样本。也可以使用其他采样方法来更有效地构建训练集。例如通过对新分子的多个神经网络评估来估计误差的主动学习方法(Gastegger等,2017)。使用先前生成的模型基于分子动力学模拟生成新的原子配置(Zhang等,2019)。(Seung 等,1992b)提出了有趣的基于统计物理学的对这种主动学习的理论方面的见解。
**这一领域需要进一步工作来确定对鉴别候选结构最重要的原子组成和构型。虽然神经网络已经显示出可以产生准确的能量,但在许多情况下,防止过度拟合所需的数据量可能过高**。对于特定任务,例如预测小分子甲醛的振动频率的非谐贡献,尽管需要更仔细地选择这些点,但高斯过程方法比 NN 更为准确,并且使用的点更少(Kamath等人,2018) )。在为每种应用选择合适的 ML 方法时,平衡数据生成的计算成本,简化模型训练和模型评估时间仍然是重要的考虑因素。
### F 展望和挑战
**展望未来,ML 模型将受益于包含针对物理中其他问题开发的方法和实践**。尽管已经探索了其中的一些想法,例如利用输入数据的对称性进行分子配置,但仍有许多机会可以提高模型训练的效率和正则化。**一些更具前景(挑战性)的领域包括应用探索高维景观以进行参数/超参数优化的方法,以及确定如何在 ML 体系结构和/或放入数据格式中包括边界行为或缩放定律**。 为了更直接地连接到实验数据,未来基于物理学的 ML 方法应该考虑计算和测量属性的不确定性和误差,以避免过度拟合并提高模型的可迁移性。
<div id="7"></div>
## Ⅶ 借助传统和量子硬件实现 AI 加速
在某些领域中,物理学可以通过其他方法为机器学习做出贡献,而不是用于理论研究和领域特定问题的工具。新型硬件平台可以帮助建立昂贵的信息处理管道,并扩展CPU和GPU的数量限制功能。这种硬件帮助程序也称为“ AI加速器”,物理研究必须提供各种可能增强机器学习的设备。
### A 超越冯·诺依曼架构
当谈到计算机时,我们通常会想到基于电路和布尔逻辑的通用数字计算机。这就是现代计算的所谓“冯·诺依曼”范式。 但是,任何物理系统都可以解释为处理信息的一种方式,即通过将实验装置的输入参数映射到测量结果即输出。这种思维方式与模拟计算的思想非常接近,而模拟计算机的数字表亲已经使模拟计算的想法实现,见(Ambs,2010; Lundberg,2005)。
但是,在必须反复执行低精度计算的机器学习环境中,模拟和专用计算设备引起了新的兴趣。硬件可用于仿真完整的模型,例如神经网络启发的芯片(Ambrogio等人,2018),或者它只能外包计算的子程序,如现场可编程门阵列(FPGA)和 用于快速线性代数计算的专用集成电路(ASIC)(Jouppi等人,2017; Markidis等人,2018)。
在下文中,我们将提供来自各个研究方向的精选例子,以研究来自物理实验室的硬件平台(例如光学,纳米光子学和量子计算机)如何成为新型的 AI 加速器。
### B 光学中的神经网络
**用光学技术代替全硅计算机处理信息是自然而吸引人的代方案,或者至少是一种补充**。因为它速度快,可以大规模并行,并且功耗非常低。光学互连已经很普遍,可以在短距离或长距离上传送信息,但是也可以利用光干涉特性来提供更高级的信息处理。
在机器学习的情况下,还有一个额外的好处。 光学实验室中的一些标准构件与神经网络处理信息的方式有着惊人的相似之处(Killoran等人,2018; Linet等人,2018; Shenet等人,2017),这绝非新意(Lu 等人,1989)。大型体光学实验和片上纳米光子学的一个例子是干涉仪网络。 干涉仪是由分束器和移相器组成的无源光学元件(Clements等,2016; Reck等,1994)。
如果我们将光模式的振幅视为输入信号,则干涉仪会有效地对输入信号进行酉变换(请参见图8-1)。 放大或衰减振幅可以理解为应用对角矩阵。因此,通过奇异值分解,被两个干涉仪夹在中间的放大器对编码为光振幅的数据进行任意矩阵乘法。**添加非线性操作(通常是实验室中最难精确控制的操作)可以将设备变成标准神经网络层的模拟器(Lin等人,2018; Shen等人,2017)。其速度是光速**。

<font face="黑体" color=#888 size=2>图8-1 干涉仪和放大器等光学元件可以模拟一个神经网络,将输入$x$映射到$\varphi(Wx)$,其中$W$是可学习的权重矩阵,$\varphi$是一个非线性激活函数。利用位移、压缩等量子光学元件,可以将信息编码成光的量子性质,将神经网络转化为通用量子计算机。</font>
这里一个有趣的问题是:我们能够使用量子代替传统的光? 例如,假设现在信息以电磁场的正交编码。正交非常类似于量子粒子的位置和动量,是将光描述为量子系统的两个非平衡算符。现在,我们必须将设置交换为压缩器和置换器等量子光学组件,并获得以光的量子特性编码的神经网络(Killoran等人,2018)。
但是还有更多的东西:使用多层,并选择“非线性操作”作为“非高斯”分量(例如光学“ Kerr非线性”,这仍然是一项实验挑战),光学装置已成为通用量子计算机。这样才是真正的量子神经网络,它可以运行量子计算机可以执行的任何计算。量子光学神经网络还有其他变体,例如信息被编码为离散的而不是光特性的连续变量(Steinbrecher 等,2018)。探索这些量子设备对机器学习意味着什么的工作,例如数据中是否存在可以更容易识别的模式,才刚刚开始。
### C 揭示数据中的特征
我们可以只在物理设备上实现机器学习模型的一部分,而不是在物理硬件上实现完整的机器学习模型。在这里我们重点关注的第二个例子是数据预处理或特征提取。 这包括将数据映射到另一个被压缩或“爆炸”的空间,都揭示了其用于机器学习算法的特征。
**一种使用物理设备进行数据压缩或扩展的方法是利用许多机器学习算法的统计本质**。 多次光散射会产生随机嵌入所需的非常高的尺寸随机性(请参见图8右上)。简而言之,一组向量与同一随机矩阵相乘后距离是近似保持的(Johnson和Lindenstrauss,1984)。在压缩感知的精神(Donoho,2006)下,这可用于降维,即数据压缩,或用于具有局部敏感哈希的有效最近邻搜索。
这也可以用于维数扩展,在高维的限制下,它近似一个良好定义的内核(Saade等人,2016)。 这样的设备可以内置于自由空间光学器件中,并具有相干激光源,商用光调制器和 CMOS 传感器以及选择好的散射材料(见图8-2)。机器学习的应用范围包括深度神经网络的迁移学习,使用带回环路的时间序列分析实现回声状态网络(Dong等人,2018)或跳点检测(Keriven等人,2018) 。对于高维数据,这些设备在速度和功耗上都已超过 CPU 或 GPU。

<font face="黑体" color=#888 size=2>图8-2 基于光学处理单元的随机嵌入。数据通过空间光调制器(这里是数字微镜装置)编码到激光束中,然后扩散介质产生随机特征。</font>
### D 量子增强机器学习
量子机器学习是一个量子信息与智能数据挖掘的交叉研究领域。(Biamonte等人,2017; Schuld and Petruccione,2018b)。许多这方面的研究关注近程量子硬件应用于学习任务(Perdomo-Ortiz等,2017)。**这些噪声中尺度量子(NISQ)设备不仅有希望在速度方面增强机器学习应用,而且可能会带来受量子物理学启发的全新算法**。上面我们已经提到了一个这样的例子,一个量子神经网络可以模仿甚至超越经典的神经网络。该模型属于一类较大的变分或参数化量子机器学习算法(McClean等,2016; Mitarai等,2018)。其想法是使量子算法(以及实现量子计算操作的设备)的参数$\theta$可以用数据训练。 “训练好的设备”上的测量代表了新的输出,例如人工生成的生成模型的数据样本,或有监督分类器的分类结果。
另一个使用量子计算机来增强机器学习的想法是受内核方法(Hofmann等人,2008)启发,如图8-3所示。通过将量子算法的参数与输入数据样本$x$相关联,将$x$嵌入到希尔伯特空间中向量所描述的量子态$|\Psi(x)\rangle$(Havlicek等人,2018; Schuld and Killoran,2018)。一个简单的干涉程序可以测量用这种方法制备的两个量子态之间的重叠。重叠是希尔伯特空间中向量的内积。在机器学习领域中,这被称为内核,即两个数据点之间的距离度量。量子计算机可以计算出相当奇特的内核,这些内核是传统方法很难处理的,因此,为机器学习任务寻找有趣的量子内核成为了一个活跃的研究领域。

<font face="黑体" color=#888 size=2>图8-3 量子计算机可以用来计算数据点之间的距离,或“量子核”。量子算法的第一部分使用程序$S_x$,$S_{x'}$将数据嵌入Hilbert空间。而第二部分揭示嵌入向量的内积。这种核可以用支持向量机等标准核方法进一步处理。</font>
除了量子内核和变分电路之外,量子机器学习还提出了许多其他使用量子硬件作为AI加速器的想法,例如,作为训练和推理概率图模型的采样器(Adachi和Henderson,2015年; Benedetti等人,2017年),或者用于线性代数计算(Lloyd等人,2014)。**另一个有趣的研究领域是研究量子装置如何直接分析量子实验产生的数据,而无需绕道测量(Cong等人,2018)**。在所有这些探索中,最大的挑战是当今 NISQ 设备仍然存在严重的局限性。这些局限性将硬件上的数值实验简化为原理证明的演示,而众所周知理论分析在机器学习中仍然是困难的。
### E 展望和挑战
上面的例子展示了物理研究如何有助于机器学习的方式,即通过研究新的硬件平台来执行一些计算。标准的冯·诺依曼技术已难以跟上摩尔定律的步伐,但这为新颖的计算范式带来了许多机会。在最简单的实施例中,采用专用加速器设备插入标准服务器并通过自定义 API 进行访问。未来的研究将重点放在此类硬件功能的扩展,硬件启发式的机器学习创新,适应的编程语言以及用于在这些混合服务器上优化计算任务分配的编译器上。
## Ⅷ 结论与展望
在回顾了机器学习在物理的不同学科中的使用或已经增强了它们的不同学科之后,许多重要研究主题变得显而易见。首先,很明显近年来对机器学习技术的兴趣突然激增。 统计物理学和高能物理学等与机器学习技术有着悠久历史的领域中也是如此。我们正在看到研究从对实验模拟模型的探索性研究转向使用真实的实验数据。我们也看到了对这些方法和情况的理解和局限性的发展,其中可以从理论上证明性能。对机器学习的潜在力量和局限性的健康和批判性的参与包括分析这些方法的突破点和它们明显不擅长的地方。
众所周知,物理学家渴望非常详细地了解其方法为何有效以及何时有效。随着机器学习被整合到物理学家的工具箱中,可以合理地预期物理学家可能会阐明机器学习面临的一些非常困难的问题。具体而言,物理学家已经在促进可解释性,验证或保证结果的技术以及选择神经网络体系结构各种参数的原则方法方面做出了贡献。
物理学可以从机器学习领域中学到很多东西的一个方向是共享代码和开发精心设计的高质量基准数据集的文化和实践。此外,物理学将很好地模拟开发关键方法的用户友好和可移植实现的实践,最好在专业软件工程师的参与下进行。
从第一个成功案例的活动水平和热情中浮现出来的画面是:机器学习和物理科学之间的相互作用还处于起步阶段。我们可以预期,机器学习和物理科学之间的相互作用将产生更令人兴奋的结果。
**翻译**:Wendy <br>
**[点击查看翻译稿链接链接](https://blog.csdn.net/Wendy_WHY_123/article/details/104793247 )**<br>

机器学习物理科学英文报告.pdf
2.07 M
下载0次