> The Next Generation Heterogeneous Satellite Communication Networks: Integration of Resource Management and Deep Reinforcement Learning," in IEEE Wireless Communications, vol. 27, no. 2, pp. 105-111, April 2020
### 1.研究背景
卫星通信网络具有覆盖范围广和灵活可重构等特点,可以作为地面无线网络的补充,也适用于载人航天、远海探测和应急救援等特殊应用。随着数据流量需求的不断增长,卫星通信网络面临的主要挑战之一是提高系统容量。卫星系统之间的合作是提高资源利用率的有效途径。如今,不同的卫星系统被独立开发,以服务于特定的服务。例如,中继卫星系统用来为空间用户提供数据传输服务,而通信卫星系统用来为高密度地区以及偏远地区的用户提供服务。然而不同卫星系统的长期独立演化也带来了一系列制约网络资源合作与整合的问题。**一方面,不同的卫星系统间的兼容性较差;另一方面,不同卫星系统使用的资源侧重点不同。**在AI时代,**软件定义网络(SDNs)、网络功能虚拟化(NFVs)和机器学习**提供了突破上述限制的可能性。
### 2.创新点
为了提高卫星资源的利用率,文章提出了一种新的**异构卫星网络(HSNs)**架构,实现了不同卫星系统之间的通信。然后,在网络架构的基础上,提出了**统一资源管理框架**,利用SDN和虚拟化技术对异构资源进行集成和管理。在管理框架中,资源分配策略直接决定了资源的利用率。传统的资源分配方法只能对单一的分类资源进行优化利用,或者通过连续迭代得到高复杂度的资源分配方案。**深度强化学习(DRL)**将深度学习中的感知能力和强化学习中的决策能力结合起来 ,在HSN中实现有效的资源分配管理方面显示出巨大的潜力。
### 3.异构卫星网络架构
为了解决由于物理隔离不同卫星系统之间的通信困难的问题,提出一种集中式的体系结构,在不改变现有卫星系统的情况下,快速实现HSN中的互连。在该架构中,**软件定义数据中心(SDDC)**是管理整个网络的核心。SDDC突破了原有的物理隔离,实现了分布式网络操作控制中心(NOCC)之间的相互作用。基于SDN集中式的管理充分利用聚合资源,提高了计算能力和管理效率。另外,为了支持集中管理,**云服务**在处理、传输和存储方面表现出很强的能力。 卫星、GS和NOCC的服务数据、用户特征以及基础设施和资源状态等信息均在云上共享。通过云计算,SDDC可以快速获取整个网络的信息,并做出全局决策,实现最优的资源管理。

### 4.整合资源管理
在HSN中,不同卫星系统的资源类别和资源使用都存在较大差异。基于前面介绍的网络架构,提出了一个集成资源管理(IRM)框架,应用SDN和虚拟化技术来实现统一的资源管理。该框架由四层组成,包括应用层(AL)、控制层(CL)、虚拟资源层(VRL)和基础设施层(IL)。

#### 4.1资源虚拟化管理
考虑到同一类资源在不同卫星系统中的差异,构造**虚拟资源池(VRP)**来收集预先规划好的虚拟资源,统一HSN系统的资源管理。例如,卫星参数,如坐标、覆盖范围、频带和天线数量等,可以很容易地转化为时间、频率和空间上的通信资源。计算资源和存储资源可以根据服务的计算任务和存储任务灵活划分。资源虚拟化管理主要实现了两个目标:一是VRP中的虚拟化资源需要根据物理资源的状态定期更新;二是设备控制,即当我们将虚拟化资源分配给服务时,选择具有相应物理资源的设备来提供服务。
#### 4.2服务特性管理
各种卫星系统产生的多样化服务给HSN造成了压力。作者将现有的卫星服务分为三类,包括**TT&C服务、通信服务和数据传输服务**。TT&C服务包括遥测、跟踪和指挥;通信服务主要包括语音、图像和视频服务;数据传输服务需要完成大量的数据传输。由于需求和约束的不同,实现不同服务之间的统一管理是十分困难的。在服务特性管理中,作者利用**参数预设计和自动提取**方法构造了一个从多种服务中提取的一系列共同特征的服务特征模型。参数预设计方法如本文作者列出了六个通用特性,包括**速率、流量、优先级、延迟、坐标和可分解性**。而自动提取方法利用深度神经网络(DNN)来提取服务特征,揭示了服务和特征之间的内部关系,帮助我们可以找到更好的特征与自动提取的同时,也要花费更多的计算时间。 因此,将两种方法结合起来,既能找到理想的特征,又能节省计算量,是满足未来日益增长的服务需求的最佳选择。
### 5.基于深度强化学习的资源配置策略
DRL是一种具有较强学习能力和计算能力的人工智能方法。基于预学习,DRL可以直接响应各种输入需求。如图作者给出了在资源分配中应用DRL的一般框架,通过学习环境与智能体之间的相互作用,机器可以获得最优的匹配方案。
基于价值的方法和基于策略的方法是在DRL中获得最优策略的两种通用方法。考虑到HSN中的资源分配的动作空间是高维且连续的,基于价值的方法Q值的计算需要花费大量的时间。相比较而言基于策略的方法可以直接预测最优策略而不需要计算Q值。
作者在基于策略的方法中应用了Actor-Critic框架,其中Actor和Critic分别包含一个策略网络和一个Q网络。策略网络的功能是参数化策略,而Q网络用来评估动作。Actor根据Critic的评估来优化策略梯度并更新策略,Critic根据Actor的策略更新Q网络。通过Actor和Critic的不断交互最终得到策略的收敛和最优策略。

另外,经验回放、独立目标网络和行为策略对于提高DRL的性能也是必不可少的:
+ **经验回放**:DNN可以在学习样本独立同分布的前提下获得优异的性能。然而,资源分配中的样本具有高度的相关性和非平稳性,这将导致较低的收敛速度。为了解决这个问题,构造了一个存储器来存储所有序列(st,at,rt,st+1)。当训练两个网络时,随机从存储器选择一小部分样本,从而消除样本的相关性。因此该方法也叫做小批量取样法。
+ **独立目标网络**:若DNN同时承担在线训练和预测任务,则DNN的训练结果很难收敛。在原有的策略和Q网络之外附加一个额外的目标网络来专门预测样本的标签,使DRL的训练将变得更加稳定。
+ **行为策略**: 当一个动作由策略决定并返回到环境时,利用开发和探索来优化动作的选择。