谷歌提出非监督强化学习新方法助力智能体发现多样化可预测新技能

近年来强化学习的高速发展已经证明监督强化学习可以在真实世界中处理包括任意物体的抓取、灵巧的运动等复杂的任务。然而利用精心设计的奖励函数来教会智能体进行复杂的行为却面临着显著的局限性,一方面在设计损失函数上需要大量的工程性工作,对于大量任务来说几乎是不可能的。另一方面针对真实环境设计奖励,其复杂性不仅来自于奖励函数本身,同时还需要一系列的环境基础设施(额外的传感器)或手工标注的目标状态来进行辅助。这种奖励函数工程方式显示了智能体学习复杂行为的过程,而无监督学习的出现为这一问题提供了潜在的解决思路。

Read More →

谷歌DADS算法助力智能体实现多样化行为发现

近年来强化学习的高速发展已经证明监督强化学习可以在真实世界中处理包括任意物体的抓取、灵巧的运动等复杂的任务。然而利用精心设计的奖励函数来教会智能体进行复杂的行为却面临着显著的局限性。一方面在设计损失函数上需要大量的工程性工作,对于大量任务来说几乎是不可能的。另一方面针对真实环境设计奖励,其复杂性不仅来自于奖励函数本身,同时还需要一系列的环境基础设施(额外的传感器)或手工标注的目标状态来进行辅助。这种奖励函数工程方式显示了智能体学习复杂行为的过程,而无监督学习的出现为这一问题提供了潜在的解决思路。

Read More →