全国版 安徽省 北京市 重庆市 福建省 贵州省 广东省 广西省 甘肃省 河北省 湖南省 河南省 海南省 黑龙江 湖北省 吉林省
江苏省 江西省 辽宁省 内蒙古 宁夏区 青海省 山西省 山东省 四川省 上海市 陕西省 天津市 新疆区 西藏区 云南省 浙江省
 科技 频道

军事机器人终于找到最实用的训练模型

报纸网 |发布: 2021-3-17 09:30|点击: 269|来自: 互联网

军事机器人终于找到最实用的训练模型

美国陆军希望将多域作战理念引入下一代作战车辆。


多域作战(MDO)是美国陆军未来重要的作战理念,它要求装备学习组件的自动化“代理”(如陆地机器人)能够与作战人员协同作战。techxplore.com网站当地时间12月29日报道,美国陆军研究人员在新项目中降低了现行训练强化学习(reinforcement learning)策略的不可预测性,使它们更适用于陆地机器人。美国陆军作战能力发展司令部(DEVCOM)的研究人员Alec Koppel博士说:“这些学习组件将让机器人具备推理能力,可以适应不断变化的战场条件。新机制由以强化学习为基础的策略构成。有效获取这些策略对实现MDO的运行理念至关重要。强化学习中的策略梯度方法是连续空间可扩展算法的基础。然而,现有技术无法整合更广泛的决策目标,如风险敏感性、安全约束等。”

强化学习对传统模型产生了极大冲击,因为它可以完成很多复杂任务,例如下围棋、下国际象棋等。然而,普遍性实践对应的样本数是一个天文数字。这样复杂的样本集合,使很多常见的训练机制不适用于下一代作战车辆(NGCV)的MDO。为了促进MDO和NGCV的强化学习,训练机制必须在连续空间中提高样本可靠性。

Koppel团队设计的新方案减少了奖励积累的波动性,产生了对未知领域的有效探索,并形成了整合历史经验的机制。“该研究扩展了强化学习中的经典梯度定理。”Koppel解释,“这种创新对美国陆军有深远影响,因为它使强化学习目标超越了标准积累回报。值得注意的是,对于地面机器人而言,数据获取的成本很高。减少波动性积累、确保对未知领域的有效探索以及经验整合,都对规则优化有重要意义。”

Koppel表示,这项研究的未来非常光明。他说:“我乐观地认为,具有强化学习功能的机器人未来能够在战场上协助士兵完成勘探、侦察和风险评估任务。”

编译:雷鑫宇 审稿:西莫 责编:陈之涵

来源:美国陆军研究实验室

原文链接:https://techxplore.com/news/2020-12-army-effective-robots.html

中文内容仅供参考,一切内容以英文原版为准。转载请注明来源。

 

 

分享到:
(更多内容请继续关注 查报纸网 www.cbzw.com.cn)

推荐阅读
CopyRight 2012-2021 查报纸网 版权所有
关于我们 | 网站公告 | 联系方式 | 广告服务 | 会员积分 | 网站留言 | 友情链接 | 服务条款 | 版权声明 |