全国版 | 安徽省 | 北京市 | 重庆市 | 福建省 | 贵州省 | 广东省 | 广西省 | 甘肃省 | 河北省 | 湖南省 | 河南省 | 海南省 | 黑龙江 | 湖北省 | 吉林省 |
江苏省 | 江西省 | 辽宁省 | 内蒙古 | 宁夏区 | 青海省 | 山西省 | 山东省 | 四川省 | 上海市 | 陕西省 | 天津市 | 新疆区 | 西藏区 | 云南省 | 浙江省 |
科技 频道 |
多域作战(MDO)是美国陆军未来重要的作战理念,它要求装备学习组件的自动化“代理”(如陆地机器人)能够与作战人员协同作战。techxplore.com网站当地时间12月29日报道,美国陆军研究人员在新项目中降低了现行训练强化学习(reinforcement learning)策略的不可预测性,使它们更适用于陆地机器人。美国陆军作战能力发展司令部(DEVCOM)的研究人员Alec Koppel博士说:“这些学习组件将让机器人具备推理能力,可以适应不断变化的战场条件。新机制由以强化学习为基础的策略构成。有效获取这些策略对实现MDO的运行理念至关重要。强化学习中的策略梯度方法是连续空间可扩展算法的基础。然而,现有技术无法整合更广泛的决策目标,如风险敏感性、安全约束等。” 强化学习对传统模型产生了极大冲击,因为它可以完成很多复杂任务,例如下围棋、下国际象棋等。然而,普遍性实践对应的样本数是一个天文数字。这样复杂的样本集合,使很多常见的训练机制不适用于下一代作战车辆(NGCV)的MDO。为了促进MDO和NGCV的强化学习,训练机制必须在连续空间中提高样本可靠性。 Koppel团队设计的新方案减少了奖励积累的波动性,产生了对未知领域的有效探索,并形成了整合历史经验的机制。“该研究扩展了强化学习中的经典梯度定理。”Koppel解释,“这种创新对美国陆军有深远影响,因为它使强化学习目标超越了标准积累回报。值得注意的是,对于地面机器人而言,数据获取的成本很高。减少波动性积累、确保对未知领域的有效探索以及经验整合,都对规则优化有重要意义。” Koppel表示,这项研究的未来非常光明。他说:“我乐观地认为,具有强化学习功能的机器人未来能够在战场上协助士兵完成勘探、侦察和风险评估任务。” 编译:雷鑫宇 审稿:西莫 责编:陈之涵 来源:美国陆军研究实验室 原文链接:https://techxplore.com/news/2020-12-army-effective-robots.html 中文内容仅供参考,一切内容以英文原版为准。转载请注明来源。 |
(更多内容请继续关注 查报纸网 www.cbzw.com.cn) |
CopyRight 2012-2021 查报纸网 版权所有
关于我们 | 网站公告 | 联系方式 | 广告服务 | 会员积分 | 网站留言 | 友情链接 | 服务条款 | 版权声明 | |