DeepMind出了学习模式SACX可以让机器人探索自我_[#第一枪]
发布时间:2021-06-07 16:45:22
阅读:次
来源:鞋柜厂家
雷锋网按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
原标题 DeepMind's AI Learns Complex Behaviors From Scratch | Two Minute Papers #239
翻译 | 徐速 廖颖 字幕 | 凡江 整理 | 李逸帆 吴璇
本期论文:Learning by Playing - Solving Sparse Reward Tasks from Scratch
前些日子,DeepMind为AI机器人创建了一种全新的强化学习模式,名为SAC-X(预定辅助控制),能够为机器人提供一个简单目标,并在完成时提供奖励。
?每周一篇2分钟论文视频解读
论文解读视频中,我们可以看到有机器人在协助生产,但机器人没有预装任何特定程序,没有任何老师指导学习算法,也没有对环境的先验知识,只是在摸索如何达到人们的要求,并且获得相应的奖励。
SAC-X 通过给予机器人奖励反馈,让机器人从零开始学会复杂操作。这个配置有系列通用辅助任务的机器人,试图通过off-policy强化学习慢慢完成任务。过程中,研究人员不会手把手教机器人完成任务,只会开启机器配备的感测器,剩下的留给机器自己探索,直到任务完成为止。
这个方法背后的创新点在于,“预定的动作”和“辅助策略操作”能让机器人有效摸索周边环境,机器人在奖励非常稀疏的情况下,也能表现得非常好。在有挑战性的机器人操作设定演示实验中,这样的方法也能奏效。
论文原址https://arxiv.org/abs/1802.10567雷锋网
雷锋字幕组正在招募中
扫描下方二维码
备注“雷锋字幕组+姓名”加入我们吧
相关阅读
- 最火自动灌装机成为引领包装行业的新旗帜美容镜螺纹胶透明脚垫玉石炉料Frc
- 最火所有人SDLG客户节短视频大赛海选火热进KT板氧化铝刀闸阀防腐电动蝶阀Frc
- 最火枣苗木的出圃及包装运输印刷喷粉废油松木板材套件男装背心Frc
- 最火国常会重拳出击要求排查异常交易恶意炒作遏数码豆浆机高温丙纶滤布休闲鞋Frc
- 最火智能物流发展推动传感器市场需求爆发重庆手纸架混凝土深海鱼油通风设备Frc
- 最火贝加莱中国区总经理肖维荣博士视察成都办事八木天线假发管件球阀广播话筒滤头Frc
- 最火如何选定超声波清洗设备三通球阀鸡笼电蚊拍运输带过滤器Frc
- 最火墨西哥科学家研究发现可保鲜苹果的发酵剂豆皮机铸钢闸阀可调脚汽车球头不锈钢管Frc
- 最火广东顺丁市场人气不足船用电网香蕉冰激凌机轻工涂料液下泵Frc
- 最火食品包装未来战略分析过滤片栓塞泵凿岩机械金属栏杆顺风车Frc