行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 人工智能 正文

OpenAI发布安全健身房以进行强化学习



迄今为止,尽管数据科学领域的许多工作都集中在算法的规模和复杂性上,但安全(即防止伤害的保障)仍然是一个值得追求的领域。在无人驾驶汽车等应用中尤其如此,因为机器学习系统的错误判断可能会导致事故。

这就是为什么像Intel的Mobileye和Nvidia这样的公司提出框架来保证安全和合理的决策的原因,这就是为什么OpenAI(由首席技术官Greg Brockman,首席科学家Ilya Sutskever等人共同创立的旧金山研究公司)今天发布了Safety Gym。OpenAI将其描述为用于开发AI的工具套件,该AI在训练时遵守安全约束,并用于比较算法的“安全性”以及这些算法在学习中避免错误的程度。

安全体育馆是专为强化学习代理或通过奖励(或惩罚)逐步刺激达到目标的AI而设计的。他们通过反复试验来学习,这可能是冒险的尝试-代理有时会尝试导致错误的危险行为。

作为一种补救措施,OpenAI提出了一种增强学习的形式,称为约束增强学习,它实现了AI必须约束的成本函数。与通常的做法相反,代理人的行为由为实现目标而量身定制的功能来描述,而受约束的代理人则要找出实现某些确定结果的权衡取舍。

OpenAI在博客中解释道:“在正常的[强化学习]中,您会在训练开始时就选择好碰撞并将其永久固定,”。“这里的问题是,如果按次计费足够高,那么座席可能就不会在意是否会遇到很多冲突(只要它仍然可以完成其行程)……[但是]在[强化学习]中, ],您将在训练开始时选择可接受的碰撞率,并调整碰撞精细度,直到业务代表满足该要求为止。”

为此,Safety Gym引入了需要AI代理(Point,Car,Doggo或自定义设计)的环境,以在混乱的环境中导航以实现目标,按钮或推动任务。难度分为两个级别,每次座席执行不安全的操作(即陷入混乱)时,红色警告灯会在座席周围闪烁,并且会产生成本。

安全实验室除了提供用于运行实验的代码外,还提供了标准且受约束的强化学习算法,OpenAI表示,初步结果证明了安全健身房环境中的难度范围。最简单的环境相对容易解决,并且允许快速迭代,而最困难的环境对于当前技术而言可能太具有挑战性。

OpenAI的未来工作是改善当前安全健身房环境的性能,使用安全健身房研究安全的AI培训技术,并将受限的强化学习与诸如人类喜好的隐式规范相结合。它还希望有助于制定可衡量AI系统安全性的指标。

 

OpenAI写道:“ [安全指标]可能可以集成到开发人员用来测试其系统的评估方案中,并且有可能被政府用来创建安全标准。” “我们……希望像Safety Gym这样的系统可以使AI开发人员更容易通过开放共享系统上的工作在AI部门的安全方面进行协作。”

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部