深度强化学习让人工智能与日常生活日趋接轨

2018-01-18 15:47:15来源：天津大学新闻网热度:

先是撂倒人类围棋界顶尖高手李世石、柯洁的“阿尔法狗”，接着又是零基础自学成才、100比0击败“阿尔法狗”的“阿尔法元”。随着“阿尔法狗”和“阿尔法元”的诞生，掀起了深度强化学习技术的一轮热潮，该方向已成为人工智能领域最热门的方向之一。作为2017-2019年度“中国计算机协会青年人才托举工程”和天津市青年千人计划专家入选者的天津大学软件学院副教授郝建业，就在深度强化学习领域硕果累累，先后主持参与过多项相关方面的国家及省部级科研项目，并致力于将那些宏伟的人工智能憧憬落实到实际的日常生活中去。

深度强化学习就是用具有感知能力的深度学习自动提取网络动态场景的特征，然后通过具有决策能力的强化学习做出最优决策。郝建业团队通过研究设计单个体及多个体（深度）强化学习及博弈算法和模型，提升智能体在复杂环境下学习到最优决策的性能和效率。其研究成果主要应用于自动谈判、智能电网等领域。

在智能电网领域，郝建业团队同帝国理工大学合作，针对伦敦市历年电量生产和消费数据，设计了基于深度强化学习的电价定价策略，以最优化电力市场收益。其研究方向获得了国家自然科学基金、天津市自然科学基金、香港研究资助局基金、澳大利亚教育部奖学金等项目资助支持。其在电子商务自动谈判领域的研究成果：《AbiNes: 一种自适应双边谈判算法》曾获得2012年度国际顶级自动谈判比赛冠军；其研究的“Mercury 算法”曾获得2015年度亚军。目前其团队还同网易游戏开发部门合作，针对其游戏产品，通过深度强化学习算法共同研发高效游戏智能体，提升用户游戏体验。比如，在对战游戏中，人工智能体能根据不同游戏玩家的水平展现不同的技能水平，并随着用户游戏水平的提升相应提升自己的技能。

随着“互联网+”时代的到来，网络空间安全防御变得尤为重要。天津大学软件学院副教授郝建业团队的“大数据环境下移动互联网网络攻击在线检测技术”项目通过提出安全博弈论模型，结合多智能体强化学习技术，研究设计应对不同类型网络攻击的最优防御策略。

中间人攻击是一种常见的网络攻击方法，是指攻击者通过使用某种技术手段与原本正常通讯的双方分别建立独立的连接，这样就可以作为中间人监听整个通讯过程，在通信双方毫不知情的情况下，窃取用户的敏感信息。由于现有的中间人攻击防御技术无法完全消除该攻击的存在，之前的防御策略都是通过切换端口或加密的方式进行防御。郝建业团队则从一个全新的角度来研究中间人攻击防御问题：通过对用户信息进行等级区分，诱导攻击者攻击相对次要的信息，通过迷惑攻击者，降低其获取用户敏感核心信息的概率。其相关研究成果《重复博弈下中间人攻击的防御》《针对中间人攻击的最优个性化防御策略》分别在人工智能大会顶级会议——第26届和31届人工智能大会上发表。

下一篇：任正非被华为罚款100万，4高管罚款50万（内附华为高管检讨全文）上一篇：人工智能公司 Rokid 新一轮融资 1 亿美金，淡马锡领投

责任编辑：吴礼得

人工智能深度