# 主题

Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits

# 主讲人

侯云泷 博士 新加坡国立大学

# 报告摘要

出于对在线决策在每个时间步骤中产生过多风险的考虑,我们在本文中提出了高概率随时安全的随机组合半赌博机问题。在此问题中,操作老可以选择从L个基本元素中选择最多含有K个元素的子集。每个元素对心某个平均奖励和表示其风险的方差相关联。为了控制操作者承担的风险我们要求在整个时间范围T内,操作者选择每个子集方差总和不超过某个方差國值的概率至少为1 $\delta$。我们称这个约束为高概率随时安全的约束。在此约束下,我们设计并分析了算法PASCombUCB,该算法可在时间范围工内最小化遗憾。通过推导遗憾的信息论下限,我们证明了在给定了问题算例和最差情况下,PASCombUCB几乎是渐近最优的。我们进行了实验以证实我们的理论发现。我们的问题设置、提出的PASCombUCB算法和新颖的分析适用于推荐系统和运输等领域。

# 嘉宾简介

侯云泷于2020年获得北京师范大学理学学士学位,他现在在VincentTan教授的指导下攻读新加坡国立大学数学博士学位。他主要的研究在机器学习理论,例如,在线学习。

[Slides & Video]