Вестник НовГУ

Вестник НовГУ > 2021 > №2(123) Технические науки > Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита

Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита

УДК 519.865
Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита // Вестник НовГУ. Сер.: Технические науки. 2021. №2(123). С.17-20.

Ключевые слова: управление в случайной среде, задача о двуруком бандите, UCB

Рассматривается задача о двуруком бандите с гауссовским распределением доходов действий с неизвестными математическим ожиданием и дисперсией. Гауссовские двурукие бандиты могут быть использованы при рассмотрении пакетной обработки, когда имеются два возможных метода обработки. Показано, что при использовании стратегии UCB1 величина ожидаемых потерь непрерывно зависит от оценки дисперсии доходов действий. С использованием метода Монте-Карло установлен характер зависимости. Отмечается, что использование некорректной оценки равносильно неоптимальному выбору параметров алгоритма, но величина потерь расчета незначительна при достаточно большой ошибке, что дает возможность оценить величину дисперсии на начальном этапе управления.


UDC 519.865
Garbar S.V. Relation between reward variance estimation and losses for UCB strategy for Gaussian two-armed bandit // Vestnik NovSU. Issue: Engineering Sciences. 2021. №2(123). P.17-20.

K e y w o r d s: control in a random environment, two-armed bandit problem, UCB

Gaussian two-armed bandit problem is considered. Awards are assumed to have unknown expected values and unknown variances. Gaussian two-armed bandits may prove useful in a batch processing scenario, when there are two methods available. It is demonstrated that expected regret value is a continuous function of reward variance when using UCB1 strategy. Monte-Carlo simulations are used to show the nature of the relation between variance estimation and losses. It is shown that using an incorrect estimate is equivalent to using non-optimal parameters of the strategy, but the regret grows only slightly when the estimation error is fairly large, which allows to estimate the variance during the initial steps of the control.
DOI: https://doi.org/10.34680/2076-8052.2021.2(123).17-20

Загрузить (500 КБ)