Вестник НовГУ

Сегодня 26 апреля 2024 года / 8 ^oC, 758 мм.

Студентам

Расписание занятий Библиотека Студенческая жизнь Спорт Психологическая помощь Проектная деятельность Для лиц с ОВЗ

Преподавателям и сотрудникам

Телефонный справочник Переход на новые ФГОС Каталог ИТ-услуг Профком Эффективный контракт

Выпускникам и партнёрам

Официальные документы Часто задаваемые вопросы Дополнительные курсы Бесплатная юридическая консультация

English Deutsch

А А А

Вестник НовГУ

Вестник НовГУ > 2021 > №2(123) Технические науки > Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита

Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита

УДК 519.865
Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита // Вестник НовГУ. Сер.: Технические науки. 2021. №2(123). С.17-20.

Ключевые слова: управление в случайной среде, задача о двуруком бандите, UCB

Рассматривается задача о двуруком бандите с гауссовским распределением доходов действий с неизвестными математическим ожиданием и дисперсией. Гауссовские двурукие бандиты могут быть использованы при рассмотрении пакетной обработки, когда имеются два возможных метода обработки. Показано, что при использовании стратегии UCB1 величина ожидаемых потерь непрерывно зависит от оценки дисперсии доходов действий. С использованием метода Монте-Карло установлен характер зависимости. Отмечается, что использование некорректной оценки равносильно неоптимальному выбору параметров алгоритма, но величина потерь расчета незначительна при достаточно большой ошибке, что дает возможность оценить величину дисперсии на начальном этапе управления.

UDC 519.865
Garbar S.V. Relation between reward variance estimation and losses for UCB strategy for Gaussian two-armed bandit // Vestnik NovSU. Issue: Engineering Sciences. 2021. №2(123). P.17-20.

K e y w o r d s: control in a random environment, two-armed bandit problem, UCB

Gaussian two-armed bandit problem is considered. Awards are assumed to have unknown expected values and unknown variances. Gaussian two-armed bandits may prove useful in a batch processing scenario, when there are two methods available. It is demonstrated that expected regret value is a continuous function of reward variance when using UCB1 strategy. Monte-Carlo simulations are used to show the nature of the relation between variance estimation and losses. It is shown that using an incorrect estimate is equivalent to using non-optimal parameters of the strategy, but the regret grows only slightly when the estimation error is fairly large, which allows to estimate the variance during the initial steps of the control.
DOI: https://doi.org/10.34680/2076-8052.2021.2(123).17-20

Загрузить (500 КБ)

Вестник НовГУ

Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита

Официальная информация

Контакты

НовГУ в социальных сетях