Эксперты НовГУ рассказали, как правильно общаться с нейросетью
25 марта 2025, 16:06 1607
— Нередко, пытаясь создать картинку, пользователи сталкиваются с проблемой: как бы, на их взгляд, конкретно, чётко и ясно они ни выражали свои требования, ИИ не выдаёт им желаемый результат, — рассказали авторы. — Человек пишет очевидный для него запрос, не понимая, что нейросеть обучена на ограниченном объёме данных и не всегда понимает контекст ситуации, абстрактные понятия, не знает какую-либо узконаправленную или специализированную информацию, а также порой чисто технически не может отобразить определённые текстуры или стили.
В ходе исследования по выявлению наиболее распространённых ошибок и удачных приёмов при составлении запросов для генеративных моделей авторами был проведен эксперимент, в котором приняли участие 67 студентов специальности «Информационные системы и программирование» Политехнического колледжа НовГУ.
Студентам была предложена задача. Требовалось задать вопрос для нейросети «Stable Diffusion» для получения «портрета молодого программиста, который находится за столом в современном офисе с панорамными окнами и работает за ноутбуком. На столе стоит кружка кофе». Опрос показал, что ни один из студентов не смог правильно сформулировать текстовый запрос для генеративной модели.
— 95% студентов оформляли запрос в виде литературного сочинения, — отметил Пётр Алексеев. — Однако, такой подход привёл к усложнению понимания ключевых требований. Чем больше информации, тем выше риск того, что система интерпретирует данные некорректно или сфокусируется на несущественных аспектах. 76% опрошенных включали в свои запросы глаголы: «создай», «нарисуй», «сгенерируй». Добавление таких команд не влияет на результат, так как модель автоматически воспринимает запрос как инструкцию для создания визуального контента, а включение команд выглядит как тавтология.
Как отмечают исследователи, грамотным решением при составлении запросов будет использование английского языка, поскольку большинство генеративных моделей обучаются на англоязычных данных. Также допускается нарушение грамматики: использование вместо предложений наборы слов или словосочетаний, разделённых запятыми. Такой подход создаёт ключевые слова, которые ИИ легче распознаёт и интерпретирует.
На основе анализа опроса авторы разработали наиболее правильный порядок составления запроса к ИИ.
— В начале запроса необходимо указать основной объект, который требуется проиллюстрировать, поскольку именно он задаёт фокус для генеративной модели, — объяснила Любовь Алексеева. — Затем можно добавить дополнительные элементы, которые уточняют или обогащают изображение. Все эти элементы разделяются запятыми для лучшей читабельности и понимания. Запрос «мужчина, кофта, офис, панорамные окна» предоставляет модели чёткое представление о том, что необходимо изобразить. Точка служит для чёткого разделения смысловых блоков внутри запроса. Это позволяет избежать смешения различных частей запроса и помогает модели последовательно обрабатывать элементы.
Если при ответе нейросеть опускает нужную деталь, то авторы советуют усилить конкретный токен или его часть, указав их в круглых скобках или с помощью числового значения. Например, запрос «мужчина, кофта, офис, (панорамные) окна» акцентирует внимание модели на слове «панорамные», увеличивая вероятность его включения в сгенерированное изображение.
— А использование чисел для указания веса токенов позволяет ещё больше уточнить запрос. Например, «мужчина, кофта, офис, (панорамные: 1.3) окна» повышает приоритет слова «панорамные» на 30%, — поделился Пётр Алексеев. — Этот подход помогает задать модели, что именно эта деталь является более значимой для итогового изображения.
Если же в запросе требуется сгенерировать несколько объектов в необходимых пропорциях, то можно использовать квадратные скобки. Например, запрос «[собака:паук:0.4]» указывает, что нейронная сеть будет генерировать изображение с акцентом на собаку на 40% процесса рисования, а на оставшиеся 60% — на паука.
Эту и другие новости читайте в официальном телеграм-канале Новгородского университета.
Рубрика:

