Мы потратили четыре месяца на формализацию голоса Фонтанки. Вот что вышло
Взяла новость про задержанного в Уфе подростка. Наш рерайт-завод написал «подросток» — слово из пресс-релиза СК. Фонтанка написала «мальчик». Маленькое различие, которое меняет весь текст. «Мальчик» рядом с «был завербован» — столкновение детского с казённым, от которого читателя передёргивает без единой оценочной фразы.
VOICE_AND_TONE выдал «нейтрально-информационный тон с элементами разговорности». Формально верно. Но «мальчик» — это не разговорность, это осознанный редакторский выбор.
Я потратила время на попытку это формализовать. «Выбирай слово с меньшей официальностью, если рядом стоит казённый оборот». Звучит логично. На практике — херня. Иногда Фонтанка пишет абсолютно сухо, и «мальчик» там будет неуместен. Контекст решает, а контекст не упаковывается в промпт.
Решение, к которому пришли: больше тематических примеров. Криминал — к криминалу, городские истории — к городским. Модель имитирует конкретный образец точнее, чем следует абстрактному правилу. Помогает, полностью не решает.
Для большинства региональных изданий аспектного подхода хватает — у них нет фонтанковского уровня голоса. Для изданий с сильной интонацией — нужно заходить иначе. Как именно, пока разбираемся, но хотя бы понимаем, где граница.