редакции Выбор
Как полировать тексты удалением излишеств и проставлением ударений
Продолжая серию публикаций об автоматизации правки текстов в Microsoft Word на макросах: «Как быстро привести текст в божеский вид», «Как создавать неизменно великолепные документы» и «Отчего же ё-моё мы обижаем букву „ё“», расскажем о новых режимах: «Ударник» (1) и «Стайлер» (2):
Оба инструмента входят в
блок «Спорные» (3): требуют принятия автором решений о необходимости
коррекции. В качестве полигона для демонстрации возможностей взяли крупнейшую
книгу Рунета «Библия траблшутера», содержащую 4,3 млн символов (4) на 3,5
тысячах страниц (5) с временем чтения 80 часов (6):
«Ударник» отвечает за
простановку неоднозначных акцентов, работает на основе списка масок (7), вариантов
опорных слогов (8), предъявляя пользователю сложные слова (9),
проверяемые в очерёдности встречаемости (10), разбитые на группы (11)
по лексической значимости коррекции:
После запуска инструмента автору
предлагается окно с доступными категориями поиска (13), количеством масок
в них (14) и расчётным временем обнаружения в текущем документе (15).
Пользователю остаётся выбрать желаемые группы (12), сверяясь с расчётным
временем работы (16):
Маски, входящие в категорию «Обычное» встречаются в «Библии траблшутера» до девяти раз. «Частое» отвечает за диапазон с частотностью от 10 до 99. «Избыточное» начинается на числе 100 и не имеет верхнего предела. «Редкое» отведено для устаревших слов. «Тест» используется в целях отладки.
Чтобы не ждать слишком долго выполнения очевидных правок, сосредоточенных в массовых категориях, предусмотрели корректируемый лимит на предельную внимательность «Ударника», по умолчанию установленный на 99 вхождений (17) масок в текст. При первом запуске на документ этого будет достаточно.
По окончанию поиска
«Ударник» выводит окно с закладками (18) по 20 найденных масок (19),
с указанием количества обнаруженных вхождений (20) и кнопками установки
ударения на ранний (21) или поздний слог (22):
Автор просматривает
неоднозначные слова, принимая решение о задействовании начального (23) или
последующего (24) знака артикуляции:
Задействуем символ ударения (25),
который не препятствует проверке орфографии Microsoft Word и может быть
вставлен через соответствующую кнопку (26) в редакторе:
Перед постановкой артикуляции
«Ударник» определяет место выделенной буквы в маске, перемещает курсор на
нужную позицию в тексте и вставляет символ с кодом 769 в десятеричной системе
шрифтом Times New Roman (27). Распознав действие, Word выполняет
слияние с буквой, превращая пару в единый знак.
Раз буква с ударением считаются литерой длиной в две единицы, переписали процедуру удаления знаков в «Статисте» (28), о котором расскажем в будущем. Также планируем провести исследование частот ударных слогов на текстах Ленинской библиотеки, чтобы подсказывать пользователю наиболее вероятные коррекции.
Второй инструмент — «Стайлер»
обнаруживает излишества тоже по таблице масок (29), показывает огрехи (30)
автору, тип графоманства (31), сортированный по частотности (32) с
указанием категории потенциальной оплошности (33):
Некоторые маски (34) попадают более чем в одну категорию. Придётся обратиться к лингвистам для разрешения конфликта или успокоения в правильности множественной вариативности.
После запуска инструмента
автор обнаружит знакомое окно с новыми категориями поиска (36),
количеством масок (37) и расчётным временем обработки документа (38).
Останется выбрать желаемые группы (35), ориентируясь на предварительную
оценку трудоёмкости (39):
Как и «Ударник», «Стайлер» по умолчанию предлагает не проводить поиск более 99 вхождений (40) масок в текст, чтобы предварительно оценить качество и лишь потом переходить в режим придирчивого редактора.
Завершив поиск, «Стайлер»
выводит форму с ярлыками для категорий «заумь» (41), «оценка» (42),
«вводное» (43), «плеоназм» (44), «усилитель» (45), «канцеляризм» (46):
А ещё способен обнаруживать притяжательные местоимения, стоп- и спам-слова. Первые указывают на неоптимальность описания принадлежности, вторые — признак слабых формулировок, третьи приводят к блокировке почтовых сообщений из-за подозрений на массовость и мошенничество.
За 94 дня работы над
проектом создали по 16 версий программного модуля и файла масок (47, 48):
Плюсом разработанных режимов стала наследуемость программного кода:
· «Ударник» получился из «чЕкЁра» (помогает проставлять «е» или «ё» в неоднозначных словах)
· «Стайлер» из «Типографа» (реализует сложные поиски).
Файл масок избежал
модификаций и остался в прежнем формате, поддерживая единство инструментов:
«Ёкатора» (49), «чЕкЁра» (50), «Ударника» (51),
«Типографа» (52) и «Стайлера» (53):
Продолжаем работу над следующими категориями:
1) заимствования: нейминг, воркшоп, дедлайн, бойфренд, митап, паркинг, квиз
2) описки: шОпот, дермаНтин, блесТнуть, яВства, интригаТ, грейпфрукТ
3) жаргон: маза, лабать, наезд, общак, фар, халява, цацки, чифир
4) многозначности: лист, побег, иголка, волнение, хвост, труба
5) брань: козёл, петух, мошенник, расист, предатель, вор
6) сленг: вайб, донатить, зашквар, краш, кринж, мерч
7) несовместимости: «собирать грибы в лИсу»
8) фразеологизмы: «рак за горой свиснет»
9) трудности: одеть и надеть, ноль и нуль
10) мат: позвольте обойтись без примеров.
Думаем над более сложными конструкциями:
1) узкопрофильные термины и специфические понятия
2) пословицы, поговорки афоризмы, цитаты
3) сложности перевода: «Кузькина мать»
4) надписи: «табл.» и подписи — «рис.»
5) фразы, не подлежащие публикации
6) буквализмы и транслитерации
7) аббревиатуры и сокращения.
Шутки ради проверили
насколько хорошо творили русские классики. Александр Сергеевич Пушкин в романе
«Капитанская дочка» допустил 241 стоп- (49, 50, 51) и 27 спам-слов (52,
53, 54):
Лев Николаевич Толстой в
«Анне Карениной» использовал 116 стоп- (49, 50, 51) и 185 спам-слов (52,
53, 54):
Вот бы великим в те годы нашу программу...