Чего не хватает типографам

27.07.2008

Есть сайты, на которых я контролирую качество текстов, поступающих от пользователей. У текстов есть содержательные характеристики, улучшение которых отнимает много времени, а также технические характеристики. К техническим можно отнести отсутствие грамматических ошибок и типографику.

Вопрос о важности технических характеристик UGC оставлю открытым. Замечу, что их улучшение поддается автоматизации. Сейчас даже браузеры умеют проверять орфографию в полях textarea. И существует целый класс программ, улучшающих типографику.

Периодически на меня находит вдохновение, и я пытаюсь поставить на какой-нибудь сайт типограф. До последнего времени пассивно констатировал факт, что пользовательские тексты типографам не по зубам. Наконец, осознал проблему.

Все типографы, что я видел, ориентированы на опытных пользователей. Скажем, они умеют заменять два дефиса на тире. Но пользовательские тексты полны «экстремальной» типографики. Многоточия могут состоять из пяти или даже из одиннадцати точек. Вообще многоточие нередко является самым распространенным знаком препинания. После точек и запятых не ставятся пробелы. Новые строки начинаются середины предложений. Весь текст набирается в верхнем регистре. Тире не отбиваются пробелами.

В таких случаях типографы теряются. Они не понимают, что одиннадцать точек нужно заменить на три, или что после запятых в 99 % случаев должен стоять пробел, или что дефис, стоящий в начале абзаца, нужно преобразовать в тире, независимо от прочих условий.

А между тем большинство «экстремальных» случаев с хорошей вероятностью определяются несложными эвристиками. Если слово из русских букв в середине содержит запятую, скорее всего после нее пропущен пробел. Если доля многоточий высока, скорее всего их можно заменить на точки. Если \n окружают пробелы и маленькие русские буквы, скорее всего можно объявление новой строки вырезать. Регулярные выражения способны сделать из безобразного в плане типографики текста настоящую красоту.

Если разработчики какого-нибудь типографа добавят к расстановке неразрывных пробелов и хитрых кавычек набор правил для обработки текста в стиле неопытных пользователей, это будет сильным ходом. Если нужны примеры raw input'а или интересны те закономерности, что я уже выявил, с удовольствием поделюсь.

Комментарии

tty01, 27.07.2008 12:49

Добавил преобразование точек и проверку запятых после слова к своему типографу
http://wwwguru.net/sandbox/

Дмитрий Сергеев, 27.07.2008 13:13

Это здорово. Но меня больше интересуют типографы с исходниками. Да и правил нужно гораздо больше.

Артём Курапов, 27.07.2008 13:12

Я думаю что где-то рядышком всё-таки есть галочка "отключить автоформатирование"? Потому что не всем нравится автозамена как в MS Word.

Дмитрий Сергеев, 27.07.2008 13:20

Как всё это обустроить -- десятое дело. Важно, чтобы человек-редактор не терял время, подчищая то, что не осилил типограф. Чтобы не нужно было шаманить с Ctrl+H. Заменить "- " на " -- ". Заменить " -" на " --". Заменить "---" на "--". И т. д.

Я для себя решил, что лучше буду потихоньку добавлять правила и писать свой типограф, чем вручную всё делать.

Дмитрий Белицкий, 27.07.2008 13:29

Может начнем писать свое и правильное? Открыто, запустим удаленный репозиторий (git/svn/mercurial)?

Дмитрий Сергеев, 27.07.2008 13:35

Проще выбрать хороший типограф и присылать разработчикам правила. Писать свой -- не такое легкое дело, как может показаться.

Дмитрий Белицкий, 27.07.2008 16:39

Я для себя решил, что лучше буду потихоньку добавлять правила и писать свой типограф, чем вручную всё делать.
--------------

Я предлагаю развить эту идею. Потому как сам стал часто об этом задумываться.

Дмитрий Сергеев, 30.07.2008 00:07

Дмитрий Белицкий, я пообещал кое-кому сформулировать свои соображения и отправить по почте. Вам тоже могу выслать, если интересно.

Андрей Лось, 27.07.2008 16:29

А почему «-» или «---» должно заменяться на «--», откуда вообще взялось это «двоедефисие»? Есть же тире «—».

Дмитрий Сергеев, 30.07.2008 00:05

«Двоедефисие» в реальной жизни проще поставить, чем полноценное тире: не все умеют зажимать Alt и вводить числовой код, и не все пользуются типографами. Тире на клавиатуре нет, а дефис есть. Но обычно «--» в конце концов заменяется на «—».

В данном случае я до последнего не трогаю тире, потому что несколько писать  — не хочется.

Андрей Лось, 05.08.2008 11:14

Советую поставить клавиатурную раскладку Ильи Бирмана.

http://ilyabirman.ru/tools/typography-layout/

Дмитрий Сергеев, 05.08.2008 13:09

>> Советую поставить клавиатурную раскладку Ильи Бирмана.

Вот я привыкну к этой раскладке на одном компьютере, а потом на других, где не будет возможности поставить, буду страдать. Для кавычек и тире при желании можно выучить числовые коды. А больше редко нужно.

некто, 11.08.2008 06:21

Лично знаю людей, которым искренне нравится отсутствие пробелов вокруг знаков препинания, которые всегда выделяют прямую речь и тире, и кавычками за раз, хотя в целом их письмо относительно грамотно. Если будет галочка "отключить", они непременно ею воспользуются. Или с учётом последней части (грамотности) им можно?

zencd, 27.07.2008 13:31

Не знаю, только, как вы собрались отличать

«морально-нравственный»

от

«наркотики — зло».

Кст. считаю галочку «Сохраните мои личные данные до следующего раза» лишней — конечно сохранять! Какие ещё варианты? :-)

Дмитрий Сергеев, 27.07.2008 13:44

Конечно, с дефисами и тире всё не просто. Но я заметил, что настоящий дефис почти никогда не отбивают пробелами, и это правильно. А вот дефис в качестве тире частенько отбивают пробелом только справа. Плюс есть такие случаи:

-Спасаемся!-Закричал Саша,-может еще успеем.

То есть около тире обитают другие знаки препинания.

Иногда текст копируют из ворда, там периодически попадаются вместо тире минусы какие-то. Тоже можно учитывать.

В общем логику можно сделать очень ветвистой :) И львиную долю времени она редактору сэкономит. Лучше пусть в редких случаях будут ошибки, вроде «Яндекс.Деньги» с пробелом, чем вылизывать каждый текст.

Дмитрий Сергеев, 27.07.2008 14:22

Про галочку «Сохраните мои личные данные» учту. Спасибо.

zencd, 27.07.2008 13:34

Ну а вообще согласен :-)
Если тайпографы такого не умеют, то им низачёт.
И ведь задача во многом решаемая…

Артур, 27.07.2008 14:38

меня самого давно удивляет, почему ни один типограф не умеет заменять " ," и " ." на ", " ". "
ведь это проще простого, да еще много чего подобного полезного можно придумать ))
Полностью согласен с тобой Дмитрий!

Алексей Скрипник, 27.07.2008 16:11

Дмитрий Сергеев, 27.07.2008 23:03

Средней полезности ссылка. Да и сам автор так считает -- http://www.parser.ru/forum/?id=67248

Тормоз, 28.07.2008 04:46

А ещё лучше делать ресурсы, которые автоматически привлекают лишь людей, которые хотя бы маленько учились в школе :)

admin, 28.07.2008 10:31

Как правило, когда элемент системы пытаются сделаеть легче в целом она усложняется.
Немного не по теме, но актуально:
а не кажется что еще одна галочка - «Включить типографику» усложнит и так сложное поле для комментариев - сейчас уже тут их 7 штук?

marapper, 28.07.2008 17:32

типографика - дело принудительное. собственно, как и "сохранить данные до следующего раза", которые лишние в этой форме. все-таки типографика - это не только "хитрые" кавычки и все такое, а читаемость и привычность текста для восприятия.

для меня более привлекательна схема раздельной типографики для комментов (сразу) и поста (при отображении). тут не только парс на предмет скриптов и нежелательных элементов, но и именно изменение представления - в комментах не особо нужны неразрывные пробелы, которые и так увеличивают размер страницы, например. ну и многое другое.

J()KER, 29.07.2008 19:13

Сам использую "Автотипографика" с at.webcode.ru из-за гибкой настройки, но нет предела совершенству.

Конечно, хотелось бы лучшее - да ещё и с поддержкой типографики русского и английского текста...

Дмитрий Сергеев, 30.07.2008 00:33

Да, добротная штука.

Антон, 01.08.2008 14:54

Посмотрите типограф для джумлы от Дениса Рябова - http://joomlaforum.ru/index.php/topic,10544.0.html

Дмитрий Сергеев, 01.08.2008 23:32

Спасибо, посмотрю.

Вообще нет проблемы недостатка типографов (вон их сколько) . Есть проблема отсутствия мощного типографа, который бы спасал редактора от нудной обработки пользовательских материалов.

Sam, 15.08.2008 15:53

Как-то очень незаметно перестал у меня обновляться RSS, тут самое интересное :)

Был бы очень признателен за примеры в виде вход-выход.

Дмитрий Сергеев, 15.08.2008 23:50

Привет, написал письмо.