Как лучше размещать на сайте DOC, RTF, XLS, PPT, PDF

19.06.2007

Когда на сайте нужно выложить документ Word, передо мной встает дилемма:
* заархивировать файл и поставить ссылку на архив,
* оставить файл в формате DOC и поставить на него ссылку,
* преобразовать документ в HTML и сделать его полноценной частью сайта.

И что же я выбираю?

Мне очень нравится ZIP, и я бы даже не думал об остальных вариантах, если бы не нюанс. Архивы не индексируются поисковиками. То есть сайт теряет посетителей.

Чем характерен вариант с выкладыванием DOC и RTF? Документы индексируются, но посетитель получает к ним доступ, полностью минуя сайт. Это, например, может приводить к потере клиентов. Вот человек ищет информацию по ремонту компьютера, находит какой-нибудь бюллетень на сайте сервиса, видит, что самому ему не справиться, и идет опять искать. Не факт, что он опять попадет на сайт того же сервисного центра после повторного общения с поисковиком.

Перевод документа в HTML и размещение его на сайте в обрамлении шапки, меню, колонки с новостями и подвала выглядит лучшим решением. Но и здесь есть проблемы. Документ может содержать очень сложное форматирование не под силу среднему конвертеру. Или в нем может быть 100 страниц.

Описанная ситуация с выбором формата распространяется и на большие картинки, и на XLS-прайсы, и на презентации. Главная проблема — сайт недополучает посетителей только из-за выбора формата. И чем дальше формат от веба, тем больше.

Что в итоге?

1. Максимум документов нужно переводить в HTML и размещать на сайте как обычную страницу.

2. Файлы умеренного размера индексируемых форматов (DOC, RTF, PDF, XLS, PPT) не нужно архивировать. В этих документах нужно на видном месте писать адрес сайта и ставить на него ссылки.

3. Все названия файлов должны содержать адрес сайта. Что-то вроде dserg.com-mincing-machine-price-list.xls.

4. На картинках нужно в уголке писать адрес сайта.

Комментарии

~xXx~, 20.06.2007 00:30

есть еще небольшой нюансик, сугубо этического характера. связано он с тем, платное или бесплатное ПО используется для прочтения файла... т.е. по сути, размещая файлы xls, автор/владелец сайта побуждает пользователя приобрести пиратскую версию MS Office... в таком разрезе оптимальным является pdf, но если документ является какой-либо формой/анкетой, которую предполагается скачать и направить обратно?

такая вот дилема...

Timur, 20.06.2007 00:41

Можно же воспользоваться и не программами Microsoft.. OpenOffice, например!

~xXx~, 20.06.2007 01:34

у нас в сознание обывателя вдолбили, что для этих целей нужен MS Office...

Дмитрий Сергеев, 20.06.2007 19:18

Да, чисто этический вопрос. Общемировой документооборот очень сильно завязан XLS- и DOC-файлы. Человек, у которого нет какой-нибудь программы для работы с ними, попросту не сможет нормально вести дела.

К тому же широко распространенной альтернативы XLS что-то не видно.

4m@t!c, 20.06.2007 00:53

Документ выложить для чего? Для дальнейшего использования/редактирования, только чтения? Плюс имеет значение вес документа. Кстати, pdf не всегда есть у пользователя.
Не стОит забывать, что есть проблемы при распечатке HTML-страниц.

P.S. Не вижу проблемы в формате, в котором выкладывать документ. Все зависит от конкретной задачи и содержимого файла.

Дмитрий Сергеев, 20.06.2007 19:26

Расскажу, что у меня было в голове, когда я писал пост.

Есть организация, которой неплохо бы сделать свой сайт чуть более посещаемым. На сайте, конечно, есть какие-то тексты, но их относительно немного. Зато в этой организации очень любят создавать вордовские файлы с непростым форматированием. И их вполне можно вывешивать на сайте.

Так вот задача: как без серьезных усилий использовать эти документы для привлечения посетителей с поисковиков. Серьезные усилия -- это поиск и доработка конвертера или скажем ручная верстка :)

Пока я остановился на незаархивированных документах, в шапке которых крупно написана ссылка на сайт.

Freiman, 20.06.2007 15:17

DOC - конвертируем в rtf или pdf. Оба формата универсальные и читаются где угодно, особенно RTF.
RTF - и так хорош
XLS - вот с ним хз что делать
PPT - без проблем конвертируется во флэш. Сжатие+защита (распространять никто не сможет)
PDF - и так хорош.

Дмитрий Сергеев, 20.06.2007 19:30

С DOC'ом особых проблем нет. Можно и в RTF, можно и так оставить. Индустриальный стандарт :)

В XLS в основном публикуют разные прайс-листы и балансы, где формулы и прочие фичи никому не нужны. Их можно без проблем в DOC перенести.

За подсказку переводить PPT во флеш спасибо. Присмотрюсь к этому варианту повнимательнее.

Freiman, 22.06.2007 16:08

пришла мысль: XLS можно переводить и прямо в HTML..

Дмитрий Сергеев, 22.06.2007 17:27

Да, если это не мегатаблица с фиксированными ячейками, графиками, фильтрами и т. д.

kodji, 20.06.2007 17:56

Мое мнение - все зависит от цели, которую необходимо достичь при размещении документа.

Олег, 22.06.2007 15:57

Freiman, какая защита в swf? Он декомпилируется в исходный файл в 5 сек при наличии нужного фота

Freiman, 22.06.2007 16:07

> при наличии нужного фота
простите, нужного - чего?

в исходный файл он уж точно никак не компилируется.
вы вряд ли сможете просто взять, заменить фамилию автора на первой странице и передавать презентацию как свою. Можно разрешить просмотр SWF-ки только с определенного домена, запретить просмотр с локального диска. да и много других преимуществ у SWF - малый объем, универсальность (попробуйте презентацию РР2003 открыть в PP2000 - половины анимаций там не будет).

Junior, 22.06.2007 22:30

Лучше всего - комбинировать. Аннотацию выкладывать в html и "подмазать" тегами для лучшего ранжирования, все остальное - прикреплять файлом. Можно и zip, особенно если документы большие. В аннотации можно вставить несколько выдержек из отдельных глав документа - это будет ещё нагляднее.

Я одно время хотел пустить такую штуку. Были у клиента несколько PDF с руководством эксплуатации для бензопил. Документы востребованы аудиторией, поэтому хотели привлечь трафик.

Идея такая - выкладываем защищеный от копирования PDF, в тексте файла в конце делаем неприметную ссылку, которая по оформлению не отличается от текста. Это все хозяйство индексируется, недобросовестные веб-мастера качают их на свои странички, не подозревая, что в PDF есть ссылка, которая тоже должна учитываться в ранжировании.

И вот тут сложный вопрос - мне так и не удалось реализовать это и проверить, как работает ссылочное с PDF файлов. Но для интересующихся этот эксперимент делается за день :)

Дмитрий Сергеев, 22.06.2007 22:52

Драгоценный комментарий :)

Вариант с аннотацией хорош, но только ее нужно составлять. Хотя при больших объемах можно попробовать автоматизировать.

lusever, 26.06.2007 23:23

Почини плз rss или сам подпишись для теста. Эта запись только что еще раз пришла.

Дмитрий Сергеев, 26.06.2007 23:29

О, сорри. Это единичный случай.

Kosyan, 27.06.2007 13:55

Хмм... а почему все забыли про googledocs ?
Имхо, гораздо проще положить доку туда и поставить ссылку.
Из плюсов:
-можно редактировать документ не выгружая его обратно на сайт.
-юзеру не нужно иметь МС офис и подобные.
В доку можно вставить ссылку на свой сайт, что-то мне подсказывает, что гугля очень даже здорово будет индексировать такие документы.

Дмитрий Сергеев, 27.06.2007 14:02

Я не то что забыл, а и не помнил никогда про Google Docs :) Можно попробовать.

Но у файлов на своем сервере тоже плюсы есть.

Алексей Прищепо, 29.06.2007 20:37

Ссылку с домена с тИЦ 46000 никто не хочет? Выкладываешь документ со своей ссылкой на GoogleDocs, публикуешь его и ждешь индексации поисковиком (лучше сослаться на него с посещаемого сайта). Новый способ продвижения вырисовывается=)

UPD: /pub запрещен к индексации:,(

Дмитрий Сергеев, 29.06.2007 20:53

Ну может быть онажды они уберут disallow.

~xXx~, 29.06.2007 23:55

хм... а поподробнее?

Дмитрий Сергеев, 30.06.2007 00:24

Вот ссылка на robots.txt гуглдокс: http://docs.google.com/robots.txt . Этот файл рекомендует индексирующим ботам не трогать файлы во всем домене.

~xXx~, 30.06.2007 00:54

что то я на своих внутренних корпоративных проектах совсем отошел от реальности..
какой смысл писать инструкцию боту, чтобы он не цепАл контент доков?

Дмитрий Сергеев, 30.06.2007 01:28

Это может показаться удивительным, но некоторые сайты не хотят, чтобы их индексировали частично или даже полностью.

Одни говорят, что боты поисковиков настолько прожорливы, что ощутимо нагружают серверы. Другие считают, что поисковики наживаются на чужих текстах, показывая рядом с выдачей контекстную рекламу.

Менее экстремальные случаи -- запрет к индексации некоторых бесполезных страниц. Скажем, у этого блога запрещены все страницы с отдельными комментариями (вроде http://www.dserg.com/comment/reply/141/1252). По идее это могло бы принести мне больше трафика, но я думаю, что пользователи из поиска не должны попадать на такие служебные страницы.

~xXx~, 30.06.2007 03:42

не.. это то les classiques ) меня заинтерсовала именно привязка к гугловским сервисам... каковы возможности размещния, как было описано во главе данной ветви...

Дмитрий Сергеев, 30.06.2007 15:54

Ну на первый взгляд проку от такого открытого размещения немного. Хотя можно и копнуть поглубже: наверняка есть какая-нибудь интеграция с другими сервисами. Я гуглдокс не пользуюсь, так что не в курсе.

Алексей Прищепо, 30.06.2007 01:52

Через эти ссылки утекает PR. Но это не основная причина. По-моему, здесь дело в конфиденциальности, ведь не так давно был скандал по поводу того, что в индексе Google оказались не предназначенные для публичного обозрения документы. Еще вспоминается история про одного автора, который продавал свою книгу в формате PDF, а Google ее проиндексировал и совершенно бесплатно выдавал в результатах поиска.)

Дмитрий Сергеев, 30.06.2007 01:58

А еще как-то была история с крупным сайтом, вроде drive.ru -- разработчики просто забыли поправить robots.txt. Во время тестирования защитились от индексации. Потом сайт запустили, а пустить ботов забыли :)