Добрый день, читатели блога BiznesSystem.ru. Сегодняшняя тема — проверка битых ссылок на сайте. Когда я только знакомился с интернетом, мне казалось, что каждый сайт и каждая страница вечны и будут существовать в сети всегда. Даже мысли не возникало, что веб ресурсы и их содержимое исчезают столь же часто, как и появляются. В результате их пропажи в сети остается масса нерабочих (битых) ссылок. Ранее, перейдя по таким линкам мы попадали на страницу с нужным контентом, а, теперь, натыкаемся на ошибку 404 или на сообщение, что сервер недоступен.
Содержание:
- Вред от битых ссылок;
- Причины появления ошибок;
- Что делать с битыми ссылками;
- Программы проверки битых ссылок на сайте;
- Проверка битых ссылок онлайн;
- Плагин для WordPress Broken Link Checker;
- Нерабочие ссылки в Yandex Webmaster;
- Нерабочие ссылки в Google Webmaster;
Нерабочие ссылки принято называть битыми — оба эти названия верны. Стоит отметить, что не каждый URL пропавшей страницы попадает в категорию битых ссылок – битыми считаются только те, которые оставили в интернете следы своего прошлого существования.
Допустим, был сайт, никто на него не ссылался и, если он пропал, в сети не осталось никакого следа — битых ссылок в результате его пропажи не появилось. Другое дело, когда полезный контент мотивировал других вебмастеров ставить на него ссылки и потом исчез. Страницы нет, а упоминания о ней остаются в сети — это уже проблема.
Битые ссылки – это ссылки (с тегами a href) на несуществующие URL адреса (их никогда не было или они перестали существовать).
Вред от битых ссылок
Отталкиваться стоит от того, что наличие нерабочих ссылок, как минимум бесполезно. Когда вы ссылаетесь на другую страницу и рекомендуете ее посетителям своего сайта, то посетитель должен найти там что-то полезное. Если он наталкивается на ошибку, то пользы не получает. «Обломался» так человек один раз, потом второй и его желание переходить по вашим рекомендациям существенно снизится.
Негативный эффект оказывает наличие битых ссылок и на поисковое продвижение. Среди множества факторов, оказывающих влияние на ранжирование веб сайтов в поиске, значатся и те, что оценивают ошибки – битая ссылка – это ошибка. Чем их суммарно больше, тем ниже траст вашего сайта в глазах поисковых систем.
Если говорить о внутренних переходах, отправляя пользователя на несуществующую страницу собственного сайта, вы недополучаете просмотры страниц и время пребывания на сайте, чем ухудшаете поведенческие факторы.
Отдельная тема – это реферальные (партнерские ссылки). При их некорректности вы теряете реальные живые деньги.
Избавляться от этого недуга нужно обязательно. Единственная проблема – если сайт большой, то вручную найти каждую отдельную ссылку непросто – процесс надо автоматизировать, благо, способов имеется немало. 4 варианты проверки сайта на битые ссылки я покажу в статье ниже.
Причины появления ошибок
Причинами появления битых ссылок могут стать разные факторы, зависящие как от владельца площадки, на которой ссылка размещена, так и от владельца ресурса, на который несуществующий адрес ведет – нередко, это одно и то же лицо (в случае с внутренними ссылками).
Наиболее частые причины появления битых ссылок:
- Ошибка при создании ссылки – в процессе создания ссылки, вебмастер мог ошибиться и неверно указать адрес ссылки (достаточно одного неправильного символа). В результате, такая ссылка будет вести на изначально несуществующую страницу.
- Изменение структуры сайта – в этом случае могут меняться адреса страниц и, если вебмастер не настроил переадресацию со старых адресов на новые с помощью 301 редиректа, переходы по старым линкам приведут к ошибке.
- Удаление страниц – часть контента, появляющегося в интернете, является временным и, в какой-то момент) теряет свою актуальность . Настает момент, когда такие страницы больше не нужны и их просто удаляют, в результате, их адреса выдают 404 ошибку, а ссылки на них становятся битыми.
- Закрытие сайта – случается, что сайт закрывается полностью. Может быть, перестала существовать фирма, для которой он работал, может он поймал АГС фильтр от Яндекса и владелец посчитал, что выводить из под санкций не рентабельно. Причина не важна – как только домен перестали продлевать, сайт работать перестает и, соответственно не работают все его внутренние страницы – каждая ссылка, ведущая на них, становится битой.
Что делать с битыми ссылками
Прежде чем рассказать о том, как проверить сайт на битые ссылки, я хочу рассказать о том, что с ними делать после обнаружения. Иначе, какой смысл их искать, если не известно, что делать впоследствии.
Для начала необходимо разделять нерабочие линки на внешние с вашего сайта на чужой, внешние с чужого сайта на свой и внутренние.
С внутренними никаких проблем быть не должно – вы просто берете и меняете некорректный адрес на правильный, в результате, битая ссылка превращается в нормальную рабочую.
Аналогично поступаем и с теми ссылками, которые ведут с вашего ресурса на недействующие страницы чужого – исправляем или удаляем.
Остается вариант, когда посторонний сайт ссылается на несуществующие страницы вашего домена. Напрямую поправить ошибку вы не можете. Есть вариант – обратиться к владельцу сайта донора (на котором стоит ссылка) и попросить его сменить адрес. Если это сделать не получается, то самостоятельно настройте перенаправление с неправильного адреса на правильный, лучше всего, с помощью постоянного редиректа (301) в файле htaccess.
При использовании постоянного редиректа вы не потеряете не только посетителей, переходящих на сайт, но и влияние внешних ссылок, так как поисковики интернета правильно понимают систему перенаправлений.
Программы проверки битых ссылок
Самый качественный (по моему опыту) анализ сайтов делается с помощью программы Xenu’s Link Sleuth. Простой пример – только с ее помощью мне удалось найти нерабочие видео ролики на сайте. Все остальные способы находили недействующие ссылки в традиционном их понимании (формата <a href>), а Xenu сканирует все встречающиеся URL адреса на страницах, даже если они не форматированы как ссылки.
Скачать программу можно здесь – скачать Xenu’s Link Sleuth
Сейчас покажу, как ей пользоваться. После запуска установленной проги будет открываться пустое окно, в котором нажимаем на пиктограмму страницы (подписанную как Check URL).
Там вписываете адрес своего сайта и жмете ОК.
Программа отсканирует полностью все существующие на указанном домене страницы – выставит их статус, тип, title страницы (если существует), уровень вложенности и другие характеристики. Тут можно не только битые ссылки отслеживать.
Нормальные адреса подсвечены зеленым, битые – красным цветом. Можно просто пролистать список в поисках битых, но это долго, лучше сразу сделать выборку. Сверху вкладка View, в ней ставим галочку Show broken links only. В списке останутся только нерабочие красные линки.
Следующий шаг – найти место, где каждая нерабочая ссылка находится (на какой странице). Для этого правой кнопкой мыши щелкаем по порядку и в контекстном меню выбираем URL properties.
Там указана страница (-цы) где есть эта ссылка.
Открываете нужную страничку, проверяете и исправляете. Иногда программа дает ложные срабатывания – это значит, что она при проверке не смогла «достучаться» до адреса – это мог быть временный сбой сервера, поэтому совету все важные ссылки проверять вручную перед удалением.
Проверка битых ссылок онлайн сервисами
Достоинство онлайн сервисов всегда заключается в том, что не нужно ничего устанавливать себе на компьютер. Любой софт – это лишний мусор в памяти машины (особенно, если он вам требуется всего один раз), а также риск подхватить какие-нибудь вирусы при скачивании с неофициальных сайтов (тут у меня статья про бесплатные антивирусники — обязательно поставьте себе). А тут — зашли на сайт, сделали проверку, получили результат, и ничего не надо ставить.
Но имеются и общие недостатки онлайн сервисов – как правило, ограничено количество бесплатно сканируемых страниц.
Онлайн сервисов для проверки битых ссылок существует масса. Раньше я пользовался вот этим – brokenlinkcheck.com, но он на английском и не всем будет комфортен. Ограничение 3000 страниц, остальное за деньги.
Не так давно мне попался русскоязычный сервис, который понравился больше — brokenlinklookup.com — дизайн по приятнее и интерфейс проще. Но тут ограничения более жесткие – бесплатно всего 1000 страниц (небольшим проектам достаточно, а для крупных порталов, все же, придется использовать программы). Вот краткая инструкция по brokenlinklookup.com
Главная страница содержит форму для адреса проверяемого сайта:
Результаты поиска выглядят списком недействующих ссылок, справа отображается тип ошибки (404, 403 и т.д.).
Для того, чтобы посмотреть подробности по каждой ссылке, надо нажать на тип ошибки справа. Во всплывающем окне появляется информация.
Все данные можно отправить себе на электронную почту или скачать файл – поле для почты и ссылка на скачивание находятся под списком.
Плагин для WordPress Broken Link Checker
Плагин довольно распространенный. В репозитории WordPress, среди других плагинов, он имеется и устанавливается через панель администратора сайта, если что, инструкция по установке плагинов здесь.
Broken Link Checker в режиме реального времени сканирует страницы веб ресурса, если находит битые ссылки, то добавляет их в список, указывая, количество проверок, периоды, типы ошибок.
Достоинства:
- Контролирует ссылки постоянно (периодически делая обход);
- Проверяет ссылки многократно и указывает сколько раз ссылка была нерабочей и в течении какого периода времени, что исключает случайные ложные срабатывания;
- Позволяет прямо из админки исправить или удалить все копии битой ссылки в один клик;
- Можно настроить уведомление по e-mail;
- Проверяет ссылки в черновиках и на закрытых страницах.
Недостатки:
- Работает только со страницами движка, если у вас есть отдельные страницы, например, лендинги, то плагин их не заметит;
- Находит не все косяки, несмотря на то, что в настройках стоит проверка видео роликов, у меня он не находит в них нерабочих ссылок, иногда, пропускает и обычные ссылки.
В целом, я его работой доволен, процентов на 95% со своими функциями справляется, главное что в режиме реального времени.
После установки и активации в админке сайта, в разделе «Инструменты» появится закладка – «Неправильные ссылки» с указанием числа битых ссылок, найденных плагином.
Также, появится виджет «Broken Link Checker» с информацией по работе плагина.
А в разделе «Настройка» будет вкладка «Проверка ссылок», через которую вы сможете выставить конфигурацию плагина отличную от базовой, хотя там и по умолчанию все в порядке.
Итак, плагин работает и нашел у вас проблемы – высветится в виджете в админке и во вкладке инструменты. Нажав на ссылку с указанием числа неверных ссылок, вы перейдете к их списку.
Подводя курсор к каждому элементу, вы увидите, как появляются варианты действий:
- Редактировать URL – меняете адрес на любой другой;
- Удалить ссылку – анкорный текст перестанет быть ссылкой, сам текст сохранится;
- Not Broken – сообщаете плагину, что ссылка рабочая и он ошибся, элемент из списка пропадает;
- Dismiss – отключает проверку данной ссылки в будущем;
- Recheck – перепроверить ссылку заново;
Под кодом ошибки есть ссылка на детализацию по проверкам – Details – там можно посмотреть подробности. Например, я не удаляю ссылки, которые были ошибочными один раз и, без раздумий удаляю те, которые являются битыми в течение нескольких месяцев и проверялись десятки раз.
Плагин, однозначно, полезный, и для более менее крупных проектов незаменим.
Нерабочие ссылки в Yandex Webmaster
Многие знакомы с инструментами для вебмастеров от Яндекс. Если вы ими еще не пользуетесь, то рекомендую туда добавить свои сайты, так как более подробной информации по техническому состоянию веб ресурсов не найти.
Ссылка на регистрацию — webmaster.yandex.ru
В отличие от описанных выше методов, с помощью Яндекса мы можем отследить битые ссылки не со своего сайта, а на свой (ссылаются чужие домены или ведут внутренние линки).
Открываете сервис, выбираете нужный сайт, после чего в левом меню раскрываете категорию «Индексирование сайта», а в ней открываете «Исключенные страницы» — там нас интересует раздел с 404 ошибками.
В нем содержатся адреса, на которые есть ссылки, а самих страничек не существует.
Переадресация через файл htaccess решит сию проблему и, постепенно, по мере обхода поискового робота ошибки уйдут, а вес ссылок перетечет на новую страницу.
Нерабочие ссылки в Google Webmasters
Аналогичным образом ведет учет ошибок и Google. Инструменты для вебмастеров этой поисковой системы располагаются по адресу — www.google.com/webmasters/tools/home?hl=ru
Для выбранного сайта в левом меню ищем раздел «Сканирование» — «Ошибки сканирования», в нем и будут все 404 ошибки, найденные этой поисковой системой у вас на сайте.
Подробная информация по неправильным ссылкам открывается кликом мыши по соответствующей строке, там даты проверки и все входящие линки (внешние и внутренние).
Внутренние битые ссылки поправьте сами, а для внешних все тот же 301 редирект вам в помощь.
На этом все, теперь вы сможете убрать один из факторов, оказывающих негативное влияние на ваш ресурс и сделать его более привлекательным для пользователей интернета.
Спасибо Вам за полезный пост!
Самый толковый пост по разъяснению битых внешних и внутренних ссылок.
На моём сайте осталось 2 ссылки такого рода 1) infookno.ru/xmlrpc.php
forbidden request Level 1——— 200 Apache (запрещенный запрос Уровень 1) и стоит она во всех страницах сайта 200 штук. Что это значит? Ведь реально её не прописывал нигде?
Спасибо.
Это стандартная функция WordPress и ссылка на файл автоматом прописывается в разделе head сайта. Могу навскидку ошибиться, поэтому в поиске посмотрите «как отключить xmlrpc», много сайтов с инструкцией по отключению есть.
Установил на сайт плагин Broken Link Checker, а он не определяет ссылки вообще. Посмотрел отладочную информацию, но там не понятно.
Оказывается эта ссылка стоит в шапке в таком выражении
Спасибо за наводку. Пойду читать.
Все битые ссылки ликвидировал. Ура!.
Случайно в программе XENU ещё раз проверил сайт с концомв адресе / — появилась якобы битая ссылка на все партнёрские товары? А если без / битых ссылок нет! Что это значит?
Спасибо.
Если ссылки признаны битыми ошибочно, не обращайте внимания. XENU очень придирчиво все сканирует, даже в CSS файлах находит нерабочие адреса, она работает по принципу «лучше перебдеть, чем недобдеть».
Спасибо
Здравствуйте. При проверке сайта Xenu показывает, что на всех станицах есть битая ссылка: fonts.googleapis.com. Что это и как можно ее убрать?
Это ссылка на какой-то шрифт, скорее всего визуально на странице не отражается, но есть в коде — подключает шрифт. Надо найти ее в коде страницы и удалить, либо заменить на рабочую.
Спасибо, понял.
Удачи.
У меня тоже показывает, что все страницы сайта ссылаются на ссылку fonts.googleapis.com/, которая является нерабочей. Есть ссылка, которая начинается точно так же, но после слеша есть продолжение и она рабочая. А именно в этом виде ее найти не могу. Судя по всему, она где-то в хедере (сайт на вордпрессе). Как ее найти и как удалить? Подскажите, пожалуйста!
Здравствуйте. Эту ссылку удалять не нужно.
Спасибо за интересную информацию. Хочу поделиться ситуацией связанной с плагином Broken Link Checker
Установил я его примерно 6-10 месяцев назад и периодически проверял и удалял битые ссылки,
но недавно был взломан сайт через него и добавлены скрипты с перенаправлением на GET запросы или как там все происходит я не знаю, но проблем было не мало. Соответственно и куча страниц вылезло в индекс. Так что на сколько он хорош думайте сами.
Но с другой стороны я сам виноват, особо не зацикливался на защите))
Не могли бы вы подробнее рассказать о случившемся — как определили, что через этот плагин — удалось ли найти уязвимость и т.д.
Точно не скажу, так как сам особо не разбирался. О том, что залезли через плагин сказали в техподдержке хостинга и подсказали на форуме cy-pr.com после чего в файлы этого плагина были дбавлены скрипты, которые и перенаправляли на чужие страницы. После удаления плагина и чистки кэша проблема была решена.
Вы бы поинтересовались, информация очень ценная для вебмастеров, так как плагин Broken Link Checker очень распространен.
Многие за этот плагин ратуют, однако малюсенькая программа Xenu, о которой пишет Автор мне очень понравилась.
Дело в том, что сам сайт имеет защиту от любых ссылок расположенных на самом сайте, по ним переходов ПС не делает. Хоть она битая, хоть и не битая. Все ссылки в постах и комментариях закрыты автоматом спец плагином..
А, вот с других сайтов идёт ссылка на наш сайт и она в индексе, а самой страницы НЕТ или она изуродована ошибками. Вот это и показывает XENU. Остаётся просить того автора удалить эту ссылку или ждать очередной пере индексации.
Мало того, программка проверяет все ссылки и если сторонняя ссылка на сервере отправителя ссылки долго не открывается, тормозит, так она тоже считается битой. Я это уже проверял через коллегу.
Держать на сайте этот плагин Broken Link Checker накладно. Что, на сайте сплошные спамеры пасутся.
Относительно взлома, обязательно удалить со свей версии WodPress файлы реадме и лицензе. Через них именно и проникают на сайт взломщики.
Кстати, я не есть дипломированный специалист в области веб программирования, но свой опыт имею. И, что касается битости ссылок, так считаю более вредным наличие заблокированных ресурсов, которые не дают сайту вообще попасть в индекс. Как я с этим боролся и победил, пишу в ряде статей категории «SEO советы»
И последнее, я имею привычку проверять сайт который мне понравился по релевантности заголовка моему поисковому запросу. Докладываю, что сайт Дмитрия стоит в ТОП -4 по запросу «Проверка битых ссылок на сайте» в Яндексе. Такова ценность статьи Дмитрия. Поэтом я и прислушиваюсь к его мыслям и советам.
Не подскажите, а что можно прогнать и найти все битые картинки? Т.е. на входе список урлов — разделы каталога, чтобы чекер на этих страницах нашел картинки, которые были удалены с сервера
Xenu находит все битые url-ы, в том числе картинки.
Здравствуйте! У меня после каких-то манипуляций с ускорением сайта WordPress Broken Link Checker стал все ссылки на картинки метить как неправильные и старые и новые. Но на страницах картинки отображаются нормально. Не знаете в чем причина?
Надо смотреть конкретно по адресам картинок — те ли изображения отображаются на страницах на которые ругается плагин. Вордпресс ведь создает миниатюры, вероятно дело в них.
«Дмитрий Жилин: Надо смотреть конкретно по адресам картинок — те ли изображения отображаются на страницах на которые ругается плагин. Вордпресс ведь создает миниатюры, вероятно дело в них.»
Такие миниатюры стоит удалить или лучше не трогать?
Если получается разобраться, то всё лишнее лучше удалять. Главное не стереть используемые.
Спасибо, Дмитрий!