Обучаемся.com

Руководство по компьютеру, работа с Windows, разработка и продвижение сайтов…

Автор

Технический аудит сайта

Сегодня разговор пойдет о техническом аудите сайта, и это логическое развитие после того, как было собрано семантическое ядро, о чем я писал в предыдущих своих постах. Но давайте разберем по пунктам, какие все таки этапы этого технического аудита существуют.

Пункты технического анализа сайта

  • Главное зеркало сайта
  • Поиск аффилиатов
  • Индексация сайта
  • Мусорная и неполная информация
  • Дубликаты
  • Карта сайта
  • Robots.txt и теги
  • Валидность кода
  • Правильность верстки
  • Битые ссылки
  • Уникальные элементы
  • ЧПУ
  • HTTP заголовки и скорость загрузки
  • Сквозные блоки
  • Хостинг

Большой бедой для клиента и сайта является отсутствие такого аудита и его внедрение. И сказать по правде это проблема многих сеоконтор и фрилансеров. Собирают СЯ, пишут статьи и наполняют контентом, закупают ссылки, а сайт как «Запорожец» в гонках Formula 1. Поверьте мне, это далеко не бесполезное действие, а очень и очень важный момент, который надо проделывать и проделывать качественно!

Настройка главного зеркала сайта

Если вы еще не знаете, что такое главное зеркало сайта, тогда внимательно читаем и смотрим ,как его сделать и указать в вебмастере. Главное зеркало — это то, как ваш сайт будет отображаться в интернете с www или без www. Вот главное зеркало моего блога obuchaemsja.com, то есть здесь нет www.

Этапы настройки таковы:

  1. 301 редирект в .htaccess
  2. robots.txt директива host
  3. Инструменты для вебмастера

Редирект настраивается в документе, который размещается в корне сайта, то есть в папке www на вашем сервере или хостинге и выглядит примерно вот так:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.vash-sait\.ru$ [NC]
RewriteRule ^(.*)$ http://vash-sait.ru/$1 [R=301,L]

Это один из примеров, как можно настроить редирект с www.vash-sait на http://vash-sait.ru/.

Далее в документе robots.txt прописываем вот такую директиву Host: http://obuchaemsja.com, сам документ находится там же, где и htaccess в одной директории. Эта директива прописывается для Яндекса, мы принудительно говорим роботу этой ПС, что наше главное зеркало без www.

И последний этап идем в панели вебмастера Гугл и Яндекс и указываем там основное зеркало, это делается при добавлении нового сайта. Сам процесс описывать не буду, этого добра в интернете предостаточно, наша цель разобрать пункты технического аудита, а как это сделать подскажет сам Гугл или Яндекс.

Аффилиаты что это?

Аффилиаты — это сайты, которые принадлежат одному владельцу, имеют одни и те же адреса, номера телефонов и место размещения в интернете. Также может быть полное, частичное дублирование дизайна, функционала сайта, а может и не быть.

Цель таких сайтов занять несколько позиций в поисковой выдаче дабы побольше получить трафика с ПС и соответственно денег.

Индексация сайта

Перове на что нужно посмотреть это разницу индексации Гуглом и Яндексом. Провести такое сравнение можно множеством утилит, сервисов и дополнений к браузерам. RDS барЯ смотрю эти показатели при помощи дополнения в мозиле RDS-Bar. Как установить и как пользоваться смотрите в интернете. Часто спрашивают, а почему так, да потому, что для Гугл по большому счету robots не есть указатель, он его игнорирует и грузит все, куда могут дотянуться его роботы. Мощности позволяют вот и тянут все подряд. Яндекс кстати тоже начал очень часто игнорировать запреты в robots.txt

Если говорить правильно такое различие или нет — не правильно. Как же решить, детально анализировать причины, что запрещено в robots, посмотреть все страницы в индексе гугл понять какие лишние и закрыть не только в роботс, но и при помощи тегов <noindex>. Идеала когда 100 = 100 достигнуть практически невозможно, но стремиться надо.

Также на индексацию могут влиять ошибки сканирования, посмотреть это можно в вебмастере гугл перейдя в панель инструментов вебмастера. Вот так это выглядит:Ошибки сканирования сайта Гуглом

Мусорная информация сайта

Страницы, которые еще в разработке, но уже имеют свой адрес, также страницы, которые имеют технические ошибки или неполадки, как пример: не работающий калькулятор чего-то там, форма не отправляющая данные и т.п.

Также сюда можно отнести момент когда сервер отдает 200 ответ, а страницы нет, то есть битая ссылка отвечает, как нормальная. Еще нормальные страницы, но по каким-то причинам попавшие в запрещенный список robots.txt. Ну и самое страшное это конечно дубли, как полные так и частичные. Вот это очень плохо.

Дубли — это копирование содержимого на нескольких страницах, есть дубли внутренние, когда информация дублируется внутри сайта, а есть дубли со внешнего сайта, это когда банально воруется контент на других сайтах.

Дубликаты url

  • http://obuchaemsja.com
  • http://www.obuchaemsja.com
  • http://obuchaemsja.com/index.php

Вот три адреса, которые отдают одно и тоже, то есть на всех трех находится главная страница, но используя 301 редирект и файл .htaccess я сделал так, что все это ведет на один адрес http://obuchaemsja.com. Так должно быть абсолютно на любом сайте, проследите за своим сайтом и исправьте.

Давайте поговорим о причинах наиболее частого появления дублей:

  • CMS и некорректная настройка вывода ЧПУ
  • Технические ошибки
  • Большие сквозные блоки
  • Страницы со служебной информацией
  • Контент представлен разными способами (.doc, .pdf, print)

Наказания за дубли могут быть разные со стороны ПС, все зависит от вида и количества дублей, а значит нам это ни к чему. Тогда стоит поговорить о поиске и выявлении этих самых дублей.

Этапы выявления дублей на сайте

  1. Сколько должно быть всего страниц на сайте?
  2. Ищем дубликаты в выдаче (операторы — «site:www.site.com», :title:(заголовок документа)», «mime:pdf»)
  3. Используем программы Xenu и Page Weight (вторая платная)
  4. Инструменты для веб мастера

Я не буду расписывать как это применять и что делать, я вам дал инструментарий, инструкцию найдите в интернете. А если по какому-то пункту возникнут вопросы напишите в комментариях, я обязательно отвечу.

Карта сайта

Для начала, что же такое карта сайта (sitemap.xml) — это ссылки на все страницы вашего сайта с расширением xml, генерируется автоматически на сайте и добавляется в панели вебмастера Гугл и Яндекс. Если хотите посмотреть, как оно выглядит на живую вот моя карта сайта. Не все они такого вида, как у меня бывают все ссылки идут прям в столбец друг за дружкой.

После добавления карты сайта в панели вебмастера, роботы ПС быстрее и точнее проиндексируют страницы, так как вы даете, указываете им навигацию, куда и когда перемещаться. Также каждая ново созданная страница будет добавляться в эту карту и ПС будут автоматически уведомляться о новом контенте.

Так как я немного затронул, а вам будет любопытно узнать поподробнее, даю ссылку на отличный ресурс, где все это описано и разложено по полочкам, ресурс так и называется sitemaps.

Настройка robots.txt

Итак robots это документ в котором содержится перечень правил для роботов различных поисковых систем, а поточнее для роботов, которых вы там укажете. Если вы еще не знаете, то каждый сайт индексируют специальные роботы, и уже только потом обработав проиндексированный материал через всевозможные алгоритмы, ПС выдают сайт в поиске, либо банят по необходимым причинам.

Для начала идем на сайт с русским описанием о robots.txt и внимательно там все читаем. Если у вас хватит терпения и желания прочесть все, что они написали об этом документе, вы станете гуру по составлению таких файлов под любой сайт. Также есть хелп Яндекса, где не менее подробно можно прочесть и посмотреть реальные примеры, находится это описание по этой ссылке.

Когда вы все внимательно прочтете и сделаете свой robots для сайта, следует проверить все ли ок. Для проверки правильности составленного документа переходим в панель вебмастера Яндекс в раздел настройка индексирования и там выбираем Анализ robots.txt.Проверка роботсВ верхней части отображается собственно весь robots, а ниже мы можем ввести адрес страницы или страниц для проверки закрыты они от индексации или нет.

Как пример давайте рассмотрим такой случай: у нас есть на сайте поиск, а поиск всегда генерирует временные страницы с выдачей результата, эти страницы в индексе ПС не нужны и сканировать их роботу тоже не зачем — закрываем от индексации. И здесь вводим любой адрес любого результат поиска и смотрим, что получается.

ЧПУ — человеко понятные урлы

ЧПУ — это адрес любой страницы с понятным, читаемым урлом без всяких спецсимволов и сессий, как пример это адреса моего блога. Плохой пример на скрине ниже:ЧПУ

Если ваш сайт на русском, то в урле пишите текст на транслитерации, то есть русские слова но написанные латынью, если же на английском, тогда адрес писать стоит на нем. Еще небольшим плюсом есть фактор упоминания ключа в строке адреса сайта, это придает немного релевантности ))).

Не все рассмотреть подробно, но эти вещи еще не раз будут рассмотрены в этой рубрике, так что оставайтесь на связи и вы ничего не пропустите. До скорого.

← Этапы сбора СЯВнутренняя оптимизация →

6 Ответов в теме: Технический аудит сайта

  1. Юлия says:

    Про ЧПУ уточнение. Чем плохи урлы на кириллице?
    Вы пишете, что они должны быть обязательно транслитерированы. А у меня часть урлов сделано на кириллице и разницы в индексировании и ранжировании я не заметила. Еще вопрос про дубли страниц. Откуда они берутся? Вот я сделала страницу, никаких дублей нет. Но вдруг вижу, что в индексе яндекса появляются мои страницы с какими-то дополнительными значками. И получается, что это дубль? А откуда он взялся? Поиска на сайте у меня нет и ничего самостоятельно генерироваться там не может. Буду признательна за ответ. 🙂

    • Андрей says:

      Первое ЧПУ — бытует мнение среди сео специалистов, что кирилические урлы воспринимаются немного похуже любой ПС, чем латынь. Но это не доказано, а вот доказано, что передать кому-то такой урл будет стыдно и страшно, ибо при копировании его с адресной строки и вставки в блокнот вы заметите не слова на русском, а ужас.
      Второе дубли — нужно разбираться в cms, читать о ней, как она работает откуда могут браться дубли и так далее, также настроить идеально документ robots.txt, ну и заглядывать в панель вебмастеров на наличие битых или дублированных ссылок и конечно по быстрому все их исправлять.

  2. Андрей says:

    Хорошая инструкция. Действительно, перед началом продвижения любого сайта, необходимо сделать его технический аудит, иначе все последующие труды будут практически бесполезны.
    К вышеперечисленному я бы еще добавил наличие микроразметки сайта и канонического URL.

  3. Валерия says:

    Отличный план тех.аудита, с него всё и начинается, понравилось про настройку robots.txt. «Запорожец» в гонках Formula 1 это да :)))

  4. istihost says:

    Я бы еще дополнил материал упоминанием атрибутов:
    — rel=»canonical»,
    — rel=»alternate» hreflang=»x»,
    — alt и title для изображений (и внутренних ссылок по желанию).

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *