База знаний:
Причины нагрузки на сервер со стороны поисковых систем
Автор Дмитро Резнiченко, Last modified by Юлія Романюк на 19 April 2017 13:42 PM

Часто причиной высокой нагрузки на сервере могут быть поисковые системы.

Дело в том, что поисковые системы при индексации вашего аккаунта посылают одновременно большое количество запросов вашему сайту,

в результате этого так называемые основные скрипты Вашего сайта просто напросто зависают.

 

Для решения проблемы с запросами к сайту, в первую очередь необходимо определить сколько запросов к сайту было выполнено поисковыми системами.

 

Для этого вам нужно зайти на сервер используя SSH доступ ( если у Вас есть root доступ к серверу) и выполнить следующие команды:

 

  • для Yandex:

          grep 13/Apr/20013 /usr/local/apache/domlogs/example.org | grep Yandex | wc -l

 

  • для Google:

    grep 13/Apr/2013/usr/local/apache/domlogs/example.org | grep www.google.com/bot.html | wc -l



 

Вместо Yandex и www.google.com/bot.html можно использоватьидентификаторы других поисковых систем, узнать которые можно, обратившись в службу поддержки необходимой поисковой системы либо изучив лог доступа.

 

example.org - имя домена, расположенного на вашем аккаунте и о котором вы желаете получить информацию,13/Apr/20013 - дата, за которую Вы хотите получить информацию по запросам сайта.

 

При желании можно посмотреть статистику  по выполнению поисковых запросов за определённый период времени, если логи доступа не обнулялись со стороны сервера.

 

Кроме того, Вы можете настроить архивацию логов доступа в панели управления cPanel.

При этом логи будут архивироваться в Вашу домашнюю директорию и в любой момент Вы сможете проанализировать их.

 


 

Для создания и скачивания логов Вам нужно будет перейти в раздел Cpanel  Raw Access Log и выбрать необходимые Вам опции

на выбор:

 

1) Archive logs in your home directory at the end of each stats run[ [every 24 hour(s)~]]

2) Remove the previous month's archived logs from your home directory at the end of each month

 

Таким образом Ваши журналы логов будут архивироваться каждые 24 часа и после этого изменения будут сохраняться в отдельный

файл с логами  в Вашу домашнюю директорию.

 


Pис.Пример скачивания лога на локальный компьютер

 

 

 

После скачивания лога на свой компьютер вы можете выполнить детальный анализ подключений к сайту в определённое время. Лог для Вашего домена будет выглядеть следующим образом после скачивания:

 

66.249.75.176 - - [12/Apr/2013:06:47:08 +0000] "GET /robots.txt HTTP/1.1" 200 404 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

66.249.75.176 - - [12/Apr/2013:06:47:08 +0000] "GET /femme-sweat-capuche-veste-abercrombie-fitch-facile-%C3%A0-assortir-swea208sa-p-149.html HTTP/1.1" 404 1081 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

77.88.42.26 - - [12/Apr/2013:06:47:21 +0000] "GET / HTTP/1.1" 200 111 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

78.178.230.219 - - [12/Apr/2013:06:48:06 +0000] "GET /wp-admin/ HTTP/1.1" 404 1027 "-" "Mozilla/5.0 (Windows NT 6.1; rv:15.0) Gecko/20120716 Firefox/15.0a2"

78.178.230.219 - - [12/Apr/2013:06:48:07 +0000] "GET /wordpress/wp-admin/ HTTP/1.1" 404 1035 "-" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.15 (KHTML, like Gecko) Chrome/24.0.1295.0 Safari/537.15"

78.178.230.219 - - [12/Apr/2013:06:48:07 +0000] "GET /blog/wp-admin/ HTTP/1.1" 404 1030 "-" "Mozilla/5.0 (Windows; U; MSIE 9.0; WIndows NT 9.0; en-US))"

142.4.126.225 - - [12/Apr/2013:06:51:02 +0000] "GET /ugg/ HTTP/1.0" 404 2019 "http://www.uggbootsukonline.info/ugg/#comment-1475" "Mozilla/5.0 (Windows NT 6.1; rv:17.0) Gecko/17.0 Firefox/17.0"

142.4.126.225 - - [12/Apr/2013:06:51:02 +0000] "GET / HTTP/1.0" 200 111 "http://www.uggbootsukonline.info/" "Mozilla/5.0 (Windows NT 6.1; rv:17.0) Gecko/17.0 Firefox/17.0"



Если число поисковых запросов превышает 1000-1500 в результате проверки логов, пользователю однозначно необходимо принять необходимые меры, чтобы снизить нагрузку на сервер. В противном случае Вы можете получить уведомления от технической поддержки за превышение нагрузки на сервере.

 

Среди основных мер по снижению нагрузки от поисковых запросов можно выделить следующие:

 

1)  Создание  файла robots.txt в папке Вашего сайта public_html и прописывание в него следующих параметров:



 

 

  • User-agent: Yandex

  • Crawl-delay: 10

  • User-agent: Google

  • Crawl-delay: 10

 

Желательно сразу задавать параметры для нескольких типов поисковых систем, как в нашем случае для Yandex и Google.



2) Запрещение  индексации ненужных каталогов, например, для каталогов с картинками, админ части сайта и т.д:

 

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

 

3) Ограничение индексации и для других поисковых систем. Более детально о правилах файла robots.txt можно узнатьпо следующей ссылке

 

4) Создание карты сайта (sitemap), которая должна включать в себя дополнительную информацию о страницах сайта, которые подлежат индексации.

 

Sitemap предоставляет информацию поисковой системе относительно страниц сайта, которые требуют индексации.

 

Кроме того, с помощью Sitemap Вы можете узнать индексация каких страниц наиболее важна для Вашего сайта.

 

Карта сайта создаётся для сайта автоматически при установки готовой CMS системы для Вашего сайта. После установки CMS просто нужно активировать карту сайта и создать специальный для неё файл Sitemap.

 

В случае если Ваша система управления контентом не поддерживает карту сайта, можно использовать программы для Online генерации sitemap, например SiteMap Generator или Mysitemapgenerator .


В таком случае в программе онлайн генератора карты сайта просто нужно указать созданную карту сайта для поисковых систем  или добавить в robots.txt файл следующую конфигурацию: 

 



Если у Вас не получается самостоятельно определить причину нагрузки на сервер со стороны Вашего сайта, советуем обратится в техническую поддержку нашей компании.

(2 голос(а))
Эта статья полезна
Эта статья бесполезна