Заборона індексації різних типів файлів robots.txt
Нещодавно в інтернеті, на одному англомовному форумі, знайшов список команд для блокування індексації файлів з розширення та різних адрес на сайті через файл robots.txt. Вирішив що може комусь стати в нагоді у трьох випадках.
- При небажанні показувати хакерам сайтів, які ви самі програмували.
- З метою заборони індексації канонічних сторінок, сторінок, які схожі і не враховуються пошуковими системами, але вони можуть знизити сайт у пошуковій видачі. Хоча про це можуть судити лише розробники пошукових систем та аналітичні системи, якщо цим займуться.
- При розробці закритого сайту також бажано вказати заборону на індексацію, але можна зробити повну заборону на індексацію сайту.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 |
So, maybe if instead of using User-agent: Googlebot-Image Disallow: / You tried: User-agent: Googlebot-Image Disallow: / User-agent: Googlebot Disallow: /images/ Disallow: /img/ Disallow: /icons/ Disallow: /icons/small/ Disallow: /gallery/ Disallow: /graphics/ Disallow: /gfx/ Disallow: /buttons/ Disallow: /thumbs/ Disallow: /thumbnails/ Disallow: /*.pdf$ Disallow: /*.ico$ Disallow: /*.tif$ Disallow: /*.pict$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.doc$ Disallow: /*.xls$ Disallow: /*.pps$ Disallow: /*.ppt$ Disallow: /*.eml$ Disallow: /*.url$ Disallow: /*.log$ Disallow: /*.txt$ Disallow: /*.js$ Disallow: /*.pac$ Disallow: /*.css$ Disallow: /*.csv$ Disallow: /*.ext$ Disallow: /*.class$ Disallow: /*.cls$ Disallow: /*.jar$ Disallow: /*.java$ Disallow: /*.c$ Disallow: /*.htx$ Disallow: /*.idc$ Disallow: /*.qry$ Disallow: /*.wo$ Disallow: /*.woa$ Disallow: /*.wos$ Disallow: /*.lp$ Disallow: /*.ls$ Disallow: /*.lsp$ Disallow: /*.au$ Disallow: /*.mid$ Disallow: /*.wav$ Disallow: /*.avi$ Disallow: /*.dat$ Disallow: /*.mov$ Disallow: /*.mpeg$ Disallow: /*.mpg$ Disallow: /*.dir$ Disallow: /*.dcr$ Disallow: /*.dxr$ Disallow: /*.aam$ Disallow: /*.aas$ Disallow: /*.aab$ Disallow: /*.fh$ Disallow: /*.spl$ Disallow: /*.swf$ Disallow: /*.fla$ Disallow: /*.ipx$ Disallow: /*.bin$ Disallow: /*.hqx$ Disallow: /*.sea$ Disallow: /*.sit$ Disallow: /*.dmg$ Disallow: /*.conf$ Disallow: /*.plist$ Disallow: /*.cab$ Disallow: /*.dll$ Disallow: /*.exe$ Disallow: /*.zip$ Disallow: /*.tar$ Disallow: /*.gz$ Disallow: /*.gzip$ Disallow: /*? Disallow: /*.t$ Disallow: /*.cgi$ Disallow: /*.pl$ Disallow: /*.plx$ Disallow: /*.pm$ Disallow: /*.py$ Disallow: /*.pyc$ |
1 2 |
User-Agent: * Disallow: / |
1 2 |
User-agent: Googlebot Disallow: /*.php$ |
/*
- Базовий курс з веб-дизайну;
- Верстка сайтів;
- Загальний курс CMS WordPress та продовження курсу з розробки шаблонів;
- Розробка сайтів на PHP.
Доброго дня, Підкажіть будь ласка, що означає рядок 88 Disallow: /*? – заборона чого? сторінок без розширення?
Я думаю правильно це прочитати так. Не індексувати якщо внутрішні сайти мають GET запит.
Наприклад:
Так індексуватиме:
http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt/#comment-728559463
А ось такого посилання не буде:
http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt?zapros=123
* – у цьому випадку означає будь-яку кількість будь-яких знаків між першим (кореневим) злішемо на адресу і знаком питання. Грубо кажучи, всі сторінки в яких є знак питання на адресу.
Якщо щось не зрозуміло пишіть.