Запрет индексации разных типов файлов robots.txt
Недавно в интернете, на одном англоязычном форуме, нашел список команд для блокировки индексации файлов по расширению и различных адресов на сайте через файл robots.txt. Решил что может кому-то пригодиться в трех случаях.
- При нежелании показывать взломщикам сайтов которые вы сами программировали.
- В целях запрета индексации каноничных страниц, страниц которые похожи и не учитываются поисковыми системами но они могут понизить сайт в поисковой выдаче. Хотя об этом могут судить только разработчики поисковых систем и аналитические системы, если этим займутся.
- При разработке закрытого сайта желательно тоже указать запрет на индексацию, но можно сделать полный запрет на индексацию сайта.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 |
So, maybe if instead of using User-agent: Googlebot-Image Disallow: / You tried: User-agent: Googlebot-Image Disallow: / User-agent: Googlebot Disallow: /images/ Disallow: /img/ Disallow: /icons/ Disallow: /icons/small/ Disallow: /gallery/ Disallow: /graphics/ Disallow: /gfx/ Disallow: /buttons/ Disallow: /thumbs/ Disallow: /thumbnails/ Disallow: /*.pdf$ Disallow: /*.ico$ Disallow: /*.tif$ Disallow: /*.pict$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.doc$ Disallow: /*.xls$ Disallow: /*.pps$ Disallow: /*.ppt$ Disallow: /*.eml$ Disallow: /*.url$ Disallow: /*.log$ Disallow: /*.txt$ Disallow: /*.js$ Disallow: /*.pac$ Disallow: /*.css$ Disallow: /*.csv$ Disallow: /*.ext$ Disallow: /*.class$ Disallow: /*.cls$ Disallow: /*.jar$ Disallow: /*.java$ Disallow: /*.c$ Disallow: /*.htx$ Disallow: /*.idc$ Disallow: /*.qry$ Disallow: /*.wo$ Disallow: /*.woa$ Disallow: /*.wos$ Disallow: /*.lp$ Disallow: /*.ls$ Disallow: /*.lsp$ Disallow: /*.au$ Disallow: /*.mid$ Disallow: /*.wav$ Disallow: /*.avi$ Disallow: /*.dat$ Disallow: /*.mov$ Disallow: /*.mpeg$ Disallow: /*.mpg$ Disallow: /*.dir$ Disallow: /*.dcr$ Disallow: /*.dxr$ Disallow: /*.aam$ Disallow: /*.aas$ Disallow: /*.aab$ Disallow: /*.fh$ Disallow: /*.spl$ Disallow: /*.swf$ Disallow: /*.fla$ Disallow: /*.ipx$ Disallow: /*.bin$ Disallow: /*.hqx$ Disallow: /*.sea$ Disallow: /*.sit$ Disallow: /*.dmg$ Disallow: /*.conf$ Disallow: /*.plist$ Disallow: /*.cab$ Disallow: /*.dll$ Disallow: /*.exe$ Disallow: /*.zip$ Disallow: /*.tar$ Disallow: /*.gz$ Disallow: /*.gzip$ Disallow: /*? Disallow: /*.t$ Disallow: /*.cgi$ Disallow: /*.pl$ Disallow: /*.plx$ Disallow: /*.pm$ Disallow: /*.py$ Disallow: /*.pyc$ |
1 2 |
User-Agent: * Disallow: / |
1 2 |
User-agent: Googlebot Disallow: /*.php$ |

/*

- Базовый курс по веб-дизайну;
- Верстка сайтов;
- Общий курс по CMS WordPress и продолжение курса по разработке шаблонов;
- Разработка сайтов на PHP.
Здравствуйте, подскажите пожалуйста, что значит строка 88 Disallow: /*? — запрет чего? страниц без расширения?
Я думаю правильно это прочитать так. Не индексировать если У внутренних страниц сайта есть GET запрос.
Например:
Так индексировать будет:
http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt/#comment-728559463
А вот такую сслку не будет:
http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt?zapros=123
* — в данном случаи означает любое количество любых знаков между первым (корневым) слешем в адресе и знаком вопроса. Грубо говоря все страницы в которых есть знак вопроса в адресе.
Если что-то не понятно пишите.