Zakaz indeksowania różnych typów plików robots.txt

przez Nikołajenko Maksym · Opublikowany Wrzesień 20, 2012 · Zaktualizowano Styczeń 4, 2017

Ostatnio w internecie, na jednym angielskim forum, znalazł listę polecenia blokujące indeksowanie plików do rozbudowy i różne adresy na stronie za pomocą pliku robots.txt. Uznałem, że może się to komuś przydać w trzech przypadkach.

Jeśli nie chcesz pokazywać hakerom witryn, które sam zaprogramowałeś.
Aby zapobiec indeksowaniu stron kanonicznych, strony, które są podobne i nie są brane pod uwagę przez wyszukiwarki, ale mogą obniżyć witrynę w wynikach wyszukiwania. Chociaż tylko twórcy wyszukiwarek i systemów analitycznych mogą to ocenić, jeśli to zrobią.
Podczas opracowywania zamkniętej witryny pożądane jest również wskazanie zakazu indeksowania, ale możesz wprowadzić całkowity zakaz indeksowania witryny.

So, maybe if instead of using
User-agent: Googlebot-Image
Disallow: / 

You tried:
User-agent: Googlebot-Image
Disallow: /

User-agent: Googlebot
Disallow: /images/
Disallow: /img/
Disallow: /icons/
Disallow: /icons/small/
Disallow: /gallery/
Disallow: /graphics/
Disallow: /gfx/
Disallow: /buttons/
Disallow: /thumbs/
Disallow: /thumbnails/
Disallow: /*.pdf$
Disallow: /*.ico$
Disallow: /*.tif$
Disallow: /*.pict$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.doc$
Disallow: /*.xls$
Disallow: /*.pps$
Disallow: /*.ppt$
Disallow: /*.eml$
Disallow: /*.url$
Disallow: /*.log$
Disallow: /*.txt$
Disallow: /*.js$
Disallow: /*.pac$
Disallow: /*.css$
Disallow: /*.csv$
Disallow: /*.ext$
Disallow: /*.class$
Disallow: /*.cls$
Disallow: /*.jar$
Disallow: /*.java$
Disallow: /*.c$
Disallow: /*.htx$
Disallow: /*.idc$
Disallow: /*.qry$
Disallow: /*.wo$
Disallow: /*.woa$
Disallow: /*.wos$
Disallow: /*.lp$
Disallow: /*.ls$
Disallow: /*.lsp$
Disallow: /*.au$
Disallow: /*.mid$
Disallow: /*.wav$
Disallow: /*.avi$
Disallow: /*.dat$
Disallow: /*.mov$
Disallow: /*.mpeg$
Disallow: /*.mpg$
Disallow: /*.dir$
Disallow: /*.dcr$
Disallow: /*.dxr$
Disallow: /*.aam$
Disallow: /*.aas$
Disallow: /*.aab$
Disallow: /*.fh$
Disallow: /*.spl$
Disallow: /*.swf$
Disallow: /*.fla$
Disallow: /*.ipx$
Disallow: /*.bin$
Disallow: /*.hqx$
Disallow: /*.sea$
Disallow: /*.sit$
Disallow: /*.dmg$
Disallow: /*.conf$
Disallow: /*.plist$
Disallow: /*.cab$
Disallow: /*.dll$
Disallow: /*.exe$
Disallow: /*.zip$
Disallow: /*.tar$
Disallow: /*.gz$
Disallow: /*.gzip$
Disallow: /*?
Disallow: /*.t$
Disallow: /*.cgi$
Disallow: /*.pl$
Disallow: /*.plx$
Disallow: /*.pm$
Disallow: /*.py$
Disallow: /*.pyc$

So, maybe if instead of using

User-agent: Googlebot-Image

Disallow: /

You tried:

User-agent: Googlebot-Image

Disallow: /

User-agent: Googlebot

Disallow: /images/

Disallow: /img/

Disallow: /icons/

Disallow: /icons/small/

Disallow: /gallery/

Disallow: /graphics/

Disallow: /gfx/

Disallow: /buttons/

Disallow: /thumbs/

Disallow: /thumbnails/

Disallow: /*.pdf$

Disallow: /*.ico$

Disallow: /*.tif$

Disallow: /*.pict$

Disallow: /*.png$

Disallow: /*.gif$

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.doc$

Disallow: /*.xls$

Disallow: /*.pps$

Disallow: /*.ppt$

Disallow: /*.eml$

Disallow: /*.url$

Disallow: /*.log$

Disallow: /*.txt$

Disallow: /*.js$

Disallow: /*.pac$

Disallow: /*.css$

Disallow: /*.csv$

Disallow: /*.ext$

Disallow: /*.class$

Disallow: /*.cls$

Disallow: /*.jar$

Disallow: /*.java$

Disallow: /*.c$

Disallow: /*.htx$

Disallow: /*.idc$

Disallow: /*.qry$

Disallow: /*.wo$

Disallow: /*.woa$

Disallow: /*.wos$

Disallow: /*.lp$

Disallow: /*.ls$

Disallow: /*.lsp$

Disallow: /*.au$

Disallow: /*.mid$

Disallow: /*.wav$

Disallow: /*.avi$

Disallow: /*.dat$

Disallow: /*.mov$

Disallow: /*.mpeg$

Disallow: /*.mpg$

Disallow: /*.dir$

Disallow: /*.dcr$

Disallow: /*.dxr$

Disallow: /*.aam$

Disallow: /*.aas$

Disallow: /*.aab$

Disallow: /*.fh$

Disallow: /*.spl$

Disallow: /*.swf$

Disallow: /*.fla$

Disallow: /*.ipx$

Disallow: /*.bin$

Disallow: /*.hqx$

Disallow: /*.sea$

Disallow: /*.sit$

Disallow: /*.dmg$

Disallow: /*.conf$

Disallow: /*.plist$

Disallow: /*.cab$

Disallow: /*.dll$

Disallow: /*.exe$

Disallow: /*.zip$

Disallow: /*.tar$

Disallow: /*.gz$

Disallow: /*.gzip$

Disallow: /*?

Disallow: /*.t$

Disallow: /*.cgi$

Disallow: /*.pl$

Disallow: /*.plx$

Disallow: /*.pm$

Disallow: /*.py$

Disallow: /*.pyc$

Całkowity zakaz indeksowania witryny za pomocą pliku robots.txt zrobione tak:

User-Agent: *
Disallow: /

1 2	User-Agent: * Disallow: /

Zapobiegaj indeksowaniu plików php:

User-agent: Googlebot
Disallow: /*.php$

1 2	User-agent: Googlebot Disallow: /*.php$

Usługi korepetycji online. Lista kursów, które prowadzę

Podstawowy kurs projektowania stron internetowych;
Układ stron;
Ogólny kurs CMS WordPress oraz kontynuacja kursu dotyczącego tworzenia szablonów;
Tworzenie stron internetowych w PHP.

Czytaj więcej na stronie Nauczyciel WordPressa

Nastia mówi:

Grudzień 5, 2012 w 9:54 po południu

Witam, Powiedz mi, Proszę, co oznacza ciąg 88 Uniemożliwić: /*? – zakaz czego? strony bez rozszerzenia?

Odpowiedź
- Poradniki WordPressa mówi:
  
  Grudzień 6, 2012 w 3:03 po południu
  
  Myślę, że poprawne jest odczytanie tego w ten sposób. Nie indeksuj, jeśli wewnętrzne strony witryny mają żądanie GET.
  
  Na przykład:
  
  Więc będzie indeksować:
  
  http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt/#comment-728559463
  
  Ale takiego połączenia nie będzie:
  http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt?zapros=123
  
  * – w tym przypadku oznacza dowolną liczbę dowolnych znaków między pierwszym (źródło) ukośnik w adresie i znak zapytania. Z grubsza mówiąc, wszystkie strony, na których w adresie jest znak zapytania.
  
  Jeśli coś jest nie jasne pisz.
  
  Odpowiedź