Zakaz indeksowania różnych typów plików robots.txt
Ostatnio w internecie, na jednym angielskim forum, znalazł listę polecenia blokujące indeksowanie plików do rozbudowy i różne adresy na stronie za pomocą pliku robots.txt. Uznałem, że może się to komuś przydać w trzech przypadkach.
- Jeśli nie chcesz pokazywać hakerom witryn, które sam zaprogramowałeś.
- Aby zapobiec indeksowaniu stron kanonicznych, strony, które są podobne i nie są brane pod uwagę przez wyszukiwarki, ale mogą obniżyć witrynę w wynikach wyszukiwania. Chociaż tylko twórcy wyszukiwarek i systemów analitycznych mogą to ocenić, jeśli to zrobią.
- Podczas opracowywania zamkniętej witryny pożądane jest również wskazanie zakazu indeksowania, ale możesz wprowadzić całkowity zakaz indeksowania witryny.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 |
So, maybe if instead of using User-agent: Googlebot-Image Disallow: / You tried: User-agent: Googlebot-Image Disallow: / User-agent: Googlebot Disallow: /images/ Disallow: /img/ Disallow: /icons/ Disallow: /icons/small/ Disallow: /gallery/ Disallow: /graphics/ Disallow: /gfx/ Disallow: /buttons/ Disallow: /thumbs/ Disallow: /thumbnails/ Disallow: /*.pdf$ Disallow: /*.ico$ Disallow: /*.tif$ Disallow: /*.pict$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.doc$ Disallow: /*.xls$ Disallow: /*.pps$ Disallow: /*.ppt$ Disallow: /*.eml$ Disallow: /*.url$ Disallow: /*.log$ Disallow: /*.txt$ Disallow: /*.js$ Disallow: /*.pac$ Disallow: /*.css$ Disallow: /*.csv$ Disallow: /*.ext$ Disallow: /*.class$ Disallow: /*.cls$ Disallow: /*.jar$ Disallow: /*.java$ Disallow: /*.c$ Disallow: /*.htx$ Disallow: /*.idc$ Disallow: /*.qry$ Disallow: /*.wo$ Disallow: /*.woa$ Disallow: /*.wos$ Disallow: /*.lp$ Disallow: /*.ls$ Disallow: /*.lsp$ Disallow: /*.au$ Disallow: /*.mid$ Disallow: /*.wav$ Disallow: /*.avi$ Disallow: /*.dat$ Disallow: /*.mov$ Disallow: /*.mpeg$ Disallow: /*.mpg$ Disallow: /*.dir$ Disallow: /*.dcr$ Disallow: /*.dxr$ Disallow: /*.aam$ Disallow: /*.aas$ Disallow: /*.aab$ Disallow: /*.fh$ Disallow: /*.spl$ Disallow: /*.swf$ Disallow: /*.fla$ Disallow: /*.ipx$ Disallow: /*.bin$ Disallow: /*.hqx$ Disallow: /*.sea$ Disallow: /*.sit$ Disallow: /*.dmg$ Disallow: /*.conf$ Disallow: /*.plist$ Disallow: /*.cab$ Disallow: /*.dll$ Disallow: /*.exe$ Disallow: /*.zip$ Disallow: /*.tar$ Disallow: /*.gz$ Disallow: /*.gzip$ Disallow: /*? Disallow: /*.t$ Disallow: /*.cgi$ Disallow: /*.pl$ Disallow: /*.plx$ Disallow: /*.pm$ Disallow: /*.py$ Disallow: /*.pyc$ |
1 2 |
User-Agent: * Disallow: / |
1 2 |
User-agent: Googlebot Disallow: /*.php$ |
/*
- Podstawowy kurs projektowania stron internetowych;
- Układ stron;
- Ogólny kurs CMS WordPress oraz kontynuacja kursu dotyczącego tworzenia szablonów;
- Tworzenie stron internetowych w PHP.
Witam, Powiedz mi, Proszę, co oznacza ciąg 88 Uniemożliwić: /*? – zakaz czego? strony bez rozszerzenia?
Myślę, że poprawne jest odczytanie tego w ten sposób. Nie indeksuj, jeśli wewnętrzne strony witryny mają żądanie GET.
Na przykład:
Więc będzie indeksować:
http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt/#comment-728559463
Ale takiego połączenia nie będzie:
http://wp-admin.com.ua/zapret-indeksatsii-raznyih-tipov-faylov-robots-txt?zapros=123
* – w tym przypadku oznacza dowolną liczbę dowolnych znaków między pierwszym (źródło) ukośnik w adresie i znak zapytania. Z grubsza mówiąc, wszystkie strony, na których w adresie jest znak zapytania.
Jeśli coś jest nie jasne pisz.