Kā pareizi izveidot robota txt failu Kā rediģēt robotu txt failu

Robots.txt ir teksta fails, kas satur vietņu indeksēšanas parametrus meklētājprogrammu robotiem.

Ieteikumi par faila saturu

Yandex atbalsta šādas direktīvas:

Direktīvu Ko tas dara
Lietotāja aģents *
Neatļaut
Vietnes karte
Clean-param
Atļaut
Pārmeklēšanas aizkavēšanās

Mēs iesakām izmantot pārmeklēšanas ātruma iestatījumu

Direktīvu Ko tas dara
Lietotāja aģents * Norāda robotu, uz kuru attiecas failā robots.txt norādītie noteikumi.
Neatļaut Aizliedz vietņu sadaļu vai atsevišķu lapu indeksēšanu.
Vietnes karte Norāda ceļu uz vietnes kartes failu, kas tiek ievietots vietnē.
Clean-param Robotam norāda, ka lapas URL satur parametrus (piemēram, UTM tagus), kas būtu jāignorē, to indeksējot.
Atļaut Ļauj indeksēt vietņu sadaļas vai atsevišķas lapas.
Pārmeklēšanas aizkavēšanās

Norāda minimālo intervālu (sekundēs), kas meklēšanas robotam jāgaida pēc vienas lapas ielādes, pirms sākt citas lapas ielādi.

Ieteicams direktīvas vietā izmantot pārmeklēšanas ātruma iestatījumu vietnē Yandex.Webmaster.

* Obligāta direktīva.

Visbiežāk jums būs nepieciešamas direktīvas “Neatļaut”, “Vietnes karte” un “Clean-param”. Piemēram:

User-agent: * # norādiet robotus, kuriem direktīvas ir iestatītas Disallow: / bin / # atspējo saites no iepirkumu groza. Disallow: / search / # atspējo vietnē ievietotā meklēšanas lapu saites Disallow: / admin / # atspējo saites no administratora paneļa Vietnes karte: http://example.com/sitemap # norādiet robotam vietnes vietnes kartes failu Clean-param: ref /some_dir/get_book.pl

Roboti no citām meklētājprogrammām un pakalpojumiem var interpretēt direktīvas atšķirīgi.

Piezīme. Robots ņem vērā apakšvirkņu gadījumus (faila nosaukums vai ceļš, robota nosaukums) un ignorē reģistru nosaukumu nosaukumus.

Izmantojot kirilicas rakstzīmes

Faila robots.txt un servera HTTP galvenēs nav atļauts izmantot kirilicas alfabētu.

Domēna vārdiem izmantojiet Punycode. Lapu adresēm izmantojiet to pašu kodējumu kā pašreizējai vietnes struktūrai.

Labdien, dārgie draugi! Jūs visi zināt, ka meklētājprogrammu optimizācija ir atbildīgs un delikāts bizness. Lai iegūtu pieņemamu rezultātu, jums jāņem vērā absolūti visi sīkumi.

Šodien mēs runāsim par robots.txt - failu, kas ir pazīstams ikvienam tīmekļa pārzinim. Tieši tajā ir ierakstīti visi visvienkāršākie meklēšanas robotu norādījumi. Parasti viņi labprāt ievēro noteiktos norādījumus un nepareizas apkopošanas gadījumā atsakās indeksēt tīmekļa resursu. Tālāk es parādīšu, kā pareizi izveidot failu robots.txt, kā arī to, kā to iestatīt.

Priekšvārdā es jau aprakstīju, kas tas ir. Tagad es jums pastāstīšu, kāpēc jums tas ir vajadzīgs. Robots.txt ir neliels teksta fails, kas tiek glabāts vietnes saknē. To izmanto meklētājprogrammas. Tajā ir skaidri izklāstīti indeksēšanas noteikumi, tas ir, kuras vietnes sadaļas ir jāindeksē (jāpievieno meklēšanai) un kuras - ne.

Parasti vietnes tehniskās sadaļas ir slēgtas no indeksēšanas. Reizēm lapas, kas nav unikālas, tiek iekļautas melnajā sarakstā (piemērs tam ir privātuma politikas kopēšana un ielīmēšana). Šeit "robotiem ir izskaidroti" principi darbam ar sadaļām, kuras jāindeksē. Ļoti bieži noteikumi tiek noteikti vairākiem robotiem atsevišķi. Mēs par to runāsim tālāk.

Izmantojot atbilstošus robots.txt faila iestatījumus, jūsu vietnei tiks garantēts meklētājprogrammu rangu pieaugums. Roboti ņems vērā tikai noderīgu saturu, izņemot dublētās vai tehniskās sadaļas.

Failu robots.txt izveide

Lai izveidotu failu, jums vienkārši jāizmanto jūsu operētājsistēmas standarta funkcionalitāte un pēc tam augšupielādējiet to serverī, izmantojot FTP. Kur tas atrodas (serverī), ir viegli uzminēt - saknē. Šo mapi parasti sauc par public_html.

Jūs varat viegli nokļūt, izmantojot jebkuru FTP klientu (piemēram) vai iebūvēto failu pārvaldnieku. Protams, tukšu robotu serverī neielādēsim. Tur mēs pievienosim vairākas pamatdirektīvas (noteikumus).

Lietotāja aģents: *
Atļaut: /

Izmantojot šīs rindiņas savā robotu failā, jūs atsaucaties uz visiem robotiem (User-agent direktīva), ļaujot tiem pilnībā un pilnībā indeksēt jūsu vietni (ieskaitot visas šīs lapas Atļaut: /)

Protams, šī iespēja mums nav īpaši piemērota. Fails nebūs īpaši noderīgs meklētājprogrammas optimizācijai. Tas noteikti ir pareizi jānoskaņo. Bet pirms tam mēs apskatīsim visas pamatdirektīvas un robots.txt vērtības.

Direktīvas

Lietotāja aģentsViens no vissvarīgākajiem, jo ​​tas norāda, kuriem robotiem ievērot noteikumus, kas tam seko. Noteikumi tiek ņemti vērā līdz nākamajam lietotāja aģentam failā.
AtļautĻauj indeksēt visus resursu blokus. Piemēram: “/” vai “/tag/”.
NeatļautGluži pretēji, tas aizliedz starpsienu indeksēšanu.
Vietnes karteCeļš uz vietnes karti (xml formātā).
SaimnieksGalvenais spogulis (ar vai bez www, vai ja jums ir vairāki domēni). Šeit ir norādīts arī drošs protokols https (ja pieejams). Ja jums ir standarta http, tas nav jānorāda.
Pārmeklēšanas aizkavēšanāsAr tās palīdzību jūs varat iestatīt intervālus, lai roboti varētu apmeklēt un lejupielādēt savas vietnes failus. Palīdz samazināt resursdatora slodzi.
Clean-paramĻauj atspējot parametru indeksēšanu noteiktās lapās (piemēram, www.site.com/cat/state?admin_id8883278).
Atšķirībā no iepriekšējām direktīvām šeit ir norādītas 2 vērtības (adrese un pats parametrs).

Šie ir visi noteikumi, kurus atbalsta vadošās meklētājprogrammas. Ar viņu palīdzību mēs izveidosim savus robotus, kas darbosies ar dažādām variācijām visdažādākajiem vietņu veidiem.

Pielāgošana

Lai pareizi konfigurētu robotu failu, mums precīzi jāzina, kuras vietnes sadaļas ir jāindeksē un kuras - ne. Vienkāršas vienas lapas gadījumā html + css mums vienkārši jāraksta dažas pamatdirektīvas, piemēram:

Lietotāja aģents: *
Atļaut: /
Vietnes karte: site.ru/sitemap.xml
Saimnieks: www.site.ru

Šeit mēs esam norādījuši noteikumus un vērtības visām meklētājprogrammām. Bet labāk ir pievienot atsevišķas direktīvas Google un Yandex. Tas izskatīsies šādi:

Lietotāja aģents: *
Atļaut: /

Lietotāja aģents: Yandex
Atļaut: /
Neatļaut: / politika

User-agent: GoogleBot
Atļaut: /
Neatļaut: / tags /

Vietnes karte: site.ru/sitemap.xml
Saimnieks: site.ru

Tagad absolūti visi faili tiks indeksēti mūsu html vietnē. Ja mēs vēlamies izslēgt lapu vai attēlu, mums ir jānorāda relatīvā saite uz šo fragmentu sadaļā Neatļaut.

Jūs varat izmantot robotu automātiskos failu ģenerēšanas pakalpojumus. Es negarantēju, ka ar viņu palīdzību jūs izveidosit pilnīgi pareizu versiju, bet kā ceļvedis varat mēģināt.

Šie pakalpojumi ietver:

Ar viņu palīdzību jūs varat automātiski izveidot failu robots.txt. Personīgi es ļoti neiesaku šo iespēju, jo to ir daudz vieglāk izdarīt manuāli, konfigurējot to savai platformai.

Runājot par platformām, es domāju visu veidu CMS, ietvarus, SaaS sistēmas un daudz ko citu. Tālāk mēs runāsim par to, kā pielāgot WordPress un Joomla robotu failu.

Bet pirms tam izceļam vairākus universālus noteikumus, kurus var ievērot, veidojot un konfigurējot robotus gandrīz jebkurai vietnei:

Mēs pārtraucam indeksēšanu (neatļaut):

  • vietnes administratora panelis;
  • personīgais konts un reģistrācijas / autorizācijas lapas;
  • iepirkumu grozs, dati no pasūtījuma veidlapām (tiešsaistes veikalam);
  • mape cgi (atrodas resursdatorā);
  • pakalpojumu sadaļas;
  • ajax un json skripti;
  • Tagi UTM un Openstat;
  • dažādi parametri.

Atvērt (atļaut):

  • Attēli;
  • JS un CSS faili;
  • citi elementi, kas būtu jāņem vērā meklētājprogrammām.

Turklāt beigās neaizmirstiet norādīt vietnes kartes (ceļš uz vietnes karti) un saimniekdatora (galvenā spoguļa) datus.

Robots.txt WordPress

Lai izveidotu failu, mums ir jāmet robots.txt vietnes saknē tādā pašā veidā. Šajā gadījumā būs iespējams mainīt tā saturu, izmantojot tos pašus FTP un failu pārvaldniekus.

Ir arī ērtāka iespēja - izveidot failu, izmantojot spraudņus. Jo īpaši Yoast SEO ir šāda funkcija. Ir daudz ērtāk rediģēt robotus tieši no administratora apgabala, tāpēc es pats izmantoju šo metodi darbam ar failu robots.txt.

Tas, kā jūs nolemjat izveidot šo failu, ir atkarīgs no jums, mums ir svarīgāk saprast, kurām direktīvām tur jābūt. Savās vietnēs, kurās darbojas WordPress, es izmantoju šo opciju:

User-agent: * # noteikumi visiem robotiem, izņemot Google un Yandex

Neatļaut: / cgi-bin # mape ar skriptiem
Neatļaut: /? # parametru pieprasījumi no mājas lapas
Neatļaut: / wp- # paša CSM faili (ar prefiksu wp-)
Neatļaut: *? S = # \
Neatļaut: * & s = # viss, kas saistīts ar meklēšanu
Neatļaut: / search / # /
Neatļaut: / author / # autoru arhīvs
Neatļaut: / users / # un lietotāji
Neatļaut: * / trackback # WP paziņojumi, ko kāds ar jums saista
Neatļaut: * / plūsma # plūsma xml
Neatļaut: * / rss # un rss
Neatļaut: * / iegult # iekļautie elementi
Neatļaut: /xmlrpc.php # WordPress API
Neatļaut: * utm = # UTM tagi
Neatļaut: * openstat = # Openstat tagi
Neatļaut: / tag / #tagi (ja pieejami)
Atļaut: * / augšupielādes # atvērtas lejupielādes (attēli utt.)

Lietotāja aģents: GoogleBot # Google
Neatļaut: / cgi-bin
Neatļaut: /?
Neatļaut: / wp-
Neatļaut: *? S =
Neatļaut: * & s =
Neatļaut: / search /
Neatļaut: / author /
Neatļaut: / users /
Neatļaut: * / trackback
Neatļaut: * / plūsma
Neatļaut: * / rss
Neatļaut: * / iegult
Neatļaut: /xmlrpc.php
Neatļaut: * utm =
Neatļaut: * openstat =
Neatļaut: / tag /
Atļaut: * / augšupielādes
Atļaut: /*/*.js # atveriet JS failus
Atļaut: /*/*.css # un CSS
Atļaut: /wp-*.png # un attēli png formātā
Atļaut: /wp-*.jpg # \
Atļaut: /wp-*.jpeg # un citos formātos
Atļaut: /wp-*.gif # /
# darbojas ar spraudņiem

Lietotāja aģents: Yandex # Yandex
Neatļaut: / cgi-bin
Neatļaut: /?
Neatļaut: / wp-
Neatļaut: *? S =
Neatļaut: * & s =
Neatļaut: / search /
Neatļaut: / author /
Neatļaut: / users /
Neatļaut: * / trackback
Neatļaut: * / plūsma
Neatļaut: * / rss
Neatļaut: * / iegult
Neatļaut: /xmlrpc.php
Neatļaut: / tag /
Atļaut: * / augšupielādes
Atļaut: /*/*.js
Atļaut: /*/*.css
Atļaut: /wp-*.png
Atļaut: /wp-*.jpg
Atļaut: /wp-*.jpeg
Atļaut: /wp-*.gif
Atļaut: /wp-admin/admin-ajax.php
# tīri UTM tagi
Clean-Param: openstat # un neaizmirstiet par Openstat

Vietnes karte: # uzrakstiet ceļu uz vietnes karti
Saimnieks: https://site.ru #galvenais spogulis

Uzmanību! Kopējot rindas failā, neaizmirstiet noņemt visus komentārus (teksts aiz #).

Šī robots.txt iespēja ir vispopulārākā WP tīmekļa pārziņu vidū. Vai viņš ir ideāls? Nē. Jūs varat mēģināt kaut ko pievienot vai noņemt. Bet paturiet prātā, ka, optimizējot robotu teksta redaktoru, kļūdas nav retums. Mēs par tiem runāsim tālāk.

Robots.txt Joomla

Un, lai gan 2018. gadā Joomla reti kurš izmanto, es uzskatu, ka šo brīnišķīgo CMS nevar ignorēt. Reklamējot projektus Joomla, jums noteikti būs jāizveido robotu fails, pretējā gadījumā kā jūs vēlaties slēgt nevajadzīgos elementus no indeksēšanas?

Tāpat kā iepriekšējā gadījumā, jūs varat izveidot failu manuāli, vienkārši augšupielādējot to resursdatorā, vai arī varat izmantot moduli šiem mērķiem. Abos gadījumos jums tas būs pareizi jākonfigurē. Pareizā Joomla versija izskatīsies šādi:

Lietotāja aģents: *
Atļaut: /*.css?*$
Atļaut: /*.js?*$
Atļaut: /*.jpg?*$
Atļaut: /*.png?*$
Neatļaut: / cache /
Neatļaut: /*.pdf
Neatļaut: / administrator /
Neatļaut: / instalēšana /
Neatļaut: / cli /
Neatļaut: / bibliotēkas /
Neatļaut: / language /
Neatļaut: / sastāvdaļas /
Neatļaut: / modules /
Neatļaut: / ietver /
Neatļaut: / bin /
Neatļaut: / komponents /
Neatļaut: / tmp /
Neatļaut: /index.php
Neatļaut: / plugins /
Neatļaut: / * mailto /

Neatļaut: / logs /
Neatļaut: / komponents / tagi *
Neatļaut: / *%
Neatļaut: / izkārtojumi /

Lietotāja aģents: Yandex
Neatļaut: / cache /
Neatļaut: /*.pdf
Neatļaut: / administrator /
Neatļaut: / instalēšana /
Neatļaut: / cli /
Neatļaut: / bibliotēkas /
Neatļaut: / language /
Neatļaut: / sastāvdaļas /
Neatļaut: / modules /
Neatļaut: / ietver /
Neatļaut: / bin /
Neatļaut: / komponents /
Neatļaut: / tmp /
Neatļaut: /index.php
Neatļaut: / plugins /
Neatļaut: / * mailto /

Neatļaut: / logs /
Neatļaut: / komponents / tagi *
Neatļaut: / *%
Neatļaut: / izkārtojumi /

User-agent: GoogleBot
Neatļaut: / cache /
Neatļaut: /*.pdf
Neatļaut: / administrator /
Neatļaut: / instalēšana /
Neatļaut: / cli /
Neatļaut: / bibliotēkas /
Neatļaut: / language /
Neatļaut: / sastāvdaļas /
Neatļaut: / modules /
Neatļaut: / ietver /
Neatļaut: / bin /
Neatļaut: / komponents /
Neatļaut: / tmp /
Neatļaut: /index.php
Neatļaut: / plugins /
Neatļaut: / * mailto /

Neatļaut: / logs /
Neatļaut: / komponents / tagi *
Neatļaut: / *%
Neatļaut: / izkārtojumi /

Saimnieks: site.ru # neaizmirstiet šeit mainīt adresi uz savu
Vietnes karte: site.ru/sitemap.xml # un šeit

Parasti tas ir pietiekami, lai novērstu nevajadzīgu failu nokļūšanu rādītājā.

Konfigurācijas kļūdas

Ļoti bieži cilvēki pieļauj kļūdas, veidojot un konfigurējot robotus. Šeit ir visizplatītākie:

  • Noteikumi ir norādīti tikai lietotāja aģentam.
  • Trūkst saimniekdatora un vietnes kartes.
  • Http protokola klātbūtne resursdatora direktīvā (jānorāda tikai https).
  • Atverot / aizverot attēlus, ligzdošanas noteikumu neievērošana.
  • UTM un Openstat tagi nav aizvērti.
  • Uzņēmēja un vietnes kartes norādījumu noteikšana katram robotam.
  • Faila virsmas izpēte.

Ir ļoti svarīgi pareizi konfigurēt šo mazo failu. Ja pieļaujat rupjas kļūdas, varat zaudēt ievērojamu satiksmes daļu, tāpēc, veicot iestatīšanu, esiet ārkārtīgi uzmanīgs.

Kā pārbaudīt failu?

Šiem nolūkiem labāk ir izmantot Yandex un Google īpašos pakalpojumus, jo šīs meklētājprogrammas ir vispopulārākās un pieprasītākās (visbiežāk izmantotās), nav jēgas apsvērt tādas meklētājprogrammas kā Bing, Yahoo vai Rambler.

Vispirms apsveriet iespēju ar Yandex. Mēs ejam pie tīmekļa pārziņa. Pēc tam dodieties uz Rīki - Robots.txt analīze.

Šeit jūs varat pārbaudīt, vai failā nav kļūdu, kā arī reālā laikā pārbaudīt, kuras lapas ir atvērtas indeksēšanai un kuras nav. Ļoti ērti.

Google piedāvā tieši tādu pašu pakalpojumu. Iet uz Search Console... Atrodiet cilni Skenēšana, atlasiet - Robots.txt failu pārbaudes rīks.

Šeit ir tieši tādas pašas funkcijas kā vietējā pakalpojumā.

Lūdzu, ņemiet vērā, ka man tiek rādītas 2 kļūdas. Tas ir saistīts ar faktu, ka Google neatzīst direktīvas par parametru dzēšanu, ko norādīju Yandex:

Clean-Param: utm_source & utm_medium & utm_campaign
Clean-Param: openstat

Jums nevajadzētu tam pievērst uzmanību, jo Google roboti izmanto tikai GoogleBot noteikumus.

Secinājums

Fails robots.txt ir ļoti svarīgs jūsu vietnes SEO optimizācijai. Pieejiet tās iestatījumam ar visu atbildību, jo, ja tas tiek īstenots nepareizi, viss var sabrukt.

Apsveriet visus šajā rakstā kopīgotos norādījumus un neaizmirstiet, ka jums nav precīzi jākopē mani roboti. Iespējams, ka jums būs papildus jāizprot katra no direktīvām, pielāgojot lietu konkrētajam gadījumam.

Un, ja vēlaties iedziļināties robots.txt un WordPress vietņu veidošanā, tad es jūs aicinu. Tajā jūs uzzināsit, kā viegli izveidot vietni, neaizmirstot to optimizēt meklētājprogrammām.

Robots.txt- tas ir teksta fails, kas atrodas vietnes saknē - http://site.ru/robots.txt... Tās galvenais mērķis ir noteikt noteiktas direktīvas meklētājprogrammām - ko un kad darīt vietnē.

Vienkāršākais robots.txt

Vienkāršākais fails robots.txt, kas ļauj visām meklētājprogrammām visu indeksēt, izskatās šādi:

Lietotāja aģents: *
Neatļaut:

Ja direktīvas “Neatļaut” beigās nav slīpsvītras, visas lapas ir atļautas indeksēšanai.

Šī direktīva pilnībā aizliedz vietnes indeksēšanu:

Lietotāja aģents: *
Neatļaut: /

User-agent-norāda, kam direktīvas ir paredzētas, zvaigznīte norāda, ka visiem PS, Yandex gadījumā norāda User-agent: Yandex.

Yandex palīdzība saka, ka tās meklēšanas roboti apstrādā User-agent: *, bet, ja ir User-agent: Yandex, User-agent: * tiek ignorēts.

Neatļaut un atļaut direktīvas

Ir divas galvenās direktīvas:

Neatļaut - noliegt

Atļaut - atļaut

Piemērs: Emuārā tika aizliegts indeksēt mapi / wp-content /, kurā atrodas spraudņu faili, veidne utt. Bet ir arī attēli, kas PS ir jāindeksē, lai piedalītos attēlu meklēšanā. Lai to izdarītu, jums jāizmanto šāda shēma:

Lietotāja aģents: *
Atļaut: / wp-content / uploads / # Atļaut augšupielāžu mapē esošo attēlu indeksēšanu
Neatļaut: / wp-content /

Kārtība, kādā direktīvas tiek izmantotas, Yandex ir svarīga, ja tās attiecas uz tām pašām lapām vai mapēm. Ja norādāt šādi:

Lietotāja aģents: *
Neatļaut: / wp-content /
Atļaut: / wp-content / uploads /

Yandex robots augšupielādēs attēlus no direktorija / uploads /, jo tiek izpildīta pirmā direktīva, kas liedz visu piekļuvi mapei wp-content.

Google ir vienkāršāka un ievēro visas robots.txt failā ietvertās direktīvas neatkarīgi no to atrašanās vietas.

Tāpat neaizmirstiet, ka direktīvām ar slīpsvītru un bez tās ir atšķirīga loma:

Neatļaut: / par Tiek liegta piekļuve visam direktorijam site.ru/about/, un netiks indeksētas arī lapas, kas satur aptuveni - site.ru/about.html, site.ru/aboutlive.html utt.

Neatļaut: / par / Tas aizliegs robotiem indeksēt vietnes direktorijā site.ru/about/ esošās lapas un tipa site.ru/about.html lapas utt. būs pieejams indeksēšanai.

Regulārās izteiksmes failā robots.txt

Tiek atbalstītas divas rakstzīmes:

* - nozīmē jebkuru rakstzīmju secību.

Piemērs:

Neatļaut: / apmēram * liegs piekļuvi visām lapām, kurās principā ir bez zvaigznītes, šāda direktīva arī darbosies. Bet dažos gadījumos šo izteicienu nevar aizstāt. Piemēram, vienā kategorijā ir lapas ar .html beigās un bez tā, lai no indeksēšanas aizvērtu visas lapas, kurās ir html, mēs uzrakstām šādu direktīvu:

Neatļaut: /about/*.html

Tagad vietņu site.ru/about/live.html indeksēšana ir slēgta, un lapa site.ru/about/live ir atvērta.

Vēl viens piemērs pēc analoģijas:

Lietotāja aģents: Yandex
Atļaut: /bout/*.html # atļaut indeksēšanu
Neatļaut: / par /

Visas lapas tiks aizvērtas, izņemot lapas, kas beidzas ar .html

$ - nogriež atlikušo daļu un iezīmē līnijas beigas.

Piemērs:

Neatļaut: / par- Šī direktīva robots.txt aizliedz indeksēt visas lapas, kas sākas ar aptuveni, kā arī aizliedz lapas mapē / about /.

Beigās pievienojot dolāra zīmi - Disallow: / about $, mēs informēsim robotus, ka nav iespējams indeksēt tikai lapu / par, un / about / direktoriju, / aboutlive lapas utt. var indeksēt.

Vietnes karšu direktīva

Šī direktīva nosaka ceļu uz vietnes karti šādi:

Vietnes karte: http: //site.ru/sitemap.xml

Uzņēmēja direktīva

Norādīts šādā formā:

Saimnieks: site.ru

Nav http: //, slīpi slīpsvītras un tamlīdzīgi. Ja jums ir vietnes galvenais spogulis ar www, tad rakstiet:

Bitrix robots.txt piemērs

Lietotāja aģents: *
Neatļaut: /*index.php$
Neatļaut: / bitrix /
Neatļaut: / auth /
Neatļaut: / personisks /
Neatļaut: / augšupielādēt /
Neatļaut: / search /
Neatļaut: / * / search /
Neatļaut: / * / slide_show /
Neatļaut: / * / galerija / * pasūtījums = *
Vai neatļaut: / *? *
Neatļaut: / * & print =
Neatļaut: / * register =
Neatļaut: / * aizmirsu paroli =
Neatļaut: / * mainīt_paroli =
Neatļaut: / * login =
Neatļaut: / * logout =
Neatļaut: / * auth =
Neatļaut: / * darbība = *
Neatļaut: / * bitrix _ * =
Neatļaut: / * backurl = *
Neatļaut: / * BACKURL = *
Neatļaut: / * back_url = *
Neatļaut: / * BACK_URL = *
Neatļaut: / * back_url_admin = *
Neatļaut: / * print_course = Y
Neatļaut: / * COURSE_ID =
Neatļaut: / * PAGEN_ *
Neatļaut: / * PAGE_ *
Neatļaut: / * SHOWALL
Neatļaut: / * show_all =
Saimnieks: sitename.ru
Vietnes karte: https://www.sitename.ru/sitemap.xml

Robots.txt piemērs WordPress

Pēc tam, kad ir pievienotas visas nepieciešamās direktīvas, kas aprakstītas iepriekš. Jums vajadzētu iegūt kaut ko līdzīgu šim robota failam:

Šī ir robots.txt pamata versija wordpress, tā sakot. Ir divi lietotāja aģenti - viens visiem un otrs Yandex, kur ir norādīta resursdatora direktīva.

Meta robotu tagi

Ir iespējams bloķēt lapas vai vietnes indeksēšanu ne tikai ar failu robots.txt, bet arī ar metatagu.

<meta name = "robots" content = "noindex, nofollow">

Tam jābūt reģistrētam tagā, un šis metatags aizliedz vietnes indeksēšanu. WordPress ir spraudņi, kas ļauj atklāt šādus metatagus, piemēram - Platinum Seo Pack. Ar to jūs varat aizvērt jebkuru lapu no indeksēšanas, tā izmanto metatagus.

Pārmeklēšanas aizkavēšanās direktīva

Izmantojot šo direktīvu, varat iestatīt laiku, kurā meklēšanas robotam vajadzētu pārtraukt starp vietnes lapu lejupielādi.

Lietotāja aģents: *
Pārmeklēšanas aizkavēšanās: 5

Taimauts starp divu lapu ielādi būs 5 sekundes. Lai samazinātu servera slodzi, parasti iestatiet 15-20 sekundes. Šī direktīva ir nepieciešama lielām, bieži atjauninātām vietnēm, kurās meklēšanas roboti vienkārši “dzīvo”.

Parastajām vietnēm / emuāriem šī direktīva nav nepieciešama, taču tādējādi jūs varat ierobežot citu neatbilstošu meklēšanas robotu (Rambler, Yahoo, Bing) u.c. Galu galā viņi arī dodas uz vietni un indeksē to, tādējādi radot slodzi serverim.

Pareiza un kompetenta saknes robots.txt iestatīšana ir viens no vissvarīgākajiem WEB vedņa uzdevumiem. Nepiedodamu kļūdu gadījumā meklēšanas rezultātos var parādīties daudzas nevajadzīgas vietnes lapas. Vai, gluži pretēji, jūsu vietnes svarīgi dokumenti tiks slēgti indeksēšanai, sliktākajā gadījumā varat aizvērt visu domēna saknes direktoriju meklēšanas robotiem.

Pareiza faila robots.txt iestatīšana ar savām rokām patiesībā nav ļoti grūts uzdevums. Pēc šī raksta lasīšanas jūs uzzināsit direktīvu sarežģītību un patstāvīgi uzrakstīsit noteikumus par failu robots.txt savā vietnē.

Lai izveidotu failu robots.txt, tiek izmantota īpaša, bet ne sarežģīta sintakse. Nav izmantotas daudzas direktīvas. Soli pa solim un detalizēti apskatīsim faila robots.txt noteikumus, struktūru un sintaksi.

Vispārīgi robots.txt noteikumi

Pirmkārt, pašam failam robots.txt ir jābūt kodētam ANSI.

Otrkārt, noteikumu rakstīšanai nevar izmantot nevienu nacionālo alfabētu, iespējams tikai latīņu alfabēts.

Strukturāli fails robots.txt var sastāvēt no viena vai vairākiem instrukciju blokiem, atsevišķi robotiem no dažādām meklētājprogrammām. Katram blokam vai sadaļai ir noteikumu kopums (direktīvas) vietnes indeksēšanai ar noteiktu meklētājprogrammu.

Pašās direktīvās, noteikumu blokos un starp tām nav atļautas nekādas papildu galvenes un simboli.

Direktīvas un noteikumu blokus atdala rindu pārtraukumi. Vienīgais pieņēmums ir komentāri.

Robots.txt komentēšana

Simbols "#" tiek izmantots komentēšanai. Ja rindas sākumā ievietojat jaukšanas simbolu, meklēšanas roboti visu saturu ignorē līdz rindas beigām.

Lietotāja aģents: *
Neatļaut: / css # rakstīt komentāru
# Uzrakstiet citu komentāru
Neatļaut: / img

Sadaļas failā robots.txt

Kad robots lasa failu, tiek izmantota tikai šī meklētājprogrammas robotam adresētā sadaļa, tas ir, ja lietotāja aģenta sadaļā ir Yandex meklētājprogrammas nosaukums, tad robots lasīs tikai tai adresēto sadaļu , ignorējot citus, jo īpaši sadaļu ar direktīvu visiem robotiem - User -agent: *.

Katra no sadaļām ir neatkarīga. Var būt vairākas sadaļas katras vai dažu meklētājprogrammu robotiem vai viena universāla sadaļa visiem robotiem vai vienas sistēmas robotiem. Ja ir tikai viena sadaļa, tad tā sākas no faila pirmās rindas un aizņem visas rindas. Ja ir vairākas sadaļas, tās jāatdala vismaz ar vienu tukšu rindu.

Sadaļa vienmēr sākas ar User-agent direktīvu un satur tās meklētājprogrammas nosaukumu, kurai tā paredzēta robotiem, ja tā nav universāla sadaļa visiem robotiem. Praksē tas izskatās šādi:

Lietotāja aģents: YandexBot
# lietotāja aģents Yandex sistēmas robotiem
Lietotāja aģents: *
# lietotāju aģents visiem robotiem

Ir aizliegts uzskaitīt vairākus robotu nosaukumus. Katras meklētājprogrammas robotprogrammatūrām tiek izveidota sava sadaļa, atsevišķs noteikumu bloks. Ja jūsu gadījumā noteikumi visiem robotiem ir vienādi, izmantojiet vienu universālu, kopēju sadaļu.

Kādas ir direktīvas?

Direktīva ir komanda vai noteikums, kas informē meklēšanas robotu par noteiktu informāciju. Direktīva nosaka meklēšanas robotam, kā indeksēt jūsu vietni, kurus direktorijus neskatīties, kur atrodas XML vietnes karte, kurš domēna nosaukums ir galvenais spogulis, un dažas citas tehniskas detaļas.

Sadaļa robots.txt sastāv no atsevišķām komandām,
direktīvas. Direktīvu vispārējā sintakse ir šāda:

[Direktīvas nosaukums]: [izvēles atstarpe] [vērtība] [izvēles vieta]

Direktīva ir uzrakstīta vienā rindā, bez defisēm. Saskaņā ar pieņemtajiem standartiem rindas atstarpe starp direktīvām vienā sadaļā nav pieļaujama, tas ir, visas vienas sadaļas direktīvas ir uzrakstītas katrā rindā bez papildu rindu atstarpēm.

Aprakstīsim izmantoto galveno direktīvu nozīmi.

Direktīva par neatļaušanu

Visbiežāk izmantotā direktīva failā robots.txt ir “Neatļaut”. Direktīva "Neatļaut" aizliedz tajā norādītā ceļa indeksēšanu. Tā var būt atsevišķa lapa, lapas, kuru URL (ceļš) satur norādīto "masku", vietnes daļa, atsevišķs direktorijs (mape) vai visa vietne.

"*" - zvaigznīte nozīmē - "neierobežots rakstzīmju skaits". Tas nozīmē, ka/ mapes * ceļš ir tāds pats kā “/ mapes”, “/ mape1”, “/ mape111”, “/ mapesssss” vai “/ mape”. Roboti, lasot noteikumus, automātiski pievieno zīmi "*". Zemāk redzamajā piemērā abas direktīvas ir absolūti līdzvērtīgas:

Neatļaut: / ziņas
Neatļaut: / ziņas *

"$" - dolāra zīme aizliedz robotiem automātiski pievienot rakstzīmi "*", lasot direktīvas(zvaigznīte) direktīvas beigās. Citiem vārdiem sakot, rakstzīme "$" apzīmē salīdzināšanas virknes beigas. Tas ir, mūsu piemērā mēs aizliedzam mapes “/ folder” indeksēšanu, bet neaizliedzam to mapēs “/ folder1”, “/ folder111” vai “/ foldersssss”:

Lietotāja aģents: *
Neatļaut: / mape $

"#" - (asa) komentāra atzīme... Viss, kas rakstīts pēc šīs ikonas, vienā rindā ar to, meklētājprogrammas ignorē.

Atļaut direktīvu

Faila robots.txt direktīva ALLOW ir pretēja DISSALOW direktīvai, ko atļauj ALLOW direktīva. Tālāk redzamais piemērs rāda, ka mēs aizliedzam visas vietnes indeksēšanu, izņemot / mapi:

Lietotāja aģents: *
Atļaut: / mapi
Neatļaut: /

“Atļaut”, “Neatļaut” un prioritātes vienlaicīgas lietošanas piemērs

Precizējot direktīvas, neaizmirstiet par aizliegumu un atļauju prioritātes izpratni. Iepriekš prioritāti norādīja aizliegumu un atļauju izsludināšanas secība. Tagad prioritāti nosaka, meklētājprogrammas robotam (User-agent) norādot maksimālo esošo ceļu vienā blokā, palielinot ceļa garumu un vietu, kur norādīta direktīva, jo garāks ceļš, jo lielāka prioritāte:

Lietotāja aģents: *
Atļaut: / mapes
Neatļaut: / mape

Iepriekš minētajā piemērā ir atļauta vietrāžu URL indeksēšana, kas sākas ar “/ mapes”, taču tas ir aizliegts ceļos, kuru vietrāžos URL ir “/ folder”, “/ folderssss” vai “/ folder2”. Gadījumā, ja abas direktīvas "Atļaut" un "Neatļaut" nonāk vienā un tajā pašā ceļā, priekšroka tiek dota direktīvai "Atļaut".

Tukša parametra vērtība direktīvās "Atļaut" un "Neatļaut"

WEB meistaru kļūdas, atrodoties failā robots.txt direktīvā "Neatļaut"
viņi aizmirst iekļaut simbolu "/". Tā ir nepareiza, kļūdaina direktīvu nozīmes un to sintakses interpretācija. Tā rezultātā aizlieguma direktīva kļūst pieļaujama: “Disallow:” ir absolūti identisks “Allow: /”. Pareizais aizliegums indeksēt visu vietni izskatās šādi:

To pašu var teikt par “Atļaut:”. Direktīva "Atļaut:" bez rakstzīmes " /" aizliedz visas vietnes indeksēšanu, tāpat kā "Neatļaut: /".

Vietnes karšu direktīva

Saskaņā ar visiem SEO optimizācijas kanoniem jums ir jāizmanto vietnes karte (SITEMAP) XML formātā un jānodrošina tā meklētājprogrammām.

Neskatoties uz "tīmekļa pārziņu skapju" funkcionalitāti meklētājprogrammās, izmantojot direktīvu, ir jāpaziņo par vietnes sitemap.xml klātbūtni failā robots.txt. SITEMAP". Pārmeklējot jūsu vietni, meklēšanas roboti redzēs norādi par failu sitemap.xml un noteikti to izmantos nākamajās pārmeklēšanas reizēs. Vietnes karšu direktīvas izmantošanas piemērs failā robots.txt:

Lietotāja aģents: *
Vietnes karte: https://www.domainname.zone/sitemap.xml

Uzņēmēja direktīva

Vēl viena svarīga robots.txt direktīva ir VADĪTĀJS.

Tiek uzskatīts, ka ne visas meklētājprogrammas to atpazīst. Bet Yandex norāda, ka tā lasa šo direktīvu, un Yandex Krievijā ir galvenais “meklēšanas nodrošinātājs”, tāpēc mēs neignorēsim “saimniekdatora” direktīvu.

Šī direktīva norāda meklētājprogrammām, kurš domēns ir galvenais spogulis. Mēs visi zinām, ka vietnei var būt vairākas adreses. Vietnes URL var vai nevar izmantot WWW prefiksu, vai arī vietnei var būt vairāki domēna vārdi, piemēram, domain.ru, domain.com, domen.ru, www.domen.ru. Šādos gadījumos mēs, izmantojot resursdatora direktīvu, meklējam meklētājprogrammu failā robots.txt, kurš no šiem nosaukumiem ir galvenais. Direktīvas vērtība ir paša galvenā spoguļa nosaukums. Sniegsim piemēru. Mums ir vairāki domēna vārdi (domain.ru, domain.com, domen.ru, www.domen.ru), un tie visi novirza apmeklētājus uz vietni www.domen.ru, ieraksts failā robots.txt izskatīsies šādi :

Lietotāja aģents: *
Saimnieks: www.domen.ru

Ja vēlaties, lai jūsu galvenais spogulis būtu bez prefiksa (WWW), tad attiecīgi norādiet vietnes nosaukumu direktīvā bez prefiksa.

HOST direktīva atrisina lapu dublēšanās problēmu, ar kuru ļoti bieži saskaras WEB meistari un SEO speciālisti. Tāpēc HOST direktīva ir jāizmanto, ja mērķauditorija tiek atlasīta krieviski runājošajā segmentā, un jums ir svarīgi ierindot savu vietni Yandex meklētājprogrammā. Atkārtosim, jo ​​šodien tikai Yandex paziņo, ka ir izlasījis šo direktīvu. Lai norādītu galveno spoguli citās meklētājprogrammās, jums jāizmanto iestatījumi WEB-master kabinetos. Neaizmirstiet, ka galvenā spoguļa nosaukums ir jānorāda pareizi (pareiza pareizrakstība, faila robots.txt kodējuma ievērošana un sintakse). Šī direktīva failā ir atļauta tikai vienu reizi. Ja kļūdas dēļ to ievadāt vairākas reizes, tad roboti ņems vērā tikai pirmo gadījumu.

Pārmeklēšanas aizkavēšanās direktīva

Šī direktīva ir tehniska, komanda meklēt robotiem, cik bieži jums jāapmeklē jūsu vietne. Precīzāk, pārmeklēšanas aizkavēšanās direktīva nosaka minimālo intervālu starp robotu (meklētājprogrammu rāpuļprogrammu) apmeklējumiem jūsu vietnē. Kāpēc precizēt šo noteikumu? Ja roboti pie jums ierodas ļoti bieži un jauna informācija vietnē parādās daudz retāk, tad laika gaitā meklētājprogrammas pieradīs pie retām izmaiņām jūsu vietnes informācijā un apmeklēs jūs daudz retāk, nekā jūs vēlētos. Šis ir meklēšanas arguments, lai izmantotu direktīvu "Pārmeklēšanas aizkavēšanās". Tagad par tehnisko argumentu. Pārāk biežie robotu apmeklējumi jūsu vietnē rada papildu slodzi serverim, kas jums vispār nav vajadzīgs. Labāk kā direktīvas vērtību norādīt veselu skaitli, taču tagad daži roboti ir iemācījušies lasīt arī daļskaitļus. Laiks tiek norādīts sekundēs, piemēram:

Lietotāja aģents: Yandex
Pārmeklēšanas aizkavēšanās: 5.5

Clean-param direktīva

Neobligātā direktīva "Clean-param" rāpuļprogrammām norāda vietnes adreses parametrus, kas nav jāindeksē un ir jāuzskata par vienu un to pašu URL. Piemēram, jums ir redzamas vienas un tās pašas lapas dažādās adresēs, kas atšķiras pēc viena vai vairākiem parametriem:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/ index.php? folder = 1 & page = 1

Meklēšanas roboti pārmeklēs visas līdzīgās lapas un pamanīs, ka lapas ir vienādas un satur to pašu saturu. Pirmkārt, tas radīs neskaidrības vietnes struktūrā, veicot indeksāciju. Otrkārt, palielinās servera papildu slodze. Treškārt, skenēšanas ātrums ievērojami samazināsies. Lai izvairītos no šīm nepatikšanām, tiek izmantota direktīva "Clean-param". Sintakse ir šāda:

Clean-param: param1 [& param2 & param3 & param4 & ... & param * N] [ceļš]

“Clean-param” direktīvu, piemēram, “Host”, nelasa visas meklētājprogrammas. Bet Yandex to saprot.

Bieži sastopamas kļūdas failā robots.txt

Fails robots.txt neatrodas vietnes saknē

Roboti. txt jāatrodas vietnes saknē, tikai saknes direktorijā... Meklētājprogrammas ignorē visus citus failus ar tādu pašu nosaukumu, bet atrodas citās mapēs (direktorijos).

Robots.txt faila nosaukuma kļūda

Faila nosaukums ir rakstīts ar maziem burtiem (mazajiem burtiem), un tam ir jābūt nosauktam roboti.txt... Visas citas iespējas tiek uzskatītas par kļūdainām, un meklētājprogrammas jūs informēs, ka faila trūkst. Bieži sastopamās kļūdas izskatās šādi:

ROBOTS.txt
Robots.txt
robots.txt

Nederīgu rakstzīmju izmantošana failā robot.txt

Robots.txt failam jābūt kodētam ANSI, un tajā jābūt tikai latīņu rakstzīmēm. Ir nepieņemami rakstīt direktīvas un to nozīmi ar citām nacionālajām rakstzīmēm, izņemot komentāru saturu.

Robots.txt sintakses kļūdas

Stingri ievērojiet sintakses noteikumus savā failā robots.txt. Sintakses kļūdas var likt meklētājprogrammām ignorēt visa faila saturu.

Vairāku robotu uzskaitīšana User-agent direktīvā vienā rindā

Iesācēju WEB meistaru bieži pieļauta kļūda sava slinkuma dēļ nav sadalīt failu robots.txt sadaļās, bet apvienot komandas vairākām meklētājprogrammām vienā sadaļā, piemēram:

Lietotāja aģents: Yandex, Googlebot, Bing

Katrai meklētājprogrammai ir jāizveido sava atsevišķa sadaļa, ņemot vērā šīs meklētājprogrammas lasītās direktīvas. Izņēmums šajā gadījumā ir viena sadaļa visām meklētājprogrammām:

Lietotāja aģents ar tukšu vērtību

Lietotāja aģenta direktīva nedrīkst būt tukša. Tikai "Atļaut" un "Neatļaut" var būt tukši, un pēc tam ņemot vērā to, ka tie maina savu vērtību. Lietotāja aģenta direktīvas norādīšana ar tukšu vērtību ir rupja kļūda.

Vairākas vērtības neatļaut direktīvā

Retāk sastopama kļūda, bet tomēr to laiku pa laikam var redzēt vietnēs, tas norāda uz vairākām vērtībām direktīvās Atļaut un Neatļaut, piemēram:

Neatļaut: / folder1 / folder2 / folder3

Neatļaut: / folder1
Neatļaut: / folder2
Neatļaut: / folder3

Nespēja noteikt prioritātes direktīvām failā robots.txt

Šī kļūda jau ir aprakstīta iepriekš, bet, lai konsolidētu materiālu, mēs to atkārtosim. Iepriekš prioritāti noteica direktīvu precizēšanas secība. No šodienas noteikumi ir mainījušies, prioritāti nosaka rindas garums. Ja failā ir divas savstarpēji izslēdzošas direktīvas Atļaut un Neatļaut ar tādu pašu saturu, tad prioritāte ir Atļaut.

Meklētājprogrammas un robots.txt

Faila robots.txt direktīvas ir ieteikumi meklētājprogrammām. Tas nozīmē, ka lasīšanas noteikumus var laiku pa laikam mainīt vai papildināt. Atcerieties arī to, ka katra meklētājprogramma atšķirīgi izturas pret failu direktīvām. Un ne visas direktīvas lasa katra meklētājprogramma. Piemēram, "Yandex" direktīvu šodien lasa tikai Yandex. Tajā pašā laikā Yandex negarantē, ka domēna nosaukums, kas uzņēmējas direktīvā norādīts kā galvenais spogulis, obligāti tiks piešķirts galvenajam, bet apgalvo, ka prioritāte tiks piešķirta direktīvā norādītajam nosaukumam.

Ja jums ir neliels noteikumu kopums, tad varat izveidot vienu sadaļu visiem robotiem. Pretējā gadījumā neesiet slinks, izveidojiet atsevišķas sadaļas katrai meklētājprogrammai, kas jūs interesē. Tas jo īpaši attiecas uz aizliegumiem, ja nevēlaties, lai meklēšanā tiktu atrastas noteiktas lapas.

Ātra navigācija šajā lapā:

Mūsdienu realitāte ir tāda, ka Runet neviena sevi cienoša vietne nevar iztikt bez faila ar nosaukumu robots.tht - pat ja jums nekas neliedz indeksēt (lai gan gandrīz katrā vietnē ir tehniskas lapas un dublēts saturs, kuru indeksēšana ir jāaizver), tad vismaz Yandex noteikti ir vērts izrakstīt direktīvu ar www un bez www - tam kalpo noteikumi robots.txt rakstīšanai, kas tiks aplūkoti turpmāk.

Kas ir robots.txt?

Fails ar šādu nosaukumu datēts ar 1994. gadu, kad W3C konsorcijs nolēma ieviest šādu standartu, lai vietnes varētu piegādāt meklētājprogrammām indeksēšanas norādījumus.

Fails ar šādu nosaukumu ir jāsaglabā vietnes saknes direktorijā, tā ievietošana citās mapēs nav atļauta.

Fails veic šādas funkcijas:

  1. aizliedz indeksēt jebkuras lapas vai lapu grupas
  2. ļauj indeksēt jebkuras lapas vai lapu grupas
  3. norāda Yandex robotam, kurš vietnes spogulis ir galvenais (ar vai bez www)
  4. parāda vietnes kartes faila atrašanās vietu

Visi četri punkti ir ārkārtīgi svarīgi vietnes meklētājprogrammas optimizācijai. Indeksēšanas aizliegšana ļauj bloķēt tādu lapu indeksēšanu, kurās ir dublēts saturs, piemēram, tagu lapas, arhīvi, meklēšanas rezultāti, izdrukājamas lapas utt. Dublēta satura klātbūtne (ja viens un tas pats teksts, lai gan vairāku teikumu apjomā ir atrodams divās vai vairākās lapās) ir meklētājprogrammu ranga vietnei trūkums, tāpēc dublējumu vajadzētu būt pēc iespējas mazāk.

Atļaušanas direktīvai nav neatkarīgas nozīmes, jo pēc noklusējuma visas lapas jau ir pieejamas indeksēšanai. Tas darbojas kopā ar neatļaušanu - ja, piemēram, kāda sadaļa ir pilnībā slēgta no meklētājprogrammām, bet jūs vēlaties atvērt šo vai atsevišķu lapu tajā.

Norāde uz vietnes galveno spoguli ir arī viens no vissvarīgākajiem optimizācijas elementiem: meklētājprogrammas uzskata, ka vietnes www.yoursite.ru un yoursite.ru ir divi dažādi resursi, ja vien jūs tieši nenorādāt citādi. Tā rezultātā dubultojas saturs - parādās dublikāti, samazinās ārējo saišu stiprums (ārējās saites var ievietot gan ar www, gan bez www), un rezultātā tas var novest pie zemākas ranga meklēšanas rezultātus.

Uzņēmumam Google galvenais spogulis ir reģistrēts tīmekļa pārziņa rīkos (http://www.google.ru/webmasters/), bet Yandex gadījumā šīs instrukcijas var rakstīt tikai tajā pašā robots.tht.

Norādot uz xml failu ar vietnes karti (piemēram, sitemap.xml), meklētājprogrammas var atrast šo failu.

Lietotāja aģenta specifikācijas noteikumi

Šajā gadījumā lietotāja aģents ir meklētājprogramma. Rakstot instrukcijas, jānorāda, vai tās attieksies uz visām meklētājprogrammām (tad tiek pievienota zvaigznīte - *) vai arī tās ir paredzētas atsevišķai meklētājprogrammai - piemēram, Yandex vai Google.

Lai iestatītu User-agent, kas norāda visus robotus, ierakstiet failā šādu rindu:

Lietotāja aģents: *

Yandex:

Lietotāja aģents: Yandex

Google:

Lietotāja aģents: GoogleBot

Atļaut un atļaut noteikumus

Pirmkārt, jāatzīmē, ka faila robots.txt derīgumam ir jābūt vismaz vienai neatļaušanas direktīvai. Tagad, apsverot šo direktīvu piemērošanu ar konkrētiem piemēriem.

Izmantojot šo kodu, jūs iespējojat visu vietnes lapu indeksēšanu:

User-agent: * Neatļaut:

Un, izmantojot šādu kodu, gluži pretēji, visas lapas tiks aizvērtas:

User-agent: * Neatļaut: /

Lai aizliegtu konkrēta direktorija ar nosaukumu mape indeksēšanu, norādiet:

User-agent: * Neatļaut: / mape

Varat arī izmantot zvaigznītes, lai aizstātu patvaļīgu nosaukumu:

User-agent: * Neatļaut: * .php

Svarīgi: zvaigznīte aizstāj visu faila nosaukumu, tas ir, jūs nevarat norādīt failu * .php, jūs varat norādīt tikai * .php (bet visas lapas ar paplašinājumu .php būs aizliegtas, lai no tā izvairītos, varat norādīt konkrētu lapas adrese).

Atļaušanas direktīva, kā minēts iepriekš, tiek izmantota, lai radītu izņēmumus neatļautā veidā (pretējā gadījumā tam nav jēgas, jo lapas pēc noklusējuma jau ir atvērtas).

Piemēram, mēs aizliegsim lapas indeksēšanu arhīva mapē, bet atstāsim atvērtu šī kataloga lapu index.html:

Atļaut: /archive/index.html Neatļaut: /archive /

Norādiet saimniekdatoru un vietnes karti

Saimnieks ir vietnes galvenais spogulis (tas ir, domēna nosaukums plus www vai domēna nosaukums bez šī prefiksa). Saimnieks ir norādīts tikai Yandex robotam (šajā gadījumā jābūt vismaz vienai neatļaušanas komandai).

Lai norādītu resursdatoru robots.txt, jābūt šādam ierakstam:

Lietotāja aģents: Yandex Neatļaut: Saimnieks: www.yoursite.ru

Kas attiecas uz vietnes karti, failā robots.tit vietnes karte tiek norādīta, vienkārši ierakstot pilnu ceļu uz atbilstošo failu, norādot domēna nosaukumu:

Vietnes karte: http: //yoursite.ru/sitemap.xml

Ir rakstīts, kā izveidot vietnes karti WordPress.

Robots.txt piemērs WordPress

WordPress instrukcijas ir jānorāda tā, lai indeksēšanai tiktu aizvērti visi tehniskie direktoriji (wp-admin, wp-include utt.), Kā arī tagu, rss failu, komentāru, meklēšanas radītas lapu dublikāti.

Kā WordPress robots.txt piemēru varat paņemt failu no mūsu vietnes:

User-agent: Yandex Disallow: / wp-admin Disallow: / wp-include Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / search Disallow: * / trackback Disallow: * / feed / Disallow: * / feed Disallow: * / comments / Disallow: /? feed = Disallow: /? s = Disallow: * / page / * Disallow: * / comment Disallow: * / tag / * Disallow: * / pielikums / * Atļaut: / wp-content / uploads / Host: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / search Disallow: * / trackback Disallow: * / feed / Disallow: * / feed Disallow: * / comments / Disallow: /? feed = Disallow: /? s = Disallow: * / page / * Disallow: * / comment Disallow: * / tag / * Disallow: * / attachment / * Allow: / wp -content / uploads / User-agent: * Disallow: / wp-admin Disallow: / wp-include Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / search Disallow: * / trackback Disallow: * / feed / Disallow: * / feed Disallow: * / comments / Disallow: /? feed = Disallow: /? s = Disallow: * / page / * Disallow: * / comment Disallow: * / tag / * Disa llow: * / attachment / * Atļaut: / wp-content / uploads / Vietnes karte: https: //www..xml

Jūs varat lejupielādēt failu robots.txt no mūsu vietnes vietnē.

Ja pēc šī raksta lasīšanas jums joprojām ir kādi jautājumi - jautājiet komentāros!