როგორ გააკეთოს რობოტები txt ფაილი სწორად. როგორ რედაქტირება რობოტები txt ფაილი

Robots.txt არის ტექსტური ფაილი, რომელიც შეიცავს საიტის ინდექსირების პარამეტრებს საძიებო რობოტებისთვის.

რეკომენდაციები ფაილის შინაარსზე

Yandex მხარს უჭერს შემდეგ დირექტივებს:

დირექტივა Რას აკეთებს.
მომხმარებლის-აგენტი *
გაუქმება.
საიტის რუკა
სუფთა-პარამეტრი
ნება.
Crawl-delay

ჩვენ გირჩევთ Crawl სიჩქარის პარამეტრების გამოყენებით

დირექტივა Რას აკეთებს.
მომხმარებლის-აგენტი * მიუთითებს რობოტი, რომლის მიხედვითაც რობოტებში ჩამოთვლილი წესები ვრცელდება.
გაუქმება. კრძალავს ინდექსირების საიტის სექციებს ან ინდივიდუალურ გვერდებს.
საიტის რუკა განსაზღვრავს გზას საიტის რუკა, რომელიც განთავსდება საიტზე.
სუფთა-პარამეტრი მიუთითებს რობოტი, რომ გვერდი UTM tags, რომ shold იყოს იგნორირება, როდესაც ინდექსირება.
ნება. საშუალებას აძლევს ინდექსირების საიტის სექციები ან ინდივიდუალური გვერდები.
Crawl-delay

განსაზღვრავს მინიმალური ინტერვალი (წამებში) ძებნის რობოტს, რომ დაველოდოთ ერთ გვერდს, დაწყებამდე სხვა დაწყებამდე.

ჩვენ გირჩევთ გამოყენებით Crawl სიჩქარე გარემოში Yandex.Webmaster ნაცვლად დირექტივის.

* სავალდებულო დირექტივა.

თქვენ "ხშირად გვჭირდება Disallow, საიტის რუკა და სუფთა- param დირექტივები. Მაგალითად:

მომხმარებელი-აგენტი: * დირექტივები მითითებულია Disallow: / Bin / # გამორთვა ბმულები კალათაში. Disallow: / Search / # გამორჩეული გვერდი ბმულები ჩანერგილი საიტი გაუქმდა: / admin / # გამორთვა ბმულები საწყისი Admin Panel საიტის რუკა: http://example.com/sitemap # მიუთითეთ რობოტი საიტის რუკა სუფთა- param: Ref /some_dir/get_book.pl

რობოტები სხვა საძიებო სისტემებისა და მომსახურებისგან შეიძლება იყოს ინტერპრეტის გზა. სერვისები diffret გზა.

Შენიშვნა. რობოტი ითვალისწინებს სუბსტრინების საქმეს (ფაილის სახელი ან გზა, რობოტი სახელი) და უგულებელყოფს საქმის დირექტივების სახელებს.

გამოყენებით კირილიური გმირები.

კირილეული ანბანის გამოყენება არ არის დაშვებული რობოტებში. TXT ფაილი და სერვერზე HTTP სათაურები.

დომენური სახელების, გამოიყენეთ Punycode. გვერდის მისამართები, გამოიყენეთ იგივე კოდირება, როგორც მიმდინარე ობიექტის სტრუქტურა.

კარგი შუადღისას ძვირფასო მეგობრებო! ყველამ იცით, რომ საძიებო ოპტიმიზაცია არის პასუხისმგებელი და დახვეწილი ბიზნესი. აუცილებელია აბსოლუტურად ყველა წვრილმანი მისაღებად მისაღები შედეგის მისაღებად.

დღეს ჩვენ ვისაუბრებთ robots.txt ფაილი, რომელიც იცნობს თითოეულ ვებმასტერს. ეს არის ის, რომ ყველა ძირითადი ინსტრუქცია ძიების რობოტებისათვის განკუთვნილია. როგორც წესი, ისინი სიამოვნებით მიჰყვებიან მითითებულ ინსტრუქციებს და არასათანადო შედგენის შემთხვევაში უარს ამბობენ ვებ რესურსის ინდექსზე. შემდეგი, მე გეტყვით, თუ როგორ უნდა გააკეთოთ უფლება ვერსია Robots.txt, ისევე როგორც როგორ კონფიგურაცია.

წინასიტყვაობა მე უკვე აღვნიშნე, რა არის. ახლა მე გეტყვით, რატომ არის საჭირო. Robots.txt არის პატარა ტექსტური ფაილი, რომელიც ინახება საიტზე ფესვზე. იგი გამოიყენება საძიებო სისტემებით. აშკარად გაწერილია ინდექსირების წესებისგან, I.E., რომელიც საიტის მონაკვეთებს უნდა იყოს ინდექსირებული (დაამატეთ ძებნა) და რომელი არ არის.

როგორც წესი, საიტის სამრეწველო სექციები ინდექსაციადან დახურულია. ხანდახან, შავგვრემანი ჩამორჩება უადგილო გვერდებს (ამ მაგალითის ასლი-პასტა კონფიდენციალურობის პოლიტიკა). აქ, "რობოტები განმარტავდნენ" იმ სექციებთან მუშაობის პრინციპებს, რომლებიც უნდა იყოს ინდექსირებული. ძალიან ხშირად განსაზღვრავს წესებს რამდენიმე რობოტს ცალკე. ჩვენ ამას ვილაპარაკებთ.

Robots.txt- ის შექმნისას თქვენი საიტი გარანტირებული იქნება საძიებო სისტემებში. რობოტები ითვალისწინებენ მხოლოდ სასარგებლო შინაარსს, დუბლიკატის ან ტექნიკური სექციების გამოვლენას.

შექმნა robots.txt

ფაილის შესაქმნელად საკმარისი იმისათვის, რომ გამოიყენოთ თქვენი ოპერაციული სისტემის სტანდარტული ფუნქციონირება, რის შემდეგაც სერვერზე სერვერზე გადმოტვირთვა FTP- ზე. სადაც ის ტყუილია (სერვერზე) ადვილად - ფესვში. როგორც წესი, ეს საქაღალდე ეწოდება public_html.

თქვენ შეგიძლიათ მარტივად მიიღოთ მასთან ნებისმიერი FTP კლიენტი (მაგალითად,) ან ჩაშენებული ფაილ მენეჯერი. ბუნებრივია, სერვერზე ცარიელი რობოტი არ გავატარებთ. ჩვენ რამდენიმე ძირითადი დირექტივა (წესები) ვასრულებთ.

მომხმარებლის-აგენტი: *
ნება: /

გამოყენება ამ რიგების თქვენს რობოტები ფაილი, თქვენ დაუკავშირდით ყველა რობოტს (მომხმარებლის აგენტის დირექტივა), რომელიც საშუალებას მისცემს მათ ინდექსი თქვენი საიტი სრულად და მთლიანად (მათ შორის ყველა გვერდები საშუალებას: /)

რა თქმა უნდა, ეს ვარიანტი არ არის განსაკუთრებით შესაფერისი ჩვენთვის. ფაილი განსაკუთრებით სასარგებლო არ იქნება საძიებო სისტემის ოპტიმიზაციისთვის. ეს აუცილებლად საჭიროა კომპეტენტური კონფიგურაცია. მაგრამ მანამდე, ჩვენ განვიხილავთ ყველა ძირითად დირექტივას და robots.txt ღირებულებებს.

დირექტივა

მომხმარებლის აგენტიერთ-ერთი ყველაზე მნიშვნელოვანი, რადგან მიუთითებს, თუ რომელი რობოტები დაიცვას წესების შემდეგ. წესები გათვალისწინებულია მომდევნო მომხმარებლის აგენტი ფაილში.
ნება.საშუალებას იძლევა ნებისმიერი რესურსის ბლოკების ინდექსირება. მაგალითად: "/" ან "/ tag /".
გაუქმება.პირიქით, კრძალავს სექციებს ინდექსირებას.
საიტის რუკაგზაზე საიტის რუკა (XML ფორმატში).
მასპინძელი.ძირითადი სარკე (www ან გარეშე, ან თუ თქვენ გაქვთ რამდენიმე დომენები). აქ ასევე მიუთითებს უსაფრთხო HTTPS პროტოკოლი (თუ შესაძლებელია). თუ თქვენ გაქვთ სტანდარტული HTTP, თქვენ არ უნდა მიუთითოთ იგი.
Crawl-delayმასთან ერთად, თქვენ შეგიძლიათ დააყენოთ ინტერვალი გამოჩენის და ჩამოტვირთვის ფაილი თქვენს საიტზე რობოტები. ხელს უწყობს მასპინძელთა დატვირთვის შემცირებას.
სუფთა-პარამეტრისაშუალებას გაძლევთ გამორთოთ პარამეტრების ინდექსირება გარკვეულ გვერდებზე (ტიპის www.site.com/cat/State?admin_id8883278).
წინა დირექტივებისგან განსხვავებით, აქ განსაზღვრულია 2 ღირებულებები (მისამართი და პარამეტრი).

ეს არის ყველა წესი, რომელიც მხარს უჭერს ფლაგმანი საძიებო სისტემებს. ეს არის მათი დახმარებით ჩვენ შევქმნით ჩვენს რობოტებს, სხვადასხვა ტიპის სხვადასხვა ტიპის სხვადასხვა ვარიაციებს.

გარემოება

რობოტის ფაილის კომპეტენტური კონფიგურაციისთვის, ჩვენ უნდა ვიცოდეთ, რომელი საიტის სექციები უნდა იყოს ინდექსირებული და არ არის. HTML + CSS- ზე მარტივი ერთჯერადი გვერდის შემთხვევაში, ჩვენ საკმარისად დაარეგისტრირეთ რამდენიმე ძირითადი დირექტივა, როგორიცაა:

მომხმარებლის-აგენტი: *
ნება: /
საიტის რუკა: site.ru/sitemap.xml.
მასპინძელი: www.site.ru.

აქ ჩვენ ყველა საძიებო სისტემების წესებს და ღირებულებებს მიუთითეთ. მაგრამ უმჯობესია, Google- ისა და Yandex- ის ცალკეული დირექტივების დამატება. ეს ასე გამოიყურება:

მომხმარებლის-აგენტი: *
ნება: /

მომხმარებელი-აგენტი: Yandex
ნება: /
გაუქმება: / პოლიტიკა

მომხმარებლის-აგენტი: Googlebot
ნება: /
Disallow: / Tags /

საიტის რუკა: site.ru/sitemap.xml
მასპინძელი: Site.ru.

ახლა ჩვენს HTML საიტზე იქნება ინდექსირებული აბსოლუტურად ყველა ფაილი. თუ ჩვენ გვინდა გამოვრიცხოთ ზოგიერთი გვერდი ან სურათი, მაშინ ჩვენ უნდა მიუთითოთ ამ ფრაგმენტის ნათესავი ბმული.

თქვენ შეგიძლიათ გამოიყენოთ რობოტები ავტომატური ფაილის თაობის მომსახურება. ჩვენ არ გვაძლევს გარანტიას, რომ მათი დახმარებით თქვენ შექმნით შესანიშნავად სწორი ვარიანტი, მაგრამ თქვენ შეგიძლიათ სცადოთ, როგორც გაეცნოთ.

ასეთ მომსახურებას შორის შეიძლება გამოყოფილი:

მათი დახმარებით, თქვენ შეგიძლიათ შექმნათ robots.txt ავტომატური რეჟიმში. პირადად, მე ნამდვილად არ გირჩევთ ეს ვარიანტი, რადგან ეს ბევრად უფრო ადვილია ამის გაკეთება ხელით, tuing ქვეშ ჩემი პლატფორმა.

პლატფორმების საუბარი, მე ვგულისხმობ ყველა სახის CMS, ჩარჩოები, Saas Systems და მრავალი სხვა. შემდეგი, ჩვენ ვისაუბრებთ იმაზე, თუ როგორ უნდა Customize WordPress და Joomla რობოტები ფაილი.

მაგრამ მანამდე, აირჩიეთ რამდენიმე უნივერსალური წესები, რომლებიც შეიძლება ხელმძღვანელობდნენ რობოტების შექმნას და კონფიგურაციას თითქმის ნებისმიერ საიტზე:

ინდექსირება (Disallow) ახლოს:

  • საიტის ადმინისტრირება;
  • პირადი ანგარიში და რეგისტრაცია / ავტორიზაციის გვერდები;
  • კალათა, მონაცემების ბრძანებები ფორმები (ინტერნეტ-მაღაზიისთვის);
  • cGI საქაღალდე (მდებარეობს მასპინძელზე);
  • მომსახურების სექციები;
  • სკრიპტები AJAX და JSON;
  • UTM და OpenStat Labels;
  • სხვადასხვა პარამეტრების რაოდენობა.

ღია (ნება):

  • სურათები;
  • JS და CSS ფაილები;
  • სხვა ელემენტები, რომლებიც უნდა იქნას გათვალისწინებული საძიებო სისტემებით.

გარდა ამისა, დასასრულს არ უნდა დაგვავიწყდეს, რომ მიუთითოთ საიტის რუკა (საიტის რუკაზე) და მასპინძელი (მთავარი სარკე).

Robots.txt for WordPress

შეიქმნას ფაილი, ჩვენ უნდა ჩააგდოს robots.txt to root საიტი. ამ შემთხვევაში შეგიძლიათ შეცვალოთ თავისი შინაარსი ამ შემთხვევაში იგივე FTP და ფაილების მენეჯერების გამოყენებით.

არსებობს უფრო მოსახერხებელი ვარიანტი - შეიქმნას ფაილი plugins. კერძოდ, ეს ფუნქცია არის YOAST SEO. რედაქტირება რობოტები პირდაპირ ადმინისტრატორისგან უფრო მოსახერხებელია, ამიტომ მე ვიყენებ ამ გზას რობოტებთან მუშაობისას.

როგორ გადაწყვეტთ შექმნას ეს ფაილი - თქვენი ბიზნესი, უფრო მნიშვნელოვანია ჩვენთვის იმის გაგება, თუ რომელი დირექტივები უნდა იყოს იქ. თქვენს საიტებზე გაშვებული WordPress ამ პარამეტრის გამოყენებით:

მომხმარებლის აგენტი: * # წესები ყველა რობოტისთვის, გარდა Google და Yandex

გაუქმება: / CGI-BIN # საქაღალდე სკრიპტებით
გაუქმება: /? # პარამეტრი მოთხოვნის საწყისი საწყისი საწყისი გვერდი
გაუქმება: / wp- # CSM- ის ფაილები (WP-)
Disallow: * s \u003d # \
Disallow: * & s \u003d # ყველა დაკავშირებული ძიება
Disalow: / ძიება / # /
გაუქმება: / ავტორი / # არქივები ავტორები
გაუქმება: / მომხმარებელი / # და მომხმარებლები
Disallow: * / Trackback # შეტყობინებები WP, რომ ვინმე ეხება თქვენ
Disallow: * / feed # Fid in XML
გაუქმება: * / RSS # და RSS.
Disallow: * / Embed # ჩაშენებული ელემენტები
Disallow: / xmlrpc.php. # WordPress API.
Disallow: * UTM \u003d # UTM ეტიკეტები
Disallow: * OpenStat \u003d # OpenStat ეტიკეტები
გაუქმება: / tag / # Tags (ასეთის არსებობის შემთხვევაში)
ნება: * / ატვირთვები # ღია ჩამოტვირთვების (სურათები და ა.შ.)

მომხმარებლის-აგენტი: Googlebot # Google- ისთვის
გაუქმება: / CGI-BIN
გაუქმება: /?
გაუქმება: / wp-
Disallow: * s \u003d
Disallow: * & s \u003d
Disalow: / ძებნა /
გაუქმება: / ავტორი /
გაუქმება: / მომხმარებელი /
Disallow: * / Trackback
Disallow: * / feed
გაუქმება: * / RSS
Disallow: * / Embed
Disallow: / xmlrpc.php.
Disallow: * UTM \u003d
Disallow: * OpenStat \u003d
გაუქმება: / tag /
ნება: * / ატვირთვები
ნება: / *\u003e .js. # ღია JS ფაილი
ნება: / *, / არსი. # და CSS
ნება: /wp-*.png. # და სურათები PNG ფორმატში
ნება: /wp-*.jpg # \
ნება: /wp-*.jpeg. # და სხვა ფორმატებში
ნება: /wp-*.gif. # /
# მუშაობს ერთად plugins

მომხმარებელი-აგენტი: Yandex # yandex
გაუქმება: / CGI-BIN
გაუქმება: /?
გაუქმება: / wp-
Disallow: * s \u003d
Disallow: * & s \u003d
Disalow: / ძებნა /
გაუქმება: / ავტორი /
გაუქმება: / მომხმარებელი /
Disallow: * / Trackback
Disallow: * / feed
გაუქმება: * / RSS
Disallow: * / Embed
Disallow: / xmlrpc.php.
გაუქმება: / tag /
ნება: * / ატვირთვები
ნება: / *\u003e .js.
ნება: / *, / არსი.
ნება: /wp-*.png.
ნება: /wp-*.jpg.
ნება: /wp-*.jpeg.
ნება: /wp-*.gif.
ნება: /wp-admin/admin-ajax.php.
# სუფთა UTM tags
სუფთა-პარამეტრი: OpenStat # და OpenStat- ის შესახებ არ უნდა დაგვავიწყდეს

საიტის რუკა: # ჩვენ ვწერდით საიტის რუკაზე
მასპინძელი: https://site.ru. # მთავარი სარკე

ყურადღება! ფაილის გადაღებისას, არ უნდა დაგვავიწყდეს, რომ ყველა კომენტარი წაშალოთ (ტექსტი #).

ეს ვარიანტი robots.txt არის ყველაზე პოპულარული შორის webmasters რომ გამოიყენოთ wp. ეს არის სრულყოფილი? არა. თქვენ შეგიძლიათ სცადოთ დაამატოთ რაღაც ან, პირიქით ამოიღონ. მაგრამ გაითვალისწინეთ, რომ როდესაც რობოტების ტექსტების ოპტიმიზაციას, შეცდომა არ არის იშვიათი. ჩვენ მათზე საუბრობენ.

Robots.txt for Joomla

და მიუხედავად იმისა, რომ 2018 წელს Joomla იშვიათად, ვინც იყენებს, მე მჯერა, რომ შეუძლებელია, რათა დადგინდეს ეს მშვენიერი CMS. Joomla- ზე პროექტების ხელშეწყობისას, თქვენ აუცილებლად უნდა შეიქმნას რობოტების ფაილი, და სხვაგვარად როგორ გსურთ ინდექსირების არასასურველი ელემენტების დახურვა?

როგორც წინა შემთხვევაში, თქვენ შეგიძლიათ შექმნათ ფაილი ხელით, უბრალოდ სროლა მას მასპინძელი, ან გამოიყენოთ მოდული ამ მიზნით. ორივე შემთხვევაში, თქვენ უნდა კომპეტენტურად კონფიგურაცია. ეს გამოიყურება როგორც სწორი ვარიანტი Joomla:

მომხმარებლის-აგენტი: *
ნება: /*.css?
ნება: /*.js?
ნება: /*.jpg?c.
ნება: /*.png?c.Ova
გაუქმება: / ქეში /
Disallow: /*.pdf.
გაუქმება: / ადმინისტრატორი /
გაუქმება: / მონტაჟი /
გაუქმება: / CLI /
გაუქმება: / ბიბლიოთეკები /
გაუქმება: / ენა /
გაუქმება: / კომპონენტები /
გაუქმება: / მოდულები /
გაუქმება: / მოიცავს /
გაუქმება: / ბინ /
გაუქმება: / კომპონენტი /
გაუქმება: / TMP /
გაუქმება: /index.php.
გაუქმება: / plugins /
გაუქმება: / * Mailto /

გაუქმება: / ლოგები /
Disallow: / კომპონენტი / Tags *
გაუქმება: / *%
Disallow: / Layouts /

მომხმარებელი-აგენტი: Yandex
გაუქმება: / ქეში /
Disallow: /*.pdf.
გაუქმება: / ადმინისტრატორი /
გაუქმება: / მონტაჟი /
გაუქმება: / CLI /
გაუქმება: / ბიბლიოთეკები /
გაუქმება: / ენა /
გაუქმება: / კომპონენტები /
გაუქმება: / მოდულები /
გაუქმება: / მოიცავს /
გაუქმება: / ბინ /
გაუქმება: / კომპონენტი /
გაუქმება: / TMP /
გაუქმება: /index.php.
გაუქმება: / plugins /
გაუქმება: / * Mailto /

გაუქმება: / ლოგები /
Disallow: / კომპონენტი / Tags *
გაუქმება: / *%
Disallow: / Layouts /

მომხმარებლის-აგენტი: Googlebot
გაუქმება: / ქეში /
Disallow: /*.pdf.
გაუქმება: / ადმინისტრატორი /
გაუქმება: / მონტაჟი /
გაუქმება: / CLI /
გაუქმება: / ბიბლიოთეკები /
გაუქმება: / ენა /
გაუქმება: / კომპონენტები /
გაუქმება: / მოდულები /
გაუქმება: / მოიცავს /
გაუქმება: / ბინ /
გაუქმება: / კომპონენტი /
გაუქმება: / TMP /
გაუქმება: /index.php.
გაუქმება: / plugins /
გაუქმება: / * Mailto /

გაუქმება: / ლოგები /
Disallow: / კომპონენტი / Tags *
გაუქმება: / *%
Disallow: / Layouts /

მასპინძელი: site.ru. # არ უნდა დაგვავიწყდეს, რომ შეცვალოთ მისამართი თქვენს მიმართ
საიტის რუკა: site.ru/sitemap.xml # და აქ

როგორც წესი, ეს საკმარისია ისე, რომ არასაჭირო ფაილები არ მოხვდება ინდექსში.

შეცდომები, როდესაც შექმნისას

ძალიან ხშირად, ადამიანები საშუალებას აძლევენ შეცდომებს, როდესაც ქმნიან რობოტების ფაილის შექმნას და კონფიგურაციას. აქ არის ყველაზე გავრცელებული მათგანი:

  • წესები მითითებულია მხოლოდ მომხმარებლის აგენტისთვის.
  • არ არსებობს მასპინძელი და საიტის რუკა.
  • HTTP პროტოკოლის არსებობა მასპინძელ დირექტივაში (თქვენ მხოლოდ უნდა მიუთითოთ HTTPS).
  • სურათების გახსნისას / დახურვისას არ შეასრულებს.
  • არ დაიხურა UTM და OpenStat Tags.
  • დაჭერით მასპინძელი და საიტის რუკა დირექტივები თითოეული რობოტი.
  • ზედაპირული ფაილის შესწავლა.

ძალიან მნიშვნელოვანია სწორად კონფიგურაცია ამ პატარა ფაილი. როდესაც დამტკიცებულია უხეში შეცდომები, შეგიძლიათ დაკარგოთ მნიშვნელოვანი ნაწილი მოძრაობის, ასე რომ ძალიან ყურადღებით, როდესაც შექმნის.

როგორ შეამოწმოთ ფაილი?

ამ მიზნით, უმჯობესია გამოიყენოთ სპეციალური მომსახურება Yandex და Google, რადგან ეს საძიებო სისტემებში ყველაზე პოპულარული და მოთხოვნაა (ყველაზე ხშირად უნიკალური), ასეთი საძიებო სისტემები, როგორიცაა Bing, Yahoo ან Rambler მიიჩნევს აზრი.

დაიწყოს, განიხილეთ ვარიანტი Yandex. ჩვენ წასვლა webmaster. ამის შემდეგ, robots.txt ანალიზი ინსტრუმენტები.

აქ შეგიძლიათ შეამოწმოთ ფაილი შეცდომებისთვის, ასევე შეამოწმეთ რეალურ დროში, რომელი გვერდები ღიაა ინდექსირებისთვის და არ არის. ძალიან მოსახერხებელია.

Google- ს ზუსტად იგივე მომსახურება აქვს. ჩვენ წავიდეთ ბ ძიების კონსოლი. . ჩვენ ვნახავთ სკანირების ჩანართს, აირჩიეთ - Robots.txt ფაილის გამშვები ინსტრუმენტი.

აქ არის ზუსტად იგივე ფუნქციები, როგორც შიდა სამსახურში.

გთხოვთ გაითვალისწინოთ, რომ ის 2 შეცდომას გვიჩვენებს. ეს არის იმის გამო, რომ Google არ აღიარებს პარამეტრის დასუფთავების დირექტივებს, რომელიც მე მითითებული yandex:

სუფთა- Param: UTM_Source & UTM_Medium & UTM_Campaign
სუფთა-პარამეტრი: OpenStat

ეს არ არის ღირს ყურადღების მიქცევა, რადგან Google- ის რობოტები მხოლოდ Google- ის წესებს იყენებენ.

დასკვნა

Robots.txt ფაილი ძალიან მნიშვნელოვანია თქვენი საიტის SEO ოპტიმიზაციისთვის. მოდის მისი კონფიგურაცია ყველა პასუხისმგებლობით, რადგან არასწორი განხორციელება ყველაფერს შეუძლია წასვლა შოკი.

განვიხილოთ ყველა ინსტრუქცია, რომელიც მე ამ სტატიაში გავიგე და არ უნდა დაგვავიწყდეს, რომ არ არის აუცილებელი ჩემი რობოტების პარამეტრები. შესაძლებელია, რომ თქვენ დამატებით უნდა გაიგოთ თითოეული დირექტივა, შეცვალეთ ფაილი თქვენს კონკრეტულ შემთხვევაში.

და თუ გვინდა უფრო ღრმად გაერკვნენ ის robots.txt და შექმნის საიტებზე WordPress, მაშინ მე გეპატიჟებით. მასზე თქვენ შეისწავლით თუ როგორ შეგიძლიათ მარტივად შექმნათ საიტი, დავიწყების გარეშე ოპტიმიზაცია საძიებო სისტემებში.

Robots.txt - ეს არის ტექსტური ფაილი, რომელიც მდებარეობს საიტზე ფესვზე - http://site.ru/robots.txt.. მისი მთავარი მიზანია სთხოვოს გარკვეული დირექტივები საძიებო სისტემებში - რა და როდის უნდა გავაკეთოთ საიტზე.

მარტივი robots.txt

მარტივი robots.txt, რომელიც ყველა საძიებო სისტემებს საშუალებას აძლევს ყველაფერს ინდექსი, ასე გამოიყურება:

მომხმარებლის-აგენტი: *
გაუქმება:

იმ შემთხვევაში, თუ Disallow დირექტივა არ აქვს დახრილი slash დასასრულს, მაშინ ყველა გვერდის ინდექსირებას უფლება აქვს.

ასეთი დირექტივა მთლიანად კრძალავს საიტზე ინდექსირებას:

მომხმარებლის-აგენტი: *
გაუქმება: /

მომხმარებლის აგენტი - მიუთითებს, ვისთვისაც განკუთვნილია დირექტივები, ვარსკვლავები მიუთითებს, რომ ყველა PS- სთვის, მომხმარებლის აგენტი არის Yandex- ისთვის: Yandex.

Yandex დახმარება დაწერილია, რომ მისი ძებნა რობოტები გაუმკლავდეს მომხმარებლის აგენტი: *, მაგრამ თუ თქვენ ხართ მომხმარებლის აგენტი: Yandex, User-Agent: * იგნორირებულია.

Disallow და დაუშვას დირექტივები

არსებობს ორი ძირითადი დირექტივა:

გაუქმება - აკრძალვა

ნება - ნება

მაგალითი: ბლოგზე ჩვენ აკრძალულია ფოლდერის / WP- კონტენტის ინდექსის ინდექსი / სად არის დანამატები, თარგი I.t.P. მაგრამ ასევე არსებობს სურათები, რომ PS ინდექსირებულია მონაწილეობის ძიებაში. ამისათვის გამოიყენეთ ასეთი სქემა:

მომხმარებლის-აგენტი: *
ნება: / WP- შინაარსი / ატვირთვები / # ატვირთული საქაღალდეში სურათების ინდექსირება
Disallow: / WP- შინაარსი /

დირექტივების გამოყენების წესი მნიშვნელოვანია Yandex- სთვის, თუ ისინი ერთ გვერდს ან ფოლდერს ვრცელდება. თუ ეს ასეა:

მომხმარებლის-აგენტი: *
Disallow: / WP- შინაარსი /
ნება: / WP- შინაარსი / ატვირთვები /

სურათები არ იტვირთება Yandex Robot- ის / ატვირთვებისგან /, რადგან პირველი დირექტივა შესრულებულია, რომელიც კრძალავს WP- კონტენტის საქაღალდის ყველა ხელმისაწვდომობას.

Google ეკუთვნის ადვილია და ასრულებს robots.txt ფაილის ყველა დირექტივას, მიუხედავად მათი ადგილმდებარეობისა.

ასევე, არ უნდა დაგვავიწყდეს, რომ დირექტივები slash და გარეშე, განახორციელოს სხვადასხვა როლები:

Disalow: / შესახებ აკრძალული ხელმისაწვდომობა მთელ საიტზე. Ru/about/ დირექტორია, ასევე არ იქნება ინდექსირებული გვერდები, რომლებიც შეიცავს - site.ru/about.html, site.ru/aboutlive.html i.t.p.

გაუქმება: / დაახლოებით / გვერდების რობოტების ინდექსირების გამორთვა Site.ru/about/ დირექტორია, გვერდი და გვერდი by thying.ru/about.html i.t.p. ხელმისაწვდომი იქნება ინდექსზე.

რეგულარული გამონათქვამები Robots.txt

ორი პერსონაჟი მხარს უჭერს, ეს არის:

* - გულისხმობს სიმბოლოების ნებისმიერ ბრძანებას.

მაგალითი:

Disallow: / შესახებ * ყველა გვერდის ხელმისაწვდომობის გამორთვა, რომელიც შეიცავს, პრინციპში, ეს დირექტივა ასევე იმუშავებს ვარსკვლავების გარეშე. მაგრამ ზოგიერთ შემთხვევაში ეს გამოხატულება არ შეცვლის. მაგალითად, ერთ კატეგორიაში არის C.HTML- ის გვერდებზე დასასრულს და მის გარეშე ყველა გვერდის ინდექსირების გარეშე, რომელიც შეიცავს HTML- ს, ჩვენ ამ დირექტივას ვადასტურებთ:

Disallow: /about/*.html.

ახლა Site.Ru/about/live.html გვერდები დახურულია ინდექსირებისა და საიტი.რუს/about/live გვერდი ღიაა.

სხვა მაგალითი ანალოგიით:

მომხმარებელი-აგენტი: Yandex
ნება: /about/*.html. # ნება მომეცით ინდექსი
გაუქმება: / დაახლოებით /

ყველა გვერდი დაიხურება, გარდა იმ გვერდებზე, რომლებიც დასრულდება .html

$ - დანარჩენი ნაწილის შემცირება და სიმებიანი ბოლომდე აღნიშნავს.

მაგალითი:

Disalow: / შესახებ - ეს robots.txt დირექტივა კრძალავს ყველა გვერდს, რომელიც იწყება შესახებ, ასევე მიდის აკრძალვის გვერდებზე / შესახებ / დირექტორია.

დასასრულს დოლარის სიმბოლო ბოლოს - Disallow: / დაახლოებით $ ჩვენ შეგნებას რობოტები, რომ თქვენ არ შეგიძლიათ ინდექსი მხოლოდ გვერდზე / გვერდზე, და / შესახებ / გვერდზე, გვერდები / aboutlive I.t.P. შეიძლება იყოს ინდექსირებული.

საიტის დირექტივა

ეს დირექტივა მიუთითებს საიტის რუკაზე, ამ ფორმით:

საიტის რუკა: http: //site.ru/sitemap.xml

დირექტივა მასპინძელი.

ამ ფორმით მითითებულია:

მასპინძელი: site.ru.

გარეშე http: //, დახრილი სცენები და მსგავსი რამ. თუ თქვენ გაქვთ მთავარი საიტის სარკე WWW, მაშინ დაწერეთ:

მაგალითი robots.txt for bitrix

მომხმარებლის-აგენტი: *
გაუქმება: /*index.php$
Disallow: / Bitrix /
გაუქმება: / auth /
გაუქმება: / პირადი /
გაუქმება: / ატვირთვა /
Disalow: / ძებნა /
გაუქმება: / * / ძებნა /
გაუქმება: / * / slide_show /
გაუქმება: / * / გალერეა / * შეკვეთა \u003d *
გაუქმება: / *? *
გაუქმება: / * & print \u003d
გაუქმება: / * რეგისტრაცია \u003d
Disallow: / * დაგავიწყდათ _password \u003d
Disallow: / * Change_Password \u003d
გაუქმება: / * შესვლა \u003d
გაუქმება: / * გამოსვლა \u003d
გაუქმება: / * auth \u003d
Disallow: / * action \u003d *
Disallow: / * Bitrix _ * \u003d
გაუქმება: / * backurl \u003d *
გაუქმება: / * backurl \u003d *
გაუქმება: / * back_url \u003d *
გაუქმება: / * back_url \u003d *
გაუქმება: / * back_url_admin \u003d *
Disallow: / * print_course \u003d y
Disallow: / * course_id \u003d
Disallow: / * pagen_ *
Disallow: / * page_ *
გაუქმება: / * showall
გაუქმება: / * show_all \u003d
მასპინძელი: Sitename.ru.
საიტის რუკა: https://www.sitename.ru/sitemap.xml

მაგალითი robots.txt for WordPress

მას შემდეგ, რაც ყველა აუცილებელი დირექტივები დაემატება, რომლებიც ზემოთ აღწერილია. თქვენ უნდა მიიღოთ ეს ფაილი რობოტები:

ეს ასეა, რომ რობოტების ძირითადი ვერსია WordPress- ისთვის. აქ არის ორი მომხმარებლის აგენტი - ერთი და ერთი და მეორე Yandex, სადაც მასპინძელი დირექტივა მითითებულია.

მეტა ტეგები რობოტები

შესაძლებელია ინდექსირების გვერდის ან საიტიდან არა მარტო robots.txt ფაილი, ეს შეიძლება გაკეთდეს მეტა ტეგით.

<mETA NAME \u003d "რობოტები" კონტენტი \u003d "Noindex, Nofollow"\u003e

აუცილებელია, რომ ეს tag და ეს მეტა tag იქნება აკრძალვა ინდექსი საიტი. In WordPress არსებობს plugins, რომელიც საშუალებას გაძლევთ დააყენოთ ასეთი მეტა tags, როგორიცაა platinum seo პაკეტი. მასთან ერთად, თქვენ შეგიძლიათ დახუროთ ინდექსაცია ნებისმიერი გვერდი, ის იყენებს მეტა ტეგებს.

Crawl-Delay დირექტივა

ამ დირექტივის გამოყენებით, შეგიძლიათ დააყენოთ დრო, რომელსაც საძიებო ბოტი უნდა შეწყდეს, გვერდების ჩამოტვირთვისას შორის.

მომხმარებლის-აგენტი: *
Crawl-Delay: 5

ორ გვერდს შორის დატვირთვის ჩატვირთვა იქნება 5 წამი. სერვერზე დატვირთვის შესამცირებლად, როგორც წესი, 15-20 წამს ასახავს. ეს დირექტივა საჭიროა დიდი, ხშირად განახლებული საიტებისთვის, რომელზეც ძიება ბოტს უბრალოდ "ცოცხალი".

ჩვეულებრივი საიტებისთვის / ბლოგისთვის, ეს დირექტივა არ არის საჭირო, მაგრამ ეს შეიძლება ამგვარად ზღუდავს სხვა არასამთავრობო ფაქტობრივი ძიების რობოტების ქცევას (Rambler, Yahoo, Bing) I.t.P. ყოველივე ამის შემდეგ, ისინი ასევე შეიტანენ საიტზე და ინდექსით, რითაც ქმნის სერვერზე.

სწორი, Root ფაილის რობოტების კომპეტენტური კონფიგურაცია. TXT არის ვებ ოსტის ერთ-ერთი უმნიშვნელოვანესი ამოცანა. ექსტრადიციის ძიებაში დაუვიწყარი შეცდომების შემთხვევაში, საიტის ბევრი არასასურველი გვერდი შეიძლება გამოჩნდეს. ან, პირიქით, თქვენი საიტის მნიშვნელოვანი დოკუმენტები დაიხურება ინდექსირებული, უარეს შემთხვევაში, შეგიძლიათ დაიხუროს რობოტები დომენის ყველა ძირეული დირექტორია.

Robots.txt ფაილის სათანადო კონფიგურაცია თქვენი ხელებით, ფაქტობრივად, ამოცანა არ არის ძალიან რთული. ამ სტატიის წაკითხვის შემდეგ, თქვენ შეისწავლით დირექტივების სიბრძნეს და დამოუკიდებლად დაწერეთ რობოტები.

შესაქმნელად robots.txt ფაილი, გარკვეული, მაგრამ არა კომპლექსური სინტაქსი გამოიყენება. არა ბევრი დირექტივები. განვიხილოთ robots.txt ფაილის ნაბიჯები, სტრუქტურა და სინტაქსი ეტაპობრივად და დეტალურად.

ზოგადი წესები Robots.txt

პირველი, Robots.txt ფაილი თავისთავად უნდა ჰქონდეს ANSI კოდირება.

მეორე, შეუძლებელია ნებისმიერი ეროვნული დამწერლობის წესების წერისთვის, მხოლოდ ლათინური არის შესაძლებელი.

სტრუქტურულად ფაილი robots.txt შეიძლება შედგებოდეს ერთი ან მეტი ინსტრუქციის ბლოკად, ცალკე რობოტების სხვადასხვა საძიებო სისტემებში. თითოეული ბლოკი ან სექცია აქვს წესების კომპლექტი (დირექტივები) საძიებო სისტემით.

დირექტორებში, წესების ბლოკები და მათ შორის მათ შორის არ არის ნებადართული რაიმე ზედმეტი სათაურები და სიმბოლოები.

წესების დირექტივები და ბლოკები გამოყოფილია სიმებიანი გადაცემით. ერთადერთი ვარაუდი არის კომენტარები.

კომენტირებისას robots.txt

კომენტარის გაკეთება, გამოიყენეთ "#" სიმბოლო. თუ თქვენ დააყენებთ "ქსელის" სიმბოლოს სტრიქონის დასაწყისში, შემდეგ ხაზის ბოლომდე, ყველა შინაარსი იგნორირებულია ძებნის რობოტებით.

მომხმარებლის-აგენტი: *
Disallow: / CSS # დაწერეთ კომენტარი
# ჩვენ დავწერთ სხვა კომენტარს
გაუქმება: / img

სექციები robots.txt ფაილი

რობოტის წაკითხვისას, მხოლოდ ამ საძიებო სისტემის რობოტისთვის მიმართა, ანუ, თუ განყოფილებაში, მომხმარებლის აგენტი არის Yandex საძიებო სისტემის სახელი, მაშინ მისი რობოტი მხოლოდ სექციაში წაიკითხავს მიმართა მას, იგნორირება სხვები, კერძოდ, და სექცია დირექტივა ყველა რობოტები - მომხმარებლის აგენტი: *.

თითოეული სექცია არის თვითმმართველობის. სექციები შეიძლება გარკვეულწილად, თითოეული საძიებო სისტემების რობოტებისთვის და ერთი უნივერსალური, ერთ-ერთი მათგანის ყველა რობოტზე ან რობოტებისთვის. თუ სექცია ერთია, ის იწყება ფაილის პირველი ხაზით და იღებს ყველა ხაზს. თუ სექციები რამდენიმე, მაშინ ისინი უნდა გამოეყო ცარიელი სიმებიანი, მინიმუმ ერთი.

სექცია ყოველთვის იწყება მომხმარებლის აგენტის დირექტივთან და შეიცავს საძიებო სისტემის სახელს, რისთვისაც რობოტები განკუთვნილია, თუ ეს არ არის უნივერსალური სექცია ყველა რობოტისთვის. პრაქტიკაში, ასე გამოიყურება:

მომხმარებელი-აგენტი: Yandexbot
# ouser აგენტი რობოტები yandex სისტემა
მომხმარებლის-აგენტი: *
# ouser აგენტი ყველა რობოტები

აკრძალულია ბოტების რამდენიმე სახელი. თითოეული საძიებო სისტემის ბოტები, საკუთარი სექცია იქმნება, საკუთარი ცალკეული ბლოკი. თუ თქვენს შემთხვევაში, ყველა რობოტის წესები იგივეა, გამოიყენეთ ერთი უნივერსალური, საერთო სექცია.

დირექტივა, რა არის ეს?

დირექტივა არის ბრძანება ან წესი, რომელიც გარკვეულ ინფორმაციას ეძებს ძიების რობოტს. დირექტივა ანგარიშები ძებნა Bot, როგორ ინდექსი თქვენი საიტი, რომელიც დირექტორიები არ განიხილავს, სადაც საიტის რუკა არის XML ფორმატში, რა დომენი არის მთავარი სარკე და სხვა ტექნიკური დეტალები.

Robots.txt ფაილის სექცია შედგება ცალკე ბრძანებებისგან,
დირექტივები. ზოგადი სინტაქსის დირექტივები:

[_Name]: [სურვილისამებრ ფართი] [VALUE] [დამატებითი სივრცე]

დირექტივა ერთი ხაზით არის დაწერილი, გადაცემის გარეშე. მიღებული სტანდარტების მიხედვით, ხაზები არ არის დაშვებული დირექტორებს შორის ერთ განყოფილებაში, ანუ, იმავე მონაკვეთის ყველა დირექტივა თითოეულ ხაზზეა დაწერილი, დამატებითი ხაზების გარეშე.

მოდით აღწეროთ ძირითადი დირექტივების ღირებულებები.

დირექტივა გაუქმება

Robots.txt ფაილის ყველაზე გამოყენებული დირექტივა არის "გაუქმება" - აკრძალვა. Disallow დირექტივა კრძალავს მასში მითითებულ გზას ინდექსირებას. ეს შეიძლება იყოს ცალკე გვერდი, გვერდების შემცველი "ნიღაბი" თქვენს URL- ში, საიტის ნაწილში, ცალკეული დირექტორია (საქაღალდე) ან მთელი ნახვა.

"*" - ვარსკვლავები ნიშნავს - "ნებისმიერი სიმბოლოების სიმბოლოები". ეს არის, გზა / საქაღალდე * იგივე თქვენი ღირებულება "/ საქაღალდეები", "/ Folder1", "/ Folder11", "/ folderssssssssssss" ან "/ Folder". რობოტები, წესების წაკითხვისას ავტომატურად დაამატოთ "*" ნიშანი. ქვემოთ მოცემულ მაგალითში, ორივე დირექტივები აბსოლუტურად თანაბრად ეკვივალენტურია:

გაუქმება: / ახალი ამბები
გაუქმება: / ახალი ამბები *

"$" - დოლარის ნიშანი კრძალავს რობოტებს, როდესაც კითხულობს დირექტივები ავტომატურად დაამატოთ სიმბოლო "*" (ვარსკვლავი) დირექტივის დასასრულს. სხვა სიტყვებით რომ ვთქვათ, "$" სიმბოლო ნიშნავს შედარების სტრინგს. ანუ, ჩვენი მაგალითია, ჩვენ კრძალავს "/ საქაღალდის" საქაღალდის ინდექსირებას, მაგრამ არ არის აკრძალული საქაღალდეებში "/ Folder1", "/ Folder111" ან "/ საქაღალდეები":

მომხმარებლის-აგენტი: *
გაუქმება: / საქაღალდე $

"#" - (Sharpe) კომენტარი ნიშანი. ყველა ეს არის დაწერილი ამ ხატის შემდეგ, ერთ-ერთთან ერთად, იგნორირებულია საძიებო სისტემებით.

დირექტივა

Robots.txt ფაილი ფაილის არის საპირისპირო Discalow დირექტივა, საშუალებას დირექტივა გადაჭრის. ქვემოთ მოყვანილ მაგალითში, ნაჩვენებია, რომ ჩვენ კრძალავს ინდექსს მთელი ვებსაიტი, გარდა საქაღალდე / საქაღალდეში:

მომხმარებლის-აგენტი: *
ნება: / საქაღალდე
გაუქმება: /

მაგალითად "დაშვების" ერთდროული გამოყენების მაგალითი, "გაუქმება" და პრიორიტეტი

არ დაივიწყოთ აკრძალვებისა და ნებართვების პრიორიტეტების შესახებ, როდესაც მითითებულია დირექტივების მითითებით. ადრე, პრიორიტეტი აღინიშნა აკრძალვებისა და ნებართვების გამოცხადების პროცედურებით. ახლა პრიორიტეტი განისაზღვრება საძიებო სისტემების რობოტის (მომხმარებლის აგენტის) ერთ ბლოკზე მაქსიმალური არსებული გზების მითითებით, რათა გაზარდოს გზების სიგრძე და დირექტივის მითითებების ადგილი, უფრო მეტი გზა, უფრო პრიორიტეტი :

მომხმარებლის-აგენტი: *
ნება: / საქაღალდეები
გაუქმება: / საქაღალდე

ზემოთ მოყვანილ მაგალითში, URL ინდექსირებას უფლება აქვს "/ ფოლდერები", მაგრამ აკრძალულია მათ მისამართებში, რომლებსაც აქვთ URLS- ში "/ საქაღალდე", "/ საქაღალდეები" ან "/ ფოლდერ 2". იმავე გზას ორივე "საშუალებას მისცემს" და "გაუქმება" დირექტივა, უპირატესობა მოცემულია "ნება" დირექტივა.

პარამეტრის ცარიელი ღირებულება "ნება" და "disalow" დირექტივები

არსებობს ვებ-სამაგისტრო შეცდომები, როდესაც Robots.txt ფაილი disallow დირექტივა
დაივიწყეთ სიმბოლო "/". ეს არასწორია, დირექტივების ღირებულებების არასწორი ინტერპრეტაცია და მათი სინტაქსი. შედეგად, აკრძალვის დირექტივა ხდება რეზოლუცია: "Disallow:" აბსოლუტურად იდენტურია "ნება: /". სწორად აკრძალვა მთელ საიტის ინდექსზე გამოიყურება:

იგივე შეიძლება ითქვას, რომ "ნება:". "ნება:" სიმბოლოების გარეშე "/" კრძალავს მთელ საიტის ინდექსაციას, ასევე "გაუქმებას: /".

საიტის დირექტივა

ყველა SEO- ოპტიმიზაციის კანონს, თქვენ უნდა გამოიყენოთ საიტის რუკა (საიტის რუკა) XML ფორმატში და უზრუნველყონ საძიებო სისტემებში.

საძიებო სისტემებში "კაბინეტებისათვის" ფუნქციონირების მიუხედავად, აუცილებელია SiteMap.xml და robots.txt- ის თანდასწრებით. საიტის რუკა" ძებნა რობოტები, როდესაც თქვენ გვერდის ავლით თქვენს საიტზე ნახავთ ნიმუშს sitemap.xml ფაილი და დარწმუნებული უნდა იყოს, რომ გამოიყენოთ იგი შემდეგ შემოვლითი. მაგალითი გამოყენებით საიტის რუკა დირექტივა Robots.txt ფაილი:

მომხმარებლის-აგენტი: *
საიტის რუკა: https://www.domainname.zone/sitemap.xml

დირექტივა მასპინძელი.

კიდევ ერთი მნიშვნელოვანი robots.txt დირექტივა არის დირექტივა მასპინძელი..

ითვლება, რომ ყველა საძიებო სისტემა არ არის აღიარებული. მაგრამ Yandex მიუთითებს, რომ ის კითხულობს ამ დირექტივას და Yandex რუსეთში არის მთავარი "ძიების მიმწოდებლის", ამიტომ ჩვენ არ გავაგრძელებთ მასპინძელი დირექტივას.

ეს დირექტივა ამბობს საძიებო სისტემებში, რომელიც დომენია მთავარი სარკე. ჩვენ ყველამ ვიცით, რომ საიტზე შეიძლება ჰქონდეს რამდენიმე მისამართი. საიტის URL შეიძლება გამოყენებულ იქნას ან არ გამოიყენება www პრეფიქსით ან საიტისთვის შეიძლება ჰქონდეს რამდენიმე დომენი, მაგალითად, domain.ru, domain.com, domen.ru, www.domen.ru. ეს სწორედ ამ შემთხვევებში, ჩვენ გვაწვდის საძიებო სისტემას Robots.txt ფაილში მასპინძელი დირექტივის გამოყენებით, რომელიც ამ სახელების მთავარია. დირექტივის ღირებულება არის მთავარი სარკის სახელი. ჩვენ მაგალითს ვაძლევთ. ჩვენ გვყავს რამდენიმე დომენი (domain.ru, domain.com, domen.ru.com, domen.ru, www.domen.ru) და ყველა მათგანი გადამისამართება სია საიტი www.domen.ru, შესვლის robots.txt ფაილი გამოიყურება მოსწონს ეს :

მომხმარებლის-აგენტი: *
მასპინძელი: www.domen.ru.

თუ გსურთ თქვენი ძირითადი სარკე, პრეფიქსის გარეშე (www), მაშინ, შესაბამისად, თქვენ უნდა მიუთითოთ საიტის სახელი პრეფიქსის გარეშე დირექტივაში.

მასპინძელი დირექტივა წყვეტს გვერდების ორჯერ პრობლემას, რომელთანაც ვებ-ოსტატები და SEO სპეციალისტები ხშირად ემუქრებიან. აქედან გამომდინარე, მასპინძელი დირექტივა აუცილებლად უნდა იქნას გამოყენებული, თუ თქვენ მიზნად ისახავს რუსულენოვან სეგმენტს და მნიშვნელოვანია თქვენი საიტის რეიტინგში Yandex საძიებო სისტემაში. გაიმეორეთ, დღეს ამ დირექტივის წაკითხვის შესახებ, მხოლოდ "იანდექსი" ამბობს. სხვა საძიებო სისტემებში ძირითადი სარკის მიუთითოთ, თქვენ უნდა გამოიყენოთ პარამეტრები ვებ-სამაგისტრო კაბინეტებში. ნუ დაგავიწყდებათ, რომ მთავარი სარკის სახელი უნდა იყოს მითითებული სწორად (წერის სისწორე, რობოტების ფაილის კოდირებისა და სინტაქსთან შესაბამისობა). ფაილში, ეს დირექტივა დასაშვებია მხოლოდ ერთხელ. თუ შეცდომით მიუთითეთ რამდენჯერმე, მაშინ რობოტები გაითვალისწინებენ პირველ ჩასვლას.

Crawl-Delay დირექტივა

ეს დირექტივა არის ტექნიკური, ბრძანება საძიებო რობოტების, რამდენად ხშირად თქვენ უნდა ეწვევა თქვენს საიტზე. კერძოდ, Crawl-Delay Directive მიუთითებს მინიმალური შესვენების შორის ვიზიტების თქვენს საიტზე რობოტები (საძიებო სისტემა Craalliers). რატომ მიუთითეთ ეს წესი? იმ შემთხვევაში, თუ რობოტები ძალიან ხშირად მოდიან, და საიტზე ახალი ინფორმაცია ხშირად ხშირად გამოჩნდება, მაშინ დროთა განმავლობაში საძიებო სისტემებს მიეკუთვნება თქვენს საიტზე ინფორმაციის იშვიათი ცვლილება და ბევრად უფრო ხშირად ეწვევა. ეს არის საძიებო არგუმენტი სასარგებლოდ Crawl-Delay Directive- ის გამოყენებით. ახლა ტექნიკური არგუმენტი. ძალიან ხშირი ვიზიტი თქვენს საიტზე რობოტები ქმნის დამატებით დატვირთვას სერვერზე, რომ თქვენ არ გჭირდებათ. დირექტივა უკეთესია, რომ რიცხვში მიუთითოს, მაგრამ ახლა რამდენიმე რობოტმა ისწავლა წაკითხული და ფრაქციული რიცხვები. განსაზღვრავს დროს წამებში, მაგალითად:

მომხმარებელი-აგენტი: Yandex
Crawl-Delay: 5.5

სუფთა-პარამის დირექტივა

სურვილისამებრ "სუფთა-პარამის" დირექტივა მიუთითებს საიტის საიტის რობოტების მისამართების რობოტებზე, რომლებიც არ უნდა იყოს ინდექსი და უნდა იქნეს იგივე URL. მაგალითად, თქვენ გაქვთ იგივე გვერდები სხვადასხვა მისამართებზე, რომლებიც ხასიათდება ერთ ან მეტ პარამეტრში:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder\u003dfolder&page\u003dpage1/
www.domain.zone/ index.php? საქაღალდე \u003d 1 & page \u003d 1

ძებნა რობოტები ყველა ამ გვერდის სკანირებას და შეამჩნევთ, რომ გვერდები იგივეა, შეიცავდეს იგივე შინაარსს. პირველ რიგში, ეს ხელს შეუწყობს დაბნეულობის სტრუქტურაში ინდექსირებით. მეორე, სერვერზე დამატებითი დატვირთვა გაიზრდება. მესამე, სკანირების სიჩქარე მნიშვნელოვნად დაეცემა. თავიდან აცილების მიზნით ეს პრობლემები და გამოიყენოთ სუფთა- Param დირექტივა. სინტაქსი ასეთია:

სუფთა- Param: Param1 [& Param2 & Param3 & Param4 & ... & Param * N] [Path]

დირექტივა "სუფთა-პარამის", როგორიცაა "მასპინძელი" წაიკითხავს ყველა საძიებო სისტემას. მაგრამ Yandex ესმის.

შეცდომები, რომლებიც ხშირად არიან Robots.txt

Robots.txt ფაილი არ არის საიტზე ფესვზე.

რობოტების ფაილი. txt უნდა განთავსდეს საიტზე ფესვებში, მხოლოდ root დირექტორიაში. ყველა სხვა ფაილი იგივე სახელით, მაგრამ სხვა ფოლდერებში (დირექტორიები) იგნორირებულია საძიებო სისტემებით.

შეცდომა ფაილის სახელი Robots.txt

ფაილის სახელი დაწერილია მცირე ასოებით (ქვედა რეესტრი) და უნდა ეწოდოს რობოტები.ᲢᲔᲥᲡᲢᲘ.. ყველა სხვა ვარიანტი ითვლება არასწორია და ხაზგასმით აღინიშნება ფაილის არარსებობა. ხშირი შეცდომები ასე გამოიყურება:

Robots.txt
Robots.txt
robot.txt

გამოიყენეთ არასწორი სიმბოლოები Robot.txt- ში

Robots.txt ფაილი უნდა იყოს ANSI კოდირებით და შეიცავს მხოლოდ ლათინურ ენას. წერილობითი დირექტივები და მათი ღირებულებები ნებისმიერი სხვა ეროვნული სიმბოლოების მიერ არის მიუღებელია, გარდა კომენტარების შინაარსი.

Robots.txt სინტაქსის შეცდომები

სცადეთ მკაცრად დაიცვას სინტაქსის წესები Robots.txt ფაილში. სინტაქსის შეცდომები შეიძლება გამოიწვიოს საძიებო სისტემების მთელი ფაილის შინაარსის იგნორირება.

მრავალჯერადი რობოტების ჩამონათვალი მომხმარებლის აგენტის დირექტივში

შეცდომა, რომელიც ახალბედა ვებმასტერებს, უფრო მეტად დაშვებულია, არამედ საკუთარი სიზარმაგების გამო, არ დაარღვიოს რობოტები. Txt ფაილი სექციაში და რამდენიმე საძიებო სისტემებში ბრძანებების კომბინირება, მაგალითად:

მომხმარებელი-აგენტი: Yandex, Googlebot, Bing

თითოეული საძიებო სისტემა, თქვენ უნდა შექმნათ თქვენი საკუთარი ცალკე სექცია, გათვალისწინებით იმ დირექტივების გათვალისწინებით, რომ ეს საძიებო სისტემა ნათქვამია. გარდა ამისა, ამ შემთხვევაში, არის ერთიანი სექცია ყველა საძიებო სისტემებისთვის:

მომხმარებლის აგენტი ცარიელი ღირებულებით

მომხმარებლის აგენტის დირექტივა არ შეიძლება ცარიელი ღირებულება. ალტერნატიულად შეიძლება იყოს მხოლოდ "ნება" და "disallow" და შემდეგ გათვალისწინებით ის ფაქტი, რომ ისინი შეცვლის მათი ღირებულება. მიუთითეთ მომხმარებლის აგენტის დირექტივა ცარიელი ღირებულებით არის უხეში შეცდომა.

რამდენიმე ღირებულებები disallow დირექტივაში

უფრო ხშირად ზიანს აყენებს, მაგრამ, მიუხედავად ამისა, პერიოდულად, პერიოდულად ჩანს საიტებზე, ეს არის რამდენიმე ღირებულების მითითება, მაგალითად, დირექტივებისთვის, მაგალითად:

Disallow: / Folder1 / Folder2 / Folder3

Disallow: / Folder1
გაუქმება: / Folder2
გაუქმება: / Folder3

არაკომერციული დირექტივების პრიორიტეტებთან ერთად Robots.txt- ში

ეს შეცდომა უკვე აღწერილია ზემოთ, მაგრამ მასალის კონსოლიდაცია გაიმეორებს. ადრე, პრიორიტეტი განისაზღვრა რეჟისორული დირექტივების წესით. დღემდე, წესები შეიცვალა, პრიორიტეტი მითითებულია ხაზის სიგრძით. თუ არსებობს ორი ორმხრივი ექსკლუზიური დირექტივები, ფაილში იგივე შინაარსით დაუშვებელია და არ დაუშვას, მაშინ პრიორიტეტს ექნება.

საძიებო სისტემები და robots.txt

დირექტივები Robots.txt ფაილი არის საძიებო სისტემების რეკომენდაციული ხასიათი. ეს იმას ნიშნავს, რომ წაკითხვის წესები პერიოდულად შეიცვლება ან დაემატოს. ასევე გახსოვდეთ, რომ თითოეული საძიებო სისტემა აწარმოებს ფაილის დირექტივებს საკუთარი გზით. და არა ყველა დირექტივის თითოეული საძიებო სისტემა ნათქვამია. მაგალითად, მასპინძელი დირექტივა დღეს მხოლოდ Yandex- ს ნათქვამია. ამავდროულად, Yandex- ის გარანტიები, რომ დომენური სახელი აღინიშნება, როგორც მთავარ სარკეში მთავარ სარკეში მთავარია, მაგრამ ის ამტკიცებს, რომ დირექტივის მითითებულ სახელს პრიორიტეტი მიენიჭება.

თუ თქვენ გაქვთ მცირე კომპლექტი წესები, თქვენ შეგიძლიათ შექმნათ ერთი სექცია ყველა რობოტებისთვის. წინააღმდეგ შემთხვევაში, არ იყოს ზარმაცი, ცალკე სექციების შექმნა თითოეული საძიებო სისტემისთვის თქვენ დაინტერესებული ხართ. კერძოდ, ეს ეხება აკრძალვას, თუ არ გსურთ გარკვეული გვერდები შესასვლელად.

სწრაფი ნავიგაცია ამ გვერდზე:

თანამედროვე რეალობა ის არის, რომ Runet- ში არ არის თვითმმართველობის პატივისცემის საიტი, რომელსაც შეუძლია გააკეთოს ფაილის გარეშე რობოტები.თ, მაშინაც კი, თუ არაფერია აკრძალული ინდექსირებით (თუმცა არსებობს ტექნიკური გვერდები და დუბლიკატის შინაარსი, რომელიც საჭიროებს ინდექსირებას), მაშინ მინიმალური, WWW- ს დირექტივის რეგისტრაციისთვის, WWW- ის გარეშე Yandex- ის გარეშე ნამდვილად ღირს - ამისათვის და რობოტების წერის წესები, რომლებიც ქვემოთ განიხილება.

რა არის robots.txt?

ასეთი სახელით 1994 წლიდან იღებს თავის სიუჟეტს, როდესაც W3C კონსორციუმმა გადაწყვიტა ასეთი სტანდარტის შესასვლელად, რათა საიტებზე საძიებო სისტემებში მითითებები.

ფაილი ასეთი სახელი უნდა იყოს შენახული საიტის root დირექტორია, განათავსებს მას ნებისმიერ სხვა ფოლდერები არ არის ნებადართული.

ფაილი ასრულებს შემდეგ ფუნქციებს:

  1. კრძალავს ნებისმიერ გვერდს ან გვერდებს
  2. საშუალებას აძლევს ნებისმიერ გვერდს ან გვერდებებს
  3. განსაზღვრავს Yandex Robot, რა საიტის სარკე არის მთავარი (www ან www)
  4. აჩვენებს ადგილმდებარეობის ფაილის საიტის რუკაზე

ოთხივე საკითხი ძალიან მნიშვნელოვანია საიტის ოპტიმიზაციისთვის. ინდექსირების აკრძალვა საშუალებას გაძლევთ დახუროთ გვერდი, რომელიც შეიცავს დუბლიკატის შინაარსს - მაგალითად, მაგალითად, საკვანძო გვერდები, არქივები, ძიების შედეგები, გვერდები ბეჭდური ვერსიით და ასე შემდეგ. დუბლიკატის შინაარსის არსებობა (როდესაც იგივე ტექსტი, რამდენიმე შეთავაზების ოდენობით, ორი ან მეტი გვერდის მიხედვით) არის ორი ან მეტი გვერდიანი, არის საძიებო სისტემების რეიტინგში მინუსი, რადგან ორჯერ უნდა იყოს პატარა, რაც შეიძლება.

დირექტივა არ აქვს თვითმმართველობის ღირებულება, რადგან ნაგულისხმები ყველა გვერდები და იმდენად ხელმისაწვდომია ინდექსირებისთვის. იგი მუშაობს Bundle ერთად disallow - როდესაც, მაგალითად, ზოგიერთი სახის სასაქონლო სრულიად დახურულია საძიებო სისტემებში, მაგრამ გსურთ გახსნა გვერდი ან ცალკე გვერდზე.

საიტის მთავარ სარკეზე მითითებულია ოპტიმიზაციის ერთ-ერთი ყველაზე მნიშვნელოვანი ელემენტი: საძიებო სისტემებში ვებ-გვერდები www.vashsite.ru და vashtsyt.ru როგორც ორი სხვადასხვა რესურსი, თუ თქვენ პირდაპირ მიუთითეთ სხვაგვარად. შედეგად, შინაარსი ეჭვობს - ორმაგი, გარე კავშირების ძალის გამოყენების შემცირება (გარე კავშირები შეიძლება განთავსდეს WWW და WWW- ის გარეშე), რის შედეგადაც შეიძლება გამოიწვიოს ძიების შედეგების ქვედა რანჟირება .

Google- ისთვის, მთავარი სარკე ინიშნება ვებმასტერის ინსტრუმენტებში (http://www.google.com/webmasters/), მაგრამ Yandex- ისთვის, ეს ინსტრუქციები შეიძლება დადგინდეს მხოლოდ ამ რობოტებში. TCT.

მიუთითეთ XML ფაილის საიტის ბარათი (მაგალითად - sitemap.xml) საშუალებას იძლევა საძიებო სისტემებს აღმოაჩინონ ეს ფაილი.

მომხმარებლის აგენტის ინსტრუქციები

მომხმარებელი-აგენტი ამ შემთხვევაში, ეს არის საძიებო სისტემა. ინსტრუქციების წერისას, თქვენ უნდა მიუთითოთ თუ არა ისინი ყველა საძიებო სისტემაზე (შემდეგ ვარსკვლავის ნიშანი შედის - *) ან ისინი განკუთვნილია ცალკე საძიებო სისტემისთვის - მაგალითად, Yandex ან Google.

მომხმარებლის აგენტის მითითებით ყველა რობოტთან მითითებით, თქვენს ფაილში ჩაწერეთ შემდეგი ხაზის შემდეგ:

მომხმარებლის-აგენტი: *

Yandex- ისთვის:

მომხმარებელი-აგენტი: Yandex

Google- ისთვის:

მომხმარებლის-აგენტი: Googlebot

წესები Disallow და დაუშვებს

პირველ რიგში, უნდა აღინიშნოს, რომ Robots.txt ფაილი თავისი მოქმედებისათვის აუცილებლად უნდა შეიცავდეს მინიმუმ ერთი არანაკლებ დირექტივას. ახლა კონკრეტული მაგალითების შესახებ ამ დირექტივების გამოყენების გათვალისწინებით.

ამ კოდით, თქვენ საშუალებას მისცემს საიტის ყველა გვერდის ინდექსაციას:

მომხმარებელი-აგენტი: * გაუქმება:

და ასეთი კოდით, პირიქით, ყველა გვერდი დაიხურება:

მომხმარებელი-აგენტი: * გაუქმება: /

აკრძალოს კონკრეტული დირექტორების ინდექსირება საქაღალდეში, მიუთითეთ:

მომხმარებელი-აგენტი: * გაუქმება: / საქაღალდე

თქვენ ასევე შეგიძლიათ გამოიყენოთ Asterisks შეცვალოს თვითნებური სახელი:

მომხმარებლის აგენტი: * Disallow: * .Php

მნიშვნელოვანია: Asterisk ცვლის ფაილის სახელი მთლიანად, ანუ, თქვენ არ შეგიძლიათ დააკონკრეტოთ ფაილი * .Php, შეგიძლიათ მხოლოდ * .Php (მაგრამ ყველა გვერდები გაგრძელების აკრძალვას, რათა თავიდან ავიცილოთ - შეგიძლიათ მიუთითოთ კონკრეტული გვერდი მისამართი) .

ზემოთ მოყვანილი დირექტივა, როგორც ზემოთ აღინიშნა, გამონაკლისი არ არის დაშვებული (წინააღმდეგ შემთხვევაში, ეს არ არის აზრი, რადგან ნაგულისხმები გვერდები ღიაა).

მაგალითად, აკრძალულია საარქივო საქაღალდეში გვერდის ინდექსირება, მაგრამ დატოვებს ინდექსს.

ნება: /rchive/index.html disallow: / არქივი /

მიუთითეთ მასპინძელი და საიტის რუკა

მასპინძელი არის მთავარი სარკის საიტი (ანუ, დომენის სახელით www ან დომენი ამ კონსოლის გარეშე). მასპინძელი მხოლოდ Yandex Robot- ისთვის არის მითითებული (მინიმუმ ერთი არანაკლებ გუნდი უნდა იყოს საჭირო.

მასპინძელი Robots.txt- ის მითითება უნდა შეიცავდეს შემდეგ შესვლას:

მომხმარებელი-აგენტი: Yandex Disallow: მასპინძელი: www.vashsayt.ru

რაც შეეხება საიტის რუკას, Robots.txt sitemap მითითებულია უბრალოდ საუბრობს სრული გზა შესაბამისი ფაილი, მითითებით დომენი:

საიტის რუკა: http: //vashsayt.ru/sitemap.xml

შესახებ, თუ როგორ უნდა გააკეთოთ საიტი რუკა WordPress, დაწერილი.

მაგალითი robots.txt for WordPress

WordPress ინსტრუქციებისათვის, თქვენ უნდა მიუთითოთ ყველა ტექნიკური დირექტორიის (WP-Admin, WP- ს და ა.შ.) ინდექსირებას, ასევე დუბლიკატების გვერდებზე შექმნილ გვერდებზე, RSS ფაილები, კომენტარები, ძიება.

როგორც რობოტების მაგალითი. Txt for WordPress შეგიძლიათ მიიღოს ფაილი ჩვენი საიტი:

User-Agent: Yandex Disallow: / WP-Admin Disallow: / WP- ს შემადგენლობა: /wp-login.php disallow: /wp-register.php disallow: /xmlrpc.php disallow: / ძებნა გაუქმება: * / Trackback Disallow: * / Feed / disallow: * / feed disallow: * / კომენტარები / disallow: /? Feed \u003d disallow: /? S \u003d disallow: * / გვერდი / * disallow: * / კომენტარი გაუქმება: * / TAG / * Disallow: * / დანართი / * მიმაჩნია: / WP-Content / ატვირთვები / მასპინძელი: www..php disallow: /wp-register.php disallow: / xmlrpc.php disallow: / ძებნა disallow: * / trackback disallow: * / feed / disallow: * Feed Disallow: * / კომენტარები / გაუქმება: /? Feed \u003d disallow: /? S \u003d disallow: * / კომენტარები გაუქმება: * / საკვანძო / * Disallow: / WP -Conalow: / WP-Agent: * Disalow: / WP-Admin Disallow: / WP- ს შემადგენლობა: /wp-login.php disallow: /wp-register.php disallow: / xmlrpc.php disallow: / ძებნა disallow: * / Trackback Disallow: * / feed / Disallow: * / feed disallow: * / კომენტარები / disallow: /? Feed \u003d disallow: /? S \u003d disallow: * / გვერდი / * disallow: * / კომენტარი გაუქმება: * / tag / * disa. Llow: / დანართი / * ნება: / WP-Content / ატვირთვები / საიტის რუკა: https: //www..xml

ჩამოტვირთეთ robots.txt ფაილი ჩვენი საიტი შეიძლება იყოს.

თუ ამ სტატიის წაკითხვის შედეგების მიხედვით, თქვენ გაქვთ რაიმე შეკითხვა - კომენტარების დასმა!