Yandex робот. Yandex роботууд Yandex-д зориулсан робот txt дээр юу бичих вэ

Арьсны блог нь энэ хөтөчийн нотолгоог өгдөг. Тийм ч учраас pokey салбарт шинээр ирсэн хүмүүс ихэвчлэн төөрдөг тул энэ нь дараах байдалтай байна.

Ямар төрлийн робот хуучин вэ?

Файл robots.txtэсвэл өөр Индекс файл- UTF-8-д кодлогдсон үндсэн текст баримт бичиг нь http, https, мөн FTP протоколуудад тохиромжтой. Ямар хуудас/файлыг сканнердах вэ гэсэн зорилгоор уг файлыг хайлтын роботуудад өгдөг.Хэрэв файл нь UTF-8-д биш, харин өөр кодчилолд байгаа тэмдэгтүүдийг агуулж байвал хайлтын роботууд тэдгээрийг буруу боловсруулж болзошгүй. Robots.txt файлд жагсаасан дүрмүүд нь тухайн файл байгаа хост, протокол болон портын дугаараас хамаарч хүчинтэй байна.

Файлыг үндсэн директорт үндсэн текст баримт бичиг хэлбэрээр суулгасан байх ёстой бөгөөд дараах хаягаар хандах боломжтой. https://site.com.ua/robots.txt.

Бусад файлуудад BOM (Байт дарааллын тэмдэг) дүрсийг тавьдаг заншилтай байдаг. Энэ нь мэдээллийг уншиж байх үед байтаар дарааллыг зааж өгөх юникод тэмдэгт юм. Кодын тэмдэг нь U+FEFF байна. robots.txt файл дээрх байт дарааллын тэмдгийг үл тоомсорлодог.

Google нь robots.txt файлын хэмжээг хязгаарласан байдаг - та 500 КБ-аас их хэмжээтэй файл оруулах шаардлагагүй.

Гаразд, танд техникийн дэлгэрэнгүй мэдээлэл хэрэгтэй байгаа тул robots.txt файлыг Beckus-Naur хэлбэрээр (BNF) тайлбарласан болно. Энэ тохиолдолд RFC 822-ын дүрмийг хянан үзнэ.

robots.txt файлаас дүрмийг задлан шинжлэх үед хайлтын роботууд дараах гурван зааврын аль нэгийг гаргана.

  • хувийн хандалт: сайтын бусад элементүүдийг сканнердах боломжгүй;
  • бүх нийтийн хандалт: бүх зүйлийг сканнердах боломжтой;
  • Бүрэн хашаа: робот юу ч скан хийж чадахгүй.

Robots.txt файлыг сканнердах үед роботууд дараах төрлийн хариултуудыг илрүүлэх болно.

  • 2хх -скан амжилттай болсон;
  • 3xxДууны робот нь өгөгдлийг дахин чиглүүлэхийг дагаж мөрддөг боловч бусад оролтоос татгалздаггүй. Ихэнхдээ робот 3xx шугамыг авах таван туршилт байдаг бөгөөд дараа нь 404 алдаа бүртгэгддэг;
  • 4xx -Хайлтын робот нь таныг сайтыг бүхэлд нь сканнердах боломжтой гэдгийг үнэлдэг;
  • 5хх -цаг тухайд нь серверийн доголдол гэж үнэлэгдсэн, сканнердах бүрэн хаагдсан байна. Робот өөр оролтоос татгалзах хүртэл файлыг үргэлжлүүлэн гүйлгэх болно. Google-ийн хайлтын робот нь сайт дээрх өөр өөр хуудсуудын гаралтыг зөв эсвэл буруу тохируулсан эсэхийг тодорхойлох боломжтой бөгөөд ингэснээр хуудас нь 404 хариултын оронд 5xx хувилбарыг гаргах бөгөөд энэ тохиолдолд хуудас нь 404 мөрийн кодтой Call in байх болно.

Robots.txt файлыг хэрхэн үүсгэсэн нь одоог хүртэл тодорхойгүй байгаа бөгөөд интернетэд холбогдох серверийн асуудлаас болж хандах боломжгүй байна.

Эцэст нь шаардлагатай robots.txt файл

Жишээлбэл, заримдаа роботууд дараахь зүйлийг дамжуулахдаа муу байдаг.

  • сайт дээрх үйлчлүүлэгчдийн талаархи тусгай мэдээлэл бүхий хуудсууд;
  • мэдээлэл солилцох янз бүрийн хэлбэр бүхий хуудсууд;
  • вэбсайтын толь;
  • хайлтын үр дүн бүхий хуудсууд.

Анхаарах зүйл: хуудас нь robots.txt файлд байрладаг тул сайт дээр эсвэл гадаад эх сурвалжаас мессеж олдсон бол энэ нь гарч ирэх нь тодорхой байна.

Хайлтын системийн роботууд robots.txt файлтай эсвэл файлгүй вэбсайтыг ингэж мөлхдөг:

Robots.txt-гүй бол гуравдагч этгээдээс авсан мэдээлэл харагдахгүй болж, үүгээр дамжуулан та болон сайт хохирох болно.

Хайлтын системийн робот robots.txt файлыг ингэж татдаг:

Google нь сайт дээрх robots.txt файлыг тодорхойлсон бөгөөд сайт дээрх хуудсуудыг мөлхөх дүрмийг мэддэг

robots.txt файлыг хэрхэн үүсгэх

Notepad, Notepad, Sublime эсвэл бусад текст засварлагчийг ашиглана уу.

Хэрэглэгч-агент - роботуудад зориулсан нэрийн хуудас

Хэрэглэгчийн агент - robots.txt файлд тайлбарласан зааврыг дагах шаардлагатай роботуудын тухай дүрэм. Одоогоор 302 хайлтын робот харагдаж байна

Бүх хайлтын роботуудад зориулсан robots.txt дүрмүүдийн талаар ярилцъя.

Google-ийн хувьд гол робот нь Googlebot юм. Хэрэв бид өөр ямар нэг зүйлийг хамгаалахыг хүсвэл файлын оруулга дараах байдалтай байна.

Энэ тохиолдолд бусад бүх роботууд хоосон robots.txt файлыг боловсруулах зааварт үндэслэн контентыг мөлхөх болно.

Yandex-ийн хувьд гол робот нь... Yandex:

Бусад тусгай роботууд:

  • Mediapartners-Google- AdSense үйлчилгээний хувьд;
  • AdsBot-Google- Бүх талын хүрээг шалгах;
  • Yandex зураг- Yandex.Images индексжүүлэгч;
  • Googlebot-Зураг- Зургийн хувьд;
  • YandexMetrika- Yandex.Metrica робот;
  • YandexMedia- Мультимедиа өгөгдлийг индексжүүлдэг робот;
  • YaDirectFetcher- Yandex.Direct робот;
  • Googlebot-Видео- Видеоны хувьд;
  • Googlebot-Мобайл- гар утасны хувилбарын хувьд;
  • YandexDirectDyn- Динамик баннеруудыг робот үүсгэх;
  • YandexБлогууд- Робот нь нийтлэл, сэтгэгдлийг индексжүүлдэг блогуудыг хайдаг;
  • YandexMarket- Yandex.Market робот;
  • YandexNews- Yandex.Novin робот;
  • YandexDirect- холбогдох зар сурталчилгааг сонгох сэдвийг тодруулахын тулд зар сурталчилгааны мэдээллийн хэрэгслийн түнш сайтуудын агуулгын талаархи мэдээллийг цуглуулдаг;
  • Yandex хуудас шалгагч- бичил тэмдэглэгээ баталгаажуулагч;
  • Yandex хуанли- Yandex.Calendar робот.

Зөвшөөрөхгүй - зорилтот түвшинд тохируулна уу

Сайтыг эцэслэн боловсруулж байгаа учраас бид үүнээс болгоомжилж байгаа бөгөөд та үүнийг ямар нэгэн байдлаар ил гаргахыг хүсэхгүй байна.

Хэрэв сайт нь користувачуудад муудахаас өмнө бэлэн болсон бол энэ дүрмийг мэдэх нь чухал юм. Харамсалтай нь олон вэбмастерууд үүнийг мартдаг.

өгзөг. Роботууд хавтасны оронд санал болгосон огноог харахгүй байхын тулд Зөвшөөрөхгүй дүрмийг хэрхэн бичих вэ /папка/:

Энэ мөр нь extensions.gif бүхий бүх файлыг индексжүүлэхийг хориглодог

Зөвшөөрөх - роботуудыг чиглүүлэх

Зөвшөөрөх нь танд дурын файл/захирамж/тал скан хийх боломжийг олгоно. Роботууд зөвхөн /каталоггүй эхэлсэн хуудсуудыг харж, агуулгыг хаах боломжтой боловч зайлшгүй шаардлагатай. Ямар төрлийн хувьд дараахь хослолыг зааж өгсөн болно.

Зөвшөөрөх, зөвшөөрөхгүй байх дүрмийг URL угтвараар (хамгийн жижигээс том хүртэл) эрэмбэлж, дарааллаар нь байрлуулна. Хэрвээ хуудас нь хэдэн арван дүрэмд тохиромжтой бол робот нь эрэмбэлэгдсэн жагсаалтаас үлдсэн дүрмийг сонгоно.

Хост - толин тусгал сайт сонгох

Хост нь robots.txt-ийн заавал дагаж мөрдөх дүрмийн нэг бөгөөд Yandex роботыг толин тусгал сайтыг индексжүүлэхэд ашиглах ёстойг мэдээлдэг.

Сайтын толь - сайтын яг эсвэл яг хуулбар, өөр өөр хаягаар авах боломжтой.

Сайт дээр ямар нэгэн толь байгаа бол робот тэнүүчлэхгүй бөгөөд толь нь robots.txt файлд заасан байгаа нь тодорхой байна. Сайтын хаягийг http:// угтваргүйгээр оруулах ёстой; эс бөгөөс хэрэв сайт HTTPS дээр ажилладаг бол https:// угтварыг оруулах ёстой.

Энэ дүрмийг хэрхэн бичих вэ:

Сайт HTTPS протокол дээр ажилладаг тул robots.txt файлын жишээ:

Сайтын газрын зураг - эмнэлгийн сайтын газрын зураг

Сайтын газрын зураг нь индексжүүлэх шаардлагатай сайт дээрх бүх URL хаягуудыг роботуудад мэдээлдэг http://site.ua/sitemap.xml. Арьс мөлхөх явцад робот энэ файлд ямар өөрчлөлт орсоныг мэдэж, хайлтын системийн мэдээллийн сан дахь сайтын талаарх мэдээллийг хурдан шинэчлэх болно.

Crawl-delay - сул серверүүдэд зориулсан секундомер

Crawl-delay нь сайтын хуудсыг мөлхөх хугацааг тодорхойлох боломжийг олгодог параметр юм. Хэрэв танд сул сервер байгаа бол энэ дүрэм илүү хамааралтай болно. Энэ тохиолдолд сайтын талд хайлтын роботуудыг байрлуулахад ихээхэн бэрхшээл гарч болзошгүй. Энэ параметр секундын дотор өөрчлөгддөг.

Clean-param - давхардсан контентыг арчлах.

Clean-param нь өөр өөр динамик хаягууд дээр (тэжээнээс) байж болох агуулгын давхардлаас сэргийлэхийн тулд get-параметрүүдийг шийдвэрлэхэд тусалдаг. Сайт нь өөр өөр эрэмбэ, сессийн ID гэх мэтчилэн ийм хаягууд гарч ирдэг.

Хажуу талыг дараах хаягаар авах боломжтой.

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

Энэ тохиолдолд robots.txt файл дараах байдалтай байна.

Энд refЭнэ нь мэдэгдэл илгээгдсэнийг илтгэж, энэ нь хуудсан дээр өөрөө бичигдсэн бөгөөд дараа нь хаягийг зааж өгсөн болно.

Та лавлагаа файл руу орохын өмнө robots.txt файлыг бичихэд хамаарах зарим шинж тэмдгүүдийг мэдэж байх хэрэгтэй.

robots.txt дахь тэмдэгтүүд

Файлын гол тэмдэгтүүд нь "/, *, $, #" юм.

Нэмэлт тусламж авахын тулд "/" налуу зураасБид роботоор юуг хамрахыг хүсч байгаагаа харуулдаг. Жишээлбэл, Зөвшөөрөхгүй байх дүрэм нь нэг налуу зураастай бол энэ нь сайтыг бүхэлд нь мөлхөхөөс сэргийлдэг. Хоёр ташуу зураасыг ашигласнаар та өөр дурын сангийн хайлтыг хааж болно, жишээ нь: /каталог/.

Ийм бичлэг хийснээр бид каталогийн лавлах руу бүхэлд нь сканнердах бөгөөд хэрэв бид /каталог гэж бичвэл /каталогоор эхэлсэн сайт дээрх бүх нийтлэлийг блоклоно гэсэн үг юм.

Зирочка "*"файлд ямар ч дараалал тэмдэгт байна гэсэн үг. Энэ нь арьсны дүрэм журмын дараа тавигдах ёстой.

Энэ оруулга нь бүх роботууд /каталог/ хавтас дахь .gif өргөтгөлтэй файлуудыг индексжүүлэхэд буруугүй гэдгийг харуулж байна.

долларын тэмдэг «$» одны тэмдгээр хүрээлэгдсэн. Хэрэв та каталогийн хавтсыг бүхэлд нь хамгаалах шаардлагатай бол /каталог гэх мэт URL-уудыг хамгаалах боломжгүй бол индекс файлын оруулга дараах байдалтай байна:

"#" гэж бичнэ үүВэбмастер нь бусад вэбмастеруудаас өөрийгөө хасдаг гэсэн сэтгэгдлийн төлөө Vikorist. Робот сайтыг сканнердах үүрэг хүлээхгүй.

Жишээлбэл:

Хамгийн тохиромжтой robots.txt ямар харагдаж байна

Файлыг индексжүүлэх зорилгоор сайтад байршуулж, хостыг бүртгэж, хайлтын системд индексжүүлж болох хаягуудыг олж авах боломжийг олгохын тулд сайтын газрын зургийг өгдөг. Бүх роботууд Host зааврыг ойлгодоггүй тул Yandex-ийн дүрмийг тодорхой зааж өгсөн болно.

Файлыг өөртөө хуулах гэж яарах хэрэггүй - сайт бүр сайт болон CMS-ийн төрлөөс хамааран өвөрмөц дүрэмтэй байж болно. Тиймээс, robots.txt файлыг бөглөхдөө бүх дүрмийг санаж байх хэрэгтэй.

robots.txt файлыг хэрхэн шалгах вэ

Хэрэв та robots.txt файлыг зөв бөглөсөн эсэхээ шалгахыг хүсвэл Вэбмастерын хэрэгслээс шалгана уу. Googleболон Yandex. Илгээх маягт дахь robots.txt файлд гаралтын кодыг оруулаад, шалгаж байгаа сайтыг зааж өгнө үү.

robots.txt файлыг хэрхэн хадгалах вэ

Ихэнхдээ индекс файлыг бөглөхдөө шүүрэл гарахыг зөвшөөрдөг бөгөөд энэ нь хэт хүндэтгэлгүй эсвэл яаравчлагдсантай холбоотой байдаг. Практикт сурсан өршөөлийн хүснэгтээс хэд дахин доогуур.

2. Зөвшөөрөхгүй байх зааврыг нэг дор олон хавтас/лавлах бичих:

Ийм бичлэг нь дууны роботуудыг төөрөлдүүлж болзошгүй тул тэд өөрсдөө индексжүүлж болохгүй гэдгийг ойлгохгүй байж магадгүй: би хавтсыг эхлүүлэх эсвэл орхих эсэхээс үл хамааран арьсны дүрмийг анхааралтай бичих хэрэгтэй.

3. Файл өөрөө дуудаж болно зөвхөн robots.txt,мөн Robots.txt, ROBOTS.TXT эсвэл өөр аргаар биш.

4. Хэрэглэгч-агент дүрмийг хүчингүй болгох боломжгүй - файлд бичигдсэн дүрмийг өөрчлөх үүрэгтэй роботыг хэлэх шаардлагатай.

5. Файлаас тэмдэглэгээг хамгаалах (налуу зураас, од).

6. Индекс дотор байх шаардлагагүй хуудсуудыг файлд нэмэх.

Стандарт бус robots.txt

Шууд функцээс гадна индекс файл нь бүтээлч байдлын эх сурвалж болж, шинэ сайн дурын ажилтнуудыг олох арга зам болж чадна.

Энэ бол robots.txt нь өөрөө ажлын элементүүд болон зар сурталчилгааны блок бүхий жижиг сайт юм.

Хуурамч хайж байгаа майданчикийн хувьд файлыг голчлон SEO агентлагууд vikoristed хийдэг. Таны мөрөөдлийн талаар өөр хэн олж мэдэх вэ? :)

Мөн Google тусгай файл хадгалдаг humans.txtФахивтуудыг арьс, махаар нь ялгаварлан гадуурхах тухай бодлыг бүү зөвшөөр.

Висновки

Robots.txt-ийн тусламжтайгаар та робот хайх зааварчилгаа өгөх, өөрийгөө болон брэндээ сурталчлах, мэргэжилтнүүдийг шоглох боломжтой. Энэ бол туршилт хийхэд тохиромжтой талбар юм. Головный, файлыг зөв бөглөх, стандарт цэвэрлэгээ хийх талаар санаарай.

Дүрэм, тэдгээр нь удирдамжаас өмхий, robots.txt файлын заавраас өмхий:

  1. Хэрэглэгч-агент нь robots.txt-д заасан зааврыг дагах шаардлагатай роботуудын тухай дүрэм юм.
  2. Зөвшөөрөхгүй гэдэг нь мэдээллийг өөрөө сканнердах боломжгүй гэсэн зөвлөмжийг илэрхийлдэг.
  3. Сайтын газрын зураг нь индексжүүлэх шаардлагатай сайтын бүх URL хаягийг http://site.ua/sitemap.xml хаягаар байршуулсан болохыг роботуудад мэдээлдэг.
  4. Толин тусгал сайтыг индексжүүлэхээр ажилд авах шаардлагатайг хост Yandex роботод мэдэгддэг.
  5. Зөвшөөрөх нь танд дурын файл/захирамж/тал скан хийх боломжийг олгоно.

Robots.txt файлыг эвхэх үеийн тэмдэг:

  1. Долларын тэмдэг "$" нь одны тэмдгээр хүрээлэгдсэн байдаг.
  2. "/" зураасны дараа бид роботууд илрүүлэхээс нуухыг хүссэн зүйлээ харуулна.
  3. "*" од нь файлын тэмдэгтүүдийн дарааллыг илэрхийлнэ. Энэ нь арьсны дүрэм журмын дараа тавигдах ёстой.
  4. "#" хэш нь вэбмастер өөрт болон бусад вэбмастеруудад зориулж бичсэн сэтгэгдлийг тэмдэглэхэд хэрэглэгддэг.

Индекс файлыг ухаалгаар хийвэл сайт ирээдүйд харагдах болно.

Унших цаг: 7 цаг


Аудит, шалгалт өгөхөөр манайд ирдэг бараг бүх төсөлд буруу robots.txt файл байдаг ба ихэнхдээ бүтэн өдрийн турш. Тэгэхээр файл үүсгэхдээ дүрмээр бус хүн бүр өөрийн төсөөллөөр удирддаг юм шиг санагддаг. Хайлтын роботууд үүнтэй үр дүнтэй ажиллахын тулд энэ файлыг хэрхэн зөв нугалж болохыг олж мэдье.

robots.txt-г сайжруулах шаардлага байна уу?

Robots.txt- энэ файл нь хайлтын системийн роботын мэдээлсэн үндсэн каталозын сайт дээр байрладаг бөгөөд сайтын аль хэсэг, хуудсууд руу нэвтрэхийг хориглож болох боловч нэвтрэх боломжгүй.

Robots.txt файлыг тохируулах нь хайлтын системийн чухал хэсэг бөгөөд роботыг зөв тохируулах нь сайтын бүтээмжийг нэмэгдүүлдэг. Robots.txt байгаа нь хайлтын системд сайтыг мөлхөж, индексжүүлэхийг зөвшөөрдөггүй, эс тэгвээс танд энэ файл байхгүй бол танд хоёр асуудал тулгарч магадгүй юм.

    Хайлтын робот нь сайтыг бүхэлд нь уншдаг тул мөлхөж буй төсвийг "шүүрдэг". Мөлхөж буй төсөв нь хайлтын робот ердөө нэг цагийн дотор чиглүүлж чадахтай адил олон сайт юм.

    Робот файлгүй бол хайлтын систем нь CMS-ийн удирдлагад ашиглагддаг хэдэн зуун хуудас хүртэлх хар цагаан хуудас руу нэвтрэхийг хориглодог. Энэ нь тэдгээрийг индексжүүлдэг бөгөөд хэрэв та баруун талд байгаа зөв хуудаснууд руу очвол хэвлэн нийтлэгчдийн хувьд хамгийн чухал агуулгын танилцуулга хийвэл мөлхөж буй төсөв дуусах болно.

    Индекс нь сайтад нэвтрэх хуудас болон бусад администраторын нөөцийг ашиглах боломжтой тул халдагчид тэдгээрт хялбархан нэвтэрч, DDoS халдлага эсвэл сайтад хортой программ хангамж хийх боломжтой.

Robots.txt ашиглан сайтыг татаж авахын тулд роботуудыг хэрхэн хайх вэ?


Robots.txt синтакс

Эхлээд "хамгийн тохиромжтой файл" ямар харагдахаас хамааран синтаксийг ойлгож, robots.txt-г тохируулна уу.


Але не варто разу з його застосовувати. Сайт бүрийн хувьд ихэвчлэн өөр өөрийн тохиргоотой байх шаардлагатай байдаг, учир нь бид бүгд өөр сайтын бүтэцтэй, өөр CMS-тэй байдаг. Арьсны удирдамжийг дарааллаар нь авч үзье.

Хэрэглэгч-агент

Хэрэглэгч-агент - файлд заасан зааврыг дагаж мөрдөх хайлтын роботыг хэлнэ. Хэрэв та бүгдэд нэгэн зэрэг буцаж очих шаардлагатай бол * дүрс гарч ирнэ. Та мөн дуулах дууны робот руу шилжиж болно. Жишээлбэл, Yandex болон Google:


Удирдамжийн нэмэлт зорилгын үүднээс робот ямар файл, фолдерыг индексжүүлэхийг хориглосныг ойлгодог. Хэрэв та сайтаа бүхэлд нь индексжүүлэхэд нээлттэй байлгахыг хүсвэл Зөвшөөрөхгүй утгыг хоосон орхино уу. Зөвшөөрөхгүй болсны дараа сайт дээрх бүх агуулгыг хүлээн авахын тулд "/" оруулна уу.

Бид дууны хавтас, файл эсвэл файлын өргөтгөлд хандах хандалтыг хааж болно. Манай аппликейшн нь бүх хайлтын системийг хааж, битрикс, хайлт, pdf хавтас руу нэвтрэх боломжийг хааж байна.


Зөвшөөрөх

Сайтын хуудас, хэсгүүдийг индексжүүлэхийн тулд Primus-ийг нээхийг зөвшөөрнө үү. Аппликешн дээр бид Google хайлтын робот руу шилжиж, bitrix хавтас, хайлт, pdf өргөтгөл рүү нэвтрэх эрхийг хаадаг. Bitrix хавтсанд бид индексжүүлэх 3 хавтас нээдэг: бүрэлдэхүүн хэсгүүд, js, хэрэгслүүд.


Хост - толин тусгал сайт

Толин тусгал сайт нь үндсэн сайтын хуулбар юм. Толин тусгалуудыг янз бүрийн зорилгоор ашигладаг: хаягийг өөрчлөх, аюулгүй байдал, сервер дээрх урсгалыг багасгах гэх мэт.

Хост бол хамгийн чухал дүрмийн нэг юм. Хэрэв энэ дүрмийг бичсэн бол робот нь сайтын толин тусгалаас үүнийг индексжүүлэхэд хүлээн авах болно гэдгийг ойлгох болно. Энэхүү заавар нь Yandex болон Mail.ru роботуудад зайлшгүй шаардлагатай. Бусад роботуудыг ерөнхийд нь үл тоомсорлодог. Хост зөвхөн нэг удаа бүртгүүлсэн байх ёстой!

"https://" болон "http://" протоколуудын хувьд robots.txt файлын синтакс өөр байх болно.

Сайтын газрын зураг - сайтын газрын зураг

Сайтын газрын зураг нь хайлтын системд шинэ хуудасны талаар мэдээлэл өгөхөд ашигладаг сайтын навигацийн хэлбэр юм. Сайтын газрын зургийн нэмэлт удирдамжийн дагуу бид газрын зургийг устгасан роботод "хүчээр" харуулж байна.


robots.txt дахь тэмдэгтүүд

Файлд гарч ирэх тэмдэгтүүд нь: "/, *, $, #".


Robots.txt файлыг тохируулсны дараа үйл явцын үр нөлөөг шалгаж байна

Robots.txt-г вэбсайтдаа байршуулсны дараа үүнийг Yandex болон Google-ийн вэбмастераар нэмж баталгаажуулах шаардлагатай.

Yandex баталгаажуулалт:

  1. Зааврыг дагана уу.
  2. Сонгох: Тохируулах индексжүүлэлт – robots.txt-д дүн шинжилгээ хийх.

Google шалгах:

  1. Зааврыг дагана уу.
  2. Сонгох: Scan - robots.txt файлыг шалгах хэрэгсэл.

Ингэснээр та өөрийн robots.txt-д өөрчлөлт орсон эсэхийг шалгаж, шаардлагатай бол шаардлагатай тохируулга хийх боломжтой.

  1. Файлын оронд том үсгээр бичих шаардлагатай.
  2. Зөвшөөрөхгүй байх заавар нь дор хаяж нэг файл эсвэл лавлахыг зааж өгөхийг шаарддаг.
  3. "Хэрэглэгч-агент" мөр хоосон байх шаардлагагүй.
  4. Хэрэглэгчийн агент үргэлж Зөвшөөрөхөөс өмнө явж болно.
  5. Хэрэв та лавлахыг индексжүүлэхээс хамгаалах шаардлагатай бол ташуу зураас оруулахаа бүү мартаарай.
  6. Файлыг серверт байршуулахаас өмнө синтакс болон зөв бичгийн алдаа байгаа эсэхийг шалгах ёстой.

Чамд амжилт хүсье!

Robots.txt файлыг үүсгэх, тохируулах 3 аргын видео тойм

Бид "Сошиал медиа дахь контент маркетинг: Урьдчилсан төлбөр төлөгчдийн толгойд хэрхэн орж, тэднийг брэндтэйгээ төөрөлдүүлэх вэ" нэртэй шинэ ном хэвлүүллээ.

Хостын удирдамж нь хайлтын системд чухал (www-тэй эсвэл байхгүй) тухай мэдээлдэг тушаал эсвэл дүрэм юм. Файлын хостын удирдамжийг зөвхөн Yandex-д хуваарилсан бололтой.

Хайлтын систем таны толин тусгал сайтын хуудсуудыг индексжүүлэхгүй байхыг баталгаажуулах шаардлагатай байдаг. Жишээлбэл, нөөц нь нэг сервер дээр байрладаг боловч Интернет дээр хайлтын үр дүнг индексжүүлэх, харуулах үүрэгтэй домэйн нэртэй ижил байдаг.

Yandex хайлтын роботууд вэбсайтуудын хажуу талыг тойрч, цуглуулсан мэдээллийг одоогийн хуваарийн дагуу мэдээллийн санд нэмнэ. Индексжүүлэх явцад асуудал өөрөө гарч ирдэг бөгөөд аль талыг нь боловсруулах шаардлагатай байдаг. Жишээлбэл, роботууд янз бүрийн форум, хайлтын систем, каталог болон бусад эх сурвалжаас зайлсхийх, төөрөгдөлгүйгээр индексжүүлэх хэрэгтэй. Үүнтэй ижил өмхий үнэрийг үндсэн сайт болон толинд олж болно. Эхнийх нь индексжүүлэхийг дэмждэг бол бусад нь тэгдэггүй. Энэ үйл явц нь ихэвчлэн асуудалтай тулгардаг. Төв хэсэгт та Robots.txt файл дахь Host удирдамжийг ашиглаж болно.

Энд шаардлагатай Robots.txt файл байна

Робот бол ердийн текст файл юм. Та үүнийг Notepad ашиглан үүсгэж болно; та Notepad++ текст засварлагч ашиглан түүнтэй ажиллах боломжтой (мэдээлэл нээх, засварлах). Вэб нөөцийг оновчтой болгоход файлын хэрэгцээ хэд хэдэн хүчин зүйлээр тодорхойлогддог.

  1. Robots.txt файлыг нийтэлсэн тохиолдолд дууны машинуудын роботуудаар дамжуулан вэбсайтад байнга зочлох болно.
  2. Бүх хуудас, толин тусгал сайтуудыг индексжүүлэх нь тодорхой байна.

Индексжүүлэх нь илүү хурдан байх бөгөөд хэрэв тохиргоог буруу суулгасан бол та Google болон Yandex хайлтын илэрцэд алга болж магадгүй юм.

Robots.txt файл дахь Host удирдамжийг хэрхэн форматлах вэ

Robots файл нь үндсэн сайт болон толин тусгалын талаархи хайлтын системийн зааварчилгааг агуулдаг.

Удирдамжийг дараах хэлбэрээр бичнэ: Хост: [хэлний бус орхигдуулсан] [утга] [хэлний бус орхигдуулсан]. Заавар бичих дүрмүүд нь дараах алхмуудыг шаарддаг.

  • HTTPS протоколын хостын заавар нь шифрлэлтийг дэмждэг. Толин тусгал руу нэвтрэх нь хулгайлагдсан сувгаар хязгаарлагддаг тул үүнийг засах шаардлагатай.
  • IP хаяг биш домэйны нэр, мөн вэб нөөцийн портын дугаар.

Вэб мастерт де smut dzerkalo дууны машиныг илэрхийлэхийг зөвшөөрөх заавар зөв зохиогдсон байна. Бусад нь бусад хүмүүст хүндэтгэлтэй хандах тул индексжүүлэхгүй. Дүрмээр бол толин тусгалыг www товчлол байгаа эсвэл байхгүй байгаагаар нь ялгаж болно. Корреспондент нь хостын тусламжтайгаар вэб нөөцийг тусгадаггүй байсан тул Yandex хайлтын систем нь Вэбмастераас хамгийн сайн мэдээллийн эх сурвалж байсан. Хэрэв Robots файл нь маш мэдрэмтгий Хост удирдамжтай бол ижил мэдэгдлийг илгээх болно.

Ач холбогдол, de golovne dzerkalo сайт нь хайлтын системээр дамжуулан боломжтой. Та хайлтын мөрөнд нөөцийн хаягийг оруулаад үр дүнг харах хэрэгтэй: хаягийн мөрөнд домэйны өмнө www, толгой домэйн гэсэн сайт.

Хэрэв нөөц нь харагдах тал дээр харагдахгүй бол хэрэглэгчид Yandex.Webmaster-ийн хоёрдогч хэсэг рүү шилжих замаар үүнийг толгойн толин тусгал гэж бие даан таних боломжтой. Вэбмастер нь сайтын домэйн нэрийг www-г буруу оруулахгүй байхыг баталгаажуулах шаардлагатай тул Хост үүнийг зааж өгөх ёсгүй.

Олон вэб мастерууд кирилл үсгийн домайныг сайтынхаа нэмэлт толь болгон ашигладаг. Гэсэн хэдий ч Host заавар нь кирилл үсгийг дэмждэггүй. Үүний тулд латин хэл дээрх үгсийг хуулбарлах шаардлагатай бөгөөд ингэснээр хаягийн мөрөөс сайтын хаягийг хуулж хялбархан таних боломжтой болно.

Robots файл дээрх хост

Энэхүү удирдамжийн гол зорилго нь давхардсан асуудлуудын дийлэнх хэсэгт оршдог. Вэб нөөц нь Оросын үзэгчдэд зориулагдсан тул сайтын эрэмбийг Yandex системээр хийх боломжтой тул Host-ийг эрэмбэлэх шаардлагатай байна.

Бүх дууны системүүд Хост удирдамжийг дэмждэггүй. Энэ функцийг зөвхөн Yandex-д ашиглах боломжтой. Гэсэн хэдий ч, домэйныг толин тусгал дүрс болгон хуваарилах баталгаа байхгүй, гэхдээ Yandex-ийн хэлснээр, хост дээр заасан нэрсийн давуу эрх үргэлж алдагдах болно.

Хайлтын системүүд robots.txt файлыг боловсруулахдаа мэдээллийг зөв уншихын тулд User-Agent-ийн дараа эхлэх тохирох бүлэгт Host-ын удирдамжийг нэмэх шаардлагатай. Гэсэн хэдий ч, удирдамж нь хөндлөн огтлолтой л бол тухайн улсын дүрмийн дагуу бичигдсэн эсэхээс үл хамааран роботууд Host-ийг vikorize хийх боломжтой.

Бид "Сошиал медиа дахь контент маркетинг: Урьдчилсан төлбөр төлөгчдийн толгойд хэрхэн орж, тэднийг брэндтэйгээ төөрөлдүүлэх вэ" нэртэй шинэ ном хэвлүүллээ.

Robots.txt нь хайлтын роботуудын харагдацыг агуулсан текст файл бөгөөд порталын хуудсыг индексжүүлэхэд тусалдаг.


Манай суваг дээрх бусад видеонууд - SEMANTICA-аас интернет маркетинг сур

Арал руу эд зүйлээ авахаар явсан гэдгээ илчил. Та газрын зураг зур. Тэнд маршрутыг зааж өгсөн: "Их хожуул руу яв. Гарахдаа 10 крок олж эхэлж, дараа нь түвшинд оч. Баруун гараараа эргүүл, чи печера олох болно."

Цэ - вказивки. Тэднийг дагаснаар та маршрутыг дагаж, эрдэнэс олох болно. Ойролцоогоор хайлтын бот нь сайт эсвэл талыг индексжүүлж эхлэхэд ажилладаг. Та robots.txt файлыг мэддэг байх ёстой. Аль хуудсуудыг индексжүүлэх шаардлагатай, аль нь шаардлагагүй болохыг бүгд мэддэг. Эдгээр командын дагуу та порталыг тойрч, түүний хуудсыг индекст нэмнэ.

Яагаад танд robots.txt хэрэгтэй байна вэ?

Сайт хостинг болон бүртгүүлсэн DNS хүсэлт гаргасны дараа тэд сайтууд болон индекс хуудсуудаар зочилж эхэлдэг. Танд техникийн файл байхгүй байсан ч ажил дээрээ ажиллахаа болих нь чухал. Роботууд цахим хуудсуудыг мөлхөхдөө тэнд байгаа параметрүүдийг хадгалах хэрэгтэй гэж шоглогчид зааж өгдөг.

Robots.txt файл байгаа нь сайтыг мөлхөх хурд болон индекс дэх сайт байгаа эсэхэд асуудал үүсгэж болзошгүй. Файлыг зөв тохируулаагүй тохиолдолд нөөцийн чухал хэсгүүдийг индексээс оруулах, шаардлагагүй хуудаснууд байх болно.

Энэ бүхэн нь үр дүнд нь гоожих асуудалд хүргэдэг.

Энэ файлд ямар оруулга байрлаж байгаа, тэдгээр нь таны вэбсайт дээрх роботын үйл ажиллагаанд хэрхэн нөлөөлж байгааг харахын тулд тайланг харцгаая.

Yak zrobiti robots.txt

Юуны өмнө танд ямар файл байгаа эсэхийг шалгаарай.

Хөтөчийн хаягийн мөрөнд вэбсайтын хаяг, файлын нэрийг ташуу зураасаар оруулна уу, жишээ нь https://www.xxxxx.ru/robots.txt

Хэрэв файл байгаа бол параметрүүдийн жагсаалт дэлгэц дээр гарч ирнэ.

Файл нь агуулаагүй байна:

  1. Файлыг Notepad эсвэл Notepad++ гэх мэт үндсэн текст засварлагч ашиглан үүсгэсэн.
  2. Та роботын нэр болох extension.txt-г суулгах хэрэгтэй. Хүлээн зөвшөөрөгдсөн загварын стандартын дагуу өгөгдөл оруулах.
  3. Та Yandex вэбмастер зэрэг нэмэлт үйлчилгээнүүдийн ашиг тусыг шалгаж болно. Тэнд та "Хэрэгслүүд" хэсгээс "Analyze robots.txt" зүйлийг сонгоод сануулгыг бөглөх хэрэгтэй.
  4. Файл бэлэн болмогц сайтын үндсэн лавлах руу байршуулна уу.

Тохируулах дүрэм

Жокерууд нэгээс олон роботтой. Зарим роботууд зөвхөн текстийн агуулгыг индексжүүлдэг бол роботууд зөвхөн график контентыг индексжүүлдэг. Дууны системд ч гэсэн гинжит роботуудын дизайн өөр байж болно. Файлыг нугалахдаа түүнийг хамгаалах шаардлагатай.

Тэдний операторууд зарим дүрмийг үл тоомсорлож болно, жишээлбэл, GoogleBot нь сайтыг толин тусгал хийдэг хүмүүсийн талаархи мэдээлэлд хариу өгөхгүй. Ер нь өмхий үнэрийг нь барьж аваад файлаар хадгалдаг.

Файлын синтакс

Баримт бичгийн параметрүүд: роботын нэр "Хэрэглэгч-агент", удирдамж: "Зөвшөөрөх" тусдаа өмч, "Үгүйцүүлэх" аюулгүй байдал.

Yandex болон Google гэсэн хоёр үндсэн хайлтын систем байдаг.Мэдээж вэб сайт хийхдээ аль алиныг нь ашиглах нь чухал.

Талбарууд болон хоосон эгнээнд хүндэтгэл үзүүлэхийн тулд бүртгэл үүсгэх хэлбэр нь иймэрхүү харагдаж байна.

Хэрэглэгч-агент удирдамж

Робот нь User-агентээр эхэлсэн бичлэгүүдийг хайдаг бөгөөд хайлтын роботын нэрний оруулгууд байдаг. Хэдийгээр үүнийг заагаагүй ч роботын хандалтыг хязгаарлахгүй байх нь чухал юм.

Зөвшөөрөхгүй ба зөвшөөрөх заавар

Хэрэв та robots.txt-аас индексжүүлэхийг хориглох шаардлагатай бол "Зөвшөөрөх"-ийг ашиглана уу. Энэ нь роботын сайт эсвэл янз бүрийн хэсгүүдэд нэвтрэх эрхийг хязгаарлахад тусална.

Robots.txt нь хамгаалдаг "Зөвшөөрөх" зааврыг дагаж мөрддөггүй тул сайтыг бүхэлд нь индексжүүлэхийг зөвшөөрөх нь чухал юм. Zazvichiy zaboroni арьсны робот okremo дараа заасан байна.

# дүрс тэмдгийн дараа оруулсан бүх мэдээллийг машин тайлбар гэж үзэхгүй.

Хандалтыг зөвшөөрөхийн тулд блоклохыг зөвшөөрнө үү.

Од тэмдэг нь хүн бүрийн санаа зовдог хүмүүст зориулсан товчлол юм: Хэрэглэгч-агент: *.

Гэхдээ энэ сонголт нь хүн бүрт индексжүүлэхийг бүрэн хориглоно гэсэн үг юм.

Би дуулах хавтас каталогийн оронд хашааг харна

Нэг файлыг хаахын тулд та энэ үнэмлэхүй замыг оруулах хэрэгтэй


Сайтын газрын зураг, Хост удирдамж

Yandex-ийн хувьд толин тусгал шиг та үүнийг бүдүүлэг гэж хүлээн зөвшөөрөхийг хүсдэг гэж хэлдэг заншилтай. Мөн Google, бидний санаж байгаагаар түүнийг үл тоомсорлодог. Толин тусгал байхгүй тул вэб сайтынхаа нэрийг www эсвэл www-гүйгээр зөв бичих нь хичнээн чухал болохыг анхаарна уу.

Clean-param заавар

Хэрэв вэбсайтын хуудсуудын URL нь өөрчлөгддөг параметрүүдийг орлуулах боловч тэдгээрт нэгтгэх шаардлагагүй бол тэдгээрийг царцааж болно (үүнд хувь нэмэр оруулагчид, лавлагаачдын ids багтаж болно).

Жишээлбэл, "ref" хуудасны хаяг нь замын хөдөлгөөний зорчих газрыг заана. Шилдэг борлуулагчдын вэбсайт дээр тэмдэг байдаг гэдгийг анхаарна уу. Бүх үйлчлүүлэгчдийн хувьд хуудас ижил байх болно.

Бүтээлийг онлайнаар илгээх боломжтой бөгөөд мэдээллийг дахин оруулахгүй. Энэ нь серверийн ачааллыг бууруулах болно.

Мөлхөх саатлын заавар

Нэмж дурдахад та бот нь дүн шинжилгээ хийх хуудсуудыг ямар давтамжтайгаар татаж байгааг тодорхойлох боломжтой. Хэрэв revantage сервер тойрч гарах процессыг хурдасгах шаардлагатай гэж үзвэл энэ тушаал зогсох болно.

Robots.txt хүсэлт

  1. Энэ файлыг үндсэн директорт ашиглах боломжгүй. Хамгийн агуу робот хошигнохгүй, худал хэлэхгүй.
  2. Нэрийн үсэг нь жижиг латин байж болно.
    Нэр дээр нь тэмдэглэл байдаг, заримдаа төгсгөлд нь S үсгийг нэмээд робот гэж бичдэг.
  3. robots.txt файлд кирилл үсгийг өөрчлөх боломжгүй. Хэрэв та домэйныг орос хэлээр оруулах шаардлагатай бол тусгай Punycode форматыг ашиглан форматыг зааж өгнө үү.
  4. Энэ нь домэйн нэрийг ASCII тэмдэгтүүдийн дараалалд хөрвүүлэх арга юм. Үүний тулд та тусгай хөрвүүлэгчийг хурдан ашиглаж болно.

Код дараах байдлаар харагдаж байна.
site.rf = xn--80aswg.xn--p1ai

Google болон Yandex хайлтын системүүдийн дагуу роботын txt дээр нуугдах нэмэлт мэдээллийг нэмэлт баримтаас олж болно. Өөр өөр см-ийн хувьд тэдгээр нь өөрийн гэсэн шинж чанартай байж болох ч тэдгээр нь өөр байх болно.

сэтгэгдэл байхгүй

Robots.txt файл нь хайлтын роботуудад тусгайлан бүтээгдсэн бөгөөд ингэснээр тэд хаашаа очиж, индексжүүлж, оролт хаагдсаныг мэддэг. Хэрэв та үүнийг буруу тохируулсан бол хайлтанд их цаг зарцуулахгүй, эсвэл юу ч хийхгүй байж магадгүй юм.

Нийтлэлийг индексжүүлэх, индексжүүлэхтэй холбоотой асуудлаас зайлсхийхийн тулд бүх хайлтын системд робот txt хэрхэн үүсгэх талаар мэдэх хэрэгтэй. Энэ нь хэдхэн цаг зарцуулдаг, гэхдээ үүний дараа та тайван байх болно.

Вэб мастерууд үүнгүйгээр (ихэнхдээ, анхнаасаа, мунхаглалаас болж) эвлэрэхийг оролдсон. Нэг талаараа эхлэгчдэд энэ нь үндэслэлтэй юм - ингэснээр та хайлтын роботуудаас шаардлагатай мэдээллийг хаахгүй нь гарцаагүй. Нөгөө талаас, энэ жижиг файл нь өгөгдлийг хамгаалж, спамботууд сайт дээрх мэдээллийг үзэхээс сэргийлдэг.

Шинэ блогчид загваруудыг ашиглахыг зөвлөж байна. Жишээлбэл, WordPress-д зориулсан robots txt загвар. Вэбсайтаа сайжруулж, сайжруулаарай.

Шифрлэгдээгүй утга:

  • Хэрэглэгчийн агент: * - Та бүх хайлтын системд шууд холбогдсон, Yandex - зөвхөн Yandex.
  • Зөвшөөрөхгүй: индексжүүлэхийг хориглосон хавтас болон файлуудыг жагсаана
  • Хост – сайтынхаа нэрийг WWWгүйгээр оруулна уу.
  • Сайтын газрын зураг: XML сайтын зурагт байршуулах.

Файлыг Filezilla ашиглан эсвэл хостын вэбсайтаар дамжуулан сайтын үндсэн директорт байрлуул. Хүргэхэд бэлэн байхын тулд үндсэн лавлах руу илгээнэ үү: your_site.ru/robots.txt

Энэ нь ялангуяа CNC ашигладаг хүмүүст үнэн юм (зааврыг үгээр бичсэн боловч p=333 биш). Та хийх ёстой зүйл бол "Тохиргоо" - "Шуудангийн нэр" хэсэгт очоод доод талын сонголтыг сонгоод талбарт /% шуудангийн нэр% гэж оруулна уу.

Жүжигчид энэ файлыг аль болох хурдан бие даан үүсгэхийг зөвлөж байна.

Эхлэхийн тулд компьютер дээрээ тэмдэглэлийн дэвтэр үүсгээд робот гэж нэрлээрэй (том үсгийг бүү өөрчил). Жишээлбэл, 500 кб-ээс хэтрэхийн тулд хэмжээгээ тохируулах шаардлагагүй.

Хэрэглэгч-агент- Хайлтын системийн нэр (Yandex, Googlebot, StackRambler). Хэрэв та бүгдэд нэг дор уурлахыг хүсвэл одон тэмдэглээрэй *

Дараа нь тусламж авахын тулд энэ ажилд индексжүүлэх боломжгүй хуудас эсвэл хавтасыг зааж өгнө үү Зөвшөөрөхгүй:

Эхэндээ тодорхой файлыг багтаасан гурван санг дахин зохион байгуулсан.

Бүх зүйлийг индексжүүлэхийг зөвшөөрөхийн тулд та дараах зүйлийг бичих хэрэгтэй.

Хэрэглэгч-агент: *
Зөвшөөрөхгүй:

Yandex болон Google-д зориулсан robots.txt файлыг тохируулж байна

Yandex-д зориулсанДавхардсан хуудас байхгүйн тулд хостын удирдамжийг заавал нэмэх шаардлагатай. Энэ үгийг зөвхөн Yandex бот л ойлгодог тул шинэ утга санааг үгээр бичнэ үү.

Google-д зориулсанЦангасан хүн алга. Нэг, хутагтыг эцсээ хүртэл харгислах хэрэгтэй. Хэрэглэгчийн агент хэсэгт та дараах зүйлийг бичих хэрэгтэй.

  • Googlebot;
  • Googlebot-Image – зургийн индексжүүлэлтийг хэрхэн хүрээлэх;
  • Googlebot-Mobile – сайтын гар утасны хувилбарт зориулагдсан.

robots.txt файлын хүчинтэй эсэхийг хэрхэн шалгах вэ

Та Google хайлтын системийн "Вэбмастеруудад зориулсан хэрэгсэл" хэсэгт эсвэл Yandex.Webmaster вэбсайтын robots.txt-г шалгах хэсэгт ажиллах боломжтой.

Алдаа байгаа бол засаад дахин эргүүлээрэй. Сайн үр дүнд хүрэхийн тулд robots.txt дээр зөв кодыг хуулж, сайтад байршуулахаа бүү мартаарай.

Одоо та бүх хайлтын системд зориулж robots.txt хэрхэн үүсгэхийг харж болно. Би шинэхэн хүмүүст бэлэн болсон файлаа сайтынхаа нэрийг оруулахыг зөвлөж байна.

Эвдрэл