Kamis, 08 Desember 2022
Amankan websitemu dengan mengatur robots.txt
Pengantar robots.txt
File robots.txt memberi tahu crawler mesin telusur URL mana yang dapat diakses di situs Anda. File ini digunakan terutama agar situs Anda terhindar dari beban permintaan yang terlampau banyak; file ini bukanlah mekanisme untuk menyembunyikan halaman web dari Google. Untuk menyembunyikan halaman web dari Google, blokir pengindeksan dengan noindex atau lindungi halaman dengan sandi.
Jika menggunakan CMS, seperti Wix atau Blogger, Anda mungkin tidak perlu (atau dapat) mengedit file robots.txt secara langsung. Sebaliknya, CMS Anda mungkin mengekspos halaman setelan penelusuran atau beberapa mekanisme lain untuk memberi tahu mesin telusur agar meng-crawl halaman Anda atau tidak.
Jika ingin menyembunyikan atau memperlihatkan salah satu halaman Anda dari mesin telusur, telusuri petunjuk tentang mengubah visibilitas halaman di mesin telusur di CMS Anda (misalnya, telusuri "cara wix menyembunyikan halaman dari mesin telusur").
Untuk apa file robots. txt digunakan?
File robots.txt digunakan terutama untuk mengelola traffic crawler ke situs Anda, dan biasanya menyembunyikan halaman dari Google, bergantung pada jenis file-nya:
Pengaruh robots.txt pada beragam jenis file | |
---|---|
Halaman web | Anda dapat menggunakan file robots.txt untuk halaman web (HTML, PDF, atau format non-media lain yang dapat dibaca Google), untuk mengelola traffic crawling jika menurut Anda server kewalahan menangani permintaan dari crawler Google, atau untuk menghindari crawling halaman yang mirip atau tidak penting di situs Anda. Jika halaman web Anda diblokir dengan file robots.txt, URL tersebut masih dapat muncul di hasil penelusuran, tetapi hasil penelusuran tersebut tidak akan memiliki deskripsi. File gambar, video, PDF, dan file non-HTML lainnya tidak akan disertakan. Jika Anda melihat hasil penelusuran ini untuk halaman Anda dan ingin memperbaikinya, hapus entri robots.txt yang memblokir halaman. Jika Anda ingin menyembunyikan halaman sepenuhnya dari Penelusuran, gunakan metode lain. |
File media | Gunakan file robots.txt untuk mengelola traffic crawling, serta untuk mencegah file gambar, video, dan audio muncul dalam hasil penelusuran Google. Langkah ini tidak akan mencegah pengguna atau halaman lain menautkan ke file gambar, video, atau audio Anda. |
File resource | Anda dapat menggunakan file robots.txt untuk memblokir file resource seperti gambar, skrip, atau gaya yang tidak penting, jika menurut Anda halaman yang dimuat tanpa resource ini tidak akan terpengaruh secara signifikan oleh ketaktersediaan resource tersebut. Namun, jika ketaktersediaan resource ini mempersulit crawler Google dalam memahami halaman, jangan blokir resource. Jika resource diblokir, Google tidak dapat menganalisis halaman yang bergantung pada resource tersebut dengan baik. |
Memahami batasan file robots. txt
Sebelum Anda membuat atau mengedit file robots.txt, Anda harus mengetahui batas metode pemblokiran URL ini. Bergantung pada sasaran dan situasi Anda, sebaiknya pertimbangkan mekanisme lain untuk memastikan URL Anda tidak dapat ditemukan di web.
- Aturan robots.txt mungkin tidak didukung oleh semua mesin telusur.
Petunjuk dalam file robots.txt tidak dapat memaksakan perilaku crawler ke situs Anda; crawler-lah yang memilih apakah akan mematuhi petunjuk atau tidak. Meskipun Googlebot dan web crawler ternama lainnya mematuhi petunjuk dalam file robots.txt, crawler lain mungkin tidak mematuhinya. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari web crawler, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda. - Crawler yang berbeda menafsirkan sintaksis dengan cara yang berbeda.
Meskipun web crawler ternama mengikuti aturan dalam file robots.txt, setiap crawler mungkin menafsirkan aturan dengan cara yang berbeda. Anda harus mengetahui sintaksis yang sesuai untuk menangani berbagai web crawler karena sebagian web crawler mungkin tidak memahami petunjuk tertentu. - Halaman yang tidak diizinkan dalam robots.txt masih dapat diindeks jika ditautkan dari situs lainnya.
Meskipun Google tidak akan meng-crawl atau mengindeks konten yang diblokir oleh file robots.txt, kami mungkin masih menemukan dan mengindeks URL yang tidak diizinkan jika URL tersebut ditautkan dari tempat lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks link dalam link ke halaman masih dapat muncul di hasil penelusuran Google. Agar URL tidak muncul dalam hasil penelusuran Google, lindungi file Anda dengan sandi di server, gunakan header respons atau tag metanoindex
, atau hapus seluruh halaman.
Perhatian: Menggabungkan beberapa aturan crawling dan pengindeksan dapat menyebabkan pertentangan antara aturan satu dengan aturan lainnya. Pelajari cara menggabungkan crawling dengan aturan penayangan dan pengindeksan.
Membuat atau memperbarui file robots. txt
Jika memutuskan bahwa Anda butuh file robots.txt, pelajari cara membuat file robots.txt. Atau, jika Anda sudah memiliki file robots.txt, pelajari cara memperbaruinya.
Tidak ada komentar:
Posting Komentar