Kamis, 08 Desember 2022

Pengantar robots.txt File robots.txt memberi tahu crawler mesin telusur URL mana yang dapat diakses di situs Anda. File ini digunakan teruta...

Amankan websitemu dengan mengatur robots.txt




Pengantar robots.txt

File robots.txt memberi tahu crawler mesin telusur URL mana yang dapat diakses di situs Anda. File ini digunakan terutama agar situs Anda terhindar dari beban permintaan yang terlampau banyak; file ini bukanlah mekanisme untuk menyembunyikan halaman web dari Google. Untuk menyembunyikan halaman web dari Google, blokir pengindeksan dengan noindex atau lindungi halaman dengan sandi.

Jika menggunakan CMS, seperti Wix atau Blogger, Anda mungkin tidak perlu (atau dapat) mengedit file robots.txt secara langsung. Sebaliknya, CMS Anda mungkin mengekspos halaman setelan penelusuran atau beberapa mekanisme lain untuk memberi tahu mesin telusur agar meng-crawl halaman Anda atau tidak.

Jika ingin menyembunyikan atau memperlihatkan salah satu halaman Anda dari mesin telusur, telusuri petunjuk tentang mengubah visibilitas halaman di mesin telusur di CMS Anda (misalnya, telusuri "cara wix menyembunyikan halaman dari mesin telusur").

File robots.txt digunakan terutama untuk mengelola traffic crawler ke situs Anda, dan biasanya menyembunyikan halaman dari Google, bergantung pada jenis file-nya:


Pengaruh robots.txt pada beragam jenis file
Halaman web

Anda dapat menggunakan file robots.txt untuk halaman web (HTML, PDF, atau format non-media lain yang dapat dibaca Google), untuk mengelola traffic crawling jika menurut Anda server kewalahan menangani permintaan dari crawler Google, atau untuk menghindari crawling halaman yang mirip atau tidak penting di situs Anda.

Jika halaman web Anda diblokir dengan file robots.txt, URL tersebut masih dapat muncul di hasil penelusuran, tetapi hasil penelusuran tersebut tidak akan memiliki deskripsi. File gambar, video, PDF, dan file non-HTML lainnya tidak akan disertakan. Jika Anda melihat hasil penelusuran ini untuk halaman Anda dan ingin memperbaikinya, hapus entri robots.txt yang memblokir halaman. Jika Anda ingin menyembunyikan halaman sepenuhnya dari Penelusuran, gunakan metode lain.

File media

Gunakan file robots.txt untuk mengelola traffic crawling, serta untuk mencegah file gambar, video, dan audio muncul dalam hasil penelusuran Google. Langkah ini tidak akan mencegah pengguna atau halaman lain menautkan ke file gambar, video, atau audio Anda.

File resourceAnda dapat menggunakan file robots.txt untuk memblokir file resource seperti gambar, skrip, atau gaya yang tidak penting, jika menurut Anda halaman yang dimuat tanpa resource ini tidak akan terpengaruh secara signifikan oleh ketaktersediaan resource tersebut. Namun, jika ketaktersediaan resource ini mempersulit crawler Google dalam memahami halaman, jangan blokir resource. Jika resource diblokir, Google tidak dapat menganalisis halaman yang bergantung pada resource tersebut dengan baik.


Sebelum Anda membuat atau mengedit file robots.txt, Anda harus mengetahui batas metode pemblokiran URL ini. Bergantung pada sasaran dan situasi Anda, sebaiknya pertimbangkan mekanisme lain untuk memastikan URL Anda tidak dapat ditemukan di web.

  • Aturan robots.txt mungkin tidak didukung oleh semua mesin telusur.
    Petunjuk dalam file robots.txt tidak dapat memaksakan perilaku crawler ke situs Anda; crawler-lah yang memilih apakah akan mematuhi petunjuk atau tidak. Meskipun Googlebot dan web crawler ternama lainnya mematuhi petunjuk dalam file robots.txt, crawler lain mungkin tidak mematuhinya. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari web crawler, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda.
  • Crawler yang berbeda menafsirkan sintaksis dengan cara yang berbeda.
    Meskipun web crawler ternama mengikuti aturan dalam file robots.txt, setiap crawler mungkin menafsirkan aturan dengan cara yang berbeda. Anda harus mengetahui sintaksis yang sesuai untuk menangani berbagai web crawler karena sebagian web crawler mungkin tidak memahami petunjuk tertentu.
  • Halaman yang tidak diizinkan dalam robots.txt masih dapat diindeks jika ditautkan dari situs lainnya.
    Meskipun Google tidak akan meng-crawl atau mengindeks konten yang diblokir oleh file robots.txt, kami mungkin masih menemukan dan mengindeks URL yang tidak diizinkan jika URL tersebut ditautkan dari tempat lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks link dalam link ke halaman masih dapat muncul di hasil penelusuran Google. Agar URL tidak muncul dalam hasil penelusuran Google, lindungi file Anda dengan sandi di servergunakan header respons atau tag meta noindex, atau hapus seluruh halaman.

Perhatian: Menggabungkan beberapa aturan crawling dan pengindeksan dapat menyebabkan pertentangan antara aturan satu dengan aturan lainnya. Pelajari cara menggabungkan crawling dengan aturan penayangan dan pengindeksan.

Jika memutuskan bahwa Anda butuh file robots.txt, pelajari cara membuat file robots.txt. Atau, jika Anda sudah memiliki file robots.txt, pelajari cara memperbaruinya.

Tidak ada komentar:

Posting Komentar




Divisi EB, melayani kebutuhan konsumen yang berhubungan dengan bidang Teknologi Informasi. Utamanya adalah memanfaatkan Teknologi informasi yang dimiliki oleh konsumen untuk memberikan nilai tambah bagi perusahaan konsumen itu sendiri. Diharapkan dari adanya layanan ini, perusahaan konsumen bisa lebih maju dan dikenal luas.



Cari Produk
Cari Artikel

Chat us

Jalur Pembayaran

Jalur Pembayaran
PT. MSP menerima pembayaran dari Paypal, BNI, Link Aja, Tunai