Merupakan idaman bagi setiap publiser dan webmaster, jikalau search engines mengunjungi situsnya secara rutin kemudian mengindex seluruh isinya. Namun pada kenyataannya, sering terjadi kasus dimana proses index menimbulkan masalah, karena ada bagian dari situs kita yang tidak ingin terindex ternyata tampil pada halaman hasil pencarian Search Engine Results Pages (SERPs). Contohnya, jika anda mempunyai data yang sensitif dan tidak ingin seluruh dunia melihatnya, namun data tersebut ternyata tampil pada SERPs.
Maka anda lebih baik memberitahukan kepada search engines untuk tidak mengindeks data-data tersebut (walau sebenarnya cara teraman agar data sensitif anda tidak terindex adalah dengan menaruhnya secara offline di wadah terpisah). Sebagai tambahan, jika anda ingin menghemat bandwidht dengan menutup images, stylesheets dan javascript dari proses index, anda pun harus memberitahukan kepada ‘spider’ untuk menjauhi item-item ini.
Satu-satunya cara untuk memberitahukan search engine file dan folders mana yang disitus anda yang tidak boleh di index adalah dengan menggunakan Robots metatag. Namun, karena tidak semua search engines dapat membaca metatags, maka Robots metatag akan diacuhkan begitu saja. Cara yang lebih baik untuk memberitahukan maksud anda adalah dengan sebuah file robots.txt.
Apakah Robots.txt?
Robot.txt adalah sebuah teks (bukan html) file yang anda tempatkan pada situs anda untuk menginformasikan robot pencari (search robots) agar tidak mendatangi halaman tertentu. Namun begitu, Robot.txt bukanlah teks perintah bagi mesin pencari (search engines), hanya saja pada umumnya mesin pencari mentaxatinya dengan tidak mengunjungi halaman yang dilarang.
Penting untuk di ingat bahwa robot.txt bukan sebuah cara untuk menghalangi mesin pencari untuk meng-crawl situs anda (ia bukan firewall, atau semacam pelindung password), ilustrasinya begini jika anda menaruh robot.txt file pada situs anda maka teks tersebut akan terbaca seperti ini; “harap jangan memasuki pintu yang tidak terkunci”. Dengan ini anda tidak akan berdaya untuk mencegah para pencuri cyber untuk memasukinya — namun orang yang baik tidak akan memasukinya — tapi hal ini beresiko. Yang saya coba katakan disini adalah, jika anda mempunyai data yang menurut anda sangat rahasia dan sensitif maka janganlah naif dengan mengandalkan robots.txt untuk melindunginya agar tidak terindex dan ditampilkan pada hasil pencarian (search results).
Penempatan lokasi dari Robot.txt adalah hal yang sangat penting. Ia harus ada didalam direktori utama (main directory) karena jikalau para mesin pencari tidak menemukannya, maka mereka pun tidak akan mencarinya keseluruh situs anda demi menemukan file robot.txt. Singkatnya begini, disaat mesin pencari tiba disitus anda, maka ia akan langsung menuju direktori utama (main directory) (contoh;
[You must be registered and logged in to see this link.] dan jika search engine tidak menemukannya didalam main directory, maka mereka akan menyimpulkan bahwa situs anda tidak memiliki file robot.txt, kemudian para search engine akan mengindex semua yang ia temukan selama meng-crawl situs anda. Hal ini akan membuat anda menyeringai dan kaget, ketika anda melihat seluruh isi situs anda terindex dan ditampilkan pada search engine.
Perlu diketahui bahwa konsep dan struktur dari robot.txt telah dikembangkan selama lebih dari satu dekade dan jika anda tertarik untuk mempelajarinya lebih lanjut mengenai robot.txt, silahkan kunjungi
[You must be registered and logged in to see this link.] atau anda pun bisa langsung mengunjungi artikel Standar untuk Pengeluaran Robot karena artikel ini hanya akan memfokuskan pada aspek terpenting dari sebuah file robot.txt. Sekarang kita beranjak pada bagian Struktur dari sebuah file Robot.txt.
Struktur dari sebuah file Robot.txt
Struktur dari sebuah robot.txt sangat simple (juga sangat fleksible), ia sebuah daftar tanpa akhir dari user agents dan menolak file-file dan direktori-direktori. Secara mendasar, syntax (kalimat) nya seperti ini:
User-agent:
Disallow:
“User-agent” adalah crawlers dari search engines’ dan disallow: daftar dari sejumlah file dan direktori yang tidak diperkenankan untuk di index. Sebagai tambahan bagi “user-agent:” dan “disallow:” entries, anda dapat memasukan sebaris komentar – dengan manaruh # di awalan baris, seperti ini:
# All user agents are disallowed to see the /temp directory.
User-agent:*
Disallow: /temp/
Perangkap dari sebuat file Robot.txt
Disaat anda memulai membuat file yang rumit, artinya anda memutuskan untuk memilih user agents mana yang dibolehkan untuk mengakses sejumlah direktori berbeda – maka masalah-masalah akan muncul. Jika anda lengah atas perangkap dari file robot.txt. Maka Kesalahan umum akan memasukan salah eja (salah ketik) dan perintah yang saling membantah. Salah eja user agents, direktori, lupa tanda titik dua (:) setelah kalimat ‘User Agent’ dan ‘Disallow’, dsb. Bagi saya problem salah eja ini hal cukup rumit untuk ditemukan, namun untungnya dalam sejumlah kasus ‘validation tool’ dapat membantu.
Masalah yang lebih serius adalah apa yang disebut ‘logical errors’. Contohnya:
User-agent: *
Disallow: /temp/ User-agent: Googlebot
Disallow: /images/
Disallow: /temp/
Disallow: /cgi-bin/
Contoh diatas adalah dari sebuah robot.txt yang mengizinkan seluruh user agen untuk mengakses tempat dalam situs anda, kecuali direktori /temp. Dari sini hingga kemudian, ada catatan lain yang memberi batas yang membatasi secar spesifik bagi Googlebot. Disaat Googlebot memulai membaca robots.txt, ia akan melihat bahwa semua user agents (termasuk dirinya) di izinkan untuk meng-crawler semua folder kecuali /temp/. Hal ini cukup bagi Googlebot, maka ia tidak akan membaca file tersebut hingga akhir dan selanjutnya akan mengindex segalanya kecuali /temp/ – termasuk /images/ anda /cgi-bin/, yang anda yakin anda telah mengatakan padanya untuk tidak menyentuhnya. Sebenarnya, struktur dari sebuah file robots.txt sederhana dan mudah namun juga rentan karena kesalahan serius dapat terjadi dengan mudah.
Tools untuk membangkitkan dan mem-validasi sebuah file Robot.txt
Perlu diingat bahwa dalam syntax sederhana dari sebuah file robot.txt, anda selalu dapat membacanya untuk mengetahui jika segalanya berjalan lancar. Namun cara yang lebih mudah adalah dengan menggunakan sebuah validator, seperti yang satu ini:
Tools ini akan melaporkan sejumlah kesalahan umum seperti tidak adanya tanda titik (:) dua dan slash (-). Contoh, jika anda mengetik:
User agent: *
Disallow: /temp/
Syntax ini salah karena tidak ada tanda slash diantara ‘user’ dan ‘agent’ dan syntax ini salah.
Pada kasus seperti ini, disaat anda mempunyai file robots.txt yang kompleks – anda memberi instruksi berbeda-beda bagi user agents yang berbeda pula atau anda mempunyai daftar panjang dari sejumlah direktori dan sub-direktori agar user agent tidak memasukinya, menuliskan file tersebut akan sangat melelahkan. Namun jangan khawatir – ada tools yang akan menghasilkan file tersebut bagi anda. Ada sejumlah visual tools yang mengizinkan dan menunjukkan file dan direktori mana yang dilarang.
Dan jika anda tidak ingin mengeluarkan sepeser pun untuk membeli sebuah tool graphical untuk generasi robots.txt (robot.txt generation) tidak usah khawatir karena ada tools online yang dapat membantu anda. Contohnya the server-side robots generator menyingkatkan daftar user agents dan sebuah text box bagi anda untuk membuat mendaftar file-file yang tidak boleh di index. Sejujurnya, hal ini tidak terlalu membantu, kecuali anda men-set perintah spesifik untuk sejumlah search engine yang berbeda, karena dalam kasus tertentu, segalanya terserah anda untuk membuat daftar direktori, tapi tetap tidak terlalu membantu.