Robots.txt merupakan file pengatur robot2 search engine yang berkunjung dan mendata html suatu situs.
Dengan file ini seseorang dpt membatasi robot search engine sperti google, yahoo, bing dsb utk dpt mengakses dan mengindex halamn website.*)
secara default spider robot akan mengindex website seluruh halaman html yg ada. hal ini memungkinkan halaman2 yg sensitif atau bersifat rahasia akan terindex.
Dengan membuat robots.txt ini seseorang bisa mngatur spider robot sehingga hanya halaman2 yg diperbolehkan saja yg bisa diakses dan diindex oleh spider robot. robots.txt ini banyak dijumpai pada blog2, web cms, dan website2 open source.
Yang perlu diperhatikan dalam pembuatan robots.txt antara lain :
~ pembuatan robots.txt harus menggunakan huruf kecil semua (case sensitif)
~ robots.txt pun harus berada pada root directory web.
Sebagai contoh isi dari robots.txt
User-agent: *
Disallow: /admin
Disallow: /groups
Disallow: /*.js$
Allow: /catalogs
Allow: /news
Dari contoh isi diatas dapat diterjemahkan sbb:
user-agent: * , artinya semua robot dapat mengindeks web tersebut. (default)
Disallow: /admin, berarti directory admin tidak diperbolehkan diindeks spider robot.
Disallow: /*.js$, berarti semua file js tidak diijinkan diindeks spider robot.
Allow: /news, berarti directory news dapat diakses spider robot.
Dilihat dari sisi positif:
~ robots.txt mampu melindungi halaman admin dan halaman2 sensitif lainnya dari mesin pencari, sehingga lebih terlindung dari pencarian ex. inurl:
[You must be registered and logged in to see this link.]Dilihat dari sisi negatif:
~ robots.txt merupakan file publik yang dapat dimanfaatkan oleh anonymous visitor utk mengetahui directory/file2 sensitif terutama admin page dengan hanya mengetikkan url
[You must be registered and logged in to see this link.]Proteksinya:
Lalu bgaimana agar robots.txt ini tidak dapat dilihat secara langsung oleh anonymous visitor tsb? yaitu dengan memanfaatkan command apache.
kita dpt menglabui web-browser dengan meredirect ke halaman lain.
caranya buat file .htaccess atau jika sdh ada tiggal tambahkan saja.
RewriteEngine On
RewriteCond {HTTP_USER_AGENT} ^Mozilla
RewriteCond %{HTTP_USER_AGENT}!(Slurp¦surfsafely)
RewriteRule ^robots\.txt$ /halaman_lain.html [L]
Dari command diatas dapat diterjemahkan bahwa user agent yg diawali Mozilla (kebanyakan web-browser menggunakan agent ini termasuk IE, chrome, Opera dsb) dan yang tidak mengandung kata slurp atau surfsafely maka file robots.txt akan dialihkan ke halaman_lain.html
Dengan begitu sebagian besar web-browser akan teralih ke halaman_lain.html. Tentunya halaman_lain.html telah dibuatkan terlebih dahulu yg berisi bebas.
Yang perlu dipertimbangkan kembali dalam pembuatan robots.txt
~ Dari proteksi diatas tidak menutup kemungkinan seseorang menggunakan akses lain selain web-browser.
~ Hanya robot2 yg terpercaya saja yg mematuhi aturan robots.txt, sedangkan spider robot malware tidak akan berpengaruh dan tetap menscan semua halaman2 web.
Alternatif lain selain pembuatan robots.txt yaitu dengan menggunakan meta tag pada header halaman web.
Secara default meta tag pada spider robot sbb:
<META NAME="ROBOTS" CONTENT="INDEX, FOLLOW">
Bot2 akan mengindeks dan menjelajah link yg terdapat pada halaman tsb.
untuk menjaga spider robot tidak mengindeks halaman sensitif yaitu bisa dengan menuliskan meta tag sbb:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE">
dari baris diatas berarti robot apapun tidak diijinkan mengindeks, menjelajah link2 halaman tsb serta tidak akan di cache.
Dari kesimpulan diatas, Pembuatan meta tag lebih aman dari pembuatan robots.txt namun begitu dibutuhkan ekstra tenaga untuk membuat meta tag tsb pada tiap2 halaman.
Dan Sekali lagi: Hanya robot2 yg terpercaya saja yg mematuhi aturan meta tag, sedangkan spider robot malware tidak akan berpengaruh dan tetap menscan semua halaman2 web.
Links:
[You must be registered and logged in to see this link.]