Buka yang lain
Asalamualaikum wr.wb
pada kesempatan ini kita akan membahas Cara Set Up robots.txt untuk Mengendalikan Spider Search Engine
Simak di bawah ini:
Ketika saya pertama kali mulai menulis situs web pertama saya, saya tidak benar-benar berpikir bahwa saya akan pernah punya alasan mengapa saya ingin membuat file robots.txt . Setelah semua , aku tidak ingin robot mesin pencari untuk laba-laba dan dengan demikian indeks setiap dokumen situs saya ? Namun hari ini , semua situs saya , termasuk thesitewizard.com , memiliki file robots.txt di direktori root mereka . Artikel ini menjelaskan mengapa Anda mungkin juga ingin menyertakan file robots.txt pada situs Anda , bagaimana Anda dapat melakukannya , dan mencatat beberapa kesalahan umum yang dibuat oleh webmaster baru berkaitan dengan file robots.txt .
Bagi mereka yang baru ke file robots.txt , itu hanyalah sebuah file teks menerapkan apa yang dikenal sebagai Standar Robot Exclusion . File tersebut ditempatkan di direktori utama dari sebuah situs web dan menyarankan laba-laba dan robot lain yang direktori atau file yang mereka tidak boleh mengakses . File ini murni penasehat - tidak semua laba-laba repot-repot untuk membacanya apalagi memperhatikan itu . Namun, sebagian besar , jika tidak semua , laba-laba yang dikirim oleh mesin pencari utama untuk mengindeks situs Anda akan membacanya dan mematuhi aturan yang terkandung dalam file (asalkan aturan-aturan masuk akal ) .
Mengapa File Robots.txt Penting ?
Apa tujuan dari sebuah file robots.txt ?
Itu Bisa Hindari Pemborosan Server Resources
Banyak, jika tidak sebagian besar situs , memiliki semacam script ( program komputer ) yang berjalan pada situs web mereka . Sebagai contoh, banyak situs memiliki semacam bentuk kontak, seperti yang dibuat menggunakan Feedback Form Gratis Script Wizard. Beberapa juga memiliki mesin pencari di situs mereka , seperti apa yang Anda lihat di kolom kiri dari setiap halaman di thesitewizard.com .
Ketika robot mesin pencari atau laba-laba indeks situs Anda , mereka benar-benar memanggil skrip Anda seperti browser akan. Jika situs Anda adalah seperti tambang , di mana script yang semata-mata dimaksudkan untuk penggunaan manusia dan tidak melayani penggunaan praktis untuk mesin pencari ( mengapa kebutuhan mesin pencari untuk memanggil formulir umpan balik saya atau menggunakan situs mesin pencari saya ? ) Anda mungkin ingin untuk memblokir laba-laba dari direktori yang berisi skrip Anda . Sebagai contoh, saya memblokir laba-laba dari bentuk umpan balik saya , mesin pencari dan direktori CGI - BIN . Mudah-mudahan , ini akan mengurangi beban pada server web yang terjadi ketika skrip dieksekusi dengan menghapus eksekusi yang tidak perlu .
Tentu saja ada sesekali robot berperilaku buruk yang melanda server Anda dengan kecepatan tinggi . Laba-laba tersebut benar-benar dapat menurunkan server atau setidaknya memperlambatnya untuk pengguna yang sebenarnya yang mencoba untuk mengaksesnya . Jika Anda mengetahui bahwa salah satu laba-laba tersebut, Anda mungkin ingin mengecualikan mereka juga. Anda dapat melakukan ini dengan file robots.txt . Sayangnya meskipun, laba-laba berperilaku buruk sering mengabaikan file robots.txt juga.
Dapat Simpan Bandwidth Anda
Jika Anda melihat statistik web situs Anda , Anda pasti akan menemukan banyak permintaan untuk file robots.txt oleh berbagai search engine spider . Mesin pencari mencoba untuk mengambil file robots.txt sebelum mengindeks situs web Anda , untuk melihat apakah Anda memiliki instruksi khusus untuk mereka .
Jika Anda tidak memiliki file robots.txt , server web Anda akan mengembalikan halaman error 404 ke mesin sebagai gantinya. Bagi mereka yang telah disesuaikan dokumen error 404 mereka , bahwa 404 halaman disesuaikan akan berakhir dikirim ke laba-laba berulang kali sepanjang hari . Sekarang , jika Anda telah disesuaikan halaman 404 Anda , kemungkinan besar bahwa itu lebih besar dari pesan kesalahan server standar " 404 File Not Found " ( karena Anda akan ingin halaman kesalahan Anda mengatakan lebih dari pesan kesalahan default) . Dengan kata lain, gagal untuk membuat robots.txt akan menyebabkan spider mesin pencari untuk menggunakan lebih banyak bandwidth Anda sebagai hasil dari pengambilan yang berulang-ulang dari 404 file error besar Anda . ( Berapa banyak lagi tergantung , tentu saja , pada ukuran halaman error 404 . )
Beberapa laba-laba juga dapat meminta untuk file yang Anda merasa mereka tidak seharusnya. Misalnya, beberapa mesin pencari juga file grafis index ( seperti " . Gif " , " . Jpg " dan " png . " File " ) . Jika Anda tidak ingin mereka untuk melakukannya , Anda bisa melarang itu dari direktori file grafis Anda menggunakan file robots.txt Anda .
Hal Menghapus Clutter dari Statistik Web Anda
Saya tidak tahu tentang Anda, tapi salah satu hal yang saya cek dari statistik web saya adalah daftar URL yang pengunjung mencoba untuk mengakses, tapi bertemu dengan 404 File Tidak Ditemukan Kesalahan . Seringkali ini memberitahu saya jika saya membuat kesalahan ejaan di salah satu link internal di salah satu situs saya ( ya , saya tahu - saya harus memeriksa semua link di tempat pertama , tapi kesalahan bisa terjadi ) .
Jika Anda tidak memiliki file robots.txt , Anda dapat yakin bahwa / robots.txt akan fitur dalam statistik web Anda 404 laporan , menambahkan kekacauan dan mungkin tidak perlu mengalihkan perhatian Anda dari URL yang buruk nyata yang perlu Anda perhatikan .
Menolak Robot
Kadang-kadang Anda tidak ingin laba-laba tertentu untuk mengindeks situs Anda untuk beberapa alasan atau lainnya . Mungkin robot ini berperilaku buruk dan laba-laba situs Anda di seperti kecepatan tinggi yang dibutuhkan turun seluruh server Anda . Atau mungkin Anda lebih suka bahwa Anda tidak ingin gambar pada situs Anda diindeks di mesin pencari gambar . Dengan file robots.txt , Anda dapat mengecualikan laba-laba tertentu dari mengindeks situs Anda dengan direktif robots.txt , disediakan laba-laba mematuhi aturan dalam file tersebut .
Cara Set Up File Robots.txt
Menulis file robots.txt sangat mudah . Ini hanya sebuah file teks ASCII yang Anda tempatkan pada akar domain Anda . Misalnya, jika domain Anda adalah www.example.com , menempatkan file di www.example.com / robots.txt . Bagi mereka yang tidak tahu apa file teks ASCII adalah , itu hanya file teks biasa yang Anda buat dengan jenis program yang disebut editor teks ASCII . Jika Anda menggunakan Windows, Anda sudah memiliki editor teks ASCII pada sistem Anda , yang disebut Notepad . ( Catatan: hanya Notepad pada default sistem Windows adalah editor teks ASCII , jangan menggunakan WordPad , Tulis , atau Word. )
File pada dasarnya berisi daftar nama-nama laba-laba pada satu baris , diikuti oleh daftar direktori atau file tidak diperbolehkan untuk mengakses pada baris berikutnya , dengan masing-masing direktori atau file pada baris terpisah . Hal ini dimungkinkan untuk menggunakan karakter wildcard " * " (hanya tanda bintang , tanpa tanda kutip ) bukannya penamaan laba-laba tertentu . Bila Anda melakukannya , semua laba-laba diasumsikan diberi nama . Perhatikan bahwa file robots.txt adalah file robot pengecualian ( dengan penekanan pada " pengecualian " ) - tidak ada cara yang universal untuk memberitahu laba-laba untuk menyertakan setiap berkas atau direktori .
Ambil file robots.txt berikut ini misalnya :
User-agent : *
Disallow: / cgi - bin /
Di atas dua baris , ketika dimasukkan ke dalam sebuah file robots.txt , menginformasikan semua robot ( karena asterisk wildcard " * " karakter yang digunakan ) bahwa mereka tidak diperbolehkan untuk mengakses apa pun di direktori cgi - bin dan turunannya . Artinya, mereka tidak diperbolehkan untuk mengakses cgi-bin/whatever.cgi atau bahkan sebuah file atau script di sebuah subdirektori dari cgi - bin , seperti / cgi-bin/anything/whichever.cgi .
Jika Anda memiliki sebuah robot khusus dalam pikiran , seperti Google robot pencarian gambar , yang mengumpulkan gambar di situs Anda untuk mesin pencari Google Image , Anda dapat menyertakan baris seperti berikut :
User-agent : Googlebot -Image
Larang : /
Ini berarti bahwa gambar robot pencarian Google , " Googlebot -Image " , tidak harus mencoba untuk mengakses file apapun di direktori root " / " dan semua subdirektorinya . Ini secara efektif berarti bahwa itu dilarang dari mendapatkan file dari seluruh situs Web Anda .
Anda dapat memiliki beberapa baris Disallow untuk setiap agen pengguna ( misalnya , untuk setiap laba-laba ) . Berikut adalah contoh dari sebuah file robots.txt lagi :
User-agent : *
Disallow: / images /
Disallow: / cgi - bin /
User-agent : Googlebot -Image
Larang : /
Blok pertama teks melarang semua laba-laba dari direktori gambar dan direktori cgi - bin . Blok kedua kode melarang laba-laba Googlebot - Image dari setiap direktori .
Hal ini dimungkinkan untuk mengecualikan laba-laba mengindeks file tertentu . Misalnya, jika Anda tidak ingin gambar robot pencarian Google untuk mengindeks gambar tertentu , katakanlah , mymugshot.jpg , Anda dapat menambahkan hal berikut :
User-agent : Googlebot -Image
Disallow: / images / mymugshot.jpg
Ingatlah untuk menambahkan garis miring ( " / " ) jika Anda menunjukkan direktori. Jika Anda cukup menambahkan
User-agent : *
Larang : / privatedata
robot akan menjadi batasan mengakses privatedata.html serta privatedataandstuff.html serta pohon direktori mulai dari / privatedata / ( dan seterusnya ) . Dengan kata lain, ada karakter wildcard tersirat berikut apa pun yang Anda daftar di baris Disallow .
Dimana Apakah Anda Dapatkan Nama Robot ?
Jika Anda memiliki laba-laba tertentu dalam pikiran yang Anda ingin memblokir , Anda harus mencari tahu namanya . Untuk melakukan hal ini , cara terbaik adalah untuk memeriksa situs web dari mesin pencari . Mesin terhormat biasanya akan memiliki tempat halaman yang memberikan rincian tentang bagaimana Anda dapat mencegah laba-laba mereka dari mengakses file tertentu atau direktori Anda .
Kesalahan Umum dalam Robots.txt
Berikut adalah beberapa kesalahan yang sering dibuat oleh orang-orang baru untuk menulis aturan robots.txt .
Ini Tidak Dijamin untuk Bekerja
Seperti disebutkan sebelumnya , meskipun format robots.txt tercantum dalam dokumen yang disebut " A Standar Robots Exclusion " , tidak semua laba-laba dan robot benar-benar repot-repot untuk memperhatikan itu . Listing sesuatu dalam robots.txt Anda ada jaminan bahwa itu akan dikeluarkan . Jika Anda benar-benar perlu untuk memblokir laba-laba tertentu ( " bot " ) , Anda harus menggunakan file htaccess . Untuk memblokir bot itu . Atau, Anda dapat juga sandi - melindungi direktori ( juga dengan file htaccess . ) .
Jangan Daftar Direktori Rahasia Anda
Siapapun dapat mengakses berkas robot Anda, bukan hanya robot . Sebagai contoh, mengetik http://www.google.com/robots.txt akan mendapatkan file robots.txt Google sendiri . Saya melihat bahwa beberapa webmaster baru tampaknya berpikir bahwa mereka dapat daftar direktori rahasia mereka dalam file robots.txt untuk mencegah direktori tersebut agar tidak diakses . Jauh dari itu . Daftar direktori dalam file robots.txt sering menarik perhatian ke direktori . Bahkan , beberapa laba-laba ( seperti spammer tertentu ' email panen robot ) membuat sebuah titik untuk memeriksa robots.txt untuk direktori dikecualikan untuk laba-laba .
Hanya Satu Directory / file per baris Disallow
Jangan mencoba untuk menjadi pintar dan menempatkan beberapa direktori on line Larang Anda . Hal ini mungkin tidak akan bekerja dengan cara Anda berpikir , karena Robots Exclusion Standard hanya menyediakan satu direktori per laporan Larang .
Cara Tentukan Semua File di Website Anda
Sebuah update terbaru ke format robots.txt sekarang memungkinkan Anda untuk link ke sesuatu yang dikenal sebagai file protokol Sitemaps yang memberikan mesin pencari daftar semua halaman di situs Web Anda . Silahkan baca artikel Cara Dapatkan Search Engine untuk Temukan ( Indeks ) Semua Halaman Web di Situs Anda Untuk informasi lebih lanjut tentang ekstensi ini .
Ini Worth It
Bahkan jika Anda ingin semua direktori Anda untuk diakses oleh laba-laba , robot sederhana file dengan berikut ini mungkin berguna :
User-agent : *
Larang :
Dengan tidak ada file atau direktori yang tercantum dalam baris Disallow , Anda menyiratkan bahwa setiap direktori di situs Anda dapat diakses . Setidaknya , file ini akan menghemat beberapa byte bandwidth setiap kali situs Anda dilihat laba-laba ( atau lebih jika file 404 Anda besar ) ; dan juga akan menghapus Robots.txt dari statistik web link referral buruk laporan Anda .
Itulah sedikit penjelasan dari saya.
terimakasih telah berkunjung,dan jangan bos lupa tinggalkan komentar.
Buka yang lain
-
0 komentar:
Post a Comment
Komentarlah Dengan kata-kata yang sopan