Tanya Matt Cutts: PageRank robots.txt NoIndex NoFollow

Wawancara Eric Enge,  President of  Stone Temple Consulting dengan Matt Cutts.

Matt Cutts bergabung dengan Google sebagai Software Engineer pada Januari 2000. Sebelum di Google, ia menyelesaikan Ph.D.-nya dalam bidang computer graphics di University of North Carolina at Chapel Hill. Ia mendapat gelar M.S. dari UNC-Chapel Hill, dan B.S. dalam bidang matematika dan ilmu komputer dari the University of Kentucky.

Matt membuat SafeSearch, yakni Google family filter. Selain pengalamannya di Google, Matt memegang top-secret clearance ketika bekerja di Departemen Pertahanan dan ia juga bekerja di sebuah perusahaan game engine. Menurutnya Google-lah tempatnya bekerja yang paling menyenangkan.

Matt sekarang menjabat sebagai kepala Webspam team di Google. Matt menulis hal-hal yang berkaitan dengan urusan webmaster di blog-nya.

Transkrip Interview

Eric Enge: Mari kita bicara soal bermacam link encoding yang dilakukan orang, seperti link melalui Javascript atau sejenis redirect untuk me-link ke seseorang, tetapi link ini dilihat benar-benar link. Bagaimana komentar anda mengenai skenario ini dimana link yang dihasilkan dengan cara ini tetap dikenali sebagai link?

Matt Cutts: Direct link selalu menjadi yang paling simple, jadi kalau anda bisa membuat direct link, pilih cara ini karena ia selalu lebih memudahkan. Ada usulan menarik baru-baru ini dari seseorang yang bekerja di Firefox atau Mozilla saya kira, mengenai atribut ping, dimana link seperti ini masih tetap bisa direct, tetapi ping bisa dimanfaatkan untuk tujuan tracking. Jadi  ini bisa benar-benar menjanjikan, karena ping memungkinkan anda mempertahankan sifat direct suatu link sambil juga bisa mengirimkan signal ke seseorang. Secara umum, Google melakukan kerja relatif bagus menelusuri 301 dan 302, dan bahkan Meta Refreshes dan JavaScript. Yang tidak Google lakukan adalah mengikuti suatu rantai redirect yang beroperasi melalui robots.txt yang memang tidak boleh dilakukan.

Eric Enge: O ya.

Matt Cutts: Menurut saya dalam banyak kasus kami bisa menghitung secara tepat dan proporsional jumlah PageRank atau Link Juice atau apapun sebutannya yang memang seharusnya mengalir melalui link semacam itu.

Eric Enge: Baik. Jadi anda memang benar-benar mencoba telusuri dan memberinya nilai.

Matt Cutts: Ya.

Eric Enge: Baik. Mari kita bicara mengenai beragam penggunaan Noindex, Nofollow dan robots.txt. Masing-masing ketiganya memiliki sedikit perbedaan. Mari kita review menurut 3 hal: (1) apakah ia menghentikan aliran Link Juice ; (2) apakah ya atau tidak halaman tetap di crawl; dan (3) apakah ya atau tidak halaman yang dipengaruhinya menjadi tidak terindex.

Matt Cutts: Saya akan mulai dengan robots.txt, karena inilah metoda utama menerapkan tanda tidak boleh lewat yang sudah digunakan orang sejak 1996. Robots.txt ini menarik, karena dengan ini anda bisa memberi tahu search engine manapun untuk tidak melakukan crawl pada suatu direktori, atau bahkan sebuah halaman, dan banyak search engine mendukung berbagai varian seperti wildcard, sehingga dengan begitu anda bisa mengatakan “Jangan crawl *.gif,” dan kami tidak akan crawl semua GIF pada waktu image crawl.

Kami bahkan punya standar tambahan seperti Sitemap Support, jadi anda bisa bilang “Ini lo link yang menuju ke tempat Sitemap-ku.” Saya rasa satu-satunya robots.txt extension yang umum digunakan yang tidak di-support Google adalah crawl-delay. Dan, alasan Google tidak mendukung crawl-delay adalah karena terlalu banyak orang dengan tidak sengaja mengacaukannya. Sebagai contoh, mereka menset crawl-delay hingga seratus ribu, dan ini berarti anda harus melakukan crawl pada setiap halaman setiap hari berikutnya atau seperti itu lah.

Kami bahkan temukan orang menset crawl-delay sehingga kami hanya diijinkan melakukan crawl sekali sebulan. Yang sudah kami lakukan adalah menyediakan throttling ability di Webmaster Central, tetapi crawl-delay adalah kebalikannya; ia bilang “Crawl saya setiap ‘n’ detik.” Sementara yang anda inginkan adalah host-load, yang memungkinkan anda menentukan berapa Googlebot yang diijinkan untuk melakukan crawl ke situs anda sekaligus. Jadi host-load 2 berarti, 2 Googlebot diijinkan untuk melakukan crawl ke situs anda secara bersamaan.

Sekarang, roobots.txt bilang anda tidak dibolehkan melakukan crawl pada suatu halaman, dan Google oleh karena itu tidak melakukan crawl halaman yang tidak diijinkan dalam robots.txt. Tetapi halaman-halaman ini tetap menerima PageRank dan tampil dalam search result.

Di awal-awal banyak website yang sangat populer tidak ingin di-crawl sama sekali. Sebagai contoh, eBay dan New York Time tidak mengijinkan search engine manapun, atau paling tidak Google untuk melakukan crawl pada halaman mereka. The Library of Congress memiliki bermacam bagian yang mengatakan anda tidak diijinkan untuk melakukan crawl dengan search engine. Jadi ketika seseorang menggunakan Google dan mereka mengetikkan eBay, padahal kami tidak melakukan crawl ke eBay dan kami tidak bisa menampilkan eBay, kami kelihatan tidak optimal. Untuk menyelesaikan ini kami memutuskan tidak melakukan crawl melalui robots.txt, tetapi kami bisa menampilkan URL reference yang kami temukan.

Eric Enge: Berdasar pada link dari situs lain yang merujuk ke halaman itu.

Matt Cutts: Benar sekali. Jadi kami tampilkan reference ke eBay yang sebenarnya tidak di-crawl.

Matt Cutts: Cara klasik yang menunjukkan ini, anda hanya menampilkan URLnya, tanpa deskripsi dan itu berarti entri yang anda temukan dalam index, begitu?

Matt Cutts: Tepat. Lucunya, kami sesekali bisa menggunakan deskripsi dari ODP (dmoz). Jadi bahkan tanpa crawling, kami bisa menampilkan reference yang terlihat sangat bagus yang orang pikir kami dapat dari hasil crawl, dan ini menimbulkan sedikit kebingungan. Jadi robots.txt adalah salah satu standar yang paling lama sudah digunakan. Sementara untuk Google, Noindex berarti kami bahkan tidak akan menampilkannya di search result.

Jadi dengan robots.txt, untuk alasan yang bisa diterima, kami tampilkan reference walaupun kami tidak dapat melakukan crawl, sementara jika kami melakukan crawl pada suatu halaman dan menemukan Meta tag yang mengatakan Noindex, kami tidak akan menampilkan halaman itu. Baik atau buruk, itulah keputusan yang kami buat. Saya yakin Yahoo dan Microsoft mungkin memperlakukan Noindex sedikit berbeda dan ini kurang menguntungkan, tetapi setiap orang harus memilih bagaimana mereka ingin menangani bermacam tag yang ada.

Eric Enge: Bisakah Noindex mengumpulkan PageRank?

Matt Cutts: Halaman dengan Noindex bisa mengumpulkan PageRank, karena outword link-nya tetap ada dari halaman dengan Noindex.

Eric Enge: Jadi halaman seperti ini bisa mengumpulkan dan mengalirkan PageRank.

Matt Cutts: Benar, halaman dengan Noindex akan tetap mengumpulkan PageRank, tetapi tidak akan muncul di index kami. Jadi saya tidak akan membuat halaman Noindex yang sama sekali tidak terhubung ke manapun. Anda boleh membuat halaman Noindex yang memiliki link ke banyak halaman lain.

Sebagai contoh mungkin anda ingin membuat halaman master Sitemap dan dengan alasan apapun membuat halaman itu Noindex, tetapi memiliki link ke semua sub Sitemap.

Eric Enge: Contoh lainnya adalah jika anda mempunyai halaman di suatu situs dengan konten yang dari sudut pandang user memang bernilai, tetapi anda merasa isi halaman ini duplikat dari halaman lain.

Halaman ini tetap mendapat link, tetapi anda tidak ingin halaman ini ada dalam index dan anda ingin crawler mengikuti path ke tempat berikutnya dalam situs itu.

Matt Cutts: Ya. Contoh lain yang bagus, mungkin anda mempunyai login page, dan banyak orang membuat link ke halaman ini. Halaman ini berisi konten yang tidak begitu bernilai, jadi anda bisa membuatnya Noindex, tetapi outgoing link-nya tetap memiliki PageRank.

Sekarang, kalau anda mau, anda juga bisa menambahkan meta tag Nofollow, dan Nofollow ini akan mengatakan “Jangan tampilkan sama sekali halaman ini di Google Index, dan jangan ikuti setiap outgoing link-nya,” dan tidak ada PageRank yang mengalir dari halaman ini. Menurut kami, dengan hal ini kami coba sediakan sebanyak mungkin kemungkinan untuk melakukan sculpting kemana PageRank anda ingin anda alirkan, atau dimana anda ingin Googlebot menghabiskan lebih banyak waktu dan perhatian.

Eric Enge: Apakah meta tag Nofollow berpengaruh sama seperti Noindex pada suatu halaman?

Matt Cutts: Tidak. Noindex dan Nofollow masing-masing berdiri sendiri satu sama lain. Meta tag Noindex, untuk Google setidaknya, berarti “Jangan tampilkan halaman ini di Google index.” Meta tag Nofollow berarti “Jangan ikuti outgoing link yang berasal dari halaman ini.”

Eric Enge: Bagaimana jika halaman A memiliki link ke halaman B, dan halaman A memiliki meta tag Nofollow, atau link yang menuju ke halaman B memiliki meta tag Nofollow. Apakah halaman B akan tetap di-crawl?

Matt Cutts: Halaman B tidak akan di-crawl karena link yang ada pada halaman A. Tetapi jika halaman lain di web memiliki link ke halaman B, kami tetap bisa menemukan halaman B via link tsb.

Eric Enge: Baik. Jadi ada dua level Nofollow. Ada atribut pada link dan ada meta tag, benarkah?

Matt Cutts: Benar sekali.

Eric Enge: Yang sudah dan sedang kami lakukan adalah bekerja dengan klien kami dan meminta mereka membuat halaman seperti about us, dan contact us, dan membuat link ke halaman-halaman ini dari homepage seperti biasa, tanpa atribut Nofollow, dan link dari semua halaman lain menggunakan Nofollow. Ini hanya suatu cara untuk mengurangi link juice (PageRank) yang mengair ke kedua halaman ini. Kedua macam halaman ini biasanya merupakan halaman yang memiliki PageRank tertinggi pada suatu situs, tetapi halaman-halaman ini tidak banyak bermanfaat dari sudut pandang search traffic.

Matt Cutts: Benar sekali begitu. Jadi Nofollow itu bisa kita pahami sebagai mekanisme general. Sebutan Nofollow dimaksudkan untuk mencerminkan kenyataan bahwa is juga adalah meta tag. Sebagai meta tag Nofollow berarti “Jangan lakukan crawl pada semua link dari halaman ini.”

Nofollow sebagai atribut individual berati “Jangan ikuti link yang ini,” jadi lebih specifik.

Kami melakukan interview dengan Rand Fishkin di SEOmoz dimana kami bicarakan mengenai fakta bahwa Nofollow adalah tool yang benar-benar dapat digunakan sebagai tambahan pada robots.txt. Noindex dan Nofollow sebagai meta tag dapat mengubah bagaimana Googlebot melakukan crawl pada situs anda. Penting dikatahui bahwa pada dasarnya kedua hal ini lebih merupakan prioritas ke dua. Yang paling penting adalah memiliki situs yang bagus dan memastikan pengunjung mengenalinya, tetapi jika anda sudah memiliki PageRank, tool ini memberi anda keleluasaan memilih bagaimana mengembangkan PageRank di antara halaman-halaman di situs anda.

Eric Enge: Ya. Contoh skenario lainnya misalnya jika anda memiliki situs dan menemukan bahwa anda memiliki banyak masalah duplicate content. Banyak orang mengatakan ini terjadi karena ada sesuatu hal yang buruk. Mereka ingin bertindak cepat, jadi mereka mungkin menggunakan Noindex pada halaman-halaman itu, karena dengan begitu halaman-halaman ini menjadi terhapus dari index dan duplicate content-nya juga hilang. Lalu setelah halaman-halaman itu keluar dari index, anda bisa biarkan saja Noindex itu atau anda kembali ke robots.txt untuk memastikan halaman-halaman itu tidak di-crawl. Apakah hal ini masuk akal?

Matt Cutts: Mengenai soal ini kami dorong untuk melakukan eksperimen dan melihat hasil mana yang terbaik, karena kami memiliki banyak cara untuk menghilangkan konten.

Ada robots.txt.

Eric Enge: Tentu, Anda juga bisa menggunakan URL removal tool.

Matt Cutts: URL removal tool adalah cara lain untuk melakukan hal ini. Biasanya, yang akan saya sarankan untuk dilakukan adalah, daripada menerapkan Noindex pada rutenya, lebih baik memastikan bahwa semua link menuju ke halaman yang dianggap paling penting. Jadi jika ada dua copy, anda bisa periksa backlink yang bisa dilihat di Webmaster Central, atau gunakan Yahoo, atau tool lain, dan lihat backlink apa saja yang menuju ke halaman ini, mengapa halaman ini muncul sebagai duplikat? Semua backlink yang ada pada halaman anda sangat mudah untuk dialihkan ke halaman yang memang anda inginkan. Jadi inilah cara termudah yang bisa anda lakukan dan biasanya hanya butuh beberapa hari untuk melihat efeknya. Tentu saja jika URL-nya sangat dalam, anda bisa bereksperimen dengan Noindex. Saya mungkin akan mengandalkan penggunaan optimum routing sebagai cara utama, dan jika ini tidak berhasil, baru melirik atau mempertimbangkan penggunaan Noindex.

Home | About | Blogging | Daily Life | Insights | News | Videos | SEO

8 thoughts on “Tanya Matt Cutts: PageRank robots.txt NoIndex NoFollow

    • PageRank emang berpeluang naik dan turun mengikuti jadwal update. Penyebabnya ya jumlah dan kualitas link yang kita punya. Kalo blog ini (PR3) misalnya kemudian turun saya akan berpikir kira-kira: kualitas link yang saya dapat tidak sepadan dengan jumlahnya. Mudahnya begitu. PageRank itu penentu utamanya link yang merujuk ke blog kita.

      Reply

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s