Terserak di Blogosphere: Search Engine Direktori Open Source

Pemahaman memadai mengenai istilah teknis tertentu harus didapat terlebih dulu sebelum kita menggunakan istilah itu dalam paparan (deskripsi) atau penjelasan (eksplanasi), terlebih dalam argumen yang akan digunakan sebagai dasar penarikan kesimpulan (konklusi). Pemahaman istilah yang tidak memadai, ketika istilah itu digunakan, akan menghasilkan paparan atau penjelasan yang tidak memadai. Jika digunakan dalam argumen, penggunaan istilah yang tidak memadai akan menghasilkan kesimpulan yang tidak valid.

Di semesta blog (blogosphere) atau World Wide Web terserak banyak sekali istilah yang seringkali menyulitkan. Istilah-istilah itu nyata-nyata adalah istilah teknis. Mereka muncul sejalan dengan tercipta dan berkembangnya suatu semesta baru. Istilah bisa berupa word (kata) atau phrase (frasa). Istilah-istilah itu bisa jadi terlahir baru (World Wide Web/PageRank/weblog/blog) karena sengaja harus diciptakan agar secara tepat bisa menggambarkan sesuatu yang juga baru atau mengambil kata/frasa yang sebelumnya sudah digunakan (direktory/traffic/rank/browser/crawler/robot) tetapi diberi batasan arti sesuai konteks semestanya.

Pemahaman memadai mengenai istilah-istilah itu hanya bisa didapat  dengan cara mempelajarinya dari bahan rujukan yang memadai, sedapat mungkin kita temukan dari tangan pertama. Persoalannya kalaupun kita dapatkan bahan rujukan original, pengetahuan kita yang tidak memadai bisa menjadi penghalang untuk memahami istilah-istilah itu. Biasanya jalan yang ditempuh  sedikit berputar; sebelum bisa membaca bahan rujukan original, kita baca terlebih dulu commentary (ulasan). Ulasan umumnya (sedikit) lebih mudah untuk bisa dicerna karena penulisnya lebih berusaha membumikan istilah-istilah yang ada agar bisa dikonsumsi khalayak tanpa mengurangi makna sesungguhnya.

Menyimpang sedikit, ada kisah menarik yang dipaparkan Karen Armstrong ketika berbicara di TED Conference soal the Charter for Compassion. Rabbi Hillel, seorang pemuka agama Yahudi terkemuka yang hidup sejaman dengan Jesus (mudah-mudahan tidak salah) diminta oleh seseorang yang menemuinya untuk menjelaskan Taurat sambil berdiri dengan sebelah kaki. Jika penjelasannya memadai, orang itu mau mengikuti Taurat. Rabbi Hillel kemudian menjawab, “That which is hateful to you, do not do to your fellow. That is the whole Torah. The rest is commentaries; go and learn.” (Jangan kerjakan apa yang kamu benci kepada orang lain. Itulah keseluruhan Taurat. Selebihnya adalah ulasan; Pergilah dan pelajari).

Balik ke urusan kita. Untuk bisa memahami istilah-istilah di blogosphere atau World Wide Web (seperti sebagian disebutkan di atas) sumber paling mudah yang bisa didapat dan bisa diandalkan adalah Wikipedia. Soal PageRank misalnya, Wikipedia menyediakannya. Atau bahkan paper original Larry dan Sergei mengenai PageRank bisa kita dapatkan di Stanford.edu. Begitu pula istilah-istilah teknis lain. Sumber lain, berupa ulasan, bisa kita dapat dari para SEO (Search Engine Optimizer); SEOMoz, Hobo, atau SEJ diantaranya. Hobo menyediakan e-book mengenai SEO yang bisa didownload. Ada banyak keuntungan yang bisa didapat dari para SEO ini. Hobo misalnya akan memberi kita link dari blognya (saat ini PR5) kalau kita mau menerjemahkan tulisan-tulisannya dan menerbitkannya di blog kita. Sedikit kesulitan jika kita ikuti para SEO ini, yakni mereka memberi penjelasan berupa ulasan mengenai istilah-istilah teknis berdasar pengalaman profesionalnya masing-masing. Jadi ulasan mereka mengenai suatu istilah bisa berbeda satu sama lain. Tapi dengan cara begini, paling tidak kita bisa mendapatkan pemahaman lebih memadai.

Search Engine

Bulan ini (Mei 2010) BPS (Badan Pusat Statistik) sedang melakukan pemutakhiran data penduduk Indonesia dengan melakukan sensus. Banyak orang terlibat di dalamnya. Salah satunya adalah petugas lapangan yang terjun langsung menemui orang-orang untuk mendapatkan biodata. Apa yang dilakukan para petugas ini sama dengan apa yang dilakukan oleh search engine. Para petugas lapangan itu mencari, menemukan, kemudian mencatat.

Web Search Engine didisain untuk mencari informasi di World Wide Web. Hasil pencariannya ditampilkan berupa daftar hasil (search results) dan bisa dilihat menggunakan browser (Firefox/Opera/IE). Informasi bisa berupa halaman web, gambar, dan format-format file lain. Sebagian search engine juga menggunakan data yang tersedia di database atau Open Directories. Tidak seperti Direktori Web yang dikelola oleh editor manusia, search engine bekerja secara algoritmik atau gabungan algoritmik dan input manusia.

Fungsi utama search engine adalah melakukan crawling, indexing dan searching.

Web search engine menyimpan informasi halaman web yang mereka temukan dari halaman web itu sendiri. Halaman-halaman ini ditelusuri menggunakan Web Crawler (disebut juga spider atau webbot) yakni penelusur web yang bekerja otomatis dengan mengikuti setiap link yang ada pada suatu situs. Penelusuran ini bisa diblok dengan menggunakan robots.txt. Isi setiap halaman kemudian dianalisis untuk menentukan bagaimana halaman-halaman itu seharusnya diindex (misalnya kata-kata tertentu diambil dari title, heading atau meta tag). Data mengenai halaman web disimpan dalam database index untuk digunakan nanti pada waktu pencarian. Index diperlukan agar informasi bisa didapat secepat mungkin.

Sebagian search engine, seperti Google, menyimpan semua atau sebagian isi halaman web (disebut cache) dan juga meta informasi  halaman. Yang lain, seperti AltaVista, menyimpan semua kata dari semua halaman yang ditemukannya. Halaman-halaman cache ini selalu berisi actual search text karena bersumber dari halaman-halaman yang diindex.

Direktori

Direktori adalah daftar, misalnya berisi nomor telepon (buku telepon = direktori) atau buku di perpustakaan (catalog buku perpustakaan = direktori) atau barang-barang yang ada di supermarket (catalog belanja = direktori). Direktori web adalah daftar berisi URL (Uniform Resource Locator [http://www.abcd.com/x/xx/xxx]) situs. URL-URL itu disimpan dalam kategori berdasar kriteria tertentu. URL situs kesehatan ditempatkan di kategori kesehatan, URL situs pendidikan disimpan di kategori pendidikan, URL situs bisnis di kategori bisnis dst.

Direktori web ini (bukan search engine) berisi kumpulan data terkelompok untuk memudahkan pengguna menemukan URL yang diinginkan.

Ada direktori yang disebut Open Source Directory. Editor, yakni orang yang memeriksa URL yang didaftarkan dan menentukan apakah URL itu bisa diterima atau tidak, kemudian menempatkannya di kategori yang tepat, bisa siapapun. Semua orang bisa menjadi editor di Open Source Directory dengan cara melamar menjadi editor. Ini berbeda dengan direktori lain yang dikelola sekelompok orang atau korporat yang editornya sudah ditentukan, tidak bisa siapa saja.

Open Source Directory terkemuka saat ini nama domainnya adalah dmoz.org. Dmoz tentu saja dikelola oleh editor lepas. Mereka tersebar di seluruh dunia.

Bagaimana hubungan dmoz.org dengan search engine? Yang menggunakan data dari dmoz.org adalah Google.

Supaya bisa menampilkan data di search results, Google melalui Googlebot (crawler-nya Google) harus bisa mengakses setiap halaman di setiap situs. Tetapi setiap pemilik situs jika punya akses ke webserver-nya (hosting sendiri) bisa memblok Googlebot supaya tidak bisa masuk mengambil data  dari halaman-halaman yang ada di situsnya. Ini mungkin terdengar aneh, bukankah justru sebaliknya kita ingin agar Googlebot sesering mungkin datang ke situs kita agar lebih banyak dan lebih cepat halaman-halaman web kita terindex sehingga muncul di search result?

Ada situs-situs tertentu yang sama sekali tidak ingin dimasuki search engine. Untuk mengakses situs itu, langsung tuliskan URL-nya di address bar. Padahal tidak semua orang tahu. Jadi orang  yang ingin mendapatkan informasi tetap saja mencoba mencari melalui search box. Apa yang akan terjadi? URL situs yang tidak dimasuki search engine itu tidak akan terlihat di search resullt. Pencari akan menemukan kesulitan, kecewa, dan Google juga tidak ingin ini terjadi karena akan mengurangi kredibilitasnya. Google, walaupun crawlernya (Googlebot) tidak bisa memasuki situs itu sehingga tidak punya indeks mengenai halaman-halamannya tetap harus bisa menampilkan hasil di search result. Caranya adalah Googlebot mengambil data situs  dari dmoz.org. Data apa saja? Yang pasti URL. Mengenai ini silakan lihat penjelasan Matt Cutts dalam interview dengan Eric Enge.

Direktori web atau direktori link adalah direktori di World Wide Web. Fungsi utamanya adalah membuat daftar link ke situs-situs lain dan mengelompokkan link-link tsb.

Direktori web bukan search engine dan tidak menampilkan daftar halaman web berdasar keyword tetapi  berdasar kategori dan sub kategori. Entri direktori web tidak dibuat oleh web crawler tetapi oleh manusia. Kategorinya biasanya didasarkan pada situs secara keseluruhan (domain) bukan pada halaman atau keyword dan situs yang didaftarkan dibatasi penempatannya pada kategori tertentu. Direktori web umumnya mengijinkan pemilik situs untuk mendaftarkan situsnya, dan kemudian direview oleh editor mengenai kelayakannya.

Open Source

Open Source adalah suatu istilah untuk menyebut metoda pengembangan terdistribusi. Di dunia software metoda ini muncul untuk melawan kecenderungan metoda pengembangan tertutup seperti yang dilakukan Microsoft atau pengembang software lain. Windows adalah software OS (Operating System) yang dikembangkan secara tertutup oleh Microsoft. Windows adalah milik Microsoft (Bill Gate). Orang lain tidak bisa  memodifikasi atau mengembangkan lebih lanjut fitur-fitur Windows. Windows hanya bisa diutak-atik oleh Microsoft. Segala sesuatu mengenai Windows dan produk Microsoft lainnya menggunakan lisensi ketat dan harus dibayar.

Bandingkan dengan Linux yang diprakarsai Linus Torvalds. Linus menciptakan Linux dan ‘resep’-nya dikemukakan secara terbuka sehingga orang lain bisa memodifikasi sesuai kebutuhan dan mengembangkan lebih lanjut. Contoh lain adalah Apache Webserver, lalu PHP dan MySQL.

Open source adalah metoda pengembangan software yang memanfaatkan kekuatan review orang perorang dan transparansi proses. Tujuan yang ingin dicapai oleh open source adalah kualitas lebih baik, keandalan lebih tinggi, fleksibilitas lebih luas, biaya lebih rendah dan kematian vendor yang serakah (predatory vendor).

Open Source Initiative (OSI) adalah lembaga non-profit yang dibentuk agar ada pembelajaran mengenai dan mendorong terciptanya keuntungan yang bisa didapat (benefit) dari open source dan untuk menjembatani antar konstituen di komunitas open source.

written for Fuvenanda

sorry for not replying your mail soon…

Home | About | Blogging | Daily Life | Insights | News | Videos | SEO

One thought on “Terserak di Blogosphere: Search Engine Direktori Open Source

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s