Jakarta (ANTARA News) - Search engine mencari petunjuk tentang pentingnya dokumen atau sepotong informasi melalui satu set kata kunci (keywords). Sering kali ini berarti bergantung pada apa yang di-link ke halaman lain - ini tentang bagaimana algoritma Google PageRank yang terkenal bekerja.

Para peneliti sekarang telah mengembangkan cara-cara halus untuk mengukur pengaruh dan pentingnya dokumen dan halaman di Web dan di arsip, dengan menggunakan teks yang tersimpan dalam dokumen-dokumen. Pendekatan ini tidak bergantung pada pointer seperti link dan kutipan, dan bisa menjadi mesin pencari real-time terbaik serta sistem rekomendasi yang secara otomatis mengumpulkan informasi tentang topik tertentu.

Perangkat lunak yang dikembangkan di Princeton University mengambil sebuah arsip dokumen dan langkah-langkah perubahan dalam penggunaan bahasa diantara dokumen-dokumen dari waktu ke waktu. Sampel yang dianalisis bisa koleksi makalah ilmiah atau satu set posting dari blog tertentu.

Perangkat lunak ini menganalisis teks dalam dokumen dan kemudian mengidentifikasi kata-kata yang paling signifikan dan frasa dalam kategori tertentu - (nama) orang-orang yang sering muncul di berbagai dokumen. Kemudian memancing keluar penampilan awal bit bahasa untuk menunjukkan dokumen-dokumen yang berisi ide-ide yang paling mungkin mempengaruhi dokumen lain. Algoritma ini yang dapat terus bekerja seperti item yang ditambahkan ke sebuah koleksi dokumen dari waktu ke waktu.

Para peneliti menguji algoritma mereka pada tiga arsip besar berisi ribuan artikel jurnal. Perangkat lunak itu mengidentifikasi paper yang berpengaruh juga orang-orang yang sering dikutip. Metode mereka juga memberikan wawasan baru. Dalam beberapa kasus, artikel yang tidak banyak dikutip juga diidentifikasi sebagai berpengaruh.

Para peneliti menemukan seringnya diskusi awal pada subjek penting. Kadang-kadang artikel yang sering dikutip tidak diidentifikasi sebagai berpengaruh, dalam kasus ini, para peneliti percaya bahwa artikel itu sumber daya penting, tetapi tidak menyajikan ide-ide baru.

"Metode ini menangkap perbedaan pengaruh," kata David Blei, asisten profesor ilmu komputer di Princeton yang memimpin penelitian. "Ini melihat dimana dokumen memperkenalkan bahasa dan ide-ide yang diambil oleh orang lain."

Penelitian ini merupakan bagian dari upaya yang lebih besar untuk membangun alat-alat baru untuk menjelajahi koleksi besar dokumen - apakah itu berarti arsip jurnal ilmiah atau posting blog dan artikel berita. "Hari ini, kita dapat dengan mudah menyimpan semua informasi ini dan akses itu, tapi kita perlu panduan untuk menemukan konten yang paling berguna," kata Blei.

Yang penting, katanya, adalah membangun alat yang dapat membuat rekomendasi cerdas untuk bagaimana pengguna harus mengeksplorasi tubuh informasi. Metode yang menggunakan isi dari dokumen, bukan link atau kutipan, menjanjikan, katanya.

Pendekatan ini tidak memerlukan perspektif sejarah. Untuk artikel jurnal, para peneliti mengamati perubahan dalam bahasa selama beberapa tahun. Untuk posting blog, yang berubah lebih cepat, metode ini bisa bekerja dengan melihat pergeseran dalam bahasa selama sehari atau bahkan dalam jam. Blei mengatakan bahwa pendekatan seperti dapat ditambahkan untuk mencari algoritma peringkat mesin 'untuk mengidentifikasi dokumen penting, dan bisa membantu pengguna menavigasi koleksi besar informasi lebih mudah.

Mengukur arus informasi untuk menentukan pengaruh memiliki banyak potensi, kata Jure Leskovec, asisten profesor ilmu komputer di departemen mesin belajar di Stanford University. Aplikasi yang paling jelas, katanya, adalah personalisasi; software bisa melihat seperti apa artikel seseorang dibaca dan angle untuk artikel atau website yang berisi materi yang relevan.

Leskovec juga bekerja pada pengukuran pengaruh. Penelitiannya melacak pergerakan frasa di Internet dan menggunakan informasi ini untuk mengidentifikasi situs yang berpengaruh dalam bidang subyek tertentu. Hal ini telah memungkinkan dia dan rekan-rekannya untuk menulis algoritma yang dapat memprediksi bagaimana posting blog baru kemungkinan besar akan berpengaruh, berdasarkan subjek dan di mana ia muncul.

Menambahkan perspektif ke depan dapat berguna untuk pencarian real-time, Leskovec mengatakan, dengan memberikan mesin pencari cara baru untuk menentukan peringkat dan menyaring konten yang lebih cepat, demikian laporan Technology Review.

Penerjemah:
Editor: Suryanto
COPYRIGHT © ANTARA 2010