Membuat Index

Setelah spider menyelesaikan tugasnya mencari informasi di halaman web, maka langkah selanjutnya adalah menyimpan informasi tersebut agar dapat berguna di masa mendatang. Ada dua komponen yang terlibat dalam pengumpulan data sehingga dapat diakses oleh pengguna yaitu: suatu informasi yang tersimpan dengan data, dan suatu metode yang mana informasi tersebut terindeks.

Dalam kasus sederhana, sebuah search engine bisa hanya dengan menyimpan kata dan URL yang ditemukan. Dalam kenyataan, hal ini membuat batasan dalam penggunaan engine, karena tidak dapat diketahui bahwa kata tersebut merupakan kata penting atau tidak penting dalam halaman web tersebut, atau kata tersebut digunakan sekali atau berulang kali ataupun kata tersebut merupakan link ke halaman lain yang mengandung kata tersebut. Dengan kata lain hal ini tidak dapat membuat urutan list halaman yang paling berguna sebagai pilihan utama dari daftar hasil pencarian.

Untuk memberikan hasil pencarian yang lebih berguna, sebagian besar search engine tidak hanya menyimpan kata-kata dan URL. Sebuah engine dapat memberitahukan seberapa banyak jumlah kata yang ada dalam halaman web tersebut. Engine dapat memberikan bobot untuk setiap kata, kata berbobot tinggi akan muncul dibagian atas, disub judul, link, dan tag meta atau judul dari halaman tersebut. Setiap search engine komersial memiliki formula untuk menentukan bobot kata-kata dalam index mereka. Ini merupakan salah satu alasan kenapa kata-kata yang sama bisa menghasilkan hasil yang berbeda pada search engine yang berbeda.

Tanpa memperhatikan kombinasi ketepatan informasi dari sebuah search engine, data yang ditemukan akan diencode untuk menghemat tempat. Sebagai contoh, Google menggunakan 2 byte, masing-masing 8 bit untuk menyimpan informasi dalam memberi bobot walaupun dalam bentuk huruf kapital, ukuran font, posisi, dan informasi lain yang membantu.

Sebuah index memiliki satu tujuan, yaitu mempermudah pencarian informasi. Terdapat beberapa cara untuk membuat sebuah index, tapi cara yang paling efektif adalah membuat tabel hash. Dalam hashing, suatu formula digunakan untuk menyertakan suatu nilai numerik pada setiap kata. Formula dibuat untuk secara rata membagi masukkan ke sejumlah divisi yang telah ditentukan. Pembagian numerik ini berbeda dari pembagian kata melalui alphabet, inilah yang merupakan kunci keefektifan dari tabel hash.
Dalam bahasa inggris, ada beberapa huruf yang membentuk banyak kata, sementara huruf yang lain hanya membentuk sedikit kata. Sebagai contoh, bagian “M” dalam kamus lebih tebal daripada bagian “X”. Dengan perbedaan itu berarti mencari kata yang dimulai dengan huruf yang sangat “populer” bisa membutuhkan waktu yang lebih lama dibandingkan mencari kata yang dimulai dengan huruf yang tidak “populer”. Hashing bisa membedakan dan mengurangi waktu untuk mencari entri. Tabel hash mengandung bilangan hash yang menunjuk kedata sebenarnya, dimana bisa diurutkan dan dapat tersimpan secara efisien. Kombinasi dari index yang efisien dan penyimpanan yang efektif akan memungkinkan untuk mendapatkan hasil dengan cepat, bahkan ketika user melakukan pencarian yang lebih rumit.