Web Crawler dan Routing Protocols

Web Crawler

Web Crawler adalah program yang menelusuri World Wide Web dengan cara yang metodis, otomatis dan teratur. Istilah lain untuk web crawler adalah ant, automatic indexer, bots, web spiders atau web robots. Web Crawler adalah salah satu jenis bot atau agen perangkat lunak. Secara umum, proses crawling dimulai dengan list URL yang akan dikunjungi, disebut seeds. Kemudian web crawler akan mengunjungi URL tersebut satu per satu. Setiap page URL yang dikunjungi akan diidentifikasi apakah ada hyperlink di dalamnya. Jika ada maka akan ditambahkan ke dalam list URL yang akan dikunjungi. Ini disebut crawl frontier. URL yang didapat dari crawl frontier ajab dikunjungi secara rekursif dengan beberapa kebijakan tertentu.

Web Crawler berfungsi untuk memudahkan pengambilan informasi yang tersebar dan selalu berubah-ubah di Internet dalam jumlah besar diperlukan sebuah web crawler. Web Crawler atau dengan kata lain Web Spider ataupun Web Robot merupakan salah satu komponen penting dalam sebuah mesin pencari modern. Fungsi utama Web Crawler adalah melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di Internet. Hasil pengumpulan situs web selanjutnya akan di indeks oleh mesin pencari sehingga mempermudah pencarian informasi di Internet.

Berikut ini proses yang dilakukan Web Crawler pada saat berkerja (Sulastri dan Zuliarso, 2010):

Mengunduh halaman web
Menguraikan halaman yang diunduh dan mengambil semua link
Untuk setiap link yang diambil, ulangi proses.

Beberapa penerapan web crawler di internet antara lain :

- Mendapatkan dan menyaring informasi pada mesin pencarian (search engine).

Google Bot dari Google
Bingbot dari Bing
Slurp Bot dari Yahoo
DuckDuckBot dari DuckDuckGO
Baiduspider dari Baidu (mesin pencari dari China)
Yandex Bot dari Yandex (mesin pencari dari Rusia)
Sogou Spider dari Sogou (mesin pencari dari China)
Exabot dari Exalead
Alexa Crawler dari Amazon

- Pencarian pada Electronic Book (E-Book).

- Data Tools Analis Website.

Google Search Console
Screaming Frog SEO

- Data Website Statistik (Contoh : Google News).

- Mendapatkan dan menyaring informasi pada social media (Contoh : Twitter).

Selama crawling web, terdapat berbagai isu dalam prosesnya, sehingga menghasilkan 4 kombinasi kebijakan (policies), yaitu : Selection policy, Re-visit policy, Politeness policy, Parallezization policy.

Selection policy

- Studi oleh Lawrence and Giles [LG00] menunjukkan tidak ada search engine manapun yang mengindeks situs di internet lebih dari 16%.

- Crawler hanya mendownload sebagian dari web, jadi sangat penting untuk crawler mendownload pages yang benar-benar relevan.

- Ada banyak kebijakan untuk pemilihan pengurutan bagian pages yang akan di download seperti : breadth-first, backlink-count, dan partial Pagerank.

Re-visit policy

Objektif dari kebijakan ini untuk melakukan pengecekan page-page yang sudah tidak relevan dan outdated.

Cho dan Garcia-Molina [CGM03a] mempelajari 2 Re-visit polis yang sederhana :

Uniform policy, mengunjungi semua web pages dengan frekuensi yang sama terlepas dari banyak perubahannya.
Proportional policy, mengunjugi ulang pages yang sering melakukan perubahan dengan frekuensi re-visiting berbanding lurus dengan perubahan yang terjadi.

Cho dan Garcia-Molina membuktikan dalam segi relevansi, Uniform mengungguli Proportional. Hasil ini muncul dari fakta yang ditemukan bahwa ketika page berubah terlalu sering, crawler akan menyia-nyiakan waktunya hanya untuk re-crawl sehingga tidak dapat mempertahankan page yang relevan.

“Jadi, untuk meningkatkan relevansi, harus dilakukan penghukuman kepada elemen yang terlalu sering berganti” [CGM03a].

Politeness policy

Seperti yang dicatatkan oleh Koster [Kos95], penggunaan robot web berguna untuk sejumlah tugas, tetapi dilengkapi dengan harga untuk masyarakat umum. Biaya menggunakan robot web meliputi :

Sumber daya jaringan.
Server overload.
Robot web yang ditulis dengan buruk, dimana dapat menyebabkan crash pada server atau router, ataupun unduhan halaman yang tidak dapat ditangani.
Robot pribadi, yang jika digunakan oleh banyak pengguna, dapat menggangu jaringan dan server web.

Solusi parsial untuk masalah ini adalah protokol pengecualian robot [Kos96] yang merupakan standar administrator untuk menunjukkan bagian mana dari server web mereka yang tidak boleh diakses oleh robot.

Parallezization policy

Parallel crawler adalah crawler yang menjalankan banyak proses secara parallel. Tujuannya adalah untuk memaksimalkan kecepatan unduhan sambil meminimalkan overhead dari paralelisasi dan untuk menghindari unduhan berulang pada halaman yang sama. Untuk menghindari mengunduh halaman yang sama lebih dari sekali, maka sistem crawling membutuhkan kebijakan untuk menetapkan URL baru yang ditemukan selama proses crawling, karena URL yang sama dapat ditemukan oleh dua proses crawling yang berbeda.

Routing Protocols

Router adalah sebuah alat yang mengirimkan paket data melalui sebuah jaringan atau Internet menuju tujuannya, melalui sebuah proses yang dikenal sebagai routing.

Routing adalah proses untuk memilih jalur (path) yang harus dilalui oleh paket. Jalur yang baik tergantung pada beban jaringan, panjang datagram, type of service requested dan pola trafik. Pada umumnya skema routing hanya mempertimbangkan jalur terpendek (the shortest path).

Tabel Routing

Router merekomendasikan tentang jalur yang digunakan untuk melewatkan paket berdasarkan informasi yang terdapat pada Tabel Routing.

Informasi yang terdapat pada tabel routing dapat diperoleh secara static routing melalui perantara administrator dengan cara mengisi tabel routing secara manual ataupun secara dynamic routing menggunakan protokol routing, dimana setiap router yang berhubungan akan saling bertukar informasi routing agar dapat mengetahui alamat tujuan dan memelihara tabel routing.

Tabel Routing pada umumnya berisi informasi tentang :

Alamat Network tujuan.
Interface Router yang terdekat dengan network tujuan.
Metric, yaitu sebuah nilai yang menunjukkan jarak untuk mencapai network tujuan. Metric tesebut menggunakan teknik berdasarkan jumlah lompatan (Hop Count).

Routing Protocol maksudnya adalah protocol untuk merouting. Routing protocol digunakan oleh router-router untuk memelihara /mengupdate isi routing table. Pada dasarnya sebuah routing protocol menentukan jalur (path) yang dilalui oleh sebuah paket melalui sebuah internetwork.

Contoh dari routing protocol adalah RIP, IGRP, EIGRP, dan OSPF.

Parameter sistem untuk menguji Routing Protocols

Parameter yang digunakan adalah Quality of Service (QOS). QoS merupakan terminologi yang digunakan untuk mendefinisikan kemampuan suatu jaringan untuk menyediakan tingkat jaminan layanan yang berbeda-beda.

a. Delay (Latency)
Delay (Latency) adalah lamanya waktu suatu paket sampai ke tujuannya yang diakibatkan oleh proses transmisi dari suatu titik ke titik lain. Satuan yang digunakan pada perhitungan delay adalah mili second (ms) . Persamaan untuk menghitung delay :

b. Throughput

Throughput adalah kemampuan suatu jaringan dalam melakukan pengiriman data. Satuan yang digunakan pada perhitungan throughput adalah bps. Persamaan untuk menghitung throughput :

c. Packet loss

Packet loss adalah kegagalan transmisi paket data saat mencapai tujuannya. Umumnya perangkat network memiliki buffer untuk menampung data yang diterima. Jika terjadi kongesti yang cukup lama, buffer akan penuh dan data baru tidak diterima.

Perbandingan Routing Protocols

Perbandingan Routing Protokol Open Shortes Path First (OSPF) dengan Enhanced Interior Gateway Routing Protocol (EIGRP)

Kesimpulan

Berdasarkan hasil analisis dan pengujian yang telah dilakukan, maka dapat diambil kesimpulan sebagai berikut :

Jaringan yang menggunakan routing protocol OSPF saat traffic normal memiliki nilai rata-rata delay sebesar 283.953 ms, sedangkan jaringan yang menggunakan routing protocol EIGRP memiliki nilai rata-rata delay sebesar 269.217 ms . Dengan demikian routing protocol EIGRP mengalami peningkatan kinerja jaringan untuk nilai delay, yakni menurun 5% jika dibandingkan dengan kinerja dari jaringan PT. Phinisi Global Data yang menggunakan routing protocol OSPF. Sedangkan nilai delay pada pengujian dalam traffic sibuk EIGRP masih unggul 2.7 % terhadap nilai delay routing OSPF.
Jaringan PT. Phinisi Global Data yang menggunakan routing protocol OSPF saat traffic normal memiliki nilai throughput sebesar 3004.348 bps sedangkan jaringan yang menggunakan routing protocol EIGRP memiliki nilai throughput sebesar 3162.813 bps. Dengan demikian routing protocol EIGRP mengalami peningkatan kinerja jaringan untuk nilai throughput, yaitu 5 % jika dibandingkan dengan kinerja dari jaringan yang menggunakan routing protocol OSPF. Pada pengujian saat traffic sibuk jaringan yang menggunakan routing protocol EIGRP unggul 2,3 % terhadap throughput routing protocol OSPF.
Jaringan yang menggunakan routing protocol OSPF saat traffic normal memiliki nilai packet loss sebesar 9%. sedangkan jaringan yang menggunakan routing protocol EIGRP memiliki nilai packet loss 0%. Dalam hal ini jaringan yang menggunakan routing protocol EIGRP mengalami peningkatan kinerja sebesar 100% untuk nilai packet loss. Dalam keadaan traffic sibuk OSPF dan EIGRP memiliki kinerja yang sama baiknya yakni 0%.
Berdasarkan hasil pengujian yang telah dilakukan baik dalam traffic normal maupun traffic sibuk, diketahui bahwa kinerja routing protocol EIGRP lebih baik untuk nilai delay dan nilai throughput dibanding routing protocol OSPF.

Daftar Pustaka

Pramana Yoga Saputra (2017). IMPLEMENTASI TEKNIK CRAWLING UNTUK PENGUMPULAN DATA DARI MEDIA SOSIAL TWITTER. Politeknik Negeri Malang

Agustino Halim, Rudy Dwi Nyoto, Novi Safriadi (2017). Perancangan Aplikasi Web Crawler untuk Menghasilkan Dokumen Teks pada Domain Tertentu. Universitas Tanjungpura

Nur Indah, Yulita Salim, Ramdan Satra (2018). ANALISIS PERBANDINGAN ROUTING PROTOKOL OPEN SHORTES PATH FIRST (OSPF) DENGAN ENHANCED INTERIOR GATEWAY ROUTING PROTOCOL (EIGRP). Universitas Muslim Indonesia

Castillo, Carlos (2004). Effective Web Crawling (Ph.D. thesis). University of Chile

https://repository.uksw.edu/bitstream/123456789/6383/2/T1_672007230_BAB%20II.pdf

Cari Blog Ini

m.gib_aqsa