Belajar Internet Marketing bersama Anne Ahira, Asian Brain IMC

Bisnis Pulsa, Modal GRATIS, Hasil FANTASTIS, Bonos Romantis

Top scorers Dynasis (Maret 2009) yang bonus bulanannya sudah diatas Rp. 100.000,-

PayPalBisnis.com Ratusan Dollar/Bulan dengan Mudah.

Rahasia Tersembunyi Metode Mencari Uang di Internet, Terungkap di SMUO

Selamat datang di MuslimPromo.Com

Senin, 15 Desember 2008

Bagaimana web bekerja Crawlers

Sebuah Penjelajah web (juga dikenal sebagai web spider atau web robot) adalah sebuah program atau script otomatis yang browses internet untuk mencari halaman web untuk proses.

Banyak aplikasi kebanyakan mesin pencari, situs web menjaring sehari-hari untuk menemukan up-to-date data.
Sebagian besar web crawlers menyimpan salinan halaman yang dikunjungi sehingga mereka dapat dengan mudah indeks nanti dan sisanya untuk menjaring halaman pencarian halaman tujuan hanya seperti mencari email (untuk SPAM).

Bagaimana cara kerjanya?

Sebuah Penjelajah kebutuhan titik awal yang akan menjadi alamat web, URL.

Untuk browsing internet kami menggunakan HTTP protokol jaringan yang memungkinkan kita untuk berbicara dengan web server dan men-download atau upload data dari dan ke sana.

Penjelajah yang browses URL ini dan kemudian berusaha untuk hyperlink (A tag dalam bahasa HTML).

Kemudian Penjelajah browses link tersebut dan bergerak pada jalan yang sama.

Sekarang, bagaimana kami bergerak di dalamnya sepenuhnya tergantung pada tujuan dari perangkat lunak itu sendiri.

Jika kita hanya ingin mengambil email maka kami akan mencari teks pada setiap halaman web (termasuk hyperlink) dan mencari alamat email. This is the easiest type of software to develop. Ini adalah jenis termudah untuk mengembangkan perangkat lunak.

Mesin pencari tersebut jauh lebih sulit untuk dikembangkan.

Ketika membangun mesin pencari kami harus memperbaikinya beberapa hal lainnya.

1. Ukuran - Beberapa situs web adalah sangat besar dan berisi banyak file dan direktori. Hal ini dapat memakan banyak waktu panen semua data.

2. Sebuah situs web dapat berubah sangat sering bahkan beberapa kali sehari. Halaman yang dapat dihapus dan ditambahkan setiap hari. Kita perlu memutuskan untuk kembali setiap saat dan setiap halaman situs per situs.

3. Bagaimana kami proses output HTML? Jika kami membangun sebuah mesin pencari kami ingin memahami teks daripada sekedar memperlakukan sebagai teks biasa. Kami harus memberitahu perbedaan antara keterangan dan kalimat yang sederhana. Kami harus mencari tebal atau miring teks, warna font, ukuran font, paragraf dan meja. Ini berarti kita harus mengetahui HTML sangat baik dan kami harus parsing terlebih dahulu. Apa yang kita butuhkan untuk tugas ini adalah sebuah alat yang disebut "HTML ke XML Converters". One can be found on my website. Satu dapat ditemukan pada website saya. Anda dapat menemukan sumber daya dalam kotak atau hanya pergi mencari dalam situs web Noviway: www.Noviway.com.

Oleh : Eran Aharonovich ( Terjemahan Google )

Tidak ada komentar:

Posting Komentar