Skip to content
This repository has been archived by the owner on Jan 18, 2022. It is now read-only.

HelpStartConceptsSpider

psiinon edited this page Feb 8, 2018 · 1 revision

Laba - laba

Laba -laba adalah alat yang di gunakan untuk menemukan sumber - sumber baru (URL) pada situs tertentu secara otomatis. Ini dimulai dengan sebuah daftar dari URL untuk dikunjungi, yang disebut biji, yang tergantung tentang bagaimana Laba-laba tersebut dimulai. Laba-laba menambahkan mereka ke daftar URL untuk mengunjungi dan proses terus secara rekursif sebagai sumber daya baru yang ditemukan. mengunjungi URL tersebut, mengidentifikasi semua hyperlink di halaman dan.

Laba-laba dapat digunakan dan dijalankan menggunakan Spider dialogue.

Selama pemrosesan URL, Laba-laba membuat permintaan untuk mengambil sumberdaya dan memparsing respon, identifikasi hyperlink. Saat ini memiliki perilaku berikut ketika pengolahan jenis tanggapan:

HTML

Memproses label spesifik, identifikasi link ke sumberdaya baru:

  • Dasar - Penanganan yang tepat
  • A, Link, Area - 'href' attribute
  • Frame, IFrame, Script, Img - 'src' attribute
  • Meta - 'http-equiv' for 'location' and 'refresh'
  • Formulir - menangani dengan tepat dari Formulir dengan metode GET dan POST. Nilai field dihasilkan secara valid, termasuk Tipe masukan HTML 5.0.
  • Komentar - Tag yang valid ditemukan pada komentar juga dianalisis, jika ditetapkan pada Pilihannya Laba-laba layar

Berkas Robots.txt

Jika diatur pada Pilihan Spider layarjuga mengkaji file 'Robots.txt' dan mencoba untuk mengidentifikasi sumber baru yang menerapkan peraturan yang ditetapkan. Itu harus disebutkan bahwa laba-Laba tidak mengikuti aturan yang ditentukan dalam 'Robots.txt' file.

Bentuk DataO Atom

Konten Odata yang menggunakan format Atom yang saat ini didukung. Semua mencakup link (relatif atau absolut) yang diproses.

Non-HTML Respon Teks

Teks tanggapan diurai memindai URL pola

Non-teks tanggapan

Saat ini, laba-Laba tidak proses ini jenis sumber daya.

Aspek-aspek lain

  • Ketika memeriksa jika sebuah URL yang telah dikunjungi, perilaku mengenai cara parameter yang ditangani dapat dikonfigurasi pada laba-Laba Pilihan layar.
  • Ketika memeriksa jika sebuah URL yang telah dikunjungi, ada beberapa parameter yang umum yang diabaikan: jsessionid, phpsessid, aspsessionid, utm_*
  • Laba-Laba perilaku mengenai cookie tergantung pada bagaimana laba-laba mulai dan pilihan yang diaktifkan. Untuk lebih rincian mengacu pada laba-Laba Pilihan layar.

Laba-laba dikonfigurasi menggunakan Spider Option screen.

Lihat juga

     UI Gambaran petunjuk untuk pengguna antar muka
     Gambaran di terbitkan oleh ZAP
     Pilihan layar laba - laba pilih pintasan untuk laba - laba
Clone this wiki locally