Untuk membuat web crawler dengan Python, Anda bisa menggunakan pustaka seperti requests untuk mengunduh halaman web dan BeautifulSoup dari bs4 untuk memparsing HTML. Berikut adalah contoh sederhana untuk membuat web crawler yang dapat mengekstrak semua tautan dari sebuah halaman web.
Langkah 1: Instalasi pustaka yang diperlukan
Pertama, Anda perlu menginstal pustaka yang diperlukan:
Langkah 2: Membuat Web Crawler
Berikut adalah contoh kode untuk membuat web crawler sederhana:
Penjelasan kode:
- requests.get(url): Mengirimkan permintaan HTTP GET ke halaman yang ditentukan.
- BeautifulSoup(response.text, ‘html.parser’): Memparsing HTML dari respons.
- soup.find_all(‘a’, href=True): Menemukan semua tag
<a>yang memiliki atributhref(tautan). - print(link[‘href’]): Mencetak nilai
hrefyang ditemukan, yaitu URL dari tautan.
Catatan:
- Pastikan untuk mematuhi aturan penggunaan situs yang ingin Anda crawl (periksa
robots.txtmereka). - Crawler ini sangat sederhana, Anda dapat mengembangkan fungsionalitasnya seperti penanganan kesalahan, crawling secara rekursif, atau penyimpanan data.
Apakah Anda membutuhkan bantuan lebih lanjut untuk menyesuaikan crawler ini?