Membuat web crawdle dengan python

Untuk membuat web crawler dengan Python, Anda bisa menggunakan pustaka seperti requests untuk mengunduh halaman web dan BeautifulSoup dari bs4 untuk memparsing HTML. Berikut adalah contoh sederhana untuk membuat web crawler yang dapat mengekstrak semua tautan dari sebuah halaman web.

Langkah 1: Instalasi pustaka yang diperlukan

Pertama, Anda perlu menginstal pustaka yang diperlukan:

bash
pip install requests beautifulsoup4

Langkah 2: Membuat Web Crawler

Berikut adalah contoh kode untuk membuat web crawler sederhana:

python
import requests
from bs4 import BeautifulSoup

# Fungsi untuk mengunduh halaman dan mengekstrak tautan
def crawl(url):
# Mengirim permintaan GET ke URL
response = requests.get(url)

# Mengecek jika permintaan berhasil (status code 200)
if response.status_code == 200:
# Menggunakan BeautifulSoup untuk memparsing HTML
soup = BeautifulSoup(response.text, 'html.parser')

# Mencari semua elemen <a> yang memiliki atribut href
links = soup.find_all('a', href=True)

# Menampilkan semua tautan
for link in links:
print(link['href'])
else:
print("Tidak dapat mengakses halaman:", url)

# URL yang ingin dicrawl
url = 'https://example.com'

# Memanggil fungsi crawl
crawl(url)

Penjelasan kode:

  1. requests.get(url): Mengirimkan permintaan HTTP GET ke halaman yang ditentukan.
  2. BeautifulSoup(response.text, ‘html.parser’): Memparsing HTML dari respons.
  3. soup.find_all(‘a’, href=True): Menemukan semua tag <a> yang memiliki atribut href (tautan).
  4. print(link[‘href’]): Mencetak nilai href yang ditemukan, yaitu URL dari tautan.

Catatan:

  • Pastikan untuk mematuhi aturan penggunaan situs yang ingin Anda crawl (periksa robots.txt mereka).
  • Crawler ini sangat sederhana, Anda dapat mengembangkan fungsionalitasnya seperti penanganan kesalahan, crawling secara rekursif, atau penyimpanan data.

Apakah Anda membutuhkan bantuan lebih lanjut untuk menyesuaikan crawler ini?