Membuat web crawdle dengan python

Untuk membuat web crawler dengan Python, Anda bisa menggunakan pustaka seperti requests untuk mengunduh halaman web dan BeautifulSoup dari bs4 untuk memparsing HTML. Berikut adalah contoh sederhana untuk membuat web crawler yang dapat mengekstrak semua tautan dari sebuah halaman web.

Langkah 1: Instalasi pustaka yang diperlukan

Pertama, Anda perlu menginstal pustaka yang diperlukan:

Langkah 2: Membuat Web Crawler

Berikut adalah contoh kode untuk membuat web crawler sederhana:

python

import requests

from bs4 import BeautifulSoup
# Fungsi untuk mengunduh halaman dan mengekstrak tautan

def crawl(url):

    # Mengirim permintaan GET ke URL

    response = requests.get(url)
    # Mengecek jika permintaan berhasil (status code 200)

    if response.status_code == 200:

        # Menggunakan BeautifulSoup untuk memparsing HTML

        soup = BeautifulSoup(response.text, 'html.parser')
        # Mencari semua elemen <a> yang memiliki atribut href

        links = soup.find_all('a', href=True)
        # Menampilkan semua tautan

        for link in links:

            print(link['href'])

    else:

        print("Tidak dapat mengakses halaman:", url)
# URL yang ingin dicrawl

url = 'https://example.com'

# Memanggil fungsi crawl crawl(url)

Penjelasan kode:

requests.get(url): Mengirimkan permintaan HTTP GET ke halaman yang ditentukan.
BeautifulSoup(response.text, ‘html.parser’): Memparsing HTML dari respons.
soup.find_all(‘a’, href=True): Menemukan semua tag <a> yang memiliki atribut href (tautan).
print(link[‘href’]): Mencetak nilai href yang ditemukan, yaitu URL dari tautan.

Catatan:

Pastikan untuk mematuhi aturan penggunaan situs yang ingin Anda crawl (periksa robots.txt mereka).
Crawler ini sangat sederhana, Anda dapat mengembangkan fungsionalitasnya seperti penanganan kesalahan, crawling secara rekursif, atau penyimpanan data.

Apakah Anda membutuhkan bantuan lebih lanjut untuk menyesuaikan crawler ini?