Cach crawl amazon thiet bi di dong

7 5 0
Cach crawl amazon thiet bi di dong

Đang tải... (xem toàn văn)

Thông tin tài liệu

1. Tìm hiểu về thư viện Beautiful Soup. BeautifulSoup là một thư viện Python dùng để lấy dữ liệu ra khỏi các file HTML và XML. Nó hoạt động cùng với các parser (trình phân tích cú pháp) cung cấp cho bạn các cách để điều hướng, tìm kiếm và chỉnh sửa trong parse tree (cây phân tích được tạo từ parser). Nhờ các parser này nó đã giúp các lập trình viên tiết kiệm được nhiều giờ làm việc. 2. Tìm hiểu sản phẩm cần lấy về trong trang website amazon. Sản phẩm tôi cần làm là về thiết bị điện thoại di động. 3. Xác định các trường dữ liệu cần lấy về. Click vào một sản phẩm bất kỳ, ta có như hình: Sau đó xác định các trường dữ liệu như hình ảnh: Chú thích: STT Chức năng 1 Tên sản phẩm. 2 Giá sản phẩm. 3 Số sao của sản phẩm 4 Số người đã đánh giá sản phẩm. 5 Còn hàng hay không. 4. Viết code. Đầu tiên, các thư viện cần thiết được import: BeautifulSoup để phân tích HTML, requests để thực hiện yêu cầu HTTP, pandas để làm việc với dữ liệu và numpy để thao tác với mảng. Chưa có thư viện trên thì tiến hành cài đặt: mở cmd lên ghi (pip install BeautifulSoup). Import các thư viện cần thiết vào:

1 Tìm hiểu về thư viện Beautiful Soup BeautifulSoup thư viện Python dùng để lấy liệu khỏi file HTML XML Nó hoạt động với parser (trình phân tích cú pháp) cung cấp cho bạn cách để điều hướng, tìm kiếm chỉnh sửa parse tree (cây phân tích tạo từ parser) Nhờ parser giúp lập trình viên tiết kiệm nhiều làm việc Tìm hiểu sản phẩm cần lấy về trang website amazon Sản phẩm cần làm thiết bị điện thoại di động Xác định các trường dữ liệu cần lấy về - Click vào sản phẩm bất kỳ, ta có hình: - Sau xác định trường liệu hình ảnh: Chú thích: STT Chức Tên sản phẩm Giá sản phẩm Số của sản phẩm Số người đánh giá sản phẩm Còn hàng hay không Viết code - Đầu tiên, thư viện cần thiết import: BeautifulSoup để phân tích HTML, requests để thực yêu cầu HTTP, pandas để làm việc với liệu numpy để thao tác với mảng - Chưa có thư viện tiến hành cài đặt: mở cmd lên ghi (pip install BeautifulSoup) - Import thư viện cần thiết vào: - Tiếp theo, mã định nghĩa sớ chức để trích xuất thơng tin từ trang web Amazon: `get_title(soup)` - Trích xuất tiêu đề sản phẩm từ soup (một đối tượng Beautiful Soup) `get_price(soup)` - Trích xuất giá sản phẩm từ soup `get_rating(soup)` - Trích xuất xếp hạng sản phẩm từ soup `get_review_count(soup)` - Trích xuất sớ lượng đánh giá của người dùng từ soup `get_availability(soup)` - Trích xuất trạng thái sẵn có của sản phẩm từ soup - Kết quả: crawl từ 15 trang web có tất cả 385 sản phẩm

Ngày đăng: 28/12/2023, 18:59

Tài liệu cùng người dùng

Tài liệu liên quan