1. Trang chủ
  2. » Công Nghệ Thông Tin

Bth1 nhoìm 13

9 0 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Crawl Dữ Liệu Mua Bán Xe Ô Tô Cũ Trên Website Chợ Tốt
Tác giả Nguyễn Thanh Hiếu, Hồ Nguyễn Gia Huy
Trường học Đại học quốc gia tp. Hồ Chí Minh
Chuyên ngành Phân tích dữ liệu
Thể loại đồ án
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 9
Dung lượng 485,51 KB

Nội dung

Trang 1 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINCRAWL DỮ LIỆU MUA BÁN XE Ô TÔ CŨTRÊN WEBSITE CHỢ TỐTSinh viên thực hiện:STT Họ tên MSSV1 Nguyễn Thanh Hiếu 20521328 Trang 2 1.GIỚI THIỆUĐề tài

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CRAWL DỮ LIỆU MUA BÁN XE Ô TÔ CŨ

TRÊN WEBSITE CHỢ TỐT

Sinh viên thực hiện:

Trang 2

1 GIỚI THIỆU

Đề tài này tập trung vào việc thu thập dữ liệu liên quan đến thông tin mua bán ô

tô cũ trên trang web Chợ tốt (https://xe.chotot.com) Mục tiêu là nắm bắt thông tin về thị trường mua bán ô tô cũ trực tuyến

Để thực hiện việc thu thập dữ liệu, nhóm đã sử dụng Selenium, một công cụ tự động hóa trình duyệt web, để tự động trích xuất thông tin từ trang web Chợ tốt Các thông tin cơ bản về giao dịch ô tô cũ, bao gồm giá bán, nhà sản xuất, năm sản xuất, tình trạng, và nhiều yếu tố khác đã được thu thập và lưu trữ dưới dạng tệp tin CSV Kết quả cuối cùng là một tập dữ liệu gồm 497 thông tin đầy đủ về các ô tô cũ được niêm yết và bán trên trang web Chợ tốt

Nhóm cam kết rằng bộ dữ liệu này là kết quả của quá trình sử dụng Selenium để

tự động thu thập dữ liệu trên trang web Chợ tốt và không phải là sự tự hợp nhất từ các nguồn dữ liệu khác

Bộ dữ liệu và đề tài do nhóm tự phân tích thiết kế và không dựa trên đề tài nào khác

2 MÔ TẢ BỘ DỮ LIỆU

Bộ dữ liệu này là một tập hợp thông tin về mua bán ô tô cũ trên 30 trang đầu của trang web Chợ tốt Dữ liệu bao gồm các thông tin quan trọng về các chi tiết của ô tô như tên người đăng bán, giá bán, hãng sản xuất, dòng xe, năm sản xuất, số kilomet đã

đi, tình trạng, loại hộp số, loại nhiên liệu, xuất xứ, kiểu dáng, số chỗ ngồi, chính sách bảo hành, trọng lượng và trọng tải

Bộ dữ liệu phân tích tự thu thập tại https://xe.chotot.com/

Bộ dữ liệu này được nhóm thu thập từ trang web Chợ tốt, không dựa trên bất kỳ nguồn dữ liệu bên ngoài nào khác

Phương pháp thu thập dữ liệu cho bộ dữ liệu mua bán ô tô cũ trên trang web Chợ tốt đã được thực hiện bằng cách sử dụng Selenium:

+ Trình duyệt web: Nhóm đã sử dụng Google Chrome để truy cập và tương tác với trang web Chợ tốt

Trang 3

+ Thực hiện tìm kiếm trên trang web Chợ tốt để lấy danh sách các liên kết đến các bài đăng về mua bán ô tô cũ Trong khi làm, nhóm nhận thấy các liên kết ô

tô có chung class name với các liên kết của những người bán ô tô nên nhóm đã lọc ra và chỉ lấy những liên kết có mỗi dữ liệu về ô tô

+ Sau khi thu thập danh sách các liên kết, nhóm đã sử dụng Selenium để truy cập từng liên kết một Khi truy cập vào một liên kết, đã thu thập thông tin về ô tô cụ thể đó, bao gồm Tên đăng bán, Giá bán, Hãng sản xuất, Dòng xe, Năm sản xuất, Số kilomet đã đi, Tình trạng, Loại hộp số, Loại nhiên liệu, Xuất xứ, Kiểu dáng, Số chỗ ngồi, Chính sách bảo hành, Trọng lượng và Trọng tải

Trang 4

+ Xử lý và lưu trữ dữ liệu: Dữ liệu thu thập được đã được xử lý và lưu trữ vào một tệp CSV

+ Sau khi thu thập xong dữ liệu nhóm nhận thấy bộ dữ liệu có nhiều chỗ bị rỗng

và bị trùng vậy nên đã tiến hành lọc ra Và lưu trữ lại vào tệp CSV

+ Nhóm có nhận thấy cột Xuất xứ có 135 dữ liệu là “Đang cập nhật” vậy nên cũng tiến hành đếm ra những ô tô cũ ko rõ nguồn gốc xuất xứ Tuy nhiên nhận thấy cũng không có vấn đề nên không lọc những data đó ra

Ý nghĩa các cột dữ liệu:

● Tên đăng bán xe: Tiêu đề mà chủ xe ghi khi đăng bán

Trang 5

● Giá bán: Giá mà chủ ô tô mong muốn có thể bán được ở thời điểm đăng bài (vì sau khi người mua muốn mua ô tô thì chủ có thể giảm giá theo ý muốn của chủ

ô tô)

● Hãng xe: Hãng sản xuất của ô tô được đăng bán

● Dòng xe: Dòng xe của ô tô được đăng bán

● Năm sản xuất: Năm sản xuất của ô tô được đăng bán

● Số km đã đi: Xe đăng bán đã đi được bao nhiêu km

● Tình trạng: Tình trạng của ô tô được đăng bán (đã sử dụng, )

● Hộp số: Xe thuộc loại số sàn, tự động hay bán tự động

● Nhiên liệu: Loại nhiên liệu mà ô tô sử dụng (xăng, dầu hoặc động cơ hybrid)

● Xuất xứ: Nơi xuất xứ của xe

● Kiểu dáng: Kiểu dáng hoặc loại hình của ô tô

● Số chỗ: Số chỗ ngồi trong xe

● Chính sách bảo hành: Thông tin về chính sách bảo hành của ô tô

● Trọng lượng: Xe nặng bao nhiêu

● Trọng tải: Trọng tải tối đa mà ô tô có thể chở

Biến phân loại (categorical variables):

● 'Hãng'

● 'Dòng xe'

● 'Tình trạng'

● 'Hộp số'

● 'Nhiên liệu'

● 'Xuất xứ'

● 'Kiểu dáng'

Biến số (numeric variables):

● 'Giá bán'

● 'Năm sản xuất'

● 'Số Km đã đi'

● 'Số chỗ'

● 'Trọng lượng'

● 'Trọng tải'

Bộ dữ liệu ban đầu gồm có 15 cột 590 dòng, nhưng sau khi lọc ra 93 dòng bị khuyết dữ liệu (trong đó 89 dòng bị thiếu dữ liệu và 4 dòng trùng nhau) thì còn 497 dòng

Trang 6

Biến dữ liệu Số lượng dòng bị thiếu

Trang 7

Biến dữ liệu Số lượng dòng bị thiếu

Trang 8

TÀI LIỆU THAM KHẢO

[1]https://xe.chotot.com/(Truy cập lần cuối: 5/11/2023)

[2]https://www.youtube.com/watch?v=Z-YLy8zHSPM(Truy cập lần cuối: 4/11/2023)

Trang 9

PHỤ LỤC PHÂN CÔNG NHIỆM VỤ

ST

T Thành viên Nhiệm vụ

1 Nguyễn Thanh Hiếu

-20521328

Tìm hiểu, code, mô tả bộ dữ liệu

2 Hồ Nguyễn Gia Huy

-20521386

Tìm hiểu, code, mô tả bộ dữ liệu

Ngày đăng: 17/02/2024, 11:30

w