Trang 1 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINCRAWL DỮ LIỆU MUA BÁN XE Ô TÔ CŨTRÊN WEBSITE CHỢ TỐTSinh viên thực hiện:STT Họ tên MSSV1 Nguyễn Thanh Hiếu 20521328 Trang 2 1.GIỚI THIỆUĐề tài
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN 🙤🙧🟍🙥🙦 CRAWL DỮ LIỆU MUA BÁN XE Ô TÔ CŨ TRÊN WEBSITE CHỢ TỐT Sinh viên thực hiện: STT Họ tên Nguyễn Thanh Hiếu Hồ Nguyễn Gia Huy MSSV 20521328 20521386 TP HỒ CHÍ MINH – 11/2022 Đồ án mơn học Phân tích Dữ liệu – IE224 GIỚI THIỆU Đề tài tập trung vào việc thu thập liệu liên quan đến thông tin mua bán ô tô cũ trang web Chợ tốt ( https://xe.chotot.com ) Mục tiêu nắm bắt thông tin thị trường mua bán ô tô cũ trực tuyến Để thực việc thu thập liệu, nhóm sử dụng Selenium, cơng cụ tự động hóa trình duyệt web, để tự động trích xuất thông tin từ trang web Chợ tốt Các thông tin giao dịch ô tô cũ, bao gồm giá bán, nhà sản xuất, năm sản xuất, tình trạng, nhiều yếu tố khác thu thập lưu trữ dạng tệp tin CSV Kết cuối tập liệu gồm 497 thông tin đầy đủ ô tô cũ niêm yết bán trang web Chợ tốt Nhóm cam kết liệu kết trình sử dụng Selenium để tự động thu thập liệu trang web Chợ tốt tự hợp từ nguồn liệu khác Bộ liệu đề tài nhóm tự phân tích thiết kế khơng dựa đề tài khác MÔ TẢ BỘ DỮ LIỆU Bộ liệu tập hợp thông tin mua bán ô tô cũ 30 trang đầu trang web Chợ tốt Dữ liệu bao gồm thông tin quan trọng chi tiết ô tô tên người đăng bán, giá bán, hãng sản xuất, dòng xe, năm sản xuất, số kilomet đi, tình trạng, loại hộp số, loại nhiên liệu, xuất xứ, kiểu dáng, số chỗ ngồi, sách bảo hành, trọng lượng trọng tải Bộ liệu phân tích tự thu thập https://xe.chotot.com/ Bộ liệu nhóm thu thập từ trang web Chợ tốt, không dựa nguồn liệu bên khác Phương pháp thu thập liệu cho liệu mua bán ô tô cũ trang web Chợ tốt thực cách sử dụng Selenium: + Trình duyệt web: Nhóm sử dụng Google Chrome để truy cập tương tác với trang web Chợ tốt Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án môn học Phân tích Dữ liệu – IE224 + Thực tìm kiếm trang web Chợ tốt để lấy danh sách liên kết đến đăng mua bán ô tô cũ Trong làm, nhóm nhận thấy liên kết tơ có chung class name với liên kết người bán tơ nên nhóm lọc lấy liên kết có liệu ô tô + Sau thu thập danh sách liên kết, nhóm sử dụng Selenium để truy cập liên kết Khi truy cập vào liên kết, thu thập thông tin tơ cụ thể đó, bao gồm Tên đăng bán, Giá bán, Hãng sản xuất, Dòng xe, Năm sản xuất, Số kilomet đi, Tình trạng, Loại hộp số, Loại nhiên liệu, Xuất xứ, Kiểu dáng, Số chỗ ngồi, Chính sách bảo hành, Trọng lượng Trọng tải Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 + Xử lý lưu trữ liệu: Dữ liệu thu thập được xử lý lưu trữ vào tệp CSV + Sau thu thập xong liệu nhóm nhận thấy liệu có nhiều chỗ bị rỗng bị trùng nên tiến hành lọc Và lưu trữ lại vào tệp CSV + Nhóm có nhận thấy cột Xuất xứ có 135 liệu “Đang cập nhật” nên tiến hành đếm ô tô cũ ko rõ nguồn gốc xuất xứ Tuy nhiên nhận thấy khơng có vấn đề nên khơng lọc data Ý nghĩa cột liệu: ● Tên đăng bán xe: Tiêu đề mà chủ xe ghi đăng bán Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 ● Giá bán: Giá mà chủ tơ mong muốn bán thời điểm đăng (vì sau người mua muốn mua tơ chủ giảm giá theo ý muốn chủ ô tô) ● Hãng xe: Hãng sản xuất ô tô đăng bán ● Dịng xe: Dịng xe tơ đăng bán ● Năm sản xuất: Năm sản xuất ô tô đăng bán ● Số km đi: Xe đăng bán km ● Tình trạng: Tình trạng tơ đăng bán (đã sử dụng, ) ● Hộp số: Xe thuộc loại số sàn, tự động hay bán tự động ● Nhiên liệu: Loại nhiên liệu mà ô tô sử dụng (xăng, dầu động hybrid) ● Xuất xứ: Nơi xuất xứ xe ● Kiểu dáng: Kiểu dáng loại hình tơ ● Số chỗ: Số chỗ ngồi xe ● Chính sách bảo hành: Thơng tin sách bảo hành tơ ● Trọng lượng: Xe nặng ● Trọng tải: Trọng tải tối đa mà tơ chở Biến phân loại (categorical variables): ● ● ● ● ● ● ● 'Hãng' 'Dịng xe' 'Tình trạng' 'Hộp số' 'Nhiên liệu' 'Xuất xứ' 'Kiểu dáng' Biến số (numeric variables): ● ● ● ● ● ● 'Giá bán' 'Năm sản xuất' 'Số Km đi' 'Số chỗ' 'Trọng lượng' 'Trọng tải' Bộ liệu ban đầu gồm có 15 cột 590 dịng, sau lọc 93 dòng bị khuyết liệu (trong 89 dịng bị thiếu liệu dịng trùng nhau) cịn 497 dịng Dưới bảng thống kê sơ biến liệu số lượng dòng bị thiếu: Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án môn học Phân tích Dữ liệu – IE224 Biến liệu Số lượng dòng bị thiếu Tên đăng bán Giá bán Hãng Dòng xe Năm sản xuất Số Km 22 Tình trạng Hộp số Nhiên liệu Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 Biến liệu Số lượng dòng bị thiếu Xuất xứ Kiểu dáng 62 Số chỗ 64 Chính sách bảo hành Trọng lượng Trọng tải Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 TÀI LIỆU THAM KHẢO [1] https://xe.chotot.com/ (Truy cập lần cuối: 5/11/2023) [2] https://www.youtube.com/watch?v=Z-YLy8zHSPM (Truy cập lần cuối: 4/11/2023) Họ tên SV thứ – Họ tên SV thứ Đồ án mơn học Phân tích Dữ liệu – IE224 PHỤ LỤC PHÂN CÔNG NHIỆM VỤ ST T Thành viên Nhiệm vụ Nguyễn Thanh Hiếu - Tìm hiểu, code, mô tả liệu 20521328 Hồ Nguyễn Gia Huy - Tìm hiểu, code, mơ tả liệu 20521386 Họ tên SV thứ – Họ tên SV thứ