Trang 1 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TINDỰ ĐỐN GIÁ Ơ TƠ CŨ DỰA TRÊN DỮ LIỆUTỪ WEBSITE CHỢ TỐTSinh viên thực hiện:STT Họ tên MSSV Ngành1 Nguyễn Thanh Hiếu 20521328 CNCL2020 Trang 2 1.G
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN 🙤🙧🟍🙥🙦 DỰ ĐỐN GIÁ Ơ TÔ CŨ DỰA TRÊN DỮ LIỆU TỪ WEBSITE CHỢ TỐT Sinh viên thực hiện: STT Họ tên Nguyễn Thanh Hiếu Hồ Nguyễn Gia Huy MSSV 20521328 20521386 TP HỒ CHÍ MINH – 12/2023 Ngành CNCL2020 CNCL2020 Đồ án mơn học Phân tích Dữ liệu – IE224 GIỚI THIỆU Đề tài xây dựng mơ hình dự đốn giá xe tơ cũ trang web Chợ tốt (https://xe.chotot.com) dựa yếu tố quan trọng Giá bán, Hãng sản xuất, Năm sản xuất, Số kilomet đi, Loại hộp số, Loại nhiên liệu, Xuất xứ, Kiểu dáng, Số chỗ Mục tiêu nắm bắt thông tin thị trường mua bán ô tô cũ trực tuyến Để thực việc thu thập liệu, nhóm sử dụng thư viện Selenium để tự động trích xuất thơng tin từ trang web Chợ tốt Sau nhóm tiến hành phân tích làm liệu sử dụng công cụ hồi quy Hồi quy tuyến tính (Linear Regression), Rừng ngẫu nhiên (Random Forest) Mạng Neural để tiến hành dự đoán đưa nhận xét Kết nhận thuật tốn Mạng Neural đạt kết tốt sau đến Hồi quy tuyến tính cuối Rừng ngẫu nhiên Nhóm cam kết liệu đồ án kết mà nhóm tự phân tích khơng phải hợp từ nguồn liệu khác Bộ liệu đề tài nhóm tự phân tích thiết kế, khơng dựa đề tài khác MÔ TẢ BỘ DỮ LIỆU Bộ liệu tập hợp thông tin mua bán ô tô cũ 30 trang đầu trang web Chợ tốt Bộ liệu phân tích tự thu thập https://xe.chotot.com/ Bộ liệu nhóm tự thu thập từ trang web Chợ tốt, khơng dựa nguồn liệu bên ngồi khác 2.1 Phương pháp thu thập liệu Thu thập liệu cách sử dụng thư viện Selenium: − Đầu tiên sử dụng Google Chrome để truy cập trang web Chợ tốt − Tiếp theo, lấy danh sách liên kết đến đăng mua bán ô tơ cũ Nhóm nhận thấy liên kết tơ có chung class name với liên kết người bán tơ nên nhóm lọc lấy liệu ô tô − Sau thu thập danh sách liên kết, nhóm sử dụng Selenium để truy cập liên kết Khi truy cập vào liên kết, thu thập thông tin tơ cụ thể đó, bao gồm Tên đăng bán, Giá bán, Hãng sản xuất, Dòng xe, Năm sản xuất, Số kilomet đi, Tình trạng, Loại hộp số, Loại nhiên liệu, Xuất xứ, Kiểu dáng, Số chỗ, Chính sách bảo hành, Trọng lượng Trọng tải − Dữ liệu thu thập được xử lý lưu trữ vào tệp CSV − Sau thu thập xong liệu nhóm nhận thấy liệu có nhiều chỗ bị rỗng bị trùng nên tiến hành lọc lưu trữ lại vào tệp CSV 2.2 Tiền xử lí liệu Sau thu thập liệu nhóm tiến hành tiền xử lý liệu: − Tìm loại bỏ dịng bị khuyết trùng Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 − Tìm loại bỏ cột khơng mang ý nghĩa cho việc dự đốn giá xe (Tên đăng bán, Dịng xe) − Xóa cột có giá trị khơng làm ảnh hưởng đến giá xe dự đốn (Tình trạng, Chính sách bảo hành, Trọng lượng, Trọng tải) − Chỉnh sửa kiểu Giá bán (chuyển sang dạng số) − Hộp số (đồng xe số sàn cấp “Số sàn”) − Thêm Tuổi xe thay cho Năm sản xuất để dự đoán rõ Bộ dữ liệu ban đầu gồm có 15 cột 590 dòng, sau lọc 93 dòng bị khuyết dữ liệu (trong đó 89 dòng bị thiếu dữ liệu và dòng trùng nhau) lọc cột không cần thiết thì còn lại 497 dòng liệu thuộc tính Thơng tin thuộc tính mơ tả bảng bên dưới: STT Tên thuộc tính Ý nghĩa Kiểu liệu Giá bán Giá mà chủ ô tô mong muốn bán thời điểm đăng int64 755000000, 1990000000, Hãng xe Hãng sản xuất ô tô đăng bán object Mazda, Mercedes Benz, Năm sản xuất Năm sản xuất ô tô đăng bán int64 2015, 2016, 2017, Số Km Xe đăng bán km int64 2, 38000, 55000, Hộp số Xe thuộc loại số sàn, tự động hay bán tự động object Số sàn, Tự động Bán tự động Nhiên liệu Nhiên liệu mà ô tô sử dụng) object Xăng, Dầu Động hybrid Xuất xứ Nơi xuất xứ xe object Đức, Nhật, Mĩ, Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Minh họa liệu Trang Đồ án mơn học Phân tích Dữ liệu – IE224 STT Tên thuộc tính Ý nghĩa Kiểu liệu Minh họa liệu Kiểu dáng Kiểu dáng loại hình tơ object SUV / Cross over, Sedan, Số chỗ Số chỗ ngồi xe int64 4, 5, 7, Hình Dữ liệu xử lý Thống kê Giá trị Số cột Số dòng 497 Biến phân loại Biến số Số lượng khuyết 93 Giá bán trung bình 865.75 (tám trăm sáu mươi lăm triệu) Giá bán cao 8299 (tám tỷ hai trăm chín mươi chín triệu) Giá bán thấp 88 Tuổi xe trung bình Số km trung bình 52957 km Hình Thống kê liệu PHƯƠNG PHÁP PHÂN TÍCH Hình Quy trình PTDL Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 3.1 Crawl liệu Selenium Nhóm sử dụng Selenium để crawl liệu framework có khả tương tác với nhiều trình duyệt khác nhau, xử lí kịch phức tạp so với framework khác 3.2 Tiền xử lí liệu Nhóm lọc loại bỏ giá trị, thuộc tính khơng có ích việc dự đoán giá bán xe 3.3 Khai phá liệu Từ liệu xử lý, nhóm sử dụng kĩ thuật phân tích để tìm hiểu lấy liệu quan trọng, đồng thời trực quan hóa liệu để đưa đánh giá, nhận xét xác cho việc dự đốn 3.4 Chuẩn hóa liệu Chuẩn hóa liệu thuộc tính đầu vào khoảng [-1, 1] cách chuẩn hóa theo giá trị trung bình (Mean Normalization) để đảm bảo cho thuật tốn tối ưu hiệu 3.5 Xây dựng mơ hình Khi có nhìn tổng qt, nhóm tiến hành xây dựng, đánh giá để làm mơ hình tốt Các thuật tốn xây dựng mơ hình lựa chọn công cụ mạnh mẽ, phù hợp với tốn hồi quy, bao gồm: Hồi quy tuyến tính, Rừng ngẫu nhiên, Mạng Neural 3.6 Đánh giá Sau training tập liệu nhóm tiến hành sử dụng metric hồi quy Mean Squared Error (MSE) để đánh giá hiệu suất mơ hình Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án môn học Phân tích Dữ liệu – IE224 PHÂN TÍCH THĂM DỊ/SƠ BỘ Hình Phân phối giá bán Hiện tô cũ thị trường tập trung nhiều phân khúc từ tỷ đổ xuống Tuy nhiên, ta thấy có một số ô tô cũ có giá rất cao tầm tỷ, thì đây hầu như là các ô tô phân khúc xe sang xe xịn Bên cạnh các xe tơ giá rẻ chiếm đa sớ trên thị trường 4.1 Phân tích liệu định lượng Biểu đồ phân tán so với Giá bán Hình Biểu đồ phân tán Số Km đi, Tuổi xe so với Giá bán Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án môn học Phân tích Dữ liệu – IE224 => Giá bán tô phụ thuộc vào nhiều yếu tố: − Giá cao năm sản xuất gần, số km đi, tuổi xe − Giá thấp năm sản xuất xa, số km đi, tuổi xe cao Mức độ tương quan tuyến tính Hình Bản độ nhiệt tương quan Dựa vào đồ nhiệt tương quan, ta đưa số nhận xét: − Tương quan nghịch nhẹ Tuổi xe Giá bán (tuổi xe thấp, giá bán cao) − Có tương quan nghịch nhẹ Số Km Giá bán (đi nhiều giá bán thấp) 4.2 Phân tích liệu định tính Lần lượt so sánh Giá bán với Hãng xe, Dòng xe, Hộp số, Nhiên liệu, Xuất xứ, Kiểu dáng: Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án môn học Phân tích Dữ liệu – IE224 Hình Biểu đồ phân tích định tính Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 So sánh Giá bán với Hãng: − Ta thấy giá hãng xe sang trọng Bentley, Rover, Lexus, Porsche, có giá trị cao nhiều với hãng lại − Có thể thấy phổ biến xe ô tô giá rẻ so với ô tô mắc − Sẽ có vài ngoại lệ hãng xe giá rẻ có loại tơ có phân khúc giá cao So sánh Giá bán với Hộp số: − Ta thấy hộp số tự động chiếm ưu so với số sàn số bán tự động => phản ánh ưa chuộng người mua hộp số tự động So sánh Giá bán với Nhiên liệu: − Có thể thấy xăng chiếm ưu so với dầu động Hybrid, xăng nhiên liệu phổ biến So sánh Giá bán với Xuất xứ: − Nhật Mỹ có loại xe sang giá trị cao Xe từ Nhật Bản Mỹ thường đánh giá cao chất lượng độ tin cậy So sánh Giá bán với Kiểu dáng: − Các kiểu xe Sedan, SUV coupe thể ưa chuộng đặc biệt từ phía người tiêu dùng Có thể đẹp tiện lợi từ kiểu dáng => Ta thấy Hãng xuất xứ có ảnh hưởng nhiều đến giá xe cịn lại mức giao động nhẹ KẾT QUẢ PHÂN TÍCH 5.1 Mơ hình sử dụng Bộ liệu chia thành ba phần: tập huấn luyện (training set), tập kiểm thử (test set), tập validation (validation set) có tỷ lệ (8 - - 1) Các mơ hình máy học sử dụng: − Hồi quy tuyến tính − Rừng ngẫu nhiên − Mạng Neural Để đánh giá tất mơ hình, ta sử dụng trung tham số MSE (Mean Squared Error), tham số đo trung bình độ lệch bình phương giá trị dự đoán với giá trị thực tế chúng 5.2 Kết Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 Hình Biểu đồ đánh giá Mơ hình Kết Hồi quy tuyến tính 0.241 Rừng ngẫu nhiên 0.144 Mạng Neural 0.311 Hình 10 Bảng đánh giá − Mô hình cho kết quả tốt nhất là Mạng Neural − Kết quả ở những mô hình máy học khác chưa được tốt CHỈNH SỬA SAU BÁO CÁO Chỉnh sửa bảng mơ tả thuộc tính Thêm bảng thống kê thuộc tính Thêm bảng phân phối giá bán Thêm bảng kết có số liệu cụ thể KẾT LUẬN 7.1 Kết đạt − Trong dự án này, nhóm đạt mục tiêu quan trọng từ đầu, bao gồm việc tự thu thập xây dựng, phân tích trực quan hóa hiệu liệu − Xây dựng được các mô hình áp dụng cho bộ dữ liệu − Tìm hiểu, sử dụng được một số phương pháp tiền xử lý, phân tích và trực quan, cũng như xây dựng các mô hỉnh máy học áp dụng cho bộ dữ liệu đã xây dựng Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang Đồ án mơn học Phân tích Dữ liệu – IE224 − Nắm được kiến thức cơ bản, có cái nhìn cơ bản tổng thể về Phân tích và trực quan dữ liệu cũng như về Machine Learning 7.2 Khó khăn gặp phải − Chưa có kinh nghiệm giải quyết các vấn đề gặp phải tự thực hiện thu thập dữ liệu − Chưa có kinh nghiệm việc tìm hiểu các thư viên mới, các cách xử lý mới phân tích và trực quan dữ liệu − Chưa có kinh nghiệm bài toán xử lý dữ liệu có nhiều thuộc tính nói riêng và các bài toán Machine Learning nói chung dẫn đến việc gặp nhiều khó khăn quá trình thu thập cũng như xử lý dữ liệu − Bộ dữ liệu chưa đủ lớn, dẫn đến kết quả mô hình chưa cao như mong muốn Nhiều mô hình chạy demo cho kết quả sai Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Trang 10 Đồ án môn học Phân tích Dữ liệu – IE224 TÀI LIỆU THAM KHẢO [1] K.Samruddhi, Dr R.Ashok Kumar2, Used Car Price Prediction using K-Nearest Neighbor Based Model, 2020 [2] Pattabiraman Venkatasubbu, Mukkesh Ganesh, Used Cars Price Prediction using Supervised Learning Techniques, 2019 [3] Studocu.com Link: bc khai phá liệu (5/11/2023) [4] Youtube.com Link: Crawl Data Using Selenium (1/9/2023) Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy Đồ án mơn học Phân tích Dữ liệu – IE224 PHỤ LỤC PHÂN CÔNG NHIỆM VỤ STT Thành viên Nguyễn Thanh Hiếu Hồ Nguyễn Gia Huy Nhiệm vụ - Crawl liệu - Code EDA, phân tích EDA - Training models - Đánh giá models - Tiền xử lý dữ liệu - Hỗ trợ code EDA - Chuẩn hoá liệu - Viết báo cáo - Làm slide báo cáo Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy