- Dự đoán giá xe ô tô các hãng xe phổ biến trên thị trường dựa trên dữ liệu lịch sử và các yếu tố tác động như : Hãng xe, số km, dòng xe, tình trạng,.... + Kích thước: Crossover có kích
Trang 1TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN
-
BÁO CÁO MÔN HỌC PHÂN TÍCH DỮ LIỆU
Đề tài: Phân Tích Thị Trường Xe Hơi Bán Được Tại Việt Nam
Giảng viên hướng dẫn: Th.S Hồ Hướng Thiên
Sinh viên thực hiện:
Tháng 3 năm 2024
Trang 2MỤC LỤC
PHẦN MỞ ĐẦU
I TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
1 Lý do chọn đề tài
2 Mục tiêu nghiên cứu
3 Phạm vi nghiên cứu và cấu trúc bài báo cáo
II CƠ SỞ LÝ LUẬN VỀ ĐỀ TÀI
1 Các khái niệm về ô tô
2 Các nguyên nhân ảnh hưởng đến giá ô tô
3 Mô hình đề nghị nghiên cứu
III PHÂN TÍCH
1 Tiền xử lý dữ liệu
2 Phân tích dữ liệu
3 Dự báo
IV KẾT LUẬN
Trang 3
sử dụng xe ô tô không còn gói gọn trong mục đích công việc
mà còn phục vụ cho sinh hoạt đời sống hằng ngày
- Với chính sách mở cửa của chính phủ Việt Nam, nhiều nhãn hiệu xe ô tô trên thế giới đã có mặt tại Việt Nam, họ
đã và đang tiến hành xây dựng hệ thống dây chuyền nhà máy sản xuất và hệ thống cung ứng sản phẩm nhằm đáp ứng nhu cầu mua sắm sử dụng mặt hàng xe ô tô của xã hội
- Tuy nhiên, cùng một mặt hàng là xe ô tô nhưng xe cáchãng khác nhau lại có giá bán khác nhau Để tìm hiểu vấn đề này, nhóm đã quyết định lựa chọn đề tài như đã nêu trên để tiếnhành nghiên cứu
2 Mục tiêu nghiên cứu
- Xây dựng một mô hình dự đoán giá xe hơi trên thị trường xe Việt Nam sử dụng phương pháp học máy machine learning
- Đánh giá hiệu suất của mô hình dự đoán so với các phương pháp truyền thống khác
- Tìm hiểu yếu tố ảnh hưởng đến giá xe và đưa ra các khuyến nghị cho người mua khi có nhu cầu tham khảo giá xe trên thị trường
Trang 43 Phạm vi nghiên cứu và cấu trúc bài báo cáo
- Tìm hiểu thị trường ô tô Việt và phân tích yếu tố ảnh hưởng đến giá cả của xe như : Hãng xe, số km, dòng xe, tình trạng,…
- Đánh giá hiệu suất của mô hình dự đoán bằng các chỉ
số như sai số trung bình, độ chính xác,…
- Sử dụng các phương pháp học máy machine learning như hồi quy tuyến tính,… để xây dựng mô hình dự đoán
- Dự đoán giá xe ô tô các hãng xe phổ biến trên thị trường dựa trên dữ liệu lịch sử và các yếu tố tác động như : Hãng xe, số km, dòng xe, tình trạng,
II CƠ SỞ LÝ LUẬN VỀ ĐỀ TÀI
1 Khái niệm về ô tô
Ô tô ( motor vehicle ) : Là loại phương tiện giao thông đường bộ chạy bằng động cơ có từ bốn bánh xe trở lên, không chạy trên đường ray và thường được dùng để:
- Chở người và /hoặc hàng hóa
- Kéo các rơ moóc, sơmi rơ moóc;
- Thực hiện chức năng, công dụng đặc biệt
Có kết câu và trang bị chủ yêu dùng để chở người, hành lý mang theo hoặc hàng hóa, có số chỗ ngồi bao gồm cả chỗ người lái không nhiều hơn 9
Ô tô con cũng có thể kéo theo một rơ moóc
Chú thích:
Ô tô được gọi là "Ô tô thể thao" cũng thuộc một số loại ô tô con dưới đây.Trong các định nghĩa dưới đây, của số là loại cửa kính mở được, gồm một hoặc nhiều ô kính (Ví dụ: cửa thông gió là một bộ phận của cửa sổ)
Trang 5Ghi chú: (*): Các hình vẽ trong tiêu chuẩn này chỉ là minh hoa, trong thực
tế hình dạng của các ô tô cụ thể có thể thay đổi
- Ô tô bao gồm cả các loại xe sau:
Ô tô con kiểu Saloon/Sedan
Trang 6Ô tô con kiểu saloon mui gập(Convertible saloon)
Trang 7Ô tô kiểu thể thao ( SUV car )
SUV là viết tắt của Sport Utility Vehicle, nghĩa là xe thể thao đa dụng Dòng xe này được ưa chuộng bởi sự kết hợp giữa khả năng vận hành mạnh
mẽ, khoang nội thất rộng rãi và thiết kế thể thao, năng động
- Định nghĩa
+ Gầm cao: SUV có gầm cao hơn so với xe sedan, hatchback, giúp tăng khả năng off-road và di chuyển trên địa hình gồ ghề
+ Hệ dẫn động: SUV thường được trang bị hệ dẫn động
4 bánh toàn thời gian hoặc bán thời gian, giúp tăng độ bám đường và khả năng off-road
+ Kích thước: SUV có kích thước đa dạng, từ cỡ nhỏ đến cỡ lớn, phù hợp với nhu cầu sử dụng khác nhau
+ Trang bị: SUV thường được trang bị nhiều tiện nghi hiện đại như cửa sổ trời, ghế da, màn hình cảm ứng, hệ thống
âm thanh cao cấp,
Trang 8Ô tô đa dụng ( Crossover car )
Crossover là viết tắt của Crossover Utility Vehicle, nghĩa là xe đa dụng lai Dòng xe này được ưa chuộng bởi sự kết hợp giữa thiết kế năng động, tiện nghi của xe du lịch và khả năng linh hoạt, khoang nội thất rộng rãi của xe SUV
- Định nghĩa
+ Gầm cao: Crossover có gầm cao hơn so với xe sedan, hatchback nhưng thấp hơn so với SUV, giúp tăng khả năng di chuyển trên địa hình gồ ghề nhẹ
+ Hệ dẫn động: Crossover thường được trang bị hệ dẫn động cầu trước hoặc 4 bánh toàn thời gian, tùy thuộc vào phiên bản
+ Kích thước: Crossover có kích thước đa dạng, từ cỡ nhỏ đến cỡ lớn, phù hợp với nhu cầu sử dụng khác nhau.+ Trang bị: Crossover thường được trang bị nhiều tiện nghi hiện đại như cửa sổ trời, ghế da, màn hình cảm ứng, hệ thống âm thanh cao cấp,
Trang 9Ô tô bán tải, hay còn gọi là pickup truck
Là dòng xe lai giữa SUV và xe tải với Cabin kín chở người (2-6 chỗ), thùng hàng phía sau để chở hàng
- Định nghĩa:
+ Khung gầm: Xe bán tải thường sử dụng khung gầm rời, giúp tăng khả năng chịu tải và độ bền bỉ
+ Hệ thống treo: Hệ thống treo sau của xe bán tải thường
sử dụng nhíp lá, giúp tăng khả năng chịu tải
+ Hệ dẫn động: Xe bán tải thường được trang bị hệ dẫn động cầu sau hoặc 4 bánh toàn thời gian, tùy thuộc vào phiên bản
+ Kích thước: Xe bán tải có kích thước đa dạng, từ cỡ nhỏ đến cỡ lớn, phù hợp với nhu cầu sử dụng khác nhau
+ Trang bị: Xe bán tải thường được trang bị nhiều tiện nghi hiện đại như cửa sổ trời, ghế da, màn hình cảm ứng, hệ thống âm thanh cao cấp,
Trang 10Ô tô Hatchback
Hatchback là dòng xe cỡ nhỏ hoặc cỡ trung, có phần đuôi xe không kéo dàinhư Sedan mà được thiết kế tạo thành một cửa mới Xe hatchback có thể cócấu hình 2 cửa hoặc 4 cửa và có hai hàng ghế
+ Cửa sau: Cửa sau mở rộng, giúp việc bốc dỡ hàng hóa
Trang 112 Các nguyên nhân ảnh hưởng đến giá ô tô
Các nguyên nhân chủ yếu liên quan đến biển động giá ô tô là:
- Xuất xứ xe: Mỹ, Nga, Nhật, Châu Âu, lắp ráp trong nước…
- Đẳng cấp xe: Xe hạng sang, xe gia đình
- Tình trạng xe: Mới 100%, second-hand
- Khả năng vận hành: Công suất máy, dung tích xy lanh, momen xoắn, tỷ số truyền…
- Đời xe: Date xuất xưởng của xe
- Dạng nhiên liệu: Xăng, dầu, Hybrid, Điện, Năng lượng mặt trời…
- Chính sách bảo hành: Có tính phí, không tính phí, thời hạn bảo hành phụ tùng…
3 Mô hình đề nghị nghiên cứu
Trang 12III PHÂN TÍCH
1 Xử lý dữ liệu
- Khai báo các thư viện cần dùng
- Đọc file dữ liệu phân tích
- Kiểm tra số dòng và cột hiện tại của Data
- Kiểm tra các thuộc tính có sẵn trong data
Trang 13- Kiểm tra cột có thuộc tính như thế nào thông qua câu lệnh
- Kiểm tra giá trị Null trong data
Trang 14- Như vậy chúng ta thấy bộ data khá đầy đủ và chi tiết chỉ có mỗi fuel_system có 23909 dòng N/A
- Tạo cột engine_size thể hiện kích thước động cơ và điều chỉnh giá tiền thành số
cụ thể
Trang 15- Hàm này nhận một chuỗi đại diện cho một số tiền có đơn vị là tỷ hoặc triệu và chuyển đổi nó thành giá trị số float tương ứng.
- Phân chia xe theo phân khúc thị trường
- Phân khúc giá xe
Trang 16- Loại bỏ các giá trị lỗi trong bảng dữ liệu và các giá trị không ảnh hưởng đáng kể đến quá trình phân tích
- Drop các cột không ảnh hưởng đến quá trình dự đoán
- Kết quả dữ liệu sau khi được clean data
Trang 182 Phân tích dữ liệu
● Qua 4 biểu đồ trên có thể thấy được rằng số lượng xe bán ra có nhiều
yếu tố ảnh hưởng như: tình trạng xe, xuất xứ, hộp số và nhiên liệu
xe sử dụng :
● Cho thấy rằng :
Trang 19○ Số lượng xe lắp ráp trong nước bán nhiều hơn so với xe nhập khẩu
○ Số lượng xe cũ được được bán nhiều hơn so với xe mới
○ Số lượng xe hộp số sàn bán ít hơn hộp số tự động
○ Số lượng xe sử dụng xăng hiện đang được ưa chuộng nhất
Trang 20● Với 3 biểu đồ tròn thì ta có thể biết rằng tiêu chí người dùng có thể
thay đổi dựa vào: hãng xe, màu xe, dòng xe
○ Màu xe được ưa chuộng nhất là màu trắng với tỉ lệ lên đến
35.7%, màu đen chiếm 25.2%,…
○ Dòng xe được ưa chuộng nhất là SUV với hơn 35.1%, bên
Trang 21- Giá xe tập trung ở mức trung là chủ yếu
- Giá xe của từng hãng
Other: thuộc các hãng siêu xe như Ferrari, Lambor, Rolls Royce
Trang 22- Từ những năm 1989-2006 xe ô tô ở những đời này đã trở nên
cũ kĩ và ít được thông dụng nên có số lượng mua không đáng
kể Nhưng đến năm 2015 cho thấy rằng những dòng xe ngày bán được nhiều và thông dụng hơn bởi thiết kế, động cơ ổn định, tiết kiệm nhiên liệu Người dùng có xu hướng chọn những dòng này hơn và đỉnh điểm là năm 2023 với hơn 3693 mẫu xe được mua
- Biểu đồ hiển thị số lượng xe bán theo km
Trang 23- Biểu đồ cho thấy thị trường xe được bán ra trong độ khoảng 100,000
km đổ lại chiếm tỷ phần lớn trong biểu đồ biểu hiện mức độ xanh đậm
- Giá bán theo các năm sản xuất của xe Giá vẫn biểu diễn mạnh
ở tầm mức 5 tỷ đổ lại là nhiều Những mức cao hơn vẫn có nhưng kết quả cho thấy không tập trung nhiều
Trang 243 Xác định yếu tố ảnh hưởng đến giá
● Tính toán tương quan
Sử dụng phương pháp tính tương quan như Pearson correlation coefficient hoặc Spearman correlation coefficient để đo độ tương quan giữa mỗi feature và target
● Chọn ra các feature có hệ số tương quan với target
● Xác định mức độ quan trọng của feature
Trang 254 Mô hình machine learning
● Áp dụng Linear Regression
- Định nghĩa : Hồi quy tuyến tính là một loại thuật toán học máy có
giám sát để tính toán mối quan hệ tuyến tính giữa biến phụ thuộc và một hoặc nhiều tính năng độc lập bằng cách khớp phương trình tuyếntính với dữ liệu được quan sát
- Khi chỉ có một biến phụ thuộc, nó được coi là Hồi quy tuyến tính đơn biến, trong khi khi có nhiều hơn một biến phụ thuộc, nó được gọi
là Hồi quy đa biến
- Mục tiêu : Phương trình của mô hình trả về kết quả giá xe cụ thể
của các hệ số rõ ràng làm sáng tỏ tác động của từng biến độc lập lên biến phụ thuộc, trình bày biểu đồ so sánh giá thực tại và dự đoán
- Kết quả :
● Kiểm tra độ phù hợp của mô hình
● Biểu đồ so sánh kết quả thực tế với dự đoán
Trang 26● Áp dụng Lasso Regression
- Định nghĩa : Hồi quy Lasso là một kỹ thuật chính quy hóa Nó
được sử dụng trên các phương pháp hồi quy để dự đoán kết quả cụ thể Mô hình này sử dụng độ co rút Co rút là nơi các giá trị dữ liệu được thu nhỏ về điểm trung tâm làm giá trị trung bình
- Quy trình Lasso khuyến khích các mô hình đơn giản, thưa thớt (tức là các mô hình có ít tham số hơn)
- Mục tiêu : Phương trình của mô hình trả về kết quả giá xe cụ thể
của các hệ số rõ ràng làm sáng tỏ tác động của từng biến độc lập lên biến phụ thuộc, trình bày biểu đồ so sánh giá thực tại và dự đoán
- Kết quả :
● Kiểm tra độ phù hợp của mô hình
Trang 27● Giá trả về khi là xe đã qua sử dụng hãng Mercedes Benz dòng GLC, hộp số tự động, sử dụng 10,000km động cơ
Trang 28máy xăng dung tích 2.0L, năm sản xuất 2021, màu trắng Và giá trả về là 1733.66 tương đương 1 tỷ 733 triệu VNĐ.
● Như vậy dữ liệu dự đoán với những màu hot, được ưa chuộng thì thường sẽ có giá thành sẽ có sự biến động và cũng như là năm sản xuất, nhiên liệu, dung tích và số km xe đã chạy được
● Giá dự đoán Lasso Regression
- Giá trả về khi là xe đã qua sử dụng hãng Mercedes Benz dòng GLC, hộp số tự động, sử dụng 10,000km động cơ máy xăng dung tích 2.0L, năm sản xuất 2021, màu đen Và giá trả về là 1783.55 tương đương 1 tỷ 783 triệu VNĐ
● Giá trả về khi là xe đã qua sử dụng hãng Mercedes Benz dòng GLC, hộp số tự động, sử dụng 10,000km động cơ máy xăng dung tích 2.0L, năm sản xuất 2021, màu trắng Và giá trả về là 1770.66 tương đương 1 tỷ 770 triệu VNĐ
● Như vậy chúng ta thấy ra kết quả dự đoán có vẻ cao hơn và chưa được chính xác vì đối với những màu chuộng ưu thích thì lại có giá thành rẻ hơn những màu còn lại và giá dự đoán cao hơn mặt bằng chung
● Web dự đoán giá sử dụng Linear Regression
- Giao diện website
Trang 29- Nhập dữ liệu tra cứu
- Giá xe dự đoán màu trắng
Trang 30- Giá xe dự đoán màu đen
- Kết quả so sánh được trả về khi chạy dự đoán 2 mô hình Linear Regression Với những mẫu xe nếu có số km chạy
ít hoặc là màu sắc ưa chuộng thì thường sẽ có giá thành cao hơn so với mặt chung của dòng xe và giá cũng sát với thị trường
IV KẾT LUẬN
Ngành công nghiệp ô tô tại Việt Nam đang phát triển mạnh mẽ với sự
đa dạng về thương hiệu và mẫu mã, chứng kiến mức tăng trưởng ổn địnhtrong nhiều năm qua, đồng thời tạo ra nhiều cơ hội cho các nhà sản xuất vànhà nhập khẩu ô tô Đem lại nhiều lựa chọn cho người tiêu dùng, từ xe hơigiá rẻ đến các dòng xe cao cấp và sang trọng Sự phát triển của thị trường ô
tô cũng góp phần vào tăng trưởng kinh tế tổng thể của đất nước thông quaviệc tạo ra việc làm, thuế và tăng cường hoạt động thương mại
Do sự cạnh tranh giữa các nhà sản xuất và nhập khẩu ô tô, cùng vớicác chính sách ưu đãi từ chính phủ, giá cả của các dòng xe hơi tại Việt Namthường được kiểm soát ổn định và cạnh tranh Giá cả của xe hơi cũng phụ
Trang 31thuộc vào tình trạng cung và cầu trên thị trường Một số dòng xe có nguồncung ít và được ưa chuộng có thể có giá cao hơn do sự khan hiếm.
Chúng em đã đưa ra 2 mô hình Linear Regression và Lasso Regression
để dự đoán giá xe Và cũng đã quyết định chọn ra được mô hình để dự đoán
xe một cách khách quan nhất Đó là mô hình Linear Regression bởi vì khi
so sánh giữa Linear Regression và Lasso Regression R-square LinearRegression đạt 0.83 và Lasso Regression đạt 0.79 Linear Regression caohơn thể hiện sự biến thiên của biến phụ thuộc và phù hợp tốt với dữ liệu.Giá trị MSE, RMSE của mô hình Linear Regression nhỏ hơn LassoRegression cho thấy sự sai lệch giữa dự đoán và giá trị thực tế càng nhỏ, và
mô hình càng tốt