Trang 1 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC TH NG ẮKHOA QU N TR KINH DOANH ẢỊBÁO CÁO CUỐI KÌ MƠN: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ ĐỀ TÀI: NGHIÊN CỨU MƠ H
Lý do ch ọn đề tài
Trong bối cảnh nền kinh tế toàn cầu chịu ảnh hưởng nặng nề từ đại dịch Covid-19, ngành công nghiệp ô tô đang có dấu hiệu phục hồi tích cực Trong quý đầu tiên của năm, nhiều quốc gia đã ghi nhận sự tăng trưởng trong sản xuất và tiêu thụ ô tô, cho thấy tiềm năng phục hồi mạnh mẽ của ngành này.
Năm 2021, thị trường ô tô toàn cầu phục hồi mạnh mẽ sau những ảnh hưởng nặng nề của đại dịch COVID-19 Tại Trung Quốc, doanh số bán xe mới tăng 76% so với ba tháng đầu năm 2020, trong khi thị trường Mỹ ghi nhận mức tăng 11% và khu vực châu Âu tăng 0.9% Sự phát triển mạnh mẽ của ngành công nghiệp ô tô được xem là yếu tố tích cực thúc đẩy sự phát triển của các ngành liên quan, tạo ra việc làm và góp phần vào quá trình công nghiệp hóa, hiện đại hóa đất nước.
Hình 1.1 B ng so sánh doanh s bán xe m i c a m t s khu v c trên th giả ố ớ ủ ộ ố ự ế ới năm 2021 (Nguồn:
Đức được xem là một trong những “cái nôi” của ngành công nghiệp ô tô thế giới, với các thương hiệu hàng đầu như Audi, Mercedes-Benz, BMW, Volkswagen, và Porsche Mặc dù những chiếc xe mới từ các thương hiệu này mang lại chất lượng hoàn hảo, nhưng giá bán và chi phí vận hành cũng rất cao Xét về nhu cầu ô tô cá nhân toàn cầu, cả dòng cao cấp lẫn bình dân đều có sự cạnh tranh mạnh mẽ, đặc biệt là trong bối cảnh thị trường xe ô tô mới và nhu cầu của thị trường ô tô cũ ngày càng gia tăng.
Việc dự đoán giá bán lại xe ô tô cũ trên thị trường là một vấn đề mang tính ứng dụng cao, tạo cơ hội kinh doanh cho cả người mua và người bán Với sự phát triển của công nghệ, việc tạo ra một công cụ dự đoán giá bán lại xe ô tô cũ chính xác và đáng tin cậy là một nhu cầu thiết yếu Việc này không chỉ giúp người mua và người bán có thể xác định giá trị của xe ô tô cũ một cách chính xác mà còn tạo điều kiện cho thị trường xe ô tô cũ phát triển minh bạch và công bằng hơn.
Nhóm quyết định chọn đề tài “Nghiên cứu mô hình dự đoán giá bán lại xe ô tô đã qua sử dụng tại Đức” làm nội dung báo cáo của nhóm.
M c tiêu nghiên c u 5 ụ ứ
Mục tiêu nghiên cứu của chúng tôi là sử dụng dữ liệu thị trường ô tô đã qua sử dụng được thu thập từ trang web thương mại điện tử của Đức, thực hiện ba mô hình bao gồm Hồi quy tuyến tính, Hồi quy cây quyết định tăng cường và Hồi quy rừng ngẫu nhiên, bằng công cụ Azure Machine Learning Studio, nhằm tìm ra mô hình dự đoán tốt nhất cho giá xe đã qua sử dụng.
Từ mục tiêu nghiên cứu đó, nhóm đưa ra được bộ câu h i nghiên cỏ ứu như sau:
❖ Q1: Mức độ tác động của các yế ố đến giá xe đã qua sử ụu t d ng?
❖ Q2: Phương pháp dự báo nào dự báo giá bán xe đã qua sử dụng một cách chính xác nhất?
1.3 Đối tượng, ph m vi nghiên c u ạ ứ
- Đối tượng nghiên c u: T p trung vào các mô hình dứ ậ ự đoán giá xe đã qua sử ụ d ng
Phạm vi nghiên cứu tập trung vào thị trường xe ô tô đã qua sử dụng tại Đức Nguồn dữ liệu được sử dụng để thực hiện nghiên cứu bao gồm 11 câu hỏi, nhằm thu thập thông tin chi tiết về các biến liên quan.
Nghiên cứu này đóng góp đáng kể cho cả người bán và người mua ô tô đã qua sử dụng Đối với người bán, nó giúp họ định giá xe một cách chính xác, phù hợp với chất lượng và dịch vụ, đồng thời cung cấp giải pháp dự báo nội bộ để cạnh tranh hiệu quả hơn Đối với người mua, nghiên cứu giúp họ giảm thiểu rủi ro liên quan đến giá cả và chất lượng, cho phép họ đưa ra quyết định đúng đắn mà không phải lo lắng về việc liệu giá có hợp lý hay không Cuối cùng, bên thứ ba, thường là những công ty tư vấn giá, sẽ sử dụng kết quả nghiên cứu để hỗ trợ người bán trong việc định giá xe, dựa vào nguồn lực và chuyên môn mà họ có.
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Bài báo "Dự đoán giá ô tô đã qua sử dụng bằng mô hình hồi quy" của nhóm tác giả Nitis, Prajak, Thongchai, Suwat, Sabir và Pitchayakit (2018) được công bố tại Hội nghị Quốc tế lần thứ 5 về Nghiên cứu Kinh doanh và Công nghiệp (ICBIR) tại Bangkok, Thái Lan Nhóm đã thu thập dữ liệu từ bộ dữ liệu "Data Used Car" trên Kaggle.com, được tải lên bởi Orges Leka, bao gồm 371.528 mẫu quan sát ô tô đã qua sử dụng và các thuộc tính của chúng từ eBay Kleinanzeigen, một trang thương mại điện tử của Đức.
Trong nghiên cứu này, các tác giả đã tiến hành một nghiên cứu so sánh hiệu suất mô hình bằng phương pháp hồi quy Dữ liệu được thu thập từ trang thương mại điện tử của Đức và được xử lý bằng ngôn ngữ lập trình Python Kết quả cuối cùng cho thấy dữ liệu có 304.133 hàng và đạt được độ chính xác cao.
In a study examining 11 attributes, researchers utilized Multiple Linear Regression, Random Forest Regression, and Gradient Boosted Regression Trees to analyze data Each model was evaluated using the same test dataset, and results were compared based on Mean Absolute Error (MAE) The Gradient Boosted Regression Trees model yielded the best performance with an MAE of 0.28, followed by Random Forest Regression at 0.35 and Multiple Linear Regression at 0.55 Consequently, the study concluded that the Gradient Boosted Regression Trees model is recommended for developing pricing models.
2.2.1 Big Data ng d ng trong kinh doanh ứ ụ
Năm 2005, khái niệm Big Data được giới thiệu như một công nghệ khai thác thông tin quan trọng từ nhiều nguồn khác nhau, sau đó tập hợp để phân tích Định nghĩa Big Data lần đầu tiên được công bố với 3V: Volume (khối lượng), Velocity (nhanh chóng), và Variety (đa dạng) Công nghệ này mang lại hiệu quả vượt trội trong hệ thống doanh nghiệp, nơi khối dữ liệu khổng lồ được ghi lại trong suốt quá trình vận hành với nhiều nguồn khác nhau và được cập nhật nhanh chóng.
Nhiều doanh nghiệp vẫn chưa nhận thức đầy đủ về tầm quan trọng của Big Data trong việc quản lý và phân tích dữ liệu khách hàng Dữ liệu không chỉ đến từ hệ thống ERP mà còn từ các phản hồi, bình luận trên mạng xã hội và khảo sát khách hàng Việc khai thác nguồn dữ liệu này, dù là cấu trúc hay phi cấu trúc, sẽ giúp doanh nghiệp giảm bớt áp lực và cải thiện hiệu quả kinh doanh.
Nhiều doanh nghiệp thiếu chiến lược Big Data rõ ràng thường thu thập thông tin một cách quá mức, hy vọng rằng dữ liệu chi tiết và chính xác sẽ hỗ trợ đội ngũ phân tích trong việc ra quyết định Tuy nhiên, điều này không chỉ tạo áp lực lên hệ thống công nghệ thông tin mà còn không mang lại nhiều giá trị cho các chuyên gia phân tích Do đó, chiến lược xây dựng Big Data cần bắt đầu từ việc xác định những thông tin cần thiết và khả năng tạo ra giá trị trước khi xem xét cách thức và nguồn thu thập dữ liệu.
Các công ty như Netflix và Procter & Gamble đang áp dụng dữ liệu lớn để dự đoán nhu cầu của khách hàng Họ xây dựng các mô hình dự đoán cho sản phẩm và dịch vụ mới bằng cách phân loại các thuộc tính chính của sản phẩm và dịch vụ trong quá khứ, đồng thời mô hình hóa mối quan hệ giữa các thuộc tính đó và thành công thương mại của các dịch vụ Ngoài ra, P&G sử dụng dữ liệu và phân tích từ các nhóm tiêu dùng, phương tiện truyền thông xã hội, thị trường thử nghiệm và triển khai hàng sử dụng để lên kế hoạch, thiết kế sản phẩm và ra mắt sản phẩm mới một cách kịp thời.
Máy học (Machine Learning) đang trở thành một chủ đề quan trọng, đặc biệt là trong bối cảnh Big Data Hiện nay, thay vì lập trình máy móc một cách thủ công, chúng ta sử dụng lượng dữ liệu lớn để đào tạo các mô hình học máy Điều này giúp máy móc có khả năng sàng lọc và học hỏi, từ đó hỗ trợ con người trong việc đưa ra dự đoán và phân loại kết quả một cách chính xác hơn.
Azure Machine Learning là một dịch vụ đám mây mạnh mẽ cho phép người dùng khởi tạo, quản lý và triển khai các mô hình machine learning Dịch vụ này cung cấp nhiều tính năng quan trọng giúp tối ưu hóa quy trình phát triển và ứng dụng machine learning.
• Automated Machine Learning: Tạo nhanh các model t d li u ừ ữ ệ
• Azure Machine Learning Designer: M t n n t ng low-code giúp tr c quan hóa giao ộ ề ả ự diện khi khởi t o model ạ
Cloud storage and data processing provide a convenient and scalable solution for managing data Azure Machine Learning Workspace enables users to store data, create virtual machines, and rent computing power for training machine learning models efficiently.
• Notebook & Pipelines: Nơi mà các Data Scientist, Software Engineers, có thể viết code, train, deploy và quản lý các tasks
AI, Machine Learning và Deep Learning đang phát triển với tốc độ rất nhanh Để xây dựng chương trình sử dụng các framework như TensorFlow, Keras hay PyTorch, người dùng có thể tận dụng bất kỳ IDE Python nào như PyCharm, Jupyter Notebook hay Atom Tuy nhiên, các thuật toán Machine Learning và Deep Learning yêu cầu hệ thống có tốc độ và khả năng xử lý cao, thường dựa trên GPU, trong khi nhiều máy tính cá nhân không được trang bị GPU Để giải quyết vấn đề này, Google đã ra mắt dịch vụ hoàn toàn miễn phí cho cộng đồng nghiên cứu AI, cung cấp GPU và TPU miễn phí thông qua Google Colaboratory (Google Colab).
Google Colab (Colaboratory) là dịch vụ đám mây miễn phí, cung cấp hỗ trợ GPU (Tesla K80) và TPU (TPUv2) Được phát triển dựa trên Jupyter Notebook, việc sử dụng Google Colab tương tự như sử dụng Jupyter Notebook Đây là công cụ lý tưởng giúp người dùng rèn luyện kỹ năng lập trình với ngôn ngữ Python thông qua các thư viện deep learning.
Đóng góp nghiên cứu
Đối với người bán ô tô đã qua sử dụng, việc định giá chính xác hơn sẽ giúp họ xác định giá phù hợp với chất lượng và dịch vụ cung cấp, đồng thời tạo ra giải pháp dự báo nội bộ để cạnh tranh hiệu quả hơn Đối với người mua, việc thiếu giá niêm yết cố định có thể dẫn đến sự hoang mang về chất lượng xe so với giá bán; nghiên cứu này sẽ hỗ trợ họ trong việc tránh rủi ro và đưa ra lựa chọn đúng đắn mà không phải lo lắng về giá Đối với bên thứ ba, họ sẽ cung cấp dịch vụ định giá cho người bán ô tô cũ khi không đủ nguồn lực và chuyên môn, dựa vào kết quả nghiên cứu để đưa ra công cụ định giá hoặc tư vấn giá, tùy thuộc vào mức hoa hồng nhận được.
CƠ SỞ LÝ THUYẾT
Gi i thi u bài báo m u 7 ớ ệ ẫ
Bài báo "Dự đoán giá ô tô đã qua sử dụng bằng Mô hình hồi quy" của nhóm tác giả Nitis, Prajak, Thongchai, Suwat, Sabir và Pitchayakit (2018) được công bố tại Hội nghị Quốc tế lần thứ 5 về Nghiên cứu Kinh doanh và Công nghiệp (ICBIR) tại Bangkok, Thái Lan Nhóm đã thu thập dữ liệu từ bộ dữ liệu "Data Used Car" trên Kaggle.com, được cung cấp bởi Orges Leka, với 371.528 mẫu quan sát ô tô đã qua sử dụng và các thuộc tính của nó từ eBay Kleinanzeigen, một trang thương mại điện tử của Đức.
Trong nghiên cứu này, các tác giả đã thực hiện một nghiên cứu so sánh hiệu suất mô hình bằng phương pháp hồi quy Dữ liệu được sử dụng trong nghiên cứu được thu thập từ trang thương mại điện tử của Đức và được xử lý bằng ngôn ngữ lập trình Python Kết quả cuối cùng là dữ liệu có 304.133 hàng và được phân tích để rút ra những kết luận quan trọng.
In a study evaluating various regression models, including Multiple Linear Regression, Random Forest Regression, and Gradient Boosted Regression Trees, the performance of each model was assessed using the same test data The results were compared based on the Mean Absolute Error (MAE), with Gradient Boosted Regression Trees achieving the highest accuracy at MAE = 0.28 This was followed by Random Forest Regression at 0.35 and Multiple Linear Regression at 0.55 Consequently, the research concluded that Gradient Boosted Regression Trees are the recommended model for pricing development.
M t s ộ ố định nghĩa
2.2.1 Big Data ng d ng trong kinh doanh ứ ụ
Năm 2005, Big Data được giới thiệu như một công nghệ khai thác thông tin quan trọng từ nhiều nguồn khác nhau, sau đó tập hợp để phân tích Khái niệm Big Data được định nghĩa lần đầu tiên với 3V: Volume (khối lượng), Velocity (nhanh chóng), và Variety (đa dạng) Công nghệ này mang lại hiệu quả vượt trội trong các hệ thống doanh nghiệp, nơi mà không có mô hình dữ liệu nào đáp ứng đầy đủ tiêu chí 3V như dữ liệu khổng lồ được ghi lại trong quá trình vận hành Điều này đồng nghĩa với việc có nhiều loại cấu trúc dữ liệu khác nhau và được cập nhật nhanh chóng lên hệ thống.
Nhiều doanh nghiệp vẫn chưa nhận thức được tầm quan trọng của Big Data trong việc quản lý dữ liệu khách hàng Dữ liệu không chỉ đến từ hệ thống ERP mà còn từ các phản hồi, bình luận trên mạng xã hội và khảo sát khách hàng Việc khai thác nguồn dữ liệu, cả cấu trúc lẫn phi cấu trúc, sẽ giúp doanh nghiệp giảm bớt áp lực và tối ưu hóa quy trình làm việc.
Nhiều doanh nghiệp thiếu chiến lược Big Data rõ ràng thường thu thập thông tin một cách mù quáng, dẫn đến áp lực cho hệ thống công nghệ thông tin và không hỗ trợ hiệu quả cho các chuyên gia phân tích Để xây dựng chiến lược Big Data hiệu quả, doanh nghiệp cần xác định những thông tin cần thiết và khả năng tạo ra giá trị trước khi quyết định cách thức và nguồn thu thập dữ liệu.
Các công ty như Netflix và Procter & Gamble sử dụng dữ liệu lớn để dự đoán nhu cầu của khách hàng Họ xây dựng các mô hình dự đoán cho sản phẩm và dịch vụ mới bằng cách phân loại các thuộc tính chính của sản phẩm và dịch vụ trong quá khứ, từ đó mô hình hóa mối quan hệ giữa các thuộc tính đó và thành công thương mại của các dịch vụ Ngoài ra, P&G sử dụng dữ liệu và phân tích từ các nhóm tiêu dùng, phương tiện truyền thông xã hội, thị trường thí nghiệm và triển khai các hàng sử dụng để lên kế hoạch, chế tạo sản phẩm và ra mắt sản phẩm mới một cách hiệu quả.
Máy học (Machine Learning) đang trở thành một chủ đề nóng hiện nay, đặc biệt là với sự phát triển của Big Data Hiện tại, chúng ta có thể sử dụng dữ liệu lớn để đào tạo các mô hình học máy, thay vì lập trình chúng một cách thủ công Dữ liệu lớn giúp các mô hình này có khả năng sàng lọc và học hỏi, từ đó hỗ trợ con người trong việc đưa ra dự đoán và phân loại kết quả một cách chính xác hơn.
Azure Machine Learning là một dịch vụ đám mây mạnh mẽ cho phép người dùng khởi tạo, quản lý và triển khai các mô hình machine learning Dịch vụ này cung cấp nhiều tính năng quan trọng, giúp tối ưu hóa quy trình phát triển và ứng dụng machine learning.
• Automated Machine Learning: Tạo nhanh các model t d li u ừ ữ ệ
• Azure Machine Learning Designer: M t n n t ng low-code giúp tr c quan hóa giao ộ ề ả ự diện khi khởi t o model ạ
Cloud storage and data processing offer a convenient and scalable solution for managing data Azure Machine Learning Workspace enables users to efficiently store data, create virtual machines, and rent computing resources for training models.
• Notebook & Pipelines: Nơi mà các Data Scientist, Software Engineers, có thể viết code, train, deploy và quản lý các tasks
AI, Machine Learning và Deep Learning đang phát triển với tốc độ rất nhanh Để xây dựng một chương trình sử dụng các framework như TensorFlow, Keras hay PyTorch, người dùng có thể sử dụng bất kỳ Python IDE nào như PyCharm, Jupyter Notebook hay Atom Tuy nhiên, do các thuật toán Machine Learning và Deep Learning yêu cầu hệ thống phải có tốc độ và khả năng xử lý cao, thường dựa trên GPU, mà nhiều máy tính cá nhân không được trang bị GPU Vì lý do này, Google đã phát triển dịch vụ Google Colaboratory (Google Colab), cung cấp GPU và TPU miễn phí cho cộng đồng nghiên cứu AI, hỗ trợ việc phát triển các ứng dụng AI và Deep Learning.
Mô hình nghiên c ứu trướ c
Sử dụng Google Colab giống như làm việc với Jupyter Notebook, là một công cụ lý tưởng giúp người dùng rèn luyện kỹ năng lập trình với ngôn ngữ Python thông qua các thư viện deep learning.
Google Colab cung cấp sẵn nhiều thư viện phổ biến cho nghiên cứu Deep Learning như PyTorch, TensorFlow, Keras và OpenCV Nền tảng này cho phép người dùng chạy mã Python trực tiếp qua trình duyệt, rất phù hợp cho phân tích dữ liệu, Machine Learning và giáo dục Colab không yêu cầu cài đặt hay cấu hình máy tính, người dùng có thể dễ dàng truy cập và sử dụng tài nguyên máy tính, bao gồm CPU tốc độ cao, GPUs và TPUs.
2.3 Mô hình nghiên c u ứ trước: Để có thể xác định được một cách chính xác các yếu tố tác động đến giá xe đã qua sử dụng, chúng ta cùng xem qua các bài báo và nghiên cứu đã được phân tích, thi t l p và ế ậ chứng minh trước đó
The article titled "Predicting the Price of Used Cars using Machine Learning Techniques" by S Pudaruth, published in the International Journal of Information & Computation Technology in 2014, explores the prediction of used car prices in Mauritius through various models, including Multiple Linear Regression, K-Nearest Neighbors, Naive Bayes, and Decision Trees Despite the limitations in the effectiveness of these models due to the small dataset of cars and their attributes, Pudaruth concludes that Decision Trees and Naive Bayes are viable methods for establishing price predictions.
Tên bài báo: “Vehicle Price Prediction System using Machine Learning Techniques”, N Kanwal và J Sadaqat, International Jounal of Computer Ap-plications,
N Kanwal và J Sadaqat đã sử dụng Multiple Linear Regression để dự đoán giá xe ô tô H ọ đã thực hi n lệ ựa chọn thay đổ ỹi k thuậ ểt đ tìm các bi n có nh ế ả hưởng nhất sau đó loại b ph n còn l i D li u ch ch a biỏ ầ ạ ữ ệ ỉ ứ ến đã chọn được s dử ụng để tạo thành mô hình h i ồ quy tuy n tính K t quế ế ả ấn tượng v i R-Squared = 98% ớ
2.3.3 Nghiên c u c a S Peerun, NH Chummun và S Pudaruth ứ ủ
The article titled “Predicting the Price of Second-hand Cars using Artificial Neural Networks” by S Peerun, N H Chummun, and S Pudaruth, presented at The Second International Conference on Data Mining, Internet Computing, and Big Data in 2015, explores the application of artificial neural networks to accurately forecast the prices of used vehicles By leveraging advanced data mining techniques, the study demonstrates how machine learning algorithms can analyze various factors influencing car prices, ultimately providing a reliable tool for buyers and sellers in the second-hand car market.
Peerun và cộng sự đã thực hiện một nghiên cứu để đánh giá hiệu suất của mạng nơ-ron trong việc dự đoán giá ô tô đã qua sử dụng Kết quả cho thấy giá dự đoán không gần gũi với giá thực tế, đặc biệt là đối với những chiếc xe có giá cao hơn Họ kết luận rằng thuật toán Support Vector Machine Regression hoạt động tốt hơn so với Neural Network và Linear Regression trong việc dự đoán giá xe cũ.
2.3.4 Nghiên c u c a N.Sun, H Bai, Y Geng và H Shi ứ ủ
The article titled "Price Evaluation Model in Second-Hand Car System Based on BP Neural Network Theory" was presented at the 18th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking, and Parallel/Distributed Computing (SNPD) This research introduces a novel approach to assessing the prices of second-hand cars by utilizing BP neural network theory, highlighting its effectiveness in enhancing accuracy and reliability in price evaluations within the automotive market The findings aim to provide valuable insights for both buyers and sellers, facilitating informed decision-making in the second-hand car industry.
Sun và cộng sự đã đề xuất áp dụng mô hình đánh giá giá ô tô đã qua sử dụng dựa trên thuật toán BP neural network tối ưu hóa Họ giới thiệu phương pháp tối ưu hóa mới mang tên Phương pháp Like Block-Monte Carlo (LB-MCM) để tối ưu hóa các nơ-ron ẩn, với kết quả cho thấy mô hình được tối ưu hóa đạt độ chính xác cao hơn so với mô hình không tối ưu Dựa trên các nghiên cứu trước đó, họ nhận thấy chưa có công ty nào sử dụng kỹ thuật gradient boosting trong việc dự đoán giá xe đã qua sử dụng Do đó, họ quyết định xây dựng một mô hình đánh giá giá ô tô đã qua sử dụng bằng cách sử dụng Gradient Boosted Regression Trees.
CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU Ở chương này, nhóm sẽ mô tả khái quát b d li u bao gộ ữ ệ ồm phương pháp tìm kiếm bộ d liữ ệu, các đặc tính của m i bi n trong b d liỗ ế ộ ữ ệu và các bước x lý bử ộ d liữ ệu trước khi th c hi n phân tích mô hình nghiên c u cự ệ ứ ủa đề tài Đồng thời, nhóm cũng sẽ trình bày về phương pháp nghiên cứu s d ng mô hình hử ụ ồi quy v i 3 thu t toán: Linear Regression, ớ ậBoosted Decision Tree Regression và Random Forest Regression Đối với 2 thuật toán Linear Regression và Boosted Decision Tree Regression, nhóm s th c hi n ch y trên n n ẽ ự ệ ạ ề tảng Azure Machine Learning; v i riêng thu t toán Random Forest Regression thì s ớ ậ ẽ được thực hi n ch y trên n n t ng Google Colaboratory.ệ ạ ề ả
Quy trình nghiên c u 12 ứ
Để xử lý dữ liệu hiệu quả, nhóm đã xây dựng quy trình nghiên cứu chi tiết, nhằm định hướng cho quá trình nghiên cứu Quy trình này giúp giảm thiểu sai sót và những nhầm lẫn không đáng có trong quá trình thực hiện.
Hình 3.1 Quy trình th c hi n nghiên c u ự ệ ứ
Mô t b d li u 13 ả ộ ữ ệ
Trong nghiên cứu này, nhóm đã thu thập dữ liệu từ website www.kaggle.com Tuy nhiên, do bộ dữ liệu gốc được đăng tải bởi Orges Leka đã bị xóa, nhóm chỉ có thể thu thập được bộ dữ liệu đã được chỉnh sửa.
“làm sạch” một phần nhưng vẫn giữ nguyên gần như hầu hết các giá trị có ý nghĩa khác trong b d li u ộ ữ ệ
Bộ dữ liệu nhóm tìm kiếm gồm 312.729 mẫu với 15 biến, chứa các thuộc tính nổi bật của ô tô đã qua sử dụng, được thu thập từ eBay – Kleinanzeigen, một trang thương mại điện tử nổi tiếng của Đức.
Hình 3.2 B d li u g c t Kaggle ộ ữ ệ ố ừ 3.2.2 Định nghĩa thuộc tính các biến
Theo bài báo, các biến như dateCrawled, lastSeen, Postal-Code và dateCreate không ảnh hưởng đến việc dự đoán giá, do đó sẽ bị loại bỏ để cải thiện độ chính xác cho mô hình nghiên cứu Nhóm sẽ sử dụng 11 biến còn lại để thực hiện nghiên cứu Thuộc tính của các biến này sẽ được trình bày chi tiết trong bảng dưới đây.
Bảng 3.1 Mô t thuả ộc tính các bi n dùng trong bài nghiên c u ế ứ
STT Tên bi n ế Ý nghĩa Kiểu d ữ liệu
1 monthOfRegistration Tháng đăng kí mua xe được thể ệ hi n trên giấy t ờ sở h u xe ữ Numeric
2 yearOfRegistration Năm đăng kí mua xe được thể hiện trên gi y t ấ ờ sở h u xe ữ Numeric
3 powerPS Chỉ s mã lố ực (công suất) của xe Numeric
4 kilometer Số kilometer xe đã đi được Numeric
Loại xe g m các giá tr : Sedan, SUV, Xe ô tô con ồ ị (Small car), Bus, Kombi (mini bus), Xe mui tr n ầ (Convertible), Xe thể thao (Coupe) và Khác
6 gearbox Hộp s xe g m 2 giá tr : S sàn (Manual) và s ố ồ ị ố ố tự động (Automatic) Categorical
7 brand Hãng xe gồm 39 giá tr khác nhau ị Categorical
8 model Tên dòng xe gồm 251 dòng xe khác nhau Categorical
Các loại nhiên liệu xe sử dụng phổ biến hiện nay bao gồm: Xăng (Benzin), Dầu (Diesel), Điện (Electronic), Khí nén thiên nhiên (CNG), Khí dầu mỏ hóa lỏng (LPG), Động cơ lai điện (Hybrid) và các loại khác (Other).
10 notRepairedDamage Tình trạng xe đã qua hư hỏng sửa chữa chưa, gồm 2 giá tr : Yes và No ị Categorical
11 price (bi n ph ế ụ thuộc) Giá bán lại xe Numeric
X lý d li u 15 ử ữ ệ
Sau khi chọn ra các biến cần thiết cho đề tài, nhóm tiếp tục sử dụng phần mềm Microsoft Excel để xử lý bộ dữ liệu của bài nghiên cứu Các bước thực hiện bao gồm việc thu thập, phân tích và trình bày dữ liệu một cách rõ ràng và hiệu quả.
Để tiến hành phân tích dữ liệu, nhóm đã chuyển đổi ngôn ngữ từ tiếng Đức sang tiếng Anh cho các giá trị của biến Việc này giúp thu thập và xử lý thông tin một cách hiệu quả hơn trong quá trình phân tích.
Bước 2: Nhóm tiếp tục làm sạch dữ liệu bằng cách lọc và loại bỏ những bản ghi có giá trị trống trong bộ dữ liệu Việc này giúp giảm thiểu thông tin không cần thiết khi thực hiện phương pháp dự đoán, từ đó tăng độ chính xác cho việc phân tích.
Bước 3: Đối với biến “monthOfRegistration”, nhóm nhận thấy có giá trị bằng “0” cho biến này, do đó nhóm đã loại bỏ biến này vì đây là giá trị không hợp lý cho biến thể hiện tháng đăng ký xe.
Sau khi hoàn thành các bước xử lý dữ liệu, bộ dữ liệu đã được thực hiện với 242.230 mẫu tương ứng với 11 biến và không còn chứa các giá trị trống.
Hình 3.3 B d liộ ữ ệu đã qua xử lý
Phương pháp nghiên cứu 16 1 Thu t toán Linear Regression 16ậ 2 Thu t toán Boosted Decision Tree Regression 16ậ
Trong phương pháp học máy có giám sát, mô hình hồi quy được chứng minh là hiệu quả trong việc dự đoán các biến liên tục Nhóm nghiên cứu đã áp dụng ba thuật toán để dự đoán giá xe ô tô đã qua sử dụng, bao gồm Linear Regression, Boosted Decision Tree Regression và Random Forest Regression Linear Regression và Boosted Decision Tree Regression có sẵn trên nền tảng Azure Machine Learning, trong khi Random Forest Regression được phân tích riêng trên Google Colaboratory.
Hồi quy tuyến tính (Linear Regression) là một trong những thuật toán cơ bản nhất trong Machine Learning, giúp đưa ra dự đoán dựa trên giá trị đầu vào Thuật toán này phân tích mối quan hệ giữa các giá trị đầu vào và đầu ra đã được nhập vào trước đó Trong mô hình nghiên cứu, khi có nhiều biến độc lập, công thức tổng quát của hồi quy tuyến tính được sử dụng, trong đó Y là biến phụ thuộc, còn Xi…Xn là các biến độc lập, và β là các hằng số thể hiện mối quan hệ giữa các biến độc lập và biến phụ thuộc.
Thuật toán Hồi quy tuyến tính có nhiều hạn chế khi áp dụng cho các mô hình nghiên cứu phức tạp Do tính chất đơn giản của nó, thuật toán này thường gặp khó khăn trong việc xử lý các mối quan hệ phi tuyến và không thể nắm bắt được độ nhiễu thông tin, dẫn đến kết quả dự đoán có độ chính xác không cao.
3.4.2 Thu t toán Boosted Decision Tree Regression ậ
Cây quyết định là một thuật toán phân lớp dạng cây phân cấp, được sử dụng để phân loại các đối tượng vào các danh mục đã được xác định Thuật toán này có thể áp dụng cho cả mô hình phân loại (Classification) và hồi quy (Regression) Cây quyết định được cải tiến qua phương pháp Boosted Decision Tree, giúp nâng cao độ chính xác trong dự đoán.
Phương pháp hồi quy là một cách để cải thiện thuật toán Decision Tree Trong Azure Machine Learning, cây quyết định tăng cường sử dụng thuật toán MART để xây dựng nhiều cây hồi quy theo từng bước Thuật toán này áp dụng hàm mất mát đã được xác định để đo lường lỗi tại mỗi bước và điều chỉnh lỗi trong lần tiếp theo Cuối cùng, thuật toán sẽ chọn cây có kết quả dự đoán tối ưu nhất, từ đó cung cấp kết quả dự đoán với độ chính xác cao nhất Do đó, kết quả dự đoán cuối cùng là mô hình tổng hợp từ các kết quả dự đoán yếu hơn trước đó.
3.4.3 Thu t toán Random Forest Regression ậ
Giống như cây quyết định, Random Forest là thuật toán có thể áp dụng cho cả phân loại và hồi quy Đây là một trong những thuật toán phổ biến, sử dụng nhiều trong học máy Random Forest kết hợp nhiều cây quyết định thông qua phương pháp bagging, trong đó các mẫu dữ liệu được chọn ngẫu nhiên từ các cây quyết định và kết quả cuối cùng được xác định dựa trên sự lựa chọn tối ưu nhất Trong nghiên cứu này, nhóm đã triển khai thuật toán Random Forest Regression để dự đoán giá xe ô tô đã qua sử dụng trên nền tảng Google Colaboratory.
KẾT QUẢ NGHIÊN CỨU
Các tiêu chí đánh giá mô hình
Dựa trên bài báo mẫu và kết quả đánh giá sau khi chạy mô hình trên hai nền tảng Azure Machine Learning và Google Colaboratory, nhóm nghiên cứu đã chọn ra hai tiêu chí đánh giá mô hình Cụ thể, bài báo đã đánh giá ba mô hình: Multiple Linear Regression, Gradient Boosted Regression Trees và Random Forest bằng chỉ số MAE (Mean Absolute Error) Ngoài ra, nhóm cũng muốn bổ sung tiêu chí đánh giá khác để xem xét sự phù hợp của ba mô hình với bộ dữ liệu, đó là hệ số R^2 (R-Square).
MAE (Mean Absolute Error) hay sai số trung bình tuyệt đối là một trong những chỉ số đo lường đơn giản nhất trong hồi quy MAE xác định độ lớn trung bình của các lỗi trong một tập hợp dự đoán mà không xem xét hướng của chúng Giá trị này được tính bằng cách lấy trung bình của các sai số tuyệt đối giữa dữ liệu dự đoán và giá trị thực tế, với tất cả các sai số riêng lẻ có trọng số bằng nhau.
Giá trị dự đoán y_i và giá trị thực x_i là hai yếu tố quan trọng trong việc tính toán MAE MAE đo lường độ lệch trung bình của các dự đoán, vì vậy nếu giá trị MAE của mô hình càng gần bằng 0, điều đó cho thấy mô hình dự đoán càng chính xác.
R bình phương (R2) là một chỉ số thống kê đo lường tỷ lệ phương sai của biến phụ thuộc có thể được giải thích bởi biến độc lập trong mô hình hồi quy Nó thể hiện mức độ phù hợp của mô hình, cho thấy khả năng dự đoán của mô hình R bình phương càng cao, mô hình càng phù hợp với dữ liệu.
Trong phân tích hồi quy, 𝑆𝑆 𝑟𝑒𝑠 (Residual Sum of Squares) đại diện cho tổng các độ lệch bình phương của phần biến thiên không được giải thích, trong khi 𝑆𝑆𝑡𝑜𝑡 (Total Sum of Squares) là tổng các độ lệch bình phương toàn bộ Giá trị 𝑅² dao động từ 0 đến 1, với giá trị càng gần 1 thì mô hình càng phù hợp với dữ liệu.
19 liệu dùng để chạy hồi quy và ngược lại, 𝑅 2 càng gần 0 thì mô hình đã xây dựng càng kém phù h p v i b d li u ợ ớ ộ ữ ệ
K t qu nghiên c u c a các mô hình 19 ế ả ứ ủ
Để xây dựng mô hình dự đoán giá xe ô tô cũ, nhóm nghiên cứu sử dụng hai thuật toán Linear Regression và Boosted Decision Tree Regression trên nền tảng Azure Machine Learning Đầu tiên, họ truy cập vào trang web https://studio.azureml.net/, đăng nhập và tải tập dữ liệu “Data-Used-Car-Price.csv” lên studio Sau đó, nhóm chọn New -> Blank Experiment để bắt đầu xây dựng mô hình học máy Tiếp theo, họ vào mục “Saved Datasets” – “My Datasets”, chọn file dữ liệu đã tải lên và kéo thả vào khung làm việc Để đảm bảo dữ liệu phù hợp với yêu cầu của máy, nhóm đã thực hiện các bước thay đổi định nghĩa dữ liệu, giúp quá trình đào tạo máy đạt được kết quả chính xác hơn.
Để chuyển đổi kiểu dữ liệu từ "String" sang "Categorical", bạn cần vào mục "Edit Metadata", chọn "Launch Column" trong thanh công cụ bên phải, sau đó chọn các biến có định dạng ban đầu là "String" và chuyển đổi chúng thành "Make Categorical" tại mục tùy chọn "Categorical".
Nhóm đã bắt đầu xây dựng mô hình trên Azure với dữ liệu sau khi đã được làm sạch, tổng cộng có 242,230 mẫu với 11 biến Trước khi phân tích dữ liệu và xây dựng mô hình hồi quy, nhóm sẽ thực hiện thống kê mô tả dữ liệu qua lệnh “Summarize Data” ngay sau khi kéo thả dữ liệu Bảng 2 và 3 dưới đây sẽ trình bày mô tả cho các biến số (Numeric) và biến phân loại (Categorical).
Bảng 4.1 Th ng kê mô t bi n d ng Numerical ố ả ế ạ
Attributes Mean Std Min Max monthOfRegistration 6.366969 3.35E+00 1 12 yearOfRegistration 2003.589935 6.39E+00 1910 2016 powerPS 129.674528 6.22E+01 1 999 kilometer 123466.044668 3.99E+04 5000 150,000 price 6879.528898 8.08E+03 1 99,999
Bảng 4.2 Th ng kê mô t bi n d ng categorical ố ả ế ạ
Attributes Count Unique Top Freq vehicleType 242,230 8 Sedan 71.456 gearbox 242,230 2 Manual 184.845 brand 242,230 39 Volkswagen 50.441 model 242,230 251 golf 19.618 fuelType 242,230 7 Benzin 155.171 notReparedDamage 242,230 2 No 219.317
Sau khi thống kê mô tả dữ liệu, nhóm sẽ tiến hành xây dựng mô hình thu thập toán Đầu tiên, nhóm thêm ô lệnh “Filter Based Feature Selection” để máy tìm ra những biến độc lập có tác động lớn nhất đến biến phụ thuộc Nhóm chọn biến “price” làm biến phụ thuộc để dự đoán Kết quả từ bước này cho thấy 5 biến có hệ số tương quan cao nhất với biến “price”.
Bảng 4.1: Mô tả 5 biến có hệ số tương quan cao nhất so với biến phụ thuộc powerPS model kilometer yearOfRegistration brand
Nhóm sẽ tiến hành tách dữ liệu thành hai phần: 67% cho việc đào tạo mô hình (Train Model) và 33% cho việc kiểm tra mô hình (Score Model) Dữ liệu đào tạo sẽ được sử dụng để tối ưu hóa mô hình dự đoán, trong khi dữ liệu thử nghiệm sẽ giúp đánh giá hiệu suất của mô hình Sau khi hoàn tất việc tách dữ liệu, bước tiếp theo là bắt đầu chọn thuật toán để chạy máy Nhóm sẽ thêm lệnh "Train Model" cùng với thuật toán phù hợp để tiến hành quá trình này.
2 thuật toán đã có sẵn trong Azure là Linear “ Regression” và “Boosted Decision Tree Regression” Ở ô lệnh “Train Model”, chọn biến độ ập “price” c l
Cuối cùng, chúng ta sẽ thực hiện hai bước quan trọng: "Score Model" để máy tính đưa ra các dự đoán sau khi đã huấn luyện mô hình, và "Evaluate Model" để đánh giá độ chính xác của kết quả từ bước "Score Model" Chi tiết về mô hình và kết quả đánh giá của từng mô hình sẽ được trình bày cụ thể ở phần dưới đây.
Hình 4.1: Xây d ng mô hình d ự ự đoán bằng thu t toán Linear Regression ậ
Sau khi hoàn tất việc xây dựng mô hình, nhóm sẽ đánh giá độ chính xác của mô hình dự đoán bằng cách chọn “Visualize” trong ô lệnh “Evaluate Model” Kết quả đánh giá sẽ được thể hiện trong bảng hiển thị.
Bảng 4.2: Kết quả đánh giá mô hình Linear Regression
Hình 4.2: Mô hình Linear Regression sau khi tri n khai Web Service ể
4.2.2 Mô hình Boosted Decision Tree Regression
Hình 4.3: Xây d ng mô hình d ự ự đoán bằng thu t toán Boosted Decision Tree Regression ậ
Tương tự, sau khi hoàn t t ch y mô hình, k t qu ấ ạ ế ả đánh giá mô hình Boosted Boosted Decision Tree Regression được “Visualize” như bảng sau:
Bảng 4.3: Kết quả đánh giá mô hình Boosted Decision Tree Regression
Hình 4.4: Mô hình Boosted Decision Tree sau khi tri n khai Web Service ể
4.2.3 Mô hình Random Forest Regression
Hiện tại, trên Azure Machine Learning, thuật toán Random Forest Regression chưa có sẵn, yêu cầu người dùng tự tạo mô hình bằng ngôn ngữ lập trình R hoặc Python Sau quá trình nghiên cứu và thử nghiệm, nhóm đã gặp phải một số khó khăn ngoài khả năng khắc phục của mình Do đó, nhóm đã quyết định xây dựng mô hình Random Forest Regression bằng Python trên Google Colaboratory Các bước thực hiện sẽ được trình bày cụ thể trong bài viết này.
Hình 4.7: Th ng kê mô t d li u ố ả ữ ệ
Hình 4.8: Mã hóa các bi n ế
Hình 4.9: Bi u di n b d liể ễ ộ ữ ệu sau khi đã mã hóa
Hình 4.10: Ch n các c t d liọ ộ ữ ệu để train model và Tách d li u ữ ệ
Hình 4.11: Xây d ng model b ng thu t toán Randon Forest Regression ự ằ ậ
Hình 4.12: Đánh giá mô hình Random Forest Regression
Bảng 4.4: Kết quả đánh giá mô hình Random Forest Regression
Root Mean Squared Error (RMSE)
So sánh k t qu nghiên c u c a các mô hình 27 ế ả ứ ủ CHƯƠNG 5: KẾT LUẬN
Mục tiêu của bài nghiên cứu là xác định mô hình dự đoán có độ chính xác cao nhất cho giá xe đã qua sử dụng Để đạt được điều này, cần so sánh các giá trị đo lường của ba mô hình đã được thử nghiệm, nhằm lựa chọn mô hình có thuật toán tối ưu nhất, như thể hiện trong bảng dưới đây.
Tiêu chí đánh giá Mean Absolute
Hình 4.13: Bảng so sánh ba mô hình theo các tiêu chí đánh giá
Theo bài báo, nhóm nghiên cứu sử dụng MAE làm thước đo độ chính xác của mô hình, với giá trị MAE càng gần 0 thì mô hình dự đoán càng tốt Bảng 4.13 cho thấy mô hình dự đoán sử dụng thuật toán Random Forest Regression đạt giá trị MAE thấp nhất.
Mô hình có độ chính xác cao nhất là 198.423343, đại diện cho độ ớ l n trung bình c a l i nh nh t Tiếp theo, mô hình Boosted Decision Tree Regression đạt độ chính xác thứ hai với MAE = 1365.170413 Cuối cùng, mô hình sử dụng thuật toán Linear Regression có độ chính xác thấp nhất, với giá trị MAE = 2571.198278, cao nhất trong ba mô hình.
Nhóm nghiên cứu đã sử dụng hệ số R² để đánh giá độ phù hợp của mô hình dự đoán với bộ dữ liệu Kết quả cho thấy, mô hình Random Forest Regression đạt độ phù hợp cao nhất với 91,5%, tiếp theo là Boosted Decision Tree Regression với 89,7%, và cuối cùng là Linear Regression với độ phù hợp thấp nhất là 72,6%.
Based on the results obtained, the data validation team conducted model testing using the highly accurate Random Forest Regression model on Google Colab, as well as the Boosted Decision Tree Regression model on Azure Machine Learning This approach allows for a comparative analysis of the performance differences between these two machine learning platforms.
Trong bước Test Model cho mô hình Random Forest Regression trên Google Colab, nhóm sẽ nhập dữ liệu đầu vào từ dataset đã có sẵn để so sánh sự chênh lệch giữa giá trị dự đoán và giá trị thực Kết quả cho thấy sự chênh lệch này là rất thấp, cho thấy độ chính xác của mô hình khá cao.
Trong lần kiểm tra tiếp theo, nhóm sẽ thay đổi giá trị biến “powerPS” và “kilometer” để xem kết quả dự báo có thay đổi hay không Như đã được trình bày trước đó, đây là hai biến có ảnh hưởng lớn nhất đến biến phụ thuộc “price” Kết quả cho thấy, sau khi tăng giá trị của biến, những thay đổi trong dự báo giá cũng diễn ra rõ rệt.
Công suất của xe đã được nâng lên 380 mã lực, trong khi số kilomet đã chạy giảm xuống còn 10,000 km, cho thấy xe có hiệu suất cao hơn và tình trạng sử dụng tốt Điều này dẫn đến việc giá xe tăng lên như mong đợi.
Hình 4.15: K t qu Test Model c a Random Forest (2) ế ả ủ
With Azure Machine Learning, the team evaluates the predictive performance of the Boosted Decision Tree Regression model by deploying a Web Service after completing the model run, as described in section 4.2.2 The interface will then transition to the Web Services screen, where users can select the Request - Test Preview option and input random test data to assess the model's results.
Hình 4.16: Giao di n Web Services ệ
Hình 4.17: K t qu Test Model c a Boosted Decision Tree Regression (1) ế ả ủ
Tương tự như ở mô hình trước, trong lần kiểm tra thứ hai, nhóm sẽ thay đổi dữ liệu đầu vào của các biến có tác động mạnh nhất đến biến phụ thuộc Cụ thể, nhóm sẽ thực hiện các điều chỉnh để đánh giá ảnh hưởng của những biến này.
Năm đăng ký là 2018; công suất đạt 200 mã lực; mẫu xe được chuyển thành dòng xe cao cấp nhất của Mercedes, là S-Class; và cuối cùng, số km đã đi chỉ còn 1000 Kết quả mong muốn là giá xe sẽ cao hơn so với kết quả trước đó, và mô hình đã đưa ra giá trị dự đoán đúng như kỳ vọng của nhóm.
Hình 4.18: K t qu Test Model c a Boosted Decision Tree Regression (2)ế ả ủ
Tóm t t k t qu nghiên c u 31 ắ ế ả ứ
Nhóm tác giả đã thực hiện một nghiên cứu so sánh hiệu suất của các mô hình hồi quy trong việc dự đoán giá xe ô tô cũ Dữ liệu được thu thập từ Kaggle.com và đã được xử lý để loại bỏ những dữ liệu trống và không có nghĩa, tạo ra bộ dữ liệu cuối cùng với 242,230 hàng và 11 thuộc tính Nhóm đã xây dựng và kiểm tra các mô hình dự đoán bằng cách sử dụng ba thuật toán: Linear Regression, Random Forest Regression và Boosted Decision Tree Regression trên cùng một bộ dữ liệu Tất cả các mô hình đều được đánh giá với độ lớn của dữ liệu thử nghiệm là 0.33 và so sánh bằng tiêu chí Mean Absolute Error (MAE) Kết quả cho thấy mô hình Random Forest Regression đạt hiệu suất cao nhất với MAE = 198.423343, tiếp theo là Boosted Decision Tree với MAE = 1365.170413 và Linear Regression với MAE thấp nhất là 2571.198278 Do đó, nhóm kết luận rằng thuật toán Random Forest Regression được khuyến nghị để phát triển mô hình dự đoán giá xe ô tô đã qua sử dụng.
Nhóm nghiên cứu đã trả lời câu hỏi về tác động của các yếu tố đến giá xe ô tô đã qua sử dụng Kết quả cho thấy các biến như "powerPS" (công suất động cơ), "model" (dòng xe), và "kilometer" (số ki-lô-mét đã chạy) có ảnh hưởng đáng kể đến giá trị của xe.
"Năm đăng ký xe" là yếu tố quan trọng nhất ảnh hưởng đến giá dự đoán của ô tô Điều này giúp doanh nghiệp và khách hàng trong việc giao dịch mua bán xe ô tô đã qua sử dụng, từ đó xác định thông tin cần thiết để chọn lựa loại xe với mức giá phù hợp.
Ý nghĩa nghiên cứu và hạn chế của đề tài
Nhóm nghiên cứu đã đạt được mục tiêu xác định các yếu tố ảnh hưởng đến giá bán lại xe ô tô cũ tại Đức, đồng thời phát triển mô hình dự đoán có độ chính xác cao nhất Công cụ dự đoán giá bán lại xe ô tô cũ được xây dựng có ý nghĩa thực tiễn quan trọng, giúp người tiêu dùng và nhà kinh doanh đưa ra quyết định thông minh hơn.
Đối với doanh nghiệp, việc trang bị công cụ dự đoán giá xe giúp ước tính giá bán trung bình trên thị trường, từ đó xác định mức giá bán hợp lý, tối ưu hóa chi phí và doanh thu hiệu quả.
Giá dự đoán giúp người mua đưa ra quyết định mua sắm thông minh hơn, tìm kiếm sản phẩm phù hợp với khả năng chi trả Điều này giảm thiểu tình trạng người mua không có nhiều kinh nghiệm phải trả giá cao hơn giá trị thực của sản phẩm.
Bên thứ ba là đơn vị được người bán thuê để định giá ô tô cũ khi họ thiếu nguồn lực, công nghệ và chuyên môn Đơn vị này dựa vào kết quả nghiên cứu và cung cấp thông tin cần thiết cho người bán, giúp họ sử dụng công cụ định giá ô tô cũ một cách hiệu quả Ngoài ra, bên thứ ba cũng có thể là công ty tư vấn giá cho người bán, tùy thuộc vào chi phí hoa hồng mà họ nhận được.
5.2.2 H n ch cạ ế ủa đề tài Đầu tiên, do mô hình nghiên cứu khá phức tạp nên đòi hỏ ần phải có mi c ức độ am hiểu nhất định v ki n thề ế ức cũng như kỹ thu t khi th c hi n nghiên c u Tuy nhiên do th i ậ ự ệ ứ ờ gian th c hiự ện đề tài và ki n th c c a nhóm còn h n ch nên v n còn nh ng thi u sót trong ế ứ ủ ạ ế ẫ ữ ế quá trình báo cáo C th là ụ ể ở bước x lý d li u, theo bài báo m u, tác giử ữ ệ ẫ ả đã thực hi n ệ chuyển đổi dữ liệu ở biến phụ thuộc “price” bằng kỹ thuật Log transform nhưng do khi nhóm th c hi n Log transform trên Azure thì l i nh ự ệ ạ ả hưởng đến k t qu web test service ế ả cuối cùng Do đó, nhóm đã quyết định không th c hiự ện bước này dẫn đến có s chênh l ch ự ệ về k t qu nghiên c u so v i bài báo m u ế ả ứ ớ ẫ
Nhóm nghiên cứu vẫn chưa đủ năng lực để khai thác thêm những thuật toán khác trong mô hình, mặc dù đã thực hiện ba thuật toán của bài báo.
Kết quả nghiên cứu từ 33 hồi quy hiện chưa đủ khái quát và cần thêm thời gian để thực hiện nghiên cứu sâu hơn Nhóm nghiên cứu cần áp dụng các thuật toán khác nhau để đưa ra kết quả so sánh tổng quát và chính xác hơn.
Do thuật toán Random Forest Regression không có sẵn trên Azure Machine Learning, nhóm phải thực hiện chạy riêng thuật toán này trên Google Colaboratory Điều này gây khó khăn cho việc so sánh trực tiếp mô hình của ba thuật toán do khác nền tảng, dẫn đến kết quả nghiên cứu của nhóm vẫn chưa được thật sự khách quan.
Dữ liệu mà nhóm thu thập được chủ yếu từ nền tảng thương mại điện tử eBay Kleinanzeigen ở Đức, không phản ánh đầy đủ toàn bộ thị trường mua bán xe ô tô đã qua sử dụng tại Đức và các quốc gia khác trên thế giới Điều này ảnh hưởng đến tính ứng dụng rộng rãi của kết quả nghiên cứu, vì mỗi thị trường và quốc gia đều có những đặc điểm riêng biệt.
Hàm ý qu n tr 33 ả ị
5.3.1 Xây d ng ng d ng phự ứ ụ ục vụ cho vi c d ệ ự đoán giá bán lại xe cũ trên thị trường
Nhu cầu mua lại xe cũ ngày càng tăng, dẫn đến nhu cầu tìm kiếm các công cụ hỗ trợ dự đoán giá bán hợp lý cũng gia tăng Điều này cho thấy tính ứng dụng cao cho đề tài nghiên cứu của nhóm Nhóm đề xuất xây dựng một hệ thống dự đoán giá bán lại xe cũ cho các doanh nghiệp mua bán ô tô đã qua sử dụng hoặc cho các bên định giá thứ ba, giúp họ ước tính giá bán của mình Hệ thống này sẽ hỗ trợ các doanh nghiệp nắm bắt giá bán trung bình trên thị trường và đưa ra các chiến lược định giá hợp lý Với mức giá bán phù hợp, các doanh nghiệp sẽ thu hút được nhiều khách hàng hơn, từ đó tăng doanh thu cho doanh nghiệp.
5.3.2 Đề xuất hướng nghiên cứu tiếp theo
Bài nghiên cứu này tập trung vào tập dữ liệu tại Đức, nhằm áp dụng trong các tình huống cụ thể Các nghiên cứu tiếp theo có thể mở rộng phạm vi ra các quốc gia châu Âu có đặc điểm tương đồng, từ đó nâng cao tính khách quan của kết quả và khả năng ứng dụng rộng rãi hơn.
Nghiên cứu có thể mở rộng đối tượng sang nhiều loại xe khác nhau, bao gồm xe cỡ lớn như xe tải và bán tải Bên cạnh đó, việc mở rộng các biến thuộc tính của xe sẽ giúp nâng cao tính khách quan và độ chính xác của kết quả nghiên cứu.
1 Nitis, Prajak, Thongchai, Suwat, Sabir, & Pitchayakit, “Prediction of Prices for Used Car by Using Regression Models”, 2018 5th International Conference on Business and Industrial Research (ICBIR), Bangkok, Thailand, 2018
2 S Pudaruth, “Predicting the Price of Used Cars using Machine Learning Techniques,” International Journal of Information & Computation Technology, vol 4, no 7, pp 753 764, 2014 –
3 N Kanwal and J Sadaqat, “Vehicle Price Prediction System using Machine Learning Techniques,” International Jounal of Computer Ap-plications, vol 167, no 9, pp 27 31, 2017 –
4 S Peerun, N H Chummun, and S Pudaruth, “Predicting the Price of Second- hand Cars using Artificial Neural Networks,” The Second International Conference on Data Mining, Internet Computing, and Big Data, no August, pp 17–21, 2015
5 N.Sun, H Bai, Y Geng, and H Shi, “Price evaluation model in second-hand car system based on BP neural network theory,” in 2017 18th IEEE/ACIS
International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD), jun 2017, pp 431–436
6 Microsoft, “A-Z list of Machine Learning Studio (classic) modules”, 2019, https://docs.microsoft.com/en-us/azure/machine-learning/studio-module- reference/a-z-module-list
7 Microsoft, “Boosted Decision Tree Regression Module”, 2020, https://docs.microsoft.com/en-us/azure/machine-learning/algorithm-module- reference/boosted-decision-tree-regression
8 Jason Fernando, Investopedia, “R-Squared”, 2021, https://www.investopedia.com/terms/r/r-squared.asp