Qua việc sử dụng cácphần mềm như Azure Machine Learning và Google Colaboratory, nhóm đã tinh chỉnh vàhuấn luyện các mô hình này một cách hiệu quả.Kết quả nghiên cứu đã xác định được các
Trang 1TRƯỜNG ĐẠI HỌC VĂN LANG KHOA QUẢN TRỊ KINH DOANH
BÁO CÁO CUỐI KÌ
TÊN ĐỀ TÀI:
Trang 2NHẬN XÉT CỦA GIẢNG VIÊN
Trang 3LỜI CẢM ƠN
Lời đầu tiên nhóm xin gửi lời cảm ơn chân thành và sâu sắc tới các Cô Bùi Tuyết Anhkhoa Quản trị kinh doanh trường Đại học Văn Lang đã tạo điều kiện cho chúng em có cơ hộiđược học tập môn Phân Tích Kinh Doanh, và đã tận tình giảng dạy, dành thời gian, công sức
và tâm huyết để giảng dạy và hướng dẫn nhóm thực hiện nghiên cứu này Nhờ sự hướng dẫntận tình của cô, nhóm đã có cơ hội được tiếp cận với những kiến thức cũng như những kỹnăng cần thiết để áp dụng phân tích dữ liệu vào thực tế
Môn Phân Tích Kinh Doanh là một môn học có tính ứng dụng thực tế cao, nhưng cũngđòi hỏi nhiều kiến thức và kỹ năng, đặc biệt là khả năng suy nghĩ, phân tích logic và tự nghiêncứu Tuy nhiên, nhóm chúng em nhận thấy đây là một môn học vô cùng bổ ích và thực tế, bởi
nó giúp chúng em mở rộng tư duy, định hướng các phương pháp làm việc và nghiên cứu mớitrong tương lai, bắt kịp xu hướng thay đổi nhanh chóng của thế giới Trong quá trình thựchiện bài báo cáo, nhóm chúng em đã cố gắng hết sức để thu thập và phân tích dữ liệu mộtcách chính xác và khách quan Tuy nhiên, do giới hạn về thời gian và nguồn lực, bài báo cáocủa chúng em vẫn còn một số thiếu sót Vì vậy, nhóm chúng em rất mong nhận được sự góp ý
và đánh giá chân thành của cô để bài nghiên cứu được hoàn thiện hơn, có giá trị về mặt lýluận và thực tiễn, cũng như là nguồn tham khảo bổ ích cho nhóm trong tương lai Nhómchúng em xin chân thành cảm ơn các cô đã dành thời gian và công sức để giảng dạy và hướngdẫn nhóm Chúng em sẽ tiếp tục cố gắng học tập và nghiên cứu, để có thể ứng dụng nhữngkiến thức đã học vào thực tế, góp phần phát triển kinh tế - xã hội
Chúng em xin chân thành cảm ơn!
Trang 4BẢNG PHÂN CÔNG CÔNG VIỆC
Mức độ hoàn thành
1 Hoàng Thuỵ Vy 2173401011172
Tìm hiểu bài toán dự đoán giá
xe ô tô, tìm hiểu các mô hìnhMachine Learning
6 Phạm Thị Thảo 2173401011147 Viết báo cáo, nhật xét và đánh
giá mô hình, từ đó tổng kết lại 100%
Trang 5DANH MỤC HÌNH ẢNH
Trang 6DANH MỤC BẢNG BIỂU
Trang 7MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU
1.1 Giới thiệu đề tài
1.2 Mục tiêu nghiên cứu
1.3 Phạm vi nghiên cứu
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Đôi nét về machine learning
2.2 Workflow trong Machine Learning
2.3 Giới thiệu phương pháp hồi quy trong Machine Learning
2.4 Giới thiệu một số thuật toán tối ưu hóa
CHƯƠNG 3: MÔ TẢ DỮ LIỆU
3.1 Mô tả dữ liệu
3.2 Đặc điểm và nội dung của bộ dữ liệu
3.3 Trực quan hóa dữ liệu
CHƯƠNG 4: PHÂN TÍCH DỮ LIỆU
4.1 Linear Regression
4.2 Gradient Boosting Regression
4.3 Đánh giá mô hình
CHƯƠNG 5: THẢO LUẬN VÀ KẾT LUẬN
TÀI LIỆU THAM KHẢO
Trang 8Bằng cách áp dụng các mô hình học máy phổ biến như Linear Regression, BayesianLinear Regression, Random Forest Regression và Gradient Boosted Decision Trees, nhómnghiên cứu đã xây dựng một mô hình dự đoán giá xe ô tô tại Mỹ Qua việc sử dụng cácphần mềm như Azure Machine Learning và Google Colaboratory, nhóm đã tinh chỉnh vàhuấn luyện các mô hình này một cách hiệu quả.
Kết quả nghiên cứu đã xác định được các yếu tố quan trọng ảnh hưởng đến giá của
xe ô tô tại Mỹ, có thể bao gồm các thông số kỹ thuật, thương hiệu, tuổi đời, điều kiện của
xe, và các yếu tố khác có thể ảnh hưởng đến giá trị của xe
Từ kết quả này, nhóm nghiên cứu đề xuất một mô hình dự đoán chính xác nhất để hỗtrợ ngành công nghiệp xe ô tô Mô hình này có thể giúp các doanh nghiệp trong lĩnh vực xe
ô tô dự đoán giá trị của xe dựa trên các thông số cụ thể của từng chiếc xe, hoặc có thể hỗ trợchính sách định giá của các nhà sản xuất và đại lý xe ô tô
Trang 9Nghiên cứu này hy vọng rằng thông qua việc xác định các yếu tố quyết định giá trị
xe ô tô, sẽ giúp cải thiện dự đoán giá của các loại xe không chỉ tại Mỹ mà còn ở các thịtrường xe ô tô khác trên thế giới Bài báo cũng nhấn mạnh vào việc phân tích các hạn chếcủa nghiên cứu và đề xuất những hướng đi tiếp theo và giải pháp áp dụng cho ngành côngnghiệp xe ô tô
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU1.1 Đặt vấn đề
Một công ty ô tô Trung Quốc Geely Auto mong muốn thâm nhập thị trường Hoa Kỳbằng cách thành lập đơn vị sản xuất của họ ở đó và sản xuất ô tô tại địa phương để cạnhtranh với các đối tác Hoa Kỳ và Châu Âu Họ đã ký hợp đồng với một công ty tư vấn ô tô đểhiểu các yếu tố ảnh hưởng đến việc định giá ô tô Cụ thể, họ muốn hiểu các yếu tố ảnhhưởng đến giá ô tô tại thị trường Mỹ, vì những yếu tố đó có thể rất khác so với thị trườngTrung Quốc Công ty muốn biết: Những biến số nào có ý nghĩa quan trọng trong việc dựđoán giá ô tô, những biến đó mô tả giá của một chiếc ô tô tốt như thế nào
Dựa trên nhiều cuộc khảo sát thị trường khác nhau, công ty tư vấn đã thu thập đượcmột bộ dữ liệu lớn về các loại ô tô khác nhau trên thị trường Mỹ
Trang 10Hình 1.1 Bảng so sánh doanh số bán xe mới của một số khu vực trên thế giới năm 2022
Dự đoán giá xe là một nhiệm vụ không hề đơn giản, bởi nó phụ thuộc vào rất nhiềuyếu tố tác động Các yếu tố như số cửa trên xe, chiều cao, chiều rộng và xe sử dụng nhiênliệu gì hoặc các yếu tố khác đều ảnh hưởng đến giá xe Do đó, sử dụng các mô hìnhmachine learning và các phương pháp dự đoán trở thành một công cụ mạnh mẽ giúp cungcấp thông tin quan trọng cho người dự định mua và bán xe Điều này giúp họ đưa ra quyếtđịnh thông minh, dựa trên dữ liệu và thông tin chính xác, trong bối cảnh thị trường định giá
xe phức tạp và biến đổi liên tục
Từ những vấn đề trên, nhóm quyết định chọn đề tài “Nghiên cứu mô hình dự đoán xetại Mỹ” làm đề tài báo cáo của nhóm
1.2 Mục tiêu nghiên cứu
Trang 11Mục tiêu nghiên cứu của chúng ta sẽ dự đoán giá xe ô tô, giá xe là biến liên tục vìvậy chúng ta sẽ sử dụng mô hình hồi quy trong Machine Learning Bằng các mô hình nhóm
đã tìm hiểu được như Linear Regression, Bayesian Linear Regression, Boosted DecisionTree Regression, Random Forest Regression Chúng ta sẽ giải quyết được mục tiêu nghiêncứu chính của là dự đoán giá xe tại Mỹ thông qua các yếu tố ảnh hưởng tới giá xe bằng công
cụ Azure Machine Learning để tìm ra mô hình tốt nhất, và từ đó chúng ta cũng có thể tìm ranhững thuộc tính quan trọng ảnh hưởng tới việc dự đoán giá xe Từ những mục tiêu đónhóm đặt ra những câu hỏi cần phải trả lời như sau:
❖ Q1: Những yếu tố nào có thể được sử dụng để dự đoán giá của xe ô tô tại Mỹ?
➢ Đặc điểm kỹ thuật: Mô hình xe, công nghệ, thông số động cơ
➢ Thị trường: Tình trạng cung cầu, xu hướng tiêu dùng, mức độ cạnh tranh
➢ Vị trí: Các yếu tố địa lý, đặc điểm vùng miền ảnh hưởng đến giá xe
❖ Q2: Mô hình nào sẽ dự đoán giá xe tốt nhất dựa trên các thuộc tính của xe đã chọn?
➢ Từ danh sách các mô hình như Linear Regression, Bayesian LinearRegression, Boosted Decision Tree Regression, Random Forest Regression,chúng ta sẽ đánh giá mô hình nào phù hợp nhất với dữ liệu về giá xe tại Mỹ
➢ Có thể so sánh độ chính xác của các mô hình để xác định mô hình nào dựđoán chính xác hơn
❖ Q3: Lọc ra những yếu tố quan trọng nhất trong việc dự đoán giá xe để cải thiện môhình dự đoán
➢ Sử dụng kỹ thuật feature importance hoặc các phương pháp tương tự để xácđịnh những yếu tố ảnh hưởng lớn nhất đến giá xe
➢ Thử lại mô hình với chỉ những yếu tố quan trọng nhất này để xem liệu mô hình
có cải thiện độ chính xác hay không
➢ Sử dụng kỹ thuật feature importance hoặc các phương pháp tương tự để xácđịnh những yếu tố ảnh hưởng lớn nhất đến giá xe
➢ Thử lại mô hình với chỉ những yếu tố quan trọng nhất này để xem liệu môhình có cải thiện độ chính xác hay không
1.3 Đối tượng, phạm vi nghiên cứu
Trang 12- Đối tượng nghiên cứu: Dự đoán giá xe ô tô tại thị trường Mỹ
- Phạm vi nghiên cứu:
❖ Phạm vi của nghiên cứu này bao gồm việc dự đoán, xác định và phân tíchnhững yếu tố có ảnh hưởng đáng kể đến giá của các loại xe ô tô Điều nàyđược thực hiện thông qua việc áp dụng các mô hình học máy phổ biến như:Linear Regression, Bayesian Linear Regression, Random Forest Regression
và Gradient Boosted Decision Trees
❖ Bộ dữ liệu giá xe tại thị trường Mỹ được sử dụng để thực hiện mô hình Bộ dữliệu bao gồm 205 dòng và 26 trường dữ liệu bao gồm:
Trang 13tố ảnh hưởng đến việc định giá ô tô Việc dự đoán chính xác giá ô tô tại Mỹ có thể đóng gópmột số phần như:
Đối với người mua xe ô tô:
Quyết định thông minh: Dự án cung cấp dữ liệu và thông tin chính xác về giá xe ô
tô dựa trên các yếu tố như thương hiệu, thông số kỹ thuật, vị trí và điều kiện vậnhành Người mua có thể sử dụng thông tin này để đưa ra quyết định mua xe thôngminh hơn, tiết kiệm thời gian và tiền bạc
Hiểu rõ giá trị: Dự án giúp người mua hiểu rõ hơn về giá trị thực của một chiếc xe ô
tô Thông qua các mô hình dự đoán, họ có thể đánh giá liệu giá cả đề xuất có phảnánh đúng giá trị thực của xe hay không, từ đó tăng khả năng đàm phán và hỗ trợquyết định mua xe
Đối với người bán xe ô tô:
Trang 14 Xác định giá bán hợp lý: Dự án cung cấp các yếu tố quan trọng ảnh hưởng đến giá
xe ô tô Người bán có thể dựa vào thông tin này để xác định mức giá bán hợp lý, tăngkhả năng thu hút người mua và nhanh chóng bán xe
Nâng cao hiệu suất bán hàng: Hiểu rõ hơn về yếu tố quyết định giá xe giúp người
bán điều chỉnh chiến lược bán hàng, tối ưu hóa giá cả và tăng cơ hội bán thành công
Đối với ngành công nghiệp ô tô:
Cải thiện dịch vụ và trải nghiệm khách hàng: Cung cấp thông tin chính xác về giá
cả giúp ngành công nghiệp ô tô cải thiện dịch vụ, tăng cường trải nghiệm mua bán
của khách hàng
Áp dụng công nghệ học máy trong thị trường: Dự án thể hiện sức mạnh của học
máy trong việc dự đoán và ước lượng giá cả, tạo đà để áp dụng công nghệ này rộngrãi trong ngành công nghiệp ô tô để cải thiện quy trình kinh doanh và mua bán
Lập kế hoạch tồn kho: Phân tích dự đoán có thể giúp các đại lý ô tô ước tính nhu
cầu và tối ưu hóa lượng xe tồn kho của họ Nếu một số mẫu xe nhất định được dựđoán sẽ bán chạy trong mùa giải sắp tới, đại lý có thể dự trữ trước nhiều xe hơn
Lập kế hoạch vòng đời của mô hình: Phần mềm phân tích có thể phân tích dữ liệu
về giá trong suốt vòng đời của các mẫu xe và xác định thời điểm tối ưu để làm mới
và cập nhật mẫu xe Điều này có thể tối đa hóa lợi nhuận của một mô hình trước khiloại bỏ hoặc thay thế nó
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT2.1 Lý thuyết chung về thị trường ô tô
Thị trường ô tô đã qua sử dụng là thị trường rất lớn và quan trọng đối với các nhà sảnxuất ô tô Thị trường xe cũ cũng rất có thể liên quan đến doanh số bán xe mới Việc bán ô tô
đã qua sử dụng tại cửa hàng bán lẻ ô tô mới và xử lý các khoản hoàn trả cho thuê cũng nhưtrả lại đội xe từ các công ty cho thuê ô tô đòi hỏi các nhà sản xuất ô tô phải tham gia vào thịtrường ô tô đã qua sử dụng
Trang 15Các nhà sản xuất ô tô phải đối mặt với một số vấn đề trên thị trường xe đã qua sửdụng Tình trạng lộn xộn sâu sắc trên thế giới, vấn đề chung là ngày càng nhiều người, sựcạnh tranh ngày càng tăng từ các nhà sản xuất khác và xu hướng sử dụng ô tô điện tử chỉ làmột số yếu tố gây khó khăn cho việc bán xe đã qua sử dụng trên thị trường ô tô đã qua sửdụng, làm giảm tỷ suất lợi nhuận bán hàng Do đó, các nhà sản xuất ô tô cần có hệ thống hỗtrợ quyết định tốt để duy trì lợi nhuận của việc kinh doanh ô tô Thành phần cốt lõi của hệthống như vậy là mô hình dự đoán ước tính giá bán dựa trên thuộc tính của xe và các yếu tốkhác Mặc dù các nghiên cứu trước đây đã khám phá mô hình thống kê về chi phí bán lạinhưng rất ít nghiên cứu đã cố gắng dự đoán chi phí bán lại với độ chính xác tối đa để hỗ trợviệc ra quyết định Kết quả là, câu trả lời cho các câu hỏi sau đây không rõ ràng:
➢ Giá bán lại có thể dự đoán được như thế nào
➢ Độ chính xác tương đối của các phương pháp dự báo khác nhau và liệu một sốphương pháp có đặc biệt hiệu quả hay không
➢ Với việc các cơ quan nghiên cứu thị trường chuyện ước tính giá trị còn lại, việc cácnhà sản xuất ô tô đầu tư vào mô hình dự đoán chi phí bán lại của họ có hợp lýkhông?
Mục đích của công việc này là cung cấp câu trả lời chính xác hơn cho những câu hỏi
đó Dự án hiện tại thuộc danh mục Hồi quy Dự án này chủ yếu là dự đoán giá của chiếc xe
đã qua sử dụng Trong cuộc sống ngày nay, mọi người đều muốn có một chiếc ô tô, nhưngvấn đề là ngân sách, vì vậy, trong dự án này, hãy xây dựng một mô hình lấy các thông sốnhất định làm đối số và đưa ra kết quả hoặc dự đoán giá của chiếc ô tô dựa trên các thông số
đã cho Mục tiêu của dự án này là xây dựng một mô hình máy học lấy các tính năng của ô tôlàm đầu vào và dự đoán chi phí của chiếc ô tô So sánh các mô hình hồi quy học máy được
sử dụng nhiều nhất, ít sai sót hơn và dự đoán giá trị chính xác hơn của giá ô tô
2.1.1 Ảnh hưởng của dự đoán giá xe
Trang 16Tầm quan trọng của việc dự đoán chính xác giá trị của các xe ô tô đã qua sử dụngkhông thể phủ nhận Công ty định giá xe ô tô VinEval đã cảm nhận một tác động đáng kể từviệc dự đoán không chính xác giá trị thực của những chiếc xe này Điều này không chỉ ảnhhưởng đến hoạt động kinh doanh trực tiếp mà còn gây ra những đợt dao động không ổn địnhtrong lòng tin của khách hàng và thị trường nói chung Sự không chính xác trong dự đoángiá xe đã tạo ra những khó khăn không đáng có trong việc cung cấp thông tin chính xác vàđáng tin cậy
Ảnh hưởng trực tiếp:
➢ Dự đoán sai giá của chúng tôi đã gây thất vọng cho cả người mua và người bán Khigiá dự đoán cao hơn giá thực tế, người mua cảm thấy không công bằng và từ chốigiao dịch, trong khi người bán không hài lòng với giá mà chúng tôi đưa ra Ngượclại, nếu giá dự đoán thấp hơn giá thực, chúng tôi đang góp phần vào việc bán xe vớigiá không tương xứng với giá trị thực tế
Ảnh hưởng gián tiếp:
➢ Dự đoán không chính xác cũng đã làm giảm niềm tin của cả người mua và người bánvào khả năng dự báo của chúng tôi Điều này đã tạo ra sự không ổn định trong thịtrường mà chúng tôi hoạt động, khiến cho các bên liên quan không còn tin tưởng vàokhả năng dự báo chính xác của chúng tôi
➢ Các dự đoán không chính xác của chúng tôi cũng đã ảnh hưởng đến dự báo thịtrường, gây khó khăn trong việc cung cấp thông tin chính xác và đáng tin cậy về giátrị còn lại của xe ô tô đã qua sử dụng."
➢ Điều này chỉ ra rằng việc dự đoán sai giá xe đã qua sử dụng không chỉ ảnh hưởngđến quyết định mua bán trực tiếp mà còn tác động lớn đến niềm tin và minh bạchtrong thị trường tổ chức hoạt động
2.1.2 Các yếu tố ảnh hướng đến dự đoán giá xe
Ngoài những yếu tố mà dữ liệu chúng ta đang có, hiện nay công tác nghiên cứu vềcác yếu tố ảnh hưởng tới dự đoán giá xe đã được nhiều nhà nghiên cứu tìm hiểu, nhóm tácgiả nhận thấy có 2 yếu tố chính ảnh hưởng đến quyết định này là: Yếu tố cá nhân và Yếu tố
tổ chức
Trang 17Yếu tố cá nhân:
➢ Kỹ năng và kinh nghiệm: Kỹ năng và kinh nghiệm của người dự đoán rất quan trọng
Sự hiểu biết sâu rộng về thị trường ô tô, kiến thức chuyên môn về các yếu tố ảnhhưởng đến giá xe, cũng như khả năng phân tích dữ liệu là yếu tố quyết định
➢ Đánh giá và nhận xét: Khả năng đánh giá các thông số kỹ thuật, trạng thái vận hànhcủa xe, và đưa ra nhận định chính xác về giá trị thực của xe là yếu tố quan trọngtrong việc đưa ra dự đoán
➢ Tính khách quan: Sự khách quan trong việc đánh giá và dự đoán giá trị xe cũng như
khả năng kiểm soát cảm xúc để không để những yếu tố cá nhân ảnh hưởng quá mứcđến quyết định
➢ Quy trình và phương pháp làm việc: Các tổ chức thường có các quy trình chuẩn hóa
và phương pháp làm việc cụ thể để dự đoán giá xe Sự hệ thống và chuẩn mực giúpđảm bảo tính nhất quán và chính xác trong dự đoán
2.2 Các nghiên cứu liên quan
Dưới đây sẽ là một số nghiên cứu liên quan tới việc dự đoán giá xe ô tô
➢ Tên bài báo: "Predicting the Prices of Used Cars using Machine Learning for Resale"
by Fahad Rahman Amik et al (2021)
Bài viết này khám phá việc ứng dụng các mô hình học máy để dự đoán giá ô tô đãqua sử dụng ở Bangladesh Các tác giả so sánh hiệu suất của các mô hình học máy khácnhau, bao gồm Công cụ hồi quy rừng ngẫu nhiên, Công cụ hồi quy cây bổ sung, Công cụhồi quy đóng bao, Cây quyết định và phương pháp XG Boost Họ nhận thấy rằng phươngpháp XG Boost mang lại những dự đoán chính xác nhất
Trang 18➢ Tên bài báo: "Machine Learning Modeling to Estimate Used Car Prices" by HankarMustapha, Marouane Birjali (2023) Bài viết này đề xuất một mô hình học máy đểước tính giá xe ô tô đã qua sử dụng
Các tác giả sử dụng bộ dữ liệu về giá ô tô đã qua sử dụng từ một trang web thươngmại điện tử của Đức và đào tạo các mô hình học máy khác nhau, bao gồm hồi quy tuyếntính, hồi quy tuyến tính bội và hồi quy tăng cường độ dốc Họ nhận thấy rằng hồi quy tăngcường độ dốc mang lại độ chính xác tốt nhất
➢ Tên bài báo: "Prediction of prices for used car by using regression models" by NitisMonburinon; Prajak Chertchom; Thongchai Kaewkiriya; Suwat Rungpheung; SabirBuya; Pitchayakit Boonpou (2018)
Trang 19Trong nghiên cứu này, các tác giả đã tiến hành một nghiên cứu so sánh về hiệu suất
mô hình dựa trên hồi quy Dữ liệu được sử dụng trong nghiên cứu này được lấy từ trangthương mại điện tử của Đức và sau đó chuẩn bị dữ liệu được xử lý bằng ngôn ngữ lập trìnhpython Kết quả là, dữ liệu cuối cùng có 304.133 hàng và 11 thuộc tính Tác giả đã kiểm tra
dữ liệu bằng cách sử dụng hồi quy tuyến tính bội, hồi quy rừng ngẫu nhiên và cây hồi quytăng cường độ dốc trên tập dữ liệu cụ thể đó Mỗi mô hình được đánh giá bằng cách sử dụngcùng một dữ liệu thử nghiệm Sau đó, các kết quả được so sánh bằng cách sử dụng sai sốMAE làm chiêu chí Với mô hình gradient boosted regression trees cho hiệu suất cao nhấtchỉ với MAE = 0,28 Tiếp theo là random forest regression với MAE = 0,35 lỗi và multiplelinear regression với MAE = 0,55
Từ vào những bài báo đã được đề cập như trên, nhóm sẽ dựa vào bài báo "Prediction
of prices for used car by using regression models" của nhóm tác giả Nitis Monburinon;Prajak Chertchom; Thongchai Kaewkiriya; Suwat Rungpheung; Sabir Buya; PitchayakitBoonpou (2018) để thực hiện cho đồ án của nhóm
2.3 Phần mềm thực hiện triển khai mô hình
2.3.1 Azure Machine Learning
Phần mềm Azure Machine Learning được Microsoft phát triển là một dịch vụ dựatrên cloud cung cấp bộ công cụ và tính năng toàn diện để xây dựng, triển khai và quản lýcác mô hình machine learning Nó được thiết kế để nhiều người dùng sử dụng, từ các nhàkhoa học và nhà phát triển dữ liệu đến người dùng doanh nghiệp có ít hoặc không có kinhnghiệm triển khai các mô hình dự báo
Dưới đây là các tính năng chính có trong Azure Machine Learning:
Chuẩn bị và xử lý trước dữ liệu: Azure Machine Learning cung cấp nhiều công cụkhác nhau để chuẩn bị dữ liệu như upload dữ liệu bằng máy local, online hoặc từdatabase Azure có thể xử lý trước dữ liệu, bao gồm làm sạch dữ liệu, kỹ thuật tínhnăng và chuẩn hóa dữ liệu
Trang 20 Huấn luyện và thử nghiệm mô hình: Tool Azure Machine Learning hỗ trợ nhiềuthuật toán học máy, bao gồm học có giám sát, học không giám sát và học tăngcường Nó cũng cung cấp các công cụ để điều chỉnh siêu tham số và lựa chọn môhình để chúng ta có khả năng sử dụng mô hình tốt hơn.
Triển khai và quản lý mô hình: Azure Machine Learning giúp dễ dàng triển khai các
mô hình machine learning vào thực tế Nó cũng cung cấp các công cụ để theo dõi vàquản lý các mô hình theo thời gian
MLOps: Azure Machine Learning cung cấp một bộ tính năng MLOps giúp tự độnghóa vòng đời máy học Điều này bao gồm các tính năng để kiểm soát phiên bản, khảnăng tái tạo, tích hợp liên tục và phân phối liên tục (CI/CD)
Lợi ích của việc sử dụng Azure Machine Learning:
Giảm thời gian xây dựng mô hình: Azure Machine Learning có thể giúp chúng taxây dựng, triển khai và quản lý các mô hình machine learning nhanh chóng và hiệuquả hơn
Giảm chi phí: Chúng ta có thể giảm chi phí xây dựng và triển khai các mô hìnhmachine learning bằng cách cung cấp cơ sở hạ tầng có khả năng mở rộng và linhhoạt
Tăng năng suất: Bên cạnh đó Azure Machine Learning có thể giúp chúng ta tăngnăng suất của các nhà khoa học và nhà phát triển dữ liệu bằng cách cung cấp cho họmôi trường tự phục vụ để xây dựng và triển khai các mô hình Và chúng ta cũng cóthể cải thiện khả năng quản trị các mô hình học máy bằng cách cung cấp các công cụ
để giám sát, kiểm tra và theo dõi các mô hình
Từ những đặc điểm đó của Azure Machine Learning chúng ta có thể dễ dàng triển khainhiều dự án khác nhau
2.3.2 Google Colaboratory
Trang 21Google Colaboratory, còn được gọi là Colab Google Colab là tài liệu cho phép bạnviết, chạy và chia sẻ mã Python trong trình duyệt của mình Đây là phiên bản của JupyterNotebook dựa trên đám mây miễn phí cho phép bạn viết và thực thi mã Python trong trìnhduyệt của mình Nó cung cấp quyền truy cập vào các tài nguyên điện toán mạnh mẽ, baogồm GPU và TPU mà không yêu cầu bạn cài đặt bất kỳ phần mềm nào hoặc thiết lập bất kỳ
cơ sở hạ tầng nào Colab đặc biệt phù hợp với machine learning, khoa học dữ liệu và giáodục Các tính năng mạnh mẽ của Google Colaboratory có thể bao gồm:
Không cần thiết lập: Colab là dịch vụ dựa trên đám mây nên không cần cài đặt hoặcđịnh cấu hình phần mềm Tất cả những gì bạn cần là một trình duyệt web và tàikhoản Google Trong thời đại các mô hình Deep Learning phát triển mạnh mẽ, việcsetup cấu hình cũng là một điều khó khăn, vì có thể phiên bản của thư viện này lạikhông khớp với phiên bản với thư viện khác Vì vậy chúng gây cho ta mất nhiều thờigian khi xây dựng mô hình
Cấu hình mạnh mẽ: Colab cung cấp quyền truy cập vào các tài nguyên điện toánmạnh mẽ, bao gồm cả GPU và TPU, có thể tăng tốc đáng kể các nhiệm vụ khoa học
dữ liệu và học máy của chúng ta Colab cung cấp miễn phí GPU và TPU cho chúng
ta sử dụng, tuy nhiên để có thể sử dụng một cách mạnh mẽ hơn chúng ta có thể dùngphiên bản Colab Pro hoặc Colab Pro Puls, khi đó chúng ta sẽ có một cấu hình mạnh
2.4 Đôi nét về mô hình Machine Learning
Học máy (Machine Learning) là một lĩnh vực AI từng là thành phần chính của các giảipháp số hóa đã thu hút được nhiều sự công nhận trong lĩnh vực kỹ thuật số MachineLearning được sử dụng ở mọi nơi, từ tự động hóa và thực hiện các nhiệm vụ nặng nề đếncung cấp những hiểu biết thông minh trong mọi ngành để hưởng lợi từ nó
Trang 22Thế giới hiện nay đã sử dụng những thiết bị phù hợp với những vấn đề này Ví dụ:thiết bị theo dõi thể dục đeo được như Smart Band hay trợ lý nhà thông minh như Alexa,Google Home Tuy nhiên, còn có nhiều ví dụ khác về học máy đang được sử dụng Trong
dự án này, nhiệm vụ là tìm ra giá của một chiếc ô tô Tập dữ liệu về ô tô được lấy từKaggle, trong đó tập dữ liệu chứa các trường dữ liệu mô tả ô tô Nhiệm vụ của chúng ta làtìm ra biến nào có ý nghĩa quan trọng trong việc dự đoán giá của một chiếc ô tô và mức độquan trọng của các biến này trong việc dự đoán giá ô tô
Các thuật toán ML được đào tạo trên lượng lớn dữ liệu và chúng có thể được sử dụng
để giải quyết nhiều vấn đề, bao gồm:
Classification: Xác định danh mục hoặc lớp dữ liệu, chẳng hạn như lọc thư rác hoặcnhận dạng hình ảnh
Regression: Dự đoán các giá trị liên tục, chẳng hạn như dự đoán giá xe ô tô hoặc giá
cổ phiếu
Clustering: Nhóm các điểm dữ liệu thành các cụm dựa trên sự giống nhau của chúng
Anomaly detection: Xác định các điểm dữ liệu bất thường hoặc ngoại lệ
Recommendation systems: Các mô hình Machine Learning có thể đề xuất sản phẩm,phim hoặc các mặt hàng khác cho người dùng
Bên cạnh đó mô hình Machine Learning cũng được chia thành nhiều loại, chúng ta sẽxem mô tả dưới đây:
Trang 23Hình: Các loại mô hình trong Machine Learning
CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Sau khi hiểu rõ mục tiêu, lý do chọn đề tài và một số cơ sở lý thuyết, trong chươngnày nhóm sẽ mô tả ngắn gọn về tập dữ liệu bao gồm phương pháp tìm kiếm tập dữ liệu, đặcđiểm, đặc điểm của từng biến trong tập dữ liệu và các bước thực hiện xử lý tập dữ liệu trướckhi phân tích mô hình nghiên cứu của đề tài Đồng thời, nhóm cũng sẽ trình bày phươngpháp nghiên cứu sử dụng mô hình hồi quy với 4 thuật toán: Linear Regression, BayesianLinear Regression, Boosted Decision Tree Regression, Random Forest Regression Để xử lý
và trực quan hóa dữ liệu, chúng ta sẽ sử dụng studio Azure Machine Learning, nơi cung cấpgiao diện thân thiện với người dùng để nhập dữ liệu, tính năng tiền xử lý, định cấu hình môhình học máy và phân tích hiệu suất mô hình Chúng ta chọn nền tảng này do tính linh hoạtcủa nó trong việc so sánh nhiều phương pháp hồi quy và giám sát chặt chẽ các số liệu nhưR^2 hoặc MAE (Mean Absolute Error) trong quá trình đào tạo để cải thiện độ chính xác của
dự đoán
Trang 243.1 Quy trình nghiên cứu
Để xây dựng mô hình dự đoán một cách hiệu quả, nhóm của chúng tôi đã xây dựngmột quy trình nghiên cứu trong đó mô tả trình tự các bước chính xác cần thực hiện để địnhhướng quy trình phát triển mô hình của chúng tôi, giảm thiểu những sai sót tiềm ẩn và nhầmlẫn không cần thiết trong quá trình triển khai Cụ thể chúng ta sẽ triển khai mô hình với quytrình như sau:
Thu thập và chuẩn bị dữ liệu
Thu thập dữ liệu đầu vào có liên quan (biến dự đoán) và dữ liệu mục tiêu (nhãn),
ví dụ trong trường hợp giá xe biến mục tiêu là “price”, biến dự đoán là các thôngtin của chiếc xe
Kiểm tra các loại và định dạng dữ liệu - làm sạch và chuẩn hóa nếu cần thiết
Xử lý các giá trị bị thiếu - gán, xóa mẫu hoặc mô hình dưới dạng biến bổ sung
Xác định và loại bỏ các ngoại lệ nếu thích hợp
Xác định phân phối dữ liệu - chuyển đổi các biến lệch nếu cần
Kiểm tra các vấn đề như tính không đồng nhất có thể ảnh hưởng đến việc lựachọn mô hình
Chia dữ liệu thành các tập huấn luyện, xác thực và kiểm tra
Huấn luyện mô hình
Đưa tập dữ liệu đã chuẩn bị vào kiến trúc mô hình đã chọn
Điều chỉnh các siêu tham số (tốc độ học tập, lớp, nút, v.v.) để tối ưu hóa hiệu suất
Ngăn chặn việc bị overfitting thông qua việc dừng sớm, chính quy hóa, bỏ học,v.v
Trang 25 Đánh giá mô hình
Đánh giá dự đoán về tập dữ liệu xác thực chưa thấy trong suốt quá trình đào tạo
Sau khi đào tạo, báo cáo hiệu suất trên tập dữ liệu thử nghiệm riêng biệt
Sử dụng các số liệu như RMSE, MAE, R2, MAPE để định lượng độ chính xáccủa dự đoán, bài toán của chúng ta là hồi quy vì vậy chúng ta sẽ sử dụng những
độ lỗi này
Sử dụng ma trận nhầm lẫn, độ chính xác, thu hồi, v.v cho các nhiệm vụ phân loại
Giải thích và chẩn đoán
Kiểm tra nội bộ mô hình để hiểu các mối quan hệ đã học
Xác định tầm quan trọng của trường dữ liệu đối với dự đoán mô hình
Kiểm tra phần dư để tìm lỗi hệ thống
Phân tích các trường hợp dự đoán sai để cải thiện mô hình
Vận hành
Thực hiện suy luận mô hình trong ứng dụng với các điểm kiểm tra cần thiết
Giám sát hiệu suất mô hình định kỳ trên hệ thống trực tiếp
Đào tạo lại mô hình khi có dữ liệu bổ sung để tránh trôi dữ liệu
Sau đây chúng ta sẽ có biểu đồ mô tả về quy trình thực hiện mô hình Machine Learning củachúng ta như sau:
Trang 26Hình 3.1 Quy trình thực hiện nghiên cứu (Nguồn: ReasearchGate: Steps carried out in the machine
learning process)
3.2 Giới thiệu về bộ dữ liệu
3.2.1 Khái quát bộ dữ liệu
Trong bài báo cáo này, nhóm đã tìm kiếm trên nhiều nguồn và thu thập được bộ dữliệu nguyên bản từ website www.kaggle.com Bộ dữ liệu này mô tả một công ty ô tô TrungQuốc mong muốn thâm nhập thị trường Mỹ bằng cách thành lập đơn vị sản xuất của họ ở đó
và sản xuất ô tô tại địa phương để cạnh tranh với các đối tác Mỹ và châu Âu Họ đã ký hợpđồng với một công ty tư vấn ô tô để hiểu các yếu tố ảnh hưởng đến việc định giá ô tô Cụthể, họ muốn hiểu các yếu tố ảnh hưởng đến giá ô tô tại thị trường Mỹ, vì những yếu tố đó
có thể rất khác so với thị trường Trung Quốc Vì vậy chúng ta sẽ lập một mô hình dự đoángiá xe ô tô ở Mỹ và tìm hiểu những đặc điểm nào ảnh hưởng tới giá xe
Trang 27Hình 3.2: Tóm tắt bộ dữ liệu giá xe ô tô Mỹ được trực quan hóa trên Azure Machine
3.2.2 Nội dung bộ dữ liệu
Trong phần này chúng ta sẽ tìm hiểu thông tin của tập dữ liệu gốc và tìm hiểu xemnên chọn trường dữ liệu nào để huấn luyện mô hình một cách phù hợp nhất Đầu tiên Chúngtôi sẽ mô tả dữ liệu chứa thông tin gì: Tập dữ liệu “Carprice_Assignment.csv” cung cấpthông số kỹ thuật chi tiết và giá của 205 mẫu ô tô
Trang 281 car_ID Số ID duy nhất cho mỗi chiếc xe Numeric
2 symboling Xếp hạng rủi ro (3 = rủi ro, -2 = khá
an toàn)
Numeric
4 fueltype Loại nhiên liệu (diesel, gas) Categorical
7 carbody Loại thân xe (hatchback, sedan, v.v.) Categorical
8 drivewheel Cấu hình bánh lái (4wd, fwd, rwd) Categorical
9 enginelocation Vị trí của động cơ (phía trước, phía
11 carlength Chiều dài của xe tính bằng inch Numeric
12 carwidth Chiều rộng của xe tính bằng inch Numeric
13 carheight Chiều cao của xe tính bằng inch Numeric
14 curbweight Trọng lượng của xe tính bằng pound Numeric
Trang 2916 cylindernumber Số lượng xi lanh Numeric
17 enginesize Kích thước của động cơ tính bằng lít Numeric
18 fuelsystem Loại hệ thống nhiên liệu (mpfi, 2bbl,
v.v.)
Categorical
23 peakrpm Số vòng quay cực đại mỗi phút của
25 highwaympg Hiệu quả sử dụng nhiên liệu trên
đường cao tốc tính bằng dặm trên
gallon
Numeric
26 price Giá bán lẻ của xe tính bằng đô la Mỹ Numeric
Trang 30Bảng 3.1 Mô tả các cột trong bộ dữ liệu giá xe ô tôSau khi hiểu được các cột dữ liệu chúng ta cũng đoán được một số cột dữ liệu sẽquan trọng trọng việc dự đoán giá xe ô tô như fuelsystem, carbody, enginetype,cylindernumber…Tuy nhiên chúng ta sẽ xem xét rằng những trường dữ liệu này có thực sựquan trọng hay không, hoặc chúng có thể tác động yếu Để hiểu được dữ liệu nhiều hơnchúng ta sẽ tiến hành trực quan hóa các trường dữ liệu.
3.2.3 Trực quan hóa dữ liệu
Trực quan hóa tập dữ liệu ô tô là bước quan trọng đầu tiên để khám phá mối quan hệtiềm năng giữa các biến số và xác định các yếu tố dự báo đầy hứa hẹn về giá Trước khi xâydựng mô hình, đồ thị cho phép chúng ta nhanh chóng đánh giá các mối tương quan, phânphối, ngoại lệ và dị thường một cách trực quan Chúng ta sẽ tạo các biểu đồ kiểm tra tácđộng của các biến số liên tục như chiều dài cơ sở, mã lực, quãng đường lên giá bằng cách sửdụng biểu đồ Trực quan hóa tương tác thậm chí có thể được tích hợp vào phân tích kết quả
mô hình sau này để thêm bối cảnh và tính minh bạch cho người dùng Trực quan hóahiệuquả sẽ làm nổi bật câu chuyện của dữ liệu, nêu bật các yếu tố chính ảnh hưởng đến việcđịnh giá và xây dựng trực giác về hiệu suất của mô hình
3.2.3.1 Phân phối về giá của ô tô
Đầu tiên chúng ta sẽ xem xét giá của ô tô đang được phân bổ như thế nào bằng hiểu
đồ histogram