LỜI CẢM ƠN Lời đầu tiên nhóm xin trân trọng gửi lời cảm ơn chân thành và sự kính trọng tới các Thầy và Cô khoa Quản trị kinh doanh trường Đại học Tôn Đức Thắng đã tạo điều kiện cho chúng
Trang 1
TỎNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRUONG DAI HOC TON DUC THANG
KHOA QUAN TRI KINH DOANH
TON DUC THANG UNIVERSITY
BAO CAO CUOI ki MON: UNG DUNG PHAN TICH DU LIEU LON
TRONG QUAN LY
DE TAI: NGHIEN CUU MO HINH DU DOAN GIA BAN LAI XE
Ô TÔ ĐÃ QUA SỬ DỤNG TẠI ĐỨC
Giảng viên bộ môn: Ths Phạm Ngọc Bảo Duy Chuyên ngành: Kinh doanh Quốc tế Nhóm lớp: 05
Nhom sinh vién thuc hilln: BESTIES
1 Nguyễn Đinh Thuý Ngân 71802260
2 Lê Ngọc Phương Như 71802271
3 Trần Thị Khánh Linh 71802243
4 Châu Hồng Ngọc 71802265
TP HÒ CHÍ MINH, THÁNG 09 NĂM 2021
Trang 2
NHAN XET CUA GIANG VIÊN
Trang 3
LỜI CẢM ƠN Lời đầu tiên nhóm xin trân trọng gửi lời cảm ơn chân thành và sự kính trọng tới các Thầy và Cô khoa Quản trị kinh doanh trường Đại học Tôn Đức Thắng đã tạo điều kiện
cho chúng em có cơ hội được học tập môn Ứng Dụng Phân Tích Dữ Liệu Lớn Trong Quản
Lý, và đặc biệt la thay Pham Ngoc Bao Duy đã tận tình giảng dạy, hướng dẫn và hỗ trợ
nhóm trong suốt quá trình thực hiện bài nghiên cứu này
Môn học Ứng Dụng Phân Tích Dữ Liệu Lớn Trong Quản Lý đối với nhóm chúng
em là một môn học có tính áp dụng thực tế cao nhưng nó lại không hề dễ dàng vì yêu cầu vốn kiến thức rộng, khả năng suy nghĩ, phân tích logic và tự nghiên cứu Tuy nhiên chúng
em cảm thấy đây là môn học vô cùng bỏ ích và rất thực tế vì nó giúp cho chúng em mở rộng được tư duy cũng như định hướng được các phương pháp làm việc và nghiên cứu mới
trong tương lai, bắt kịp xu hướng thay đổi nhanh của thế giới Do giới hạn về thời gian
nghiên cứu cũng như lượng kiến thức, thông tin thu thập còn hạn chế nên bài nghiên cứu của chúng em không tránh khỏi những thiếu sót trong quá trình nghiên cứu và thực hiện
Vì vậy, nhóm em rất mong nhận được sự góp ý và đánh giá chân thành của các thầy, các
cô trường Đại học Tôn Đức Thắng đề bài luận hoàn thiện hơn, có giá trị về mặt lý luận và
thực tiễn, cũng như là nguồn tham khảo bồ ích cho nhóm trong tương lại
Chúng em xin chan thành cảm ơn!
Trang 4BANG PHAN CONG CONG VIEC
STT Ho va tén MSSV Nội dung công việc hoàn thành Mức độ
Nguyễn Đinh Thuý Ngân 71802260
Phân công nhiệm vụ, tổng
hợp, kiểm tra bài
Chạy các mô hình thuật toán trên Azure
Trình bày chương 4 + Š
100%
Lê Ngọc Phương Như 71802271
Chạy mô hình trên Google Colaboratory
Trình bày chương 3 + 5 Tổng hợp và định dạng bài
Trang 5DANH MỤC HÌNH Hình 1.1 Báng so sánh doanh số bán xe mới của một sô khu vực trên thế giới năm 2021
Hình 3.I Quy trình thực hiện nghiên cứu
Hình 3.2 Bộ dữ liệu gốc từ Kaggle
Hình 3.3 Bộ dữ liệu đã qua xử lý
Hình 4.1 Xây dựng mô hình dự đoán bằng thuật toán Linear Regression
Hình 4.2 Mô hình Linear Regression sau khi trién khai Web Service
Hình 4.3 Xây dựng mô hình dự đoán bằng thuật toán Boosted Decision Tree Regression Hinh 4.4 M6 hinh Boosted Decision Tree sau khi triển khai Web Service
Hình 4.5 Import thu vién
Hình 4.6 Import bộ dữ liệu
Hình 4.7 Thông kê mô tả đữ liệu
Hình 4.8 Mã hóa các biến
Hình 4.9 Biểu diễn bộ dữ liệu sau khi đã mã hóa
Hình 4.10 Chọn các cột dữ liệu dé train model va Tach dit liệu
Hình 4.11 Xây dựng model bằng thuật toán Randon Forest Regression
Hình 4.12 Đánh giá mô hình Random Forest Regression
Hình 4.13 Bảng so sánh ba mô hình theo các tiêu chí đánh giả
Hình 4.14 Kết quả Test Model của Random Forest (1)
Hình 4.15 Kết quả Test Model của Random Forest (2)
Hình 4.16 Giao diện Web Services
Hinh 4.17: Két qua Test Model ctia Boosted Decision Tree Regression (1)
Hinh 4.18: Két qua Test Model ctia Boosted Decision Tree Regression (2)
Trang 6DANH MUC BANG BIEU
Bang 4.1 Théng ké mé ta bién dang Numerical
Bảng 4.2 Théng ké mé ta bién dang categorical
Bảng 4.3 Mô tả 5 biến có hệ số tương quan cao nhất so với biến phụ thuộc
Bảng 4.4 Kết quả đánh giá mô hình Linear Regression
Bang 4.5 Két qua danh gid mé hinh Boosted Decision Tree Regression Bảng 4.6 Kết quả đánh giá mô hình Random Forest Regression
Trang 7LL Ly do Chom T86 -4.dA.dA , HAHHHH 4
In i0 0u 0h 5 1.3 Đối tượng, phạm vi nghiên cứu . - 5-5222 ©2222E+212211221222122122112212212 22122222 5 1.4 902i 8.00 2n i00 0n 6
2.3.1 Nghiên cứu của ŠS Pudarut(h: - 5 +5 + kh HH nhe 10 2.3.2 Nghiên cứu của N Kanwal và J SadaQat - - ác SH Hy He 10 2.3.3 Nghiên cứu của S Peerun, NH Chummun và § Pudaruth .- 11 2.3.4 Nghiên ctru cua N.Sun, H Bai, Y Geng và H Shi -.- << cs< sec rr 11 CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 12 S89) nïï)ï(0 20 0 12 K80 0 13 3.2.1 Khái quát bộ dữ lIỆU - . - 5 22222 92E 93213931393 xxx HH HH nhe 13
3.2.2 Dịnh nghĩa thuộc tính các biến - 2£ 52©52+SE2222£EE22E222E22222222222222-22, 13
E900 0 15
3.4.1 Thuật toán Linear RÑ€BT€SSIOTI - 25 <5 ST HH HH nhe 16 3.4.2 Thuật toán Boosted Decision Tree R€BT€SSIOI - 5 S5 se reeererre 16
Trang 83.4.3 Thuật toán Random Forest R€BT€SSIOI - 5 <5 SH ngư ngư nry 17
4.1 Cac tiéu chi danh 914.6 n6 18 4.2 Kết qua nghién ctru cla cdc m6 BiH oo eeccesesesssessessesssessesestsseessecssseesetsseeeseees 19 CV”, bi 00.8 on cố 21 4.2.2 M6 hinh Boosted Decision Tree ReøØT€SSIOII 55-55522222 E+sszsrerrerze 22 4.2.3 Mô hình Random Forest RÑ€BT€SSIOI1 Ác Sex HH ng re 23 4.3 So sánh kết quá nghiên cứu của các mô hình 2 2 522222 s222£+zxz2zxzzxczxz 27
5.1 Tóm tắt kết quá nghiên €ứu 2-2 2£ ©22+E£+EE£SEE+EE+EEE2EE22E22122322112222222222e22, 31
5.2 Ý nghĩa nghiên cứu và hạn chế của đề tài 2-.2- 522 ©2222x+2Ez2232222222222zczxee, 31
5.2.2 Hạn chế của để ti eecsseecccseeeeecsssseecsssseeecsssetessssneeeessseuesessnmisessnnteeessneessneeeee 32 16c oan cán 33 5.3.1 Xây dựng ứng dụng phục vụ cho việc dự đoán giá bản lại xe cũ trên thị trường
¬" ,Ô 33
Trang 9TÓM TÁT BÁO CÁO
Bài báo cáo “Dự đoán giá ô tô đã qua sử dụng bằng Mô hình hồi quy” được thực hiện nhằm xác định các nhân tô ánh hưởng đến giá bán của xe đã qua sử dụng: trường hợp
nghiên cứu thực nghiệm ở Đức với 242.230 mẫu quan sát
Trong nghiên cứu này, nhóm sử dụng các mô hình Linear Regression, Random
Forest Regression, and Gradient Boosted Decision Trees dya trên tập dữ liệu cụ thể có
trong bài báo nghiên cứu nhằm xác định, đo lường mức độ ảnh hưởng của các thuộc tính của xe lên giá bán của xe đã qua sử dụng ở Đức Sau khi xem xét một cách kỹ lưỡng, nhóm nhận thấy việc sử dụng 2 phần mềm Azure Machine Learning và Google Colaboratory cho
bài nghiên cứu là phù hợp đề có thê xây dựng đầy đủ ba mô hình theo bài báo mẫu Từ đó, xác định được sự tác động của các biến độc lập lên các biến phụ thuộc, độ chính xác của từng mô hình áp dụng và cuối cùng là đưa ra sự so sánh kết quả giữa các mô hình dự đoán
Kết quả nghiên cứu tông hợp cho thấy, các nhân tổ tác động đến giá xe đã qua sử dụng tại Đức nhiều nhất bao gồm: mã lực, tên hãng xe, dòng xe, năm đăng ký và số ki-lô-mét đi được
Từ kết quả nghiên cứu, nhóm đề xuất mô hình dự đoán giá chính xác nhất trong các
mô hình nhằm giúp các doanh nghiệp mua bán xe cũ và người mua xe cũ xác định chính
xác hơn giá trị của xe đê có thể mua xe với giá hợp ly cũng như bán xe phù hợp với giá thị
trường Không ít bài báo đã nghiên cứu về vấn đề dự đoán giá xe này nhưng với kết quả qua những số liệu được chạy khảo sát nhóm hy vọng sẽ góp một chút nho nhỏ để các doanh nghiệp cũng như người mua không chỉ ở Đức nói riêng mà trong ca ngành mua bán xe nói chung xác định được các yếu tô và thuộc tính của xe tác động tới giá dé có thể đưa ra dự
đoán tốt nhất Cuối cùng, nhóm đưa ra những hạn chế của đề tài nghiên cứu để đưa ra
những kiến nghị, hàm ý quản trị cho doanh nghiệp và giải pháp cho người mua
Trang 10CHƯƠNG 1: TỎNG QUAN NGHIÊN CỨU
1.1 Lý do chọn đề tài
Trong khi nền kinh tế ở hầu hết các quốc gia đang bị đại địch Covid-19 vùi đập, thì nền công nghiệp ô tô đang có dấu hiệu khởi sắc trở lại Trong quý đầu tiên của năm
2021, các thị trường xe ô tô lớn trên toàn thế giới phần lớn dân phục hồi sau sự đóng cửa
ở nhiều quốc gia do đại dịch từ đầu năm 2020 Tại Trung Quốc, doanh sô bán xe mới gần
76% so với ba tháng đầu năm 2020 Thị trường Mỹ tăng 11% và khu vực châu Âu tăng
0.9% Sự phát triển mạnh mẽ của ngành công nghiệp ô tô được xem là nhân tô tác động tích cực thúc đây các ngành có liên quan phát triên, tạo động lực xây dựng nền công nghiệp
hóa, hiện đại hóa đât nước
mm D
Hình 1.1 Bảng so sánh doanh số bán xe mới của một số khu vực trên thể giới năm 2021 (Nguồn:
VDA)
Trong sô các quốc gia có nền công nghiệp ô tô thì nước Đức được xem là một trong
những “cái nôi” của nền công nghiệp ô tô thế giới với những thương hiệu hàng đầu như
Audi, Mercedes - Benz, BMW, Volkswagen, Porsche, Để sở hữu một chiếc xe mới, hoàn thiện thì đi kèm theo đó là giá bán sẽ rất cao, chi phí vận hành cũng đắt đỏ không
kém Xét về nhu cầu ô tô cá nhân trên toàn thế giới, kê cả dòng cao cấp hay bình dân, cùng
voi su mat gia nhanh của thị trường xe ô tô mới, nhu câu của thị trường ô tô cũ đã, đang và
Trang 11Sẽ tăng cao và tạo cơ hội kinh doanh cho cả người mua và người bán Việc tạo ra một công
cụ dự đoán được giá bán lại xe ô tô cũ trên thị trường là một vấn đề mang tính áp dụng cao
Từ những yếu tổ trên, nhóm quyết định chọn đề tài “NGHIÊN CỨU MÔ HÌNH DỰ DOAN GIA BAN LẠI XE Ô TÔ ĐÃ QUA SỬ DỤNG TẠI ĐỨC” làm đề tài báo cáo của
nhóm
1.2 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu chính của chúng tôi là sử dụng dữ liệu thị trường ô tô đã qua
sử dụng được thu thập từ trang web thương mại điện tử của Đức thực hiện ba mô hình bao gồm Linear Regression, Boosted Decision Tree Regression, Random Forest Regression bang céng cy Azure Machine Learning Studio dé tìm ra mô hình dự đoán tốt nhất để dự đoán giá xe đã qua sử dụng
Từ mục tiêu nghiên cứu đó, nhóm đưa ra được bộ câu hỏi nghiên cứu như sau:
% Q1: Mức độ tác động của các yếu tô đến giá xe đã qua sử dụng?
s* Q2: Phương pháp dự báo nào dự báo giá bán xe đã qua sử dụng một cách
chính xác nhật?
1.3 Đối tượng, phạm vỉ nghiên cứu
- _ Đối tượng nghiên cứu: Tập trung vào các mô hình dự đoán giá xe đã qua sử dụng
- Phạm vi nghiên cứu:
o_ Phạm vi không gian: Thị trường xe ô tô đã qua sử dụng ở Đức
o Pham vi nội dung: Nguồn đữ liệu được sử dung dé thực hiện mô hình
nghiên cứu có 11 cột bao gồm các biến:
Trang 12Đối với người bán: Giúp người bán định giá ô tô đã qua sử dụng một cách chính
xác hơn, phù hợp với chất lượng và dịch vụ của người bán Đông thời, đây sẽ là giải pháp
dự báo nội bộ tạo nên lợi thế so với các đôi thủ cạnh tranh, thay vì dựa trên các ước tính
gid tri thặng dư được tạo ra bên ngoài để quyết định giá bán
Đối với người mua: Thị trường này không có giá niêm yết có định, người mua hay
bị hoang mang về chất lượng có phù hợp với giá cả mà người bán đưa ra hay không? Mua với giá này thì có lời hay lỗ so với xe mới? Nghiên cứu này sẽ giúp người mua tránh gặp rủi ro trong vấn đề về giá, có lựa chọn đúng đắn về sản pham mà không lăn tăn về giá
Đối với bên thứ ba: Là bên được người bán thuê ngoai để định giá xe ô tô cũ khi họ
không có đủ nguồn lực, công nghệ và chuyên môn Bên thứ ba dựa vào kết quả nghiên cứu,
sẽ cung cấp cho người bán xe sử dụng công cụ định giá xe ô tô cũ hoặc sẽ là công ty tham
vận giá cho người bán, tùy theo chỉ phí hoa hồng mà họ nhận được.
Trang 13CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Giới thiệu bài báo mẫu
Bài báo mẫu mà nhóm tham khảo có tên là “Prediction of Prices for Used Car by Using Regression Models” (Dự đoán giá ô tô đã qua sử dụng bằng Mô hình hồi quy), Nitis, Prajak, Thongchai, Suwat, Sabir, & Pitchayakit (2018), duoc dang tai tai Sth International Conference on Business and Industrial Research (ICBIR), Bangkok, Thai Lan (2018) Dtr liệu nhóm thu thập cũng là bộ dữ liệu bài báo mẫu sử dụng là “Data Used Car” (Dữ liệu ô
tô đã qua sử dụng) trên Kaggle.com được tái lên bởi Orges Leka gồm 371.528 mau quan sát ô tô đã qua sử dụng và các thuộc tính của nó từ eBay — Kleinanzeigen, một trang thương
mại điện tử của Đức
Trong nghiên cứu của bài báo này, các tác giả đã thực hiện một nghiên cứu so sánh
về hiệu suất mô hình bằng phương pháp hồi quy Dữ liệu được sử dụng trong nghiên cứu
này được thu thập từ trang thương mại điện tử của Đức và sau đó dữ liệu được xử lý bằng cách sử dụng lập trình ngôn ngữ python Kết quá là đữ liệu cuối cùng có 304.133 hàng và
11 thuộc tính Nghiên cứu đã kiêm tra đữ liệu bằng cách sử dụng các mô hình: Multiple Linear Regression, Random Forest Regression, and Gradient Boosted Regression Trees
Mỗi mô hình đã được đánh giá bằng cách sử dụng cùng một đữ liệu thử nghiệm Kết quả
sau đó được so sánh bằng cách sử dụng sai số tuyệt đối trung bình làm tiêu chí Với mô hình Gradient Boosted Regression Trees cho kết quả cao nhất với MAE = 0,28 Theo sau boi Random Forest Regression với 0,35 va Multiple Linear Regression voi 0,55 Do do, bài nghiên cứu đã đưa ra kết luận rang m6 hinh Gradient Boosted Regression Trees duge
khuyên nghị dé phát trién mé hinh định giá
2.2 Một số định nghĩa
2.2.1 Big Data ứng dụng trong kinh doanh
Năm 2005, Big Data được giới thiệu và biết đến là công nghệ được sử dụng đề mô
tá việc khai thác các thông tin quan trọng từ nhiều nguồn khác nhau, sau đó các thông tin
này được tập hợp lại để phân tích Nhà nghiên cứu công nghiệp đã lần đầu tiên công bố
định nghĩa cho khái niệm Big Data với 3V: Volume (khối lượng) - Veloeity (nhanh chóng,
7
Trang 14tức thời) — Variety (đa dạng, không đồng nhất về câu trúc) Big Data không giới hạn 6 bat
cứ lĩnh vực nào, nhưng ở hệ thông doanh nghiệp, công nghệ này có khả năng đem tới hiệu quả vượt trội bởi không một mô hình dữ liệu nào đáp ứng đúng tiêu chí 3V của Big Data
như khối đữ liệu trong doanh nghiệp Cụ thể là, lượng dữ liệu không lồ được ghi lại trong suốt quá trình vận hành doanh nghiệp có nhiều nguồn, đồng nghĩa có rất nhiều loại cầu trúc
khác nhau và được cập nhật nhanh chóng, tức thì lên hệ thông
Nhưng sự thật là vẫn đang có những doanh nghiệp bỏ quên tầm quan trọng của Bigdata Dữ liệu đại điện cho khách hàng — không phải dữ liệu khách hàng nào cũng đến
từ hệ thông ERP mà đôi khi doanh nghiệp còn cần phải xem xét những phán hôi, bình luận trên mạng xã hội của khách hàng và khảo sát khách hàng Chính vì thế nếu biết vận dụng được nguồn đữ liệu, dù là đữ liệu phi cấu trúc hay cầu trúc thì cũng sẽ phần nào giái tỏa
được áp lực cho doanh nghiệp
Nhiều doanh nghiệp chưa có chiến lược Big Data rõ ràng thường có xu hướng thu thập được càng nhiều thông tin càng tốt, càng chỉ tiết, càng chính xác càng tốt Lượng đữ liệu này được hi vọng sẽ có thể giúp đội ngũ chuyên gia phân tích đữ liệu trong tương lai
đưa ra những thông tin có giá trị trong điều hành doanh nghiệp Tuy nhiên, điều này gây
áp lực lên hệ thống hạ tầng công nghệ thông tin của doanh nghiệp, và cũng không giúp
được nhiều cho các chuyên gia phân tích Vậy nên chiến lược xây dựng Big Data trong
doanh nghiệp nên bắt đầu từ việc đặt câu hỏi, những thông tin nào cần thiết, và có khả năng
đem lại giá trị trước khi bàn tới việc thu thập chúng từ đâu và như thế nào
Cac cong ty nhu Netflix va Procter & Gamble str dụng đữ liệu lớn để dự đoán nhu
cầu của khách hàng Họ xây dựng các mô hình dự đoán cho các sản phẩm và dịch vụ mới
bằng cách phân loại các thuộc tính chính của các sản phẩm hoặc địch vụ trong quá khứ và
hiện tại và mô hình hóa mỗi quan hệ giữa các thuộc tính đó và thành công thương mại của các dịch vụ Ngoài ra, P&G sử dụng dữ liệu và phân tích từ các nhóm tập trung, phương
tiện truyền thông xã hội, thị trường thử nghiệm và triển khai cửa hàng sớm đề lên kế hoạch,
sản xuất và ra mặt sản phâm mới
Trang 152.2.2 Azure Machine Learning
Máy học (Machine Learning) đang là một chủ để nóng vào thời điểm hiện tại Và
đặc biệt Big Data là một trong những lý do tại sao ảnh hưởng đến Machine Learning Hiện nay chúng ta có thê dạy máy thay vì lập trình chúng Sự sẵn có của dữ liệu lớn (Big Data)
để đào tạo các mô hình học máy có khá năng sảng lọc và học hỏi đề từ đó giúp con người
đưa ra những dự đoán hay phân loại kết quả có thể xảy ra
Azure Machine Learning 1a mét dich vy đám mây cho phép chúng ta có thê khởi tạo, quản lý, triển khai các model machine learning Azure Machine Learning cung cấp các dịch vụ chính như:
5° - Automated Machine Learning: Tạo nhanh các model từ dữ liệu
* Azure Machine Learning Designer: Mét nén tảng low-code giúp trực quan hóa giao
điện khi khởi tạo model
5 - Lưu trữ và xử lý dữ liệu: Nơi lưu trữ và xử lý dự liệu đảm mây một cách thuận tiện
có thể scale đễ đàng (Azure Machine Learning Workspace cho phép chúng ta có thé
lưu trữ, tạo máy ảo, thuê máy để train các model)
* Notebook & Pipelines: Nơi mà các Data Scientist, Software Engineers, có thê viết code, train, deploy và quản lý các tasks
2.2.3 Google Colaboratory
Al/Machine Learning/Deep Learning dang phat trién với tốc độ rất nhanh Đề viết một chương trình sử dụng framework về AI/Deep Learning như TensorFlow, Kera hay Pytorch, chúng ta có thé str dung bat ki Python IDE nao nhu PyCharm, Jupyter Notebook hay Atom Tuy nhiên, do những thuật to4n Machine Learning/Deep Learning yéu cau hé
thống phải có tốc độ và khá năng xử lý cao (thông thường dựa trên GPU), mà máy tính của
chúng ta thông thường không được trang bị GPU Từ đó, Google cho ra đời một dịch vụ hoàn toàn miễn phí dành cho cộng đồng nghiên cứu AI, phát triển các ứng dụng A1/Deep Learning bằng việc cung cấp GPU và TPU miễn phí - đó là Google Colaboratory (hay còn
gọi là Google Colab)
Trang 16Google Colab (Colaboratory) là một dịch vụ đám mây miễn phí, hiện nay có hễ trợ
GPU (Tesla K80) va TPU (TPUv2) Do duge phat trién dựa trên Jupiter Notebook nên việc
sử dụng Google Colab cũng tương tự nhu viéc str dung Jupyter Notebook Google Colab
là một công cụ lý tưởng để người dùng rèn luyện kĩ năng lập trình với ngôn ngữ Python thông qua cac thu vién cua deep learning
Google Colab cai dat săn cho người dùng những thư viện rất phô biến trong nghiên cutu Deep Learning nhu PyTorch, TensorFlow, Keras va OpenCV Google Colab cho phép chạy các dòng code python thông qua trình duyệt, đặc biệt phù hợp với Data analysis, Machine Learning và giáo dục Colab không cần yêu cầu cài đặt hay cầu hình máy tính, mọi thứ có thể chạy thông qua trình duyệt, người dùng có thể sử dụng tài nguyên máy tính
từ CPU tốc độ cao và cá GPUs và cá TPUs đều được cung cấp cho người dùng
2.3 Mô hình nghiên cứu trước:
Đề có thể xác định được một cách chính xác các yêu tô tác động đến giá xe đã qua
sử dụng, chúng ta cùng xem qua các bài báo và nghiên cứu đã được phân tích, thiết lập và chứng minh trước đó
2.3.1 Nghiên cứu của S Pudaruth
Tên bài báo: “Predicting the Price of Used Cars using Machine Learning Techniques”, S Pudaruth, International Journal of Information & Computation Technology, 2014 Pudaruth dy doan gid 6 t6 da qua str dung 6 Mauritius bang cach str dụng cac m6 hinh Multiple Linear Regression, K-Nearest Neighbors, Naive Bayes va Decision Trees Mặc dù kết quả của họ không tốt cho dự đoán giá xe do số lượng ô tô và thuộc tính quan sát ít, Pudaruth kết luận rằng Decision Trees Và Naive Bayes không thê
sử dụng cho biên có giá trị liên tục
2.3.2 Nghiên cứu của N Kanwal và J Sadaqat
Tên bài bao: “Vehicle Price Prediction System using Machine Learning Techniques”, N Kanwal va J Sadaqat, International Jounal of Computer Ap-plications,
2017
10
Trang 17N Kanwal và J Sadaqat đã sử dụng Multiple Linear Regression để dự đoán giá xe
ô tô Họ đã thực hiện lựa chọn thay đôi kỹ thuật dé tim các biến có ánh hưởng nhất sau đó loại bỏ phần còn lại Dữ liệu chí chứa biến đã chọn được sử dụng dé tạo thành mô hình hồi
quy tuyến tính Kết quả ấn tượng với R-Squared = 98%
2.3.3 Nghiên cứu của S Peerun, NH Chummun và S Pudaruth
Tén bai bao: “Predicting the Price of Second-hand Cars using Artificial Neural Networks”, S Peerun, N H Chummun, and S Pudaruth, The Second International Conference on Data Mining, Internet Computing, and Big Data, 2015
Peerun và cộng sự đã thực hiện một nghiên cứu để đánh giá hiệu suất của mạng nơ-
ron trong dự đoán giá ô tô đã qua sử dụng Tuy nhiên, giá trị dự đoán không gần lắm so với giá thực tế, đặc biệt là trên những chiếc xe có giá cao hơn Họ kết luận rằng thuật toán
Support Vector Machine Regression tốt hơn Neural Network và Linear Regression trong
dự đoán giá xe cũ
2.3.4 Nghiên cứu của N.Sun, H Bai, Y Geng và H Shi
Tén bai bao: “Price evaluation model in second-hand car system based on BP neural network theory”, 18th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD)
Sun và cộng sự đã đề xuất áp dụng mô hình đánh giá giá ô tô đã qua sử dụng trực tuyến sử dụng thuật toán BP neural network tối ưu hóa Họ đã giới thiệu một phương pháp tôi ưu hóa mới được gọi là Phương pháp Like Block-Monte Carlo (LB-MCM) để tối ưu
hóa các nơ-ron ân Kết quả cho thay rang mô hình được tôi ưu hóa mang lại độ chính xác
cao hơn so với mô hình không được tối ưu hóa Dựa trên các nghiên cứu liên quan trước
đó, họ nhận thay rang chưa có céng ty nao trong số họ thực hiện kỹ thuật gradient boosting trong dự đoán giá xe đã qua sử dụng Do đó, họ quyết định xây dựng một mô hình đánh giá giá ô tô đã qua sử dụng bằng cách sử dụng Gradient Boosted Regression Trees
11
Trang 18CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Ở chương này, nhóm sẽ mô tả khái quát bộ đữ liệu bao gồm phương pháp tìm kiếm
bộ đữ liệu, các đặc tính của mỗi biến trong bộ dữ liệu và các bước xử lý bộ dữ liệu trước
khi thực hiện phân tích mô hình nghiên cứu của đề tài Đồng thời, nhóm cũng sẽ trình bày
về phương pháp nghiên cứu sử dụng mô hình hồi quy với 3 thuật toán: Linear Regression, Boosted Decision Tree Regression và Random Forest Regression Đối với 2 thuật toán
Linear Regression va Boosted Decision Tree Regression, nhóm sẽ thực hiện chạy trên nên
tang Azure Machine Learning; voi riéng thuat toan Random Forest Regression thi sé duoc
thực hiện chạy trên nền tảng Google Colaboratory
3.1 Quy trình nghiên cứu
Để xử lý đữ liệu một cách hiệu quá, nhóm đã xây dựng nên quy trình nghiên cứu
thé hiện trình tự các bước cụ thể cần làm nhằm định hướng cho quá trình nghiên cứu của
nhóm, từ đó giảm thiêu các sai sót và nhâm lân không đáng có khi thực hiện
Thu thập dữ liệu
Làm sạch dữ liệu Xử lý dữ liệu >| Chuyển đổi dữ liệu
Phân tích dữ liệu
Mô hình hồi quy
So sanh va danh giá mô hình
Trang 193.2 Mô tả bộ dữ liệu
3.2.1 Khái quát bộ dữ liệu
Trong bài nghiên cứu này, nhóm đã tìm kiếm và thu thập được bộ đữ liệu thứ cấp
từ website www.kaggle.com Do bộ đữ liệu gốc sử dụng trong bài nghiên cứu mẫu được đăng tải bởi Orges Leka đã bị xoá trước đó nên nhóm chỉ thu thập được bộ dữ liệu đã được
“làm sạch” một phần nhưng vẫn giữ nguyên gần như hầu hết các giá trị có ý nghĩa khác
trong bộ đữ liệu
Bộ đữ liệu nhóm tìm kiếm được bao gồm 312.729 mẫu với 15 biến là các thuộc tính
của ô tô đã qua sử dụng, được thu thập từ eBay — Kleinanzeigen, một trang thương mại
1 dateCrawled price vehidelyne yearOfRegisratiom gearbox powerPS model kilometer monthOfRegistraton fuelType brand notHepairedDamage datereated gostaiCode —_lastseen
1g 1/4/2016 13:56 coupe 2003 manuell nen 1/4/2016 000 75365 5/4/2016 15:45
3.2.2 Định nghĩa thuộc tính các biến
Theo bài báo mẫu, về mặt kỹ thuật, các biến như dateCrawled, lastSeen, Postal- Code và dateCreate hoàn toàn không có sự ảnh hưởng đến việc dự đoán giá do đó chúng
sẽ bị loại bỏ để cái thiện độ chính xác cho mô hình nghiên cứu Như vậy, nhóm sẽ chỉ sử
dụng 11 biến còn lại để thực hiện nghiên cứu Thuộc tính của các biến sẽ được trình bày chỉ tiết theo bảng dưới đây
13
Trang 20Bang 3.1 Mô tá thuộc tính các biến dùng trong bài nghiên cứu
1 | monthOfRegistration Tháng đăng kí mua xe được thê hiện trên giây tờ Numeric
sở hữu xe
2 yearOfRegistration Nam dang ki mua xe được thê hiện trên giây tờ Numeric
sở hữu xe
3 powerPS Chỉ số mã lực (công suất) của xe Numeric
4 kilometer Sé kilometer xe da di duoc Numeric
Loai xe gom cac gid tri: Sedan, SUV, Xe 6 t6 con : (Small car), Bus, Kombi (mini bus), Xe mui tran
5 vehicleType (Convertible), Xe thể thao (Coupe) và Khác | CAf°gorical
(Other)
Hộp số xe gồm 2 giá trị: Số sàn (Manual) và số -
7 brand Hãng xe gồm 39 giá trị khác nhau Categorical
8 model Tên dòng xe gồm 251 dòng xe khác nhau Categorical
Loại nhiên liệu xe sử dụng gồm 7 giá trị: Xăng (Benzin), Dầu (Diesel), Điện (Electronie), Khí
9 tuelType nén thiên nhiên (Cng), Khí dầu mé hod léng _ | Categorical
(Lpg), Động cơ lai điện (Hybrid) và Other (Khác)
10 | notRepairedDamage Tình trạng đã qua hư hỏng sua chữa chưa, gom 2 gia tri: Yes va No Categorical
14
Trang 213.3 Xử lý dữ liệu
Sau khi chọn ra các biên cân thiệt cho đê tài, nhóm tiếp tục sử dung phan mém
Microsoft Excel cho các bước xử lý bộ dữ liệu của bài nghiên cứu, bao gôm các bước như
sau
Bước 1: Vì dữ liệu gốc là tiếng Đức nên nhóm đã tiễn hành chuyển đổi ngôn ngữ các giá trị của biên sang tiếng Anh để thuận lợi trong quá trình phân tích bộ dữ liệu
Bước 2: Nhóm tiếp tục làm sạch đữ liệu bằng cách lọc và loại bỏ những mẫu có
chứa giá trị trong (“blank”) trong bộ đữ liệu để tránh gây nhiễu thông tin khi thực hiện phương pháp dự đoán, làm tăng độ chính xác cho việc phân tích
Bước 3: Dỗi với biến “monthOfRegistration”, nhóm nhận thấy có tôn tại giá trị “0” cho biến này, do đó nhóm đã loại bỏ những mẫu chứa giá trị này do đây là giá trị không
hợp lý cho biến thê hiện thang dang ki xe
Sau khi thực hiện xong các bước xử lý trên, bộ dữ liệu được thé hién voi 242.230
mẫu tương ứng I1 biến và không còn chứa các giá trị trong (missing values) nia
2 Small car Manual 6 200: T75 Volkswagen golf 150000 benzin No
3 Small car Manual 7 2008 69 Skoda fabia 90000 diesel No 3600
4 Sedan Manual 10 1995 102 BMW 3er 150000 benzin Yes 650
5 Convertible Manual 8 2004 109 Peugeot 2 reihe 150000 benzin No 2200
6 Sedan Manual 12 2004 10S Mazda 3_reihe 150000 benzin No 2000
7 Kombi Manual 12 2005 140 Volkswagen passat 150000 diesel Yes 2799
8 SUV Manual 3 2011 190 Nissan navara 70000 diesel No 17999
9 Small car Automatic 2 2004 +5 Renault twingo 150000 benzin No 1750
10 Bus Manual 6 2007 136 Ford € max 150000 diesel No 7550
11 Bus Manual 1 2004 102 Mercedes Benr a klasse 150000 benzin No 1850
12 Coupe Manual 4 2009 160 Volkswagen scirocco 100000 benzin No 10400
13 Sedan Automatic 7 2002 231 BMW Ser 150000 benzin No 3699
14 Small car Manual 5 1997 50 Seat arosa 150000 benzin No 450
15 Sedan Manual 10 1990 118 Mercedes _Benz andere 150000 benzin Yes 500
16 Kombi Automatic 9 2002 193 BMW Ser 150000 diesel Yes 2500
17 Sedan Manual 11 2008 ss Honda civic 60000 benzin No 6900
18 Bus Manual 1 1981 50 Volkswagen transporter 5000 benzin No 1990
19 Small car Manual 3 2003 60 Fiat punto 150000 benzin No 690
20 Sedan Automatic 1 1995 113 Mercedes Benz e_klasse 150000 diesel No 3300
21 ‘Sedan Automatic 5 2007 218 BMW 3er 20000 benzin No 18000
22 Sedan Automatic u 2004 122 Mercedes Benz e klasse 150000 diesel No 3500
23 other Manual 11 2002 123 Volkswagen andere 150000 diese! No 11900 a4 Bus Manual 8 1984 7O Mercedes_Benz andere 150000 diesel No 1500
25 Sedan Manual 8 2007 95 Mini one 100000 benzin No 6990
26 Small car Manual 8 1999 T5 Renault clio 125000 benzin No 590
27 Sedan Manual 8 2007 177 BMW ler 150000 diesel No 7999
28 Kombi Automatic 2 1998 193 BMW Ser 150000 benzin No 2100
29 Bus Automatic 7 2012 105 Mercedes Benz b klasse 150000 diesel No 13500
Hình 3.3 Bộ dữ liệu đã qua xử lý
15