Báo cáo cuối kì môn Ứng dụng phân tích dữ liệu lớn trong quản lý Đề tài nghiên cứu mô hình dự Đoán giá bán lại xe Ô tô Đã qua sử dụng tại Đức

LỜI CẢM ƠN Lời đầu tiên nhóm xin trân trọng gửi lời cảm ơn chân thành và sự kính trọng tới các Thầy và Cô khoa Quản trị kinh doanh trường Đại học Tôn Đức Thắng đã tạo điều kiện cho chúng

Trang 1

TỎNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

TRUONG DAI HOC TON DUC THANG

KHOA QUAN TRI KINH DOANH

TON DUC THANG UNIVERSITY

BAO CAO CUOI ki MON: UNG DUNG PHAN TICH DU LIEU LON

TRONG QUAN LY

DE TAI: NGHIEN CUU MO HINH DU DOAN GIA BAN LAI XE

Ô TÔ ĐÃ QUA SỬ DỤNG TẠI ĐỨC

Giảng viên bộ môn: Ths Phạm Ngọc Bảo Duy Chuyên ngành: Kinh doanh Quốc tế Nhóm lớp: 05

Nhom sinh vién thuc hilln: BESTIES

1 Nguyễn Đinh Thuý Ngân 71802260

2 Lê Ngọc Phương Như 71802271

3 Trần Thị Khánh Linh 71802243

4 Châu Hồng Ngọc 71802265

TP HÒ CHÍ MINH, THÁNG 09 NĂM 2021

Trang 2

NHAN XET CUA GIANG VIÊN

Trang 3

LỜI CẢM ƠN Lời đầu tiên nhóm xin trân trọng gửi lời cảm ơn chân thành và sự kính trọng tới các Thầy và Cô khoa Quản trị kinh doanh trường Đại học Tôn Đức Thắng đã tạo điều kiện

cho chúng em có cơ hội được học tập môn Ứng Dụng Phân Tích Dữ Liệu Lớn Trong Quản

Lý, và đặc biệt la thay Pham Ngoc Bao Duy đã tận tình giảng dạy, hướng dẫn và hỗ trợ

nhóm trong suốt quá trình thực hiện bài nghiên cứu này

Môn học Ứng Dụng Phân Tích Dữ Liệu Lớn Trong Quản Lý đối với nhóm chúng

em là một môn học có tính áp dụng thực tế cao nhưng nó lại không hề dễ dàng vì yêu cầu vốn kiến thức rộng, khả năng suy nghĩ, phân tích logic và tự nghiên cứu Tuy nhiên chúng

em cảm thấy đây là môn học vô cùng bỏ ích và rất thực tế vì nó giúp cho chúng em mở rộng được tư duy cũng như định hướng được các phương pháp làm việc và nghiên cứu mới

trong tương lai, bắt kịp xu hướng thay đổi nhanh của thế giới Do giới hạn về thời gian

nghiên cứu cũng như lượng kiến thức, thông tin thu thập còn hạn chế nên bài nghiên cứu của chúng em không tránh khỏi những thiếu sót trong quá trình nghiên cứu và thực hiện

Vì vậy, nhóm em rất mong nhận được sự góp ý và đánh giá chân thành của các thầy, các

cô trường Đại học Tôn Đức Thắng đề bài luận hoàn thiện hơn, có giá trị về mặt lý luận và

thực tiễn, cũng như là nguồn tham khảo bồ ích cho nhóm trong tương lại

Chúng em xin chan thành cảm ơn!

Trang 4

BANG PHAN CONG CONG VIEC

STT Ho va tén MSSV Nội dung công việc hoàn thành Mức độ

Nguyễn Đinh Thuý Ngân 71802260

Phân công nhiệm vụ, tổng

hợp, kiểm tra bài

Chạy các mô hình thuật toán trên Azure

Trình bày chương 4 + Š

100%

Lê Ngọc Phương Như 71802271

Chạy mô hình trên Google Colaboratory

Trình bày chương 3 + 5 Tổng hợp và định dạng bài

Trang 5

DANH MỤC HÌNH Hình 1.1 Báng so sánh doanh số bán xe mới của một sô khu vực trên thế giới năm 2021

Hình 3.I Quy trình thực hiện nghiên cứu

Hình 3.2 Bộ dữ liệu gốc từ Kaggle

Hình 3.3 Bộ dữ liệu đã qua xử lý

Hình 4.1 Xây dựng mô hình dự đoán bằng thuật toán Linear Regression

Hình 4.2 Mô hình Linear Regression sau khi trién khai Web Service

Hình 4.3 Xây dựng mô hình dự đoán bằng thuật toán Boosted Decision Tree Regression Hinh 4.4 M6 hinh Boosted Decision Tree sau khi triển khai Web Service

Hình 4.5 Import thu vién

Hình 4.6 Import bộ dữ liệu

Hình 4.7 Thông kê mô tả đữ liệu

Hình 4.8 Mã hóa các biến

Hình 4.9 Biểu diễn bộ dữ liệu sau khi đã mã hóa

Hình 4.10 Chọn các cột dữ liệu dé train model va Tach dit liệu

Hình 4.11 Xây dựng model bằng thuật toán Randon Forest Regression

Hình 4.12 Đánh giá mô hình Random Forest Regression

Hình 4.13 Bảng so sánh ba mô hình theo các tiêu chí đánh giả

Hình 4.14 Kết quả Test Model của Random Forest (1)

Hình 4.15 Kết quả Test Model của Random Forest (2)

Hình 4.16 Giao diện Web Services

Hinh 4.17: Két qua Test Model ctia Boosted Decision Tree Regression (1)

Hinh 4.18: Két qua Test Model ctia Boosted Decision Tree Regression (2)

Trang 6

DANH MUC BANG BIEU

Bang 4.1 Théng ké mé ta bién dang Numerical

Bảng 4.2 Théng ké mé ta bién dang categorical

Bảng 4.3 Mô tả 5 biến có hệ số tương quan cao nhất so với biến phụ thuộc

Bảng 4.4 Kết quả đánh giá mô hình Linear Regression

Bang 4.5 Két qua danh gid mé hinh Boosted Decision Tree Regression Bảng 4.6 Kết quả đánh giá mô hình Random Forest Regression

Trang 7

LL Ly do Chom T86 -4.dA.dA , HAHHHH 4

In i0 0u 0h 5 1.3 Đối tượng, phạm vi nghiên cứu . - 5-5222 ©2222E+212211221222122122112212212 22122222 5 1.4 902i 8.00 2n i00 0n 6

2.3.1 Nghiên cứu của ŠS Pudarut(h: - 5 +5 + kh HH nhe 10 2.3.2 Nghiên cứu của N Kanwal và J SadaQat - - ác SH Hy He 10 2.3.3 Nghiên cứu của S Peerun, NH Chummun và § Pudaruth .- 11 2.3.4 Nghiên ctru cua N.Sun, H Bai, Y Geng và H Shi -.- << cs< sec rr 11 CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 12 S89) nïï)ï(0 20 0 12 K80 0 13 3.2.1 Khái quát bộ dữ lIỆU - . - 5 22222 92E 93213931393 xxx HH HH nhe 13

3.2.2 Dịnh nghĩa thuộc tính các biến - 2£ 52©52+SE2222£EE22E222E22222222222222-22, 13

E900 0 15

3.4.1 Thuật toán Linear RÑ€BT€SSIOTI - 25 <5 ST HH HH nhe 16 3.4.2 Thuật toán Boosted Decision Tree R€BT€SSIOI - 5 S5 se reeererre 16

Trang 8

3.4.3 Thuật toán Random Forest R€BT€SSIOI - 5 <5 SH ngư ngư nry 17

4.1 Cac tiéu chi danh 914.6 n6 18 4.2 Kết qua nghién ctru cla cdc m6 BiH oo eeccesesesssessessesssessesestsseessecssseesetsseeeseees 19 CV”, bi 00.8 on cố 21 4.2.2 M6 hinh Boosted Decision Tree ReøØT€SSIOII 55-55522222 E+sszsrerrerze 22 4.2.3 Mô hình Random Forest RÑ€BT€SSIOI1 Ác Sex HH ng re 23 4.3 So sánh kết quá nghiên cứu của các mô hình 2 2 522222 s222£+zxz2zxzzxczxz 27

5.1 Tóm tắt kết quá nghiên €ứu 2-2 2£ ©22+E£+EE£SEE+EE+EEE2EE22E22122322112222222222e22, 31

5.2 Ý nghĩa nghiên cứu và hạn chế của đề tài 2-.2- 522 ©2222x+2Ez2232222222222zczxee, 31

5.2.2 Hạn chế của để ti eecsseecccseeeeecsssseecsssseeecsssetessssneeeessseuesessnmisessnnteeessneessneeeee 32 16c oan cán 33 5.3.1 Xây dựng ứng dụng phục vụ cho việc dự đoán giá bản lại xe cũ trên thị trường

¬" ,Ô 33

Trang 9

TÓM TÁT BÁO CÁO

Bài báo cáo “Dự đoán giá ô tô đã qua sử dụng bằng Mô hình hồi quy” được thực hiện nhằm xác định các nhân tô ánh hưởng đến giá bán của xe đã qua sử dụng: trường hợp

nghiên cứu thực nghiệm ở Đức với 242.230 mẫu quan sát

Trong nghiên cứu này, nhóm sử dụng các mô hình Linear Regression, Random

Forest Regression, and Gradient Boosted Decision Trees dya trên tập dữ liệu cụ thể có

trong bài báo nghiên cứu nhằm xác định, đo lường mức độ ảnh hưởng của các thuộc tính của xe lên giá bán của xe đã qua sử dụng ở Đức Sau khi xem xét một cách kỹ lưỡng, nhóm nhận thấy việc sử dụng 2 phần mềm Azure Machine Learning và Google Colaboratory cho

bài nghiên cứu là phù hợp đề có thê xây dựng đầy đủ ba mô hình theo bài báo mẫu Từ đó, xác định được sự tác động của các biến độc lập lên các biến phụ thuộc, độ chính xác của từng mô hình áp dụng và cuối cùng là đưa ra sự so sánh kết quả giữa các mô hình dự đoán

Kết quả nghiên cứu tông hợp cho thấy, các nhân tổ tác động đến giá xe đã qua sử dụng tại Đức nhiều nhất bao gồm: mã lực, tên hãng xe, dòng xe, năm đăng ký và số ki-lô-mét đi được

Từ kết quả nghiên cứu, nhóm đề xuất mô hình dự đoán giá chính xác nhất trong các

mô hình nhằm giúp các doanh nghiệp mua bán xe cũ và người mua xe cũ xác định chính

xác hơn giá trị của xe đê có thể mua xe với giá hợp ly cũng như bán xe phù hợp với giá thị

trường Không ít bài báo đã nghiên cứu về vấn đề dự đoán giá xe này nhưng với kết quả qua những số liệu được chạy khảo sát nhóm hy vọng sẽ góp một chút nho nhỏ để các doanh nghiệp cũng như người mua không chỉ ở Đức nói riêng mà trong ca ngành mua bán xe nói chung xác định được các yếu tô và thuộc tính của xe tác động tới giá dé có thể đưa ra dự

đoán tốt nhất Cuối cùng, nhóm đưa ra những hạn chế của đề tài nghiên cứu để đưa ra

những kiến nghị, hàm ý quản trị cho doanh nghiệp và giải pháp cho người mua

Trang 10

CHƯƠNG 1: TỎNG QUAN NGHIÊN CỨU

1.1 Lý do chọn đề tài

Trong khi nền kinh tế ở hầu hết các quốc gia đang bị đại địch Covid-19 vùi đập, thì nền công nghiệp ô tô đang có dấu hiệu khởi sắc trở lại Trong quý đầu tiên của năm

2021, các thị trường xe ô tô lớn trên toàn thế giới phần lớn dân phục hồi sau sự đóng cửa

ở nhiều quốc gia do đại dịch từ đầu năm 2020 Tại Trung Quốc, doanh sô bán xe mới gần

76% so với ba tháng đầu năm 2020 Thị trường Mỹ tăng 11% và khu vực châu Âu tăng

0.9% Sự phát triển mạnh mẽ của ngành công nghiệp ô tô được xem là nhân tô tác động tích cực thúc đây các ngành có liên quan phát triên, tạo động lực xây dựng nền công nghiệp

hóa, hiện đại hóa đât nước

mm D

Hình 1.1 Bảng so sánh doanh số bán xe mới của một số khu vực trên thể giới năm 2021 (Nguồn:

VDA)

Trong sô các quốc gia có nền công nghiệp ô tô thì nước Đức được xem là một trong

những “cái nôi” của nền công nghiệp ô tô thế giới với những thương hiệu hàng đầu như

Audi, Mercedes - Benz, BMW, Volkswagen, Porsche, Để sở hữu một chiếc xe mới, hoàn thiện thì đi kèm theo đó là giá bán sẽ rất cao, chi phí vận hành cũng đắt đỏ không

kém Xét về nhu cầu ô tô cá nhân trên toàn thế giới, kê cả dòng cao cấp hay bình dân, cùng

voi su mat gia nhanh của thị trường xe ô tô mới, nhu câu của thị trường ô tô cũ đã, đang và

Trang 11

Sẽ tăng cao và tạo cơ hội kinh doanh cho cả người mua và người bán Việc tạo ra một công

cụ dự đoán được giá bán lại xe ô tô cũ trên thị trường là một vấn đề mang tính áp dụng cao

Từ những yếu tổ trên, nhóm quyết định chọn đề tài “NGHIÊN CỨU MÔ HÌNH DỰ DOAN GIA BAN LẠI XE Ô TÔ ĐÃ QUA SỬ DỤNG TẠI ĐỨC” làm đề tài báo cáo của

nhóm

1.2 Mục tiêu nghiên cứu

Mục tiêu nghiên cứu chính của chúng tôi là sử dụng dữ liệu thị trường ô tô đã qua

sử dụng được thu thập từ trang web thương mại điện tử của Đức thực hiện ba mô hình bao gồm Linear Regression, Boosted Decision Tree Regression, Random Forest Regression bang céng cy Azure Machine Learning Studio dé tìm ra mô hình dự đoán tốt nhất để dự đoán giá xe đã qua sử dụng

Từ mục tiêu nghiên cứu đó, nhóm đưa ra được bộ câu hỏi nghiên cứu như sau:

% Q1: Mức độ tác động của các yếu tô đến giá xe đã qua sử dụng?

s* Q2: Phương pháp dự báo nào dự báo giá bán xe đã qua sử dụng một cách

chính xác nhật?

1.3 Đối tượng, phạm vỉ nghiên cứu

- _ Đối tượng nghiên cứu: Tập trung vào các mô hình dự đoán giá xe đã qua sử dụng

- Phạm vi nghiên cứu:

o_ Phạm vi không gian: Thị trường xe ô tô đã qua sử dụng ở Đức

o Pham vi nội dung: Nguồn đữ liệu được sử dung dé thực hiện mô hình

nghiên cứu có 11 cột bao gồm các biến:

Trang 12

Đối với người bán: Giúp người bán định giá ô tô đã qua sử dụng một cách chính

xác hơn, phù hợp với chất lượng và dịch vụ của người bán Đông thời, đây sẽ là giải pháp

dự báo nội bộ tạo nên lợi thế so với các đôi thủ cạnh tranh, thay vì dựa trên các ước tính

gid tri thặng dư được tạo ra bên ngoài để quyết định giá bán

Đối với người mua: Thị trường này không có giá niêm yết có định, người mua hay

bị hoang mang về chất lượng có phù hợp với giá cả mà người bán đưa ra hay không? Mua với giá này thì có lời hay lỗ so với xe mới? Nghiên cứu này sẽ giúp người mua tránh gặp rủi ro trong vấn đề về giá, có lựa chọn đúng đắn về sản pham mà không lăn tăn về giá

Đối với bên thứ ba: Là bên được người bán thuê ngoai để định giá xe ô tô cũ khi họ

không có đủ nguồn lực, công nghệ và chuyên môn Bên thứ ba dựa vào kết quả nghiên cứu,

sẽ cung cấp cho người bán xe sử dụng công cụ định giá xe ô tô cũ hoặc sẽ là công ty tham

vận giá cho người bán, tùy theo chỉ phí hoa hồng mà họ nhận được.

Trang 13

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1 Giới thiệu bài báo mẫu

Bài báo mẫu mà nhóm tham khảo có tên là “Prediction of Prices for Used Car by Using Regression Models” (Dự đoán giá ô tô đã qua sử dụng bằng Mô hình hồi quy), Nitis, Prajak, Thongchai, Suwat, Sabir, & Pitchayakit (2018), duoc dang tai tai Sth International Conference on Business and Industrial Research (ICBIR), Bangkok, Thai Lan (2018) Dtr liệu nhóm thu thập cũng là bộ dữ liệu bài báo mẫu sử dụng là “Data Used Car” (Dữ liệu ô

tô đã qua sử dụng) trên Kaggle.com được tái lên bởi Orges Leka gồm 371.528 mau quan sát ô tô đã qua sử dụng và các thuộc tính của nó từ eBay — Kleinanzeigen, một trang thương

mại điện tử của Đức

Trong nghiên cứu của bài báo này, các tác giả đã thực hiện một nghiên cứu so sánh

về hiệu suất mô hình bằng phương pháp hồi quy Dữ liệu được sử dụng trong nghiên cứu

này được thu thập từ trang thương mại điện tử của Đức và sau đó dữ liệu được xử lý bằng cách sử dụng lập trình ngôn ngữ python Kết quá là đữ liệu cuối cùng có 304.133 hàng và

11 thuộc tính Nghiên cứu đã kiêm tra đữ liệu bằng cách sử dụng các mô hình: Multiple Linear Regression, Random Forest Regression, and Gradient Boosted Regression Trees

Mỗi mô hình đã được đánh giá bằng cách sử dụng cùng một đữ liệu thử nghiệm Kết quả

sau đó được so sánh bằng cách sử dụng sai số tuyệt đối trung bình làm tiêu chí Với mô hình Gradient Boosted Regression Trees cho kết quả cao nhất với MAE = 0,28 Theo sau boi Random Forest Regression với 0,35 va Multiple Linear Regression voi 0,55 Do do, bài nghiên cứu đã đưa ra kết luận rang m6 hinh Gradient Boosted Regression Trees duge

khuyên nghị dé phát trién mé hinh định giá

2.2 Một số định nghĩa

2.2.1 Big Data ứng dụng trong kinh doanh

Năm 2005, Big Data được giới thiệu và biết đến là công nghệ được sử dụng đề mô

tá việc khai thác các thông tin quan trọng từ nhiều nguồn khác nhau, sau đó các thông tin

này được tập hợp lại để phân tích Nhà nghiên cứu công nghiệp đã lần đầu tiên công bố

định nghĩa cho khái niệm Big Data với 3V: Volume (khối lượng) - Veloeity (nhanh chóng,

7

Trang 14

tức thời) — Variety (đa dạng, không đồng nhất về câu trúc) Big Data không giới hạn 6 bat

cứ lĩnh vực nào, nhưng ở hệ thông doanh nghiệp, công nghệ này có khả năng đem tới hiệu quả vượt trội bởi không một mô hình dữ liệu nào đáp ứng đúng tiêu chí 3V của Big Data

như khối đữ liệu trong doanh nghiệp Cụ thể là, lượng dữ liệu không lồ được ghi lại trong suốt quá trình vận hành doanh nghiệp có nhiều nguồn, đồng nghĩa có rất nhiều loại cầu trúc

khác nhau và được cập nhật nhanh chóng, tức thì lên hệ thông

Nhưng sự thật là vẫn đang có những doanh nghiệp bỏ quên tầm quan trọng của Bigdata Dữ liệu đại điện cho khách hàng — không phải dữ liệu khách hàng nào cũng đến

từ hệ thông ERP mà đôi khi doanh nghiệp còn cần phải xem xét những phán hôi, bình luận trên mạng xã hội của khách hàng và khảo sát khách hàng Chính vì thế nếu biết vận dụng được nguồn đữ liệu, dù là đữ liệu phi cấu trúc hay cầu trúc thì cũng sẽ phần nào giái tỏa

được áp lực cho doanh nghiệp

Nhiều doanh nghiệp chưa có chiến lược Big Data rõ ràng thường có xu hướng thu thập được càng nhiều thông tin càng tốt, càng chỉ tiết, càng chính xác càng tốt Lượng đữ liệu này được hi vọng sẽ có thể giúp đội ngũ chuyên gia phân tích đữ liệu trong tương lai

đưa ra những thông tin có giá trị trong điều hành doanh nghiệp Tuy nhiên, điều này gây

áp lực lên hệ thống hạ tầng công nghệ thông tin của doanh nghiệp, và cũng không giúp

được nhiều cho các chuyên gia phân tích Vậy nên chiến lược xây dựng Big Data trong

doanh nghiệp nên bắt đầu từ việc đặt câu hỏi, những thông tin nào cần thiết, và có khả năng

đem lại giá trị trước khi bàn tới việc thu thập chúng từ đâu và như thế nào

Cac cong ty nhu Netflix va Procter & Gamble str dụng đữ liệu lớn để dự đoán nhu

cầu của khách hàng Họ xây dựng các mô hình dự đoán cho các sản phẩm và dịch vụ mới

bằng cách phân loại các thuộc tính chính của các sản phẩm hoặc địch vụ trong quá khứ và

hiện tại và mô hình hóa mỗi quan hệ giữa các thuộc tính đó và thành công thương mại của các dịch vụ Ngoài ra, P&G sử dụng dữ liệu và phân tích từ các nhóm tập trung, phương

tiện truyền thông xã hội, thị trường thử nghiệm và triển khai cửa hàng sớm đề lên kế hoạch,

sản xuất và ra mặt sản phâm mới

Trang 15

2.2.2 Azure Machine Learning

Máy học (Machine Learning) đang là một chủ để nóng vào thời điểm hiện tại Và

đặc biệt Big Data là một trong những lý do tại sao ảnh hưởng đến Machine Learning Hiện nay chúng ta có thê dạy máy thay vì lập trình chúng Sự sẵn có của dữ liệu lớn (Big Data)

để đào tạo các mô hình học máy có khá năng sảng lọc và học hỏi đề từ đó giúp con người

đưa ra những dự đoán hay phân loại kết quả có thể xảy ra

Azure Machine Learning 1a mét dich vy đám mây cho phép chúng ta có thê khởi tạo, quản lý, triển khai các model machine learning Azure Machine Learning cung cấp các dịch vụ chính như:

5° - Automated Machine Learning: Tạo nhanh các model từ dữ liệu

* Azure Machine Learning Designer: Mét nén tảng low-code giúp trực quan hóa giao

điện khi khởi tạo model

5 - Lưu trữ và xử lý dữ liệu: Nơi lưu trữ và xử lý dự liệu đảm mây một cách thuận tiện

có thể scale đễ đàng (Azure Machine Learning Workspace cho phép chúng ta có thé

lưu trữ, tạo máy ảo, thuê máy để train các model)

* Notebook & Pipelines: Nơi mà các Data Scientist, Software Engineers, có thê viết code, train, deploy và quản lý các tasks

2.2.3 Google Colaboratory

Al/Machine Learning/Deep Learning dang phat trién với tốc độ rất nhanh Đề viết một chương trình sử dụng framework về AI/Deep Learning như TensorFlow, Kera hay Pytorch, chúng ta có thé str dung bat ki Python IDE nao nhu PyCharm, Jupyter Notebook hay Atom Tuy nhiên, do những thuật to4n Machine Learning/Deep Learning yéu cau hé

thống phải có tốc độ và khá năng xử lý cao (thông thường dựa trên GPU), mà máy tính của

chúng ta thông thường không được trang bị GPU Từ đó, Google cho ra đời một dịch vụ hoàn toàn miễn phí dành cho cộng đồng nghiên cứu AI, phát triển các ứng dụng A1/Deep Learning bằng việc cung cấp GPU và TPU miễn phí - đó là Google Colaboratory (hay còn

gọi là Google Colab)

Trang 16

Google Colab (Colaboratory) là một dịch vụ đám mây miễn phí, hiện nay có hễ trợ

GPU (Tesla K80) va TPU (TPUv2) Do duge phat trién dựa trên Jupiter Notebook nên việc

sử dụng Google Colab cũng tương tự nhu viéc str dung Jupyter Notebook Google Colab

là một công cụ lý tưởng để người dùng rèn luyện kĩ năng lập trình với ngôn ngữ Python thông qua cac thu vién cua deep learning

Google Colab cai dat săn cho người dùng những thư viện rất phô biến trong nghiên cutu Deep Learning nhu PyTorch, TensorFlow, Keras va OpenCV Google Colab cho phép chạy các dòng code python thông qua trình duyệt, đặc biệt phù hợp với Data analysis, Machine Learning và giáo dục Colab không cần yêu cầu cài đặt hay cầu hình máy tính, mọi thứ có thể chạy thông qua trình duyệt, người dùng có thể sử dụng tài nguyên máy tính

từ CPU tốc độ cao và cá GPUs và cá TPUs đều được cung cấp cho người dùng

2.3 Mô hình nghiên cứu trước:

Đề có thể xác định được một cách chính xác các yêu tô tác động đến giá xe đã qua

sử dụng, chúng ta cùng xem qua các bài báo và nghiên cứu đã được phân tích, thiết lập và chứng minh trước đó

2.3.1 Nghiên cứu của S Pudaruth

Tên bài báo: “Predicting the Price of Used Cars using Machine Learning Techniques”, S Pudaruth, International Journal of Information & Computation Technology, 2014 Pudaruth dy doan gid 6 t6 da qua str dung 6 Mauritius bang cach str dụng cac m6 hinh Multiple Linear Regression, K-Nearest Neighbors, Naive Bayes va Decision Trees Mặc dù kết quả của họ không tốt cho dự đoán giá xe do số lượng ô tô và thuộc tính quan sát ít, Pudaruth kết luận rằng Decision Trees Và Naive Bayes không thê

sử dụng cho biên có giá trị liên tục

2.3.2 Nghiên cứu của N Kanwal và J Sadaqat

Tên bài bao: “Vehicle Price Prediction System using Machine Learning Techniques”, N Kanwal va J Sadaqat, International Jounal of Computer Ap-plications,

2017

10

Trang 17

N Kanwal và J Sadaqat đã sử dụng Multiple Linear Regression để dự đoán giá xe

ô tô Họ đã thực hiện lựa chọn thay đôi kỹ thuật dé tim các biến có ánh hưởng nhất sau đó loại bỏ phần còn lại Dữ liệu chí chứa biến đã chọn được sử dụng dé tạo thành mô hình hồi

quy tuyến tính Kết quả ấn tượng với R-Squared = 98%

2.3.3 Nghiên cứu của S Peerun, NH Chummun và S Pudaruth

Tén bai bao: “Predicting the Price of Second-hand Cars using Artificial Neural Networks”, S Peerun, N H Chummun, and S Pudaruth, The Second International Conference on Data Mining, Internet Computing, and Big Data, 2015

Peerun và cộng sự đã thực hiện một nghiên cứu để đánh giá hiệu suất của mạng nơ-

ron trong dự đoán giá ô tô đã qua sử dụng Tuy nhiên, giá trị dự đoán không gần lắm so với giá thực tế, đặc biệt là trên những chiếc xe có giá cao hơn Họ kết luận rằng thuật toán

Support Vector Machine Regression tốt hơn Neural Network và Linear Regression trong

dự đoán giá xe cũ

2.3.4 Nghiên cứu của N.Sun, H Bai, Y Geng và H Shi

Tén bai bao: “Price evaluation model in second-hand car system based on BP neural network theory”, 18th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD)

Sun và cộng sự đã đề xuất áp dụng mô hình đánh giá giá ô tô đã qua sử dụng trực tuyến sử dụng thuật toán BP neural network tối ưu hóa Họ đã giới thiệu một phương pháp tôi ưu hóa mới được gọi là Phương pháp Like Block-Monte Carlo (LB-MCM) để tối ưu

hóa các nơ-ron ân Kết quả cho thay rang mô hình được tôi ưu hóa mang lại độ chính xác

cao hơn so với mô hình không được tối ưu hóa Dựa trên các nghiên cứu liên quan trước

đó, họ nhận thay rang chưa có céng ty nao trong số họ thực hiện kỹ thuật gradient boosting trong dự đoán giá xe đã qua sử dụng Do đó, họ quyết định xây dựng một mô hình đánh giá giá ô tô đã qua sử dụng bằng cách sử dụng Gradient Boosted Regression Trees

11

Trang 18

CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Ở chương này, nhóm sẽ mô tả khái quát bộ đữ liệu bao gồm phương pháp tìm kiếm

bộ đữ liệu, các đặc tính của mỗi biến trong bộ dữ liệu và các bước xử lý bộ dữ liệu trước

khi thực hiện phân tích mô hình nghiên cứu của đề tài Đồng thời, nhóm cũng sẽ trình bày

về phương pháp nghiên cứu sử dụng mô hình hồi quy với 3 thuật toán: Linear Regression, Boosted Decision Tree Regression và Random Forest Regression Đối với 2 thuật toán

Linear Regression va Boosted Decision Tree Regression, nhóm sẽ thực hiện chạy trên nên

tang Azure Machine Learning; voi riéng thuat toan Random Forest Regression thi sé duoc

thực hiện chạy trên nền tảng Google Colaboratory

3.1 Quy trình nghiên cứu

Để xử lý đữ liệu một cách hiệu quá, nhóm đã xây dựng nên quy trình nghiên cứu

thé hiện trình tự các bước cụ thể cần làm nhằm định hướng cho quá trình nghiên cứu của

nhóm, từ đó giảm thiêu các sai sót và nhâm lân không đáng có khi thực hiện

Thu thập dữ liệu

Làm sạch dữ liệu Xử lý dữ liệu >| Chuyển đổi dữ liệu

Phân tích dữ liệu

Mô hình hồi quy

So sanh va danh giá mô hình

Trang 19

3.2 Mô tả bộ dữ liệu

3.2.1 Khái quát bộ dữ liệu

Trong bài nghiên cứu này, nhóm đã tìm kiếm và thu thập được bộ đữ liệu thứ cấp

từ website www.kaggle.com Do bộ đữ liệu gốc sử dụng trong bài nghiên cứu mẫu được đăng tải bởi Orges Leka đã bị xoá trước đó nên nhóm chỉ thu thập được bộ dữ liệu đã được

“làm sạch” một phần nhưng vẫn giữ nguyên gần như hầu hết các giá trị có ý nghĩa khác

trong bộ đữ liệu

Bộ đữ liệu nhóm tìm kiếm được bao gồm 312.729 mẫu với 15 biến là các thuộc tính

của ô tô đã qua sử dụng, được thu thập từ eBay — Kleinanzeigen, một trang thương mại

1 dateCrawled price vehidelyne yearOfRegisratiom gearbox powerPS model kilometer monthOfRegistraton fuelType brand notHepairedDamage datereated gostaiCode —_lastseen

1g 1/4/2016 13:56 coupe 2003 manuell nen 1/4/2016 000 75365 5/4/2016 15:45

3.2.2 Định nghĩa thuộc tính các biến

Theo bài báo mẫu, về mặt kỹ thuật, các biến như dateCrawled, lastSeen, Postal- Code và dateCreate hoàn toàn không có sự ảnh hưởng đến việc dự đoán giá do đó chúng

sẽ bị loại bỏ để cái thiện độ chính xác cho mô hình nghiên cứu Như vậy, nhóm sẽ chỉ sử

dụng 11 biến còn lại để thực hiện nghiên cứu Thuộc tính của các biến sẽ được trình bày chỉ tiết theo bảng dưới đây

13

Trang 20

Bang 3.1 Mô tá thuộc tính các biến dùng trong bài nghiên cứu

1 | monthOfRegistration Tháng đăng kí mua xe được thê hiện trên giây tờ Numeric

sở hữu xe

2 yearOfRegistration Nam dang ki mua xe được thê hiện trên giây tờ Numeric

sở hữu xe

3 powerPS Chỉ số mã lực (công suất) của xe Numeric

4 kilometer Sé kilometer xe da di duoc Numeric

Loai xe gom cac gid tri: Sedan, SUV, Xe 6 t6 con : (Small car), Bus, Kombi (mini bus), Xe mui tran

5 vehicleType (Convertible), Xe thể thao (Coupe) và Khác | CAf°gorical

(Other)

Hộp số xe gồm 2 giá trị: Số sàn (Manual) và số -

7 brand Hãng xe gồm 39 giá trị khác nhau Categorical

8 model Tên dòng xe gồm 251 dòng xe khác nhau Categorical

Loại nhiên liệu xe sử dụng gồm 7 giá trị: Xăng (Benzin), Dầu (Diesel), Điện (Electronie), Khí

9 tuelType nén thiên nhiên (Cng), Khí dầu mé hod léng _ | Categorical

(Lpg), Động cơ lai điện (Hybrid) và Other (Khác)

10 | notRepairedDamage Tình trạng đã qua hư hỏng sua chữa chưa, gom 2 gia tri: Yes va No Categorical

14

Trang 21

3.3 Xử lý dữ liệu

Sau khi chọn ra các biên cân thiệt cho đê tài, nhóm tiếp tục sử dung phan mém

Microsoft Excel cho các bước xử lý bộ dữ liệu của bài nghiên cứu, bao gôm các bước như

sau

Bước 1: Vì dữ liệu gốc là tiếng Đức nên nhóm đã tiễn hành chuyển đổi ngôn ngữ các giá trị của biên sang tiếng Anh để thuận lợi trong quá trình phân tích bộ dữ liệu

Bước 2: Nhóm tiếp tục làm sạch đữ liệu bằng cách lọc và loại bỏ những mẫu có

chứa giá trị trong (“blank”) trong bộ đữ liệu để tránh gây nhiễu thông tin khi thực hiện phương pháp dự đoán, làm tăng độ chính xác cho việc phân tích

Bước 3: Dỗi với biến “monthOfRegistration”, nhóm nhận thấy có tôn tại giá trị “0” cho biến này, do đó nhóm đã loại bỏ những mẫu chứa giá trị này do đây là giá trị không

hợp lý cho biến thê hiện thang dang ki xe

Sau khi thực hiện xong các bước xử lý trên, bộ dữ liệu được thé hién voi 242.230

mẫu tương ứng I1 biến và không còn chứa các giá trị trong (missing values) nia

2 Small car Manual 6 200: T75 Volkswagen golf 150000 benzin No

3 Small car Manual 7 2008 69 Skoda fabia 90000 diesel No 3600

4 Sedan Manual 10 1995 102 BMW 3er 150000 benzin Yes 650

5 Convertible Manual 8 2004 109 Peugeot 2 reihe 150000 benzin No 2200

6 Sedan Manual 12 2004 10S Mazda 3_reihe 150000 benzin No 2000

7 Kombi Manual 12 2005 140 Volkswagen passat 150000 diesel Yes 2799

8 SUV Manual 3 2011 190 Nissan navara 70000 diesel No 17999

9 Small car Automatic 2 2004 +5 Renault twingo 150000 benzin No 1750

10 Bus Manual 6 2007 136 Ford € max 150000 diesel No 7550

11 Bus Manual 1 2004 102 Mercedes Benr a klasse 150000 benzin No 1850

12 Coupe Manual 4 2009 160 Volkswagen scirocco 100000 benzin No 10400

13 Sedan Automatic 7 2002 231 BMW Ser 150000 benzin No 3699

14 Small car Manual 5 1997 50 Seat arosa 150000 benzin No 450

15 Sedan Manual 10 1990 118 Mercedes _Benz andere 150000 benzin Yes 500

16 Kombi Automatic 9 2002 193 BMW Ser 150000 diesel Yes 2500

17 Sedan Manual 11 2008 ss Honda civic 60000 benzin No 6900

18 Bus Manual 1 1981 50 Volkswagen transporter 5000 benzin No 1990

19 Small car Manual 3 2003 60 Fiat punto 150000 benzin No 690

20 Sedan Automatic 1 1995 113 Mercedes Benz e_klasse 150000 diesel No 3300

21 ‘Sedan Automatic 5 2007 218 BMW 3er 20000 benzin No 18000

22 Sedan Automatic u 2004 122 Mercedes Benz e klasse 150000 diesel No 3500

23 other Manual 11 2002 123 Volkswagen andere 150000 diese! No 11900 a4 Bus Manual 8 1984 7O Mercedes_Benz andere 150000 diesel No 1500

25 Sedan Manual 8 2007 95 Mini one 100000 benzin No 6990

26 Small car Manual 8 1999 T5 Renault clio 125000 benzin No 590

27 Sedan Manual 8 2007 177 BMW ler 150000 diesel No 7999

28 Kombi Automatic 2 1998 193 BMW Ser 150000 benzin No 2100

29 Bus Automatic 7 2012 105 Mercedes Benz b klasse 150000 diesel No 13500

Hình 3.3 Bộ dữ liệu đã qua xử lý

15

Tiêu đề	Nghiên cứu mô hình dự đoán giá bán lại xe ô tô đã qua sử dụng tại Đức
Tác giả	Nguyễn Đinh Thuý Ngân, Lê Ngọc Phương Như, Trần Thị Khánh Linh, Châu Hồng Ngọc
Người hướng dẫn	Ths. Phạm Ngọc Bảo Duy
Trường học	Trường Đại học Tôn Đức Thắng
Chuyên ngành	Ứng Dụng Phân Tích Dữ Liệu Lớn Trong Quản Lý
Thể loại	Báo cáo cuối kì
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	42
Dung lượng	5,17 MB