định giá ô tô sử dụng định lượng dữ liệu định tính và hệ thống dựa trên tri thức

Bài toán định giá xe ô tô nói riêng là một bài toán với mặt hàng có giá trị rất lớn, với thị trường công nghiệp canh tranh nhau rất gắt gao trên quy mô toàn cầu và người tiêu dùng gia tă

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-o0o - CÔNG TRÌNH THAM DỰ GIẢI THƯỞNG "SINH VIÊN NGHIÊN CỨU KHOA HỌC" CẤP TRƯỜNG

NĂM 2019-2020

Tên công trình: ĐỊNH GIÁ Ô TÔ SỬ DỤNG ĐỊNH LƯỢNG DỮ LIỆU ĐỊNH TÍNH

VÀ HỆ THỐNG DỰA TRÊN TRI THỨC

Mã số:

Họ và tên sinh viên 1: Phạm Vũ Tiến Giới tính: Nam

Lớp, khóa: Toán Tin K60 Tel: 0982590632

Họ và tên sinh viên 1: Đào Minh Hoàng Giới tính: Nam

Lớp, khóa: Toán Tin K60 Tel: 0983297186

Khoa/Viện: Viện Toán ứng dụng và Tin học

Giáo viên hướng dẫn: TS Trần Ngọc Thăng

Trang 2

Tóm tắt công trình

Bài toán định giá các mặt hàng nói chung là một bài toán rất hữu ích trong lĩnh vực kinh doanh ở thời đại công nghệ phát triển như hiện nay Việc định giá tốt mang ý nghĩa lớn cho các tổ chức quản lý kinh tế, thị trường, các đơn vị kinh doanh hay thậm chí là người tiêu dùng Bài toán định giá xe ô tô nói riêng là một bài toán với mặt hàng có giá trị rất lớn, với thị trường công nghiệp canh tranh nhau rất gắt gao trên quy mô toàn cầu và người tiêu dùng gia tăng thêm hằng năm nên trong thực tế vấn đề chính xác lại lại càng được ưu tiên hơn nữa

Định giá xe ô tô sử dụng các phương pháp học máy có mối liên hệ rất lớn tới quá trình tích lũy tri thức trong một hệ thống chuyên gia Hiện tại, phương pháp chính trong việc tích lũy tri thức bài toán trên là một quá trình tốn nhiều thời gian cho một hệ thống khuyến nghị, với việc đăng bài về mua và bán xe trên các trang web kinh doanh online

Tiếp theo sau việc khai phá dữ liệu bài toán, chúng tôi chia dữ liệu thành hai dạng: dạng có cấu trúc và không có cấu trúc với yêu cầu sự phân tích dựa trên tri thức Đề tài nghiên cứu này bao gồm các kỹ thuật trích rút ra ý nghĩa, sự suy lý của dữ liệu và các quy tắc của dữ liệu định tính trên nền tảng các phương pháp học máy cơ bản Mục đích chính của bài nghiên cứu là khám phá ra các dạng dữ liệu khác nhau của dữ liệu xe ô tô và mục tiêu là để tạo ra một kỹ thuật tự động định giá xe ô tô với độ chính xác tốt

Từ khóa: Dự đoán, định giá ô tô, tập nhúng thực thể, định lượng dữ liệu định tính,

hệ thống dựa trên tri thức

Trang 3

Mục Lục

Trang 5

I Đặt vấn đề

Ngành công nghiệp xe hơi đang phát triển khắp thế giới với sự cạnh tranh ngày

càng tăng nhanh qua hàng năm (Office of National Statistics, 2006) Do đó, việc xác định

giá chính xác là rất cần thiết cho cả nhà sản xuất lẫn khách hàng trong thị trường xe hơi rất

cạnh tranh này Trong rất nhiều năm qua, người mua khá là mơ hồ về giá của chiếc xe hơi

họ định mua hay bán, đặc biệt là đối với những ai không có đam mê, sở thích về xe hơi

cũng như các thuộc tính kĩ thuật của nó Do đó, cố gắng tìm kiếm một số lời tư vấn từ các

đại lý ô tô, tạp chí xe hơi hoặc trang web trên mạng Tuy nhiên, điều này có thể tốn rất

nhiều thời gian và đôi khi cũng mang thêm sự băn khoăn cho người hỏi Di chuyển của người dân là một lĩnh vực quan trọng, thị trường mua bán xe đóng

vai trò quan trọng ở các nước phát triển [1] Ở việt Nam, khi các phương tiện công cộng ở

các thành phố chưa phát triển, phương tiện đi lại chính là ô tô và xe máy Ở Việt Nam, việc

di chuyển của người dân phụ thuộc nhiều vào phương tiện ô tô Vì thế, việc mua bán xe ô

tô đóng một vai trò quan trọng trong nền kinh tế với quy mô và số lượng giao dịch cao Với

sự phát triển của thương mại điện tử các thông tin mua bán xe ô tô trên mạng internet, việc

mua bán ô tô trở nên dễ dàng giữa bên mua và bên bán Danh sách các thông tin về xe có

hai loại có cấu trúc và phi cấu trúc Dữ liệu chia làm có cấu trúc được chia làm loại số và

loại định tính Thuộc tính có cấu trúc thường được liệt kê để dễ dàng cho việc tìm kiếm và

phân loại xe Nhưng để biết về tình trạng chi tiết thì phải xem trong phần dữ liệu phi cấu

trúc trong phần mô tả, phần ý kiến của người xem thông tin, hay những đánh giá của người

mua bán Công nghiệp ô tô là một trong những ngành kinh tế đứng đầu về doanh thu trên thế

giới Đặc biệt, ở các nước đang phát triển, thị trường ô tô rất có tiềm năng và đang bùng nổ

mạnh mẽ bởi nhu cầu của người dân thay đổi nhanh chóng theo sự phát triển kinh tế Do

đó, việc phân tích, dự đoán giá xe trên thị trường mang nhiều ý nghĩa thực tế và đóng vai

trò quan trọng trong việc phân tích, dự báo và đưa ra quyết định tiêu thụ, mua bán xe Dự

đoán giá xe là một bài toán khó bởi có rất nhiều yếu tố khác nhau quyết định giá xe Ngoài

những đặc trưng của xe như thương hiệu, nhà sản xuất, dòng xe, loại động cơ, nhiên liệu,

v.v thì cũng có nhiều yếu tố bên ngoài khác ảnh hưởng tới giá bán xe như các loại thuế hay

quãng đường đã đi (đối với mua bán xe đã qua sử dụng) Một số nghiên cứu trước đây về

dự đoán giá xe được trình bày trong bảng I

Trang 6

Mục tiêu Phương pháp Case study Thời gian

đăng

Bài báo

Nghiên cứu các mô

hình thống kê để định

giá xe ô tô qua sử dụng

Sử dụng các phương pháp hồi quy

Dữ liệu từ nhà sản xuất xe tại Đức

Giới thiệu một kỹ thuật

dự đoán giá mới cho ô

tô đã qua sử dụng

Mạng nơ-ron nhân tạo, neuro-fuzzy inference

Dữ liệu xe ô tô

cũ từ một trang web tại Đài Loan

Định giá xe ô tô cũ Random Forest Dữ liệu xe ô tô

cũ trên Kaggle

Nâng cao độ chính xác

của việc dự đoán giá xe

ô tô

Mạng nơ-ron nhân tạo, support vector machine, random forest

Dữ liệu được thu thập từ web tại Bosnia and Herzegovina

Bảng I: Một số nghiên cứu về định giá xe ô tô

Trong nghiên cứu của Lessmann [3], tác giả đã chọn các thuộc tính số năm đã sử

dụng, số dặm, khách hàng, năm của mẫu xe, loại động cơ, lớp sơn, trang bị đặc biệt là các

biến độc lập, và đưa ra mô hình dự đoán sử dụng nhiều phương pháp hồi quy khác nhau

Jian-Da Wu, Chuang-Chin Hsu và Hui-Chu Chen tập trung vào việc đề xuất ra một hệ

chuyên gia dự đoán giá cho những chiếc xe đã qua sử dụng dựa trên mạng thần kinh nơ-ron

và mô hình logic mờ Các tác giả đã chọn ra nhãn hiệu xe, năm sản xuất và công suất động cơ là các thuộc tính chính để xác định giá xe Narabul Pal sử dụng tập dữ liệu từ Kaggle để

dự đoán giá xe đã qua sử dụng Tập dữ liệu bao gồm 20 thuộc tính, trong đó có nhiều thuộc

tính không liên quan, dư thừa và mất mát nhiều trường dữ liệu Vì thế, các tác giả đã thêm

một bước tiền xử lý dữ liệu để cho tập các thuộc tính cô đọng hơn, cụ thể giảm chiều dữ

liệu Sau khi tiền xử lý, tập dữ liệu cuối chỉ còn 10 thuộc tính, chính là giá, loại phương

tiện, số năm sử dụng, chỉ số mã lực, mẫu xe, số ki-lô-mét đã đi, loại nhiên liệu, nhãn hiệu,

đã qua sửa chữa, tự động Cuối cùng, thuật toán rừng ngẫu nhiên được sử dụng làm mô

hình hồi quy để xác định giá xe Từ những nghiên cứu trước đây, có thể thấy các tác giả

chọn rất nhiều yếu tố khác khau làm biến đầu vào để dự báo giá xe Những đặc trưng ấy

cũng rất đa dạng và có nhiều biến định tính Vì thế việc lượng hóa các dữ liệu định tính là

một bước quan trọng khi xử lý dữ liệu trước khi đưa vào mô hình dự đoán giá xe Đây cũng

là một trong những đóng góp chính của bài nghiên cứu này Nghiên cứu định tính là điều cần thiết bởi vì nó tạo ra thông tin có thể cung cấp cái

nhìn chuyên sâu về một vấn đề hoặc chủ đề Tuy nhiên, định lượng dữ liệu là rất quan

trọng để đưa ra kết luận từ dữ liệu định tính Nếu các giá trị này không được biểu diễn

Trang 7

chính xác, các thuật toán học máy sẽ không có hiệu quả [6] Một cách tiêu chuẩn để làm

việc biến categories là mã hóa One-Hot Tuy nhiên, véc-tơ One-Hot có hai khuyết điểm

chính: • Không gian biểu diễn có số chiều rất lớn với dữ liệu thưa • Mối quan hệ giữa các trường giá trị khác nhau bị bỏ qua [7] Chúng ta có thể thấy trong [7] rằng sử dụng phương pháp học giám sát để tạo

không gian biển diễn cho các biến categories làm giảm bộ nhớ sử dụng và cải thiện hiệu

suất của mạng thần kinh nơ-ron vì nó cho một sự biểu diễn dữ liệu tốt hơn Mục tiêu của

bài báo này là xây dựng mô hình dự báo giá xe ô tô dựa vào việc phân tích lượng hoá dữ

liệu định tính và xây dựng hệ thống tri thức với dữ liệu định tính Một mô hình mới định

giá xe được đề xuất dựa vào dữ liệu thu thập từ nhiều nguồn với số lượng lớn và nhiều loại

thông tin về xe trộn lẫn giữa có cấu trúc và phi cấu trúc Đầu tiên, dữ liệu được thu thập từ

các trang thương mại điện tử với nhiều trường dữ liệu số, phi số, phi cấu trúc Sau đó, dữ

liệu được lưu trữ, làm sách Tác giả đã đưa ra phương pháp định lượng hóa dữ liệu định

tính dựa vào tri thức học máy Tiếp theo, phương pháp kết hợp mô hình được sử dụng để

định giá xe ô tô Cuối cùng, mô hình được áp dụng vào tập hợp dữ liệu được thu thập ở thị

trường Việt nam trên 5 website lớn nhất về giao dịch ô tô Bài viết này bao gồm bốn phần: phần giới thiệu nêu lên tầm quan trọng của vấn đề

định giá và các nghiên cứu đã có với giá xe hơi Phần 3 sẽ trình bày mô hình được đề xuất

để định lượng các giá trị định tính và mô hình định giá xe Phần 4 mô tả kết quả thực nghiệm bằng mô hình đã đề xuất; cuối cùng là kết luận và thảo luận

Trang 8

II Kết quả nghiên cứu

1 Bài toán định giá

1.1 Mô tả bài toán

Dự đoán giá xe là một bài toán phân tích hồi quy Giá xe là biến phụ thuộc và các đặc điểm của xe (nhãn hiệu, dòng xe, năm đăng ký, loại hộp số, loại nhiên liệu

sử dụng, ) là các biến độc lập Chúng tôi biểu thị đầu vào bởi X = { X ,1 X2, , X N}

và biểu thị đầu ra của Y Mô hình hồi quy biểu diễn cho mối quan hệ phụ thuộc của

1.2.2 Tập nhúng thực thể

Chúng tôi ánh xạ các biến category vào không gian Euclide trong một bàitoán xấp xỉ hàm, nhúng thực thể của biến category Ánh xạ được học bởi một mạng lưới thần kinh trong quá trình đào tạo có giám sát tiêu chuẩn (Hình 1)

Trang 9

Hình 1: Tập nhúng thực thể

Ý tưởng chính của cấu trúc nhúng dựa trên tri thức của chúng tôi như sau:

● Các thực thể có thể được mô hình trong một không gian nhúng A với

số chiều là , véc-tơ d E i ∈R d được gán cho thực thể thứ i

● Trong không gian nhúng này, có một phương pháp đo sự tương đồng cho bất kỳ loại mối quan hệ nào giữa các thực thể thực tế

Đầu tiên, chúng ta ánh xạ từng giá trị của một biến rời rạc thành một véc-tơ

để xấp xỉ x i dưới dạng mã hóa one-hot:

Trang 10

ánh xạ chỉ gồm trọng số của lớp này và có thể được huấn luyện với cùng cách thức như một lớp mạng nơ-ron

Các lớp nhúng d i chiều là các siêu tham số cần xác định trước đó Miền giới hạn của kích thước nhúng là từ 1 đến m i− 1 với m i là số lượng giá trị của x i.Chúng tôi lựa chọn số chiều dựa trên kinh nghiệm thực tế

Ví dụ, với x i là biến rời rạc biểu diễn giá trị của thứ trong tuần Với mỗi ngày trong tuần (Thứ hai, Thứ ba, ) chúng ta khởi tạo một véc-tơ mã hóa one-hot (biểu diễn bởi δαβ như trong Hình 2 Số chiều của tập nhúng thực thể là ma trận 7x4 với ma trận hệ số ωαβ có α = 7 = 4 , β Ban đầu, giá trị của ma trận trọng số được khởi tạo ngẫu nhiên Thay vì biểu diễn véc-tơ one-hot cho từng ngày trong tuần, nó biểu diễn dựa trên ma trận trọng số với các giá trị véc-tơ thực thể nhúng tương ứng Phép toán này giống với sử dụng mã hóa one-hot và phép nhân ma trận

Hình 2: Lớp nhúng Với ma trận one-hot là ma trận đơn vị, kết hợp với ma trận nhúng thực thể tạo ra một ma trận nhúng giống hệt (bao gồm các giá trị liên tục) Ma trận này sau

đó được đưa vào mạng nơ-ron để huấn luyện với quá trình lan truyền ngược

1.2.3 Các mô hình hồi quy

A Rừng ngẫu nhiên

Rừng ngẫu nhiên chủ yếu được sử dụng để phân loại, nhưng chúng tôi đã sử dụng nó như một mô hình hồi quy bằng cách đưa bài toán về bài toán hồi quy Những cái cây (weak-learner) được đào tạo trên các phần nhỏ của bộ dữ liệu một cách riêng lẻ và giúp mô hình học các mẫu không thể đoán trước bằng cách gia tăng chiều sâu Điều này khắc phục sự cố quá khớp bằng cách lấy trung bình các dự đoán của từng cây với mục tiêu giảm phương sai và đảm bảo tính nhất quán [4]

Trang 11

B Light Gradient Boosting Machine (LightGBM)

LightGBM là một thuật toán gradient-boosting sử dụng các thuật toán dựa trên phần tử học là cây LightGBM phát triển theo chiều dọc của cây trong khi các thuật toán khác phát triển theo chiều ngang của cây, có nghĩa là LightGBM phát triển mức độ thông minh của cây Nó sẽ chọn để phát triển các lá với mất mát delta cực đại Thuật toán này được sử dụng để sắp xếp, phân loại, hồi quy và nhiều hoạt động học máy khác [9]

C Extreme Gradient Boosting (XGBoost)

XGBoost là một phần của họ thuật toán tăng cường và sử dụng GBM làm cốt lõi của nó XGBoost bao gồm một mô hình được chính quy hóa để tránh hiện tượng quá khớp Điều này tương tự với rừng tham lam được chính quy hóa, nhưng đơn giản hóa nhưng được đơn giản hóa các mục tiêu song song cũng như thuật toán.Mượn ý tưởng từ rừng ngẫu nhiên, lấy thêm mẫu cột là một kỹ thuật đơn giản nhưng hiệu quả Trong khi việc học các nhận thức thưa là điều cần thiết trong các mô hình khác như mô hình tuyến tính, một số công trình về học cây đã thực hiện điều này một cách có quy tắc [10]

● Đối với thuộc tính category, chúng tôi tạo một lớp thực thể nhúng để định lượng biến định tính đó

● Nối các vectơ nhúng ở trên và các thuộc tính còn lại với nhau để tạo thành một vectơ duy nhất Coi nó như một lớp đầu vào thông thườngcủa một mạng nơ-ron

● Xây dựng một mạng nơ-ron tiếp đó và huấn luyện cả mô hình để dự đoán giá xe hơi

● Lấy ra véc-tơ nối đã được huấn luyện và dùng nó như đầu vào cho một

mô hình kết hợp các mô hình hồi quy khác nhau để đạt hiệu quả cao hơn

Trang 12

● Sử dụng tập đánh giá để đánh giá mô hình nhằm đưa ra số chiều của lớp nhúng

Trang 13

Hình 3: Mô hình đề xuất sử dụng lớp nhúng để lượng hoá dữ liệu định tính

1.2.5 Phương pháp đo kết quả

Hệ số xác định R-squared (R2) là một phép đo thống kê biểu diễn tỉ lệ phương sai của biến phụ thuộc được giải thích trong một mô hình hồi quy bằng cácbiến độc lập

Công thức tính hệ số xác định như sau:

Trang 14

Bộ dữ liệu thu thập được gồm các trường dữ liệu sau:

Trường dữ liệu Loại dữ liệu Mô tả

động 4 bánh), …)

…)

Trang 15

color categorical Màu sắc của xe

nước)

Sau khi thu thập dữ liệu từ bốn website trên, tổng số bản ghi thu được là

33605 Dữ liệu sau đó được tiền xử lý qua các bước sau để dễ dàng đưa vào huấn luyện:

● Lọc ra những xe cũ và xoá cột trạng thái, xe cũ hay mới được tính trên cột kilomet đã đi

● Bỏ đi các xe sản xuất trước năm 1990 và sau năm 2020

● Bỏ đi các xe có giá quá cao (trên 20 tỷ VNĐ) hoặc quá thấp (dưới 50 triệu VNĐ)

Bộ dữ liệu sau cùng bao gồm 10 trường dữ liệu sau khi tiền xử lý, bao gồm 8 trường dữ liệu định tính (brand, name, actuator, gearbox, seller, fuel, color, origin)

và 2 trường dữ liệu số (kilometer, age)

2.2 Áp dụng

Với cả hai bộ dữ liệu Kaggle và Vietnamese, chúng tôi sử dụng mô hình đã được đề xuất Sau khi lượng hoá các trường dữ liệu định tính, chúng tôi sẽ sử dụng mô hình Random Forest như trong bài báo [4] để so sánh kết quả Ngoài ra, chúng tôi cũng sử dụng một số thuật toán được sử dụng rộng rãi như XGBoost và LightGBM

2.3 Kết quả

Tiêu đề	Định Giá Ô Tô Sử Dụng Định Lượng Dữ Liệu Định Tính Và Hệ Thống Dựa Trên Tri Thức
Tác giả	Phạm Vũ Tiến, Đào Minh Hoàng
Người hướng dẫn	TS. Trần Ngọc Thăng
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Khoa học Máy tính
Thể loại	Công trình tham dự giải thưởng sinh viên nghiên cứu khoa học
Năm xuất bản	2019-2020
Thành phố	Hà Nội

Định dạng
Số trang	23
Dung lượng	0,95 MB