Bài toán định giá xe ô tô nói riêng là một bài toán với mặt hàng có giá trị rất lớn, với thị trường công nghiệp canh tranh nhau rất gắt gao trên quy mô toàn cầu và người tiêu dùng gia tă
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-o0o - CÔNG TRÌNH THAM DỰ GIẢI THƯỞNG "SINH VIÊN NGHIÊN CỨU KHOA HỌC" CẤP TRƯỜNG
NĂM 2019-2020
Tên công trình: ĐỊNH GIÁ Ô TÔ SỬ DỤNG ĐỊNH LƯỢNG DỮ LIỆU ĐỊNH TÍNH
VÀ HỆ THỐNG DỰA TRÊN TRI THỨC
Mã số:
Họ và tên sinh viên 1: Phạm Vũ Tiến Giới tính: Nam
Lớp, khóa: Toán Tin K60 Tel: 0982590632
Họ và tên sinh viên 1: Đào Minh Hoàng Giới tính: Nam
Lớp, khóa: Toán Tin K60 Tel: 0983297186
Khoa/Viện: Viện Toán ứng dụng và Tin học
Giáo viên hướng dẫn: TS Trần Ngọc Thăng
Trang 2Tóm tắt công trình
Bài toán định giá các mặt hàng nói chung là một bài toán rất hữu ích trong lĩnh vực kinh doanh ở thời đại công nghệ phát triển như hiện nay Việc định giá tốt mang ý nghĩa lớn cho các tổ chức quản lý kinh tế, thị trường, các đơn vị kinh doanh hay thậm chí là người tiêu dùng Bài toán định giá xe ô tô nói riêng là một bài toán với mặt hàng có giá trị rất lớn, với thị trường công nghiệp canh tranh nhau rất gắt gao trên quy mô toàn cầu và người tiêu dùng gia tăng thêm hằng năm nên trong thực tế vấn đề chính xác lại lại càng được ưu tiên hơn nữa
Định giá xe ô tô sử dụng các phương pháp học máy có mối liên hệ rất lớn tới quá trình tích lũy tri thức trong một hệ thống chuyên gia Hiện tại, phương pháp chính trong việc tích lũy tri thức bài toán trên là một quá trình tốn nhiều thời gian cho một hệ thống khuyến nghị, với việc đăng bài về mua và bán xe trên các trang web kinh doanh online
Tiếp theo sau việc khai phá dữ liệu bài toán, chúng tôi chia dữ liệu thành hai dạng: dạng có cấu trúc và không có cấu trúc với yêu cầu sự phân tích dựa trên tri thức Đề tài nghiên cứu này bao gồm các kỹ thuật trích rút ra ý nghĩa, sự suy lý của dữ liệu và các quy tắc của dữ liệu định tính trên nền tảng các phương pháp học máy cơ bản Mục đích chính của bài nghiên cứu là khám phá ra các dạng dữ liệu khác nhau của dữ liệu xe ô tô và mục tiêu là để tạo ra một kỹ thuật tự động định giá xe ô tô với độ chính xác tốt
Từ khóa: Dự đoán, định giá ô tô, tập nhúng thực thể, định lượng dữ liệu định tính,
hệ thống dựa trên tri thức
Trang 3Mục Lục
Trang 5I Đặt vấn đề
Ngành công nghiệp xe hơi đang phát triển khắp thế giới với sự cạnh tranh ngày
càng tăng nhanh qua hàng năm (Office of National Statistics, 2006) Do đó, việc xác định
giá chính xác là rất cần thiết cho cả nhà sản xuất lẫn khách hàng trong thị trường xe hơi rất
cạnh tranh này Trong rất nhiều năm qua, người mua khá là mơ hồ về giá của chiếc xe hơi
họ định mua hay bán, đặc biệt là đối với những ai không có đam mê, sở thích về xe hơi
cũng như các thuộc tính kĩ thuật của nó Do đó, cố gắng tìm kiếm một số lời tư vấn từ các
đại lý ô tô, tạp chí xe hơi hoặc trang web trên mạng Tuy nhiên, điều này có thể tốn rất
nhiều thời gian và đôi khi cũng mang thêm sự băn khoăn cho người hỏi Di chuyển của người dân là một lĩnh vực quan trọng, thị trường mua bán xe đóng
vai trò quan trọng ở các nước phát triển [1] Ở việt Nam, khi các phương tiện công cộng ở
các thành phố chưa phát triển, phương tiện đi lại chính là ô tô và xe máy Ở Việt Nam, việc
di chuyển của người dân phụ thuộc nhiều vào phương tiện ô tô Vì thế, việc mua bán xe ô
tô đóng một vai trò quan trọng trong nền kinh tế với quy mô và số lượng giao dịch cao Với
sự phát triển của thương mại điện tử các thông tin mua bán xe ô tô trên mạng internet, việc
mua bán ô tô trở nên dễ dàng giữa bên mua và bên bán Danh sách các thông tin về xe có
hai loại có cấu trúc và phi cấu trúc Dữ liệu chia làm có cấu trúc được chia làm loại số và
loại định tính Thuộc tính có cấu trúc thường được liệt kê để dễ dàng cho việc tìm kiếm và
phân loại xe Nhưng để biết về tình trạng chi tiết thì phải xem trong phần dữ liệu phi cấu
trúc trong phần mô tả, phần ý kiến của người xem thông tin, hay những đánh giá của người
mua bán Công nghiệp ô tô là một trong những ngành kinh tế đứng đầu về doanh thu trên thế
giới Đặc biệt, ở các nước đang phát triển, thị trường ô tô rất có tiềm năng và đang bùng nổ
mạnh mẽ bởi nhu cầu của người dân thay đổi nhanh chóng theo sự phát triển kinh tế Do
đó, việc phân tích, dự đoán giá xe trên thị trường mang nhiều ý nghĩa thực tế và đóng vai
trò quan trọng trong việc phân tích, dự báo và đưa ra quyết định tiêu thụ, mua bán xe Dự
đoán giá xe là một bài toán khó bởi có rất nhiều yếu tố khác nhau quyết định giá xe Ngoài
những đặc trưng của xe như thương hiệu, nhà sản xuất, dòng xe, loại động cơ, nhiên liệu,
v.v thì cũng có nhiều yếu tố bên ngoài khác ảnh hưởng tới giá bán xe như các loại thuế hay
quãng đường đã đi (đối với mua bán xe đã qua sử dụng) Một số nghiên cứu trước đây về
dự đoán giá xe được trình bày trong bảng I
Trang 6Mục tiêu Phương pháp Case study Thời gian
đăng
Bài báo
Nghiên cứu các mô
hình thống kê để định
giá xe ô tô qua sử dụng
Sử dụng các phương pháp hồi quy
Dữ liệu từ nhà sản xuất xe tại Đức
Giới thiệu một kỹ thuật
dự đoán giá mới cho ô
tô đã qua sử dụng
Mạng nơ-ron nhân tạo, neuro-fuzzy inference
Dữ liệu xe ô tô
cũ từ một trang web tại Đài Loan
Định giá xe ô tô cũ Random Forest Dữ liệu xe ô tô
cũ trên Kaggle
Nâng cao độ chính xác
của việc dự đoán giá xe
ô tô
Mạng nơ-ron nhân tạo, support vector machine, random forest
Dữ liệu được thu thập từ web tại Bosnia and Herzegovina
Bảng I: Một số nghiên cứu về định giá xe ô tô
Trong nghiên cứu của Lessmann [3], tác giả đã chọn các thuộc tính số năm đã sử
dụng, số dặm, khách hàng, năm của mẫu xe, loại động cơ, lớp sơn, trang bị đặc biệt là các
biến độc lập, và đưa ra mô hình dự đoán sử dụng nhiều phương pháp hồi quy khác nhau
Jian-Da Wu, Chuang-Chin Hsu và Hui-Chu Chen tập trung vào việc đề xuất ra một hệ
chuyên gia dự đoán giá cho những chiếc xe đã qua sử dụng dựa trên mạng thần kinh nơ-ron
và mô hình logic mờ Các tác giả đã chọn ra nhãn hiệu xe, năm sản xuất và công suất động cơ là các thuộc tính chính để xác định giá xe Narabul Pal sử dụng tập dữ liệu từ Kaggle để
dự đoán giá xe đã qua sử dụng Tập dữ liệu bao gồm 20 thuộc tính, trong đó có nhiều thuộc
tính không liên quan, dư thừa và mất mát nhiều trường dữ liệu Vì thế, các tác giả đã thêm
một bước tiền xử lý dữ liệu để cho tập các thuộc tính cô đọng hơn, cụ thể giảm chiều dữ
liệu Sau khi tiền xử lý, tập dữ liệu cuối chỉ còn 10 thuộc tính, chính là giá, loại phương
tiện, số năm sử dụng, chỉ số mã lực, mẫu xe, số ki-lô-mét đã đi, loại nhiên liệu, nhãn hiệu,
đã qua sửa chữa, tự động Cuối cùng, thuật toán rừng ngẫu nhiên được sử dụng làm mô
hình hồi quy để xác định giá xe Từ những nghiên cứu trước đây, có thể thấy các tác giả
chọn rất nhiều yếu tố khác khau làm biến đầu vào để dự báo giá xe Những đặc trưng ấy
cũng rất đa dạng và có nhiều biến định tính Vì thế việc lượng hóa các dữ liệu định tính là
một bước quan trọng khi xử lý dữ liệu trước khi đưa vào mô hình dự đoán giá xe Đây cũng
là một trong những đóng góp chính của bài nghiên cứu này Nghiên cứu định tính là điều cần thiết bởi vì nó tạo ra thông tin có thể cung cấp cái
nhìn chuyên sâu về một vấn đề hoặc chủ đề Tuy nhiên, định lượng dữ liệu là rất quan
trọng để đưa ra kết luận từ dữ liệu định tính Nếu các giá trị này không được biểu diễn
Trang 7chính xác, các thuật toán học máy sẽ không có hiệu quả [6] Một cách tiêu chuẩn để làm
việc biến categories là mã hóa One-Hot Tuy nhiên, véc-tơ One-Hot có hai khuyết điểm
chính: • Không gian biểu diễn có số chiều rất lớn với dữ liệu thưa • Mối quan hệ giữa các trường giá trị khác nhau bị bỏ qua [7] Chúng ta có thể thấy trong [7] rằng sử dụng phương pháp học giám sát để tạo
không gian biển diễn cho các biến categories làm giảm bộ nhớ sử dụng và cải thiện hiệu
suất của mạng thần kinh nơ-ron vì nó cho một sự biểu diễn dữ liệu tốt hơn Mục tiêu của
bài báo này là xây dựng mô hình dự báo giá xe ô tô dựa vào việc phân tích lượng hoá dữ
liệu định tính và xây dựng hệ thống tri thức với dữ liệu định tính Một mô hình mới định
giá xe được đề xuất dựa vào dữ liệu thu thập từ nhiều nguồn với số lượng lớn và nhiều loại
thông tin về xe trộn lẫn giữa có cấu trúc và phi cấu trúc Đầu tiên, dữ liệu được thu thập từ
các trang thương mại điện tử với nhiều trường dữ liệu số, phi số, phi cấu trúc Sau đó, dữ
liệu được lưu trữ, làm sách Tác giả đã đưa ra phương pháp định lượng hóa dữ liệu định
tính dựa vào tri thức học máy Tiếp theo, phương pháp kết hợp mô hình được sử dụng để
định giá xe ô tô Cuối cùng, mô hình được áp dụng vào tập hợp dữ liệu được thu thập ở thị
trường Việt nam trên 5 website lớn nhất về giao dịch ô tô Bài viết này bao gồm bốn phần: phần giới thiệu nêu lên tầm quan trọng của vấn đề
định giá và các nghiên cứu đã có với giá xe hơi Phần 3 sẽ trình bày mô hình được đề xuất
để định lượng các giá trị định tính và mô hình định giá xe Phần 4 mô tả kết quả thực nghiệm bằng mô hình đã đề xuất; cuối cùng là kết luận và thảo luận
Trang 8II Kết quả nghiên cứu
1 Bài toán định giá
1.1 Mô tả bài toán
Dự đoán giá xe là một bài toán phân tích hồi quy Giá xe là biến phụ thuộc và các đặc điểm của xe (nhãn hiệu, dòng xe, năm đăng ký, loại hộp số, loại nhiên liệu
sử dụng, ) là các biến độc lập Chúng tôi biểu thị đầu vào bởi X = { X ,1 X2, , X N}
và biểu thị đầu ra của Y Mô hình hồi quy biểu diễn cho mối quan hệ phụ thuộc của
1.2.2 Tập nhúng thực thể
Chúng tôi ánh xạ các biến category vào không gian Euclide trong một bàitoán xấp xỉ hàm, nhúng thực thể của biến category Ánh xạ được học bởi một mạng lưới thần kinh trong quá trình đào tạo có giám sát tiêu chuẩn (Hình 1)
Trang 9Hình 1: Tập nhúng thực thể
Ý tưởng chính của cấu trúc nhúng dựa trên tri thức của chúng tôi như sau:
● Các thực thể có thể được mô hình trong một không gian nhúng A với
số chiều là , véc-tơ d E i ∈R d được gán cho thực thể thứ i
● Trong không gian nhúng này, có một phương pháp đo sự tương đồng cho bất kỳ loại mối quan hệ nào giữa các thực thể thực tế
Đầu tiên, chúng ta ánh xạ từng giá trị của một biến rời rạc thành một véc-tơ
để xấp xỉ x i dưới dạng mã hóa one-hot:
Trang 10ánh xạ chỉ gồm trọng số của lớp này và có thể được huấn luyện với cùng cách thức như một lớp mạng nơ-ron
Các lớp nhúng d i chiều là các siêu tham số cần xác định trước đó Miền giới hạn của kích thước nhúng là từ 1 đến m i− 1 với m i là số lượng giá trị của x i.Chúng tôi lựa chọn số chiều dựa trên kinh nghiệm thực tế
Ví dụ, với x i là biến rời rạc biểu diễn giá trị của thứ trong tuần Với mỗi ngày trong tuần (Thứ hai, Thứ ba, ) chúng ta khởi tạo một véc-tơ mã hóa one-hot (biểu diễn bởi δαβ như trong Hình 2 Số chiều của tập nhúng thực thể là ma trận 7x4 với ma trận hệ số ωαβ có α = 7 = 4 , β Ban đầu, giá trị của ma trận trọng số được khởi tạo ngẫu nhiên Thay vì biểu diễn véc-tơ one-hot cho từng ngày trong tuần, nó biểu diễn dựa trên ma trận trọng số với các giá trị véc-tơ thực thể nhúng tương ứng Phép toán này giống với sử dụng mã hóa one-hot và phép nhân ma trận
Hình 2: Lớp nhúng Với ma trận one-hot là ma trận đơn vị, kết hợp với ma trận nhúng thực thể tạo ra một ma trận nhúng giống hệt (bao gồm các giá trị liên tục) Ma trận này sau
đó được đưa vào mạng nơ-ron để huấn luyện với quá trình lan truyền ngược
1.2.3 Các mô hình hồi quy
A Rừng ngẫu nhiên
Rừng ngẫu nhiên chủ yếu được sử dụng để phân loại, nhưng chúng tôi đã sử dụng nó như một mô hình hồi quy bằng cách đưa bài toán về bài toán hồi quy Những cái cây (weak-learner) được đào tạo trên các phần nhỏ của bộ dữ liệu một cách riêng lẻ và giúp mô hình học các mẫu không thể đoán trước bằng cách gia tăng chiều sâu Điều này khắc phục sự cố quá khớp bằng cách lấy trung bình các dự đoán của từng cây với mục tiêu giảm phương sai và đảm bảo tính nhất quán [4]
Trang 11B Light Gradient Boosting Machine (LightGBM)
LightGBM là một thuật toán gradient-boosting sử dụng các thuật toán dựa trên phần tử học là cây LightGBM phát triển theo chiều dọc của cây trong khi các thuật toán khác phát triển theo chiều ngang của cây, có nghĩa là LightGBM phát triển mức độ thông minh của cây Nó sẽ chọn để phát triển các lá với mất mát delta cực đại Thuật toán này được sử dụng để sắp xếp, phân loại, hồi quy và nhiều hoạt động học máy khác [9]
C Extreme Gradient Boosting (XGBoost)
XGBoost là một phần của họ thuật toán tăng cường và sử dụng GBM làm cốt lõi của nó XGBoost bao gồm một mô hình được chính quy hóa để tránh hiện tượng quá khớp Điều này tương tự với rừng tham lam được chính quy hóa, nhưng đơn giản hóa nhưng được đơn giản hóa các mục tiêu song song cũng như thuật toán.Mượn ý tưởng từ rừng ngẫu nhiên, lấy thêm mẫu cột là một kỹ thuật đơn giản nhưng hiệu quả Trong khi việc học các nhận thức thưa là điều cần thiết trong các mô hình khác như mô hình tuyến tính, một số công trình về học cây đã thực hiện điều này một cách có quy tắc [10]
● Đối với thuộc tính category, chúng tôi tạo một lớp thực thể nhúng để định lượng biến định tính đó
● Nối các vectơ nhúng ở trên và các thuộc tính còn lại với nhau để tạo thành một vectơ duy nhất Coi nó như một lớp đầu vào thông thườngcủa một mạng nơ-ron
● Xây dựng một mạng nơ-ron tiếp đó và huấn luyện cả mô hình để dự đoán giá xe hơi
● Lấy ra véc-tơ nối đã được huấn luyện và dùng nó như đầu vào cho một
mô hình kết hợp các mô hình hồi quy khác nhau để đạt hiệu quả cao hơn
Trang 12● Sử dụng tập đánh giá để đánh giá mô hình nhằm đưa ra số chiều của lớp nhúng
Trang 13Hình 3: Mô hình đề xuất sử dụng lớp nhúng để lượng hoá dữ liệu định tính
1.2.5 Phương pháp đo kết quả
Hệ số xác định R-squared (R2) là một phép đo thống kê biểu diễn tỉ lệ phương sai của biến phụ thuộc được giải thích trong một mô hình hồi quy bằng cácbiến độc lập
Công thức tính hệ số xác định như sau:
Trang 14Bộ dữ liệu thu thập được gồm các trường dữ liệu sau:
Trường dữ liệu Loại dữ liệu Mô tả
động 4 bánh), …)
…)
Trang 15color categorical Màu sắc của xe
nước)
Sau khi thu thập dữ liệu từ bốn website trên, tổng số bản ghi thu được là
33605 Dữ liệu sau đó được tiền xử lý qua các bước sau để dễ dàng đưa vào huấn luyện:
● Lọc ra những xe cũ và xoá cột trạng thái, xe cũ hay mới được tính trên cột kilomet đã đi
● Bỏ đi các xe sản xuất trước năm 1990 và sau năm 2020
● Bỏ đi các xe có giá quá cao (trên 20 tỷ VNĐ) hoặc quá thấp (dưới 50 triệu VNĐ)
Bộ dữ liệu sau cùng bao gồm 10 trường dữ liệu sau khi tiền xử lý, bao gồm 8 trường dữ liệu định tính (brand, name, actuator, gearbox, seller, fuel, color, origin)
và 2 trường dữ liệu số (kilometer, age)
2.2 Áp dụng
Với cả hai bộ dữ liệu Kaggle và Vietnamese, chúng tôi sử dụng mô hình đã được đề xuất Sau khi lượng hoá các trường dữ liệu định tính, chúng tôi sẽ sử dụng mô hình Random Forest như trong bài báo [4] để so sánh kết quả Ngoài ra, chúng tôi cũng sử dụng một số thuật toán được sử dụng rộng rãi như XGBoost và LightGBM
2.3 Kết quả