1. Trang chủ
  2. » Luận Văn - Báo Cáo

nhập môn khai phá dữ liệu áp dụng các kỹ thuật học máy để dự đoán giá cả của ô tô khoa công nghệ thông tin

39 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Áp dụng các kỹ thuật học máy để dự đoán giá cả của ô tô
Tác giả Luyện Thành Bình
Người hướng dẫn TS. Nguyễn Văn Quyết
Trường học Trường Đại học Sư phạm Kỹ thuật Hưng Yên
Chuyên ngành Khoa học Máy tính
Thể loại Bài tập lớn
Năm xuất bản 2023
Thành phố Hưng Yên
Định dạng
Số trang 39
Dung lượng 4,39 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊNNHẬP MÔN KHAI PHÁ DỮ LIỆU ÁP DỤNG CÁC KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN GIÁ CẢ CỦA Ô TÔ KHOA CÔNG NGHỆ THÔNG TIN NGÀNH: KHOA HỌC

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊN

NHẬP MÔN KHAI PHÁ DỮ LIỆU

ÁP DỤNG CÁC KỸ THUẬT HỌC MÁY ĐỂ DỰ ĐOÁN GIÁ CẢ CỦA Ô TÔ

KHOA CÔNG NGHỆ THÔNG TIN

NGÀNH: KHOA HỌC MẤY TÍNH

SINH VIÊN: LUYỆN THANH BÌNH

MÃ LỚP: 12421TN HƯỚNG DẪN: TS NGUYỄN VĂN QUYẾT

HƯNG YÊN – 2023

Trang 2

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

NHẬN XÉT

Nhận xét của giảng viên 1 đánh giá:

Ký và ghi họ tên Nhận xét của giảng viên 2 đánh giá:

Ký và ghi họ tên

Trang 3

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

LỜI CAM ĐOAN

Em xin cam đoan bài tập lớn “Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô”

là sản phẩm của bản thân Những phần sử dụng tài liệu tham khảo trong bài tập lớn đãđược nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trong bài tậplớn là hoàn toàn trung thực, nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi kỷluật của bộ môn và nhà trường đề ra

Hưng yên, ngày … tháng … năm 2022

Sinh viên

Trang 4

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

LỜI CẢM ƠN

Trước tiên, em xin được gửi lời biết ơn sâu sắc và chân thành nhất tới Bộ môn Khoahọc máy tính, Khoa Công nghệ thông tin – Trường Đại học Sư phạm Kỹ thuật HưngYên Nhờ sự tạo điều kiện và hỗ trợ nhiệt tình của Bộ môn, em đã có cơ hội thực hiện

đồ án môn học này, mở rộng kiến thức và kỹ năng của mình Sự giúp đỡ của Bộ môn

đã tạo nên môi trường học tập lý tưởng cho em, giúp em tiếp cận với những kiến thứcmới và thực hành những kỹ năng quan trọng

Em xin dành lời cảm ơn chân thành nhất tới Thầy Nguyễn Văn Quyết, người đã khôngngần ngại chia sẻ kiến thức, kinh nghiệm và thời gian quý báu của mình để hướng dẫn

em Sự tận tâm và những lời khuyên của Thầy đã giúp em vượt qua những khó khăntrong quá trình thực hiện đồ án Thầy đã là nguồn động lực to lớn giúp em khôngngừng cố gắng và hoàn thiện bản thân

Em cũng muốn gửi lời cảm ơn tới tất cả các Thầy, các Cô trong Trường đã tận tìnhgiảng dạy, trang bị cho em những kiến thức quý báu Những bài học và lời khuyên củacác Thầy Cô đã là nguồn động lực to lớn giúp em hoàn thành đồ án này Em xin gửilời tri ân sâu sắc tới những người thầy vĩ đại đã dạy dỗ em từ những điều nhỏ nhất Dù

em đã cố gắng hết sức, nhưng với trình độ và kinh nghiệm còn hạn chế, đồ án nàykhông thể tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đóng góp,nhận xét của các Thầy Cô để em có thể hoàn thiện hơn trong tương lai Em xin chấpnhận mọi ý kiến phê bình với tinh thần mở lòng, vì em biết rằng chỉ có qua đó, em mới

có thể tiếp tục phát triển và hoàn thiện bản thân

Em xin trân thành cảm ơn!

Trang 5

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

MỤC LỤC

NHẬN XÉT 2

CHƯƠNG 1: TÌM HIỂU VỀ ĐỀ TÀI 6

1.1 Lý do chọn đề tài 6

1.2 Mục tiêu của đề tài 7

1.3 Giới hạn và phạm vi của đề tài 7

1.3.1 Đối tượng nghiên cứu 7

1.3.2 Phạm vi nghiên cứu 7

1.4 Nội dung thực hiện 7

1.5 Phương pháp tiếp cận 8

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 9

2.1 Khái niệm khai phá dữ liệu và học máy 9

2.1.1 Khái niệm khai phá dữ liệu 9

2.1.2 Khái niệm học máy 9

2.1.3 Liên hệ giữa khai phá dữ liệu và học máy 10

2.2 Các kỹ thuật khai phá dữ liệu 11

2.2.1 Kỹ thuật tiền xử lý dữ liệu 11

2.2.2 Phân tích thống kê dữ liệu 11

2.2.3 Mô hình hóa dữ liệu 12

2.3 Các thuật toán học máy 13

2.3.1 Linear Regression 13

2.3.2 Rừng Ngẫu Nhiên (Random Forest) 14

2.3.3 Decision Tree 16

2.3.3 Collaborative Filtering 18

2.3.4 Mô hình Navie Bayes 19 1

Trang 6

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

2.3.5 KNN 20

2.4 Tổng kết chương 21

CHƯƠNG 3: XÂY DỰNG MÔ HÌNH HỌC MÁY CHO BÀI TOÀN DỰ ĐOÁN GIÁ CẢ Ô TÔ 22 3.1 Thu thập dữ liệu 22

3.1.1 Dữ liệu thu thập 22

3.2 Khai phá dữ liệu 22

3.2.1 Thông tin dữ liệu 22

3.2.2 Làm sạch dữ liệu 25

3.2.3 Trực quan hóa dữ liệu 26

3.3 Xây dựng mô hình 32

3.3.1 Chuẩn bị dữ liệu 32

3.3.2 Tiền xử lí dữ liệu 32

3.3.3 Xây dựng mô hình 33

3.3.4 So sánh hiệu suất các mô hình 34

KẾT LUẬN 35

- TÀI LIỆU THAM KHẢO 36

2

Trang 7

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

DANH MỤC HÌNH ẢNH

H4nh 1: Tổng quan về data 22

H4nh 2: Các thuộc tính kiểu dữ liệu 22

H4nh 3: Tổng Quan về dữ liệu 23

H4nh 4 Kiểm tra dữ liệu rỗng: 23

H4nh 5: Kiểm tra dữ liệu bị trùng lặp 24

H4nh 6: Làm sạch dữ liệu cột CarName 24

H4nh 7: Kết quả sau khi làm sạch 24

H4nh 8: Tên công ty các hãng xe 24

H4nh 9: Sau khi sửa lại các tên của công ty 24

H4nh 10: Biểu đồ phân phối giá xe và chênh lệch giá ô tô 25

H4nh 11 Tổng số xe do các công ty sản xuất 26

H4nh 12 :Tên công ty và giá trung b4nh 26

H4nh 13 Trực quan hoá loại nhiên liệu 27

H4nh 14: Trực quan hoá thuộc tính Aspiration với giá trung b4nh 27

H4nh 15: Trực quan hoá thuộc tính Doornumber với giá trung b4nh 28

H4nh 16 :Trực quan hoá thuộc tính Carbody với giá trung b4nh 28

H4nh 17 Trực quan hoá thuộc tính Drivewheel với giá trung b4nh: 29

H4nh 18 :Trực quan hoá thuộc tính Enginelocation với giá trung b4nh 30

H4nh 19 Trực quan hoá thuộc tính Enginetype với giá trung b4nh: 30

3

Trang 8

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

1.1 Lý do chọn đề tài

Trong thời đại số hóa ngày càng phát triển, việc sử dụng kỹ thuật học máy để dự đoángiá cả ô tô đã trở thành một đề tài thú vị và hấp dẫn Dưới đây, chúng ta sẽ xem xét lý

do tại sao đề tài này được chọn và những lợi ích tiềm năng mà nó mang lại

-Tính ứng dụng rộng rãi: Dự đoán giá cả ô tô có tính ứng dụng rất cao trong thị trường

ô tô, là một phần quan trọng của quyết định mua bán Điều này không chỉ giúp ngườimua và người bán, mà còn hỗ trợ trong việc quảng cáo, quản lý hàng tồn kho, và tạo ratrải nghiệm mua sắm tốt hơn

-Số lượng dữ liệu lớn: Thị trường ô tô cung cấp một lượng dữ liệu lớn về giá cả, tínhnăng kỹ thuật, thông tin lịch sử và nhiều yếu tố khác Điều này làm cho việc áp dụnghọc máy để phân tích và dự đoán giá cả trở nên khả thi và hứa hẹn

-Cơ hội nghiên cứu: Nghiên cứu về dự đoán giá cả ô tô yêu cầu nắm vững các kỹ thuậthọc máy, thống kê và khai phá dữ liệu Điều này giúp phát triển kỹ năng quan trọng vàcung cấp cơ hội tiếp cận các thách thức nghiên cứu mới mẻ

-Quản lý rủi ro: Việc dự đoán giá cả ô tô có thể giúp người mua và người bán ô tôđánh giá rủi ro và tối ưu hóa quyết định Điều này có thể hỗ trợ người tiêu dùng khimua sắm và giúp doanh nghiệp tối ưu hóa lợi nhuận và tồn kho

-Thúc đẩy sáng tạo: Việc phát triển một mô hình dự đoán giá cả ô tô có thể thúc đẩysáng tạo trong lĩnh vực học máy và trí tuệ nhân tạo Bạn có thể thử nghiệm và cải tiếncác phương pháp học máy mới để cải thiện dự đoán giá cả ô tô

-Thị trường đổi đầu tư: Giá cả ô tô có thể biến đổi theo thời gian dựa trên nhiều yếu tốkhác nhau như cung cấp và cầu, kinh tế và thị trường Điều này có thể cung cấp thôngtin hữu ích cho người đầu tư hoặc những người muốn hiểu rõ thị trường ô tô.-Tiềm năng kinh doanh: Dự đoán giá cả ô tô có tiềm năng kinh doanh lớn, bao gồmphát triển ứng dụng hoặc dịch vụ cung cấp thông tin cho người tiêu dùng, hỗ trợ đàmphán giá, và giúp doanh nghiệp tối ưu hóa chiến lược giá cả

-Hiểu thị trường: Nghiên cứu giá cả ô tô giúp hiểu rõ hơn về thị trường ô tô, bao gồmcách thức giá cả thay đổi dựa trên mô hình, thương hiệu, và các yếu tố khác Điều nàygiúp đánh giá cơ hội kinh doanh và đối thủ cạnh tranh

4

Trang 9

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

-Tích hợp dữ liệu đa dạng: Dự án này đòi hỏi tích hợp dữ liệu từ nhiều nguồn khácnhau, bao gồm thông tin về xe hơi, dữ liệu thị trường, dự báo thời tiết và nhiều yếu tốkhác Điều này giúp phát triển kỹ năng làm việc với dữ liệu đa dạng và khai phá tiềmnăng học máy trong việc sử dụng nhiều nguồn dữ liệu

-Thách thức kỹ thuật: Nghiên cứu này đưa ra các thách thức kỹ thuật thú vị như quản

lý biến thiên lớn trong giá cả, xử lý dữ liệu bị thiếu hoặc nhiễu, và tối ưu hóa mô hìnhhọc máy để đạt được dự đoán chính xác Điều này giúp phát triển kỹ năng kỹ thuậtquan trọng và đối diện với những thách thức sáng tạo

-Tổng cộng, dự án "Sử dụng Học Máy để Dự Đoán Giá Cả Ô Tô" không chỉ mang lạigiá trị kinh doanh mà còn đem lại cơ hội học hỏi và phát triển nhiều khả năng kỹ thuật

và sáng tạo Nó kết hợp sự quan tâm đến thị trường ô tô, tiềm năng kinh doanh, và khảnăng áp dụng học máy vào thế giới thực tế, tạo ra một đề tài hấp dẫn và đầy triển vọng

1.2 Mục tiêu của đề tài

- Nghiên cứu và cài đặt một số mô hình phân lớp như Logistic Regression (Hồi quytuyến tính), Support Vector Machine (Máy Vectơ hỗ trợ), Decision Trees (Cây quyếtđịnh)

- Thu thập và xử lý dữ liệu ở trên Kaggle

- Cài đặt một số mô hình Học Máy cho bài toán chẩn đoán Đột quỵ não và đánh giáhiệu quả của các mô hình này

1.3 Giới hạn và phạm vi của đề tài

1.3.1 Đối tượng nghiên cứu

- Ứng dụng một số mô hình Học Máy hỗ trợ chẩn đoán bệnh Đột quỵ não

1.3.2 Phạm vi nghiên cứu

- 3 mô hình Học Máy: Logistic Regression, Support Vector Machine, Decision Trees

1.4 Nội dung thực hiện

Đề tài gồm 4 chương:

- Chương 1: Tìm hiểu về đề tài

+ Lý do chọn đề tài

+ Mục tiêu của đề tài

+ Giới hạn và phạm vi của đề tài

+ Nội dung thực hiện

+ Phương pháp tiếp cận

5

Trang 10

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

- Chương 2: Tìm hiểu các kỹ thuật học máy

+ Nghiên cứu một số kỹ thuật học máy được áp dụng trong bài toán

- Chương 3: Xây d'ng mô hình học máy

+ Thu thập dữ liệu

+ Phân tích dữ liệu

+ Xây dựng mô hình học máy

+ Phân tích kết quả thực nghiệm

- Chương 4: Xây d'ng ứng dụng khai phá dữ liệu

+ Xây dựng hệ thống để ứng dụng mô hình học máy đã xây dựng được vào thử

nghiệm và kiểm thử hệ thống

1.5 Phương pháp tiếp cận

- Tham khảo và lấy dữ liệu trên Kaggle

- Tham khảo thông tin trên các trang internet

6

Trang 11

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Khái niệm khai phá dữ liệu và học máy

2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu (Data Mining) là một quá trình mạnh mẽ trong lĩnh vực khoahọc dữ liệu và phân tích dữ liệu Nó là quá trình tự động hoá để khám phá thông tin

ẩn, mẫu, kiến thức, và tri thức từ các tập dữ liệu lớn, đa dạng, và thường là phức tạp.Mục tiêu chính của khai phá dữ liệu là biến dữ liệu thô thành thông tin giá trị và thậmchí là tri thức để hỗ trợ quyết định và dự đoán trong nhiều lĩnh vực, từ kinh doanh vàkhoa học đến chăm sóc sức khỏe và ngành công nghiệp

Khai phá dữ liệu đặc biệt hữu ích khi chúng ta đối diện với dữ liệu lớn và phứctạp mà không thể dễ dàng nắm bắt thông qua các phương pháp truyền thống Quátrình này thường bao gồm việc sử dụng các kỹ thuật và công cụ đa dạng như học máy,thống kê, trí tuệ nhân tạo, và cơ sở dữ liệu

Một số ứng dụng thường thấy của khai phá dữ liệu bao gồm:

1 D' đoán và phân tích d' đoán: Khai phá dữ liệu cho phép xây dựng các mô hình

dự đoán dựa trên dữ liệu lịch sử Ví dụ, trong ngành tài chính, nó có thể được sửdụng để dự đoán giá cổ phiếu hoặc tình hình thị trường tài chính trong tương lai

2 Phân loại và gom cụm: Khai phá dữ liệu có khả năng phân loại các đối tượng vào các nhóm hoặc phân cụm dựa trên các đặc điểm chung Ví dụ, trong chăm sóc sức khỏe, nó có thể được sử dụng để phân loại bệnh nhân vào các nhóm rủi ro khácnhau

3 Phân tích mẫu và chuỗi s' kiện: Đặc biệt hữu ích cho các tập dữ liệu có tính chất chuỗi thời gian hoặc dạng đồ thị, khai phá dữ liệu có thể giúp xác định mẫu vàchuỗi sự kiện đáng chú ý

4 Tối ưu hóa quy trình: Khai phá dữ liệu giúp cải thiện quy trình kinh doanh, ví

dụ, tối ưu hóa quản lý tồn kho, lập lịch sản xuất, và quản lý chuỗi cung ứng 5

Tìm kiếm tri thức và bất thường: Nó có thể được sử dụng để tìm ra tri thức mới và

xác định các điểm bất thường trong dữ liệu, giúp phát hiện vấn đề hoặc cơ hộiquan trọng

Khai phá dữ liệu không chỉ là một quá trình phức tạp mà còn là một quá trình đòi hỏi

sự hiểu biết sâu rộng về dữ liệu, mô hình hóa, và các kỹ thuật liên quan Nó đóng vaitrò quan

trọng trong việc tạo ra giá trị từ dữ liệu và cung cấp cơ hội phân tích sâu hơn và địnhhướng cho nhiều ngành công nghiệp và lĩnh vực nghiên cứu

2.1.2 Khái niệm học máy

Học máy (Machine Learning) là một lĩnh vực của trí tuệ nhân tạo (AI) tập trungvào việc phát triển các thuật toán và mô hình có khả năng học từ dữ liệu và cung cấp7

Trang 12

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

các dự đoán và quyết định dựa trên học hỏi đó Điều đặc biệt về học máy là khả năng

tự cập nhật và cải thiện hiệu suất sau mỗi lần huấn luyện

Học máy chủ yếu được chia thành ba loại chính:

1 Học máy có giám sát (Supervised Learning): Trong loại này, mô hình được huấn luyện trên một tập dữ liệu đã được gán nhãn Nó học từ các cặp đầu vào-vào ra để tạo ra một bản đồ hàm từ đầu vào đến đầu ra Mục tiêu cuối cùng là học được một quy tắc tổng quát từ dữ liệu huấn luyện để có thể đưa ra dự đoán chính xác trên dữ liệu mới chưa từng thấy

2 Học máy không giám sát (Unsupervised Learning): Ngược lại, trong học máykhông giám sát, mô hình được huấn luyện trên dữ liệu không có nhãn Mục tiêu làtìm ra các mẫu, cấu trúc hoặc phân cụm tự nhiên trong dữ liệu mà không cần biếttrước

3 Học máy bán giám sát (Semi-Supervised Learning): Loại này kết hợp cả haiphương pháp trên, sử dụng cả dữ liệu có nhãn và dữ liệu không có nhãn để huấnluyện mô hình

Học máy có ứng dụng rộng rãi trong nhiều lĩnh vực như nhận diện hình ảnh, xử lýngôn ngữ tự nhiên, dự báo thị trường tài chính, y học, xe tự lái, và nhiều lĩnh vựckhác Đặc biệt, việc sử dụng học máy để tạo ra các hệ thống gợi ý đã trở thành mộtứng dụng phổ biến và hữu ích trong thế giới công nghệ ngày nay

2.1.3 Liên hệ giữa khai phá dữ liệu và học máy

Khai phá dữ liệu và học máy là hai khía cạnh quan trọng của quá trình tríchxuất giá trị từ dữ liệu Mặc dù chúng có mục tiêu chung là tìm ra thông tin hữu ích từ

dữ liệu, nhưng chúng tiếp cận mục tiêu này từ các góc độ khác nhau

Khai phá dữ liệu tập trung vào việc tìm kiếm, phân tích, và rút ra thông tin ẩn từcác tập dữ liệu lớn và phức tạp Đây là quá trình phân loại, phân cụm, dự đoán và pháthiện mẫu trong dữ liệu Các kỹ thuật khai phá dữ liệu thường sử dụng thống kê, biểu

đồ, và các phương pháp truyền thống khác để tìm ra cấu trúc và tri thức từ dữ liệu Học máy, mặt khác, là một lĩnh vực của trí tuệ nhân tạo tập trung vào việc xâydựng mô hình và thuật toán có khả năng học hỏi từ dữ liệu Chúng ta huấn luyện môhình học máy trên dữ liệu huấn luyện đã có nhãn và sau đó sử dụng mô hình đã học

để dự đoán hoặc phân loại dữ liệu mới Học máy thường sử dụng các thuật toán nhưmạng nơ-ron, máy vector hỗ trợ (SVM), và cây quyết định để xây dựng mô hình Mối liên hệ giữa hai lĩnh vực này thể hiện rõ trong việc sử dụng học máy trongcác bước của quá trình khai phá dữ liệu Học máy có thể được sử dụng để xây dựngcác mô hình dự đoán hoặc phân loại trong các nhiệm vụ khai phá dữ liệu Ví dụ, khikhai phá dữ liệu từ một tập dữ liệu lớn về người dùng và mua sắm trực tuyến, chúng

ta có thể sử dụng học máy để dự đoán sản phẩm mà người dùng có thể quan tâm dựatrên lịch sử mua sắm của họ

Khai phá dữ liệu và học máy là hai công cụ quan trọng và bổ trợ nhau trongviệc hiểu và tận dụng giá trị từ dữ liệu Khai phá dữ liệu giúp tìm ra thông tin ẩn và8

Trang 13

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

mẫu, trong khi học máy cung cấp khả năng dự đoán và phân loại dựa trên dữ liệu đãhọc Khi kết hợp, chúng tạo ra cơ hội để tạo ra các ứng dụng thông minh và quyếtđịnh thông qua sự hiểu biết sâu về dữ liệu

2.2 Các kỹ thuật khai phá dữ liệu

2.2.1 Kỹ thuật tiền xử lý dữ liệu

- Xử lý dữ liệu khuyết thiếu ( Handling Missing Data): là quá trình đối phó với dữliệu bị thiếu hoặc không đầy đủ trong tập dữ liệu Dữ liệu có thể bị thiếu vì nhiều lý

do như lỗi trong quá trình thu thập, thông tin không được ghi lại, hoặc dữ liệu bịhỏng Việc xử lý dữ liệu khuyết thiếu là một phần quan trọng trong quá trình tiền xử

lý dữ liệu trước khi áp dụng các mô hình học máy hoặc thực hiện phân tích dữ liệu

- Chuẩn hóa dữ liệu (Data Normalization): là quá trình biến đổi dữ liệu trongtập dữ liệu thành một định dạng cụ thể hoặc khoảng giá trị nhất định để tạo ra mộtphạm vi đồng

nhất hoặc chuẩn hóa cho dữ liệu Mục tiêu chính của việc chuẩn hoá dữ liệu là đảmbảo rằng các biến số có trong tập dữ liệu có cùng phạm vi hoặc đơn vị đo lường, giúptránh hiện tượng các biến có trọng số khác nhau hoặc ảnh hưởng quá mức trong quátrình phân tích dữ liệu hoặc xây dựng mô hình

- Loại bỏ nhiễu trong dữ liệu (Noise Removal): là quá trình loại bỏ hoặc giảmthiểu các yếu tố không mong muốn, gây nhiễu hoặc nhiễm vào dữ liệu, thông tin hoặctín hiệu để cải thiện chất lượng hoặc độ tin cậy của dữ liệu đó Nhiễu (noise) có thể làcác tín hiệu ngẫu nhiên, biến đổi không mong muốn, hay các yếu tố ngoại lai gây méo

mó dữ liệu Loại bỏ nhiễu là một bước quan trọng trong tiền xử lý dữ liệu và phân tích

dữ liệu để đảm bảo rằng thông tin trích xuất hoặc sử dụng cho mô hình hóa và raquyết định là đáng tin cậy

- Còn nhiều cái nữa …………

2.2.2 Phân tích thống kê dữ liệu

Phân tích thống kê dữ liệu (Statistical Data Analysis) là quá trình áp dụng các phương pháp, công cụ và kỹ thuật thống kê để khám phá, tóm tắt, diễn giải và đưa ranhững hiểu biết từ dữ liệu Mục tiêu chính của phân tích thống kê là biến dữ liệuthành thông tin hữu ích và giúp người dùng hiểu sâu hơn về tính chất, mối quan hệ vàbiểu đồ của dữ liệu Phân tích thống kê dữ liệu thường được áp dụng trong nhiều lĩnhvực, từ khoa học, kinh doanh, y học, xã hội học đến công nghệ và nhiều lĩnh vựckhác

Các hoạt động chính trong phân tích thống kê dữ liệu bao gồm:

1 Mô tả dữ liệu: Điều này bao gồm việc sử dụng các thống kê mô tả như trung bình, phương sai, phân phối tần số, biểu đồ dạng histogram, biểu đồ hộp (box plot), và biểu đồ phân tán để tóm tắt và biểu diễn dữ liệu một cách trực quan

2 Kiểm định giả thuyết (Hypothesis Testing): Các kiểm định giả thuyết được sử dụng

để kiểm tra các giả thuyết về dữ liệu Ví dụ, kiểm định t làm cho bạn có thể xácđịnh xem có sự khác biệt ý nghĩa giữa hai nhóm dữ liệu hay không

9

Trang 14

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

3 Phân tích biểu đồ và biểu đồ: Sử dụng biểu đồ và biểu đồ thống kê như biểu đồ cột, biểu đồ đường, biểu đồ tròn, biểu đồ dạng scatter plot để hiểu mối quan hệ và xu hướng trong dữ liệu

4 Mô hình hóa và d' đoán: Sử dụng các mô hình thống kê như hồi quy tuyến tính, phân tích phương sai (ANOVA), và các mô hình học máy để dự đoán hoặc mô hình hóa dữ liệu

5 Phân tích thời gian chuỗi: Trong trường hợp dữ liệu là chuỗi thời gian, phântích thống kê giúp xác định xu hướng, mùa vụ, và các biến đổi theo thời gian 6

Phân tích đa biến và phân tích phân nhóm: Trong trường hợp có nhiều biến số

hoặc nhóm dữ liệu, phân tích đa biến và phân tích phân nhóm giúp hiểu mối quan

hệ và sự khác biệt giữa các biến số hoặc nhóm

Phân tích thống kê dữ liệu là một công cụ mạnh mẽ trong việc tạo ra kiến thức, dựđoán, và ra quyết định dựa trên dữ liệu, cung cấp cơ sở cho việc ra quyết định dựatrên bằng chứng số liệu và giúp chúng ta hiểu sâu hơn về thế giới xung quanh

2.2.3 Mô h4nh hóa dữ liệu

Mô hình hóa dữ liệu (Data Modeling) là quá trình tạo ra một biểu đồ hoặc môhình biểu diễn dữ liệu trong một hình thức cụ thể để hiểu, mô tả, hoặc dự đoán cácmối quan hệ, mẫu, và thông tin bên trong dữ liệu Mô hình hóa dữ liệu giúp biểu diễn

dữ liệu một cách trực quan và thường được sử dụng để phân tích, đánh giá, và thậmchí dự đoán các biểu hiện trong dữ liệu

Mô hình hóa dữ liệu có thể thực hiện trong nhiều lĩnh vực và có các dạng khácnhau, bao gồm:

1 Biểu đồ và biểu đồ thống kê: Đây là một hình thức phổ biến của mô hình hóa dữliệu Biểu đồ và biểu đồ thường được sử dụng để trực quan hóa dữ liệu dưới dạngcột, đường, tròn, scatter plot, biểu đồ hộp (box plot), và nhiều loại biểu đồ khác.Chúng giúp hiểu mối quan hệ giữa các biến số và biểu diễn mẫu dữ liệu

2 Mô hình hóa thống kê: Sử dụng các mô hình thống kê như mô hình hồi quy tuyến tính, mô hình phân tích phương sai (ANOVA), và các mô hình khác để diễn giải và

dự đoán dữ liệu Các mô hình này giúp xác định mối quan hệ thống kê giữa cácbiến số và có thể dự đoán giá trị dựa trên dữ liệu đầu vào

3 Mô hình hóa 3D và hình ảnh: Sử dụng mô hình 3D để biểu diễn dữ liệu trongkhông gian ba chiều hoặc mô hình hóa hình ảnh để xem xét cấu trúc và thông tinbên trong hình ảnh

4 Mô hình hóa dữ liệu thời gian chuỗi: Đối với dữ liệu thời gian, mô hình hóa dữ liệu

có thể bao gồm việc sử dụng mô hình chuỗi thời gian như ARIMA(Autoregressive Integrated Moving Average) để dự đoán xu hướng và mẫu trong

dữ liệu

Mục tiêu của mô hình hóa dữ liệu là biểu diễn dữ liệu một cách rõ ràng và giúpngười sử dụng hiểu sâu hơn về dữ liệu, tìm ra các mẫu quan trọng, và thậm chí dựđoán tương lai dựa trên thông tin hiện có

10

Trang 15

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

2.3 Các thuật toán học máy

2.3.1 Linear Regression

Giới thiệu

Linear Regression là một thuật toán machine learning trong lĩnh vực học có giám sát, được sử dụng chủ yếu để dự đoán giá trị của một biến liên tục dựa trên các biến độc lập Nó thuộc loại thuật toán hồi quy và được ứng dụng rộng rãi trong các lĩnh vực nhưkinh tế, tài chính, y học và nhiều lĩnh vực khác

Ưu điểm

+ Dễ Hiểu và Triển Khai: Linear Regression là một thuật toán đơn giản và dễ hiểu Người ta có thể hiểu thuật toán này mà không cần kiến thức chuyên sâu về toán học.+ Hiệu Suất Tốt với Dữ Liệu Đơn Giản: Khi dữ liệu có mối quan hệ tuyến tính, Linear Regression thường đưa ra các dự đoán hiệu quả và chính xác

+ Ít Tham Số Cần Điều Chỉnh: Linear Regression có ít tham số cần điều chỉnh so với một số thuật toán phức tạp khác

+ Dùng Được cho Cả Phân Tích và Dự Đoán: Linear Regression không chỉ giúp dự đoán giá trị mục tiêu mà còn giúp hiểu rõ mối quan hệ giữa biến phụ thuộc và biến độclập

Nhược điểm

+ Giả Định Về Tuyến Tính: Linear Regression giả định rằng mối quan hệ giữa các biến là tuyến tính Điều này có thể là một hạn chế nếu mối quan hệ thực sự không phảinhư vậy

+ Nhạy Cảm với Nhiễu: Linear Regression có thể nhạy cảm với các điểm nhiễu trong

dữ liệu, và điều này có thể ảnh hưởng đến hiệu suất của mô hình

+ Không Xử Lý Tốt Cho Dữ Liệu Phi Tuyến Tính: Khi mối quan hệ giữa các biến không phải tuyến tính, Linear Regression có thể cho kết quả không chính xác hoặc không chính xác

+ Không Phù Hợp Cho Dữ Liệu Phức Tạp: Trong trường hợp dữ liệu phức tạp với nhiều biến độc lập và mối quan hệ phức tạp, Linear Regression có thể không đủ mạnh mẽ

11

Trang 16

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

+ Mặc dù Linear Regression có nhược điểm, nhưng nó vẫn là một công cụ quan trọng

và mạnh mẽ trong kho công cụ của các nhà nghiên cứu và người làm machine learning

2.3.2 Rừng Ngẫu Nhiên (Random Forest)

Giới thiệu

Random forest là một phương pháp thống kê mô hình hóa bằng máy (machine learning statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định (Decision tree).Random Forest cho thấy hiệu quả hơn so với thuật toán phân loại thường được sử dụng vì có khả năng tìm ra thuộc tính nào quan trọng hơn so với những thuộc tính khác.Trên thực tế, nó còn có thể chỉ ra rằng một số thuộc tính là không có tác dụng trong cây quyết định Trong phạm vi bài báo này, nhóm nghiên cứu giới hạn phạm vi trong công tác khảo sát tính khoa học của phương pháp và định hướng việc ứng dụng phương pháp cho công tác phân loại ảnh viễn thám có kiểm định Kết quả thử nghiệm cho thấy khả năng ứng dụng phương pháp Random forest vào trong công tác phân loại có kiểm định ảnh viễn thám là hoàn toàn khả thi

Ưu, Nhược điểm

Ưu điểm:

12

Trang 17

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

 Khả Năng Xử Lý Dữ Liệu Lớn và Khả Năng Mở Rộ:

 Random Forest có khả năng xử lý các bộ dữ liệu lớn mà không gặp vấn

đề về tài nguyên hoặc hiệu suất

 Khả Năng Làm Việc Với Nhiều Loại Dữ Liệu

 Có thể xử lý cả dữ liệu số và dữ liệu phân loại mà không cần phải chuyển đổi chúng

 Ổn Định và Tính Tổng Hợp Cao

 Random Forest tạo ra nhiều cây quyết định riêng biệt và sau đó kết hợp chúng, giúp giảm thiểu nguy cơ overfitting và tăng tính tổng hợp của môhình

 Khả Năng Ưu Tiên Đặc Điểm Quan Trọng

 Cung cấp thông tin về độ quan trọng của từng đặc trưng, giúp định rõ những đặc trưng nào quan trọng trong quá trình dự đoán

 Khả Năng Đối Mặt với Thiếu Dữ Liệu và Dữ Liệu Nhiễu:

 Random Forest có khả năng xử lý dữ liệu bị thiếu và chứa nhiễu mà không cần quá nhiều tiền xử lý

 Khả Năng Tự Động Điều Chỉnh

 Có thể sử dụng mặc định hoặc tinh chỉnh các siêu tham số để đạt được hiệu suất tốt

Nhược điểm:

 Khả Năng Hiểu Quả Tăng Cao

 Do sự phức tạp của mô hình, Random Forest có thể trở nên khá khó hiểucho những người mới vào lĩnh vực machine learning

 Khả Năng Tăng Thời Gian Đào Tạo

 Việc xây dựng nhiều cây quyết định có thể làm tăng thời gian đào tạo so với mô hình đơn lẻ

 Khó Điều Chỉnh Tinh Chỉnh Tham Số

 Tinh chỉnh các tham số có thể là một quá trình phức tạp và tốn thời gian, đặc biệt là với các bộ dữ liệu lớn

 Khả Năng Overfitting

13

Trang 18

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

 Mặc dù Random Forest giảm thiểu nguy cơ overfitting so với một cây quyết định đơn lẻ, nhưng vẫn có khả năng xảy ra nếu không được điều chỉnh đúng

 Khả Năng Mất Đi Thông Tin Cấp Cao

 Do việc tổng hợp thông tin từ nhiều cây, mô hình có thể mất đi một số thông tin cấp cao được biểu diễn bởi dữ liệu

 Tóm lại, Random Forest là một mô hình mạnh mẽ có nhiều ưu điểm, đặcbiệt là trong việc xử lý dữ liệu lớn và phức tạp Tuy nhiên, nhược điểm cũng cần được xem xét khi quyết định sử dụng mô hình này cho một vấn

đề cụ thể

2.3.3 Decision Tree

Cây quyết định (DECISION TREE) là sơ đồ trong phân tích tài chính thể hiệnmối tương tác của những tỷ số tài chính, và một tỷ số ảnh hưởng đến tỷ số khác nhưthế nào, cho phép nhà phân tích tài chính hoặc người kiểm tra ngân hàng, xem xét mốiquan hệ nguyên nhân và kết quả trong những tỷ số khác nhau

Mô hình tính điểm tín dụng kiểm tra tương tác giữa các yếu tố tín dụng khácnhau, ví dụ, tuổi tác, thu nhập, loại nhà ở của bên vay nợ, bằng phương tiện là biểu đồgiống hình cây Khác với phân tích tính điểm được chấp nhận rộng rãi, là gán điểmcho từng yếu tố tín dụng được xem xét khi chấp nhận hoặc bác bỏ đơn xin cấp tíndụng

Cây quyết định là một trong những mô hình có khả năng diễn giải cao và có thểthực hiện cả nhiệm vụ phân loại và hồi quy Như tên cho thấy Cây Quyết định là môhình cấu trúc giống cây giống như cây lộn ngược Tại thời điểm này, bạn có thể có mộtcâu hỏi như chúng ta đã có các mô hình học máy cổ điển như hồi quy tuyến tính và hồiquy logistic để thực hiện các nhiệm vụ hồi quy và phân loại trong trường hợp như vậythì sự cần thiết của một mô hình khác như Cây quyết định là gì Câu trả lời cho câu hỏinày là để thực hiện các mô hình tuyến tính cổ điển, chúng ta cần đảm bảo rằng dữ liệuđược sử dụng để đào tạo mô hình không có tất cả các bất thường như giá trị bị thiếu,các giá trị ngoại lệ cần được xử lý, đa cộng tuyến cần được giải quyết Toàn bộ quátrình tiền xử lý dữ liệu cần được thực hiện trước đó Trong khi trong Cây quyết định,chúng ta không cần phải thực hiện bất kỳ loại xử lý trước dữ liệu nào trước đó CâyQuyết định đủ mạnh để xử lý tất cả các loại vấn đề như vậy để đi đến quyết định.Ngoài ra, Cây quyết định có khả năng xử lý dữ liệu phi tuyến mà các mô hình tuyếntính cổ điển không xử lý được Do đó Cây quyết định đủ đa dạng để thực hiện cả14

Trang 19

Áp dụng các kỹ thuật học máy để dự đoán giá cả ô tô

nhiệm vụ hồi quy và phân loại Toàn bộ những ưu và nhược điểm liên quan đến CâyQuyết định có thể được thảo luận chi tiết trong phần sau của bài viết này Trước đó,hãy bắt đầu tìm hiểu Cây quyết định

Cây quyết định xây dựng cây bằng cách đặt một loạt câu hỏi vào dữ liệu để điđến quyết định Do đó người ta nói rằng Cây Quyết định bắt chước quá trình quyếtđịnh của con người Trong quá trình xây dựng cây, nó chia toàn bộ dữ liệu thành cáctập dữ liệu con cho đến khi đưa ra quyết định Hãy cùng tìm hiểu một vài thuật ngữliên quan đến cây Quyết định để hiểu rõ hơn về Cây quyết định

Cây quyết định còn có hai tên khác:

Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là số thực thay

vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính giá một ngôi nhà hoặckhoảng thời gian một bệnh nhân nằm viện)

Cây phân loại (Classification tree), nếu y là một biến phân loại như: giới tính

(nam hay nữ), kết quả của một trận đấu (thắng hay thua)

Ví dụ thực hành

Ta sẽ dùng một ví dụ để giải thích về cây quyết định:

David là quản lý của một câu lạc bộ đánh golf nổi tiếng Anh ta đang có rắc rốichuyện các thành viên đến hay không đến Có ngày ai cũng muốn chơi golf nhưng sốnhân viên câu lạc bộ lại không đủ phục vụ Có hôm, không hiểu vì lý do gì mà chẳng

ai đến chơi, và câu lạc bộ lại thừa nhân viên

Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựatheo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf Để thựchiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem cócách giải thích nào cho việc đó hay không

Vậy là trong hai tuần, anh ta thu thập thông tin về:

Trời (outlook) (nắng (sunny), Và tất nhiên là số người đến chơi golf vào hôm

đó David thu được một bộ dữ liệu gồm 14 dòng và 5 cột

15

Ngày đăng: 12/07/2024, 23:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w