1. Trang chủ
  2. » Luận Văn - Báo Cáo

Sử dụng phương pháp giảm chiều pca và lda Để dự Đoán kết quả trận Đấu bóng Đá

35 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử Dụng Phương Pháp Giảm Chiều PCA Và LDA Để Dự Đoán Kết Quả Trận Đấu Bóng Đá
Tác giả Hà Thanh Bình, Bùi Quang Thắng
Người hướng dẫn Phạm Đức Hồng
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo chuyên đề
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 35
Dung lượng 5,74 MB

Nội dung

CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY1.1 Khái niệm học máy Hình 1.1 Ứng dụng của Machine Learning Machine Learning ML, tên tiếng Việt là Học máy, là một lĩnh vực củatrí tuệ nhân tạo Artificial

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ HỌC MÁY NÂNG CAO

ĐỀ TÀI:

SỬ DỤNG PHƯƠNG PHÁP GIẢM CHIỀU PCA VÀ LDA ĐỂ

DỰ ĐOÁN KẾT QUẢ TRẬN ĐẤU BÓNG ĐÁ

Sinh viên thực hiện : HÀ THANH BÌNH

BÙI QUANG THẮNG Giảng viên hướng dẫn : PHẠM ĐỨC HỒNG

Trang 2

Báo cáo, phân tích, demo

Giảng viên chấm 1:

Giảng viên chấm 2:

Trang 3

MỤC LỤC

Trang

LỜI MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 2

1.1 Khái niệm học máy 2

1.2 Lịch sử hình thành học máy 3

1.3 Các phương pháp về học máy 4

1.3.1 Machine learning được giám sát 5

1.3.2 Machine learning không được giám sát 5

1.3.3 Machine learning bán giám sát 5

1.3.4 Machine learning tăng cường 6

1.4 Tầm quan trọng của học máy 6

1.5 Ứng dụng của Machine Learning 7

1.5.1 Nhận diện hình ảnh/khuôn mặt 7

1.5.2 Tự động nhận diện giọng nói 8

1.5.3 Lĩnh vực tài chính 9

1.5.4 Tiếp thị bán hàng 10

1.5.5 Y tế và chăm sóc sức khoẻ 11

1.6 Những câu hỏi thường gặp về machine learning 12

1.6.1 Machine learning được dùng để làm gì? 12

1.6.2 Các bước hoạt động của machine learning là gì? 12

1.6.3 Machine learning phù hợp với ngôn ngữ nào? 12

CHƯƠNG 2: BÀI TOÁN SỬ DỤNG PHƯƠNG PHÁP GIẢM CHIỀU PCA VÀ LDA ĐỂ DỰ ĐOÁN KẾT QUẢ TRẬN ĐẤU BÓNG ĐÁ 13

2.1 Thuật toán PCA (Principal Component Analysis) 13

2.2 Giảm chiều dữ liệu 14

2.3 Các bước thực hiện thuật toán giảm chiều PCA 15

2.4 Tiêu chí giảm chiều PCA 16

2.5 Ưu, nhược điểm của thuật toán PCA 17

2.5.1 Ưu điểm của thuật toán PCA 17

2.5.2 Nhược điểm của thuật toán PCA 17

Trang 4

2.8 Ưu, nhược điểm của thuật toán LDA 19

2.8.1 Ưu điểm của thuật toán LDA 19

2.8.2 Nhược điểm của thuật toán LDA 19

2.9 Bài toán dự đoán kết quả trận đấu bóng đá 20

2.10 Mục Tiêu Nghiên Cứu 21

2.11 Phương Pháp Nghiên Cứu 21

2.11.1 Nhập các thư viện và mô-đun liên quan 21

2.11.2 Thu Thập Dữ Liệu 22

2.11.3 Tiền Xử Lý Dữ Liệu 23

2.11.4 Áp Dụng PCA và LDA 23

2.11.5 Huấn Luyện Mô Hình 25

2.11.6 Hiển thị biểu đồ 27

2.12 Kết quả thử nghiệm 27

KẾT LUẬN 30

TÀI LIỆU THAM KHẢO 31

Trang 5

LỜI MỞ ĐẦU

Ngày nay, với sự phát triển mạnh mẽ của Công nghệ thông tin, các môhình tự động hóa ngày càng được ứng dụng trong thực tế nhiều hơn Songsong với nó, khai thác dữ liệu để phục vụ trong công cuộc Cách mạng 4.0 làkhông thể thiếu Dữ liệu trong thực tế thì vô cùng đa dạng Muốn sử dụng dữliệu một cách thông minh và có ích nhất, chúng ta cần quan tâm tới các đặctính (feature) của dữ liệu Chúng ta có thể quan sát được trong không gian 2chiều, 3 chiều, nhưng dữ liệu thì lại có rất nhiều chiều Làm sao để có thể trựcquan hóa dữ liệu lên không gian 2 chiều, 3 chiều? Để trả lời câu này, chúng

em xin chọn đề tài: Sử dụng phương pháp giảm chiều PCA để dự đoán kết

quả trận đấu bóng đá để làm rõ.

Cấu trúc báo cáo bao gồm các chương như sau:

Chương 1: Tổng quan về học máy

Chương 2: Bài toán sử dụng phương pháp giảm chiều PCA và LDA để

dự đoán kết quả trận đấu bóng đá

Trang 6

CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY

1.1 Khái niệm học máy

Hình 1.1 Ứng dụng của Machine Learning

Machine Learning (ML), tên tiếng Việt là Học máy, là một lĩnh vực củatrí tuệ nhân tạo (Artificial Intelligence - AI) mà nó tập trung vào việc xây dựng

và nghiên cứu các thuật toán và mô hình mà máy tính sử dụng để học từ dữ liệu

và thực hiện các dự đoán hoặc hành vi dựa trên dữ liệu đó Học máy liên quanchặt chẽ đến việc xử lý và phân tích Big Data để tìm ra các mẫu và thông tin hữuích từ dữ liệu Một ứng dụng phổ biến của Machine Learning là dự đoán tươnglai dựa trên dữ liệu quá khứ Python là một ngôn ngữ lập trình phổ biến được sửdụng trong Machine Learning, cùng với R, Java, và C++

Học máy đã có những ứng dụng quan trọng trong nhiều lĩnh vực, baogồm y tế, tài chính, marketing, và nhiều lĩnh vực khác Công nghệ này cung cấpkhả năng tự động hóa quyết định và dự đoán dựa trên dữ liệu, giúp tối ưu hóaquy trình kinh doanh và cải thiện hiệu suất làm việc Ngoài ra, học máy cũngđóng vai trò quan trọng trong việc phân tích dữ liệu và trích xuất thông tin quantrọng từ Big Data

2

Trang 7

1.2 Lịch sử hình thành học máy

Hình 1.2 Nhà khoa học máy tính Athur Samuel

Machine learning là thuật ngữ được đặt bởi Arthur Samuel vào năm

1959 Samuel là một IBMer người Mỹ kiêm nhà tiên phong trong lĩnh vực trí tuệnhân tạo và máy tính chơi game Năm 1960, thuật ngữ học máy phổ biến hơnthông qua cuốn sách của Nilsson, nội dung đề cập đến việc phân loại máy học.Năm 1967, Thuật toán "nearest neighbor" đã được viết, cho phép các máy tínhbắt đầu sử dụng những mẫu nhận dạng (pattern recognition) rất cơ bản Nó được

sử dụng để vẽ ra lộ trình cho một người bán hàng có thể bắt đầu đi từ một thànhphố ngẫu nhiên nhưng đảm bảo anh ta sẽ đi qua tất cả các thành phố khác theomột quãng đường ngắn nhất Sang đến thập niên 1990, Machine Learning đã dịchchuyển từ cách tiếp cận hướng kiến thức (knowledge-driven) sang cách tiếp cậnhướng dữ liệu (data-driven) Các nhà khoa học bắt đầu tạo ra các chương trìnhcho máy tính để phân tích một lượng lớn dữ liệu và rút ra các kết luận - hay là

"học" từ các kết quả đó

Trang 8

Bước sang thế kỷ XXI, công nghệ ngày càng phát triển mạnh mẽ, đặt ranhững thách thức và cơ hội mới cho lĩnh vực học máy Sự gia tăng vượt bậctrong khả năng tính toán, sự sẵn có của dữ liệu lớn, và sự tiến bộ trong các thuậttoán đã mở ra những ngữ cảnh mới cho việc ứng dụng học máy trong nhiều lĩnhvực.

Trong thập kỷ này, học máy không chỉ là một lĩnh vực nghiên cứu màcòn trở thành một công cụ quan trọng trong nhiều ngành công nghiệp Các ứngdụng của học máy đã mở rộng từ dự đoán và phân loại đến việc tự động hóaquyết định, tối ưu hóa quy trình sản xuất, và thậm chí là sự phát triển của trí tuệnhân tạo (AI) trong các hệ thống tự động và tương tác người-máy

Công nghệ học máy ngày nay cũng đối mặt với những thách thức mới,bao gồm đạo đức và an ninh dữ liệu Quá trình thu thập và sử dụng dữ liệu ngàycàng trở nên nhạy cảm, đặt ra nhu cầu về quản lý và bảo vệ thông tin cá nhân.Đồng thời, việc đảm bảo tính minh bạch và công bằng trong việc triển khai các

hệ thống học máy cũng trở thành một điều cần thiết

Với sự đóng góp từ cộng đồng nghiên cứu và sự hỗ trợ của ngành côngnghiệp, học máy tiếp tục điều chỉnh cách chúng ta tương tác với công nghệ vàcách công nghiệp hiểu và sử dụng thông tin Đây là một thời kỳ hứa hẹn, nơi họcmáy không chỉ là một công cụ hỗ trợ mà còn là một phần không thể thiếu trong

sự tiến bộ và phát triển của xã hội toàn cầu.Machine learning hiện đại bao gồmhai mục tiêu chính: phân loại dữ liệu thông qua mô hình đã được phát triển vàđưa ra dự đoán về kết quả trong tương lai dựa trên mô hình này

1.3 Các phương pháp về học máy

Machine learning là giải pháp được ứng dụng thông qua các loại thuậttoán để phân tích và dự đoán Dựa trên những thuật toán này, Machine learning

4

Trang 9

được chia làm bốn loại: Machine learning được giám sát, Machine learningkhông được giám sát, Machine learning bán giám sát và Machine learning tăngcường.

1.3.1 Machine learning được giám sát

Machine learning được giám sát sử dụng tập dữ liệu được gắn nhãn đểphân loại dữ liệu hoặc dự đoán kết quả chính xác nhất Phương pháp này có thểđiều chỉnh trọng lượng khi dữ liệu mới được đưa vào mô hình cho đến khichúng được lắp một cách thích hợp

Giải pháp Machine learning có giám sát giúp doanh nghiệp xử lý các vấn

đề thực trên quy mô lớn, như việc phân loại thư rác trong thư mục riêng Nhữngthuật toán được sử dụng trong học máy được giám sát là: mạng nơ-ron, hồi quytuyến tính, hồi quy logistic, máy vectơ hỗ trợ,…

1.3.2 Machine learning không được giám sát

Phương pháp này sử dụng các thuật toán Machine learning để phân tíchcác tập dữ liệu không được gắn nhãn Những thuật toán này có khả năng pháthiện nhóm dữ liệu ẩn mà không cần sự hỗ trợ của con người Đây là giải pháp lýtưởng để: phân tích dữ liệu, phân khúc khách hàng, nhận dạng hình ảnh, chiếnlược bán chéo… Bên cạnh đó, Machine learning không giám sát còn giảm sốlượng tính năng trong một mô hình dựa trên việc giảm kích thước Chúng có haicách tiếp cận phổ biến là: phân tích thành phần chính và phân tích giá trị đơn lẻ.Một số thuật toán khác trong phương pháp nay là: phân cụm k-mean, phân cụmxác suất, mạng nơ-ron…

1.3.3 Machine learning bán giám sát

Đây là sự kết hợp hài hòa giữa học máy được giám sát và không giámsát Machine learning bán giám sát sử dụng các dữ liệu gắn nhãn và không gắn

Trang 10

nhãn để đào tạo Phương pháp này giúp giải quyết các vấn đề không có đủ dữliệu được gắn nhãn để đào tạo thuật toán học máy được giám sát.

1.3.4 Machine learning tăng cường

Machine learning tăng cường là phương pháp học tập dựa trên sự tươngtác với môi trường Chúng có khả năng thực hiện một mục tiêu nhất định như lái

xe hoặc chơi trò chơi với đối thủ Phương pháp này được sử dụng để đào tạomáy tính hoàn thành một quy trình gồm nhiều bước

1.4 Tầm quan trọng của học máy

Machine Learning mang lại cái nhìn trực quan về hành vi của kháchhàng và hoạt động kinh doanh, chính là một nguồn động lực lớn cho sự pháttriển và hiệu quả của doanh nghiệp hiện đại Bằng cách hiểu rõ hơn về mô hìnhhành vi của khách hàng, các doanh nghiệp có khả năng tối ưu hóa chiến lượctiếp thị, cung cấp dịch vụ cá nhân hóa, và tăng cường trải nghiệm của kháchhàng Mô hình học máy không chỉ giúp doanh nghiệp hiểu rõ ngày càng phứctạp hóa của thị trường, mà còn giúp dự đoán xu hướng tương lai Điều này cónghĩa là doanh nghiệp có thể điều chỉnh chiến lược kinh doanh của mình để linhhoạt phản ánh sự biến động của thị trường và đáp ứng nhanh chóng với sự thayđổi trong nhu cầu của khách hàng

Ngoài ra, Machine Learning chính là công cụ hỗ trợ quan trọng trongquá trình phát triển sản phẩm mới Bằng cách phân tích dữ liệu và nhận biết các

xu hướng tiềm ẩn, doanh nghiệp có thể đưa ra những ý tưởng sáng tạo và thiết

kế các sản phẩm phù hợp với nhu cầu thị trường Các công ty công nghệ lớn nhưGoogle, Facebook, Uber, và nhiều người khác hiện đang tích hợp học máy chủyếu trong các hoạt động quan trọng của họ Điều này không chỉ giúp họ duy trì

vị thế độc đáo trên thị trường mà còn tạo ra những dịch vụ và sản phẩm đột phá

6

Trang 11

1.5 Ứng dụng của Machine Learning

Với tất cả những đóng góp này, Machine Learning không chỉ là mộtcông cụ hỗ trợ mà còn là một yếu tố thúc đẩy tính cạnh tranh hiệu quả chodoanh nghiệp ở mọi quy mô và lĩnh vực Điều này thể hiện rõ trong khả năng tối

ưu hóa quy trình, dự đoán thông tin chiến lược và đảm bảo sự linh hoạt trongmôi trường kinh doanh đầy thách thức hiện nay Vì vậy mà Machine Learning

đã và đang được ứng dụng rất rộng rãi trong nhiều lĩnh vực khác nhau Sau đây

là một sốt ứng dụng của công nghệ này:

1.5.1 Nhận diện hình ảnh/khuôn mặt

Đây được xem là ứng dụng phổ biến nhất của Machine learning Hiệnnay, có rất nhiều trường hợp cần sử dụng nhận diện khuôn mặt, chủ yếu phục vụcho nhu cầu bảo mật như: điều tra, xác định tội phạm, hỗ trợ pháp y, mở khóađiện thoại,… Công nghệ nhận diện hình ảnh và khuôn mặt đang được ứng dụngrộng rãi trong hệ thống giám sát an ninh, camera tại các khu công cộng, cơ quannhà nước để nhanh chóng xác định danh tính của người trong ảnh Đồng thờicông nghệ này cũng giúp tổ chức, sắp xếp, phân loại hình ảnh dễ dàng trên cácnền tảng mạng xã hội

Trang 12

Hình 1.3 Công nghệ nhận diện khuôn mặt Face ID

1.5.2 Tự động nhận diện giọng nói

Nhận diện giọng nói là công nghệ không thể thiếu trong các thiết bịthông minh hiện nay như các trợ lý ảo Siri, Alexa có thể hiểu và trả lời tự độngcác câu hỏi theo giọng nói của người dùng Bên cạnh đó, công nghệ này cònđược ứng dụng để ghi chép, biên tập, lưu trữ các cuộc gọi hay hỗ trợ ngườikhiếm thị Tự động nhận diện giọng nói được ứng dụng để chuyển giọng nóithành văn bản kỹ thuật số Machine learning hỗ trợ việc xác định danh tính củangười dùng dựa trên giọng nói của họ Ngoài ra, chúng còn giúp người dùngthực hiện các thao tác đơn giản thông qua giọng nói Những mẫu giọng nói và từvựng được đưa vào hệ thống để đào tạo mô hình hoạt động Hiện tại, hệ thốngnhận diện giọng nói được ứng dụng trong các lĩnh vực sau:

- Robot công nghiệp

- Quốc phòng và hàng không Công nghiệp viễn thông

- Công nghệ Thông tin và Điện tử Tiêu dùng

8

Trang 13

- Kiểm soát an ninh, tự động hóa

Hình 1.4 Công nghệ nhận diện giọng nói

1.5.3 Lĩnh vực tài chính

Trong lĩnh vực tài chính – ngân hàng, giải pháp học máy được ứng dụngphổ biến Học máy giúp các ngân hàng, tổ chức tài chính có thể phân tích dữliệu khách hàng để dự đoán chính xác hơn khả năng trả nợ, khả năng rủi ro củakhách hàng khi vay vốn Đồng thời gợi ý các gói sản phẩm, dịch vụ tài chínhphù hợp để tăng trải nghiệm người dùng Những thuật toán Machine learning cókhả năng giám sát và đánh giá hành vi của người dùng Việc này giúp quá trìnhphát hiện vấn đề gian lận hoặc không minh bạch dễ dàng hơn Bên cạnh đó,người ta còn ứng dụng học máy để kiểm tra hoạt động rửa tiền phi pháp.Thông qua sự hỗ trợ của thuật toán, học máy giúp đưa ra quyết định giaodịch tốt hơn bằng cách phân tích hàng nghìn dữ liệu cùng lúc Ngoài ra, giảipháp này rất hiệu quả trong việc tính điểm tín dụng và bảo lãnh phát hành

Trang 14

Hình 1.5 Chuyển đổi số trong lĩnh vực tài chính

10

Trang 15

1.5.5 Y tế và chăm sóc sức khoẻ

Hình 1.6 Ứng dụng Machine Learning trong y tế và chăm sóc sức khoẻ

Một trong những ứng dụng phổ biến của Machine learning là chẩn đoánbệnh lý, thậm chí là những căn bệnh nguy hiểm Trí tuệ nhân tạo góp phần hỗtrợ chẩn đoán bệnh chính xác hơn thông qua phân tích kết quả xét nghiệm, chụpảnh y tế Đồng thời có thể dự đoán xem người bệnh có nguy cơ mắc bệnh gì dựatrên tiền sử bệnh án, yếu tố nguy cơ Các bác sĩ cũng dễ dàng có thể lựa chọnđược phác đồ điều trị, loại thuốc phù hợp nhất Giải pháp này cũng được sửdụng trong quá trình xạ trị cho các bệnh nhân ung thư

Machine learning xuất hiện trong lĩnh vực y học, bào chế thuốc Những

dự đoán dựa trên học máy giúp các thử nghiệm lâm sàng hiệu quả hơn Ngoài ra,Machine learning có khả năng đưa ra các dự đoán bùng phát Nhiều nhà khoahọc trên thế giới đang sử dụng công nghệ này để dự đoán sự bùng phát dịchbệnh

Trang 16

1.6 Những câu hỏi thường gặp về machine learning

1.6.1 Machine learning được dùng để làm gì?

Machine learning góp mặt trong cuộc sống hằng ngày của con người.Một số lĩnh vực đã ứng dụng học máy như: – Trợ lý ảo – Đưa ra những dự đoán

về lưu lượng truy cập – Phát hiện gian lận trực tuyến – Lọc thư rác – Đề xuấtsản phẩm – Phương tiện không người lái

1.6.2 Các bước hoạt động của machine learning là gì?

Thông thường, công nghệ học máy bao gồm ba bước hoạt động: đào tạo,xác thực và kiểm tra Trong đó, giai đoạn kiểm tra liên quan đến việc quản lýtiếng ồn và kiểm tra các thông số Đây chính là ba bước hoạt động cơ bản củaphương pháp học máy

1.6.3 Machine learning phù hợp với ngôn ngữ nào?

Ngôn ngữ lập trình tốt nhất đối với công nghệ hiện đại machine learninglà: JavaScript, Python, Julia, R, Java Trong đó, Python chính là ngôn ngữ lậptrình được sử dụng phổ biến nhất khi thiết lập giải pháp học máy Lượng ngườidùng sử dụng ngôn ngữ này ngày càng tăng

12

Trang 17

CHƯƠNG 2: BÀI TOÁN SỬ DỤNG PHƯƠNG PHÁP GIẢM CHIỀU PCA

VÀ LDA ĐỂ DỰ ĐOÁN KẾT QUẢ TRẬN ĐẤU BÓNG ĐÁ 2.1 Thuật toán PCA (Principal Component Analysis)

Hình 2.1: Hình ảnh đại diện cho phương pháp giảm chiều PCA

Thuật toán phân tích thành phần chính (Principal Components Analysis PCA) là một thuật toán thống kê sử dụng phép biến đổi trực quan để biến đổimột tập hợp dữ liệu từ một không gian nhiều chiều sang một không gian mới ítchiều hơn (2 hoặc 3 chiều) nhằm tối ưu hóa việc thể hiện sự biến thiên của dữliệu

-Ý tưởng chính của PCA là ánh xạ các đặc trưng chiều thành chiều.n k

k chiều này là một đối tượng trực giao hoàn toán mới, còn được gọi là thành

phần chính, là đối tượng k chiều được tái tạo lại trên cơ sở đối tượng n chiều banđầu

Công việc của PCA là tìm một cách tuần tự một tập các trục tọa độ mới

có liên quan mật thiết đến bản thân dữ liệu Trong số đó, lựa chọn trục tọa độmới thứ hai là mặt phẳng trực giao với trục toạn độ đầu tiên để tối đa hóa

Ngày đăng: 22/01/2025, 15:14

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN