Phương Pháp Nghiên Cứu

Một phần của tài liệu Sử dụng phương pháp giảm chiều pca và lda Để dự Đoán kết quả trận Đấu bóng Đá (Trang 25 - 31)

CHƯƠNG 2: BÀI TOÁN SỬ DỤNG PHƯƠNG PHÁP GIẢM CHIỀU PCA VÀ LDA ĐỂ DỰ ĐOÁN KẾT QUẢ TRẬN ĐẤU BÓNG ĐÁ

2.11 Phương Pháp Nghiên Cứu

2.11.1 Nhập các thư viện và mô-đun liên quan

Để bắt đầu, chúng ta cần nhập các thư viện và mô-đun quan trọng để hỗ trợ quá trình phân tích và xây dựng mô hình. Các thư viện này không chỉ giúp chúng ta thực hiện các phép toán phức tạp mà còn mang lại tính linh hoạt và hiệu suất cao trong việc xử lý dữ liệu. Dưới đây là những thư viện chính và mô- đun chúng ta sẽ sử dụng:

- pandas: Thư viện mạnh mẽ cho xử lý và phân tích dữ liệu, cung cấp các cấu trúc dữ liệu linh hoạt như DataFrame.

- numpy: Thư viện số học cơ bản trong Python, giúp chúng ta thực hiện các phép toán số học hiệu quả trên mảng và ma trận.

- matplotlib và seaborn: Cung cấp các công cụ vẽ đồ thị và biểu đồ, giúp chúng ta trực quan hóa dữ liệu một cách dễ hiểu.

- scikit-learn: Thư viện chính cho machine learning trong Python, cung cấp nhiều công cụ hỗ trợ từ quá trình tiền xử lý dữ liệu đến xây dựng mô hình.

- warnings: Mô-đun này giúp quản lý cảnh báo và thông báo, giúp chúng ta dễ dàng theo dõi các cảnh báo từ các thư viện.

Những thư viện và mô-đun trên sẽ là cơ sở cho việc thực hiện phân tích, giảm chiều dữ liệu và xây dựng mô hình dự đoán kết quả trận đấu bóng đá

Hình 2.4 Các thư viện và mô-đun 2.11.2 Thu Thập Dữ Liệu

Hình 2.5 Dữ liệu đầu vào các trận đấu bóng đá

Dữ liệu được sử dụng trong nghiên cứu này là một tập hợp các thông tin về các trận đấu bóng đá, bao gồm các chỉ số như số bàn thắng đội nhà, số bàn thắng đội khách, số lần sút, số pha phạt góc, số thẻ phạt và các thông số khác.

Dữ liệu này được thu thập từ nguồn đáng tin cậy như các trang web thể thao hoặc cơ sở dữ liệu thống kê chính thức.

22

2.11.3 Tiền Xử Lý Dữ Liệu

Trước khi áp dụng PCA và LDA, dữ liệu sẽ được tiền xử lý để chuẩn hóa và làm sạch. Các biến độc lập sẽ được chọn sao cho phản ánh đầy đủ các khía cạnh quan trọng của trận đấu.

Hình 2.6 Tiền xử lý dữ liệu

2.11.4 Áp Dụng PCA và LDA

PCA và LDA sẽ được áp dụng để giảm chiều dữ liệu, giữ lại các thành phần quan trọng nhất. Quá trình giảm chiều này giúp tăng cường khả năng hiểu biết của mô hình đối với dữ liệu, đồng thời giảm chiều dữ liệu giúp giảm độ phức tạp của mô hình và có thể cải thiện khả năng tổng quát hóa.

Đối với PCA, các thành phần chính sẽ được chọn sao cho chúng giữ lại phương sai lớn nhất trong dữ liệu. Những thành phần này có thể được hiểu như

là các hướng trong không gian dữ liệu mà sự biến thiên của dữ liệu là lớn nhất.

Bằng cách giữ lại một số lượng thành phần nhất định, chúng ta có thể giảm chiều dữ liệu mà vẫn giữ được phần lớn thông tin quan trọng.

LDA, ngược lại, tập trung vào sự phân tách giữa các lớp của biến phụ thuộc (target). Nó cố gắng tìm các trục trong không gian mới sao cho sự phân tách giữa các lớp là lớn nhất. LDA có thể giúp tăng cường khả năng phân loại của mô hình bằng cách tập trung vào sự khác biệt giữa các lớp trong dữ liệu.

Sau khi áp dụng PCA và LDA, chúng ta thu được các đặc trưng mới, được chọn lọc từ dữ liệu gốc. Các đặc trưng này sẽ được sử dụng để huấn luyện mô hình Random Forest, một mô hình phổ biến trong học máy. Random Forest sử dụng một tập hợp các cây quyết định để thực hiện dự đoán, và thông qua việc kết hợp nhiều cây, nó có thể cung cấp dự đoán mạnh mẽ và ổn định.

Quá trình này không chỉ giúp mô hình học được các mối quan hệ phức tạp trong dữ liệu mà còn giảm nguy cơ overfitting và tăng cường khả năng tổng quát hóa của mô hình. Cùng với đó, khả năng diễn giải của mô hình cũng được cải thiện khi chỉ sử dụng các đặc trưng quan trọng nhất từ PCA và LDA..

Hình 2.7 Sử dụng thuật toán PCA và LDA

24

2.11.5 Huấn Luyện Mô Hình

Mô hình học máy, trong trường hợp này là Random Forest, sẽ được huấn luyện trên dữ liệu đã được giảm chiều bằng PCA và LDA. Quá trình huấn luyện này sẽ giúp mô hình học được các mối quan hệ phức tạp và biểu diễn hiệu quả hơn trên không gian dữ liệu giảm chiều. Cụ thể, PCA giảm chiều dữ liệu xuống các thành phần chính quan trọng nhất, trong khi LDA tập trung vào các trục tuyến tính tối ưu để phân tách giữa các lớp. Sau khi mô hình được huấn luyện, độ chính xác của nó sẽ được đánh giá trên tập dữ liệu kiểm thử. Tập dữ liệu này chưa được mô hình thấy trong quá trình huấn luyện và được sử dụng để kiểm tra khả năng tổng quát hóa của mô hình đối với các dữ liệu mới. Các thước đo đánh giá như độ chính xác, độ nhạy, độ đặc hiệu và các độ đo khác có thể được sử dụng để đánh giá hiệu suất của mô hình trên tập kiểm thử. Ngoài ra, quá trình tinh chỉnh mô hình có thể được thực hiện để cải thiện hiệu suất. Các tham số của Random Forest như số cây quyết định, độ sâu cây, hay các tham số của các phương pháp giảm chiều cũng có thể được điều chỉnh để tối ưu hóa kết quả. Quá trình này thường được thực hiện thông qua các kỹ thuật tối ưu hóa như Grid Search hoặc Random Search. Kết quả từ việc đánh giá mô hình trên tập kiểm thử cung cấp thông tin quan trọng về khả năng dự đoán của mô hình trên dữ liệu thực tế. Sự hiểu biết sâu sắc về hiệu suất của mô hình giúp xác định mức độ chính xác và độ tin cậy của dự đoán, từ đó hỗ trợ quyết định về việc triển khai mô hình vào các ứng dụng thực tế hoặc tiếp tục tối ưu hóa. Bằng cách này, quá trình đánh giá mô hình không chỉ là bước cuối cùng mà còn là một phần quan trọng trong quy trình xây dựng và phát triển mô hình học máy..

Hình 2.8 Huấn luyện mô hình

26

2.11.6 Hiển thị biểu đồ

Biểu đồ cột được tạo ra với kích thước (10, 5) bằng cách sử dụng plt.figure(figsize=(10, 5)). Sau đó, sns.barplot được sử dụng để tạo biểu đồ cột, với trục hoành (x) là 'Method' và trục tung (y) là 'Probability' từ DataFrame df_plot

Tiêu đề của biểu đồ được đặt bằng cách sử dụng plt.title với chuỗi có định dạng f-string, trong đó {home_team} và {away_team} được thay thế bằng tên đội nhà và đội khách tương ứng. Nhãn của trục tung cũng được đặt bằng plt.ylabel là 'Tỷ lệ thắng'.

Cuối cùng, plt.show() được sử dụng để hiển thị biểu đồ cột trên màn hình.

Một phần của tài liệu Sử dụng phương pháp giảm chiều pca và lda Để dự Đoán kết quả trận Đấu bóng Đá (Trang 25 - 31)

Tải bản đầy đủ (PDF)

(35 trang)