Kỹ thuật dự báo dựa theo hồi quy vectơ hỗ trợ và thử nghiệm áp dụng dự báo thành tích vận động viên

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	17
Dung lượng	760,02 KB

Nội dung

84 Kỹ thuật dự báo dựa theo hồi quy vectơ hỗ trợ và thử nghiệm áp dụng dự báo thành tích vận động viên Hoàng Thị Tuyết Trường Đại học Quốc gia Hà Nội; Trường Đại học Công nghệ Chuyên ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS. TS. Hà Quang Thụy Năm bảo vệ: 2012 Abstract. Chương 1: Phương pháp hồi quy vector hỗ trợ: Chương này trình bày một số kiến thức cơ sở cho Support Vector Regression (SVR), lý thuyết về SVR và một số ứng dụng của SVR. Chương 2: dự báo dựa trên hồi quy vector hỗ trợ. Chương này trình bày lý thuyết về dự báo, dự báo dựa trên SVR và kỹ thuật sử dụng giải thuật di truyền để tối ưu hóa tham số cho SVR. Chương 3: thử nghiệm áp dụng SVR dự báo thành tích VĐV. Chương này trình bày về bài toán dự báo thành tích chạy cự ly 100m của VĐV nữ, các phương pháp đánh giá kết quả dự báo thành tích chạy 100m của VĐV. Từ đó đánh giá khả năng ứng dụng phương pháp vào dự báo thành tích chạy 100m của VĐV. Keywords: Toán tin; Công nghệ thông tin; Phương pháp hồi quy vector; Thuật toán di truyền Content. MỞ ĐẦU Đạt thành tích cao ở trình độ Đông nam Á, Châu Á, khu vực và quốc tế của thể thao Việt Nam nói chung và của Điền kinh Việt Nam nói riêng là mục tiêu cần vươn tới của thể dục thể thao Việt Nam. Chính vì vậy, các nhà khoa học thể dục thể thao luôn cố gắng tìm tòi và xây dựng quy trình đào tạo vận động viên (VĐV) ở tất cả các môn thể thao. Trong đó, hệ thống tuyển chọn tài năng thể thao đóng một vai trò quan trọng. Bài toán dự báo thành tích thể thao nói chung và bài toán dự báo thành tích chạy ngắn cự ly 100m của VĐV nói riêng có ý nghĩa quan trọng trong lĩnh vực tuyển chọn tài năng thể thao. Dự báo chính xác thành tích của VĐV cho phép nâng cao chất lượng và hiệu quả của quá trình đào tạo VĐV. Yêu cầu chung của bài toán dự báo thành tích thể thao là làm cách nào để có thể phân tích và sử dụng chuỗi dữ liệu trong quá khứ để dự đoán được thành tích trong tương lai. Ở Việt Nam, nghiên cứu về tuyển chọn và dự báo thể thao còn nhiều hạn chế. Cho đến nay, mới chỉ có một vài nghiên cứu của tác giả: Đàm Công Chính (2000) và Bùi Quang Hải (2008). Cả hai tác giả trên đều sử dụng mô hình hồi quy tuyến tính cho mô hình dự báo trong nghiên cứu của mình. Trên thế giới, thời gian gần đây, có một số công trình nghiên cứu đã sử dụng kỹ thuật khai phá dữ liệu trong lĩnh vự dự báo thể thao. Tuy nhiên, các nghiên cứu này chủ yếu tập trung vào dự đoán xếp hạng của các đội tuyển thể thao môn Bóng đá, Bóng rổ. 85 Dự báo thành tích thể thao thuộc lớp bài toán dự báo hồi quy. Trên thế giới, xu hướng nghiên cứu nổi bật về dự báo hồi quy và dự báo chuỗi thời gian trong thời gian gần đây là sử dụng kỹ thuật dự báo dựa vào hồi quy vector hỗ trợ (Support Vector Regression (SVR)). Từ những lý do trên và được sự giúp đỡ, đồng ý của giáo viên hướng dẫn PGS.TS. Hà Quang Thụy, tác giả quyết định lựa chọn nghiên cứu đề tài: “Kỹ thuật dự báo dựa theo hồi quy vectơ hỗ trợ và áp dụng thử nghiệm dự báo thành tích vận động viên”. Luận văn này tập trung vào nghiên cứu thực hiện kết hợp SVR với giải thuật di truyền để tối ưu hóa các tham số của SVR và ứng dụng vào bài toán dự báo thành tích chạy ngắn cự ly 100m của vận động viên (VĐV) nữ nhằm tăng độ chính xác dự báo. Nội dung của luận văn được tổ chức thành ba chương, được mô tả sơ bộ như sau: Chƣơng 1: phƣơng pháp hồi quy vector hỗ trợ. Chương này trình bày một số kiến thức cơ sở cho SVR, lý thuyết về SVR và một số ứng dụng của SVR. Chƣơng 2: dự báo dựa trên hồi quy vector hỗ trợ. Chương này trình bày lý thuyết về dự báo, dự báo dựa trên SVR và kỹ thuật sử dụng giải thuật di truyền để tối ưu hóa tham số cho SVR. Chƣơng 3: thử nghiệm áp dụng SVR dự báo thành tích VĐV. Chương này trình bày về bài toán dự báo thành tích chạy cự ly 100m của VĐV nữ, các phương pháp đánh giá kết quả dự báo thành tích chạy 100m của VĐV. Từ đó đánh giá khả năng ứng dụng phương pháp vào dự báo thành tích chạy 100m của VĐV. CHƢƠNG 1 PHƢƠNG PHÁP HỒI QUY VECTOR HỖ TRỢ 1.1. Một số kiến thức cơ sở cho hồi quy vector hỗ trợ 1.1.1. Lý thuyết học thống kê Theo Alexander J. Smola và Bernhard Schölkopf (2004) hồi quy vector hỗ trợ dựa trên lý thuyết học thống kê. Cho một tập dữ liệu huấn luyện: (x 1 , y 1 ), …, (x l , y l )  R n xR được lấy theo một phân bố xác suất P(x,y) và hàm tổn thất L(y, f(x, )). Tim hàm f để tối thiểu hóa lỗi trung bình, còn gọi là rủi ro kỳ vọng:   y),dP( ))f(L(y,)( xx  R 1.1.2. Nguyên tắc tối thiểu hóa rủi ro thực nghiệm Thay vì đi tìm cực tiểu của hàm rủi ro kỳ vọng   dP(z) )Q(z,)(  R Trong đó, z = (x i , y i ), Q(z, ) = L(y,f(x)). Nguyên tắc tối thiểu hóa rủi ro thực nghiệm đi tìm cực tiểu hàm rủi ro thực nghiệm:    l i iemp xfy l R 1 2 )),(( 1 )(  Việc tìm ra  i ứng với R emp () nhỏ nhất được gọi là nguyên tắc tối tiểu hóa rủi ro thực nghiệm. 86 1.1.3. Nguyên tắc tối thiểu hóa rủi ro cấu trúc Nguyên tắc tối thiểu hóa rủi ro cấu trúc là nguyên tắc cho phép giải quyết các bài toán có tập dữ liệu huấn luyện nhỏ. Hình 1: tối thiểu hóa rủi ro cấu trúc (SRM) 1.1.4. Lý thuyết đối ngẫu Tương ứng với mỗi bài toán tối ưu (gọi là bài toán gốc) có một bài toán tối ưu khác liên quan chặt chẽ với bài toán đó (gọi là bài toán đối ngẫu). Bài toán gốc và bài toán đỗi ngẫu của nó lập thành một cặp bài toán tối ưu, tính chất của bài toán này có thể được khảo sát thông qua bài toán kia. Với một vài giả thiết về tính lồi, bài toán gốc và bài toán đối ngẫu có cùng tập nghiệm (cực tiểu của bài toán gốc bằng với cực đại của bài toán đối ngẫu). Vì vậy, từ nghiệm của bài toán đối ngẫu, ta có thể suy ra nghiệm của bài toán gốc và ngược lại. 1.1.5. Điều kiện Karush – Kuhn – Tucker Cho phép tìm cực tiểu của một hàm lồi. 1.2. Khái niệm về hồi quy vector hỗ trợ 1.2.1 Hồi quy Mục đích của phân tích hồi quy là có thể xây dựng được mô hình (hàm số) biểu diễn được mối quan hệ giữa biến phụ thuộc với các biến độc lập. Mô hình hồi quy có dạng: y = f(x,) (12) 1.2.2. Hồi quy vector hỗ trợ Ý tưởng cơ bản của máy vector hỗ trợ cho hàm hồi quy và dự đoán như sau: Giả sử có tập dữ liệu huấn luyện {(x 1 , y 1 ), …, (x l , y l )}  X x R, trong đó, X là không gian đầu vào (ví dụ X=R d ). Trong hồi quy ε – SV, mục đích là tìm một hàm f(x) có sai số nhỏ nhất ε so với mục tiêu thực sự thu được y i . Alexander J. Smola và Bernhard Schölkopf tiến hành xét một hàm f(x) tuyến tính có dạng sau: Rủi ro ràng buộc Khoảng tin cậy Rủi ro thực nghiệm S 1 h 1 h * h n S * S n 87 f(x) = w T (x)+b Trong đó w  R n , (x) biểu thị số một hàm phi tuyến được chuyển từ không gian R n vào không gian nhiều chiều. Mục đích ở đây là cần tìm w và b để giá trị x có thể được xác định bằng cách tối thiểu hóa rủi ro hồi quy. Cần tối thiểu hóa hàm    l i ii CwMin 1 * 2 )( 2 1  Với điều kiện:         0, , , * * ii iii iii ybxw bxwy    Hình 2: tổn thất lề mềm thiết đặt cho SVM tuyến tính. Ứng dụng lý thuyết đối ngẫu cho bài toán cực tiểu, cuối cùng ta được hàm f(x) như sau:   * 1 ( ) , l i i i i f x x x b       1.3. Ứng dụng của phương pháp hồi quy vector hỗ trợ Một số ví dụ ứng dụng phương pháp hồi quy vector hỗ trợ điển hình. Dự báo chuỗi thời gian tài chính sử dụng mạng hồi quy vector hỗ trợ của tác giả Boyang Li và cộng sự. Bảng 1: kết quả thử nghiệm mô hình đề xuất mạng SVR 88 Dự báo tương lai Chỉ số dự báo Tỷ giá hối đoái (Currency exchange rate (USD/JPY)) Trung bình trượt dữ liệu của tỷ giá hối đoái (Moving average data of exchange rate) SVR SVR Network SVR SVR Network Dự báo ngày tiếp theo (t+1) SSE MAE CP CD 47.3925 0.6172 76.8116 79.4118 36.2098 0.1471 77.8468 79.8039 42.5252 0.1586 76.8116 78.4736 35.1087 0.1451 77.2257 80.4305 Dự báo ngày tiếp theo (t+5) SSE MAE CP CD 60.5918 0.1877 76.7635 78.3465 38.4611 0.1520 79.6680 79.3307 56.3304 0.1820 77.8468 77.9528 37.6336 0.1498 79.5031 79.3307 Dự báo hai tuần tiếp theo (t+10) SSE MAE CP CD 71.5295 0.2052 77.4530 78.9370 39.7972 0.1544 80.1670 79.9213 67.7718 0.1998 77.0833 78.3465 40.3541 0.1548 80.4167 80.1181 Dự báo phụ tải điện hàng năm sử dụng máy hồi quy vector hỗ trợ của Zhiyong Li và cộng sự, 2010. Bảng 2: so sánh phương pháp đề xuất với phương pháp khác. Năm Phụ tải điện thực Phương pháp phù hợp đường Conic (Conic fitting method) Phương pháp đề xuất Giá trị dự báo Lỗi Giá trị dự báo Lỗi 2004 2387.14 2047.1 -14.24% 2269.0 -4.95% 2005 2673.56 2394.3 -10.45% 2711.5 1.42% 2006 3004.03 2747 -8.56% 2895.6 -3.61% 2007 3394.00 3118.9 -8.11% 3350.6 -1.28% 2008 3506.78 3525.1 0.52% 3654.8 4.22% Dự báo thời gian du lịch với hồi quy vector hỗ trợ của tác giả Chun-Hsin Wu, Chia-Chen Wei, Ming- Hua Chang, Da-Chun Su and Jan-Ming Ho [12]. Bảng 3: kết quả thực nghiệm sử dụng SVR trong dự báo thời gian du lịch [12]. RME Phương pháp dự báo hiện tại Phương pháp dự báo trước đây Phương pháp dự báo với SVR 45 km (Taipei – Chungli) 10.53% 14.31% 4.42% 161 km (Taipei – Taichung) 5.85% 7.81% 2.38% 350 km (Taipei – 6.13% 4.9% 1.21% 89 Kaohsiung) RMSE Phương pháp dự báo hiện tại Phương pháp dự báo trước đây Phương pháp dự báo với SVR 45 km (Taipei – Chungli) 32.19% 17.55% 7.35% 161 km (Taipei – Taichung) 13.81% 9% 3.26% 45 km (Taipei – Chungli) 10.29% 5.66% 1.63% 1.4. Kết luận chương 1 Trong chương này, chúng ta đã tìm hiểu các khái niệm cơ sở cho hồi quy vector hỗ trợ, mô hình hồi quy vector hỗ trợ và một số ứng dụng của hồi quy vector hỗ trợ. Luận văn đã trình bày chi tiết về khái niệm hồi quy vector hỗ trợ tuyến tính. Hồi quy vector hỗ trợ là một kỹ thuật mạnh ứng dụng trong lớp bài toán dự báo hồi quy. CHƢƠNG 2 DỰ BÁO DỰA TRÊN HỒI QUY VECTOR HỖ TRỢ 2.1. Giới thiệu sơ bộ về dự báo  Theo J. Scott Armstrong (2001) [18], dự báo có vai trò quan trọng trong rất nhiều lĩnh vực của đời sống. Các bước thực hiện dự báo được thể hiện ở hình 3. Hình 3: các bước thực hiện dự báo [18] 2.2. Dự báo hồi quy vector hỗ trợ với hàm nhân Định nghĩa hàm nhân Kernel Cho X – không gian vector tuyến tính, H – không gian Hilbert có tích vô hướng. Một hàm đối xứng liên tục K: X  X  R được gọi là nhân trên X nếu tồn tại một ánh xạ : X  H với: K(x, z)=<(x), (z)>,  x, z  X Mô hình hồi quy vector hỗ trợ với hàm nhân   * 1 ( ) ( , ) l i i i i f x k x x b       90 2.3. Dự báo dựa trên hồi quy vector hỗ trợ và thuật toán di truyền 2.3.1. Giải thuật di truyền Lưu đồ thuật toán của giải thuật di truyền được thể hiện ở hình 4. Hình 4: lưu đồ thuật toán giải thuật di truyền Kết thúc N Tạo giá trị hàm mục tiêu của các chuỗi nhiễm sắc thể Tạo các chuỗi nhiêm sắc thể bằng cách sinh sản từ các chuỗi nhiễm sắc thể hiện tại (Có xét đến ghép chéo và đột biến xảy ra) Tính toán các giá trị mục tiêu của các chuỗi nhiễm sắc thể mới và đưa nó vào quần thể mới Kiểm tra điều kiện dừng Tạo quần thể ban đầu của các chuỗi nhiễm sắc thể Y 91 2.3.2. Ứng dụng giải thuật di truyền tối ƣu hóa tham số của SVR Hình 5: lưu đồ thuật toán tối ưu mô hình SVR dựa trên giải thuật GA 2.4. Kết luận chương 2 Trong chương 2, luận văn tập trung nghiên cứu giải thuật di truyền, cách thức tiến hành thực hiện một bài toán với giải thuật di truyền. Giải thuật di truyền được biết đến như giải thuật tìm kiếm dựa theo học thuyết tiến hóa và nó cho phép đạt tới tối ưu toàn cục. Vì vậy, ứng dụng giải thuật di truyền vào việc tối ưu tham số của SVR là cách tiếp cận tốt. Chương tiếp theo, luận văn sẽ thi hành thử nghiệm áp dụng Hồi quy vector hỗ trợ và Hồi quy vector hỗ trợ kết hợp với giải thuật di truyền để dự báo thành tích chạy 100m của vận động viên. CHƢƠNG 3 THỬ NGHIỆM ÁP DỤNG HỒI QUY VECTOR HỖ TRỢ DỰ BÁO THÀNH TÍCH VẬN ĐỘNG VIÊN 3.1. Bài toán dự báo dãy thành tích vận động viên 3.1.1 Dự báo thành tích thành tích chạy 100m Môn chạy 100m thuộc môn học chạy cự ly ngắn. Về mặt chuyên môn, thành tích chạy 100m của đối tượng nghiên cứu ảnh hưởng ở mức độ khác nhau của 5 yếu tố: chạy 30m xuất phát cao (XPC), chạy 30m tốc độ cao (TĐC), chạy 60m XPC, bật xa tại chỗ, bật xa ba bước. Vì vậy, để nâng cao thành tích chạy 100m, các VĐV cần tập luyện để nâng cao thành tích ở các test chuyên môn trên. 92 3.1.2. Dữ liệu Tập dữ liệu thực tác giả có được chỉ gồm dãy thành tích 5 test chuyên môn ở các lứa tuổi 12, 13, 14, 15, 16 và thành tích chạy 100m ở lứa tuổi 16 của 60 VĐV tuổi. Vì vậy, để thử nghiệm mô hình SVR cho dự báo thành tích thể thao của VĐV, tác giả sử dụng thêm một tập dữ liệu do tác giả sinh tự động để so sánh với tập dữ liệu thực 3.1.3. Phân tích dữ liệu Bảng 4: mối tương quan giữa thành tích các test chuyên môn và thành tích chạy 100m. Chạy 30m XPC Chạy 60m XPC Chạy 30m TĐC Bật xa tại chỗ Bật xa ba bước Chạy 100m Chạy 30m XPC 1 0.887729 0.907628 -0.90381 -0.9119 0.837806 Chạy 60m XPC 0.887729 1 0.785835 -0.8217 -0.79026 0.821112 Chạy 30m TĐC 0.907628 0.785835 1 -0.85397 -0.8196 0.953633 Bật xa tại chỗ -0.90381 -0.8217 -0.85397 1 0.793605 -0.73785 Bật xa ba bước -0.9119 -0.79026 -0.8196 0.793605 1 -0.71156 Chạy 100m 0.837806 0.821112 0.953633 -0.73785 -0.71156 1 Hình 6 thể hiện sự ảnh hưởng của các yếu tố đầu vào tới thành tích chạy 100m. Hình 6: sự ảnh hưởng của các yếu tố đầu vào tới thành tích chạy 100m. 93 3.2. Áp dụng phương pháp hồi quy vector hỗ trợ dự báo thành tích vận động viên 3.2.1. Môi trƣờng thực nghiệm Phần cứng: máy tính Lenovo M 330, Core i3, 2.13 GHz, RAM 2GB. Phần mềm: sử dụng bộ công cụ Weka phiên bản 3.7.5 [22, 26] được phát triển bởi nhóm nghiên cứu trường đại học Waikato Hamilton, New Zealan. Bộ công cụ này có thể được tải về tại địa chỉ: http://nchc.dl.sourceforge.net/project/weka/weka-3-7-windows/3.7.5/. 3.2.2. Quy trình thực nghiệm Tác giả tiến hành thực nghiệm trên hai tập dữ liệu: dữ liệu thực và dữ liệu sinh tự động. Sử dụng phƣơng thức k - fold Mỗi tập dữ liệu, tác giả sử dụng phương thức k – fold, chia tập dữ liệu làm 10 fold, sau đó tiến hành huấn luyện với 10 lần lặp. Mỗi lần, sử dụng 9 – fold dữ liệu làm tập huấn luyện mô hình, fold còn lại làm tập test. Mô hình thực nghiệm Luận văn mới chỉ thực hiện thực nghiệm với mô hình SVR đơn. Do điều kiện về thời gian nên việc thực hiện thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền chưa được hoàn thiện. Vì vậy trong luận văn này, tác giả chưa trình bày phần thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền. Tác giả lựa chọn 2 hàm nhân chính cho SVR là nhân Radial Basis Functions (RBF) và nhân đa thức (Polynomial - Poly) để ánh xạ dữ liệu như là các biến đầu vào x i trong mô hình SVR. Thử nghiệm thực hiện với giải thuật smoreg cho mô hình hồi quy vector hỗ trợ. Đầu vào của mô hình bao gồm thành tích các test chuyên môn: chạy 30m XPC, chạy 30m TDC, chạy 60m XPC, bật xa tại chỗ, bật xa ba bước ở các lứa tuổi 12, 13, 14, 15, 16. Đầu ra của mô hình là thành tích chạy 100m ở lứa tuổi 16. Bảng 5: Lựa chọn giá trị các tham số cho mô hình thực nghiệm. Tham số Dữ liệu thực Dữ liệu sinh tự động Hàm nhân đa thức (bậc = 1) C 2 2  0.0001 0.0001 Hàm nhân RBF (Gama = 0.01) C 2 1  0.0001 0.0001 Phƣơng pháp đánh giá mô hình

Ngày đăng: 26/11/2013, 20:16

Xem thêm