Phân tích dữ liệu - Kỹ thuật dự báo dựa theo hồi q- 123docz.net

Lựa chọn các biến đầu vào đóng vai trò quan trọng trong việc xây dựng mô hình SVR và mô hình dự báo. Do đó, để khẳng định chắc chắn hơn các yếu tố đầu vào mà [3] lựa chọn là hợp lý, tác giả tiến hành phân tích mối tƣơng quan giữa các yếu tố đầu vào lựa chọn với yếu tố đầu ra 100m.

- Sự ảnh hƣởng của thành tích chạy 30m XPC tới thành tích chạy 100m.

Nhƣ đề cập phần trƣớc, chạy 30m XPC đƣợc tính bằng “giây”; nhằm đánh giá sức mạnh tốc độ; khả năng phản xạ; kỹ thuật. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 30mXPC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 30m XPC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích chạy 60m XPC tới thành tích chạy

100m.

Chạy 60m XPC đƣợc tính bằng “giây”; nhằm đánh giá tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 60mXPC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 60m XPC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích chạy 30m TĐC tới thành tích chạy

100m.

Chạy 30m TĐC đƣợc tính bằng “giây”; nhằm đánh giá tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 30m TĐC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 30m TĐC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích bật xa tại chỗ tới thành tích chạy

100m.

Bật xa tại chỗ: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích bật xa tại chỗ càng tốt (tức là số mét càng cao) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan nghịch giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích bật xa tại chỗ với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích bật xa ba bƣớc tới thành tích chạy

100m.

Bật xa ba bƣớc: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ, khả năng phối hợp. Trong mối quan hệ với thành tích chạy 100m, khi thành tích bật xa ba

bƣớc càng tốt (tức là số mét càng cao) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan nghịch giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích bật xa ba bƣớc với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

Bảng 4: mối tƣơng quan giữa thành tích các test chuyên môn và thành tích chạy 100m. Chạy 30m XPC Chạy 60m XPC Chạy 30m TĐC Bật xa tại chỗ Bật xa ba bƣớc Chạy 100m Chạy 30m XPC 1 0.887729 0.907628 -0.90381 -0.9119 0.837806 Chạy 60m XPC 0.887729 1 0.785835 -0.8217 -0.79026 0.821112 Chạy 30m TĐC 0.907628 0.785835 1 -0.85397 -0.8196 0.953633 Bật xa tại chỗ -0.90381 -0.8217 -0.85397 1 0.793605 -0.73785 Bật xa ba bƣớc -0.9119 -0.79026 -0.8196 0.793605 1 -0.71156 Chạy 100m 0.837806 0.821112 0.953633 -0.73785 -0.71156 1

Hình 6, biểu thị mối tƣơng quan giữa thành tích các test chuyên môn với thành tích chạy 100m.

Hình 6: sự ảnh hƣởng của thành tích các test chuyên môn tới thành tích chạy 100m

3.2. Áp dụng phương pháp hồi quy vector hỗ trợ dự báo thành tích vận động viên

3.2.1. Môi trƣờng thực nghiệm

Phần cứng: máy tính Lenovo M 330, Core i3, 2.13 GHz, RAM 2GB.

Phần mềm: sử dụng bộ công cụ Weka phiên bản 3.7.5 [22, 26] đƣợc phát triển bởi nhóm nghiên cứu trƣờng đại học Waikato Hamilton, New Zealan. Bộ công cụ này có thể đƣợc tải về tại địa chỉ:

http://nchc.dl.sourceforge.net/project/weka/weka-3-7-windows/3.7.5/.

3.2.2. Quy trình thực nghiệm

Tác giả tiến hành thực nghiệm trên hai tập dữ liệu: dữ liệu thực và dữ liệu sinh tự động.

Sử dụng phƣơng thức k - fold

Mỗi tập dữ liệu, tác giả sử dụng phƣơng thức k – fold, chia tập dữ liệu làm 10 fold, sau đó tiến hành huấn luyện với 10 lần lặp. Mỗi lần, sử dụng 9 – fold dữ liệu làm tập huấn luyện mô hình, fold còn lại làm tập test.

Mô hình thực nghiệm

Luận văn mới chỉ thực hiện thực nghiệm với mô hình SVR đơn. Do điều kiện về thời gian nên việc thực hiện thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền chƣa đƣợc hoàn thiện. Vì vậy trong luận văn này, tác giả chƣa trình bày phần thực nghiệm với mô hình SVR có kết hợp giải thuật di truyền.

Lựa chọn nhân và biến là bƣớc quan trọng để xây dựng mô hình SVR. Trong nghiên cứu này, tác giả lựa chọn 2 hàm nhân chính cho SVR là nhân Radial Basis Functions (RBF) và nhân đa thức (Polynomial - Poly) để ánh xạ dữ liệu nhƣ là các biến đầu vào xi trong mô hình SVR. Thử nghiệm thực hiện với giải thuật smoregimproved cho mô hình hồi quy vector hỗ trợ.

Đầu vào của mô hình bao gồm thành tích các test chuyên môn: chạy 30m XPC, chạy 30m TDC, chạy 60m XPC, bật xa tại chỗ, bật xa ba bƣớc ở các lứa tuổi 12, 13, 14, 15, 16.

Thực nghiệm với mô hình SVR, các tham số C,  và các tham số của hàm nhân ngƣời dùng sẽ tự nhập theo phƣơng pháp thử sai để chọn ra tập tham số tối ƣu cho SVR. Bảng 5 biểu thị việc lựa chọn các tham số cho mô hình SVR.

Bảng 5: Lựa chọn giá trị các tham số cho mô hình thực nghiệm. Tham số Dữ liệu thực Dữ liệu sinh tự động Hàm nhân đa thức (bậc = 1) C 2 2  0.0001 0.0001 Hàm nhân RBF (Gama = 0.01) C 2 1  0.0001 0.0001

Phƣơng pháp đánh giá mô hình

Khi dự báo, bao giờ cũng có sai số nhất định. Có nhiều phƣơng pháp để đánh giá kết quả dự báo. Trong nghiên cứu này, tác giả sử dụng các phƣơng pháp sau: -     n i i i f y n RMSE 1 2 ) ( 1

(Sai số căn quân phƣơng)

-            n i n i i i n i i i f f y y f f y y R 1 1 2 2 1 ) ( ) ( ) )( (

(Sai số tƣơng quan)

-     n i i i f y n MAE 1 1

(Sai số tuyệt đối trung bình)

- Trong đó, yi và fi chỉ giá trị thực và giá trị dự báo tại thời điểm i,

y f là giá trị trung bình của giá trị thực và giá trị dự báo.

Phƣơng pháp dự báo tốt là phƣơng pháp nhận đƣợc sai số R lớn còn sai số RMSE và MAE nhỏ (càng gần về không càng tốt).

3.2.3. Kết quả thực nghiệm Với tập dữ liệu thực. Với tập dữ liệu thực.

Hình 7: kết quả thực nghiệm mô hình SVR với nhân RBF

Kết quả thực nghiệm mô hình SVR với nhân Poly đƣợc thể hiện ở hìnn 8.

Hình 8: kết quả thực nghiệm mô hình SVR với nhân Poly.

Kết quả thực nghiệm mô hình với nhân RBF đƣợc thể hiện ở hình 9.

Hình 9: kết quả thực nghiệm mô hình với nhân RBF. Kết quả thực nghiệm mô hình với nhân Poly đƣợc thể hiện ở hình 10.

3.2.4. Đánh giá kết quả

Kết quả thực nghiệm trên tập dữ liệu thực và dữ liệu sinh tự động đƣợc thể hiện ở bảng 6 cho ta thấy rằng: ở cả hai trƣờng hợp: nhân RBF và nhân Poly, kết quả thực nghiệm với tập dữ liệu thực đều cho kết quả tốt hơn thực nghiệm với tập dữ liệu sinh tự động. Vì tập dữ liệu sinh tự động chƣa thể hiện đƣợc toàn diện tính chất của dữ liệu thực. Điều đó chứng tỏ rằng tập dữ liệu có ảnh hƣởng rất lớn đến kết quả dự báo. Một tập dữ liệu tốt sẽ cho kết quả dự báo tốt hơn.

Kết quả so sánh thực hiện thực nghiệm mô hình SVR với hai tập dữ liệu thực và dữ liệu sinh tự động đƣợc thể hiện ở bảng 6.

Bảng 6: kết quả thực nghiệm với mô hình SVR.

SVR với giải thuật smoregimproved Chỉ số dự báo

Hàm nhân

MAE RMSE R

Nhân RBF Dữ liệu thực 0.0197 0.0278 0.9337

Dữ liệu sinh tự động 0.0837 0.106 0.9141 Nhân Poly Dữ liệu thực 0.0049 0.0069 0.9957

Dữ liệu sinh tự động 0.095 0.1212 0.8859 Kết quả nghiên cứu của luân văn tiến bộ hơn các phƣơng pháp đã nghiên cứu ở Việt Nam. Điều này đƣợc thể hiện rõ ở bảng 7.

Bảng 7: Đối sánh phƣơng pháp của luận văn với phƣơng pháp hiện thời tại Việt Nam.

Đàm Quốc Chính [3] Luận văn

Mô

hình Hồi quy tuyến tính Hồi quy vector hỗ trợ

Cách xây dựng mô hình dự báo

Chia thành 2 bài toán con: 1. Xây dựng mô hình hồi

quy dự báo thành tích chạy 100m ở 4 lứa tuổi (12 – 15).

2. Sử dụng thành tích 100m vừa dự báo ở 4 lứa tuổi làm đầu vào cho mô hình hồi quy để dự báo thành tích 100m ở lứa tuổi 16

Sử dụng 5 test chuyên môn ở 5 lứa tuổi làm đầu vào cho mô hình hồi quy để dự báo thành tích chạy 100m ở lứa tuổi 16 (không phải chia nhỏ bài toán).

Tập đối tƣợng 32 60 Đánh giá kết quả

Từng đối tƣợng Toàn bộ tập đối tƣợng

Độ đo

Tính sai số trực tiếp (lấy hiệu giá trị dự báo của đối tƣợng thứ i – giá trị thực của đối tƣợng thứ i) Căn quân phƣơng (RMSE) Trung bình tuyệt đối (MAE) Tƣơng quan (r) Giá trị 0.00843  0.3109 0,0069  0,0278 0,0051  0,0197 0,9337  0,9957 3.3. Kết luận chương 3

Trong chƣơng này, tác giả tiến hành thử nghiệm để đánh giá sự phù hợp của mô hình đối với bài toán dự báo thành tích chạy cự ly 100m của động viên. Kết quả thực nghiệm cho thấy, mô hình hồi quy vector hỗ trợ là phƣơng án khả quan có thể ứng dụng đƣợc vào bài toán dự báo hồi quy.

KẾT LUẬN

Luận văn đã tiến hành nghiên cứu và tìm hiểu bài toán dự báo thành tích chạy ngắn cự ly 100m cho vận động viên. Đây là bài toán quan trọng trong lĩnh vực tuyển chọn tài năng thể thao, đồng thời nó cũng là một trong nhóm bài toán quan trọng của vấn đề học máy có giám sát. Để giải quyết bài toán này, luận văn đã tập trung nghiên cứu mô hình hồi quy vector hỗ trợ, giải thuật di truyền và mô hình kết hợp giữa học máy hồi quy vector hỗ trợ với giải thuật di truyền. Luận văn đã đạt đƣợc một số kết quả sau.

 Giới thiệu về mô hình hồi quy vector hỗ trợ. Mô hình này dựa trên nguyên tắc tối thiểu hóa rủi ro cấu trúc để cho phép giải quyết bài toán có tập mẫu huấn luyện nhỏ. Đây cũng là mô hình cho phép giải quyết nhóm bài toán dự báo hồi quy tuyến tính và dự báo hồi quy phi tuyến.

 Nghiên cứu kết hợp giải thuật di truyền với mô hình hồi quy vector hỗ trợ để tự động tối ƣu hóa các tham số của mô hình hồi quy.

 Sử dụng bộ công cụ Weka để tiến hành thực nghiệm dự báo thành tích vận động viên với mô hình hồi quy vector hỗ trợ. Kết quả thực nghiệm dự báo với bộ dữ liệu thực có chỉ số dự báo r = 0,9337  0,9957, RMSE = 0,0069  0,0278, MAE = 0,0051  0,0197; với bộ dữ liệu sinh tự động, r = 0,8859  0,9141, RMSE = 0,106  0,1212, MAE = 0,0837 

0,095. Đây là kết quả cao trong dự báo thành chạy cự ly 100m của vận động viên.

 Qua kết quả thử nghiệm, chúng tôi nhận ra rằng, tập dữ liệu huấn luyện ảnh hƣởng lớn đến kết quả dự báo.

Hƣớng nghiên cứu tiếp theo

Kết quả nghiên cứu khả quan về ứng dụng mô hình hồi quy vector hỗ trợ trong dự báo thành tích chạy 100m của vận động viên chứng tỏ đây là mô hình có thể ứng dụng hiệu quả đối với bài toán này. Trong luận văn, chúng tôi mới chỉ sử dụng phƣơng pháp nhân đơn cho mô hình hồi quy vector hỗ trợ. Vì vậy, câu hỏi đặt ra, liệu khi sử dụng ma trận nhân phức với mô hình hồi quy vector hỗ trợ có cho kết quả tốt hơn hay không? Đã có một số nghiên cứu sử dụng nhân phức cho mô hình hồi quy vector hỗ trợ trong bài toán dự báo hồi quy và dự báo chuỗi thời gian.

Sự đầy đủ hay không của dữ liệu đầu vào cũng sẽ ảnh hƣởng rất lớn đến kết quả của dự báo. Trong thi đấu thể thao, tâm lý của vận động viên (trạng thái “sốt xuất phát”), thời tiết, mức độ chấn thƣơng (thể lực) của vận động viên ở thời điểm sát thi đấu, …ảnh hƣởng lớn đến thành tích thi đấu của vận động viên. Vì vậy, song song với hƣớng nghiên cứu trên, chúng tôi cũng sẽ thu thập các số liệu này để thử nghiệm và đánh giá kết quả dự báo.

Tiếp tục hoàn thiện chƣơng trình thử nghiệm với mô hình SVR kết hợp giải thuật GA.

Mặc dù rất cố gắng, song luận văn chắc chắn không tránh khỏi những thiếu sót. Vì vậy, tác giả rất mong nhận đƣợc những ý kiến đóng góp để luận văn đƣợc hoàn thiện hơn.

TÀI LIỆU THAM KHẢO

[1]. Võ Thị Ngọc Châu. Bài giảng hồi quy dữ liệu, 2011 – 2012.

[2]. Dƣơng Nghiêp Chí, Nguyễn Kim Minh, Phạm Khắc Ngọc, Võ Đức Phùng, Nguyễn Đại Dƣơng, Nguyễn Văn Quảng, Nguyễn Quang Hƣng (2000). Điền Kinh. NXB Thể dục thể thao.

[3]. Đàm Quốc Chính (2000). Nghiên cứu khả năng phù hợp tập luyện (dƣới góc độ sƣ phạm) nhằm góp phần nâng cao hiệu quả tuyển chọn và dự báo thành tích của vận động viên trẻ chạy 100m ở Việt Nam.

[4]. Bùi Quang Hải, 2008. Nghiên cứu sự phát triển thể chất của học sinh một số tỉnh phía Bắc bằng phƣơng pháp quan sát dọc (từ 6 đến 10 tuổi).

[5]. Bùi Quang Hải, Vũ Chung Thủy, Nguyễn Kim Xuân, Nguyễn Danh Hoàng Việt (2009). Giáo trình tuyển chọn tài năng thể thao. NXB Thể dục thể thao.

[6]. Nguyễn Quang Hƣng, Nguyễn Đại Dƣơng (Biên dịch) (2002). Chạy cự ly ngắn. NXB Thể dục thể thao.

[7]. Nguyễn Trọng Hoài Phùng Thanh Bình Nguyễn Khánh Duy (2009). Dự Báo Và Phân Tích Dữ Liệu Trong Kinh Tế Và Tài Chính. NXB Thống kê.

[8]. Nguyễn Hải Thanh. Tối ƣu hóa: giáo trình cho ngành tin học và công nghệ thông tin. NXB Bách khoa – Hà Nội, 2006.

[9]. A. O. Sykes (1993). An Introduction to Regression Analysis Coase lecture. Law School, University of Chicago.

[10]. Alexander J. Smola, Bernhard Schölkopf (2004). A tutorial on support vector regression, Statistics and Computing 14(3): 199- 222.

[11]. Boyang LI, Jinglu HU, and Kotaro HIRASAWA (2008). Financial Time Series Prediction Using a Support Vector Regression Network, IJCNN (1): 621 – 627.

[12]. Chun-Hsin Wu, Chia-Chen Wei, Ming-Hua Chang, Da-Chun Su and Jan-Ming Ho (2004). Travel-Time Prediction With Support Vector Regression, IEEE 5 (4): 276 – 281, [www.iis.sinica.edu.tw]. [13]. Deh Wu (2008). Time Series Prediction for Machining Errors

Using Support Vector Regression, ICINIS '08: 27-30.

[14]. Egwu Kalu, Autar Kaw. Chapter 06.02: Introduction of Regression Analysis, October 11, 2008.

[15]. Fan Wang, Guozhen Tan, Yu Fang (2009). Multiscale Wavelet Support Vector Regression for Traffic Flow Prediction, IITA'09 (the 3rd international conference on Intelligent information technology application): 319-322.

[16]. Gert R. G. Lanckriet, Nello Cristianini, Peter L. Bartlett, Laurent El Ghaoui, Michael I. Jordan (2004). Learning the Kernel Matrix with Semidefinite Programming. Journal of Machine Learning Research 5: 27-72 (2004).

[17]. Hang Xie, Yuhe Liao, Hao Tang (2009). Reliable Prediction System Based on Support Vector Regression with Genetic Algorithms, ICNC (1) 2009: 552-555.

[18]. J. Scott Armstrong (2001) Principles of forecasting: A Handbook for Researchers and practitioners, Kluwer Academic publishers. [19]. Jiawei Han, Micheline Kamber. (2006) Data Mining: Concepts and

Techniques, 2nd, Morgan Kaufmann Publishers.

[20]. John McCullagh Faculty of Education, La Trobe (2010). Data Mining in Sport: A Neural Network Approach, International Journal of Sports Science and Engineering Vol. 04 (2010) No. 03, pp. 131-138.

[21]. Lan Yu, Jiangxi (2009) [21]. Association Rules based Data Mining on Test Data of Physical Health Standard.

[22]. Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer,