Ứng dụng giải thuật di truyền tối ƣu hóa tham số của SVR

Một phần của tài liệu Kỹ thuật dự báo dựa theo hồi quy Vector hỗ trợ và thử nghiệm áp dụng dự báo thành tích vận động viên (Trang 35)

Thông thƣờng, để tối ƣu hóa mô hình thực nghiệm, ngƣời ta sử dụng phƣơng pháp dựa vào việc tính gradient. Hầu hết, phƣơng pháp này yêu cầu hàm mục tiêu phải đồng thời thỏa mãn các tiêu chuẩn: đƣợc làm trơn, có tính liên tục, và khác nhau. Mặc dù mối quan hệ phi tuyến đƣợc xấp xỉ bởi mô hình SVR có thể đƣợc biểu diễn dƣời hình thức close – form nhƣng hàm mục tiêu vẫn không thể đảm bảo thỏa mãn tiêu chuẩn đƣợc làm trơn [17].

Các tham số của SVR bao gồm:

− Hàm nhân:

Kết thúc N

Tạo giá trị hàm mục tiêu của các chuỗi nhiễm sắc thể

Tạo các chuỗi nhiêm sắc thể bằng cách sinh sản từ các chuỗi nhiễm sắc thể hiện tại (Có xét đến ghép chéo và đột biến xảy ra)

Tính toán các giá trị mục tiêu của các chuỗi nhiễm sắc thể mới và đƣa nó vào quần thể mới

Kiểm tra điều kiện dừng

Tạo quần thể ban đầu của các chuỗi nhiễm sắc thể

− Tham số quy tắc C: C xác định chi phí cân bằng giữa việc tối thiểu hóa lỗi huấn luyện với việc tối thiểu hóa độ phức tạp của mô hình.

− Cỡ ống (tube) của hàm tổn thất không nhạy (): tƣơng đƣơng với vị trí chính xác xấp xỉ trên các điểm dữ liệu huấn luyện.

Khi lựa chọn các tham số cho mô hình SVR, hầu hết ngƣời ta vẫn tìm kiếm theo thủ tục chuẩn (thử - sai). Đầu tiên xây dựng một vài mô hình SVR dựa trên các tập tham số khác nhau, sau đó kiểm tra xem chúng có hợp lệ trên tập tham số tốt nhất thu đƣợc. Tuy nhiên, thủ tục này mất nhiều thời gian. Vì vậy, phƣơng pháp dựa vào gradient để tối ƣu không gian đầu vào của mô hình SVR là không có hiệu quả. Vì vậy yêu cầu đặt ra là phải tìm ra các phƣơng pháp khác để tối ƣu hóa không gian đầu vào của SVR. Trong nghiên cứu của Hang Xie và cộng sự [17] và S.K. Lahiri và cộng sự [27] đã đƣa ra một phƣơng thức mới là kết hợp SVR với giải thuật di truyền để tối ƣu hóa tất cả các tham số của SVR cùng một lúc.

Các tính năng chủ yếu đƣợc cung cấp bởi giải thuật GA là:

− Không cần thứ tự các phƣơng pháp tối ƣu, chỉ yêu cầu giá trị vô hƣớng của hàm mục tiêu.

− Khả năng xử lý các hàm mục tiêu phi tuyến, phức tạp, nhiễu.

− Thực hiện tìm kiếm toàn cục vì vậy có khả năng đạt hoặc gần đạt tới tối ƣu toàn cục.

− Thủ tục tìm kiếm của GA là ngẫu nhiên, không yêu cầu tiền điều kiện: tính trơn, tính liên tục và tính khác nhau của hàm mục tiêu.

Mục tiêu tối ƣu hóa SVR dựa trên GA đƣợc định nghĩa: [27] Tìm biến vector N chiều đầu vào x*=[x*1, …, x*N]T

tối ƣu để biểu diễn tối ƣu đầu ra yk, k=1,2,… K. Trong thủ tục GA, tìm vector giải pháp tối ƣu x* đƣợc bắt đầu từ việc khởi tạo ngẫu nhiên một quần thể các ứng cử viên (các giải pháp) có thể. Các giải pháp thƣờng đƣợc mã hóa dƣới dạng các chuỗi nhị phân (còn gọi là các nhiễm sắc thể), sau đó đƣợc kiểm tra để đo độ phù hợp trong việc thực hiện mục tiêu tối ƣu hóa. Sau đó thực hiện vòng lặp các phép toán sau:

− Sản sinh ra quần thể con bằng việc thực hiên lai ghép di truyền giữa các cặp nhiễm sắc thể cha tốt hơn này.

− Thực hiện đột biến các nhiễm sắc thể con.

Việc thực hiện vòng lặp này sẽ tạo ra một quần thể các ứng cử viên mới có khả năng thực hiện mục tiêu tối ƣu hóa tốt hơn quần thể trƣớc đó. Sau khi thực hiện lặp đi lặp lại quá trình trên, một chuỗi tốt nhất sẽ đƣợc hình thành để thực hiện mục tiêu tối ƣu hóa. Các bƣớc thực hiện tối ƣu hóa mô hình SVR dựa trên giải thuật GA nhƣ sau [27]:

Bước 1(khởi tạo): thiết lập tập chỉ số Ngen=0 và khởi tạo một quần thể Npop nhiễm sắc thể (chuỗi nhị phân) một cách ngẫu nhiên. Mỗi một chuỗi bao gồm lchr bít bằng với số biến đầu vào để thực hiện tối ƣu.

Bước 2 (tính toán sự phù hợp): giải mã nhiễm sắc thể mã hóa nhị phân thứ j, (j=1,…,Npop) để có đƣợc giá trị thập phân tƣơng ứng của vector giải pháp xj nhƣ sau: 1 2 ) ( ,      n l n L n U n l n n j S x x x x ;      N n T N chr n l x x l 1 * * 1,...,

Trong đó, xnU và xnL là giới hạn trên và giới hạn dƣới của xn tƣơng ứng. ln là chiều dài của đoạn nhị phân thứ n, Sn chỉ giá trị thập phân tƣơng ứng của đoạn nhị phân thứ n. Tiếp theo, tùy thuộc vào mô hình đƣợc tối ƣu hóa, xj đƣợc sử dụng để tính toán đầu ra của mô hình SVR. Đầu ra này sẽ đƣợc dùng để tính toán giá trị phù hợp (j) của giải pháp ứng cử viên thứ j. Dựa vào việc tính toán điểm phù hợp của các giải pháp ứng cử viên trong quần thể hiện tại, các giải pháp này đƣợc sắp thứ hạng giảm dần theo điểm phù hợp.

Bước 3 (lựa chọn cha): Từ quần thể hiện tại, chọn ra Npop nhiễm sắc thể cha để hình thành nên bể ghép đôi. Các thành viên trong bể đƣợc sử dụng để sản sinh ra quần thể con có điểm phù hợp tƣơng đối cao.

Bước 4 (lai ghép): lựa chọn 1/2Npop nhiễm sắc thể cha trong bể ghép đôi để thực hiện lai ghép với xác xuất lai ghép Pc (0< Pc <=1). Trong lai ghép, các chuỗi cha đƣợc cắt một cách ngẫu nhiên trên cùng một điểm để mỗi chuỗi cha tạo thành 2 chuỗi con. Thực hiện trao đổi và kết hợp các chuỗi con của các chuỗi cha với nhau để tạo thành các chuỗi mới. Thực hiện lai ghép này đƣợc tiến hành trên tất cả các cặp nhiễm sắc thể cha để tạo thành một quần thể con mới.

Bước 5 (đột biến): Thực hiện đột biến trên các chuỗi nhiễm sắc thể con với xác suất đột biến Pm.

Bước 6: Tăng chỉ số Ngen = Ngen +1.

Bước 7: Lặp lại từ bƣớc 2 đến bƣớc 6 trên các chuỗi con mới cho đến khi hội tụ. Tiêu chuẩn hội tụ là Ngen > Ngenmax hoặc điểm phù hợp của chuỗi tốt nhất trong quần thể con có thay đổi không đáng kế hoặc không thay đổi trong các thế hệ tiếp theo. Sau khi hội tụ, các chuỗi có giá trị phù hợp cao nhất sẽ đƣợc giải mã để có đƣợc vector đầu vào tối ƣu x*.

Lƣu đồ thuật toán tối ƣu mô hình SVR dựa trên giải thuật GA đƣợc thể hiện ở hình 5.

Hình 5: lƣu đồ thuật toán tối ƣu mô hình SVR dựa trên giải thuật GA. Khởi tạo tập chỉ số Ngen=0

Tạo ngẫu nhiên một quần thể gồm Npop nhiễm sắc thể mã hóa nhị phân.

− Giải mã nhiễm sắc thể thứ j (j=1, …, Npop) để có đƣợc vector giải pháp xj tƣơng ứng.

− Áp dụng xj cho mô hình SVR để tính đầu ra yk.

− Tính toán độ phù hợp  của nhiễm sắc thể thứ j.

- Xếp hạng nhiễm sắc thể giảm dần theo mức độ phù hợp.

Chọn ngẫu nhiên Npop/2 số cặp nhiễm sắc thể cha.

Tạo ra quần thể con bằng cách thực hiện lai ghép trên các cặp cha.

Thực hiện đột biến trên quần thể con

Cập nhật lại tập chỉ số: Ngen=Ngen+1

Yes

Giải mã nhiễm sắc thể có độ phù hợp tốt nhất để có đƣợc vector giải pháp tối ƣu x*

Ngen>= NMaxgen No Khởi tạo kiểu hàm nhân và các tham số của SVR

2.4. Kết luận chương 2

Trong chƣơng 2, luận văn tập trung nghiên cứu giải thuật di truyền, cách thức tiến hành thực hiện một bài toán với giải thuật di truyền. Giải thuật di truyền đƣợc biết đến nhƣ giải thuật tìm kiếm dựa theo học thuyết tiến hóa và nó cho phép đạt tới tối ƣu toàn cục. Vì vậy, ứng dụng giải thuật di truyền vào việc tối ƣu tham số của SVR là cách tiếp cận tốt. Chƣơng tiếp theo, luận văn sẽ thi hành thử nghiệm áp dụng Hồi quy vector hỗ trợ để dự báo thành tích chạy 100m của vận động viên.

CHƢƠNG 3

THỬ NGHIỆM ÁP DỤNG HỒI QUY VECTOR HỖ TRỢ DỰ BÁO THÀNH TÍCH VẬN ĐỘNG VIÊN

3.1. Bài toán dự báo dãy thành tích vận động viên 3.1.1 Dự báo thành tích thành tích chạy 100m 3.1.1 Dự báo thành tích thành tích chạy 100m

Dự báo thể thao là quá trình nghiên cứu sự ảnh hưởng của các yếu tố di truyền, hoặc là quá trình nghiên cứu, tìm kiếm những đặc tính đặc trưng cũng như sự ổn định của những đặc tính đó trong quá trình phát triển của đối tượng nghiên cứu [5].

Trong hoạt động Thể dục thể thao, để có đƣợc những VĐV thể thao tài năng, ngƣời ta thƣờng tiến hành dự báo và tuyển chọn năng khiếu thể thao.

Lý luận về tuyển chọn và dự báo thể thao đã hình thành từ những năm 60 của thế kỷ 20, nhƣng nó chỉ thực sự phát triển mạnh mẽ vào thập kỷ 80 với sự tham gia của nhiều nhà khoa học lớn trên thế giới. Các công trình khoa học trong lĩnh vực dự báo và tuyển chọn thể thao đƣợc thực hiện theo hai xu hƣớng [5]:

Một là nghiên cứu xây dựng cơ sở lý luận, phƣơng pháp tuyển chọn và dự báo.

Hai là nghiên cứu về tuyển chọn và dự báo trong từng môn thể thao cụ thể. Trong luận văn này, tác giả thực hiện việc dự báo theo xu hƣớng thứ hai. Theo nhiều nhà khoa học, dự báo thành tích thể thao phải dựa vào sự phát triển ổn định của các chỉ tiêu, test để dự báo. Nghĩa là nghiên cứu mối quan hệ giữa các chỉ tiêu, test để tìm ra quy luật đánh giá sự phát triển thể chất của cơ thể. Từ đó tìm ra mối quan hệ giữa các giá trị ban đầu và giá trị cuối của chỉ tiêu hoặc test nào đó sau một thời gian quan sát, trên cơ sở đó phân tích và dự báo sự phát triển thành tích trong tƣơng lai [5].

Tập hợp các đặc tính cơ bản về khả năng của VĐV chạy 100m bao gồm [2]:

Các kích thƣớc của cơ thể (chiều cao, cân nặng, tỷ lệ giữa các đoạn của cơ thể, ..)

Trình độ phát triển các tố chất thể lực quan trọng nhất đối với VĐV chạy 100m (sức mạnh, sức mạnh tốc độ) và sự phù hợp của chúng đối với những đặc điểm động – sinh học cơ bản của VĐV chạy 100m (phối hợp chuyên môn của các chuyển động).

Môn chạy 100m thuộc môn học chạy cự ly ngắn. Theo Đàm Quốc Chính, (2000) [3], về mặt chuyên môn, thành tích chạy 100m của đối tƣợng nghiên cứu ảnh hƣởng ở mức độ khác nhau của 5 yếu tố: chạy 30m xuất phát cao (XPC), chạy 30m tốc độ cao (TĐC), chạy 60m XPC, bật xa tại chỗ, bật xa ba bƣớc. Vì vậy, để nâng cao thành tích chạy 100m, các VĐV cần tập luyện để nâng cao thành tích ở các test chuyên môn trên.

− Chạy 30m XPC: tính bằng “giây”; nhằm đánh giá sức mạnh tốc độ; khả năng phản xạ; kỹ thuật.

− Chạy 60m XPC: tính bằng “giây”; nhằm đánh giá tốc độ.

− Chạy 30 TĐC: tính bằng “giây”; nhằm đánh giá tốc độ.

− Bật xa tại chỗ: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ.

− Bật xa ba bƣớc: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ, khả năng phối hợp.

Khi đo thành tích của 5 yếu tố trên, ngƣời ta dự đoán đƣợc thành tích chạy 100m của VĐV.

3.1.2. Dữ liệu

Do đặc thù của ngành nên tập dữ liệu về thành tích của VĐV không nhiều. Tập dữ liệu thực tác giả có đƣợc chỉ gồm dãy thành tích 5 test chuyên môn ở các lứa tuổi 12, 13, 14, 15, 16 và thành tích chạy 100m ở lứa tuổi 16 của 60 VĐV tuổi. Vì vậy, để thử nghiệm mô hình SVR cho dự báo thành tích thể thao của VĐV, tác giả sử dụng thêm một tập dữ liệu do tác giả sinh tự động để so sánh với tập dữ liệu thực.

3.1.3. Phân tích dữ liệu

Lựa chọn các biến đầu vào đóng vai trò quan trọng trong việc xây dựng mô hình SVR và mô hình dự báo. Do đó, để khẳng định chắc chắn hơn các yếu tố đầu vào mà [3] lựa chọn là hợp lý, tác giả tiến hành phân tích mối tƣơng quan giữa các yếu tố đầu vào lựa chọn với yếu tố đầu ra 100m.

- Sự ảnh hƣởng của thành tích chạy 30m XPC tới thành tích chạy 100m.

Nhƣ đề cập phần trƣớc, chạy 30m XPC đƣợc tính bằng “giây”; nhằm đánh giá sức mạnh tốc độ; khả năng phản xạ; kỹ thuật. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 30mXPC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 30m XPC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích chạy 60m XPC tới thành tích chạy

100m.

Chạy 60m XPC đƣợc tính bằng “giây”; nhằm đánh giá tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 60mXPC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 60m XPC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích chạy 30m TĐC tới thành tích chạy

100m.

Chạy 30m TĐC đƣợc tính bằng “giây”; nhằm đánh giá tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích chạy 30m TĐC càng tốt (tức là số giây càng ít) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan thuận giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích chạy 30m TĐC với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích bật xa tại chỗ tới thành tích chạy

100m.

Bật xa tại chỗ: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ. Trong mối quan hệ với thành tích chạy 100m, khi thành tích bật xa tại chỗ càng tốt (tức là số mét càng cao) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan nghịch giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích bật xa tại chỗ với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

- Sự ảnh hƣởng của thành tích bật xa ba bƣớc tới thành tích chạy

100m.

Bật xa ba bƣớc: tính bằng “mét”; nhằm đánh giá sức mạnh tốc độ, khả năng phối hợp. Trong mối quan hệ với thành tích chạy 100m, khi thành tích bật xa ba

bƣớc càng tốt (tức là số mét càng cao) thì thành tích chạy 100m cũng càng tốt. Đây là mối tƣơng quan nghịch giữa hai yếu tố. Kết quả tính toán hệ số tƣơng quan giữa thành tích bật xa ba bƣớc với thành tích chạy 100m ở lứa tuổi 16 đƣợc thể hiện ở bảng 4.

Bảng 4: mối tƣơng quan giữa thành tích các test chuyên môn và thành tích chạy 100m. Chạy 30m XPC Chạy 60m XPC Chạy 30m TĐC Bật xa tại chỗ Bật xa ba bƣớc Chạy 100m Chạy 30m XPC 1 0.887729 0.907628 -0.90381 -0.9119 0.837806 Chạy 60m XPC 0.887729 1 0.785835 -0.8217 -0.79026 0.821112 Chạy 30m TĐC 0.907628 0.785835 1 -0.85397 -0.8196 0.953633 Bật xa tại chỗ -0.90381 -0.8217 -0.85397 1 0.793605 -0.73785 Bật xa ba bƣớc -0.9119 -0.79026 -0.8196 0.793605 1 -0.71156 Chạy 100m 0.837806 0.821112 0.953633 -0.73785 -0.71156 1

Hình 6, biểu thị mối tƣơng quan giữa thành tích các test chuyên môn với thành tích chạy 100m.

Hình 6: sự ảnh hƣởng của thành tích các test chuyên môn tới thành tích chạy 100m

3.2. Áp dụng phương pháp hồi quy vector hỗ trợ dự báo thành tích vận động viên

3.2.1. Môi trƣờng thực nghiệm

Phần cứng: máy tính Lenovo M 330, Core i3, 2.13 GHz, RAM 2GB.

Phần mềm: sử dụng bộ công cụ Weka phiên bản 3.7.5 [22, 26] đƣợc phát triển bởi nhóm nghiên cứu trƣờng đại học Waikato Hamilton, New Zealan. Bộ công cụ này có thể đƣợc tải về tại địa chỉ:

http://nchc.dl.sourceforge.net/project/weka/weka-3-7-windows/3.7.5/.

Một phần của tài liệu Kỹ thuật dự báo dựa theo hồi quy Vector hỗ trợ và thử nghiệm áp dụng dự báo thành tích vận động viên (Trang 35)