Mô hình điều khiển markov rời rạc với thời gian hữu hạn và một ứng dụng trong lý thuyết đổi mới

45 436 0
Mô hình điều khiển markov rời rạc với thời gian hữu hạn và một ứng dụng trong lý thuyết đổi mới

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA TOÁN - TIN ————————–o0o————————– LUẬN VĂN THẠC SĨ TOÁN HỌC Tên đề tài HÌNH ĐIỀU KHIỂN MARKOV RỜI RẠC VỚI THỜI GIAN HỮU HẠN MỘT ỨNG DỤNG TRONGTHUYẾT ĐỔI MỚI Chuyên ngành Mã số Học viên Giảng viên hướng dẫn : : : : thuyết Xác suất Thống kê Toán học 60.46.01.06 Nguyễn Đức Anh TS.Nguyễn Hồng Hải HÀ NỘI - 2017 Mục lục Phần mở đầu Lời cảm ơn KIẾN THỨC CHUẨN BỊ 1.1 Giới thiệu chung trình điều khiển Markov 1.1.1 Giải thích 1.2 Các ví dụ 1.2.1 Ví dụ quản lí nghề cá 1.2.2 Ví dụ danh mục đầu tư lựa chọn 1.2.3 Ví dụ hệ thống tồn kho - sản xuất 1.3 Chính xác hóa trình điều khiển Markov 1.4 Các chiến lược Markov 1.5 Tính chất Markov BÀI TOÁN VỚI THỜI GIAN HỮU HẠN 2.1 Giới thiệu 2.2 Quy hoạch động 2.3 Điều kiện chọn đo 2.4 Biến thể phương trình quy hoạch động 2.5 Bài toán giá có dạng giá tuyến tính bậc hai 2.6 Bài toán tiêu thụ - đầu tư 2.7 Một hệ thống tồn kho - sản xuất 6 8 10 11 14 15 18 18 18 21 23 26 29 31 HÌNH QUÁ TRÌNH ĐIỀU KHIỂN MARKOV BƯỚC NHẢY ÁP DỤNG 3.1 Xây dựng hình điều khiển 3.2 Sự tồn chiến lược tối ưu 3.3 Phương pháp xây dựng chiến lược tối ưu chiến lược ε tối ưu 3.4 Chiến lược tối ưu giá tối ưu trường hợp đại lượng ngẫu nhiên ξ có phân phối mũ 34 35 36 39 41 Kết luận 43 Tài liệu tham khảo 44 Phần mở đầu I DO CHỌN ĐỀ TÀI Trong năm gần đây, hình xích Markov điều khiển được nhiều nhà toán học quan tâm nghiên cứu Các tác giả I.I Gikhman, A.B Skorokhod, Arapostathis A., Kumar R., Tangirala S., Bokar V S, Xi-Ren Cao, Liu P T xét hình xích Markov điều khiển với điều kiện mở rộng khác nhau: Mở rộng không gian trạng thái; mở rộng không gian pha điều khiển xét dạng hàm giá khác Một số tác giả khác quan tâm nghiên cứu ứng dụng hình xích Markov điều khiển để giải toán lĩnh vực khác thực tiễn Chẳng hạn Brock W A, Tapiero C S, Goel., Richter N., Hanson F.B,.v.v Trong luận văn này, trình bày kết nghiên cứu hình Markov rời rạc điều khiển với khoảng thời gian hữu hạn ứng dụng để giải lớp toán lí thuyết đổi mới, cụ thể là: sử dụng hình trình Markov điều khiển được, xây dựng hình giải toán xác định thời điểm kiểm tra tối ưu theo quan điểm lí thuyết trình ngẫu nhiên điều khiển Qua đưa phương pháp để giải toán này, đồng thời đưa kết hình trình Markov điều khiển được xây dựng tương ứng II MỤC ĐÍCH NGHIÊN CỨU Giới thiệu khái niệm hình điều khiển trình Markov rời rạc với thời gian hữu hạn, tập trung vào vấn đề: tồn chiến lược tối ưu, xây dựng chiến lược tối ưu nghiên cứu giá tối ưu III ĐỐI TƯỢNG NGHIÊN CỨU • hình điều khiển Markov hình điều khiển Markov rời rạc với thời gian hữu hạn hình trình Markov bước nhảy bị điều khiển ứng dụng IV PHƯƠNG PHÁP NGHIÊN CỨU • Phương pháp nghiên cứu lí luận: đọc tài liệu, sách báo liên quan đến luận văn, tìm kiếm tài liệu mạng • Sử dụng phương pháp phân tích để nắm vững vấn đề cách chi tiết • Sử dụng phương pháp tổng hợp, tổng hợp lại kiến thức, trình bày vấn đề theo trình tự logic V CẤU TRÚC LUẬN VĂN Nội dung luận văn bao gồm ba chương: Chương 1: Kiến thức chuẩn bị Nêu khái niệm, tính chất cần thiết cho chương sau định nghĩa trình điều khiển Markov, ví dụ trình điều khiển định nghĩa chiến lược Markov Chương 2: Bài toán với thời gian hữu hạn Chương đưa định lí quy hoạch động biến thể phương trình quy hoạch động, điều kiện chọn đo toán tuyến tính bậc hai Chương 3: hình trình Markov bước nhảy bị điều khiển áp dụng Trong chương trình bày hình Markov bước nhảy bị điều khiển ứng dụngthuyết đổi Để thực điều đó, trình bày: xây dựng hình điều khiển phù hợp với toán lí thuyết đổi mới, chứng minh tồn chiến lược tối ưu phương pháp xây dựng chiến lược tối ưu Lời cảm ơn Trong trình học tập, nghiên cứu hoàn thành luận văn "Mô hình điều khiển Markov rời rạc với thời gian hữu hạn ứng dụngthuyết đổi mới", nhận hướng dẫn, giúp đỡ động viên TS.Nguyễn Hồng Hải Chúng xin bày tỏ lòng biết ơn chân thành đến hướng dẫn nhiệt tình thầy Đồng thời, xin gửi lời cảm ơn sâu sắc tới thầy cô giáo khoa Toán, đặc biệt thầy Bộ môn Toán ứng dụng - Trường đại học Sư phạm Hà Nội mang đến cho kiến thức bổ ích năm học vừa qua công việc tới Cuối cùng, xin gửi lời cảm ơn đến gia đình, bạn bè bên chúng tôi, động viên giúp đỡ trình thực đề tài nghiên cứu Vì thời gian trình độ có hạn, luận văn chắn tránh khỏi thiếu sót Chúng hi bọng nhận đóng góp ý kiến thầy cô bạn Chúng xin chân thành cảm ơn! Hà Nội, ngày 07 tháng 06 năm 2017 Nguyễn Đức Anh Chương KIẾN THỨC CHUẨN BỊ 1.1 Giới thiệu chung trình điều khiển Markov hình điều khiển với thời gian rời rạc năm: (X, A, {A(x)|x ∈ X}, Q, c) (1.1) X A cho trước, gọi không gian trạng thái tập điều khiển tương ứng {A(x)|x ∈ X} họ tập khác rỗng A(x) A, với A(x) tập điều khiển khả thi ( hành động khả thi ) với trạng thái x ∈ X Cuối cùng, Q luật chuyển đổi, c hàm chi phí giai đoạn ( hàm chi phí) Trong số trường hợp xét hàm lãi r thay hàm chi phí c để thuận lợi 1.1.1 Giải thích hình điều khiển (1.1) hình ngẫu nhiên hệ thống điều khiển quan sát thời điểm t=0, 1, Trạng thái hệ thống kí hiệu xt , at điều khiển áp dụng thời điểm t tương ứng, phát triển hệ thống tả sau: Nếu hệ thống trạng thái xt = x ∈ X thời điểm t điều khiển at = a ∈ A(x) áp dụng có hai điều xảy ra: (i) chi phí c(x, a) phát sinh (ii) hệ thống di chuyển sang trạng thái xt+1 , giá trị biến X - ngẫu nhiên với phân phối Q(·|x, a), tức là., Q(B|x, a) := P rob(xt+1 ∈ B|xt = x, at = a), B ⊂ X (1.2) Khi qúa trình chuyển đổi sang trạng thái mới, điều khiển chọn trình lặp lặp lại (i) (ii) đặc điểm trình điều khiển Markov, tức là, thời điểm nào, chi phí (hoặc lãi) luật chuyển tiếp phụ thuộc vào trạng thái hệ thống hành động Đối với thời điểm này, giải thích chiến lược điều khiển chuỗi π = {at } hành động có tính khả thi với at ∈ A(xt ), t = 0, 1, gọi Π tập hợp tất chiến lược Một chiến lược π trạng thái ban đầu xo = x định trình ngẫu nhiên " dạng - Markov" gọi trình điều khiển Markov ( MCP) Thực tế, lạm dụng thuật ngữ, toàn họ MCPs định Π gọi MCP Trong nhiều ứng dụng, phát triển MCP xác định phương trình thời gian rời rạc có dạng: xt+1 = F (xt , at , ξt ), t = 0, 1, ; (1.3) x0 cho trước Trong đó, {ξt } chuỗi biến ngẫu nhiên độc lập phân phối (i.i.d) với giá trị không gian S có phân phối chung µ, độc lập với trạng thái ban đầu x0 (Các dãy {ξt } gọi trình xáo trộn, gọi trình điều khiển trình môi trường trình ngoại sinh ) Trong trường hợp này, luật chuyển tiếp Q (1.2) cho bởi: Q(B|x, a) = µ({s ∈ S|F (x, a, s) ∈ B}) = IB [F (x, a, s)]µ(ds) (1.4) S = EIB [F (x, a, ξ)] Trong đó, IB (.) hàm tiêu tập hợp B, E kì vọng, ξt biến ngẫu nhiên với phân phối chung µ Quan sát (1.3), trường hợp đặc biệt, hệ thống điều khiển tất định xt+1 = F (xt , at ), luật chuyển tiếp (1.4) trở thành Q(B|x, a) = IB [F (x, a)] Như lưu ý, để xác định vấn đề điều khiển tối ưu, hệ thống hành dộng tập hợp chiến lược, cần hiệu suất tiêu chuẩn - gọi số hiệu suất hàm tiêu Trong trường hợp chúng ta, tiêu chuẩn hiệu suất điển hình dự kiến tổng chi phí lên tới thời gian định N , là, N JN (π, x) := Exπ c(xt , at ) (1.5) t=0 Trong Exπ kì vọng lấy theo độ đo xác suất cảm sinh trình {Xk |k = 0, 1, } sử dụng chiến lược π = {at }, với trạng thái ban đầu xo = x Một chiến lược π ∗ cho JN (π ∗ , x) = inf JN (π, x), ∀x ∈ X (1.6) gọi chiến lược tối ưu, với chi phí tối thiểu (1.6), tức là: JN∗ (x) := inf JN (π, x), ∀x ∈ X , gọi hàm giá toán điều khiển chi phí tối ưu Số N (1.5) gọi kế hoạch hóa ( tối ưu hóa ) thời gian Nó đại diện cho số giai đoạn hệ thống vận hành, hữu hạnhạn Trong trường hợp đầu, toán coi toán với thời gian hữu hạn, trường hợp sau toán với thời gianhạn Tất nhiên, N = +∞, tổng (1.5) không hội tụ - số chiến lược π Hàm giá JN (π, x) (1.5) gọi giá tổng chi phí Ngoài người ta xét giá dạng suy giảm theo thời gian: N V (π, x) := Exπ αt c(xt , at ) + CN (xN , aN ) (1.7) t=0 α ( < α < 1) gọi tham số suy giảm hay gọi tỷ lệ chiết khấu Cuối cùng, chi phí giai đoạn c(x, a) thay lãi giai đoạn r (x, a), kết điều khiển tối ưu để tối đa hóa tiêu chuẩn chất lượng định 1.2 1.2.1 Các ví dụ Ví dụ quản lí nghề cá Hãy xem xét số lượng cá Ví dụ, cá hồi, mùa bị bắt phần lại đẻ trứng cho mùa tới Như vậy, mùa nào, trạng thái x hệ thống quy dân số, hành động a dân số để lại để đẻ trứng Trong trường hợp này, giai đoạn " lãi " bắt thu hoạch r(x, a) := x − a, hình tăng trưởng dân số giả định hình thức (gọi hình Ricker) xt+1 = θ1 at · exp(−θ2 at + ξt ), t = 0, 1, 2, (1.8) Trong θ1 θ2 số, {ξt } chuỗi biến ngẫu nhiên i.i.d Để xác định hình điều khiển Markov (1.8), lấy không gian trạng thái hành động X = A = R+ , R+ := [0, ∞) Khi dân số lại cho sinh sản không vượt tổng quy dân số, tập hành động khả thi A(x) := [0, x] hệ thống trạng thái x Với phân bố xác suất biến "môi trường" ξt , luật trình chuyển đổi Q xác định (1.8), (1.3) - (1.4) 1.2.2 Ví dụ danh mục đầu tư lựa chọn Ví dụ liên quan đến vấn đề phải đối mặt "nhà đầu tư nhỏ" (nghĩa đại kinh tế mà hành động ảnh hưởng đến giá thị trường), người có quyền định chiến lược tiêu thụ đầu tư tốt nhất, ông / bà muốn phân bổ tổng mức đầu tư tài sản khác với mức giá khác Chúng ta xem xét hai tài sản: số tài sản phi rủi ro hay an toàn (ví dụ, trái phiếu) với lãi suất cố định i, tài sản khác tài sản rủi ro (cổ phiếu) với tỷ suất lợi nhuận ngẫu nhiên ξt đầu tư thời điểm t Một chiến lược tiêu thụ đầu tư chuỗi π = {(pt , ct ), t = 0, 1, } bao gồm trình danh mục vốn đầu tư {pt } trình tiêu thụ {ct } Đó là, thời điểm t, pt (resp.1 − pt ) hàm tài sản đầu tư vào cổ phiếu, (resp tài sản an toàn.) ct số lượng tài sản tiêu thụ; chúng phải thỏa mãn hạn chế ≤ pt ≤ 1, ≤ ct ≤ (1.9) xt biểu thị tài sản nhà đầu tư thời điểm t Như vậy, trạng thái hay tài sản trình xt phát triển theo phương trình xt+1 = [(1 − pt )(1 + i) + pt ξt ](xt − ct ), t = 0, 1, , (1.10) với tài sản ban đầu x0 = x > Trong ví dụ này, đưa không gian trạng thái X := R+ điều khiển A := [0, 1] × R+ Từ (1.9), tập điều khiển khả thi a = (p, c) A(x) := [0, 1] × [0, x] trạng thái hay tài sản x Giả sử {ξt } chuỗi biến ngẫu nhiên i.i.d với phân phối µ, luật chuyển đổi Q xác định từ (1.10), (1.3) - (1.4) Cuối cùng, để hoàn thành đặc điểm kỹ thuật hình điều khiển (1.1), giới thiệu hàm lãi r(x, a) (thay hàm chi phí c) Một lựa chọn tiêu biểu r kinh tế tài "lợi ích từ tiêu dùng", tức là, với a = (p, c) ∈ A(x), r(x, a) := u(c), (1.11) u hàm "lợi ích" định Do đó, ví dụ, hiệu suất số (1.7) - thay c r (1.11) - trở thành tổng dự kiến tiện ích chiết khấu từ tiêu thụ, vấn đề điều khiển tối ưu tương ứng để tối đa hóa tiêu chuẩn tập tất chiến lược tiêu thụ đầu tư thỏa mãn (1.9) với a = fN −1 (x) = Tương tự, từ (2.48) - (2.49), JN −2 (x) = max[b · (x − a) + αEJN −1 (aξN −1 )] A(x) = max[b · (x − a) + αmba] = αmbx, A(x) với a = fN −2 (x) = x Nói chung, phép quy nạp argument cho Jt (x) = (αm)N −t−1 bx, ∀x ∈ X, t = 0, , N − 1, với ft (x) = x, ∀t = 0, , N − fN −1 (x) = Do , từ định lí 2.2.1, hàm giá trị J ∗ (x) = J0 (x) = (αm)N bx với tài sản ban đầu x0 = x chiến lược đầu tư tối ưu π ∗ = {f0 , f1 , , fN −1 } Trường hợp u(x − a) = (b/γ)(x − a)γ , b > 0, < γ < Từ (2.47) - (2.48), JN −1 (x) = max(b/γ)(x − a)γ = (b/γ)xγ , ∀x ∈ X (2.50) A(x) với định đầu tư tối ưu fN −1 (x) = Bây thấy rằng, với x ∈ X , Jt (x) = (b/γ)Dt xγ , t = N − 1, N − 2, , 0, (2.51) 1/(γ−1) (2.52) ft (x) = x/ + δDt+1 , t = N − 2, , 0, δ := (αE(ξ0γ ))1/(γ−1) Dt đưa đệ quy DN −1 = γ−1 Dt = δ γ−1 Dt+1 / + 1/(γ−1) δDt+1 , t = N − 2, , (2.53) Quan sát (2.51) diễn với t = N − [xem (2.50)] Giả sử với t≤N −2 Jt+1 (x) = (b/γ)Dt+1 xγ giống u hàm lõm hoàn toàn Sau đó, từ (2.48), cho ξ biến ngẫu nhiên phân phối giống ξt+1 Jt (x) = max(b/γ)[(x − a)γ + αE(ξ γ )Dt+1 aγ ] (2.54) A(x) Ta lấy đạo hàm hàm dấu ngoặc (đối với a), cho đạo hàm không, sau giải cho a lõm hoàn toàn - tối đa toàn bộ, xác a = ft (x) (2.52), là, định đầu tư tối ưu ft thời điểm t cho (2.52) Cuối cùng, thay giá trị a = ft (x) (2.54), nhận (2.51) Mặt khác, lặp lặp lại (2.53) 30 γ−1 Dt = δ N −t−1 /(1 + δ + · · · + δ N −t−1 ) , ∀t = 0, , N − Đặc biệt, δ = 1, D0 = [δ ( N − 1)(1 − δ)/(1 − δ N )]γ−1 ; đó, dự kiến tổng số tiện ích tối ưu chiết khấu từ tiêu thụ giai đoạn N tìm thấy J ∗ (x) = J0 (x) = (b/γ)[δ (N −1) (1 − δ)/(1 − δ N )]γ−1 xγ (2.55) với tài sản ban đầu x0 = x 2.7 Một hệ thống tồn kho - sản xuất Bây xem xét trường hợp mức độ tồn kho xt ∈ X , với X = R, phương trình hệ thống xt+1 = xt + at − ξt chi phí giai đoạn c(xt , at , ξt ) = bat + h · max(0, xt+1 ) + p · max(0, −xt+1 ) (2.56) đó: b := chi phí sản xuất đơn vị h := chi phí giữ đơn vị cho hàng tồn kho dư thừa p := chi phí thiếu hụt đơn vị cho nhu cầu không đầy Những chi phí đơn vị dương, tất nhiên, giả sử p > b Hơn nữa, tập điều khiển A = A(x) = [0, ∞) ∀x ∈ X , biến nhu cầu ξt không âm, i.i.d Biến ngẫu nhiên, độc lập dự trữ ban đầu x0 ; hàm phân bố xác suất chúng ký hiệu v , là, v(s) := P (ξ0 ≤ s) ∀s ∈ R, với v(s) = s < Chúng ta giả sử nhu cầu trung bình E(ξ0 ) = sdv(s) hữu hạn Cuối cùng, tiêu chuẩn chất lượng giảm thiểu tổng chi phí suy giảm dự kiến ( α > 0) J(π, x) := Exπ N −1 αt c(xt , at , ξt ) , t=0 có hàm giá trị cuối cN (x) = ∀x, để nhu cầu rỗng kết thúc giai đoạn N bị hàm tồn kho lại có giá trị Từ §2.4 , phương trình quy hoạch động cho vấn đề hàng tồn kho - sản xuất JN (x) = Jt (x) = E[c(x, a, ξt ) + αJt+1 (x + a − ξt )] A 31 Chúng ta định nghĩa y := x + a Sau giảm thiểu a ≥ thành y ≥ x , mặt khác, từ (2.56) Ec(x, a, ξt ) = ba + h · E[max(0, x + a − ξt )] + p · E[max(0, ξt − (x + a))] = ba + h · E[max(0, y − ξt )] + p · E[max(0, ξt − y)] = b(y − x) + L(y), L(y) := h · E[max(0, y − ξt )] + p · E[max(0, ξt − y)] ∞ y 9y − s)dv(s) + p =h −∞ (s − y)dv(s) y Vì vậy, viết lại phương trình quy hoạch động JN (·) ≡ Jt (x) = min[ba + L(x + a) + αEJt+1 (x + a − ξt )] a≥0 (2.57) hoặc, với y = x + a Jt (x) = min[by + L(y) + αEJt+1 (y − ξt )] − bx y≥x (2.58) Trước tiến hành tính hàm đó, để ý y → L(y) lồi, với ξ cố định bất kì, hàm max(0, y − ξ) max(0, ξ − y) lồi y Đặt t = N − (2.58), tức JN −1 (x) = min[by + L(y)] − bx =: GN −1 (y) − bx y≥x y≥x (2.59) Khi mà L lồi, GN −1 (y) := by + L(y) đạo hàm GN −1 (y) = n + L (y) = b − p + (p + h)v(y) không điểm sN −1 = v −1 [(p − b)/(p + h)] Vì vậy, tính đơn điệu v , điểm sN −1 giảm thiểu GN −1 thế, giảm thiểu y∗ JN −1 (2.59) y ∗ = x x ≥ sN −1 y ∗ = sN −1 x < sN −1 Cuối cùng, a + x = y , cực tiểu (2.57) t = N − fN −1 (x) = x ≥ sN −1 sN −1 − x x < sN −1 JN −1 đưa fN −1 (x) = L(x) x ≥ sN −1 b(sN −1 − x) + L(sN −1 ) x < sN −1 32 Chú ý JN −1 lồi, đó, argument tương tự sử dụng để ước tính JN −2 Nói chung, Jt+1 lồi với t ≤ N − hàm ngoặc (2.58), cụ thể Gt (y) := by + L(y) + αEJt+1 (y − ξt ), lồi, có tối thiểu điểm st Từ điều này, cực tiểu (2.57) định ft (x) = x ≥ st st − x x < st (2.60) Jt trở thành ( hàm lồi ) Jt (x) = L(x) + αEJt+1 (x − ξt ) x ≥ st b(st − x) + L(st ) + αEJt+1 (st − ξt ) x < st (2.61) Từ định lí 2.2.1, hàm chọn ft (2.60) định hàm tối ưu J0 đưa hàm giá trị Chiến lược điều khiển (2.60) - theo không tối ưu để sản xuất xt mức st , kết st − x cách khác gọi kiểu ngưỡng chiến lược Trong số cải tiến hình hàng tồn kho (ví dụ, chi phí thiết lập đưa ra), chiến lược tối ưu mẫu (st , St ) cho số tham số st , St với ft (x) = nếux ≥ st St − x nếux < st Những hình hàng tồn kho lớp cho chương trình linh động lặp lặp lại cho tả hoàn thiện chiến lược tối ưu 33 Chương HÌNH QUÁ TRÌNH ĐIỀU KHIỂN MARKOV BƯỚC NHẢY ÁP DỤNG Chúng ta có toán thực tế sau: Trong hệ thống làm việc tự động có phận (có thể block trọng yếu cấu tạo hệ thống, chí rơ-le quan trọng hệ thống) mà làm việc hay không ảnh hưởng tới toàn hệ thống (chẳng hạn phận không hoạt động hệ thống làm việc sai ngừng hoạt động) Sự hỏng hóc phận không xác định trước Tuy nhiên biết tuổi thọ phận đại lượng ngẫu nhiên dương có phân phối cho trước (chẳng hạn hãng sản xuất cung cấp) Để đảm bảo tính đắn cho làm việc hệ thống, phải đặt số mốc (về mặt thời gian) để kiểm tra Giả thiết lần kiểm tra người ta phải lượng phí tổn a đơn vị tiền tệ (a > 0), giả thiết hệ thống làm việc sai ngừng hoạt động người ta phải phí tổn c đơn vị tiền tệ đơn vị thời gian (c > 0) Cũng giả thiết thêm phát hệ thống làm việc sai ngừng hoạt động kiểm tra định kì Vấn đề đặt thực tiễn là: Nếu đặt điểm kiểm tra dày tốn kinh phí kiểm tra lớn, đặt điểm kiểm tra thưa từ hệ thống làm việc sai ngừng hoạt động đến phát (tại điểm kiểm tra) muộn, phí tổn lớn Vậy cần phải xây dựng chiến lược kiểm tra (xác định mốc kiểm tra theo thời gian) cho mức thiệt hại thấp Việc kiểm tra để thay block ( hay chí rơ - le hệ thống ) toán lĩnh vực trình đổi 34 3.1 Xây dựng hình điều khiển Giả sử không gian xác suất (Ω, A , P ) tồn đại lượng ngẫu nhiên ξ có hàm phân phối Fξ (t) biết thỏa mãn điều kiện: •P [ξ > 0] = •Eξ < +∞, Ez kì vọng toán học đại lượng ngẫu nhiên z Kí hiệu R+ = [0, +∞), R∗ = R+ ∪ {+∞} (R∗ không gian compact) Hệ điều khiển với trình X = {xn , n = 1, 2, } chiến lược Π = {πn , n = 1, 2, } xác định phương pháp đệ qui sau: Với điều kiện x1 = x, x ∈ R+ trạng thái đầu trình bản, đó, điều khiển chọn tương ứng π1 (x1 ) = π1 , π1 ∈ R+ Giả sử bước thứ n (n ≥ 1) trình có trạng thái xn chọn điều khiển tương ứng πn (xn ) = πn (xn ∈ R+ , πn ∈ R+ ), trạng thái xn+1 xác định công thức xn+1 = xn + πn , n = 1, Điều khiển chọn tương ứng xác định sau πn+1 (xn+1 ) = πn+1 , πn+1 ∈ R+ Định nghĩa 3.1.1 Dãy điều khiển Π := {πn = πn (xn ), n = 1, } gọi chiến lược Định nghĩa 3.1.2 Nếu bước thứ n, trạng thái trình x điều khiển chọn tương ứng π (x ∈ R+ , π ∈ R+ ) giá bước xác định theo công thức sau Φ(x, π) = E a + c.max(0, x + π − ξ)|ξ>x Ở a số dương giá chi phí cho lần điều khiển, c số dương thiệt hại ( tính đơn vị thời gian) thời gian trễ từ ξ ( thời điểm đối tượng điều khiển làm việc sai ngừng hoạt động ) đến lần điều khiển Kí hiệu τ = τ (ω) = inf k|xk−1 < ξ(ω) ≤ xk k Nghĩa τ thời điểm trình X = {xn , n = 1, 2, } điều khiển chiến lược Π = {πn , n = 1, 2, } với điều kiện trạng thái ban đầu x1 = x rơi vào miền [ξ, +∞) (τ thời điểm Markov) Định nghĩa 3.1.3 Nếu trình X = {xn , n = 1, 2, } điều khiển chiến lược Π = πn = πn (xn ), n = 1, 2, với điều kiện trạng thái đầu x1 = x, x ∈ R+ hàm giá xác định sau Ψx (Π) = ExΠ τ −1 Φ(xn , πn ) n=1 35 Ở ExΠ (•) kì vọng toán học lấy theo phân phối xác suất cảm sinh trình X = {xn , n = 1, 2, } với điều kiện trạng thái đầu x1 = x, x ∈ R+ điều khiển chiến lược Π = πn = πn (xn ), n = 1, 2, Nhận xét (i) Nếu trạng thái đầu trình x1 = x ≥ ξ ( mod P ) toán trở thành tầm thường Bởi xét toán với điều kiện trạng thái ban đầu x P [x < ξ] > (ii) Nếu bước thứ n, chọn πn = +∞, Φ(xn , +∞) = +∞ Do không chọn điều khiển πn = +∞, ∀n = 1, 2, ( nghĩa bổ sung +∞ vào R+ để R∗ hình thức ), từ xem không gian pha điều khiển compact (iii) Chúng ta không chọn điều khiển πn = , πn = 0, xây dựng chiến lược Π = {π k , k = 1, 2, } Trong π k = πk , π k = πk+1 , k < n, k ≥ n, Từ nhận Ψx (Π) + a = Ψx (Π), suy Ψx (Π) < Ψx (Π) (a > 0) Bởi giả thiết Π = {πn = πn (xn )|πn > 0, ∀n = 1, 2, } Kí hiệu M lớp tất chiến lược Π cho Ψx (Π) hữu hạn Chúng ta hạn chế xét chiến lược thuộc lớp M Định nghĩa 3.1.4 (i) Hàm ρ(x) = inf Ψx (Π), ∀x ∈ R+ , gọi giá tối ưu Π∈M (ii) Nếu tồn chiến lược Π∗ , Π∗ ∈ M , cho ρ(x) = Ψx (Π∗ ) = Ψx (Π), ∀x ∈ R+ (P [x < ξ] > 0) Π∈M , Π∗ gọi chiến lược tối ưu 3.2 Sự tồn chiến lược tối ưu Bổ đề 3.2.1 Hàm ρ(x) = inf Ψx (Π) hàm giới nội, đơn điệu không Π∈M giảm hàm liên tục theo biến x (với P [x < ξ] > 0) Chứng minh • Chọn chiến lược Π = {πn ≡ 1, n = 1, 2, } Suy với x ∈ R+ , 36 có τ −1 Ψx (Π) = ExΠ τ −1 Φ(xn , πn ) = ExΠ n=1 E[a + c max(o, xn + πn − ξ)|ξ>xn ] n=1 τ −1 E a + c max(o, xn+1 − ξ)|ξ>xn = E (τ − 1)a + c(xτ − ξ) = = n=1 = aE(τ − 1) + cE(xτ − ξ) < a E(ξ − x) − + c ≤ a(Eξ − 1) + c = A < +∞ (do Eξ < +∞) Suy ρ(x) = inf Ψx (Π) ≤ A < +∞ Π∈M • Cho < x < y ( với P [ξ > y] > 0) Chúng ta kí hiệu M (z) lớp tất chiến lược Π với điều kiện trạng thái ban đầu x1 = z, nghĩa M (z) := Π = {πk , k = 1, 2, }} với điều kiện trạng thái đầu x1 = z Để phân biệt chiến lược Π với điều kiện trạng thái đầu x1 = z (z ∈ R+ ), kí hiệu : Π = Πz , πk = πkz , k = 1, 2, Từ suy ra: M (x) = Πx = {πkx , k = 1, 2, } với điều kiện trạng thái đầu x1 = x, M (y) = Πy = {πky , k = 1, 2, } với điều kiện trạng thái đầu x1 = y , Giả sử có chiến lược Πy , xây dựng chiến lược Πx tương ứng sau , Πx = πkx , k = 1, 2, π1x = π1y + y − x πnx = πny , ∀n ≥ (3.1) Suy Ψy (Πy ) = Ψx (Πx ) Kí hiệu M (x) lớp tất chiến lược Πx xây dựng theo công thức (3.1) Khi có ρ(x) = inf Ψx (Π) ≤ inf Ψx (Πx ) = inf Ψy (Πy ) = ρ(y) Π∈M (x) Π∈M (y) Π∈M (x) Vậy ρ(x) hàm đơn điệu không giảm • Chọn ε > đủ bé cho x − ε > Chúng ta có Ψx−ε (Π) = P (xτ − ε) ≥ ξ Ψx (Π) − εc +P (xτ − ε) < ξ Ψx (Π) + a + c(xτ +1 − xτ − ε) , Suy Ψx−ε (Π) ≥ Ψx (Π) − εc (3.2) Hoàn toàn tương tự có Ψx+ε (Π) ≤ Ψx (Π) + εc 37 (3.3) = Từ kết (3.2), (3.3) nhận ρ(x − ε) ≥ ρ(x) − εc, ρ(x + ε) ≤ ρ(x) + εc, Sử dụng tính chất đơn điệu không giảm hàm ρ(x) có ρ(x) − εc ≤ ρ(x − ε) ≤ ρ(x + ε) ≤ ρ(x) + εc, suy ρ(x) hàm liên tục Định lí 3.2.2.(i) Hàm ρ(x) thỏa mãn phương trình Bellman P [ξ > x + π] ρ(x) = inf Φ(x, π) + ρ(x + π) , π>0 P [ξ > x] Φ(x, π) = E{a + c max(0, x + π − ξ)|ξ>x } (ii) Tồn chiến lược tối ưu Π∗ := {πn∗ (xn ) = πn∗ , n = 1, 2, } cho P [ξ > x + π ∗ ] ρ(x + π ∗ ) P [ξ > x] P [ξ > x + π] = Φ(x, π) + ρ(x + π) π>0 P [ξ > x] ρ(x) = Φ(x, π ∗ ) + Chứng minh Phần(i) Chúng ta có: ρ(x) = inf Ψx (Π) = inf ExΠ Π∈M Π∈M ρ(x) = inf Π∈M ExΠ τ −1 Φ(xn , πn ) , suy n=1 P [ξ > x2 ] Φ(x1 , π1 ) + P [ξ > x1 ] τ −1 Φ(xn , πn ) = n=2 P [ξ > x2 ] Ψx (Π) Π∈M P [ξ > x1 ] P [ξ > x2 ] = inf Φ(x1 , π1 ) + ρ(x2 ) = Π∈M P [ξ > x1 ] P [ξ > x1 + π1 ] = inf Φ(x1 , π1 ) + ρ(x1 + π1 ) π1 >0 P [ξ > x1 ] P [ξ > x + π] = inf Φ(x, π) + ρ(x + π) π>0 P [ξ > x] = inf ExΠ Φ(x1 , π1 ) + P [ξ > x + π] ρ(x + π) Do ρ(x + π) P [ξ > x] hàm liên tục ( theo Bổ đề 1), P [ξ > x + π] liên tục trái, Phần(ii) Đặt ϕ(π) := Φ(x, π) + x+π c Φ(x, π) = a + P [ξ > x] (x + π − t)dFξ (t) x liên tục theo biến π , nên ϕ(π) hàm liên tục trái Từ nhận 38 ϕ(π) hàm nửa liên tục bị chặn (ϕ(π) ≥ 0, ∀π ∈ R∗ ) Suy tồn π ∗ (π ∗ > 0) cho ϕ(π ∗ ) = ϕ(π) Suy π>0 ρ(x) = ϕ(π ∗ ) = ϕ(π) π>0 Định lí 3.2.3 Phương trình ρ(x) = inf π>0 Φ(x, π) + P [ξ > x + π] ρ(x + π) , P [ξ > x] (3.4) có nghiệm giới nội Chứng minh Giả sử ρ1 (x), ρ2 (x) hai nghiệm giới nội phương trình (3.4) Đặt K = sup |ρ1 (x) − ρ2 (x)| K hữu hạn, ρ1 (x), ρ2 (x) x∈R+ hàm giới nội Áp dụng kết Định lí 3.2.2, có P [ξ > x + π] ρ1 (x + π) , π>0 P [ξ > x] P [ξ > x + π1∗ ] ∗ ρ1 (x + π1∗ ) (π1∗ > 0), = Φ(x, π1 ) + P [ξ > x] P [ξ > x + π] ρ2 (x) = inf Φ(x, π) + ρ2 (x + π) , π>0 P [ξ > x] P [ξ > x + π2∗ ] ∗ = Φ(x, π2 ) + ρ2 (x + π2∗ ) (π2∗ > 0), P [ξ > x] ρ1 (x) = inf Φ(x, π) + Chọn < ε < min(π1∗ , π2∗ ), phương pháp qui nạp toán học chứng minh P [ξ > x + (m − 1)ε] |ρ1 (x) − ρ2 (x)| ≤ K, ∀m ∈ N + , ∀x ∈ R+ P [ξ > x] Từ suy P [ξ > x + (m − 1)ε] |ρ1 (x) − ρ2 (x)| ≤ lim K = 0, ∀x ∈ R+ m→∞ P [ξ > x] Từ ta có ρ1 (x) ≡ ρ2 (x), ∀x ∈ R+ (P [ξ > x] > 0) 3.3 Phương pháp xây dựng chiến lược tối ưu chiến lược ε - tối ưu Để phát biểu kết tiếp theo, xây dựng họ hàm (n) {Vm (x), m = 1, 2, } phương pháp đệ qui sau Với n cố (n) định, n ∈ N + , lấy V1 (x) hàm liên tục bị chặn tùy ý Giả sử (n) (n) có hàm Vm (x) (m ≥ 1), hàm Vm+1 (x) xác định công thức 39 P [ξ > x + π] (n) (n) Vm+1 (x) = inf Φ(x, π) + Vm (x + π) P [ξ > x] π≥ n Định lí 3.3.1 Nếu ρ(x) nghiệm tối ưu phương trình Bellman P [ξ > x + π] ρ(x) = inf Φ(x, π) + ρ(x + π) , π>0 P [ξ > x] (n) ρ(x) = lim lim Vm (x), ∀x ∈ R+ (P [ξ > x] > 0), n→+∞ m→+∞ giới hạn hiểu theo nghĩa giới hạn lặp Chứng minh Với n cố định , n ∈ N + , kí hiệu Mn lớp tất chiến lược Π := πk πk ≥ , k = 1, 2, n (n) Gọi ρ (x) giá tối ưu điều khiển tối ưu hạn chế lớp Mn , có nghĩa ρ(n) (x) = inf Ψx ( ) Π∈Mn Lặp lại phương pháp chứng minh Bổ đề 3.2.1, Định lí 3.2.2 Định lí 3.2.3 nhận kết sau: (i) ρ(n) (x) hàm giới nội, đơn điệu không giảm liên tục theo biến x với n cố định (ii) ρ(n) (x), n = 1, 2, dãy hàm đơn điệu không tăng bị chặn theo n với x cố định (iii) Với n đủ lớn, ρ(n) (x) nghiệm giới nội phương trình ρ(n) (x) = inf Φ(x, π) + π> n P [ξ > x + π] (n) ρ (x + π) , P [ξ > x] (3.5) (iv) Giả sử ρ(n) (x) nghiệm phương trình (3.1) đoạn hữu hạn [α, β](0 < α < β, P [ξ > β] > 0) có (n) lim sup |Vm (x) − ρ(n) (x)| = 0, ∀n = 1, 2, m→+∞ x∈[α,β] Từ kết (i), (ii), (iii), (iv), nhận (n) ρ(x) = lim ρ(n) (x) = lim lim Vm (x), ∀x ∈ R+ n→+∞ n→+∞ m→+∞ Trong ρ(x) hàm bị chặn, đơn điệu không giảm, liên tục hầu khắp nơi R+ , nghiệm phương trình P [ξ > x + π] ρ(x) = inf Φ(x, π) + ρ(x + π) π>0 P [ξ > x] Áp dụng kết Định lí 3.2.3, có ρ(x) = ρ(x), ∀x ∈ R+ (P [ξ > x] > 0) 40 Đây điều cần chứng minh 3.4 Chiến lược tối ưu giá tối ưu trường hợp đại lượng ngẫu nhiên ξ có phân phối mũ Định nghĩa 3.4.1 Chúng ta nói đại lượng ngẫu nhiên không âm ξ có tính chất trí nhớ, P [ξ > x + t|ξ>x ] = P [ξ > x], ∀x, t ≥ Nghĩa đại lượng ngẫu nhiên ξ đại lượng ngẫu nhiên ξ − x (với điều kiện ξ > x) có phân phối Lưu ý rằng, đại lượng ngẫu nhiên không âm ξ có tính chất trí nhớ ξ có phân phối mũ Định 3.4.2 Nếu đại lượng ngẫu nhiên ξ có phân phối mũ, ρ(x) ≡ K = const, x ∈ R+ (P [ξ > x] > 0) (nghĩa là, giá không phụ thuộc vào trạng thái xuất phát) Chứng minh Do đại lượng ngẫu nhiên ξ có phân phối mũ, nên đại lượng ngẫu nhiên ξ đại lượng ngẫu nhiên ξ − x (với điều kiện ξ > x) có phân phối Kí hiệu ρ(x) ≡ ρξ (x) giá tối ưu ứng với đại lượng ngẫu nhiên ξ Đặt ξ = ξ − x Do ρ(x) phụ thuộc vào trạng thái đầu trình x1 = x hàm phân phối ξ Fξ (t), nên có ξ ξ (x) = ρξ (x) (3.6) (vì ξ ξ có phân phối) Mặt khác ξ nhận giá trị 0, ξ tương ứng nhận giá trị x, nên có ρξ (0) = ρξ (x) (3.7) Từ kết (3.6), (3.7) nhận ρξ (x) = ρξ (0) Từ suy ρ(x) = ρ(0) ≡ K = const, x ∈ R+ (P [ξ > x] > 0) Đây điều cần chứng minh Định lí 3.4.3 Nếu đại lượng ngẫu nhiên ξ có phân phối mũ với tham số α (α > 0), giá tối ưu điều khiển xác định công thức c c ∗ + cπ ∗ + e−απ , ρ(x) ≡ K = ∗ a − −απ 1−e α α ∗ Trong điều khiển tối ưu π nghiệm phương trình ∗ c − (c + αa + αcπ ∗ )e−απ = Chứng minh • Áp dụng kết Định lí 3.2.2 Định lí 3.4.2, có 41 K = ρ(0) = ρ(x) = ϕ(π) = ϕ(π ∗ ) π>0 Trong π ϕ(π) = a + c (π − 1)dFξ (t) + K.P [ξ > π] = a + c π + K.e−απ Suy K = a + c π ∗ + K= −απ∗ e − α α −απ e − α α + ∗ + K.e−απ , c c −απ∗ ∗ a − + cπ + e ∗ − e−απ α α (3.8) • Do ϕ(π ∗ ) = ϕ(π), nên ϕ (π ∗ ) = 0, ϕ (π) = c(1 − eαπ ) − π>0 αKe−απ , suy ∗ ∗ ϕ (π ∗ ) = c(1 − e−απ ) − αKe−απ = (3.9) ∗ Từ kết (3.8) (3.9), nhận c−(c+αa+αcπ ∗ )e−απ = Đây điều cần chứng minh 42 Kết luận Những kết đạt luận văn: Luận văn nhằm mục đích trình bày lớp hình điều khiển trình Markov với thời gian hữu hạn, hàm giá xét hình lớp dạng tổng chi phí Với hình chung (trong chương 2) luận văn tập trung nghiên cứu giá tối ưu; phương trình tối ưu Bellma; chiến lược tối ưu số dạng biến thể phương trình Bellman với số điều kiện cụ thể Cũng chương này, luận văn xét hình cụ thể áp dụng thực tế: toán với giá tuyến tính bậc hai, toán tiêu thụ - đầu tư sản xuất, toán tồn kho sản xuất Cũng hình ứng dụng với toán ứng dụngthuyết đổi luận văn nghiên cứu trình bày cặn kẽ, đầy đủ trình bày riêng chương: chương Cụ thể là: - Phát biểu toán thực tế - Xây dựng hình điều khiển tương ứng - Nghiên cứu tồn chiến lược tối ưu - Phương pháp tìm chiến lược tối ưu lược ε - tối ưu - Xét trường hợp cụ thể biến ngẫu nhiên tuổi thọ có phân phối mũ 43 Tài liệu tham khảo [1] Nguyễn Duy Tiến, Vũ Viết Yên Lí thuyết xác suất NXB Giáo dục Hà Nội (2006) [2] Nguyễn Hồng Hải, Đặng Thanh Hải Về hình trình Markov bước nhảy bị điều khiển áp dụng Tạp chí ứng dụng Toán học, tập III, số 1, 29 - 40 (2005) [3] Onésimo Hernánderz Lerma, Jean Bernard Lasserre Discrete - Time Markov Con- trol Processes Basic optimality criteria Springer (1996) 44 ... nghiên cứu mô hình Markov rời rạc điều khiển với khoảng thời gian hữu hạn ứng dụng để giải lớp toán lí thuyết đổi mới, cụ thể là: sử dụng mô hình trình Markov điều khiển được, xây dựng mô hình giải... III ĐỐI TƯỢNG NGHIÊN CỨU • Mô hình điều khiển Markov • Mô hình điều khiển Markov rời rạc với thời gian hữu hạn • Mô hình trình Markov bước nhảy bị điều khiển ứng dụng IV PHƯƠNG PHÁP NGHIÊN CỨU •... 3: Mô hình trình Markov bước nhảy bị điều khiển áp dụng Trong chương trình bày mô hình Markov bước nhảy bị điều khiển ứng dụng lí thuyết đổi Để thực điều đó, trình bày: xây dựng mô hình điều khiển

Ngày đăng: 09/06/2017, 20:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan