BÁO cáo môn học MẠNG máy TÍNH đề tài direct shape optimization through deep reinforcement learning

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CNTT&TT - - BÁO CÁO MƠN HỌC MẠNG MÁY TÍNH Đề Tài: Direct shape optimization through deep reinforcement learning Giảng viên hướng dẫn: TS Nguyễn Đức Toàn Học viên: Đỗ Xuân Vương SHHV: 20202905M Lớp: IT3083-2-20 Hà Nội, ngày 21 tháng 07 năm 2021 Năm học 2021 - MỤC LỤC I.ĐẶT VẤN ĐỀ II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN 2.1.Phương pháp dựa độ dốc 2.2.Phương pháp khơng có độ dốc 2.3.Phương pháp tối ưu hóa nhóm hạt 2.4.Đánh giá giải pháp hướng phát triển tối ưu hóa hình dạng III GIẢI PHÁP 3.1 Lý thuyết học tăng cường(DRL), độ dốc sách thuật tốn PPO 3.1.1 Thuật toán Qlearning 3.1.2 Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật tốn Q_Learning 3.1.3.Tạo hình dạng cách sử dụng đường cong Bézier IV.TRIỂN KHAI VÀ ĐÁNH GIÁ 4.1 Triển khai 4.1.1Tạo môi trường mô CFD 10 4.2.2 Học tập củng cố sâu 12 4.3.3.Tạo DRL 13 4.4.4 Kết 14 4.4.5 Phần thưởng định hình 17 V.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 20 5.1 Kết 20 5.2.Hướng phát triển 21 TÀI LIỆU THAM KHẢO 22 Hình Khung học tập củng cố sâu việc tối ứu hóa hình dạng Hình Tạo hình dạng cách sử dụng đường cong Bézier khối Hình Lưới trường vận tốc Re=200 11 Hình Ví dụ hình dạng tạo với ràng buộc hình học 14 Hình Khung học tập củng cố thối hóa 14 Hình Kết q trình tối ưu hóa hình dạng đường sở 16 Hình Một số biểu diễn tốt điểm miễn phí 16 Hình Tiến hóa phần thưởng điển hình( tức thời trung bình) 17 Hình Đường sở chức phần thưởng định hình phần quan sát điểm miễn phí 18 Hình Hình dạng tối ưu thu có khơng có hình phạt diện tích sử dụng điểm miễn phí 19 I.ĐẶT VẤN ĐỀ Tối ưu hóa hình dạng chủ đề nghiên cứu lâu đời với vô số ứng dụng công nghiệp, từ học kết cấu đến điện từ sinh học Trong động lực học, quan tâm đến việc tối ưu hóa hình dạng thúc đẩy nhiều vấn đề giới thực Ví dụ, khí động học, việc giảm lực cản tiêu thụ nhiên liệu xe tải ô tô, giảm tiêu thụ nhiên liệu máy bay chi phí vận hành, trường hợp mà có lượng lớn tài liệu Tuy nhiên, tối ưu hóa hình dạng đóng vai trị quan trọng nhiều khía cạnh khác hiệu suất, ví dụ, máy bay kỹ thuật tối ưu hóa đại áp dụng cho nhiều vấn đề tối ưu hóa máy bay tàng hình điện từ, giảm tiếng ồn âm Điều minh họa tầm quan trọng phương pháp tối ưu hóa hình dạng nhiều ứng dụng, chủ đề học thuật công nghiệp quan tâm II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN Sau phát triển kỹ thuật tối ưu hóa, hai loại phương pháp tiếp cận xuất để giải vấn đề tối ưu hóa hình dạng, cụ thể phương pháp dựa độ dốc khơng có độ dốc 2.1.Phương pháp dựa độ dốc Các phương pháp dựa độ dốc dựa việc đánh giá ∇x J, độ dốc hàm mục tiêu J thông số thiết kế x Những phương pháp sử dụng chi phí tính tốn thấp chúng khơng gian tối ưu hóa lớn , việc tính tốn độ dốc phương pháp liền kề chứng minh hiệu Hạn chế phương pháp dựa độ dốc chúng dễ dàng bị mắc kẹt giá trị tối ưu cục nhạy cảm với điểm xuất phát cung cấp, đặc biệt hệ thống phi tuyến nghiên cứu mạnh mẽ, hiệu suất chúng bị thách thức nghiêm trọng tình mà hàm mục tiêu biểu gián đoạn phi tuyến tính 2.2.Phương pháp khơng có độ dốc Các phương pháp khơng có độ dốc ưu việt phương pháp có độ dốc trong, nhiên, việc triển khai áp dụng chúng phức tạp Trong số phương pháp khơng có độ dốc, thuật toán di truyền biết đến tốt việc xếp giá trị tối ưu tồn cục, nhạy cảm với nhiễu tính toán phương pháp dựa độ dốc Tuy nhiên, chi phí tính tốn chúng thường cao phương pháp dựa độ dốc, hạn chế số lượng tham số thiết kế mà phương pháp giải 2.3.Phương pháp tối ưu hóa nhóm hạt Tối ưu hóa nhóm hạt phương pháp tiếng khác ca ngợi dễ thực chi phí nhớ thấp Hạn chế lớn khó áp đặt ràng buộc thơng số thiết kế.Một lớp cuối thuật tốn khơng có độ dốc thuật tốn thị, chẳng hạn ủ mơ Phương pháp này, dựa trình vật lý làm nguội kim loại nóng chảy, tiếng với khả thoát cực tiểu cục bộ, kết thu phụ thuộc nhiều vào tham số meta chọn thuật toán 2.4.Đánh giá giải pháp hướng phát triển tối ưu hóa hình dạng Với phương pháp dựa độ dốc khơng có độ dốc, mơ hình thay sử dụng cho phần tính tốn, thay dựa vào giải CFD cách có hệ thống Nhiều phương pháp để xây dựng mơ hình thay tồn tại, chẳng hạn hàm sở xuyên tâm, kriging mạng nơron nhân tạo giám sát Trong tất phương pháp này, tham số hóa hình học đóng vai trị định, dạng hình học đạt tính khả thi q trình tối ưu hóa Đặc biệt, tham số hóa dựa đường cong Bézier, Bsplines NURBS nghiên cứu rộng rãi khuôn khổ tối ưu hóa thơng thường Cho đến ngày nay, việc sử dụng mạng nơ-ron có giám sát kết hợp với phương pháp dựa độ dốc khơng có độ dốc để tối ưu hóa hình dạng hỗ trợ tài liệu phong phú Trong học tập có giám sát, tập liệu gắn nhãn (i.e cặp đầu vào đầu dự kiến) sử dụng để huấn luyện mạng nơ-ron xấp xỉ chức ánh xạ không gian đầu vào đầu cách xác Có thể tìm thấy số cách tiếp cận tốn động lực học tính toán đánh giá Trong RL, tác nhân tương tác với mơi trường vịng khép kín Tại thời điểm tương tác, tác nhân (ở đây, mạng nơron) cung cấp phần quan sát trạng thái môi trường St, phản hồi đầu hành động action(at) thực thi, điều cản trở phát triển môi trường Hơn nữa, tác nhân định kỳ nhận tín hiệu phần thưởng rt điều chỉnh lại chất lượng hành động thực gần đây, mục tiêu RL đạt sách định tối ưu at = π (St) tối đa hóa phần thưởng tích lũy nó.Như thấy hình Hình Khung học tập củng cố sâu việc tối ứu hóa hình dạng III GIẢI PHÁP Một đánh giá gần trình bày tài liệu có DRL cho ứng dụng động lực học Công việc làm bật tiềm DRL bối cảnh học.Một số giải pháp liên quan đến việc tối ưu hóa việc biến đổi cánh máy bay với hai bốn tham số tương ứng, sử dụng phương pháp Q-learning Tác nhân khám phá động lực biến đổi tối ưu cánh máy bay trình chuyển đổi chế độ khác nhau., nơi mạng nơ-ron trực tiếp học cách thực giảm độ dốc lớp toán cụ thể Một giải pháp đề cập việc tối ưu hóa hình dạng trực tiếp phương pháp học tập củng cố sâu sử dụng phương pháp tối ưu hóa sách gần (PPO) kết hợp với mạng nơ_ron nhân tạo để tạo hình dạng 2D mơ tả đường cong Bezier.OW xung quang quanh hình dạng đánh giá thông qua mô số 2D số Reynolds vừa phải cách sử dụng FeniCs 3.1 Lý thuyết học tăng cường(DRL), độ dốc sách thuật toán PPO Học tăng cường lớp phương pháp học máy tập trung vào việc đưa định tối ưu môi trường phức tạp Tại bước thời gian rời rạc t ∈N, đặc vụ quan sát tình trạng giới St, định cho hành động at nhận m/ột tín hiệu khen thưởng rt ∈R Trong tài liệu, quan sát trạng thái phân biệt, để dễ ký hiệu, hai khái niệm thường hợp thành khái niệm trạng thái St Tuy nhiên, phải lưu ý trạng thái thường quan sát phần nhiễu trạng thái thực tế môi trường Mục tiêu cuối tác nhân cập nhật phần thưởng(Reward) tích lũy chiết khấu qua việc triển khai sách đại lý π, i,e quỹ đạo trạng thái, hành động phần thưởng τ = (s0, a0, r0s1 ) phân phối tuân theo sách π: R(𝜏) = ∑𝑇𝑡=0 𝛾 𝑡 𝑟𝑡 Ở γ ∈ [0, 1] hệ số chiết khấu để ưu tiên phần thưởng tức so với phần thưởng xa Hai loại thuật toán học tăng cường phổ biến Qlearning phương pháp có độ dốc sách: 3.1.1 Thuật tốn Qlearning Q-learning giả định không gian hành động rời rạc, nhỏ gọn chọn hành động dựa giá trị Q ước tính chúng, phần thưởng tích lũy chiết khấu dự kiến nhận trạng thái S với hành động a, sau theo quỹ đạo τ theo sách π: Q (s, a) = E [R (τ) |s, a] τ∼π Trong DRL, Q-Learning thực mạng nơron sâu tối ưu hóa để tạo giải pháp tối ưu đặc trưng đệ quy, đưa phương trình Bellman: Q*(s,a)=R(s,a) +𝛾𝑚𝑎𝑥𝑎′ Q*(s’,a’) Phương pháp sách có độ dốc Mặt khác, phương thức sách có độ dốc (PG) xử lý khơng gian hành động rời rạc liên tục Ngược lại với Q-learning, phương pháp PG trực tiếp tối ưu hóa sách thay chức giá trị phụ trợ Họ giả định sách ngẫu nhiên π (a | s), thường tham số hóa mạng nơron sâu, có tối ưu hóa dựa gradient trực tiếp tối đa hóa phần thưởng tích lũy chiết khấu dự kiến E τ∼ [πR], xấp xỉ lô phát hành nhỏ So với Q-learning phương pháp, phương pháp PG thể khả tốt việc xử lý không gian hành động chiều cao thuộc tính hội tụ mượt mà hơn, chúng biết thường hội tụ cực tiểu cục Được giới thiệu vào năm 2000 Sutton cộng [41], vani PG dựa vào ước tính gradient bậc log- policy ∇θ logπθ để cập nhật mạng Cách tiếp cận sau theo sau số cải tiến lớn, bao gồm tối ưu hóa sách vùng tin cậy (TRPO) tối ưu hóa sách vùng lân cận (PPO) Trong phương pháp này, cập nhật mạng khai thác chức lợi thay thế: 𝜃𝑘+1 = 𝑎𝑟𝑔𝑚𝑎𝑥0 𝐿(𝜃𝑘 , 𝜃), Với: L(θk , θ) = E(s,a)~πθ [π(s, a, θ, θk )θπθk (s, a)], k Và: 𝜋 (𝑎|𝑠) Π (s,a,𝜃, 𝜃𝑘 ) = 𝜋 𝜃 𝜃𝑘 (𝑎|𝑠) Trong biểu thức sau, Aπθk (s, a) gọi hàm lợi đo lường mức độ tốt để thực hành động at trạng thái S so với kết trung bình tất hành động thực trạng thái S Vì thế, L (θk, θ) đo lường sách tốt (hoặc tệ hơn) πθ thực so với sách trước πθk Để tránh cập nhật sách q lớn làm giảm hiệu suất sách, TRPO tận dụng tối ưu hóa gradient tự nhiên bậc hai để cập nhật thông số vùng tin cậy phân kỳ Kullback-Leibler tối đa xác định phân phối sách cũ cập nhật 3.1.2 Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật toán Q_Learning Cách tiếp cận tương đối phức tạp thay phương pháp PPO cách đơn giản cắt bớt biểu thức tối đa: Trong ε tham số nhỏ, người dùng xác định Khi 𝐴𝜋𝜃𝑘 (s, a) tích cực, việc thực hành động a trạng thái s ưu tiên so với mức trung bình tất hành động thực trạng thái việc cập nhật sách để ưu tiên hành động điều đương nhiên Tuy nhiên, tỷ lệ lớn, việc xa so với sách trước πθk làm hỏng hiệu suất Vì lý đó, cắt thành + ε để tránh cập nhật sách lớn Nếu 𝐴𝜋𝜃𝑘 (s, a) âm, thực hành động a trạng thái s thể lựa chọn mức trung bình tất hành động thực trạng thái việc cập nhật sách điều tự nhiên để giảm xác suất thực hành động Theo cách tương tự, cắt xuống −ε xảy thấp giá trị Trong biểu thức sau, 𝐴𝜋𝜃𝑘 (s, a) ước tính cách sử dụng cơng cụ ước tính lợi tổng quát (GAE), đại diện cho cân Monte-Carlo công cụ ước tính chênh lệch thời gian Ngồi ra, thay thực cập nhật toàn bộ, đơn lẻ, việc tối ưu hóa mạng phân tách thành nhiều cập nhật tính tốn từ lơ nhỏ lấy mẫu Cuối cùng, quy luật hóa entropy thêm vào tổn thất thay thế: Điều khoản bổ sung khuyến khích đại lý khơng nên q tự tin, cách giữ cho phân phối sách gần với đồng trừ có tín hiệu mạnh mẽ khơng nên 3.1.3.Tạo hình dạng cách sử dụng đường cong Bézier Phần mơ tả quy trình để tạo hình dạng từ tập hợp n điểm đại lý cung cấp Khi điểm thu thập, xếp góc lượng giác tăng dần thực (xem Hình.2a), góc điểm tính tốn Sau đó, góc trung bình tính xung quanh điểm (xem Hình.2b) sử dụng: với α ∈ [0, 1] Tham số trung bình α cho phép thay đổi cục độ sắc nét đường cong, đạt độ mịn tối đa cho α = 0,5 Sau đó, cặp điểm nối cách sử dụng đường cong Bézier lập phương, tính bốn điểm: điểm điểm cuối điểm, pi pi+1, phần đường cong, phần thứ hai thứ ba, pi∗Tôi pi** , điểm kiểm soát để xác định tiếp tuyến đường cong pi pi+1 Các tiếp tuyến pi pi+1 kiểm soát tương ứng θi* θ* i+1 (xem Hình 2c) Việc lấy mẫu cuối đường cong Bézier liên tiếp dẫn đến mơ tả đường biên hình dạng (Hình 2d) Sử dụng phương pháp này, đạt nhiều hình dạng khác Hình Tạo hình dạng cách sử dụng đường cong Bézier khối IV.TRIỂN KHAI VÀ ĐÁNH GIÁ 4.1 Triển khai 4.1.1Tạo môi trường mô CFD Mô CFD, tạo thành môi trường tương tác với tác nhân DRL, bao gồm mơ động lực học tính tốn (CFD) dựa FeniCs giải phương trình NavierStokes (NS) số Mỗi hình dạng, có kích thước điển hình, nhúng miền tính tốn hình chữ nhật có chiều dài l = 45 chiều rộng w = 30 (xem Hình 2a) Một vận tốc khơng đổi v =vinex áp dụng theo tỷ lệ trong, điều kiện biên trượt tự áp dụng đầu cuối miền Cuối cùng, điều kiện ranh giới không trượt áp dụng cho chướng ngại vật điều kiện khơng có lực kéo thiết lập ngồi hồ sơ dịng chảy Để thực phép tính số cần thiết, việc tạo lưới miền hình học thực cách sử dụng Gmsh Dòng tham chiếu tương ứng với tham chiếu hình trụ có bán kính rcyl = nhúng miền Số Reynolds tham chiếu sau xác định là: Reref = 2𝜌𝑣𝑖𝑛𝑟𝑐𝑦𝑙 (1) 𝜇 Ở ρ khối lượng thể tích dịng chảy, μ độ nhớt Trong phần cịn lại báo này, ρ giữ không đổi 1kg / m3, vin, giữ m / s Phương thức điều chỉnh điều kiện thực thông qua việc lựa chọn số Reynolds tham chiếu, số điều chỉnh cách điều chỉnh độ nhớt dòng chảy Đối với tất phép tính, số bước thời gian chọn là: ∆t = C hmin (2) vmin số C số điều kiện CFL (ở đây, C = 0,5) Lực kéo lực nâng chịu hình dạng định bị chìm dịng chảy tính sau: fd= ∫𝑆 (𝜎 𝑛)𝑒 x and fl =∫𝑆 (𝜎 𝑛) 𝑒𝑦 (3) Các hệ số kéo nâng Cd Cl đánh giá là: Cd = 𝑓𝑑 𝜌(𝑣𝑖𝑛 )2 𝑠 and Cl = 𝑓𝑙 𝜌(𝑣𝑖𝑛 )2 𝑠 (4) 10 Trong phần sau, giá trị dương Cd (đáp lại Cl) lực lượng fd (đáp lại fl) định hướng phía ex (đáp lại ey) Thời gian vật lý tối đa sử dụng phép tính số thiết lập để thu giá trị trung bình ổn định số lượng quan tâm theo dõi (xem phần tiếp theo) Trong thực tế, quy tắc ngón tay sau sử dụng: tmax = 𝑣𝑖𝑛 (xmax –xmin) (5) Công thức số sử dụng để giải phương trình Navier-Stokes tùy ý giải không nén nite-phần tử dựa phương pháp chiếu, kết hợp với sơ đồ hành quân thời gian BDF2 Điều cho phép xem xét khoản nợ số Reynolds thấp, thường Re = 200 Sử dụng giá trị điển hình số Reynolds cho phép giải nhiệm vụ tối ưu hóa hình dạng trình bày thành phần khơng tuyến tính kích thước cao thách thức loại toán này, đồng thời giữ cho ngân sách tính tốn hạn chế, đó, cho phép đào tạo tương đối nhanh mà khơng lớn tài ngun tính tốn Đây cách tiếp cận tương tự sử dụng trong, phù hợp cho chứng khái niệm phương pháp luận điểm chuẩn tương lai thuật tốn chưa điều chỉnh Hình Lưới trường vận tốc Re=200 Hình a, lưới miền tính tốn b, trường vận tốc vx tính tốn Re=200 Khu vực tuần hồn phía sau chướng ngại vật nhìn thấy rõ ràng, hẻm xoáy Von Karman thiết lập tốt Trường vận tốc chia tỷ lệ phạm vi [-1, 1], Bảng 11 Ký hiệu Reref ∆t Ý nghĩa Công thức Reref = ∆t = C 2𝜌𝑣𝑖𝑛𝑟𝑐𝑦𝑙 Số Reynolds tham chiếu 𝜇 hmin Bước nhảy thời gian vmin C C=0,5 Hằng số điều kiện Fd fd= ∫𝑆 (𝜎 𝑛)𝑒 x Lực nâng Fl fl =∫𝑆 (𝜎 𝑛) 𝑒𝑦 Lực kéo Cd Hệ số nâng Cl Hệ số kéo Tmax Thời gian thực q trình mơ 4.2.2 Học tập củng cố sâu Tác nhân DRL dựa tối ưu hóa sách gần (PPO) thuật tốn thuộc lớp phương pháp có độ dốc sách, khác với phương pháp giá trị hành động Q-learning.Trong công việc này, đầu hành động mạng bao gồm 3n giá trị [-1, 1], n cố định cho thử nghiệm tương ứng với số điểm sử dụng để định hình dạng Các giá trị sau chuyển đổi cách thích hợp để tạo hình dạng hợp lệ, cách tạo vị trí độ cong cục loạt điểm kết nối qua đường cong Bezier Với ba (p, q, s) 12 cung cấp mạng, thu ba biến đổi (x, y, e) tạo vị trí x,y độ cong cục e điểm thứ i: (6) Ánh xạ cho phép giới hạn vị trí tiếp cận điểm phần cụ thể hình xuyến, giới hạn bán kính bên (rmin) bên ngồi (rmax) người dùng xác định (xem Hình 4) Khi làm vậy, khuyến khích việc tạo hình dạng khơng bị rối, hạn chế vấn đề chia lưới dẫn đến Khi vị trí điểm cuối tính tốn, mơi trường kết nối chúng để tạo hình dạng khép kín cách sử dụng đường cong Bézier cách hoàn toàn xác định Một lần chạy CFD thực mô tả phần 2.1 sau kết thúc, phần thưởng tính tốn chuyển cho đại lý Mạng nơ-ron đại diện cho tác nhân mạng kết nối đầy đủ đơn giản với hai lớp ẩn có kích thước 512, tương tự lựa chọn Thiết lập đào tạo hưởng lợi từ đào tạo đa môi trường song song, cung cấp tốc độ gần tuyến tính số lượng lõi có sẵn 4.3.3.Tạo DRL Đối với cách này, thiết lập theo phiên DRL "thối hóa" tập học tập bao gồm bước thời gian nhất, nỗ lực mạng để tạo hình dạng tối ưu (xem Hình 5) Do đó, chúng tơi tận dụng khả DRL để học hỏi từ giám sát gián tiếp thơng qua tín hiệu khen thưởng chung (lưu ý phản hồi tối ưu xác khơng biết, đó, phương pháp giám sát áp dụng cách đơn giản) Như trình bày phần 3, lựa chọn cho phép khai thác thuật toán DRL làm trình tối ưu hóa phi tuyến tính trực tiếp Chúng tơi khơng biết cơng trình khác áp dụng DRL theo cách 13 Hình Ví dụ hình dạng tạo với ràng buộc hình học Các chấm màu cho biết điểm kiểm soát tác nhân tạo ra, sau nối với sử dụng đường cong Bézier Mỗi điểm mà tác nhân gợi ý bị hạn chế cấu trúc bán kính (vịng trịn bên bên ngồi bán kính rmin rmax) theo góc phương vị (các vạch trắng phân kỳ) Hình Khung học tập củng cố thối hóa Một tập bao gồm kiểm sốt từ tác nhân: quan sát ban đầu tương tự cung cấp cho tác nhân bắt đầu, đổi lại cung cấp hành động môi trường Môi trường trả giá trị phần thưởng cho tác nhân, đưa kết 4.4.4 Kết Quan tâm đến việc tạo hình dạng tối đa hóa tỷ lệ lực kéo, 𝐶𝑙 𝐶𝑑 kết đề xuất là: (7) Trong ký hiệu mức trung bình tạm thời nửa sau phép tính CFD Chỉ số cyl tương ứng với giá trị tính trường hợp tham chiếu, tức sử dụng hình trụ bán kính đơn vị Ở đây, giá trị lực nâng tham chiếu sử dụng xi lanh 0, giá trị trung bình khơng tạo lực nâng Thực tế phần thưởng thay đổi dấu hiệu tùy thuộc vào hướng mà mức tăng xảy ngụ ý 14 thay đổi phần thưởng tốt, giúp người đại diện học hỏi Cuối cùng, hình dạng mà khơng có phần thưởng tính tốn (chia lưới khơng thành cơng tính tốn CFD khơng thành cơng) bị phạt thông qua chức phần thưởng sau: rt ← max (rt, rfail) (8) Việc tạo hình cho phép kẹp phần thưởng trường hợp hình dạng có đặc tính khí động học xấu Trong thực tế, rfail = −5 Các giới hạn biến dạng đặt rmin = 0,3 rmax= Các tham số mạng cập nhật sau 50 hình dạng, với tốc độ học tập × 10−3 Hình dạng mô tả với điểm, với khả giữ cố định số điểm 4.4.4.1 Kết Các kết thu quy tắc với 1, điểm tự tổng số điểm mơ tả hình dạng thể Hình Như nêu phần 2,2, điểm Bézier tương ứng với bậc tự (dof) để mạng tối ưu hóa (vị trí điểm (x, y) độ cong cục e) Trong trường hợp điểm tự (Hình 5a), tác nhân hiểu cần thiết việc tạo vùng áp suất cao bên hình dạng để tạo lực nâng, tạo hình dạng giống cánh quạt với góc cao Sự diện cạnh sau quan sát thấy tất hình dạng hoạt động tốt Khi sử dụng ba điểm miễn phí (Hình.5b, hành vi tương tự quan sát với đường kính biểu kiến giảm, phần lớn điều khiển điểm Góc cơng giảm xuống so với trường hợp điểm đơn, phần thưởng tối đa trung bình tăng lên (xem Hình.7 b) Khi bốn điểm phép di chuyển (Hình.5c), cánh gió mở rộng tồn miền có sẵn để tối đa hóa lực nâng, cạnh sau tương tự (trong trường hợp điểm tự do, góc tâm hình dạng cạnh sau gần 23◦) Mặc dù cạnh đầu tròn xuất hình dạng Fig c, khơng xuất cách có hệ thống hình dạng hoạt động tốt khác, Hình Điều có lẽ số Reynolds tương đối thấp sử dụng nghiên cứu Cuối cùng, cần lưu ý với bốn điểm có sẵn, tác nhân nhận phần thưởng tốt nữa, thể Hình.7 Trong trường hợp, học tập xảy 15 Hình Kết trình tối ưu hóa hình dạng đường sở Hình dạng đẹp thu cách sử dụng 1, điểm miễn phí hiển thị Hình phụ 5a, 5b,5c tương ứng Trong hình phụ.5a, điểm bên trái, định vị vị trí ban đầu chúng (I E hình trụ tham chiếu), hình trụ ngồi bên phải di chuyển tự Trong hình phụ.5b, có điểm bên trái định vị, Hình 5c, bốn điểm chuyển động tự Trường vận tốc tương ứng với hình dạng 5c hiển thị Hình 5d Hình Một số biểu diễn tốt điểm miễn phí 16 Cạnh đầu trịn khơng phải tính cần thiết người hoạt động tốt Điều phát sinh từ mức thấp Re giá trị sử dụng thử nghiệm Ngược lại, cạnh cuối giống tất hình dạng hoạt động tốt gần lập tức, tiếp tục gần tuyến tính trước đạt đến mức ổn định, sau tác nhân tiếp tục khám phá mơi trường, thực tế khơng có học tập nhìn thấy Các hình thể Hình.5a, 5ban nhạc 5c tốt rút từ toàn khám phá Thành phần nằm ngang trường vận tốc xung quanh hình dạng cuối thể Hình.5d 4.4.5 Phần thưởng định hình 4.4.5.1 Định hình để hội tụ nhanh Nó quan sát Hình 7b trình học tập địi hỏi lượng đáng kể hình dạng khám phá để hội tụ mức hiệu suất cuối Như dự đốn, số lượng hình dạng tăng lên với số bậc tự tham gia vào trình tạo hình dạng Trong phần này, định hình phần thưởng đủ, trường hợp để cắt Hình Tiến hóa phần thưởng điển hình( tức thời trung bình) Trong q trình tối ưu hóa hình dạng Hình con.7a tương ứng với việc học Case 5c Các đường cong học tập trung bình di chuyển cho ba trường hợp khác Hình.5 so sánh subFig 7b 17 Hình Đường sở chức phần thưởng định hình phần quan sát điểm miễn phí Sử dụng phần thưởng định hình làm tăng tốc độ học tập tổng thể Con số số lượng đáng kể Để làm vậy, phần thưởng tính theo phương trình sau (7) (số 8), sau nhân với (stant dương, hiển thị Hình số 8a, sau đây: rt ←2rt · 1(rt> 0.) (9) Tác động việc sửa đổi việc học thể rõ ràng Hình 8b: sử dụng phần thưởng định hình, tác nhân đạt đến mức ổn định học tập sau gần 1500 hình dạng, so với 3000 sử dụng phần thưởng Phần thưởng bình nguyên trung bình cao chút với phần thưởng định hình 4.4.5.2 Định hình để thêm ràng buộc Các ràng buộc thực thi cách yếu ớt (theo nghĩa phi toán học) cách thêm hình phạt vào chức phần thưởng để cuối cấm hành vi không mong muốn khỏi mạng Bằng cách thường xuyên chạm vào hàng rào phần thưởng không gian hành động, tác nhân học cách tránh hành vi liên quan Ở đây, mục tiêu quy định diện tích hình dạng tối ưu để trì gần với diện tích ∣∣ e viết tắt ∣hình trụ Để kết thúc, người ta cần thêm mộtđặc biệt thời hạn phạt chức khen thưởng: 18 rt rt - |𝛼−𝛼𝑐𝑦𝑙 | 𝛼 (10) Ở α diện tích hình dạng αcyl diện tích hình trụ tham chiếu Trong lễ phục.9, chúng tơi so sánh hình dạng tối ưu thu cách sử dụng điểm với điểm di chuyển, có khơng có hình phạt khu vực (10) Khu vực Hình dạng tối ưu với hình phạt gần với hình trụ tham chiếu, trường hợp đường sở Như thể Hình.10, 2000 tập đầu tiên, tác nhân bị hạn chế không bị hạn chế tạo hình dạng giống Hình 10 Hình dạng tối ưu thu có khơng có hình phạt diện tích sử dụng điểm miễn phí Trong khu vực mục tiêu hình trụ đơn vị (αcyl = π), diện tích hình tối ưu với diện tích bị phạt 3,176, so với 2,733 hình khơng bị phạt Trong tôn trọng hạn chế này, tỷ lệ nâng-kéo hình bị phạt thấp khoảng 30% so với hình khơng bị phạt 19 Hình 10 Phần thưởng trung bình động lịch sử diện tích hình dạng khám phá cách sử dụng đường sở phần thưởng so với khu vực mục tiêu lần đào tạo Sau đạt đến ngưỡng học tập (khoảng 2000 tập), tác nhân điều chỉnh hành vi để đáp ứng giới hạn diện tích bổ sung, điều khơng thể nhìn thấy đường cong phần thưởng Đối với trường hợp hạn chế diện tích, đại lý phải cân tỷ lệ lực kéo diện tích hình phạt phần thưởng, giải thích thấp 〈rt 〉 giá trị.khu vực Sau đạt bình nguyên học tập, tác nhân bị ràng buộc bắt đầu tạo hình dạng giảm thiểu thuật ngữ phạt (10) Mặc dù hiệu ứng khơng nhìn thấy đường cong phần thưởng, hành vi đặc biệt rõ ràng nhìn lịch sử khu vực Thấp hơn〈rt 〉 giá trị cho tác nhân bị ràng buộc hệ trực tiếp cân tỷ lệ lực kéo diện tích bị phạt Ràng buộc bổ sung làm giảm khoảng 30% tỷ lệ lực kéo so với hình dạng tối ưu mà khơng bị phạt diện tích V.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết Qua ta thấy ứng dụng học tăng cường sâu để định hướng tối ưu hóa hình dạng Sau phần giới thiệu khái niệm DRL mô tả thiết lập CFD, chi tiết đưa việc tạo hình dạng cách sử dụng đường cong Bézier việc triển khai mơi trường DRL Sau đó, cung cấp chức phần thưởng thích hợp dựa tỷ lệ lực nâng / lực cản, tác nhân 20 tạo hình dạng tối ưu giống cánh mà không cần kiến thức tiên nghiệm khái niệm khí động học Hơn nữa, việc khám phá định hình phần thưởng, vừa để tăng tốc độ học vừa đưa ràng buộc bổ sung cho vấn đề tối ưu hóa xem xét Báo cáo giới thiệu cách tiếp cận “DRL suy biến” cho phép sử dụng thuật toán DRL tối ưu hóa mục đích chung Nhiều điểm lại phương pháp khám phá, 5.2.Hướng phát triển Phương pháp tối ưu háo mở đường cho loại quy trình tối ưu hóa hình dạng Việc sử dụng DRL để thực tối ưu hóa hình dạng cung cấp số triển vọng đầy hứa hẹn Đầu tiên, phương pháp DRL mong đợi để xử lý tốt vấn đề phi tuyến tính, tối ưu hóa số chiều cao, điều chứng minh số ứng dụng điều khiển Thứ hai, DRL biết có quy mơ từ nhỏ đến sối lượng lớn liệu, điều chỉnh tốt cho trường hợp mà việc song song hóa mơ khác thách thức thuật tốn phần cứng, nhiều mơ chạy song song Thứ ba, mong đợi việc học chuyển tiếp cho phép DRL giải vấn đề tương tự dựa kiến thức thu từ khóa đào tạo trước Các cơng việc cần thực để điều tra khía cạnh 21 TÀI LIỆU THAM KHẢO Viquerat, J., Rabault, J., Kuhnle, A., Ghraieb, H., Larcher, A., & Hachem, E (2020) Direct shape optimization through deep reinforcement learning Journal of Computational Physics, 110080 doi:10.1016/j.jcp.2020.110080 Mã nguồn mở code The code of this project is available on the following Github repository: https://github com /jviquerat /drl _shape _ optimization It relies on FEniCS for the CFD resolution [35], and on Tensorforce [39] for the reinforcement learning library The generation of shapes using Bézier curves description is ensured by a homemade code included in the repository 22 ... Rabault, J., Kuhnle, A., Ghraieb, H., Larcher, A., & Hachem, E (2020) Direct shape optimization through deep reinforcement learning Journal of Computational Physics, 110080 doi:10.1016/j.jcp.2020.110080... cánh máy bay với hai bốn tham số tương ứng, sử dụng phương pháp Q -learning Tác nhân khám phá động lực biến đổi tối ưu cánh máy bay trình chuyển đổi chế độ khác nhau., nơi mạng nơ-ron trực tiếp học. .. thuật toán học tăng cường phổ biến Qlearning phương pháp có độ dốc sách: 3.1.1 Thuật tốn Qlearning Q -learning giả định không gian hành động rời rạc, nhỏ gọn chọn hành động dựa giá trị Q ước tính chúng,

Định dạng
Số trang	23
Dung lượng	1,67 MB