Mục tiêu Thiết kế và cải tiến các thuật toán ERL có tính hiệu quả trong việc lay mau sample-efficiency va có các phép biến đổi lai ghép, đột biến 6n định, không nhạy với các cai đặt về
Đột biến vi phân kiểu hình (Phenotypic Differential Mutation)|
Trong tính toán tiễn hóa, Tiến hóa vi phân (Differential Evolution, viết tắt là DE) là một phương pháp đơn giản nhằm thực hiện tìm kiếm và tối ưu các bài toán có biến là số thực Phép biến đổi của DE có thể cho chúng ta một hướng tiếp cận mới về van đề mà PM đang gặp phải Hình |3.2|biểu diễn từng bước của thuật toán
Tiến hóa vi phân Cụ thể, với mỗi cá thể được biểu diễn là x; trong quần thể hiện tại, cơ chế đột biến truyền thống “DE/rand/1” tinh vector đột biến bằng ỉĂ Xr + FX (xp, — X17), trong đó x;5,%1,,Xr, là ba cá thể khác nhau được chọn ngẫu nhiên trong quan thể hiện tại với F € (0,1) là yếu té tỉ lệ (scaling factor) điều chỉnh mức độ đột biến Ngoài ra vector con z;, được tạo ra bởi đột biến đa điểm giữa x; và v;, sẽ thay thé x; ở thé hệ tiếp theo nếu z; vượt trội hơn so với x; Phép đột biến của DE khai thác sự khác biệt tương đối giữa các cá thể trong quan thé để thực hiện việc khám phá không gian tìm kiếm Nếu quan thể vẫn chưa hội tụ, vector hiệu(x;, — X7,) sẽ có giá trị lớn, và vector con z; được tạo ra sẽ xa hơn so với x; Khi quần thé sắp hội tụ, hiệu (x;, — x;,) trở nên nhỏ dan, và z; sẽ được tạo ra gan với x;.
Chương 3 CÁC PHƯƠNG PHÁP ĐỀ XUẤT 31 y A y A y A
1 Quan thé trong 2 Lần lượt chọn 1 cá thé và 3 Tính vector khác biệt và không gian tìm kiếm 3 cá thể ngẫu nhiên khác chia tỉ lệ F y A y A y A
4 Đột biến dựa trên 5 Lai ghép cá thể được chọn 6 Chọn lọc cá thể tốt nhất vector khác biệt với cá thể đột biến
HINH 3.2: Hình ảnh minh họa quá trình thực hiện của Tiến hóa vi phân.
Lay cảm hứng từ phép đột bién của DE [31], chúng tôi để xuất Phenotypic differ- ential mutation (viết tat là PhDM, tạm dịch, Đột biến Vi phân Kiểu hình) cho thuật toán tìm kiếm chiến lược để giải các tác vụ điều khiển liên tục Không giống như các phép đột biến đẳng hướng như đột biến Gaussian trên không gian tham số, PhDM tạo một vector đột biến hành vi trên không gian hành động 4 (hay chúng tôi còn gọi là không gian kiểu hình) và thực hiện cơ chế học bắt chước để huấn luyện mạng actor của cá thể trong quần thể để hành động theo như vector đột biến được tạo ra Với một tác tử ban đầu p được chọn để đột biến bởi PhDM, chúng tôi gọi chiến lược của nó là 7¿„„ mang actor là pp, bộ nhớ di truyền là By, và vector đột biến hành động là bự Giá trị từng thành phần của vector b„ tương ứng với trạng thái s được lay mẫu từ By được tính bằng: bm(s) = 7p,(8) + F x (x(s) — 7y(8)) |s~B, (3.1)
Chương 3 CÁC PHƯƠNG PHÁP ĐỀ XUẤT 32 với 7x, Ty là một cặp chiến lược được chọn ngẫu nhiên từ quan thể hiện tại ngoại trừ cá thể gốc 7r„„ Tat cả các hành động của các chiên lược khác nhau được tạo ra từ cùng các trạng thái xuất hiện của cá thể gốc được lay mẫu từ chính bộ nhớ di truyền của nó Giá trị hiệu hành động (Zrx(s) — 7r„(s)) của hai chiến lược ngẫu nhiên phan nào đại diện được phân phối kiểu hình của quân thể hiện tại Bằng cách này, vector đột biến hành vi b„ tự diéu chỉnh dựa theo phân phối của quan thể trong không gian kiểu hình, từ đó giảm bớt được những khó khăn trong việc điều chỉnh yếu tố ti lệ F Chúng tôi cũng lưu ý rằng, trong Novelty Search (tạm dịch là Tìm kiếm Sự mới lạ) (8) 24, cũng tồn tại định nghĩa về sự khác nhau giữa các tác tử trong không gian hành vi, ví dụ như là khoảng cách Euclid giữa hai vectors khác nhau được dùng để tính khoảng cách trong không gian hành vi.
Khi tính được vector đột biến hành động b„„, chúng ta cần thay đổi cá thể gốc được chọn để có thể tạo ra hành động giống với vector đột biến này Tương tự như lai ghép chat lọc, một cơ ché học bắt chước cũng được thực hiện để huấn luyện mạng actor của cá thể được đột biến học theo các hành động trọng vector đột biến hành vi b,, Ham mất mát để huấn luyện cá thể này là:
Tp (Sk) — bm(s;) | +B 2> trong đó s¿ là những trang thái lay được từ bộ nhớ di truyền của cá thể gốc By, 79, là tham số chiến lược của cá thể cần được cập nhật về vector đột biến hành vi bự,.
Ngoài ra, một số hạng hiệu chỉnh (regularization term) cũng được thêm vào như trong Công thức|2.7] để khắc phục tình trạng tiêu biến gradient của hàm kích hoạt tanh được sử dụng trong mạng neural của cá thể Như vậy có thể thấy rằng PhDM hoạt động tương tự như cách DE tạo ra cá thể đột biến (bước 1-4 của Hình|3.2} nhưng được thực hiện trên không gian hành động (kiểu hình) thay vì là không gian tham số chiến lược (kiểu gen).
Phép biến đổi mới này cho phép độ lớn đột biến không còn phụ thuộc hoàn toàn vào các siêu tham số như đột biến Gaussian hoặc đột biến gần mà giá trị của nó một phần sẽ phụ thuộc vào thông tin về khoảng cách giữa các cá thể khác trong quần thể Hình|3.1|cho thây rằng PhDM không quá nhạy với các thay đổi của siêu tham số tỉ lệ F so với độ lớn đột biến ơ của PM Tần suất trạng thái xuất hiện và điểm thưởng
Chương 3 CÁC PHƯƠNG PHÁP ĐỀ XUẤT 33 nhận được của các tác tử đột biến được tạo bởi PM thay đổi khá lớn theo giá trị của ơ; trong hầu hết trường hợp, chiến lược mới được tạo ra có kết quả thấp hơn đáng kể so với cá thể gốc Đối với PhDM, có thể thấy nhìn chung ở hầu hết các trường hợp, các tác tử đột biến được tao ra bởi PhDM có kết quả giống, thậm chí đôi khi tốt hơn, so với cá thể gốc Ngoại trừ khi F = 0.5, sự thay đổi của tần suất trạng thái xuất hiện lớn hơn so với các trường hợp còn lại 0.001 < F < 0.1 Tuy nhiên mức độ biến đổi này tăng khi F tăng thay vì biến đổi một cách thiếu quy tắc như PM, cho thay PhDM có thể dễ dàng điều chỉnh các siêu tham số hơn làm tăng tính ổn định của phương pháp PhDM không những nâng cao tính đa dạng của quản thể (bằng cách tạo ra các giá trị tham số mạng mới) mà còn có thể giảm được khả năng mà hành vi của cá thể bị phá hủy (bằng cách huấn luyện mạng actor bắt chước theo vector đột biến hành vi có khả năng nhận biết thông tin về về phân phối kiểu hình của quần thể) Khi các cá thể trong quần thể hành động giống nhau, vector khác biệt về kiểu hình (7t,(s) — 7„(s)) dần trở nên nhỏ hơn, và các tác tử được đột biến sau đó sẽ kéo theo có hành động giống nhau Chỉ tiết về cách hoạt động của PhDM được trình bày bằng mã giả trong Thuật toán |
_ Thuật giải 5: Phenotypic Differential Mutation(PhDM) ss s—i(i‘—s~s~s—S
1 Dau vào: Chiến lược 7p, và bộ nhớ di truyền By của tác tử cha mẹ p
2 Hai chiến lược (actors) ngẫu nhiên 7r;, ty, Yếu tố chia tỉ lệ F
3 Đầu ra: Chiến lược mới 7r„„ đã duoc đột biến cùng bộ nhớ di truyền By,
5 fori = 1 to #epochs do s | Cập nhật $y để tối thiểu hóa Công thức|3.2|
3.3 Phenotypic Evolutionary Double Actors Regularized
Hình |3.3| cho thay ảnh minh họa của toàn bộ thuật toán Phenotypic Evolutionary Double Actors Regularized Critics (viết tắt là PhEDARC, tạm dịch là DARC kết hợp tính toán tiến hóa kiểu hình) Trong phương pháp mới được dé xuất này, chúng tôi đã tái cầu trúc lại PDERL để kết hợp tính hiệu quả trong lấy mẫu của cơ chế policy
Chương 3 CÁC PHƯƠNG PHÁP ĐỀ XUẤT 34 gradient từ DARC và phép biến đổi ổn định trên không gian hành động PhDM đã được giới thiệu ở phằn|3.2|trước đó.
Về cơ bản quá trình chạy của PhEDARC sẽ diễn ra như sau: Ở mỗi thế hệ, một quân thể các tác tử sẽ phải trải qua các bước của một thuật giải di truyền điển hình. Ban đầu các cá thể sẽ được đưa vào môi trường để tương tác trong một lượt chạy và lưu lại các kinh nghiệm vào bộ nhớ chung và bộ nhớ di truyền của mỗi cá thể Bên cạnh đó mỗi tác tử sẽ được đánh giá điểm thích nghi dựa trên tổng điểm thưởng mỗi cá thể thu thập được ở lần tương tác môi trường trước đó Thông qua đó ta sẽ thực hiện chọn các cá thể cha mẹ tiềm năng để thực hiện lai ghép và đột biến nhằm tạo ra các cá thé con, thay thé các cá thể không phù hợp (độ thích nghi kém hơn) ở quan thé cũ tạo thành quan thé mới Và cuối cùng thực hiện cập nhật tham số chiến lược của một nửa tác tử trong quần thể bằng công thức policy gradient dựa trên thuật toán DRL như một phép biến đổi để đẩy mạnh hiệu năng của tác tử Ta thực hiện nhiều lần vòng lặp này đến khi gặp điều kiện kết thúc (hết số lượng bước tương tác với môi trường được cho phép) Thuật toán|6|trình bay mã giả của PhEDARC.
Các phần dưới đây sẽ giải thích chỉ tiết hơn về các thành phần trong quy trình của PhEDARC.
Khởi tạo PhEDARC bat đầu với một quan thé P chứa N cá thể tác tử khác nhau, với cá thể thứ i mang theo chiến lược Tp, có tham sO mạng ở; được khởi tạo ngẫu nhiờn cựng với một bộ nhớ di truyền rỗng ệ; Bờn cạnh quan thộ P, hai critics Qạ,, Q¿, cũng được khởi tạo và các target critics Qe, Qo, sao chép lại tham số của các critics gốc 6; và ỉa vào chớnh bộ tham số của ban thõn Chỳng tụi ban dau sẽ để cho mỗi cá thể di chuyển ngẫu nhiên trong môi trường nhằm thu thập một lượng kinh nghiệm nhất định vào khoảng w bước để làm day một phần bộ nhớ di truyền của mỗi cá thể B; và bộ nhớ chung Beloval- Giai đoạn khởi động này đã được áp dụng trong các thuật toán như TD3 [12], DARC [27] nhằm tránh phụ thuộc quá nhiều vào giá trị khởi tạo ban đầu của mạng neural [12].
Chon loc Ở mỗi thé hệ, mỗi cá thể được đánh giá độ thích nghỉ (fitness), được tính là tổng phần thưởng tích lũy cho toàn bộ một lần chạy Trong suốt quá trình đánh giá, các bộ kinh nghiệm được thu lại tại mỗi bước đi trong môi trường và lưu trữ vào bộ nhớ di truyền tương ứng và bộ nhớ chung Trong khi PDERL sử dụng chọn lọc giao đấu (tournament selection) với kích thước giao đấu (số cá thể chọn cho mỗi lần giao đấu) là 3 như trong mã nguồn của tác giả, chúng tôi thực hiện chọn
Chương 3 CÁC PHƯƠNG PHÁP ĐỀ XUẤT 35
HÌNH 3.3: Hình ảnh minh họa cơ chế hoạt động của thuật toán
PhEDARC lọc cắt ngắn (truncation selection) để đơn giản hóa quá trình chọn lọc Đầu tiên, các cá thể trong một quan thể được sắp xếp lại theo điểm thích nghỉ để tạo thành một danh sách xếp hạng với độ thích nghỉ giảm dan (cá thể có điểm thích nghi cao nhất xếp thứ 1) Từ đó, chọn x N cá thé đứng đầu được gọi là elites (tam dịch là cá thể ưu tú), với là tỉ lệ chọn elite Các elites sẽ không bị thay đổi trong suốt quá trình thực hiện các phép biến đổi và cập nhật tham số mạng neural nhằm giữ lại các cá thể có tiềm năng nhất cho thế hệ tiếp theo Sau đó, chúng tôi chia danh sách xếp hạng thành hai nửa bằng nhau: các cá thể của nửa dưới gọi là unselected (tam dich là cá thể không được chọn), sẽ bị thay thế bởi các cá thể con tạo ra bởi lai ghép chất lọc (distillation crossover) bởi các cá thể ở nửa trên danh sách xếp hạng, gọi là selected (tạm dịch là cá thể được chọn).
Lai ghép Trước khi thực hiện lai ghép, chúng ta cần phải chọn được cặp các cá thể cha mẹ tiềm năng sao cho có thể tạo ra cá thể con tốt hơn Như trong PDERL (51, chúng tôi xếp hang tat cả các cặp có thể ghép được từ các cá thé selected dựa trên
Benchmarksđượcsửdung|
HINH 4.1: Hình ảnh các tác vu được sử dụng thực nghiệm Từ trái sang phải: Ant-v2, HalfCheetah-v2, Hopper-v2, Walker2d-v2
Chúng tôi thực hiện các thí nghiệm đánh giá hiệu năng của các thuật toán tìm kiếm chiến lược sử dụng bốn tác vụ điều khiển liên tục của công cụ OpenAI Gym
Chương 4 THUC NGHIEM 41 với bộ giả lập Mujoco được sử dụng phổ biến trong DRL: Ant-v2, HalfCheetah-v2, Hopper-v2 và Walker2d-v2 Các tác vụ này nhìn chung đều yêu cầu chiến lược phải điều khiển tác tử ở nhiều hình dang khác nhau để di chuyển về phía trước xa nhất có thể Các hành động mà tác tử có thể điều khiển bao gồm các mo-men xoắn ở các khớp nối khác nhau trên cơ thể và trạng thái trả về là các vị trí, góc và vận tốc của một số điểm tiếp xúc Tuy nhiên ngoài tác vụ HalfCheetah, các môi trường còn lại đều yêu cầu tác tử phải sống sót, tức là một vài bộ phận trên cơ thể không được chạm đất Khi chạm đất, môi trường sẽ ngay lập tức trả về trạng thái kết thúc, khiến cho chiều dài của mỗi lần chạy là hoàn toàn khác nhau Vì vậy, ở các môi trường này, tác tử sẽ nhận được thêm phan thưởng cho mỗi bước đi vẫn còn sống sót Bảng |4.1| trình bày các thông số quan trọng về số chiều không gian của trạng thái, hành động, độ dài lượt chơi và cách tính phần thưởng nhận được mỗi bước của tác tử cùng cách khởi tạo trạng thái ban đầu mỗi lượt chạy cho mỗi tác vụ.
BANG 4.1: Thông số kỹ thuật của các tác vụ O dòng phần thưởng, các từ viết tắt bao gồm: Forward reward (FR) là phần thưởng khi tác tử tiến lên phía trước, Control cost (CC) là chỉ phí để giúp tác tử điều khiển chính xác và Survival rewarđ (SR) là phần thưởng khi tác tử vẫn còn sống sót.
Thông sô HalfCheeetah-v2 Walker2d-v2 Antv2 Hopper-v2
Phân thưởng FR+CC FR +CC +SR
Trạng thái ban dau | Các chiều trạng thái đều có giá trị 0 cộng thêm nhiễu
Với mỗi tác vụ, khi thực hiện một bước tương tác, tác tử sẽ nhận được một phần thưởng trả về ngay lập tức từ môi trường Mục tiêu của tác tử là đạt được tổng phần thưởng tích lũy được lớn nhất có thể Vì vậy, độ đo được dùng để đánh giá một lần
Chương 4 THUC NGHIEM 42 chạy là tổng phan thưởng thu được từ môi trường,
T t=0 trong đó T là thời điểm kết thúc của một lần chạy va r là ham phan thưởng của môi trường Tuy nhiên, bản thân môi trường mang tính ngẫu nhiên bởi trạng thái bắt đầu thường được khởi tạo ngẫu nhiên nên tổng phần thưởng thu được ở mỗi lần chạy là khác nhau Vì vậy, nhằm giảm bớt sự sai lệch trong đánh giá, trong suốt một lần chạy, chiến lược được huấn luyện (hay cá thể tốt nhất ở quan thể hiện tại trong trường hợp là các thuật toán PDERL và PhEDARC) sẽ được đánh giá định kỳ bằng cách cho chạy chiến lược đó và lấy giá trị trung bình kết quả của 5 lần chạy để lẫy ra số điểm test như trong [5].
Cả PDERI!|| va DARC?| được đánh giá sử dung mã nguồn gốc cung cấp bởi tác giả.
Các cài đặt về giá trị siêu tham số của PDERL, DARC và PhEDARC được liệt kê trong Bảng|4.2|cho mọi tác vụ và Bảng |4.3|cho từng tác vụ khác nhau.
Giống với DARC, chúng tôi cũng thực hiện một giai đoạn khởi động (warm-up) để lap một lượng nhất định các kinh nghiệm ngẫu nhiên thu được khi tương tác vào bộ nhớ chung và tất cả các bộ nhớ đi truyền của các cá thể như đã được đề cấp trước đó Tất cả các cài đặt về siêu tham số của PDERL được giữ lại như trong (5).
Kiến trúc mang neural của tác tử PDERL va DARC được giữ lai giống như trong (5) 27} Đối với PhREDARC, chúng tôi thực hiện một vài su điều chỉnh khi kết hợp khung thuật toán của PDERL với DARC như sau Mạng actors (các tác tử trong quan thể) có cau tạo tương đồng với mang actors của PDERL ngoại trừ kích thước của lớp ẩn đầu tiên và thứ hai lần lượt là 400 và 300 (như mạng actor của DARC). Hai mạng critics sẽ thực hiện tính cả trạng thái và hành động đồng thời qua hai lớp ẩn với kích thước là (400, 300) mà không cần phải layer normalization (như critic của DARC), và sử dụng hàm kích hoạt ELU (như critic của PDERL).
1Mã nguồn của PDERL: https: //github.com/crisbodnar/pderl
?Mã nguồn của DARC: https ://github.com/dmksjf1/DARC
BANG 4.2: Cài dat siêu tham số của ba thuật toán PhEDARC, DARC va
Hyper-parameters PhEDARC DARC PDERL
Kích thước quân thé 10 N/A 10 Kích thước lay mẫu 256 100 256 Kích thước bộ nhớ di truyền 8,000 N/A 8/000
Tốc độ học của actor 1e~3 1e~3 5e>
Tốc độ hoc của critic 1e~3 1e~3 5e4
Kích thước bộ nhớ chung 1,000,000
Tỉ lệ điều chỉnh 5e3 5e3 N/A Tốc độ cập nhật mang target 5e~3
Yếu tố discount 0.99 Thuật toán tối ưu Adam
Với mỗi tác vụ, mỗi thuật toán được chạy 20 lần độc lập với cùng số lượng bước tương tác như trong BỊ: 4,000,000 bước cho Hopper-v2 và 6,000,000 bước cho các tác vụ còn lại Kết quả của mỗi thuật toán bao gồm giá trị trung bình (mean), giá trị trung vị (median) và độ lệch chuẩn (std) của số điểm test trong 20 lần chạy Bởi vì số điểm test chỉ được dùng để đánh giá hiệu năng của thuật toán và không cung cấp bất kỳ thông tin nào giúp thuật toán trong suốt quá trình chạy, nên các lần chạy test sẽ không được tính vào số bước tương tác của mỗi thuật toán Chúng tôi cũng thực hiện kiểm tra dau hang Wilcoxon (Wilcoxon signed rank test) với p < 0.05 dé xác nhận số điểm test nhận được bởi một thuật toán có khác nhau về mat ý nghĩa thống kê so với các thuật toán còn lại hay không.
Các thí nghiệm của PDERL và DARC được thực hiện sử dụng mã nguồn gốc với các cài đặt siêu tham số giống như trong [5}|27] Giá trị siêu tham số của PhEDARC được cài đặt như đã trình bày ở mục
BANG 4.3: Cai đặt tham số của PhEDARC, PDERL va DARC cho mỗi môi trường.
Tham số HalfCheetah-v2 Walker2d-v2 Ant-v2 Hopper-v2
PDERL Độ lớn đột biên 0.1 0.1 0.01 0.1
BẢNG 4.4: So sánh kết quả chạy cuối cùng trên toàn bộ các môi trường.
Mỗi thuật toán được chạy 20 lần độc lập nhau Kết quả tốt nhất ở mỗi tác vụ được in đậm Mỗi ô được tô màu xám chứa kết quả thấp hơn về ý nghĩa thống kê so với kết quả tốt nhất.
Môi trường Độ đo | PhEDARC PDERL DARC
HINH 4.2: So sánh các kết quả thực nghiệm so sánh với baselines trên bốn môi trường OpenAI Gym
4.2.1 Két quả so sánh với baselines
Hình|4.2| và Bảng |4.4|cho thay kết quả của PhEDARC, PDERL và DARC với 20 lần chạy độc lập Hình|4.2|thể hiện kết quả trung bình và phương sai của toàn bộ quá trình huấn luyện Bảng]|4.4|cho thấy kết quả cuối cùng đạt được của các thuật toán trên giá trị trung bình (mean), giá trị trung vị (median) và giá trị phương sai (std).
Chúng tôi lưu ý rằng kết quả thu được của PDERL và DARC được đánh giá trong
Chương 4 THUC NGHIEM 46 khóa luận này khác với kết qua được báo cáo trong bài báo của tác giả vì trong bài báo góc [5||27], ca PDERL và DARC đều được chạy chỉ với 5 seeds ngẫu nhiên khác nhau.
Với 20 lần chạy, PhEDARC đạt được hiệu năng tốt hơn trên tất cả các tác vụ về giá trị trung bình Mặc dù DARC có tốc độ học nhanh hơn so với PhEDARC vào thời điểm ban đầu của quá trình tìm kiếm, thể hiện ở kết quả đường màu đen (DARC) nhinh hơn một ít so với đường màu đỏ (PhEDARC) khoảng 1e6 bước đầu tiên ở một vài môi trường, nhưng kết quả cuối cùng vẫn kém hơn so với PhEDARC Hơn nữa, trên Hopper, quá trình học của DARC dần trở nên bất ổn định và kết quả có xu hướng giảm dan sau khi huấn luyện một thời gian dài Điều này thể hiện rằng tìm kiếm dựa trên quan thể có khả năng khám phá tốt hon và tính ổn định cao hơn là chỉ dùng một cặp actors để thực hiện tìm kiếm như DARC Ngoài ra, chúng tôi nhân mạnh rằng các tác tử của PhEDARC (và cả PDERL) có số lượng tham số ít hơn so với tác tử của DARC Sau khi huấn luyện, tác tử trả về của PhEDARC chỉ đơn giản chứa một mạng actors duy nhất (các critics và các mạng target chỉ sử dụng trong quá trình tìm kiếm để huấn luyện, không ảnh hưởng đến chiến lược được trả về). Tuy nhiên, tác tử trả về của DARC vẫn phải bao gồm hai mạng actors và hai mạng critics đã được huấn luyện để chọn ra hành động tốt nhất có thể khi tương tác với môi trường Vì vậy, PhEADARC sau khi tìm kiếm sẽ trả về tác tử có kết quả cao hơn với độ phức tạp thấp hơn so với thuật toán được so sánh là DARC.
So với DARC, PDERL đạt được số điểm cuối cùng tốt hơn trên các tác vụ HalfChee- tah và Ant, nhưng lại yêu cầu một lượng lớn các bước tương tác với môi trường (khoảng 2e6 bước) để có kết quả vượt qua DARC Trái lại, PhEDARC cho thấy rằng việc kết hợp với DARC đã tăng đáng kể tính hiệu quả lay mẫu của thuật toán PDERL ở trên tat cả các tác vụ được thử nghiệm Hơn nữa, cơ chế đột biến PhDM được sử dụng trong khung thuật toán PhEDARC cũng là một yếu tố quan trọng góp phần vào khả năng khám phá và tính ổn định của PhEDARC Ở môi trường Walker2d và