1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)

73 131 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 292,73 KB
File đính kèm Luận văn Full.rar (842 KB)

Nội dung

Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)Phương pháp huấn luyện đa tác tử với sự có mặt của tác tử theo dõi (Luận văn thạc sĩ)

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG - VŨ HẢI HIỆU PHƯƠNG PHÁP HUẤN LUYỆN ĐA TÁC TỬ VỚI SỰ MẶT CỦA TÁC TỬ THEO DÕI Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, việc nghiên cứu triển khai ứng dụng công nghệ đa tác tử trở thành hướng trọng tâm ngành Khoa học máy tính Mặc dù công nghệ bắt đầu phát triển mạnh từ năm 90 kỷ XX thể rõ nét tính hiệu tầm ảnh hưởng tích cực ngành khoa học máy tính nói riêng lĩnh vực ứng dụng cơng nghệ thơng tin nói chung Đối với lĩnh vực tự động hóa cơng nghiệp, điều khiển giám sát, phân phối lượng hay game đại, chúng ln thể tính chất phức tạp, bất định mơ hình ln thay đổi xu hướng xây dựng hệ thống theo hướng công nghệ đa tác tử tất yếu Mặt khác thấy rõ ràng máy tính khơng hệ thống hoạt động riêng lẻ nữa, xu hướng điều khiển phân tán vấn đề cốt lõi mà nhà phát triển ứng dụng cần quan tâm tới Lượng cơng việc máy tính đảm nhiệm thay người ngày nhiều, ngày trao quyền cho máy tính nhiều hơn, máy tính định tình quan trọng thay người Để thực tốt công việc thay người, máy tính cần phải thơng minh, linh hoạt mơi trường hoạt động Trong vài năm gần đây, vấn đề máy học nghiên cứu nhiều, cơng trình nghiên cứu mang tính móng cho lĩnh vực liên tục đời từ ứng dụng đưa vào thực tiễn phát triển theo Một vấn đề thuộc lĩnh vực máy học giải pháp huấn luyện tác tử đa tác tử, vấn đề rộng đầy thách thức, vấn đề mang tính lý thuyết sở khơng ngừng bổ sung hồn thiện Trước bước vào môi trường hoạt động thực mình, tác tử cần phải trải qua qua trình huấn luyện hay nói cách khác học cách định để đem lại kết tốt Với mong muốn tìm hiểu cơng nghệ tác tử, tác tử thông minh, tương tác phối hợp hệ đa tác tử đặc biệt phương pháp huấn luyện cho hệ đa tác tử, định chọn đề tài “Phương pháp huấn luyện đa tác tử với mặt tác tử theo dõi” Lịch sử vấn đề Bản chất huấn luyện tác tử đa tác tử nói chung trình cho tác tử hành động môi trường chúng, lấy chuỗi kết quả, kết phân tích, đánh giá cuối bảng lượng giá sinh từ kết Bảng lượng giá mức độ quan trọng hành động tác tử kết q trình huấn luyện giúp tác tử định hành động trạng thái mơi trường hoạt động Một thuật tốn huấn luyện tác tử xem móng cho nhiều nghiên cứu sau thuật tốn huấn luyện đơn tác tử Q-Learning Watkins Dayan xây dựng năm 1992 [18] nhiều thuật tốn khác cải tiến từ Q-Learning mang lại hiệu lớn Ví dụ thuật tốn Nash Q-Learning Junling Hu Michael P Wellman phát triển [11], giải thuật dựa tảng Q-Learning, lý thuyết cân Nash lý thuyết trò chơi, với kết hợp giải thuật cho phép huấn luyện với số lượng tác tử không gian trạng thái tương đối lớn Ở Việt Nam, tiếp cận với công nghệ tác tử số tác giả cho kết đáng ghi nhận kể tác Từ Minh Phương với giải thuật Q-Phân tán [19]; Nguyễn Linh Giang với giải thuật Q- mờ cho hệ đa tác tử [10], kết tác giả đem lại giá trị khoa học đáng kể tảng kết dựa Q-Learning Trong luận văn này, nghiên cứu đơn tác tử, hệ đa tác tử ứng dụng thuật toán Q-Learning truyền thống việc huấn luyện đa tác tử với mặt tác tử theo dõi Các ứng dụng cho thuật toán Q-Learning truyền thống thường ứng dụng cho đơn tác tử trạng thái đích cần đạt tới cố định Trong đề tài này, cố gắng áp dụng Q-Learning cho hệ đa tác tử với trạng thái đích liên tục thay đổi Mục đích đối tượng nghiên cứu 3.1 Mục đích nghiên cứu Thực đề tài này, mục đích luận văn tổng hợp tài liệu công nghệ tác tử cách đầy đủ, khái quát hệ thống Mặt khác, ứng dụng thuật toán huấn luyện tác tử vào số dạng toán khác nhau, cài đặt thử nghiệm đánh giá mức độ hiệu thuật toán QLearning việc huấn luyện đa tác tử 3.2 Đối tượng nghiên cứu Bên cạnh vấn đề tổng quan đơn tác tử hệ đa tác tử, đối tượng nghiên cứu đề tài sâu vào nghiên cứu vấn đề sau: Tác tử thông minh loại kiến trúc tác tử thông minh Tương tác tác tử hệ đa tác tử Các tác tử phối hợp với theo quy tắc hệ đa tác tử Thuật tốn Q-Learning ứng dụng Cấu trúc luận văn Ngoài phần mở đầu kết luận, phần nội dung luận văn gồm chương: Chương 1: Tổng quan tác tử hệ đa tác tử Chương 2: Phối hợp tương tác hệ đa tác tử Chương 3: Phương pháp huấn luyện đa tác tử với mặt tác tử theo dõi cài đặt thử nghiệm CHƯƠNG 1: TỔNG QUAN VỀ TÁC TỬĐA TÁC TỬ 1.1 Tác tử 1.1.1 Định nghĩa tác tử Cho đến nay, nhiều cách định nghĩa tác tử, ý kiến trái chiều nguyên nhân chủ yếu xuất phát từ yêu cầu khác số ứng dụng cụ thể Những mâu thuẫn điều xảy nhiều ngành khoa học máy tính Chính ý kiến đa chiều nhà chuyên môn cho thấy phong phú khả ứng dụng lý thuyết công nghệ phần mềm hướng tác tử Định nghĩa thường sử dụng phát biểu sau: “Tác tử (Agent) hệ thống tính tốn hoạt động tử chủ mơi trường đó, khả cảm nhận tác động vào môi trường” [6] Chúng ta quan tâm đến số điểm quan trọng sau định nghĩa • Vấn đề đầu tiên, tác tử hệ thống tính tốn, hệ thống phần cứng, phần mềm kết hợp phần cứng phần mềm Đối với tác tử phần mềm chương trình máy tính, luồng thực hiệu (Thread), tác tử phần cứng thông thường Robot, thiết bị giám sát giao thông • Vấn đề thứ hai, nói đến tác tử tồn hoạt động môi trường, định nghĩa nhấn mạnh khả cảm nhận tác động lại mơi trường cách trực tiếp làm thay đổi môi trường Tác tử nhận thông tin tử môi trường qua quan cảm nhận tác động lại môi trường qua quan tác động Các tác tử phần cứng quan cảm nhận thường thiết bị cảm biến (cảm biến nhiệt, âm), thiết bị nhận dạng hay đơn camera, quan tác động thường phận học, quang học, âm Đối với tác tử phần mềm mơi trường hoạt động máy tính hay mạng máy tính Việc cảm nhận tác động vào môi trường tác tử thực thơng qua lời gọi hệ thống • Vấn đề thứ ba, tính tự chủ (tự trị) tác tử, thuộc tính quan trọng tác tử, mang tính đặc trưng tác tử Sự tự chủ khả hành động không cần đến can thiệp người dùng hay tác nhân khác Tác tử tự kiểm sốt hành vi suốt trình hoạt động, trước vấn đề sinh mơi trường hoạt động chúng tự đưa định cho hành động Mặt khác tính tự chủ biểu khả học tác tử Như vậy, với đặc điểm tồn hành động tự chủ môi trường tác tử độc lập thực nhiệm vụ thay cho người tử khác [9] Hình 1.1: Kiến trúc chung tác tử 1.1.2 Các đặc điểm khác tác tử Ngoài đặc điểm quan trọng tác tử nhắc tới định nghĩa, tác tử thêm đặc điểm sau: Khả tự học: Là khả thu thập kiến thức từ kinh nghiệm thu lượm được, kết việc tự học phải giúp cho tác tử hành động tốt hơn, hiệu Tính thích ghi: Là khả tồn hoạt động hiệu môi trường thay đổi Khả di chuyển: Là khả di chuyển mã nguồn tác tử từ máy tính sang máy tính khác hay nút mạng sang nút mạng khác đồng thời giữ nguyên trạng thái 1.1.3 Môi trường hoạt động tác tử Tác tử xây dựng để hoạt động mơi trường đó, tính chất, đặc điểm mơi trường mối quan hệ tác tử với mơi trường yếu tố định đến việc nghiên cứu triển khai ứng dụng Hầu hết nghiên cứu khẳng định tác tử mơi trường quan hệ sau: tác tử cảm nhận môi trường, suy luận sau thực hành động tác động vào mơi trường Q trình lặp lại hết vòng đời tác tử Chính gắn bó mật thiết mơi trường tác tử vấn đề phân loại môi trường hoạt động tác tử đặt 1.1.3.1 Môi trường tiếp cận đầy đủ khơng thể tiếp cận đầy đủ Mơi trường gọi tiếp cận đầy đủ tác tử thu thập đầy đủ xác thơng tin trạng thái môi trường thông qua quan cảm nhận Mơi trường tiếp cận đầy đủ môi trường tương đối đơn giản Môi trường tiếp cận đầy đủ môi trường độ phức tạp từ trung bình đến phức tạp, ví dụ: Thế giới thực vật lý, Internet 1.1.3.2 Môi trường xác định không xác định Nếu trạng thái mơi trường hồn tồn xác định trạng thái hành động tác tử thời điểm t mơi trường gọi xác định Như vậy, trước hành động tác tử biết trước kết Đối với trường hợp môi trường không xác định, hành động cho kết khác nhau, trí cho kết khơng mong muốn Với loại mơi trường khơng xác định thường gây khó khăn trọng việc thiết kế tác tử 1.1.3.3 Môi trường phân đoạn khơng phân đoạn Trong mơi trường phân đoạn hoạt động tác tử chia theo thời gian thành đoạn riêng biệt, không phụ thuộc vào Hiệu hành động đoạn phụ thuộc vào đoạn tác tử xét không phụ thuộc vào đoạn khác Môi trường không phân đoạn thường phức tạp tác tử phải quan tâm đến đoạn liên quan tới đoạn xét 1.1.3.4 Môi trường tĩnh động Môi trường động mơi trường thay đổi tác tử suy diễn để lựa chọn chiến lược hành động Mơi trường tĩnh ngược lại, tác tử khơng cần quan tâm đến môi trường giới hạn thời gian trước định cho chiến lược hành động Qua ta thấy việc triển khai ứng dụng môi trường tĩnh thuận lợi môi trường động 1.1.3.5 Môi trường rời rạc liên tục Nếu số lượng cảm nhận hành động tác tử mơi trường hữu hạn ln xác định mơi trường rời rạc Ngược lại trường hợp môi trường liên tục Qua phân loại môi trường thấy với đặc điểm môi trường khác kéo theo yêu cầu thiết kế tác tử khác để đảm bảo hoạt động hiệu xác tác tử Việc xác định mơi trường hoạt động tác tử bước quan trọng bước phải làm trình thiết kế tác tử 1.1.4 Tác tử thơng minh 1.1.4.1 Tác tử thơng minh gì? Tác tử thơng minh tác tử khả hoạt động linh hoạt mềm dẻo để thực nhiệm vụ giao [6] Tính linh hoạt tác tử thể ba đặc điểm sau: - Tính phản xạ: Là khả phản ứng kịp thời với thay đổi mơi trường - Tính chủ động: Tác tử chủ động hành động mình, tự tìm phương án hành động tối ưu nhằm đạt kết tốt - Tính cộng đồng: Là khả tương tác giữu người dùng tác tử khác để lấy thông tin cung cấp thông tin cho đối tác Nếu xét đặc điểm riêng lẻ ba đặc điểm khơng phương pháp lập trình cũ Trong thực tế nhiều hệ thống phần mềm khơng xây dựng theo hướng tác tử mang đặc điểm Tuy nhiên, xây dựng phần mềm tác tử thơng minh cần phải hội đủ đặc điểm 1.1.4.2 Cảm nhận, suy diễn tác động vào môi trường 1.1.4.2.1 Cảm nhận môi trường Việc cảm nhận môi trường giúp cho tác tử biết tình trạng mơi trường diễn nào, từ tác tử đưa định hành động Đối với tác tử phần cứng (Robot) việc cảm nhận môi trường thường camera, thiết bị cảm ứng; tác tử phần mềm việc cảm nhận môi trường thường thông điệp từ hệ điều hành Những thông tin mà tác tử cảm nhận từ môi trường khơng phải tất ích, việc chọn lọc thơng tin u cầu đặt cho chế cảm nhận môi trường tác tử 1.1.4.2.2 Suy diễn (cơ chế định) Quá trình định tác tử mơ tả sau Giả sử thời gian chia thành khoảng rời rạc t0, t1, , tn Tại thời điểm tác tử phải lựa chọn hành động từ tập hữu hạn hành động tác tử Nhờ quan cảm nhận tác tử thu cảm nhận môi trường Giả sử thời điểm t0, t1, tn cảm nhận tác tử môi trường p0, p1, ,pn với pi thuộc P, P tập cảm nhận tác tử Tại thời điểm ti, tất cảm nhận tác tử chuỗi cảm nhận si = < p0, p1, , pi> Giả sử tập hành động tác tử A = {a1, a2, , an} Tại thời điểm ti tác tử chọn hành động A Việc tác tử lựa chọn hành động phụ thuộc vào chuỗi cảm nhận Si thời điểm ti Tác tử suy diễn trước định hành động chia làm nhiều dạng, việc phân chia phụ thuộc vào cách thức cảm nhận hành động tác tử Ta phân loại sau: - Tác tử phản xạ: Là tác tử hành động dựa cảm nhận mà không cần quan tâm đến chuỗi cảm nhận trước đó.Ví dụ phận cảm ứng hệ thống cửa tự động Bộ phận hoạt động dựa nguyên tắc trạng thái môi trường chia làm hai dạng, người khơng người, người cửa tự động mở Nguyên lý hoạt động loại tác tử nằm kiến trúc phản xạ, loại kiến trúc không sử dụng chế suy diễn phức tạp Kiến trúc phản xạ biết đến nhiều kiến trúc gộp (subsumption architecture) Rodney Brooks đề xuất lần năm 1986 Kiến trúc gộp mô tả sau: • Quá trình định tác tử thực dựa tập hàm hành động gọi hành vi thực nhiệm vụ (task accomplishment behaviours) Mỗi hành vi thực chất hàm hành động Mỗi hành vi tổ chức mơđun mục đích thực nhiệm vụ định Trong kiến trúc nguyên Brooks, môđun hành vi cài đặt máy trạng thái hữu hạn Hành vi tác tử biểu diễn luật quy tắc đơn giản dạng: tình Hành động Mỗi luật ánh xạ từ trạng thái cảm nhận thành hành động Vì chế định tác tử nhiều môđun hành vi gộp lại nên kiến trúc tên kiến trúc gộp ... tử đặc biệt phương pháp huấn luyện cho hệ đa tác tử, định chọn đề tài Phương pháp huấn luyện đa tác tử với có mặt tác tử theo dõi Lịch sử vấn đề Bản chất huấn luyện tác tử đa tác tử nói chung... dung luận văn gồm có chương: Chương 1: Tổng quan tác tử hệ đa tác tử Chương 2: Phối hợp tương tác hệ đa tác tử Chương 3: Phương pháp huấn luyện đa tác tử với có mặt tác tử theo dõi cài đặt thử... Q-Learning Trong luận văn này, nghiên cứu đơn tác tử, hệ đa tác tử ứng dụng thuật toán Q-Learning truyền thống việc huấn luyện đa tác tử với có mặt tác tử theo dõi Các ứng dụng cho thuật toán Q-Learning

Ngày đăng: 07/10/2018, 19:49

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w