Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
397 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - PHẠM VĂN TUẤN NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS NGUYỄN BÁ TƯỜNG Phản biện 1: …………………………………… Phản biện 2: …………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tìm kiếm lời giải tối ưu cho tốn thực tiễn vấn đề quan trọng khoa học cơng nghệ nói chung tin học nói riêng Các thuật giải tiến hóa dựa nguyên tắc tự nhiên thực để tìm kiếm lời giải tối ưu, khắc phục nhược điểm kỹ thuật tìm kiếm truyền thống vấn đề tìm kiếm có khơng gian tìm kiếm lớn nhiều ràng buộc phức tạp Thuật giải di truyền thuật giải tìm kiếm dựa trình chọn lọc tự nhiên, di truyền tiến hóa Thuật giải di truyền xem phương pháp tìm kiếm có bước chuyển ngẫu nhiên mang tính tổng quát để giải toán tối ưu hoá Hiện nay, thuật giải di truyền ứng dụng rộng rãi lĩnh vực phức tạp thực tế Việc tiếp cận thuật giải di truyền để giải tốn tìm ngưỡng tối ưu nhằm tăng cường hiệu cho thuật toán phân lớp liệu ứng dụng Do đó, tơi chọn đề tài “Nghiên cứu thuật giải di truyền ứng dụng để phân lớp liệu tập thô dung sai” Cấu trúc luận văn Ngoài phần mở đầu, mục lục, danh mục hình vẽ, danh mục từ viết tắt, kết luận, tài liệu tham khảo, luận văn chia làm phần sau: Chƣơng 1: Tổng quan thuật giải di truyền Trình bày khái niệm thuật giải di truyền, tảng toán học cải tiến nhằm khắc phục hạn chể ứng dụng thuật giải di truyền thực tế Chƣơng 2: Ứ n g d ụ n g thuật giải di truyền nhằm tăng cường hiệu phân lớp liệu tập thơ dung sai Trình bày khái niệm tập thơ, tập thô dung sai, áp dụng thuật giải di truyền xác định ngưỡng tương tự tối ưu nhằm tăng cường hiệu phân lớp liệu tập thô dung sai CHƢƠNG I: TỔNG QUAN VỀ THUẬT GIẢI DI TRUYỀN 1.1 Tổng quan thuật giải di truyền 1.1.1 Nội dung thuật giải di truyền Thuật giải di truyền sử dụng thuật ngữ vay mượn di truyền học Mỗi kiểu (nhóm) gen (ta gọi nhiễm sắc thể) biểu diễn lời giải toán, tiến trình tiến hố thực quần thể nhiễm sắc thể tương ứng với q trình tìm kiếm khơng gian lời giải Thuật giải di truyền trì quần thể lời giải tốn tối ưu hóa Mỗi lời giải gọi cá thể hay nhiễm sắc thể, thường mã hóa dạng chuỗi gen Quần thể tạo cách sử dụng trình chọn lọc, lai ghép đột biến Quá trình chọn lọc chép cá thể có độ phù hợp tốt vào quần thể tạm thời gọi quần thể bố mẹ Các cá thể quần thể bố mẹ ghép đôi cách ngẫu nhiên tiến hành lai ghép tạo cá thể Sau tiến hành trình lai ghép, thuật giải di truyền mơ trình khác tự nhiên trình đột biến, gen cá thể tự thay đổi giá trị với xác xuất nhỏ Như vậy, thuật giải di truyền xuất phát với tập lời giải ban đầu, thông qua nhiều bước trình tiến hố hình thành tập lời giải tốt hơn, cuối tìm lời giải đủ tốt chấp nhận 1.1.2 Các bước việc áp dụng thuật giải di truyền Bước : Chọn tập lời giải ban đầu cho toán Bước : Mã hoá lời giải dạng chuỗi nhị phân Bước : Tìm hàm số thích nghi (hàm phù hợp) cho tốn tính giá trị thích nghi cho lời giải Bước : Dựa giá trị thích nghi lời giải để thực chọn lọc tiến hóa lời giải Các phương pháp tiến hóa gồm lai ghép đột biến Bước : Tính giá trị thích nghi cho lời giải loại bỏ lời giải Bước : Nếu chưa tìm lời giải tối ưu hay chưa hết hạn chu kỳ xác định trở lại Bước để tìm lời giải Bước : Tìm lời giải tối ưu chấp nhận chu kỳ cho phép chấm dứt báo cáo kết tính 1.2 Thuật giải di truyền đơn giản J H Holland sử dụng mã hóa nhị phân để biểu diễn cá thể Mỗi lời giải mã hóa thành chuỗi bít, chuỗi bít sau giải mã để lấy lại giá trị thực giá trị hàm mục tiêu tính theo giá trị thực Quần thể chuỗi ban đầu khởi động ngẫu nhiên sau tiến hóa từ hệ sang hệ khác cách sử dụng ba toán tử : Chọn lọc; Lai tạo;Đột biến 1.2.1 Toán tử chọn lọc (Selection) Chọn lọc việc lựa chọn cá thể để tham gia vào pha q trình tiến hóa 1.2.2 Tốn tử lai ghép (Crossover) Toán tử tác động cá thể cha mẹ để tạo lai tốt gọi lai ghép 1.2.3 Toán tử đột biến (Mutation) Các toán tử đột biến nhằm tạo thông tin quần thể thu sau lai ghép vị trí bít Tóm lại, ba tốn tử nêu tiến hành vòng lặp chuỗi chiếm tồn quần thể 1.2.4 Hàm thích nghi (Fitness) Hàm thích nghi giống hàm đánh giá độ tốt cá thể Nó dùng để so sánh hai cá thể để xét xem cá thể tốt Giá trị thích nghi xác định dựa vào hàm mục tiêu cho trước 1.2.5 Thuật giải SGA Cá thể có giá trị hàm mục tiêu tốt hệ lời giải cuối thuật giải SGA Quần thể khởi tạo cách ngẫu nhiên 1.3 Nền tảng toán học thuật giải di truyền 1.3.1 Khái niệm ký hiệu Nền tảng lý thuyết thuật giải di truyền dựa biểu diễn chuỗi nhị phân lý thuyết lược đồ Một lược đồ chuỗi, dài chuỗi NST, thành phần có thể nhận giá trị tập ký tự biểu diễn gen ký tự đại diện ’*’ 1.3.2 Định lý giản đồ Định lý: Trong thuật giải SGA, số thể giản đồ H hệ t m(H,t) số thể giản đồ H hệ ước lượng sau: mH , t 1 mH , t f H 1 f p H c oH p (1.1) m L 1 Định lý biết đến tảng toán học thuật giải di truyền gọi định lý giản đồ 1.3.3 Giả thuyết khối xây dựng Từ biều thức (1.1), dễ thấy giản đồ bậc nhỏ với độ dài ngắn có giá trị độ phù hợp trung bình lớn giá trị độ phù hợp trung bình tồn quần thể có số thể tăng có vai trị quan trọng thuật giải di truyền Các giản đồ gọi khối xây dựng J.H.Holland đưa giả thuyết khối xây dựng sau: Thuật giải di truyền tối ưu hoá (tối thiểu hoá) hàm mục tiêu việc kết hợp khối xây dựng tạo cá thể dần tốt từ phần tử tốt điểm thăm dò trước 1.4 Các nguyên nhân dẫn đến thất bại trình áp dụng thuật giải di truyền - Những vấn đề dễ nhầm lẫn - Lỗi việc lấy mẫu - Tình trạng phá vỡ lược đồ 1.5 Các cải tiến thuật giải di truyền 1.5.1 Vấn đề tạo quần thể ban đầu 1.5.2 Sử dụng nhiều quần thể 1.5.3 Những cải tiến chiến lược chọn lọc - Ưu tiên cá thể tốt (elitism) - Lấy mẫu tiền định (deterministic sampling) - Lấy mẫu xác suất phần dư thay (remainder stochastic sampling with replacement) - Lấy mẫu xác suất phần dư không thay (remainder stochastic sampling with replacement) - Thủ tục phân hạng (ranking procedure) 1.5.4 Mở rộng toán tử lai ghép - Lai ghép nhiều điểm - Toán tử xếp lại 1.5.5 Cải tiến chiến lược thay - Ứng dụng thuật giải di truyền lĩnh vực sáng tác âm nhạc - Ứng dụng thuật giải di truyền mạng nơron việc thiết kế điều kiển robot - Tích hợp thuật giải di truyền thuật giải huấn luyện mạng nơron truyền thẳng nhiều lớp tốn phân tích, dự báo liệu CHƢƠNG II: ỨNG DỤNG THUẬT GIẢI DI TRUYỀN NHẰM TĂNG CƢỜNG HIỆU QUẢ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI 2.1 Các khái niệm tập thô Xét không gian đối tượng U, P = {p1, p2, pk} phân hoạch U, họ tập 2U U có số tập tập rõ, số cịn lại tập thơ ứng với phân hoạch P Về mặt trực quan tập thô tập đối tượng không phân loại Tập rõ tập phân loại Cho tập U hữu hạn, khác rỗng bất kỳ, U gọi tập đối tượng E = {E1, E2, , Ek} phân hoạch U Trong lý thuyết tập thô nhóm E1, E2, , Ek gọi tập sơ cấp hay tập mô tả Cặp U phân hoạch E tạo nên không gian gọi không gian xấp xỉ hay không gian Pawlak: Vậy Apr=( U, E) không gian hay không gian xấp xỉ Pawlak 2.1.1 Xấp xỉ tập hợp Cho không gian xấp xỉ Apr = (U, E) Giả sử X U Định nghĩa 2.1: Xấp xỉ tập X không gian Apr = (U, E) Xấp xỉ X Apr = (U, E), ký hiệu XE ( X (E) ) hợp nhóm Ei có phần tử chung với X hay XE = X (E) ) = {Ei E : Ei X } Xấp xỉ X Apr = (U, E), ký hiệu XE ( X(E)) hợp nhóm Ei mà Ei tập X hay X E = X(E) = {Ei E: Ei X } 2.1.2 Định nghĩa tập thô, tập rõ theo xấp xỉ Cho không gian xấp xỉ Apr = (U, E); X U Định nghĩa 2.2 Định nghĩa tập thô, tập rõ theo xấp xỉ Tập X 2U gọi thô không gian Apr= ( U, E) ( hay X thô ứng với phân hoạch E ) XE XE Tập X 2U gọi rõ không gian Apr= ( U, E) ( hay X rõ ứng với phân hoạch E ) XE = XE Hoặc Tập X gọi thô Apr = ( U, E) XE < Tập X gọi rõ Apr = ( U, E) XE = 2.1.3 Định nghĩa tập thô, tập rõ theo tập hợp Định nghĩa 2.3 Định nghĩa tập thô, tập rõ theo tập hợp Cho không gian Apr = (U, E ) X 2U tập rõ Apr = ( U, E) X { , E1, E2, , Ek, Ei, U} = RO X 2U tập thô Apr = ( U, E) X THO = 2U \ RO Trong Ei hợp số nhóm Ei 2.1.4 Sự tương đương hai định nghĩa tập thô, tập rõ 2.2 Các phép toán tập hợp tập thơ, tập rõ 2.2.1 Các phép tốn tập hợp tập rõ Bổ đề 2.3 Cho không gian Apr = (U, E); X U X tập rõ X = X = Ei Bổ đề 2.4 Cho không gian Apr = (U, E); X, Y U a Nếu X, Y RO X Y tập rõ b Nếu X, Y RO X Y tập rõ c Nếu X, Y RO X \ Y tập rõ d Nếu X RO - X (phần bù X) tập rõ 2.2.2 Các phép toán tập hợp tập thô Bổ đề 2.5 Cho không gian Apr = (U, E ) X U X tập thô X chứa tập thực (khác rỗng, khác Ei) nhóm Ei Bổ đề 2.6 Cho khơng gian Apr = (U, E); X, Y U a Nếu X, Y THO X Y tập thơ tập rõ b Nếu X, Y THO X Y tập thô tập rõ c Nếu X, Y THO X \ Y tập thơ tập rõ d Nếu X THO - X (phần bù X) tập thô 2.3 Phủ tập thô dung sai 2.3.1 Phủ phân hoạch a Phân hoạch Cho tập đối tượng U = { o1, o2, , om} Họ tập U, P = { p1, , pk} gọi phân hoạch U P thỏa điều kiện: (1) pi với i (2) pi Pj = với i j k (3) U = pi i 1 b Phủ Họ tập C = {C1, C2, ,Ck} U gọi phủ U nếu: (i) Ci k (ii) U= Ci i 1 Như phân hoạch U phủ U 2.3.2 Tập thô theo phủ Định nghĩa 2.5 Tập thô không gian PHU theo xấp xỉ Tập X gọi rõ không gian PHU = (U, C) XC = XC Tập X gọi thô không gian PHU = (U, C) XC XC 2.4 Tập thô dung sai (TRS-Tolerance Rough Set) Cho U= { o1, o2, om}; 2.4.1 Quan hệ tương đương Định nghĩa 2.6 Quan hệ R U U gọi quan hệ tương đương U R thỏa mãn ba điều kiện (*) Phản xạ: o U (o, o) R (**) Đối xứng: o, o’ U (o, o’) R (o’, o) R (***) Bắc cầu: o, o’, o’’ U (o, o’) R & (o’, o’’) R (o, o’’) R 2.4.2 Quan hệ dung sai ( TR-Tolerance Relation) Định nghĩa 2.7 Quan hệ R U U gọi quan hệ dung sai U R thỏa mãn hai điều kiện (*) Phản xạ: o U (o, o) R (**) Đối xứng: o, o’ U (o, o’) R (o’, o) R Như quan hệ tương đương quan hệ dung sai 2.5 Đo độ tƣơng tự hai đối tƣợng Định nghĩa 2.7 Độ đo tương tự x y thuộc tính a, ký hiệu Sa(x,y), tính cơng thức sau: Sa(x,y) = 1- a( x) a( y ) da Định nghĩa 2.8 Độ đo tương tự x y tập thuộc tính A, ký hiệu SA(x,y), tính công thức sau: S SA(x,y) = aA a ( x, y ) A ; A số phần tử A Ngƣỡng độ tƣơng tự t a aA , t A [0,1] ngưỡng tương ứng người sử dụng chọn trước để giải toán 2.6 Phân lớp liệu tập thơ dung sai 2.6.1 Phân tích thuật giải 2.6.2 Sơ đồ thuật giải Hình 2.2: Sơ đồ mô tả phƣơng pháp phân lớp giai đoạn dựa vào tập thô dung sai 2.6.3 Mô tả thuật giải 2.6.4 Minh họa thuật giải 2.7 Cải tiến thuật giải phân lớp liệu Trong phần này, ta cải tiến thuật giải cách tìm xấp xỉ d(x) thực nhỏ A x 2.8 Áp dụng thuật giải di truyền xác định ngƣỡng tƣơng tự tối ƣu Ta cần giải vấn đề sau : Biểu diễn biến vấn đề Tạo quần thể ban đầu Xác định hàm thích nghi vấn đề, xác định giá trị thích nghi cá thể Thực phương thức tiến hố Mơ tả thuật giải : Khởi tạo : Đọc bảng định ; Định nghĩa độ đo tương tự ; Tạo quần thể ban đầu : Lấy ngưỡng ban đầu khoảng [0,1]; Tính độ thích nghi quần thể ban đầu ; Tiến hành thuật giải di truyền while ( not( điều kiện kết thúc )) { Tạo sinh; Lai ghép; Đột biến; Tính hàm thích nghi quần thể } Xác định giá trị ngưỡng tương tự tối ưu 2.8.1 Đặt vấn đề 2.8.2 Biểu diễn biến 2.8.3 Phát sinh quần thể ban đầu 2.8.4 Hàm thích nghi 2.8.5 Các phương pháp tiến hóa 2.8.5.1 Tạo sinh 2.8.5.2 Lai ghép 2.8.5.3 Đột biến 2.8.6 Mô tả thuật giải 2.8.7 Minh họa thuật giải 2.9 Phân lớp liệu vào thuật giải di truyền tập thô dung sai 2.9.1 Mơ tả thuật giải Đó áp dụng thuật giải di truyền để tìm giá trị ngưỡng tương tự tối ưu, sau sử dụng thuật giải phân lớp gồm giai đoạn để phân lớp liệu Tiến trình mơ tả sau: Bước :Dùng thuật giải di truyền để xác định ngưỡng tương tự tối ưu Bước : Sử dụng thuật giải phân lớp gồm giai đoạn để chia phân lớp liệu Sơ đồ sau mô tả phương pháp phân lớp giai đoạn dựa vào thuật giải di truyền tập thơ dung sai : Hình 2.4 : Sơ đồ mơ tả phƣơng pháp phân lớp giai đoạn dựa vào thuật giải di truyền tập thô dung sai 2.9.2 Nhận xét : Khi sử dụng giá trị ngưỡng tối ưu tìm thuật giải di truyền để làm đầu vào cho thuật giải phân lớp, chưa ta có kết phân lớp tốt theo nghĩa có phân tử không phân lớp Tuy nhiên cách xử lý chọn giá trị lớn cho thành phần ngưỡng tối ưu nhiều lần thực hiên, kết thu thường tốt 2.10 Kết luận Chương áp dụng giải toán tối ưu hoá giá trị ngưỡng tương tự Chương mô tả phương pháp phân lớp giai đoạn dựa vào tập thô dung sai thuật giải di truyền Bằng cách thực nhiều lần chức kết hợp thuật giải di truyền thuật giải phân lớp, số liệu kết thu cho ta nhận xét : giá trị ngưỡng lớn (trong miền xác định) số phần tử khơng phân lớp KẾT LUẬN Luận văn trình bày việc ứng dụng thuật giải di truyền xác định ngưỡng tối ưu nhằm tăng hiệu việc phân lớp liệu tập thô dung sai Để thực công việc này, luận văn tiến hành nghiên cứu vấn đề lý thuyết thuật giải di truyền, thuật giải phân lớp liệu tập thô dung sai vấn đề xác định ngưỡng tương tự tối ưu thuật giải di truyền Các kết luận rút từ luận văn bao gồm điểm sau: - Tiếp cận tập thơ dung sai để giải tốn phân lớp liệu Phân lớp liệu tiến hành theo giai đoạn: Giai đoạn sử dụng công cụ tập xấp xỉ để phân lớp liệu Giai đoạn tiến hành cho mục liệu không phân lớp giai đoạn cách sử dụng tập xấp xỉ hàm thành viên thô - Luận văn đưa cải tiến cho thuật giải phân lớp theo hai giai đoạn nêu - Tiếp cận thuật giải di truyền để giải tốn tìm giá trị ngưỡng tương tự tối ưu nhằm tăng cường hiệu cho thuật giải phân lớp Kết hợp thuật giải di truyền xác định ngưỡng tối ưu để phân lớp liệu tập thô dung sai Các định hướng nghiên cứu - Nghiên cứu tìm hiểu thêm ứng dụng khác thuật giải di truyền, ứng dụng lĩnh vực khai phá liệu - Tiếp tục nghiên cứu cải tiến thuật giải phân lớp liệu, chẳng hạn thay hàm khoảng cách đơn giản thuộc tính hàm thống kê khác - Tìm hiểu thêm phương pháp phân lớp khác, qua đối chiếu so sánh với kết phân lớp đề cập luận văn ... cường hiệu phân lớp liệu tập thô dung sai CHƢƠNG I: TỔNG QUAN VỀ THUẬT GIẢI DI TRUYỀN 1.1 Tổng quan thuật giải di truyền 1.1.1 Nội dung thuật giải di truyền Thuật giải di truyền sử dụng thuật ngữ... cho thuật giải phân lớp Kết hợp thuật giải di truyền xác định ngưỡng tối ưu để phân lớp liệu tập thô dung sai Các định hướng nghiên cứu - Nghiên cứu tìm hiểu thêm ứng dụng khác thuật giải di truyền, ... Đột biến 2.8.6 Mô tả thuật giải 2.8.7 Minh họa thuật giải 2.9 Phân lớp liệu vào thuật giải di truyền tập thô dung sai 2.9.1 Mô tả thuật giải Đó áp dụng thuật giải di truyền để tìm giá trị ngưỡng