NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI Tìm kiếm lời giải tối ưu cho các bài toán thực tiễn luôn là vấn đề quan trọng trong khoa học công nghệ nói chung và tin học nói riêng. Các thuật giải tiến hóa dựa trên nguyên tắc những gì tự nhiên đã thực hiện để tìm kiếm lời giải tối ưu, khắc phục được các nhược điểm của các kỹ thuật tìm kiếm truyền thống trong các vấn đề tìm kiếm có không gian tìm kiếm lớn và nhiều ràng buộc phức tạp.
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG PHẠM VĂN TUẤN NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS. NGUYỄN BÁ TƯỜNG Phản biện 1: …………………………………… Phản biện 2: …………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm… Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông MỞ ĐẦU Tìm kiếm lời giải tối ưu cho các bài toán thực tiễn luôn là vấn đề quan trọng trong khoa học công nghệ nói chung và tin học nói riêng. Các thuật giải tiến hóa dựa trên nguyên tắc những gì tự nhiên đã thực hiện để tìm kiếm lời giải tối ưu, khắc phục được các nhược điểm của các kỹ thuật tìm kiếm truyền thống trong các vấn đề tìm kiếm có không gian tìm kiếm lớn và nhiều ràng buộc phức tạp. Thuật giải di truyền là thuật giải tìm kiếm dựa trên quá trình chọn lọc tự nhiên, di truyền và tiến hóa. Thuật giải di truyền được xem như một phương pháp tìm kiếm có bước chuyển ngẫu nhiên mang tính tổng quát để giải các bài toán tối ưu hoá. Hiện nay, thuật giải di truyền được ứng dụng rộng rãi trong các lĩnh vực phức tạp ở thực tế. Việc tiếp cận thuật giải di truyền để giải quyết bài toán tìm ngưỡng tối ưu nhằm tăng cường hiệu quả cho thuật toán phân lớp dữ liệu là một ứng dụng như vậy. Do đó, tôi đã chọn đề tài “Nghiên cứu thuật giải di truyền và ứng dụng để phân lớp dữ liệu bằng tập thô dung sai”. Cấu trúc luận văn Ngoài các phần mở đầu, mục lục, danh mục hình vẽ, danh mục từ viết tắt, kết luận, tài liệu tham khảo, luận văn được chia làm 2 phần như sau: Chƣơng 1: Tổng quan về thuật giải di truyền. Trình bày các khái niệm về thuật giải di truyền, nền tảng toán học cùng các cải tiến nhằm khắc phục hạn chể và ứng dụng của thuật giải di truyền trong thực tế. Chƣơng 2: Ứn g dụ ng thuật giải di truyền nhằm tăng cường hiệu quả phân lớp dữ liệu bằng tập thô dung sai. Trình bày khái niệm về tập thô, tập thô dung sai, áp dụng thuật giải di truyền xác định ngưỡng tương tự tối ưu nhằm tăng cường hiệu quả phân lớp dữ liệu bằng tập thô dung sai. CHƢƠNG I: TỔNG QUAN VỀ THUẬT GIẢI DI TRUYỀN 1.1. Tổng quan thuật giải di truyền 1.1.1. Nội dung thuật giải di truyền Thuật giải di truyền sử dụng các thuật ngữ vay mượn của di truyền học. Mỗi kiểu (nhóm) gen (ta gọi là một nhiễm sắc thể) sẽ biểu diễn một lời giải của bài toán, một tiến trình tiến hoá được thực hiện trên một quần thể các nhiễm sắc thể tương ứng với một quá trình tìm kiếm trong không gian lời giải. Thuật giải di truyền duy trì một quần thể các lời giải có thể của bài toán tối ưu hóa. Mỗi lời giải gọi là một cá thể hay một nhiễm sắc thể, thường được mã hóa dưới dạng một chuỗi các gen. Quần thể mới được tạo ra bằng cách sử dụng các quá trình chọn lọc, lai ghép và đột biến. Quá trình chọn lọc sao chép các cá thể có độ phù hợp tốt vào một quần thể tạm thời được gọi là quần thể bố mẹ. Các cá thể trong quần thể bố mẹ được ghép đôi một cách ngẫu nhiên và tiến hành lai ghép tạo ra các cá thể con. Sau khi tiến hành quá trình lai ghép, thuật giải di truyền mô phỏng một quá trình khác trong tự nhiên là quá trình đột biến, trong đó các gen của các cá thể con tự thay đổi giá trị với một xác xuất nhỏ. Như vậy, thuật giải di truyền xuất phát với tập lời giải ban đầu, thông qua nhiều bước trong quá trình tiến hoá hình thành các tập lời giải mới tốt hơn, và cuối cùng tìm ra lời giải đủ tốt chấp nhận được . 1.1.2. Các bước chính trong việc áp dụng thuật giải di truyền Bước 1 : Chọn tập lời giải ban đầu cho bài toán. Bước 2 : Mã hoá các lời giải dưới dạng các chuỗi nhị phân. Bước 3 : Tìm hàm số thích nghi (hàm phù hợp) cho bài toán và tính giá trị thích nghi cho mỗi lời giải . Bước 4 : Dựa trên giá trị thích nghi của mỗi lời giải để thực hiện chọn lọc và tiến hóa các lời giải. Các phương pháp tiến hóa gồm lai ghép và đột biến. Bước 5 : Tính các giá trị thích nghi cho các lời giải mới và loại bỏ các lời giải kém nhất Bước 6 : Nếu chưa tìm được lời giải tối ưu hay chưa hết hạn chu kỳ xác định thì trở lại Bước 4 để tìm lời giải mới. Bước 7 : Tìm được lời giải tối ưu chấp nhận được hoặc nếu chu kỳ cho phép đã chấm dứt thì báo cáo kết quả tính được. 1.2. Thuật giải di truyền đơn giản J. H. Holland sử dụng mã hóa nhị phân để biểu diễn các cá thể. Mỗi lời giải được mã hóa thành một chuỗi bít, mỗi chuỗi bít sau đó được giải mã để lấy lại giá trị thực và giá trị hàm mục tiêu được tính theo giá trị thực này. Quần thể chuỗi ban đầu được khởi động ngẫu nhiên và sau đó được tiến hóa từ thế hệ này sang thế hệ khác bằng cách sử dụng ba toán tử : Chọn lọc; Lai tạo;Đột biến 1.2.1. Toán tử chọn lọc (Selection) Chọn lọc là việc lựa chọn các cá thể để tham gia vào các pha tiếp theo của quá trình tiến hóa 1.2.2. Toán tử lai ghép (Crossover) Toán tử tác động trên các cá thể cha và mẹ để tạo ra các con lai tốt được gọi là lai ghép. 1.2.3. Toán tử đột biến (Mutation) Các toán tử đột biến nhằm tạo ra các thông tin mới trong quần thể thu được sau khi lai ghép tại các vị trí bít nào đó. Tóm lại, ba toán tử nêu trên được tiến hành trong một vòng lặp cho đến khi các chuỗi con chiếm toàn bộ quần thể mới. 1.2.4. Hàm thích nghi (Fitness) Hàm thích nghi giống như là một hàm đánh giá độ tốt của cá thể. Nó dùng để so sánh giữa hai cá thể để xét xem cá thể nào tốt hơn. Giá trị thích nghi được xác định dựa vào một hàm mục tiêu cho trước. 1.2.5. Thuật giải SGA Cá thể có giá trị hàm mục tiêu tốt nhất của mọi thế hệ là lời giải cuối cùng của thuật giải SGA. Quần thể đầu tiên được khởi tạo một cách ngẫu nhiên. 1.3. Nền tảng toán học của thuật giải di truyền 1.3.1. Khái niệm và ký hiệu Nền tảng lý thuyết của thuật giải di truyền dựa trên biểu diễn chuỗi nhị phân và lý thuyết lược đồ. Một lược đồ là một chuỗi, dài bằng chuỗi NST, các thành phần của nó có thể có thể nhận một trong các giá trị trong tập ký tự biểu diễn gen hoặc một ký tự đại diện ’*’. 1.3.2. Định lý giản đồ Định lý: Trong thuật giải SGA, nếu số thể hiện của giản đồ H tại thế hệ t là m(H,t) thì số thể hiện của giản đồ H tại thế hệ tiếp theo được ước lượng như sau: pp mc Ho L H f Hf tHmtHm . 1 1.,1, (1.1) Định lý này được biết đến như nền tảng toán học của thuật giải di truyền và được gọi là định lý giản đồ. 1.3.3. Giả thuyết về khối xây dựng Từ biều thức (1.1), dễ thấy các giản đồ bậc nhỏ với độ dài ngắn và có giá trị độ phù hợp trung bình lớn hơn giá trị độ phù hợp trung bình của toàn quần thể sẽ có số thể hiện tăng và có vai trò quan trọng trong thuật giải di truyền. Các giản đồ như vậy được gọi là các khối xây dựng. J.H.Holland đã đưa ra giả thuyết về khối xây dựng như sau: Thuật giải di truyền tối ưu hoá (tối thiểu hoá) hàm mục tiêu bằng việc kết hợp các khối xây dựng tạo ra các cá thể dần tốt hơn từ các phần tử tốt nhất của các điểm đã thăm dò trước đấy. 1.4. Các nguyên nhân dẫn đến thất bại trong quá trình áp dụng các thuật giải di truyền. - Những vấn đề dễ nhầm lẫn - Lỗi trong việc lấy mẫu - Tình trạng phá vỡ lược đồ 1.5. Các cải tiến của thuật giải di truyền 1.5.1. Vấn đề tạo ra quần thể ban đầu 1.5.2. Sử dụng nhiều quần thể con 1.5.3. Những cải tiến trong chiến lược chọn lọc - Ưu tiên cá thể tốt (elitism) - Lấy mẫu tiền định (deterministic sampling) - Lấy mẫu xác suất phần dư và thay thế (remainder stochastic sampling with replacement) - Lấy mẫu xác suất phần dư và không thay thế (remainder stochastic sampling with replacement) - Thủ tục phân hạng (ranking procedure) 1.5.4. Mở rộng toán tử lai ghép - Lai ghép nhiều điểm - Toán tử xếp lại 1.5.5. Cải tiến chiến lược thay thế [...]... 2.9 Phân lớp dữ liệu vào thuật giải di truyền và tập thô dung sai 2.9.1 Mô tả thuật giải Đó là sự áp dụng thuật giải di truyền để tìm giá trị ngưỡng tương tự tối ưu, sau đó sử dụng thuật giải phân lớp gồm 2 giai đoạn để phân lớp dữ liệu Tiến trình mô tả như sau: Bước 1 :Dùng thuật giải di truyền để xác định ngưỡng tương tự tối ưu Bước 2 : Sử dụng thuật giải phân lớp gồm 2 giai đoạn để chia phân lớp dữ. .. tối ưu - Ứng dụng thuật giải di truyền trong lĩnh vực sáng tác âm nhạc - Ứng dụng của thuật giải di truyền và mạng nơron trong việc thiết kế và điều kiển robot - Tích hợp thuật giải di truyền và thuật giải huấn luyện mạng nơron truyền thẳng nhiều lớp trong bài toán phân tích, dự báo dữ liệu CHƢƠNG II: ỨNG DỤNG THUẬT GIẢI DI TRUYỀN NHẰM TĂNG CƢỜNG HIỆU QUẢ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI 2.1 Các... dữ liệu Sơ đồ sau mô tả phương pháp phân lớp 2 giai đoạn dựa vào thuật giải di truyền và tập thô dung sai : Hình 2.4 : Sơ đồ mô tả phƣơng pháp phân lớp 2 giai đoạn dựa vào thuật giải di truyền và tập thô dung sai 2.9.2 Nhận xét : Khi sử dụng giá trị ngưỡng tối ưu tìm được bằng thuật giải di truyền để làm đầu vào cho thuật giải phân lớp, chưa chắc ta đã có kết quả phân lớp tốt theo nghĩa có ít phân. .. cứu các vấn đề lý thuyết về thuật giải di truyền, thuật giải phân lớp dữ liệu trên tập thô dung sai và vấn đề xác định ngưỡng tương tự tối ưu của thuật giải di truyền Các kết luận được rút ra từ luận văn bao gồm các điểm như sau: - Tiếp cận tập thô dung sai để giải quyết bài toán phân lớp dữ liệu Phân lớp dữ liệu được tiến hành theo 2 giai đoạn: Giai đoạn 1 sử dụng công cụ tập xấp xỉ dưới để phân lớp. .. là các ngưỡng tương ứng do người sử dụng chọn trước để giải quyết bài toán 2.6 Phân lớp dữ liệu bằng tập thô dung sai 2.6.1 Phân tích thuật giải 2.6.2 Sơ đồ thuật giải Hình 2.2: Sơ đồ mô tả phƣơng pháp phân lớp 2 giai đoạn dựa vào tập thô dung sai 2.6.3 Mô tả thuật giải 2.6.4 Minh họa thuật giải 2.7 Cải tiến thuật giải phân lớp dữ liệu Trong phần này, ta cải tiến thuật giải 1 bằng cách tìm một xấp... tối ưu để phân lớp dữ liệu bằng tập thô dung sai Các định hướng nghiên cứu tiếp theo - Nghiên cứu và tìm hiểu thêm các ứng dụng khác của thuật giải di truyền, nhất là các ứng dụng trong lĩnh vực khai phá dữ liệu - Tiếp tục nghiên cứu cải tiến thuật giải phân lớp dữ liệu, chẳng hạn thay hàm khoảng cách đơn giản giữa các thuộc tính bằng các hàm thống kê khác - Tìm hiểu thêm các phương pháp phân lớp khác,... thuật giải di truyền lai Thuật giải SGA, mặc dù mạnh và hiệu quả, nói chung không phải là thuật giải tìm kiếm tối ưu tốt nhất trong một số lĩnh vực Lai hóa thuật giải SGA với các thuật giải truyền thống đang sử dụng sẽ có thể tạo ra những thuật giải tốt hơn so với cả thuật giải SGA và thuật giải truyền thống 1.6 Các ứng dụng của thuật giải di truyền - Đầu tiên phải kể đến là các bài toán tối ưu - Ứng. .. lớp dữ liệu Giai đoạn 2 được tiến hành cho các mục dữ liệu không phân lớp được trong giai đoạn 1 bằng cách sử dụng tập xấp xỉ trên và hàm thành viên thô - Luận văn đưa ra một cải tiến cho thuật giải phân lớp theo hai giai đoạn nêu trên - Tiếp cận thuật giải di truyền để giải quyết bài toán tìm giá trị ngưỡng tương tự tối ưu nhằm tăng cường hiệu quả cho thuật giải phân lớp Kết hợp thuật giải di truyền. .. hợp thuật giải di truyền và thuật giải phân lớp, các số liệu kết quả thu được cho ta một nhận xét : nếu giá trị ngưỡng càng lớn (trong miền đã xác định) thì số phần tử không phân lớp được càng ít đi KẾT LUẬN Luận văn trình bày việc ứng dụng thuật giải di truyền xác định ngưỡng tối ưu nhằm tăng hiệu quả của việc phân lớp dữ liệu bằng tập thô dung sai Để thực hiện công việc này, luận văn tiến hành nghiên. .. 2.1 Các khái niệm về tập thô Xét một không gian các đối tượng U, P = {p1, p2, pk} là một phân hoạch của U, khi đó trong họ các tập con 2U của U sẽ có một số tập là những tập rõ, số còn lại là những tập thô ứng với phân hoạch P Về mặt trực quan tập thô là tập những đối tượng không phân loại được Tập rõ là những tập phân loại được Cho tập U hữu hạn, khác rỗng bất kỳ, U được gọi là tập các đối tượng E . Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn được hoàn thành