ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG BÀI THU HOẠCH MÔN HỌC PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC TRONG TIN HỌC Đề tài: Nghiên cứu ứng dụng thuật giải di truyền để tìm kiếm thơng tin văn Giảng viên hướng dẫn:GS TSKH HOÀNG KIẾM Học viên thực hiện: Mai Ngọc Tùng MSSV: CH1101055 TP HCM, năm 2012 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Mở đầu Thuật giải di truyền, thuật tốn tiến hoa nói chung, hình thành dựa quan niệm cho rằng, trình tiến hóa tự nhiên hồn hảo nhất, hợp lý nhất, tự mang tính tối ưu Quan niệm xem tiên đề đúng, không chứng minh được, phù hợp với thực tế khách quan Q trình tiến hóa thể tính tối ưu chổ, hệ sau tốt hơn, phát triển hoàn thiện hệ trước Hiện nay, thuật toán di truyền với logic mờ ứng dụng rộng rãi lĩnh vực tương đối phức tạp Thuật toán di truyền kết hợp logic mờ chứng tỏ hiệu vấn đề khó giải phương pháp thông thường hay phương pháp cố điển, tốn cần có lượng giá, đánh giá tối ưu kết thu Chính vậy, thuật giải di truyền (Genetic Algorithm) trở thành đề tài nghiên cứu thú vị mang đến nhiều ứng dụng thực tiễn ngày Trong phạm vi thu hoạch nhỏ này, em trình bày số vấn đề thuật tốn di truyền ứng dụng việc tìm kiếm văn Qua đây, em xin gửi lời cảm ơn đến Giáo sư - Tiến sỹ Khoa Học Hoàng Văn Kiếm, người tận tâm truyền đạt kiến thức tảng cho chúng em môn học “Phương pháp nhiên cứu khoa học tin học” em xin gửi lời cảm ơn đến toàn thể bạn bè học viên lớp Mai Ngọc Tùng – CH1101055 -1- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG MỤC LỤC CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Mở đầu PHẦN I : ỨNG DỤNG THUẬT GIẢI DI TRUYỀN ĐỂ TÌM KIẾM THÔNG TIN TRONG VĂN BẢN I Thuật giải di truyền: I.1 Khái niệm I.2 Động lực I.3 Tính chất quan trọng Giải thuật di truyền (GA): II Sử dụng thuật giải di truyền để tìm kiếm mẫu Văn II.1 Xây dựng hàm tìm kiếm II.2 Xác định mức độ trùng khớp theo thứ tự ký tự mẫu tìm kiếm văn II.3 Đặt vấn đề áp dụng giải thuật di truyền cho tốn tìm kiếm II.4 Cách biểu diễn di truyền cho lời giải toán II.5 Cách khởi tạo quần thể lời giải ban đầu II.6 Xây dựng hàm thích nghi đóng vai trị mơi trường đánh giá lời giải II.7 Sử dụng toán tử lai ghép II.7.1 Toán tử chọn lọc II.7.2 Toán tử lại ghép II.7.3 Toán tử đột biến PHẦN II : Các nguyên tắc sáng tạo sử dụng Thuật toán di truyền PHẦN IV : Demo PHẦN V : Nguồn tham khảo I http://tailieu.vn/tim-kiem/tai-lieu/mang%20noron.html II vi.wikipedia.org/wiki/Giải_thuật_di_truyền III portal.uct.edu.vn IV http://www.igi.tugraz.a Mai Ngọc Tùng – CH1101055 -2- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG PHẦN I : ỨNG DỤNG THUẬT GIẢI DI TRUYỀN ĐỂ TÌM KIẾM THƠNG TIN TRONG VĂN BẢN I Thuật giải di truyền: 1) Khái niệm Thuật giải di truyền cung cấp cách tiếp cận cho việc học dựa vào mô tiến hóa Các giả thuyết thường mơ tả chuỗi bit, việc hiểu chuỗi bit tùy thuộc vào ứng dụng, ý tưởng giả thuyết mơ tả biểu thức kí hiệu chương trình máy tính Tìm kiếm giả thuyết thích hợp bắt đầu với quần thể, hay tập hợp có chọn lọc ban đầu giả thuyết Các cá thể quần thể khởi nguồn cho quần thể hệ hoạt động lai ghép đột biến ngẫu nhiên – lấy mẫu sau trình tiến hóa sinh học Ở bước, giả thuyết quần thể ước lượng liên hệ với đại lượng thích nghi cho, với giả thuyết phù hợp chọn theo xác suất hạt giống cho việc sản sinh hệ Thuật giải di truyền ứng dụng cách thành công cho tác vụ học khác cho vấn đề tối ưu hóa khác Ví dụ, chúng dùng để học tập luật điều khiển robot để tối ưu hóa thơng số học tôpô cho mạng nơron nhân tạo 2) Động lực Thuật giải di truyền cung cấp phương pháp học thúc đẩy tương tự với tiến hóa sinh học Thay tìm kiếm giả thuyết từ tổng quát đến cụ thể từ đơn giản đến phức tạp, GAs tạo giả thuyết cách lặp việc đột biến việc tái hợp phần giả thuyết biết tốt Ở bước, tập giả thuyết gọi quần thể cập nhật cách thay vài phần nhỏ quần thể cá thể giả thuyết tốt thời điểm Sự phổ biến GAs thúc đẩy yếu tố sau: Tiến hóa phương pháp mạnh, thành cơng cho thích nghi bên hệ thống sinh học GA tìm kiếm khơng gian giả thuyết có phần tương tác phức tạp, ảnh hưởng phần lên tồn thể độ thích nghi giả thuyết khó mơ hình Thuật giải GA thực song song tận dụng thành tựu phần cứng máy tính mạnh Mai Ngọc Tùng – CH1101055 -3- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 3) Tính chất quan trọng Giải thuật di truyền (GA): GA lập luận có tính chất ngẫu nhiên để tìm giải pháp tối ưu cho vấn đề phức tạp Tuy nhiên, hình thức ngẫu nhiên có hướng dẫn giá trị hàm thích nghi - Vấn đề thích hợp cho GA tìm điều kiện tối ưu Tối ưu khơng thiết tuyệt đối, mà tương đối hoàn cảnh thời gian cho phép - Một bước quan trọng khó khăn tìm hàm thích nghi Hàm thích nghi cần phải có liên hệ trực tiếp đến vấn đề cần giái - GA Mạng Nơron nhân tạo đề thuộc vào nhóm khoa học trí tuệ nhân tạo, nhiên GA lập luận dựa vào tiến hóa xét vấn đề mức độ gen nhiễm sắc thể, khác với mạng Nơron nhân tạo dựa vào kinh nghiệm cách giải vấn đề mà óc người thường dùng Sự khác biệt giải thuật di truyền so với giải thuật khác đặc điểm sau: - GA làm việc với mã hóa thơng số khơng phải thân thơng số - GA tìm kiếm từ số điểm quần thể điểm - GA sử dụng thông tin hàm mục tiêu đạo hàm hay tri thức phụ khác - GA sử dụng luật chuyển đổi theo xác suất luật chuyển đổi tiền định II Sử dụng thuật giải di truyền để tìm kiếm mẫu Văn Hiện nay, tốn tìm kiếm người quan tâm đến nội dung có liên quan đến mẫu tìm kiếm có chứa phần mẫu tìm kiếm Theo dó, vấn đề đặt tìm tồn văn V (độ dài N) vị trí xuất (các) đoạn văn gần giống với văn mẫu Vm (độ dài M) 1) Xây dựng hàm tìm kiếm Hàm tìm kiếm xây dựng liên kết hai đại lượng: + Độ dài xâu chung dài văn (độ dài N) mẫu tìm kiếm (độ dài M) (G(x)) + Độ dài trùng khớp giá trị vị trí đoạn văn mẫu (H(x)) Xâu chung dài dãy ký tự dài theo thứ tự giống hai xâu (không yêu cầu tính liền mạch) Để tìm xâu chung dài nhất, thuật toán hiệu dung quy hoạch động có độ phức tạp O(M 2) Thực tế, độ dài M cùa mẫu tìm kiếm thường khơng lớn hồn tồn chấp nhận độ phức tạp Hàm tìm kiếm có dạng sau: F(x) = a*G(x) + b*H(x) ,