Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
1,21 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNGLỜI NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG CAM ĐOAN Sau trình học tập Trƣờng Đại học công nghệ thông tin & truyền thông, với kiến thức lý thuyết thực hành tích lũy đƣợc, với việc vận dụng kiến thức vào thực tế, em tự nghiên cứu tài liệu, công trình nghiên cứu, đồng thời có phân tích, VŨ tổng hợp, đúc kết phát triển để hoàn thành TRẦN MINH luận văn thạc sĩ Em xin cam đoan luận văn công trình thân em tự tìm hiểu, nghiên cứu hoàn thành dƣới hƣớng dẫn thầy giáo TS Vũ Vinh Quang THUẬT TOÁN DI TRUYỀN VÀtháng MỘT SỐ Thái Nguyên, năm 2012 Sinh viên ỨNG DỤNG VỚI LỚP CÁC BÀI TOÁN NP LUẬN VĂN THẠC SỸ CÔNG NGHỆ TrầnTHÔNG Vũ Minh TIN Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60.48.01 Ngƣời hƣớng dẫn khoa học: TS Vũ Vinh Quang Thái Nguyên - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Trong thời gian hai năm chƣơng trình đào tạo thạc sỹ, gần nửa thời gian dành cho môn học, thời gian lại dành cho việc lựa chọn đề tài, giáo viên hƣớng dẫn, tập trung vào nghiên cứu, viết, chỉnh sửa hoàn thiện đề tài Với quỹ thời gian nhƣ với vị trí công việc phải đảm nhận, không riêng thân em mà hầu hết sinh viên cao học muốn hoàn thành tốt luận văn trƣớc hết phải có xếp thời gian hợp lý, có tập trung học tập nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình; tiếp đến cần có ủng hộ tinh thần, giúp đỡ chuyên môn điều kiện thiếu định đến việc thành công đề tài Để hoàn thành đƣợc đề tài trƣớc tiên em xin gửi lời cảm ơn đến thầy giáo hƣớng dẫn TS Vũ Vinh Quang, ngƣời có định hƣớng cho em nội dung hƣớng phát triển đề tài, ngƣời có đóng góp quý báu cho em vấn đề chuyên môn đề tài, giúp em tháo gỡ kịp thời vƣớng mắc trình làm luận văn Em xin cám ơn thầy cô giáo Trƣờng Đại học Công nghệ thông tin Truyền thông nhƣ bạn bè lớp có ý kiến đóng góp bổ sung cho đề tài luận văn em Xin cảm ơn gia đình, ngƣời thân nhƣ đồng nghiệp quan tâm, ủng hộ hỗ trợ mặt tinh thần suốt thời gian từ nhận đề tài đến hoàn thiện đề tài Em xin hứa cố gắng nữa, tự trau dồi thân, tích cực nâng cao lực chuyên môn để sau hoàn thành đề tài có hƣớng tập trung nghiên cứu sâu hơn, không ngừng hoàn thiện đề tài để có ứng dụng thực tiễn cao thực tế Thái Nguyên, tháng năm 2012 Sinh viên Trần Vũ Minh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Lời cam đoan .i Lời cảm ơn ii Mục lục iii Danh mục ký hiệu, chữ viết tắt vi Danh mục bảng vii Danh mục hình viii LỜI MỞ ĐẦU .1 CHƢƠNG GIẢI THUẬT DI TRUYỀN .3 1.1 Giới thiệu GA 1.2 Các khái niệm 1.2.1 Cá thể, nhiễm sắc thể 1.2.2 Quần thể 1.2.3 Chọn lọc (Selection) .4 1.2.4 Lai ghép (Cross-over) 1.2.5 Đột biến (Mutation) .5 1.3 Mô hình GA 1.4 Các tham số GA 1.4.1 Kích thƣớc quần thể .7 1.4.2 Xác suất lai ghép 1.4.3 Xác suất đột biến 1.5 Cơ chế thực GA .8 1.5.1 Mã hóa 1.5.2 Khởi tạo quần thể ban đầu 1.5.3 Xác định hàm thích nghi 1.5.4 Cơ chế lựa chọn .10 1.5.5 Các toán tử di truyền 11 1.6 Thuật toán di truyền kinh điển 13 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.6.1 Mã hóa 13 1.6.2 Toán tử chọn lọc 13 1.6.3 Toán tử lai ghép 14 1.6.4 Toán tử đột biến 16 1.6.5 Thuật toán di truyền mã hóa số thực (RCGA) .18 CHƢƠNG 25 CƠ SỞ TOÁN HỌC CỦA GIẢI THUẬT DI TRUYỀN 25 2.1 Định lý sơ đồ Holland 25 2.1.1 Một số khái niệm 25 2.1.2 Định lý sơ đồ (Holland 1975) 26 2.2 Mô hình Markov GA 27 2.2.1 Tính Markov 28 2.2.2 Xích Markov GA 29 2.2.3 Sự hội tụ thuật toán di truyền 29 CHƢƠNG 32 GIẢI THUẬT DI TRUYỀN ĐỐI VỚI MỘT SỐ BÀI TOÁN THUỘC LỚP NP 3.1 Khái niệm lớp toán NP 32 3.2 Thuật toán di truyền với toán TSP .33 3.2.1 Giới thiệu toán 33 3.2.2 Mô tả toán 34 3.2.3 Giải thuật GA toán TSP .36 3.3 Thuật toán GA giải toán TSP 39 3.3.1 Biểu diễn NST 39 3.3.2 Khởi tạo quần thể ban đầu 39 3.3.3 Chọn hàm thích nghi 39 3.3.4 Các toán tử di truyền 39 3.3.5 Toán tử đột biến .39 3.4 Thuật toán di truyền với toán tách từ văn 48 3.4.1 Một số thuật toán tách từ tiếng Việt .50 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.4.2 Công cụ tách từ dùng GA 52 3.4.3 Công cụ Opensource tách từ tiếng việt 59 KẾT LUẬN .67 TÀI LIỆU THAM KHẢO 68 NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN 69 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 70 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT GA – Genetic Algorithm: giải thuật di truyền TSP - Travelling Salesman Problems: toán ngƣời du lịch EC - Evolutionary computation: tính toán tiến hóa EP - Evolutionary Programming: quy hoạch tiến hóa ES - Evolutionary Strategies: chiến lƣợc tiến hóa GP - Genetic Programming: lập trình di truyền CS - Classifier Systems: hệ thống phân loại NST – nhiễm sắc thể Selection: chọn lọc Cross-over: lai ghép Mutation: đột biến Reproduction: sinh sản pop-size: kích cỡ quần thể RCGA: thuật toán di truyền mã hóa số thực BLX-α - Blend Crossover: lai ghép BLX-α CMX - Center of Mass Crossover: lai ghép CMX NP-hard: toán NP khó NP-complete: toán NP đầy đủ WFST - Weighted finit-state Transducer: mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số IGATEC - Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese: Phƣơng pháp tách từ tiếng Việt dựa thống kê từ Internet thuật toán di truyền df - document frequency: tần số tài liệu fitness: độ thích nghi Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG Bảng 1: Các tham số điều khiển hoạt động thuật giải di truyền Bảng Thống kê độ dài từ từ điển Bảng Tham số thực GA Bảng Gói vn.hus.mim, tokenizer gói Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH Hình 1: Sơ đồ mô tả GA Hình 2: Lai ghép CMX Hình 3: Phân bố xjci Hình 4: Toán tử lai ghép SX Hình 5: Sự phân lớp toán Hình 6: Giao diện chương trình TSP Hình 7: Giao diện nhập liệu chương trình TSP Hình 8: Giao diện kết chương trình TSP Hình Biểu diễn cá thể bit 0,1 Hình 10 Thang tỉ lệ phát sinh loại từ Hình 11 Quá trình lai ghép Hình 12 Quá trình đột biến Hình 13 Quá trình sinh sản Hình 14 Quá trình chọn cá thể Hình 15 Giao diện vnToolkit 3.0.0 Hình 16 Kết tách từ Hình 17 Kết thống kê từ Hình 18 Kết gỡ rối tách từ Hình 19 Kết tách câu Hình 20 Kết gán nhãn Hình 21 Bộ dán nhãn sử dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Hiện ngành khoa học máy tính, việc tìm kiếm lời giải tối ƣu cho toán vấn đề đƣợc nhà khoa học đặc biệt quan tâm Mục đích thuật toán tìm kiếm lời giải tìm lời giải tối ƣu cho toán thời gian nhỏ Các thuật toán nhƣ tìm kiếm thông tin, vét cạn (tìm kiếm danh sách, đồ thị ) thuật toán tìm kiếm có thông tin đƣợc sử dụng nhiều không gian tìm kiếm nhỏ Đối với không gian tìm kiếm lớn, việc tìm kiếm lời giải tối ƣu cho toán gặp nhiều khó khăn Do đó, cần thiết phải có thuật giải tốt sử dụng kỹ thuật trí tuệ nhân tạo giải toán có không gian tìm kiếm lớn Thuật giải di truyền (Genetic Algorithm GA) kỹ thuật tìm kiếm lời giải tối ƣu đáp ứng đƣợc yêu cầu nhiều toán ứng dụng Cùng với logic mờ, GA đƣợc ứng dụng rộng rãi lĩnh vực phức tạp Sự kết hợp GA logic mờ chứng tỏ đƣợc hiệu vấn đề khó mà trƣớc thƣờng đƣợc giải phƣơng pháp thông thƣờng hay phƣơng pháp cổ điển, toán cần có lƣợng giá, đánh giá tối ƣu kết thu đƣợc Chính vậy, GA trở thành đề tài nghiên cứu thu hút đƣợc nhiều quan tâm và đem đến nhiều ứng dụng thực tiễn Xuất phát từ thuyết tiến hóa muôn loài Darwin, GA kỹ thuật chung giúp giải vấn đề toán cách mô tiến hóa ngƣời hay sinh vật nói chung điều kiện đƣợc qui định sẵn môi trƣờng GA thuật giải mục tiêu GA không nhằm đƣa lời giải xác tối ƣu mà đƣa lời giải tƣơng đối tối ƣu John Holland (1975) Goldberg (1989) đề xuất phát triển GA, thuật giải tìm kiếm dựa chế chọn lọc di truyền tự nhiên Thuật giải sử dụng nguyên lý di truyền thích nghi sống cá thể thích nghi tự nhiên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 Ngày nay, GA đƣợc ứng dụng nhiều lĩnh vực nhƣ khoa học, kinh doanh giải trí Đầu tiên phải kể đến toán tối ƣu bao gồm: tối ƣu số tối ƣu tổ hợp; sử dụng GA để tìm lời giải nhƣ toán ngƣời du lịch (Travelling Salesman Problems - TSP) Một ứng dụng khác đƣợc ứng dụng rộng rãi GA giải vấn đề bùng nổ lƣợng thông tin mạng internet bao gồm: thƣ viện điện tử, thông tin điện tử dẫn đến phát sinh số lƣợng lớn văn với tốc độ tăng chóng mặt Vấn đề để tổ chức tìm kiếm lƣợng thông tin lớn nhƣ cách có hiệu quả? GA đƣợc ứng dụng hiệu việc phân loại thông tin phục vụ cho việc tìm kiếm văn Với lý trên, em chọn đề tài: “Thuật toán di truyền số ứng dụng với lớp toán NP” làm luận văn tốt nghiệp Nội dung luận văn gồm chƣơng: Chương trình bày khái niệm bản, mô hình, tham số bản, phép toán, chế thực tổng quát thuật toán di truyền, thuật toán di truyền mã hóa số thực Chương trình bày sở toán học hội tụ thuật toán di tuyền thông qua mô hình Markov định lý sơ đồ Holland Chương trình bày hai nội dung chính: + Giới thiệu toán ngƣời du lịch (Travelling Salesman Problems – TSP) toán thuộc lớp NP phƣơng pháp giải toán thuật toán di truyền + Giới thiệu toán tách từ văn bản, ứng dụng GA toán tách từ văn thông qua công cụ tách từ dùng thuật giải di truyền vnToolkit 3.0 Các kết lý thuyết toán TSP toán tách từ văn đƣợc kiểm nghiệm thông qua chƣơng trình thực nghiệm viết ngôn ngữ C# Java Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 phát sinh ngẫu nhiên Sau khởi tạo xong, quần thể đƣợc tiến hóa qua trình lai ghép, đột biến, sinh sản, Thực tiến hoá + Quá trình lai ghép Áp dụng phƣơng pháp chuẩn lai ghép dựa điểm ngẫu nhiên chuỗi bit cá thể Khi có cặp cá thể bố mẹ, hệ đƣợc tạo dựa kết hợp từ phần bố với phần cuối mẹ ngƣợc lại Tuy nhiên, trình lai ghép, nhận thấy giới hạn từ ghép tối đa tiếng bị phá vỡ, phân đoạn wk có độ dài thực việc chuẩn hóa từ vị trí đến cuối cho từ vƣợt tiếng Thay thực phƣơng pháp bật tắt bit (bit flip), t a thực việc hoán chuyển vị trí hai bit liền vị trí ngẫu nhiên Ý tƣởng thực nhƣ sau Chọn hay nhiều cá thể (NST) quần thể Chọn vị trí ngẫu nhiên Hoán đổi phần NST sau điểm lai với bố mẹ Ví dụ: Điểm lai ghép Crossover point Trƣớc lai ghép Những Bố Mẹ phòng làm việc đại 1 1 0 1 1 0 máy tính 1 Sau lai ghép Con 0 1 1 0 Con 1 1 1 0 Hình 11 Quá trình lai ghép Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Lai ghép nhƣ việc phân định ranh giới từ, ta dễ dàng nhận tiếng kết hợp với tiếng trƣớc không phù hợp kết hợp với từ đứng sau phù hợp hơn, đứng + Quá trình đột biến Tƣơng tự nhƣ phần lai ghép, ta thực chuẩn hoá cá thể sau đột biến thông qua bƣớc: Chọn NST mẹ Chọn vị trí ngẫu nhiên (điểm đột biến) Luân chuyển vị trí bit gần Ví dụ: Các vị trí thực đột biến Vị trí thực đột biến Trƣớc đột biến Những máy tính phòng làm việc đại 1 1 1 1 1 1 1 Sau đột biến Hình 12 Quá trình đột biến + Quá trình sinh sản Sau lai ghép đột biến, kết hợp cá thể bố mẹ với cá thể vừa đƣợc tạo để phục vụ cho bƣớc chọn cá thể Sau kết hợp, lọc bỏ cá thể quần thể, để đạt đƣợc nhiều cách tách từ tốt Ví dụ: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 Hình 13 Quá trình sinh sản + Quá trình chọn lọc Ở hệ, chọn top N cá thể từ trình sinh sản Trƣớc tiên, cá thể đƣợc tính độ thích nghi tổng giá trị MI từ đƣợc tách câu Sau đó, quần thể đƣợc xếp theo giá trị độ thích nghi giảm dần, trình chọn lọc cá thể chọn top N cá thể có độ thích nghi cao để tạo nên quần thể tiếp tục tiến hoá hệ sau Cách thức lựa chọn cá thể nhƣ sau: Trong đó, id = w1w1 w1 cá thể quần thể pop = {id1, id2} Ví dụ: Hình 14 Quá trình chọn cá thể Có thể nói trình quan trọng tiến trình tiến hoá lựa chọn cá thể bƣớc định cá thể tiến hoá có tốt hay không Ở trình chọn lọc cá thể này, ta thử nghiệm số công thức tính độ tƣơng hỗ (Mutual Information) nhƣ trình bày thu đƣợc kết khác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 sử dụng công thức khác Từ ta rút số kết luận nhận xét quan trọng ƣu khuyết điểm công thức MI + Điều kiện hội tụ Quá trình thực GA cố gắng làm tăng độ thích nghi cá thể đồng nghĩa với việc tăng chất lƣợng từ đƣợc tách Ở hệ tiến hoá, số thích nghi quần thể tăng dần đến ngƣỡng gọi độ hội tụ Khi đó, độ chênh lệnh số thích nghi quần thể hai hệ nhỏ dần tiến dần đến Vì vậy, thực việc ngừng GA cách tự động giá trị fitness hệ đạt đến độ hội tụ có số α = 10-7 số hệ đạt đến số lƣợng mặc định trình bày Việc ngừng GA tự động giúp giảm thiểu thời gian chi phí tính toán không cần thiết, đồng thời tăng tốc độ việc tách từ 3.4.3 Công cụ Opensource tách từ tiếng việt Giới thiệu công cụ vnToolkit 3.0.0 VnToolkit phần mềm tích hợp số tiện ích chuyên dụng để xây dựng tài nguyên ngôn ngữ tiếng Việt nói chung, tập văn gán nhãn cú pháp (tiếng Anh: treebank) nói riêng vnToolkit đƣợc xây dựng dƣới dạng ứng dụng có cấu trúc mở, sử dụng Eclipse Rich Client Platform vnToolkit gồm số mô-đun (hay gọi plugin bundle) hoạt động theo chuẩn OSGi vnToolkit đƣợc viết ngôn ngữ lập trình Java Mỗi tiện ích vnToolkit gồm nhiều mô-đun Hiện tại, vnToolkit gồm tiện ích sau: + vnSentenceDetector: Tự động tách câu văn tiếng Việt + vnTokenizer: Tự động tách đơn vị từ văn tiếng Việt + vnTagger: Tự động phân loại từ văn tiếng Việt + vnSynAF: Xây dựng cú pháp tiếng Việt, sử dụng chuột bàn phím hình đồ hoạ Kết đƣợc kết xuất định dạng chuẩn SynAF ngoặc đơn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 Chƣơng trình đƣợc viết ngôn ngữ lập trình Java Để chạy đƣợc chƣơng trình, máy tính cần cài đặt JRE (Java Runtime Enviroment) version trở lên, truy cập vào đƣờng link sau để tải cài đặt vào máy tính sử dụng: http://www.oracle.com/technetwork/java/javase/downloads/jre7-downloads1637588.html a/ Giới thiệu tiện ích vnTokenizer 3.0 – tách từ Phiên vnToolkit 3.0.0 chƣơng trình phát triển phiên 2.5 sở cải tiến nâng cấp tính năng, tối ƣu khả kế thừa mở rộng chƣơng trình cho mục đích xử lý tiếng Việt lâu dài Tách đơn vị từ vựng tự động bƣớc tiền xử lý thiếu hầu hết lĩnh vực xử lý tự động ngôn ngữ tự nhiên Cấu trúc mã nguồn tokenizer Chƣơng trình đƣợc tổ chức thành gói vn.hus.mim, tokenizer với gói con: STT Chức Tên gói vn.hus.mim.tokenizer Gói vn.hus.mim.tokenizer.dfa Mô tả xử lý thao tác ôtômát đơn định, thuật toán đoán nhận với ôtômát vn.hus.mim.tokenizer.graph Mô tả đồ thị cài đặt thuật toán đồ thị chƣơng trình tách từ tự dộng vn.hus.mim.tokenizer.io Quản lý thao tác vàp, tệp vn.hus.mim.tokenizer.pos Mã hoá quản lý thông tin từ loại (part-ofspeech) đơn vị từ vựng vn.hus.mim.tokenizer.tools Cung cấp số công cụ để chuyển đổi chữ hoa, thƣờng tiếng Việt vn.hus.mim.tokenizer.ui Gói giao diện đồ hoạ chƣơng trình Bảng Gói vn.hus.mim, tokenizer gói Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 69 Tách từ văn + Mở tạo tệp văn thực đơn Tệp văn thƣờng có đuôi txt xml Nếu tệp văn có chứa thẻ đánh dấu (tag) thẻ đƣợc tự động đổi màu hệ soạn thảo + Khi văn mở, sử dụng bàn phím chuột để đánh dấu (chọn) đoạn văn cần tách câu Có thể chọn toàn văn phím tắt Ctrl + A + Khi có văn đƣợc chọn, lệnh tách câu Tokenize thực đơn Tokenizer đƣợc tự động kích hoạt Sử dụng lệnh để tách từ phần văn đƣợc chọn; sử dụng phím tách từ công cụ với biểu tƣợng Kết tách từ đƣợc hiển thị khung nhìn Lexers nhƣ hình sau : Hình 15 Kết tách từ Khung nhìn Lexical items chứa bảng từ tách từ phần văn chọn Kết tách từ khung nhìn Lexical items đƣợc ghi tệp văn thực đơn phím tắt công cụ khung nhìn Thống kê từ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 70 Từ khung nhìn Lexer, ta xem thống kê kết tách từ vừa đƣợc thực nút có biểu tƣợng Thống kê đơn giản tần suất từ (sắp thứ tự) Hình 17 Kết thống kê từ Gỡ rối tách từ Debug Tokenization thực đơn Tokenizer nút lệnh công cụ có biểu tƣợng Chƣơng trình mở khung nhìn nhƣ hình sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 71 Hình 18 Kết gỡ rối tách từ Nhập vào câu cần tách từ, ấn phím Enter nút OK Chƣơng trình liệt kê tất phƣơng án tách từ Phƣơng án có khả nhiều phƣơng án đƣợc đánh dấu b/ Giới thiệu tiện ích vnSentenceDetector – tách câu Để tách câu văn bản: + Mở tạo tệp văn thực đơn Tệp văn thƣờng có đuôi txt xml Nếu tệp văn có chứa thẻ đánh dấu (tag) thẻ đƣợc tự động đổi màu hệ soạn thảo + Khi văn mở, sử dụng bàn phím chuột để đánh dấu (chọn) đoạn văn cần tách câu Có thể chọn toàn văn phím tắt Ctrl + A + Khi có văn đƣợc chọn, lệnh tách câu Detect Sentences thực đơn SDetector đƣợc tự động kích hoạt Sử dụng lệnh để tách câu phần văn đƣợc chọn; sử dụng phím tách câu công cụ với biểu tƣợng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 + Kết tách câu đƣợc hiển thị khung nhìn Sentences nhƣ hình sau: Hình 19 Kết tách câu Khung nhìn Sentences chứa bảng các tách từ phần văn chọn Kết tách câu khung nhìn Sentences đƣợc ghi tệp văn thực đơn phím tắt công cụ có biểu tƣợng c/ Giới thiệu tiện ích vnTagger – gán nhãn + Mở tạo tệp văn thực đơn Tệp văn thƣờng có đuôi txt xml Nếu tệp văn có chứa thẻ đánh dấu (tag) thẻ đƣợc tự động đổi màu hệ soạn thảo + Khi văn mở, sử dụng bàn phím chuột để đánh dấu (chọn) đoạn văn cần gán nhãn Có thể chọn toàn văn phím tắt Ctrl + A Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 73 + Khi có văn đƣợc chọn, lệnh gán nhãn Tagger thực đơn Tagging đƣợc tự động kích hoạt Sử dụng lệnh để gán nhãn phần văn đƣợc chọn; sử dụng phím gán nhãn công cụ với biểu tƣợng + Kết gán nhãn đƣợc hiển thị khung nhìn Tagging: Hình 20 Kết gán nhãn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 Hình 21 Bộ dán nhãn sử dụng Bộ nhãn đƣợc sử dụng: N (danh từ), V (động từ), A (tính từ), R (phụ từ) Kết gán nhãn khung nhìn Tagging đƣợc ghi tệp văn thực đơn phím tắt công cụ khung nhìn có biểu tƣợng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 75 KẾT LUẬN Nội dung luận văn trình bày giới thiệu kiến thức giải thuật di truyền, sở toán học giải thuật Trên sở lý thuyết giải thuật di truyền, luận văn đƣa kết áp dụng giải thuật di truyền để nghiên cứu cụ thể số toán thuộc lớp NP gồm có: Nghiên cứu mô hình tổng quát, thiết kế thuật toán di truyền giải toán cài đặt phần mềm ngôn ngữ lập trình C# cho toán ngƣời du lịch (TSP) Tìm hiểu toán tách từ văn phƣơng pháp tách từ dùng giải thuật di truyền đồng thời giới thiệu công cụ tách từ văn vnToolkit 3.0 cài đặt ngôn ngữ Java đƣợc lấy từ trang mã nguồn mở Open source Qua thời gian thực luận văn tốt nghiệp, thân em nâng cao đƣợc khả làm việc, nghiên cứu độc lập nhƣ khả tìm hiểu, dịch, phân tích tổng hợp tài liệu tiếng nƣớc Tuy nhiên khuôn khổ thời gian nghiên cứu không nhiều, nội dung luận văn không tránh khỏi sai sót nội dung nhƣ hình thức, em mong nhận đƣợc ý kiến đóng góp thầy cô giáo, bạn bè để luận văn đƣợc hoàn thiện Hƣớng phát triển thời gian tới đề tài tiếp tục nghiên cứu sâu ứng dụng giải thuật di truyền toán khác lĩnh vực Công nghệ thông tin tối ƣu hóa, xây dựng phần mềm tƣơng ứng áp dụng thực tế Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 76 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng (2002), Kết hợp xử lý ngôn ngữ tự nhiên mạng Kohonen để nâng cao khả gom cụm văn tiếng Việt, nxb KHKT [2] Nguyễn Đình Thức (2000), Lập trình tiến hóa, nxb GDĐT Tiếng Anh [1] Adam Marcryk (2004), Genetic Algorithms and Evolutionary Computation, TalkOrigins Archive [2] Charbonneau, Paul (1995), Genetic algorithms in astronomy and astrophysics, The Astrophysical Jornal Supplement Series, vol 101, pp 309-334 [3] Coley, David A (1999), An introduction to Genetic Algorithms for Scientists and Engineers, Singapore: World Scientific [4] Dinh Dien (2000), Từ tiếng Việt, Vietnam National University, HCMC, Vietnam [5] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), Vietnamese Word Segmentation, The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp 749-756 [6] Eiben, E et al (1994), “Genetic algorithms with multi-parent recombination”, PPSN III: Proceedings of the International Comference on Evolutionary Computation, pp 78-87 [7] R.L Haupt and D Werner (2007), Genetic Algorithms in Electromagnetics, New York: Wiley [8] Ting, Chuan-Kang (2005), On the Mean Convergence Time of Multiparent Genetic Algorithms without Selection, Advances in Artificial Life: 403-412 [9] ZHANG J, Chung H and Lo.W.L (2007), Clustering-Based Adaptive Crossover and Mutation Probabilities for Genetic Algorithms, IEEE Transactions on Evolutionary Computation, vol 11, no 3, pp 326-335 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 77 NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 78 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... hoá hoán vị, mỗi NST là một chuỗi các số biểu di n một thứ tự sắp xếp Mã hoá hoán vị phù hợp cho các bài toán liên quan đến thứ tự Đối với các bài toán này, việc thao tác trên các NST chính là hoán vị các số trong chuỗi đó làm thay đổi thứ tự của nó Mã hoá hoán vị có thể đƣợc sử dụng trong các bài toán liên quan đến thứ tự nhƣ bài toán du lịch hay bài toán lập lịch + Mã hoá số thực Mã hoá trực tiếp... dùng trong các bài toán sử dụng giá trị phức tạp nhƣ trong số thực Trong đó, mỗi NST là một chuỗi các giá trị Các giá trị có thể là bất cứ cái gì liên quan đến bài toán, từ số nguyên, số thực, kí tự cho đến các đối tƣợng phức tạp hơn Mã hoá số thực thƣờng dùng cho các bài toán đặc biệt Trong cách mã hoá này ta thƣờng phải phát triển các toán tử đột biến và lai ghép cho phù hợp với từng bài toán Thông... lƣợng của giải thuật Các toán tử này đƣợc xây dựng phụ thuộc vào cách mã hoá các NST Ở đây chỉ đƣa ra toán tử lai ghép và đột biến trên một số cách mã hoá NST để chỉ ra đƣợc ý tƣởng xây dựng toán tử lai ghép và đột biến trong GA Còn tuỳ thuộc vào các bài toán cụ thể và cách mã hoá NST mà ta xây dựng hai loại toán tử này Toán tử lai ghép + Lai ghép đơn điểm: - Một điểm cắt đƣợc chọn tại một vị trí thứ... thẳng Các điểm chọn này cách nhau điểm đầu tiên đặt ngẫu nhiên trong khoảng [0, 1 , N 1 ] N Bƣớc 3: Với một điểm chọn, NST gần với nó nhất về bên phải sẽ đƣợc chọn Phƣơng pháp này có đặc điểm là các điểm chọn đƣợc phân bố đều trên trục số, do đó sẽ gần với điểm xứng đáng đƣợc chọn 1.5.5 Các toán tử di truyền Các toán tử di truyền của GA là toán tử lai ghép và đột biến Đây là hai toán tử có tác động lớn... Programming - EP): Dựa vào quy luật tiến hoá, tìm phƣơng pháp kết hợp đủ khả năng giải quyết trọn vẹn một bài toán từ một lớp các phƣơng pháp giải quyết đƣợc một số phần của bài toán - Các chiến lƣợc tiến hoá (Evolutionary Strategies - ES): Dựa trên một số chiến lƣợc ban đầu, tiến hoá để tạo ra những chiến lƣợc mới phù hợp với môi trƣờng thực tế một cách tốt nhất - Lập trình di truyền (Genetic Programming... vực các chƣơng trình của máy tính Mục đích của nó là để sinh ra một cách tự động các chƣơng trình máy tính giải quyết một cách tối ƣu một vấn đề cụ thể - Các hệ thống phân loại (Classifier Systems- CS): Các GA đặc biệt đƣợc dùng trong việc học máy và việc phát hiện các quy tắc trong các hệ dựa trên các quy tắc GA cũng nhƣ các thuật toán tiến hoá đều đƣợc hình thành dựa trên một quan niệm đƣợc coi là một. .. trong các bài toán tối ƣu các hàm một biến hay nhiều biến Khi đó, mỗi chuỗi nhị phân sẽ biểu di n hàm tại một tập giá trị của các biến Ngoài ra nó còn đƣợc áp dụng trong nhiều loại bài toán khác Mã hoá nhị phân tuy là phổ biến nhƣng nó có một nhƣợc điểm là có thể tạo ra không gian mã hoá lớn hơn so với không gian giá trị của NST Do đó, với nhiều bài toán thì biểu di n nhị phân là không hữu hiệu Số hóa... hợp các kết quả của quá trình nghiên cứu và phát triển đó Năm 1992, John Koza đã dùng GA để xây dựng các chƣơng trình giải quyết một số bài toán và gọi phƣơng pháp này là “lập trình gen” Ngày nay GA càng trở nên quan trọng, đặc biệt là trong lĩnh vực tối ƣu hoá, một lĩnh vực có nhiều bài toán thú vị, đƣợc ứng dụng nhiều trong thực tiễn nhƣng thƣờng khó và chƣa có giải thuật hiệu quả để giải 1.2 Các. .. hóa là một véc tơ trong không gian Cách mã hóa này thƣờng sử dụng đối với các bài toán tối ƣu số và đƣợc phát triển mạnh trong giai đoạn hiện nay + Mã hóa dạng cây Phƣơng pháp này đƣợc sử dụng trong các biểu thức toán học Mỗi NST là một cây của một nhóm đối tƣợng nào đó 1.5.2 Khởi tạo quần thể ban đầu Khởi tạo quần thể ban đầu là bƣớc đầu tiên trong GA Thông thƣờng để khởi tạo quần thể trong bài toán. .. i i 1 v de j m 2 j j j j trong đó wi và vj là các biến ngẫu nhiên tƣơng ứng với các phân phối chuẩn N (0, 2 ) và N (0, 2 ) Các nhà toán học Kita và Yamamura đã sử dụng thành công với các giá trị 0,35 1 và nm m h/ Lai ghép CMX (Center of Mass Crossover) Giả sử quần thể đang xét là {X1, , XN} Mỗi cá thể là một véc tơ trong Rn Thuật toán được mô tả như sau: 1) Chọn ngẫu nhiên ... hội tụ thuật toán di truyền 29 CHƢƠNG 32 GIẢI THUẬT DI TRUYỀN ĐỐI VỚI MỘT SỐ BÀI TOÁN THUỘC LỚP NP 3.1 Khái niệm lớp toán NP 32 3.2 Thuật toán di truyền với toán TSP... Karp đƣa phân lớp toán nhƣ sau: Lớp toán P: lớp toán giải đƣợc thuật toán đơn định thời gian đa thức Lớp toán NP: lớp toán giải đƣợc thuật toán không đơn định thời gian đa thức lớp toán mà nghiệm... giải thuật GA Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 40 Chƣơng GIẢI THUẬT DI TRUYỀN ĐỐI VỚI MỘT SỐ BÀI TOÁN THUỘC LỚP NP 3.1 Khái niệm lớp toán NP Xét toán