Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
1,3 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNGLỜI NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG CAM ĐOAN Sau trình học tập Trƣờng Đại học cơng nghệ thơng tin & truyền thông, với kiến thức lý thuyết thực hành tích lũy đƣợc, với việc vận dụng kiến thức vào thực tế, em tự nghiên cứu tài liệu, cơng trình nghiên cứu, đồng thời có phân tích, VŨ tổng hợp, đúc kết phát triển để hoàn thành TRẦN MINH luận văn thạc sĩ Em xin cam đoan luận văn cơng trình thân em tự tìm hiểu, nghiên cứu hồn thành dƣới hƣớng dẫn thầy giáo TS Vũ Vinh Quang THUẬT TOÁN DI TRUYỀN VÀtháng MỘT SỐ Thái Nguyên, năm 2012 Sinh viên ỨNG DỤNG VỚI LỚP CÁC BÀI TOÁN NP LUẬN VĂN THẠC SỸ CÔNG NGHỆ TrầnTHÔNG Vũ Minh TIN Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60.48.01 Ngƣời hƣớng dẫn khoa học: TS Vũ Vinh Quang Thái Nguyên - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Trong thời gian hai năm chƣơng trình đào tạo thạc sỹ, gần nửa thời gian dành cho mơn học, thời gian cịn lại dành cho việc lựa chọn đề tài, giáo viên hƣớng dẫn, tập trung vào nghiên cứu, viết, chỉnh sửa hoàn thiện đề tài Với quỹ thời gian nhƣ với vị trí cơng việc phải đảm nhận, khơng riêng thân em mà hầu hết sinh viên cao học muốn hồn thành tốt luận văn trƣớc hết phải có xếp thời gian hợp lý, có tập trung học tập nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình; tiếp đến cần có ủng hộ tinh thần, giúp đỡ chuyên môn điều kiện thiếu định đến việc thành công đề tài Để hoàn thành đƣợc đề tài trƣớc tiên em xin gửi lời cảm ơn đến thầy giáo hƣớng dẫn TS Vũ Vinh Quang, ngƣời có định hƣớng cho em nội dung hƣớng phát triển đề tài, ngƣời có đóng góp quý báu cho em vấn đề chuyên môn đề tài, giúp em tháo gỡ kịp thời vƣớng mắc trình làm luận văn Em xin cám ơn thầy cô giáo Trƣờng Đại học Công nghệ thông tin Truyền thông nhƣ bạn bè lớp có ý kiến đóng góp bổ sung cho đề tài luận văn em Xin cảm ơn gia đình, ngƣời thân nhƣ đồng nghiệp quan tâm, ủng hộ hỗ trợ mặt tinh thần suốt thời gian từ nhận đề tài đến hoàn thiện đề tài Em xin hứa cố gắng nữa, tự trau dồi thân, tích cực nâng cao lực chun mơn để sau hồn thành đề tài có hƣớng tập trung nghiên cứu sâu hơn, khơng ngừng hồn thiện đề tài để có ứng dụng thực tiễn cao thực tế Thái Nguyên, tháng năm 2012 Sinh viên Trần Vũ Minh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Lời cam đoan .i Lời cảm ơn ii Mục lục iii Danh mục ký hiệu, chữ viết tắt vi Danh mục bảng vii Danh mục hình viii LỜI MỞ ĐẦU .1 CHƢƠNG GIẢI THUẬT DI TRUYỀN .3 1.1 Giới thiệu GA 1.2 Các khái niệm 1.2.1 Cá thể, nhiễm sắc thể 1.2.2 Quần thể 1.2.3 Chọn lọc (Selection) .4 1.2.4 Lai ghép (Cross-over) 1.2.5 Đột biến (Mutation) .5 1.3 Mơ hình GA 1.4 Các tham số GA 1.4.1 Kích thƣớc quần thể .7 1.4.2 Xác suất lai ghép 1.4.3 Xác suất đột biến 1.5 Cơ chế thực GA .8 1.5.1 Mã hóa 1.5.2 Khởi tạo quần thể ban đầu 1.5.3 Xác định hàm thích nghi 1.5.4 Cơ chế lựa chọn .10 1.5.5 Các toán tử di truyền 11 1.6 Thuật toán di truyền kinh điển 13 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.6.1 Mã hóa 13 1.6.2 Toán tử chọn lọc 13 1.6.3 Toán tử lai ghép 14 1.6.4 Toán tử đột biến 16 1.6.5 Thuật tốn di truyền mã hóa số thực (RCGA) .18 CHƢƠNG 25 CƠ SỞ TOÁN HỌC CỦA GIẢI THUẬT DI TRUYỀN 25 2.1 Định lý sơ đồ Holland 25 2.1.1 Một số khái niệm 25 2.1.2 Định lý sơ đồ (Holland 1975) 26 2.2 Mơ hình Markov GA 27 2.2.1 Tính Markov 28 2.2.2 Xích Markov GA 29 2.2.3 Sự hội tụ thuật toán di truyền 29 CHƢƠNG 32 GIẢI THUẬT DI TRUYỀN ĐỐI VỚI MỘT SỐ BÀI TOÁN THUỘC LỚP NP 3.1 Khái niệm lớp toán NP 32 3.2 Thuật toán di truyền với toán TSP .33 3.2.1 Giới thiệu toán 33 3.2.2 Mơ tả tốn 34 3.2.3 Giải thuật GA toán TSP .36 3.3 Thuật toán GA giải toán TSP 39 3.3.1 Biểu diễn NST 39 3.3.2 Khởi tạo quần thể ban đầu 39 3.3.3 Chọn hàm thích nghi 39 3.3.4 Các toán tử di truyền 39 3.3.5 Toán tử đột biến .39 3.4 Thuật toán di truyền với toán tách từ văn 48 3.4.1 Một số thuật toán tách từ tiếng Việt .50 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.4.2 Công cụ tách từ dùng GA 52 3.4.3 Công cụ Opensource tách từ tiếng việt 59 KẾT LUẬN .67 TÀI LIỆU THAM KHẢO 68 NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN 69 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 70 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT GA – Genetic Algorithm: giải thuật di truyền TSP - Travelling Salesman Problems: toán ngƣời du lịch EC - Evolutionary computation: tính tốn tiến hóa EP - Evolutionary Programming: quy hoạch tiến hóa ES - Evolutionary Strategies: chiến lƣợc tiến hóa GP - Genetic Programming: lập trình di truyền CS - Classifier Systems: hệ thống phân loại NST – nhiễm sắc thể Selection: chọn lọc Cross-over: lai ghép Mutation: đột biến Reproduction: sinh sản pop-size: kích cỡ quần thể RCGA: thuật tốn di truyền mã hóa số thực BLX-α - Blend Crossover: lai ghép BLX-α CMX - Center of Mass Crossover: lai ghép CMX NP-hard: tốn NP khó NP-complete: tốn NP đầy đủ WFST - Weighted finit-state Transducer: mơ hình mạng chuyển dịch trạng thái hữu hạn có trọng số IGATEC - Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese: Phƣơng pháp tách từ tiếng Việt dựa thống kê từ Internet thuật toán di truyền df - document frequency: tần số tài liệu fitness: độ thích nghi Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG Bảng 1: Các tham số điều khiển hoạt động thuật giải di truyền Bảng Thống kê độ dài từ từ điển Bảng Tham số thực GA Bảng Gói vn.hus.mim, tokenizer gói Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH Hình 1: Sơ đồ mơ tả GA Hình 2: Lai ghép CMX Hình 3: Phân bố xjci Hình 4: Tốn tử lai ghép SX Hình 5: Sự phân lớp tốn Hình 6: Giao diện chương trình TSP Hình 7: Giao diện nhập liệu chương trình TSP Hình 8: Giao diện kết chương trình TSP Hình Biểu diễn cá thể bit 0,1 Hình 10 Thang tỉ lệ phát sinh loại từ Hình 11 Quá trình lai ghép Hình 12 Quá trình đột biến Hình 13 Quá trình sinh sản Hình 14 Quá trình chọn cá thể Hình 15 Giao diện vnToolkit 3.0.0 Hình 16 Kết tách từ Hình 17 Kết thống kê từ Hình 18 Kết gỡ rối tách từ Hình 19 Kết tách câu Hình 20 Kết gán nhãn Hình 21 Bộ dán nhãn sử dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Hiện ngành khoa học máy tính, việc tìm kiếm lời giải tối ƣu cho tốn vấn đề đƣợc nhà khoa học đặc biệt quan tâm Mục đích thuật tốn tìm kiếm lời giải tìm lời giải tối ƣu cho toán thời gian nhỏ Các thuật tốn nhƣ tìm kiếm khơng có thơng tin, vét cạn (tìm kiếm danh sách, đồ thị ) thuật tốn tìm kiếm có thơng tin đƣợc sử dụng nhiều khơng gian tìm kiếm nhỏ Đối với khơng gian tìm kiếm lớn, việc tìm kiếm lời giải tối ƣu cho toán gặp nhiều khó khăn Do đó, cần thiết phải có thuật giải tốt sử dụng kỹ thuật trí tuệ nhân tạo giải tốn có khơng gian tìm kiếm lớn Thuật giải di truyền (Genetic Algorithm GA) kỹ thuật tìm kiếm lời giải tối ƣu đáp ứng đƣợc yêu cầu nhiều toán ứng dụng Cùng với logic mờ, GA đƣợc ứng dụng rộng rãi lĩnh vực phức tạp Sự kết hợp GA logic mờ chứng tỏ đƣợc hiệu vấn đề khó mà trƣớc thƣờng đƣợc giải phƣơng pháp thông thƣờng hay phƣơng pháp cổ điển, tốn cần có lƣợng giá, đánh giá tối ƣu kết thu đƣợc Chính vậy, GA trở thành đề tài nghiên cứu thu hút đƣợc nhiều quan tâm và đem đến nhiều ứng dụng thực tiễn Xuất phát từ thuyết tiến hóa mn lồi Darwin, GA kỹ thuật chung giúp giải vấn đề tốn cách mơ tiến hóa ngƣời hay sinh vật nói chung điều kiện đƣợc qui định sẵn môi trƣờng GA thuật giải mục tiêu GA không nhằm đƣa lời giải xác tối ƣu mà đƣa lời giải tƣơng đối tối ƣu John Holland (1975) Goldberg (1989) đề xuất phát triển GA, thuật giải tìm kiếm dựa chế chọn lọc di truyền tự nhiên Thuật giải sử dụng nguyên lý di truyền thích nghi sống cá thể thích nghi tự nhiên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 Ngày nay, GA đƣợc ứng dụng nhiều lĩnh vực nhƣ khoa học, kinh doanh giải trí Đầu tiên phải kể đến toán tối ƣu bao gồm: tối ƣu số tối ƣu tổ hợp; sử dụng GA để tìm lời giải nhƣ tốn ngƣời du lịch (Travelling Salesman Problems - TSP) Một ứng dụng khác đƣợc ứng dụng rộng rãi GA giải vấn đề bùng nổ lƣợng thông tin mạng internet bao gồm: thƣ viện điện tử, thông tin điện tử dẫn đến phát sinh số lƣợng lớn văn với tốc độ tăng chóng mặt Vấn đề để tổ chức tìm kiếm lƣợng thơng tin lớn nhƣ cách có hiệu quả? GA đƣợc ứng dụng hiệu việc phân loại thông tin phục vụ cho việc tìm kiếm văn Với lý trên, em chọn đề tài: “Thuật toán di truyền số ứng dụng với lớp toán NP” làm luận văn tốt nghiệp Nội dung luận văn gồm chƣơng: Chương trình bày khái niệm bản, mơ hình, tham số bản, phép toán, chế thực tổng quát thuật tốn di truyền, thuật tốn di truyền mã hóa số thực Chương trình bày sở tốn học hội tụ thuật tốn di tuyền thơng qua mơ hình Markov định lý sơ đồ Holland Chương trình bày hai nội dung chính: + Giới thiệu toán ngƣời du lịch (Travelling Salesman Problems – TSP) toán thuộc lớp NP phƣơng pháp giải toán thuật toán di truyền + Giới thiệu toán tách từ văn bản, ứng dụng GA tốn tách từ văn thơng qua công cụ tách từ dùng thuật giải di truyền vnToolkit 3.0 Các kết lý thuyết toán TSP toán tách từ văn đƣợc kiểm nghiệm thơng qua chƣơng trình thực nghiệm viết ngơn ngữ C# Java Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 phát sinh ngẫu nhiên Sau khởi tạo xong, quần thể đƣợc tiến hóa qua trình lai ghép, đột biến, sinh sản, Thực tiến hố + Q trình lai ghép Áp dụng phƣơng pháp chuẩn lai ghép dựa điểm ngẫu nhiên chuỗi bit cá thể Khi có cặp cá thể bố mẹ, hệ đƣợc tạo dựa kết hợp từ phần bố với phần cuối mẹ ngƣợc lại Tuy nhiên, trình lai ghép, nhận thấy giới hạn từ ghép tối đa tiếng bị phá vỡ, phân đoạn wk có độ dài thực việc chuẩn hóa từ vị trí đến cuối cho khơng có từ vƣợt q tiếng Thay thực phƣơng pháp bật tắt bit (bit flip), t a thực việc hốn chuyển vị trí hai bit liền vị trí ngẫu nhiên Ý tƣởng thực nhƣ sau Chọn hay nhiều cá thể (NST) quần thể Chọn vị trí ngẫu nhiên Hốn đổi phần NST sau điểm lai với bố mẹ Ví dụ: Điểm lai ghép Crossover point Trƣớc lai ghép Những Bố Mẹ phòng làm việc đại 1 1 0 1 1 0 máy tính 1 Sau lai ghép Con 0 1 1 0 Con 1 1 1 0 Hình 11 Q trình lai ghép Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Lai ghép nhƣ việc phân định ranh giới từ, ta dễ dàng nhận tiếng kết hợp với tiếng trƣớc không phù hợp kết hợp với từ đứng sau phù hợp hơn, đứng + Quá trình đột biến Tƣơng tự nhƣ phần lai ghép, ta thực chuẩn hoá cá thể sau đột biến thông qua bƣớc: Chọn NST mẹ Chọn vị trí ngẫu nhiên (điểm đột biến) Luân chuyển vị trí bit gần Ví dụ: Các vị trí thực đột biến Vị trí thực đột biến Trƣớc đột biến Những máy tính phịng làm việc đại 1 1 1 1 1 1 1 Sau đột biến Hình 12 Quá trình đột biến + Quá trình sinh sản Sau lai ghép đột biến, kết hợp cá thể bố mẹ với cá thể vừa đƣợc tạo để phục vụ cho bƣớc chọn cá thể Sau kết hợp, lọc bỏ cá thể quần thể, để đạt đƣợc nhiều cách tách từ tốt Ví dụ: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 Hình 13 Quá trình sinh sản + Quá trình chọn lọc Ở hệ, chọn top N cá thể từ trình sinh sản Trƣớc tiên, cá thể đƣợc tính độ thích nghi tổng giá trị MI từ đƣợc tách câu Sau đó, quần thể đƣợc xếp theo giá trị độ thích nghi giảm dần, trình chọn lọc cá thể chọn top N cá thể có độ thích nghi cao để tạo nên quần thể tiếp tục tiến hoá hệ sau Cách thức lựa chọn cá thể nhƣ sau: Trong đó, id = w1w1 w1 cá thể quần thể pop = {id1, id2} Ví dụ: Hình 14 Q trình chọn cá thể Có thể nói q trình quan trọng tiến trình tiến hố lựa chọn cá thể bƣớc định cá thể tiến hố có tốt hay khơng Ở q trình chọn lọc cá thể này, ta thử nghiệm số công thức tính độ tƣơng hỗ (Mutual Information) nhƣ trình bày thu đƣợc kết khác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 sử dụng công thức khác Từ ta rút số kết luận nhận xét quan trọng ƣu khuyết điểm công thức MI + Điều kiện hội tụ Quá trình thực GA cố gắng làm tăng độ thích nghi cá thể đồng nghĩa với việc tăng chất lƣợng từ đƣợc tách Ở hệ tiến hố, số thích nghi quần thể tăng dần đến ngƣỡng gọi độ hội tụ Khi đó, độ chênh lệnh số thích nghi quần thể hai hệ nhỏ dần tiến dần đến Vì vậy, thực việc ngừng GA cách tự động giá trị fitness hệ đạt đến độ hội tụ có số α = 10-7 số hệ đạt đến số lƣợng mặc định trình bày Việc ngừng GA tự động giúp giảm thiểu thời gian chi phí tính tốn không cần thiết, đồng thời tăng tốc độ việc tách từ 3.4.3 Công cụ Opensource tách từ tiếng việt Giới thiệu công cụ vnToolkit 3.0.0 VnToolkit phần mềm tích hợp số tiện ích chuyên dụng để xây dựng tài ngun ngơn ngữ tiếng Việt nói chung, tập văn gán nhãn cú pháp (tiếng Anh: treebank) nói riêng vnToolkit đƣợc xây dựng dƣới dạng ứng dụng có cấu trúc mở, sử dụng Eclipse Rich Client Platform vnToolkit gồm số mơ-đun (hay cịn gọi plugin bundle) hoạt động theo chuẩn OSGi vnToolkit đƣợc viết ngơn ngữ lập trình Java Mỗi tiện ích vnToolkit gồm nhiều mơ-đun Hiện tại, vnToolkit gồm tiện ích sau: + vnSentenceDetector: Tự động tách câu văn tiếng Việt + vnTokenizer: Tự động tách đơn vị từ văn tiếng Việt + vnTagger: Tự động phân loại từ văn tiếng Việt + vnSynAF: Xây dựng cú pháp tiếng Việt, sử dụng chuột bàn phím hình đồ hoạ Kết đƣợc kết xuất định dạng chuẩn SynAF ngoặc đơn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 Chƣơng trình đƣợc viết ngơn ngữ lập trình Java Để chạy đƣợc chƣơng trình, máy tính cần cài đặt JRE (Java Runtime Enviroment) version trở lên, truy cập vào đƣờng link sau để tải cài đặt vào máy tính sử dụng: http://www.oracle.com/technetwork/java/javase/downloads/jre7-downloads1637588.html a/ Giới thiệu tiện ích vnTokenizer 3.0 – tách từ Phiên vnToolkit 3.0.0 chƣơng trình phát triển phiên 2.5 sở cải tiến nâng cấp tính năng, tối ƣu khả kế thừa mở rộng chƣơng trình cho mục đích xử lý tiếng Việt lâu dài Tách đơn vị từ vựng tự động bƣớc tiền xử lý thiếu hầu hết lĩnh vực xử lý tự động ngôn ngữ tự nhiên Cấu trúc mã nguồn tokenizer Chƣơng trình đƣợc tổ chức thành gói vn.hus.mim, tokenizer với gói con: STT Chức Tên gói vn.hus.mim.tokenizer Gói vn.hus.mim.tokenizer.dfa Mô tả xử lý thao tác ơtơmát đơn định, thuật tốn đốn nhận với ơtơmát vn.hus.mim.tokenizer.graph Mô tả đồ thị cài đặt thuật tốn đồ thị chƣơng trình tách từ tự dộng vn.hus.mim.tokenizer.io Quản lý thao tác vàp, tệp vn.hus.mim.tokenizer.pos Mã hố quản lý thơng tin từ loại (part-ofspeech) đơn vị từ vựng vn.hus.mim.tokenizer.tools Cung cấp số công cụ để chuyển đổi chữ hoa, thƣờng tiếng Việt vn.hus.mim.tokenizer.ui Gói giao diện đồ hoạ chƣơng trình Bảng Gói vn.hus.mim, tokenizer gói Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 69 Tách từ văn + Mở tạo tệp văn thực đơn Tệp văn thƣờng có txt xml Nếu tệp văn có chứa thẻ đánh dấu (tag) thẻ đƣợc tự động đổi màu hệ soạn thảo + Khi văn mở, sử dụng bàn phím chuột để đánh dấu (chọn) đoạn văn cần tách câu Có thể chọn tồn văn phím tắt Ctrl + A + Khi có văn đƣợc chọn, lệnh tách câu Tokenize thực đơn Tokenizer đƣợc tự động kích hoạt Sử dụng lệnh để tách từ phần văn đƣợc chọn; sử dụng phím tách từ công cụ với biểu tƣợng Kết tách từ đƣợc hiển thị khung nhìn Lexers nhƣ hình sau : Hình 15 Kết tách từ Khung nhìn Lexical items chứa bảng từ tách từ phần văn chọn Kết tách từ khung nhìn Lexical items đƣợc ghi tệp văn thực đơn phím tắt cơng cụ khung nhìn Thống kê từ Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn 70 Từ khung nhìn Lexer, ta xem thống kê kết tách từ vừa đƣợc thực nút có biểu tƣợng Thống kê đơn giản tần suất từ (sắp thứ tự) Hình 17 Kết thống kê từ Gỡ rối tách từ Debug Tokenization thực đơn Tokenizer nút lệnh cơng cụ có biểu tƣợng Chƣơng trình mở khung nhìn nhƣ hình sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 71 Hình 18 Kết gỡ rối tách từ Nhập vào câu cần tách từ, ấn phím Enter nút OK Chƣơng trình liệt kê tất phƣơng án tách từ Phƣơng án có khả nhiều phƣơng án đƣợc đánh dấu b/ Giới thiệu tiện ích vnSentenceDetector – tách câu Để tách câu văn bản: + Mở tạo tệp văn thực đơn Tệp văn thƣờng có txt xml Nếu tệp văn có chứa thẻ đánh dấu (tag) thẻ đƣợc tự động đổi màu hệ soạn thảo + Khi văn mở, sử dụng bàn phím chuột để đánh dấu (chọn) đoạn văn cần tách câu Có thể chọn tồn văn phím tắt Ctrl + A + Khi có văn đƣợc chọn, lệnh tách câu Detect Sentences thực đơn SDetector đƣợc tự động kích hoạt Sử dụng lệnh để tách câu phần văn đƣợc chọn; sử dụng phím tách câu công cụ với biểu tƣợng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 + Kết tách câu đƣợc hiển thị khung nhìn Sentences nhƣ hình sau: Hình 19 Kết tách câu Khung nhìn Sentences chứa bảng các tách từ phần văn chọn Kết tách câu khung nhìn Sentences đƣợc ghi tệp văn thực đơn phím tắt cơng cụ có biểu tƣợng c/ Giới thiệu tiện ích vnTagger – gán nhãn + Mở tạo tệp văn thực đơn Tệp văn thƣờng có txt xml Nếu tệp văn có chứa thẻ đánh dấu (tag) thẻ đƣợc tự động đổi màu hệ soạn thảo + Khi văn mở, sử dụng bàn phím chuột để đánh dấu (chọn) đoạn văn cần gán nhãn Có thể chọn tồn văn phím tắt Ctrl + A Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 73 + Khi có văn đƣợc chọn, lệnh gán nhãn Tagger thực đơn Tagging đƣợc tự động kích hoạt Sử dụng lệnh để gán nhãn phần văn đƣợc chọn; sử dụng phím gán nhãn công cụ với biểu tƣợng + Kết gán nhãn đƣợc hiển thị khung nhìn Tagging: Hình 20 Kết gán nhãn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 Hình 21 Bộ dán nhãn sử dụng Bộ nhãn đƣợc sử dụng: N (danh từ), V (động từ), A (tính từ), R (phụ từ) Kết gán nhãn khung nhìn Tagging đƣợc ghi tệp văn thực đơn phím tắt cơng cụ khung nhìn có biểu tƣợng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 75 KẾT LUẬN Nội dung luận văn trình bày giới thiệu kiến thức giải thuật di truyền, sở toán học giải thuật Trên sở lý thuyết giải thuật di truyền, luận văn đƣa kết áp dụng giải thuật di truyền để nghiên cứu cụ thể số tốn thuộc lớp NP gồm có: Nghiên cứu mơ hình tổng qt, thiết kế thuật toán di truyền giải toán cài đặt phần mềm ngơn ngữ lập trình C# cho tốn ngƣời du lịch (TSP) Tìm hiểu tốn tách từ văn phƣơng pháp tách từ dùng giải thuật di truyền đồng thời giới thiệu công cụ tách từ văn vnToolkit 3.0 cài đặt ngôn ngữ Java đƣợc lấy từ trang mã nguồn mở Open source Qua thời gian thực luận văn tốt nghiệp, thân em nâng cao đƣợc khả làm việc, nghiên cứu độc lập nhƣ khả tìm hiểu, dịch, phân tích tổng hợp tài liệu tiếng nƣớc ngồi Tuy nhiên khn khổ thời gian nghiên cứu không nhiều, nội dung luận văn khơng tránh khỏi sai sót nội dung nhƣ hình thức, em mong nhận đƣợc ý kiến đóng góp thầy giáo, bạn bè để luận văn đƣợc hoàn thiện Hƣớng phát triển thời gian tới đề tài tiếp tục nghiên cứu sâu ứng dụng giải thuật di truyền tốn khác lĩnh vực Cơng nghệ thơng tin tối ƣu hóa, xây dựng phần mềm tƣơng ứng áp dụng thực tế Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 76 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng (2002), Kết hợp xử lý ngôn ngữ tự nhiên mạng Kohonen để nâng cao khả gom cụm văn tiếng Việt, nxb KHKT [2] Nguyễn Đình Thức (2000), Lập trình tiến hóa, nxb GDĐT Tiếng Anh [1] Adam Marcryk (2004), Genetic Algorithms and Evolutionary Computation, TalkOrigins Archive [2] Charbonneau, Paul (1995), Genetic algorithms in astronomy and astrophysics, The Astrophysical Jornal Supplement Series, vol 101, pp 309-334 [3] Coley, David A (1999), An introduction to Genetic Algorithms for Scientists and Engineers, Singapore: World Scientific [4] Dinh Dien (2000), Từ tiếng Việt, Vietnam National University, HCMC, Vietnam [5] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), Vietnamese Word Segmentation, The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp 749-756 [6] Eiben, E et al (1994), “Genetic algorithms with multi-parent recombination”, PPSN III: Proceedings of the International Comference on Evolutionary Computation, pp 78-87 [7] R.L Haupt and D Werner (2007), Genetic Algorithms in Electromagnetics, New York: Wiley [8] Ting, Chuan-Kang (2005), On the Mean Convergence Time of Multiparent Genetic Algorithms without Selection, Advances in Artificial Life: 403-412 [9] ZHANG J, Chung H and Lo.W.L (2007), Clustering-Based Adaptive Crossover and Mutation Probabilities for Genetic Algorithms, IEEE Transactions on Evolutionary Computation, vol 11, no 3, pp 326-335 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 77 NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 78 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... hội tụ thuật toán di truyền 29 CHƢƠNG 32 GIẢI THUẬT DI TRUYỀN ĐỐI VỚI MỘT SỐ BÀI TOÁN THUỘC LỚP NP 3.1 Khái niệm lớp toán NP 32 3.2 Thuật toán di truyền với toán TSP... 3.3.4 Các toán tử di truyền 39 3.3.5 Toán tử đột biến .39 3.4 Thuật toán di truyền với toán tách từ văn 48 3.4.1 Một số thuật toán tách từ tiếng Việt .50 Số hóa... giải thuật GA Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 40 Chƣơng GIẢI THUẬT DI TRUYỀN ĐỐI VỚI MỘT SỐ BÀI TOÁN THUỘC LỚP NP 3.1 Khái niệm lớp toán NP Xét toán