1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền

71 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các Kỹ Thuật Lai Ghép Trong Giải Thuật Di Truyền
Tác giả Nguyễn Xuân Toàn
Người hướng dẫn PGS.TSKH. Nguyễn Xuân Huy
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2007
Thành phố Hà Nội
Định dạng
Số trang 71
Dung lượng 837,77 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NGUYỄN XUÂN TOÀN CÁC KỸ THUẬT LAI GHÉP TRONG GIẢI THUẬT DI TRUYỀN NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TSKH NGUYỄN XUÂN HUY HÀ NỘI - 2007 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC MỞ ĐẦU Chƣơng MỘT SỐ PHƢƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 1.1 Tổng quan tách từ phân loại văn tiếng Việt 1.2 Hƣớng tiếp cận tách từ phân loại văn tiếng Việt 1.2.1 Hƣớng tiếp cận dựa từ 1.2.2 Hƣớng tiếp cận dựa ký tự 10 1.2.3 Một số nhận xét phƣơng pháp tách từ tiếng Việt 11 1.3 Phƣơng pháp tách từ phân loại văn tiếng Việt dựa thống kê từ Internet Giải thuật di truyền 11  Kết luận chƣơng 15 Chƣơng GIẢI THUẬT DI TRUYỀN 16 2.1 Tổng quan giải thuật di truyền 16 2.2 Một số cách biểu diễn lời giải giải thuật di truyền 19 2.2.1 Biểu diễn nhị phân 19 2.2.2 Biểu diễn hoán vị 20 2.2.3 Biểu diễn giá trị 21 2.2.4 Biểu diễn dạng 21 2.3 Các toán tử di truyền 21 2.3.1 Đánh giá độ thích nghi cá thể tốn tử chọn lọc 22 2.3.2 Toán tử lai ghép 24 2.3.3 Toán tử đột biến 25 2.4 Cơ sở toán học giải thuật di truyền 27 2.4.1 Một số khái niệm 28 2.4.2 Định lý sơ đồ 30 2.5 Những cải tiến giải thuật di truyền 32 TIEU LUAN MOI download : skknchat@gmail.com 2.5.1 Các toán tử cao cấp 32 2.5.2 Các sơ đồ lựa chọn 38  Kết luận chƣơng 39 Chƣơng SỬ DỤNG GIẢI THUẬT DI TRUYỀN TÁCH TỪ TIẾNG VIỆT 40 3.1 Cấu trúc âm tiết mối tƣơng quan với “từ” tiếng Việt 40 3.1.1 Cấu trúc âm tiết năm thành phần 40 3.1.2 Cấu trúc âm tiết ba thành phần 42 3.1.3 So sánh cấu trúc hai loại âm tiết 49 3.2 Nguyên lý thống kê dựa Internet 50 3.3 Sử dụng giải thuật di truyền để tách từ tiếng Việt 53 3.3.1 Khảo sát độ dài “từ” từ điển 54 3.3.2 Xử lý liệu 55 3.3.3 Biểu diễn cá thể 57 3.3.4 Khởi tạo tham số 58 3.3.5 Toán tử chọn lọc 59 3.3.6 Toán tử lai ghép 60 3.3.7 Toán tử đột biến 61 3.3.8 Quá trình sinh sản 62 3.4 Phân loại văn tiếng Việt 63  Kết luận chƣơng 63 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 70 TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Hơn hai thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ thiết bị điện tử không ngừng tăng lên Do ƣu điểm lƣu trữ tài liệu số nhƣ cách lƣu trữ gọn nhẹ, thời gian lƣu trữ lâu dài, tiện dụng trao đổi, dễ dàng sửa đổi… nên phƣơng thức sử dụng giấy tờ công việc giao dịch dần đƣợc số hoá chuyển sang dạng văn lƣu trữ máy tính truyền tải mạng Điều làm số lƣợng văn số tăng lên nhanh chóng Cùng với gia tăng số lƣợng văn bản, nhu cầu tìm kiếm văn tăng theo Với lƣợng văn đồ sộ việc phân loại văn tự động phục vụ q trình tìm kiếm thơng tin dễ dàng, nhanh chóng cần thiết Đồng thời, việc phân loại văn tự động giúp ngƣời tiết kiệm đƣợc nhiều thời gian công sức Theo [29], “Việc phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện” Trong tiếng Anh có nhiều cơng trình nghiên cứu đạt đƣợc kết nhƣ: Graph - Based Approach [6], Neural Network [12], Support Vector Machine [18], Linear Least Squares Fit [28]… Các phƣơng pháp dựa vào xác suất thống kê thông tin trọng số từ văn Đối với tiếng Việt, có số cơng trình nghiên cứu phân loại văn bản: Conditional Random Fields and Support Vector Machine [7], Weighted Finit State Transducer and Neural Network [10], Dynamic Programming [20]… Các nghiên cứu đề cập đến khó khăn vấn đề xử lý văn để rút tần số xuất từ Trong đó, để phân loại văn bƣớc tách từ quan trọng Đồng thời phần lớn phƣơng pháp tách từ tiếng Việt dựa tập liệu huấn luyện từ điển TIEU LUAN MOI download : skknchat@gmail.com chƣa có từ điển hay tập liệu huấn luyện tiếng Việt đƣợc gán nhãn đủ lớn phục vụ việc Trong thời gian gần đây, phƣơng pháp tiếp cận cho việc tách từ phân loại văn là: Internet and Genetics Algorithm - Based Text Categorization (IGATEC) H Nguyen [17] Điểm khác biệt thuật toán kết hợp giải thuật di truyền với việc trích xuất thơng tin thống kê từ Internet thơng qua cơng cụ tìm kiếm thay lấy từ tập liệu nhƣ phƣơng pháp khác Giải thuật di truyền cho phép xây dựng phƣơng pháp tìm kiếm song song (tìm kiếm tiến hóa) quần thể mà cá thể tƣơng ứng với cách tách từ cho câu xét Hàm thích nghi đánh giá độ thích nghi tài liệu thống kê, rút trích từ Internet sử dụng cơng cụ tìm kiếm thơng minh (Search Engine) Thơng tin rút trích bao gồm tần số tài liệu thông tin tƣơng quan nhóm từ tài liệu Trên sở phân tích trên, luận văn thực tìm hiểu giải thuật di truyền, sở toán học, cải tiến giải thuật di truyền ứng dụng vào vấn đề tách từ tiếng Việt Việc tách từ tiếng Việt luận văn dựa ý tƣởng thuật tốn IGATEC nhƣng có bổ sung vài cải tiến trình lai ghép đột biến nhằm tăng độ xác Ngồi phần mở đầu, kết luận phụ lục, luận văn đƣợc chia thành chƣơng nhƣ sau:  Chƣơng Một số phƣơng pháp tách từ phân loại văn tiếng Việt: tìm hiểu hƣớng tiếp cận tách từ phân loại văn tiếng Việt phƣơng pháp tách từ tiếng Việt sử dụng giải thuật di truyền kết hợp với trích xuất thơng tin thống kê từ Internet  Chƣơng Giải thuật di truyền: tìm hiểu giải thuật di truyền, sở toán học, toán tử cải tiến giải thuật di truyền TIEU LUAN MOI download : skknchat@gmail.com  Chƣơng Sử dụng giải thuật di truyền để tách từ tiếng Việt: đề xuất số cải tiến trình lai ghép đột biến với mục tiêu tăng hiệu thuật tốn IGATEC Mặc dù cố gắng hồn thành luận văn phạm vi khả cho phép nhƣng khơng tránh khỏi thiếu sót Hiện thời luận văn dừng mức tìm hiểu, sử dụng giải thuật di truyền cho trình tách từ tiếng Việt phục vụ cho chƣơng trình dịch chéo đa ngữ, phân loại tự động văn tiếng Việt… Mong quý thầy cô bạn đọc thơng cảm, có ý kiến đóng góp để hoàn thiện đề tài TIEU LUAN MOI download : skknchat@gmail.com Chƣơng MỘT SỐ PHƢƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 1.1 Tổng quan tách từ phân loại văn tiếng Việt Theo kết nghiên cứu [7, 10, 20, 29], phƣơng pháp phân loại văn tiếng Việt hiệu nhƣ: Support Vector Machine, Conditional Random Fields, Dynamic Programing… cần thông tin xác suất hay thống kê trọng số từ Thơng qua tìm hiểu phƣơng pháp việc phân loại văn tiếng Việt, nhận việc tách từ bƣớc quan trọng cần phải đƣợc giải Đối với ngôn ngữ châu Á nhƣ tiếng Hoa, tiếng Nhật, tiếng Hàn tiếng Việt, tách từ khó khăn việc phân loại văn Mặc dù đƣợc viết ký tự La tinh mở rộng, tiếng Việt có đặc tính chung với ngôn ngữ Đông Nam Á khác nhƣ khó xác định ranh giới từ có nhiều điểm khác biệt ngữ âm, văn phạm ngữ nghĩa… so với tiếng Anh Do đó, khó áp dụng hƣớng tiếp cận đƣợc nghiên cứu thử nghiệm thành công tiếng Anh [6, 12, 18, 29, 30]… cho phân loại văn tiếng Việt không xây dựng thành công giải pháp cho việc tách từ văn tiếng Việt Vì việc xác định ranh giới từ tiếng Việt lại tốn khó? Đơn vị tiếng Việt tiếng (hay “âm tiết”), từ Trong [1] nêu số đặc tính từ tiếng Việt nhƣ sau: - Từ dạng nguyên thể, hình thức ý nghĩa độc lập với cú pháp - Từ đƣợc cấu trúc từ “tiếng” (hay “âm tiết”) TIEU LUAN MOI download : skknchat@gmail.com - Từ bao gồm từ đơn (từ tiếng) từ ghép (n tiếng với n < 5), bao gồm từ láy từ ghép Ví dụ: “Khoa học” từ ghép gồm “tiếng” tiếng Việt Trong đó, định nghĩa từ tiếng Anh nhƣ sau: “Từ nhóm ký tự có nghĩa, phân cách ký tự khoảng trắng câu” (Theo từ điển Webster) Dƣới số điểm khác biệt tiếng Việt tiếng Anh [2, 17, 25] Đặc điểm Tiếng Việt Tiếng Anh Đơn vị Tiếng (Âm tiết) Từ Tiền tố/Hậu tố Khơng có Có Khơng đồng Đƣợc định nghĩa rõ Từ loại Ranh giới từ Tổ hợp có nghĩa dựa vào Khoảng trắng dấu câu ngữ cảnh tiếng Bảng 1.1 Các điểm khác biệt tiếng Việt tiếng Anh Chính đặc điểm khác biệt làm cho việc tách từ tiếng Việt trở nên khó khăn Theo Đinh Điền [10], số phƣơng pháp tách từ tiếng Hoa số ngôn ngữ Đông Nam Á khác đƣợc thử nghiệm tiếng Việt điều kiện quan trọng cần có hệ thống từ điển tập liệu huấn luyện đầy đủ xác Một từ điển hay tập liệu huấn luyện khơng hồn chỉnh làm giảm hiệu suất thuật tốn Hiện tại, chƣa có từ điển chuẩn hay liệu huấn luyện tiếng Việt đƣợc gán nhãn đủ lớn phục vụ việc Do đặc điểm tiếng Việt nên việc xây dựng từ điển chuẩn hay liệu cần nhiều thời gian, công sức chi TIEU LUAN MOI download : skknchat@gmail.com phí Đây vấn đề đáng lo tốn phân loại văn tiếng, xử lý ngôn ngữ tự nhiên tìm kiếm thơng tin tiếng Việt 1.2 Hƣớng tiếp cận tách từ phân loại văn tiếng Việt Theo kết khảo sát Foo Li [14] tách từ văn tiếng Hoa qua tìm hiểu thấy có hai cách tiếp cận vấn đề tách từ phân loại văn bản: Hƣớng tiếp cận dựa từ hƣớng tiếp cận dựa ký tự Vietnamese Segmentation Chinese Segmentation Character - Based Uni - Gram Lê Hà An Word - Based N - Gram H Nguyen Statistic Dictionary Nguyễn Cẩm Tú Hybrid Đinh Điền Luận văn Full Word / Phrase Shortest Match Longest Match Component Overlap Match Hình 1.1 Các hướng tiếp cận việc tách từ tiếng Hoa hướng tiếp cận tách từ tiếng Việt TIEU LUAN MOI download : skknchat@gmail.com 1.2.1 Hướng tiếp cận dựa từ Các hƣớng tiếp cận dựa từ đƣợc chia thành ba nhóm: dựa vào thống kê (Statistic Based), dựa vào từ điển (Dictionary Based) nhóm lai (Hybrid) Giải pháp theo hƣớng tiếp cận dựa vào thống kê cần phải dựa vào thống tin thống kê nhƣ: từ, tần số ký tự, xác suất xuất tập liệu sở… Tính hiệu giải pháp loại chủ yếu dựa vào liệu huấn luyện cụ thể đƣợc sử dụng Đây vấn đề khó khăn toán tách từ tiếng Việt Trong hƣớng tiếp cận dựa vào từ điển, phân đoạn văn đƣợc đối sánh dựa vào từ điển Hạn chế việc tách từ theo hƣớng tiếp cận dựa từ điển cần phải thực hồn tồn dựa từ điển hoàn chỉnh, việc xây dựng từ điển hồn chỉnh khơng khả thi Hƣớng tiếp cận lai áp dụng nhiều cách khác để tận dụng ƣu điểm giải pháp Mặc dù có đƣợc ƣu điểm giải pháp nhƣng hƣớng tiếp cận lại gặp phải khóa khăn, phức tạp khác nhƣ: thời gian xử lý, không gian đĩa… Đinh Điền [10] xây dựng liệu huấn luyện riêng (khoảng 10MB) dựa vào tài nguyên, tin tức sách điện tử Internet… Trên sở tập liệu tác giả sử dụng hệ thống tách từ tiếng Việt gồm hai tầng: tầng WFST việc tách từ xử lý thêm vấn đề liên quan đến đặc thù tiếng Việt nhƣ từ láy, tên riêng… tầng mạng nơron dùng để khử nhập nhằng trƣờng hợp tầng WFST cho kết ngang Phƣơng pháp cho kết với độ xác cao mục đích tác giả để phục vụ cho việc dịch máy Tuy nhiên tập liệu huấn luyện cịn tƣơng đối nhỏ, khó đảm bảo dung lƣợng độ phong phú cho việc tách từ TIEU LUAN MOI download : skknchat@gmail.com 56 khỏi kết tìm kiếm vacation london or Từ khóa “or” paris Admission Giới hạn site site: www.vnexpress.net Star Wars Giới hạn ngày daterange: 2452122- Phép site: tìm kiếm site đƣợc định daterange: trả file có thời gian thõa mãn điều kiện 2452234 Google filetype: doc or Lọc file filetype: pdf Google -filetype: doc or Loại trừ file -filetype: pdf Tìm theo tiêu đề intitle:Google search filetype: tìm kiếm file có kiểu mở rộng đƣợc liệt kê -filetype: ngƣợc lại với lọc file intitle: tìm kiếm tiêu đề web Bảng 3.7 Một số câu truy vấn đặc biệt Google Với Xpath tìm kiếm chuỗi: trang kết trả đƣợc chuyển sang định dạng xHTML dùng cho việc trích xuất dùng Xpath (Xpath đƣợc cung cấp địa http://www.w3.org/TR/XPath20) hay thực tìm kiếm chuỗi Cả hai phƣơng pháp cho hiệu suất tốt (khoảng 1-3s/truy vấn) Xpath định dạng đƣợc W3C đề nghị đƣợc sử dụng rộng rãi việc truy vấn tập tin XML Sử dụng Xpath có thuận lợi tìm kiếm chuỗi chỗ sử dụng trích xuất nhiều ngơn ngữ trả từ Google cấu trúc trang web thay đổi ta lấy đƣợc thơng tin trả Google Trong việc tìm kiếm chuỗi phụ thuộc vào câu đặc biệt (nhƣ “các kết ” ) Do đó, trang trả Google trình bày khác đi, cách tìm kiếm chuỗi khơng cho kết mong muốn Tuy nhiên, sử dụng cách tìm kiếm chuỗi cho kết nhanh dùng Xpath hệ thống khơng phải tốn thời gian phân tích liệu thành dạng tài liệu XML TIEU LUAN MOI download : skknchat@gmail.com 57 3.3.2.2 Tổ chức lưu trữ liệu dạng file Cache Hƣớng tiếp cận luận văn dựa thống kê từ Google, lần cần lấy tần số xuất từ phải thực lấy thông tin từ Google, điều làm tiêu tốn thời gian chờ đợi Do thông tin lấy đƣợc từ Internet đƣợc lƣu lại vào file liệu đệm để sử dụng lại cần đến Việc quản lý liệu đƣợc thực file văn thông thƣờng kiểu fonts Unicode UTF-8 File liệu đệm chứa thông tin:  Từ: từ tìm từ Google  Xác suất: xác suất từ Google  Loại từ mang giá trị: W(là từ), NW (không từ), WC (có thể từ), NWC (khơng thể từ), UD (chƣa phân loại) Khi bắt đầu hoạt động, hệ thống tự động thực đọc file liệu, phân tích chuỗi file để lấy thơng tin Cách xử lý làm tăng tốc độ tìm kiếm thông tin từ 3.3.3 Biểu diễn cá thể Nhƣ phân tích chƣơng 2, biểu diễn nhị phân khiến cho cách mã hóa có sơ đồ Đồng thời cách mã hóa chuỗi nhị phân thƣờng giúp dễ dàng toán tử di truyền Trong toán ta lựa chọn cách biểu diễn nhị phân để biểu diễn cá thể (id) Quần thể (pop) tập hợp cá thể (id) đƣợc biểu diễn xâu nhị phân: Mỗi bit tƣơng ứng với tiếng, từ gồm bit giống liên tiếp Ví dụ: học || sinh || học || sinh || học 0 0 TIEU LUAN MOI download : skknchat@gmail.com 58 học sinh # học # sinh học x1 x2 x3 3.3.4 Khởi tạo tham số Ở bƣớc này, ta gán giá trị tham số nhƣ số lƣợng hệ tiến hóa, kích thƣớc quần thể, xác suất lai ghép (pc), đột biến (pm) tỉ lệ tái sinh… Các tham số giải thuật di truyền nhƣ sau: - Số lƣợng hệ tối đa = 100 - Số lƣợng cá thể quần thể = 100 - Xác suất lai ghép = 0.8 - Xác suất đột biến = 0.1 - Phép chọn N = 100 cá thể tốt Các cá thể ban đầu quần thể đƣợc sản sinh ngẫu nhiên Tuy nhiên, nhằm tối ƣu hóa chuỗi ngẫu nhiên đƣợc sinh áp dụng số ràng buộc, cụ thể: - Mỗi đoạn gồm tối đa tiếng - Xác suất tạo đoạn gồm tiếng cao xác suất tạo đoạn có độ dài khác tiếng o Xác suất từ tiếng = 0.1 o Xác suất từ tiếng = 0.7 o Xác suất từ tiếng = 0.1 o Xác suất từ tiếng = 0.1 Hình 3.3 Thang tỷ lệ phát sinh loại từ TIEU LUAN MOI download : skknchat@gmail.com 59 Với cách khởi tạo nhẫu nhiên, sinh ngẫu nhiên xác suất f (0 ≤ f ≤ 1) để chọn loại từ: - Nếu ≤ f < 0.1: sinh loại từ tiếng - Nếu 0.1 ≤ f < 0.8: sinh loại từ tiếng - Nếu 0.8 ≤ f < 0.9: sinh loại từ tiếng - Nếu 0.9 ≤ f ≤ 1: sinh loại từ tiếng Ngoài ra, áp dụng dạng đơn giản giải thuật đối sánh Left Right Maximum Matching (Theo ChihHao Tsai [8]) để tạo hai cá thể đặc biệt: cá thể “tiến” cá thể “lùi” Thực tách từ theo hai hƣớng từ trái sang phải từ phải sang trái, hai cách tách từ trùng chọn gộp vào số cá thể đƣợc khởi tạo ngẫu nhiên Phƣơng pháp LRMM cần duyệt tuyến tính, giảm thiểu đƣợc chi phí thời gian tính tốn so với phƣơng pháp khác Đây bƣớc khởi tạo quan trọng điểm cải tiến so với IGATEC với hi vọng quần thể ban đầu có số cá thể tối ƣu hóa cục bộ, giúp tăng tốc độ q trình tiến hóa 3.3.5 Tốn tử chọn lọc Ở hệ, đánh giá chọn giữ lại N cá thể tốt Trƣớc tiên, cá thể đƣợc tính độ thích nghi (fitness) tổng giá trị MI từ đƣợc tách câu Hàm thích nghi cá thể id đƣợc xác định nhƣ sau: m fit(id) = fit(x1x2…xm) =  MI ( x k 1 k ) (3.7) N fit(pop) =  fit (id ) i 1 i (3.8) với id=x1x2…xm cá thể quần thể pop = {id1, …, idN} TIEU LUAN MOI download : skknchat@gmail.com 60 Xử lý chọn lọc thể đƣợc hình thành mơ hình tái tạo quay vịng trịn có hƣớng Rulet Mỗi cần tạo con, giải thuật thực lần quay vịng trịn có trọng số nhằm sinh sản ứng cử viên cho việc tái sinh Kỹ thuật thực theo bƣớc sau: - Tính fit(pop) tất thành viên quần thể - Sinh số ngẫu nhiên  khoảng từ đến fit(pop) - Trả lại thành viên mà độ phù hợp cơng với độ phù hợp thành viên trƣớc lớn  Nếu ta cần chọn tái sinh N cá thể việc tiến hành N lần Sau thực trình tái tạo, quần thể đƣợc xếp theo giá trị độ thích nghi giảm dần, q trình chọn lọc cá thể chọn top N cá thể có độ thích nghi cao để tạo nên quần thể tiếp tục tiến hoá hệ sau Đây trình quan trọng cải tiến trình tiến hố việc lựa chọn cá thể bƣớc định cá thể tiến hố có tốt hay khơng 3.3.6 Tốn tử lai ghép Áp dụng thao tác lai ghép hai xâu bit bố mẹ để tạo lai tốt với xác suất lai ghép p c Xác suất cho số lƣợng pc*pop cá thể đƣợc dùng cho hoạt động lai ghép Với cá thể quần thể: - Sinh số ngẫu nhiên r [0 1] - Nếu r < Pc chọn cá thể để lai ghép - Kết hợp cá thể đƣợc chọn cách ngẫu nhiên Luận văn đề xuất cải tiến cho phép lai thực lai ghép nhiều điểm hai cá thể bố mẹ Với cặp cá thể id1 id2, phát sinh ngẫu nhiên TIEU LUAN MOI download : skknchat@gmail.com 61 n số pi (i  [1 n]) báo hiệu vị trí lai ghép cá thể bố mẹ Hai cá thể đƣợc tạo hoán đổi đoạn id1 với id2 ngƣợc lại Ví dụ: Giả sử có hai bố mẹ là: id1 = 0 | 1 | 1 id2 = | 1 | 1 với vị trí lai ghép hai cá thể con: id‟1 = 0 1 1 id‟2 = 1 1 1 Trong trình thực lai ghép, cá thể vi phạm điều kiện giới hạn kích thƣớc (mỗi đoạn xk có kích thƣớc tối đa 4) đƣợc chuẩn cách đảo bit gây vi phạm cuối đoạn 3.3.7 Toán tử đột biến Thay dùng phép đột biến đảo bit ngẫu nhiên, luận văn đề xuất hai cải tiến q trình đột biến nhƣ sau:  Hốn chuyển vị trí hai bit liền vị trí ngẫu nhiên: Trong việc phân định ranh giới từ, ta thấy tiếng kết hợp với tiếng trƣớc khơng phù hợp kết hợp với từ đứng sau phù hợp hơn, đứng Ví dụ: Có chuỗi có độ dài 14 nhƣ sau: id = 0 0 1 0 0 Thực đảo vị trí bit số chuỗi ta đƣợc thể mới: id' = 0 0 1 0 0  Sắp xếp lại bit cá thể con: TIEU LUAN MOI download : skknchat@gmail.com 62 Thực tìm kiếm xếp lại bit cá thể (toán tử đảo ngƣợc) Dƣới tác động toán tử này, hai điểm đƣợc chọn dọc theo chiều dài chuỗi, cắt chuỗi hai điểm Tiếp theo đó, hai chuỗi gen hai đầu đƣợc đổi chỗ cho Ví dụ: Có chuỗi có độ dài 14 nhƣ sau: id = | 0 1 0 | Chuỗi đƣợc cắt vị trí số vị trí số 12, sau tráo đổi hai chuỗi hai đầu cho nhau, có chuỗi kết quả: A' = 1 0 1 0 Tƣơng tự trình lai ghép, ta chuẩn hóa cá thể để thỏa mãn điều kiện giới hạn kích thƣớc phân đoạn 3.3.8 Quá trình sinh sản Sau thực chọn lọc lai ghép ta chọn lại số cá thể hệ trƣớc đƣa vào quần thể thực đột biến làm tăng kích thƣớc quần thể đến giá trị quần thể đƣợc khởi tạo  Hội tụ: Q trình tiến hóa nhằm cải thiện độ thích nghi cá thể quần thể, tức cải thiện chất lƣợng việc tách từ Ở hệ tiến hóa, số thích nghi quần thể tăng dần đến ngƣỡng gọi độ hội tụ  Khi đó, độ chênh lệch số thích nghi quần thể hai hệ nhỏ dần tiến dần đến Vì vây, dừng q trình tiến hóa độ thích nghi hệ sau khơng cao hệ trƣớc, số lƣợng hệ đạt ngƣỡng  cho trƣớc ( 

Ngày đăng: 27/06/2022, 09:15

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đinh Điền (2004), Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Giáo trình xử lý ngôn ngữ tự nhiên
Tác giả: Đinh Điền
Năm: 2004
3. Nguyễn Thúy Loan (2004), Nghiên cứu một số phương pháp chọn lọc và lai ghép trong giải thuật di truyền, Luận văn thạc sỹ khoa học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc Gia Thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp chọn lọc và lai ghép trong giải thuật di truyền
Tác giả: Nguyễn Thúy Loan
Năm: 2004
4. Lê Hoàng Thái (1997), Giải thuật di truyền Kỹ thuật và Ứng dụng, Luận văn thạc sỹ khoa học, Đại học Bách Khoa Hà Nội Sách, tạp chí
Tiêu đề: Giải thuật di truyền Kỹ thuật và Ứng dụng
Tác giả: Lê Hoàng Thái
Năm: 1997
5. Nguyễn Đình Thúc (2001), Lập trình tiến hóa, Nhà xuất bản Giáo dục. Tài liệu Tiếng Anh Sách, tạp chí
Tiêu đề: Lập trình tiến hóa
Tác giả: Nguyễn Đình Thúc
Nhà XB: Nhà xuất bản Giáo dục. Tài liệu Tiếng Anh
Năm: 2001
6. Aravid Venkatachalam (August 2007), “A Graph-Based approach for Multiclass document Classification”, Presented to the Faculty of the Graduate School of The University of Texas at Arlington Sách, tạp chí
Tiêu đề: A Graph-Based approach for Multiclass document Classification
7. Cam. Tu Nguyen, Trung. Kien Nguyen, Xuan. Hieu Phan Le. Minh Nguyen and Quang. Thuy Ha, “Vietnamese Word Segmentation with CRFs and SVMs: An Investigation College of Technology” Sách, tạp chí
Tiêu đề: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation College of Technology
8. ChihHao Tsai (2000), “A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”, http://technology.chtsai.org/mmseg/ Sách, tạp chí
Tiêu đề: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm
Tác giả: ChihHao Tsai
Năm: 2000
9. Cofey S. (1999), “An Applied probabilist‟s guide to Genetic Algorithms”, Master Thesis, University of Dublin Sách, tạp chí
Tiêu đề: An Applied probabilist‟s guide to Genetic Algorithms
Tác giả: Cofey S
Năm: 1999
10. Dinh Dien (2001), “Vietnamese Word Segmentation”, The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan Sách, tạp chí
Tiêu đề: Vietnamese Word Segmentation
Tác giả: Dinh Dien
Năm: 2001
11. Doktors der Wirtschaftswisenschaften(2005), “Schema Propagation in Evolution Programs”, Andreas.Frick@web.de Sách, tạp chí
Tiêu đề: Schema Propagation in Evolution Programs
Tác giả: Doktors der Wirtschaftswisenschaften
Năm: 2005
12. Erik Wiener, Jan O. Pedersen, and Andreas S. (1995), “A Nơron Network Approach to Topic Spotting. In Proceedings of the Fourth Annual Sumposium on Document Analysis and Information Retrieval”, http://citeseer.ist.psu.edu/wiener95noron.html Sách, tạp chí
Tiêu đề: A Nơron Network Approach to Topic Spotting. In Proceedings of the Fourth Annual Sumposium on Document Analysis and Information Retrieval
Tác giả: Erik Wiener, Jan O. Pedersen, and Andreas S
Năm: 1995
13. Francesco di Pierro, Soon-Thiam Khu, Slobodan Djordjević and Dragan A. Savić (July 2004), “A New Genetic Algorithm to Solve Effectively Highly Multi-Objective Problems: POGA” Sách, tạp chí
Tiêu đề: A New Genetic Algorithm to Solve Effectively Highly Multi-Objective Problems: POGA
14. Foo S, Li H (2004), “Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing &amp; Management: An International Journal” Sách, tạp chí
Tiêu đề: Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing & Management: An International Journal
Tác giả: Foo S, Li H
Năm: 2004
15. Goldberg D.E (1989), “Genetic Algorithms in serrch, Optimization and Machine learning”, addison-Wesley, Reading, Massachusets Sách, tạp chí
Tiêu đề: Genetic Algorithms in serrch, Optimization and Machine learning
Tác giả: Goldberg D.E
Năm: 1989
16. Holland, J.H. (1975), “Adaptation in Naturral and Artificial System”. The University of Michigan Press Sách, tạp chí
Tiêu đề: Adaptation in Naturral and Artificial System
Tác giả: Holland, J.H
Năm: 1975
17. H. Nguyen, T. Vu, N. Tran, K. Hoang (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future”, the 3rd International Conference in Computer Science, (RIFT 2005) Sách, tạp chí
Tiêu đề: Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future
Tác giả: H. Nguyen, T. Vu, N. Tran, K. Hoang
Năm: 2005
18. Joachims T. (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In European Conference on Machine Learning”, http://svmlight.joachims.org/ Sách, tạp chí
Tiêu đề: Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In European Conference on Machine Learning
Tác giả: Joachims T
Năm: 1998
19. Juels A. and Buluja S. and Sinclair A. (1993), “The Equilibrium Genetic Algorithms and the Role of Crossover”, http://citeseer.Nj.nec.com/juels93/equilibrium.html Sách, tạp chí
Tiêu đề: The Equilibrium Genetic Algorithms and the Role of Crossover
Tác giả: Juels A. and Buluja S. and Sinclair A
Năm: 1993
20. Le Ha An (2003), “A method for word segmentation Vietnamese”, Proceddings of Corpus Linguistics 2003, Lancaster, UK Sách, tạp chí
Tiêu đề: A method for word segmentation Vietnamese
Tác giả: Le Ha An
Năm: 2003
21. Le Hong Minh, Quach Tuan Ngoc (2005), “Some Results in Phonetic Analysis to Vietnamese Text-to-Speech Synthesis Based on Rules” Sách, tạp chí
Tiêu đề: Some Results in Phonetic Analysis to Vietnamese Text-to-Speech Synthesis Based on Rules
Tác giả: Le Hong Minh, Quach Tuan Ngoc
Năm: 2005

HÌNH ẢNH LIÊN QUAN

Bảng 1.1. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 1.1. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh (Trang 8)
Hình 1.1. Các hướng tiếp cận cơ bản trong việc tách từ tiếng Hoa và hướng tiếp cận trong tách từ tiếng Việt - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Hình 1.1. Các hướng tiếp cận cơ bản trong việc tách từ tiếng Hoa và hướng tiếp cận trong tách từ tiếng Việt (Trang 9)
Hình 1.2. Mô hình hệ thống IGATEC. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Hình 1.2. Mô hình hệ thống IGATEC (Trang 13)
Ví dụ: Trong bảng 2.1, sinh số ngẫu nhiên n= 175 thì chuỗi thứ 3 là chuỗi đƣợc chọn cho quá trình tái sinh. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
d ụ: Trong bảng 2.1, sinh số ngẫu nhiên n= 175 thì chuỗi thứ 3 là chuỗi đƣợc chọn cho quá trình tái sinh (Trang 25)
Bảng 2.3. Ví dụ về quá trình lai ghép. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 2.3. Ví dụ về quá trình lai ghép (Trang 28)
Bảng 2.2. Ví dụ về quá trình chọn lọc. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 2.2. Ví dụ về quá trình chọn lọc (Trang 28)
Hình 3.1. Cấu trúc năm thành phần của âm tiết tiếng Việt. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Hình 3.1. Cấu trúc năm thành phần của âm tiết tiếng Việt (Trang 41)
Hình 3.2. Cấu trúc ba thành phần của âm tiết tiếng Việt. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Hình 3.2. Cấu trúc ba thành phần của âm tiết tiếng Việt (Trang 43)
Bảng 3.1. Danh sách 115 âm tiết tiếng Việt. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 3.1. Danh sách 115 âm tiết tiếng Việt (Trang 49)
Trong bảng tổng hợp 115 âm tiết tiếng Việt trên, những trƣờng hợp ít dùng đƣợc đánh dấu “*” ở trƣớc - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
rong bảng tổng hợp 115 âm tiết tiếng Việt trên, những trƣờng hợp ít dùng đƣợc đánh dấu “*” ở trƣớc (Trang 49)
Bảng 3.2. Mối tương quan giữa âm đầu, tổ hợp âm giữa và âm cuối trong cấu trúc âm tiết ba thành phần - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 3.2. Mối tương quan giữa âm đầu, tổ hợp âm giữa và âm cuối trong cấu trúc âm tiết ba thành phần (Trang 50)
Bảng 3.4. Ví dụ về tần số tài liệu của một số từ thông dụng trong tiếng Việt. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 3.4. Ví dụ về tần số tài liệu của một số từ thông dụng trong tiếng Việt (Trang 52)
Bảng 3.5. Ví dụ về MI của n-gram. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 3.5. Ví dụ về MI của n-gram (Trang 53)
Bảng 3.6. Thống kê độ dài từ trong từ điển. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 3.6. Thống kê độ dài từ trong từ điển (Trang 55)
Bảng 3.7. Một số câu truy vấn đặc biệt của Google. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Bảng 3.7. Một số câu truy vấn đặc biệt của Google (Trang 57)
Hình 3.3. Thang tỷ lệ phát sinh loại từ. - (LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền
Hình 3.3. Thang tỷ lệ phát sinh loại từ (Trang 59)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN