1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN văn THẠC sĩ) các kỹ thuật lai ghép trong giải thuật di truyền

71 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 795,65 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NGUYỄN XUÂN TOÀN CÁC KỸ THUẬT LAI GHÉP TRONG GIẢI THUẬT DI TRUYỀN NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TSKH NGUYỄN XUÂN HUY HÀ NỘI - 2007 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC MỞ ĐẦU Chƣơng MỘT SỐ PHƢƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 1.1 Tổng quan tách từ phân loại văn tiếng Việt 1.2 Hƣớng tiếp cận tách từ phân loại văn tiếng Việt 1.2.1 Hƣớng tiếp cận dựa từ 1.2.2 Hƣớng tiếp cận dựa ký tự 10 1.2.3 Một số nhận xét phƣơng pháp tách từ tiếng Việt 11 1.3 Phƣơng pháp tách từ phân loại văn tiếng Việt dựa thống kê từ Internet Giải thuật di truyền 11  Kết luận chƣơng 15 Chƣơng GIẢI THUẬT DI TRUYỀN 16 2.1 Tổng quan giải thuật di truyền 16 2.2 Một số cách biểu diễn lời giải giải thuật di truyền 19 2.2.1 Biểu diễn nhị phân 19 2.2.2 Biểu diễn hoán vị 20 2.2.3 Biểu diễn giá trị 21 2.2.4 Biểu diễn dạng 21 2.3 Các toán tử di truyền 21 2.3.1 Đánh giá độ thích nghi cá thể tốn tử chọn lọc 22 2.3.2 Toán tử lai ghép 24 2.3.3 Toán tử đột biến 25 2.4 Cơ sở toán học giải thuật di truyền 27 2.4.1 Một số khái niệm 28 2.4.2 Định lý sơ đồ 30 2.5 Những cải tiến giải thuật di truyền 32 TIEU LUAN MOI download : skknchat@gmail.com 2.5.1 Các toán tử cao cấp 32 2.5.2 Các sơ đồ lựa chọn 38  Kết luận chƣơng 39 Chƣơng SỬ DỤNG GIẢI THUẬT DI TRUYỀN TÁCH TỪ TIẾNG VIỆT 40 3.1 Cấu trúc âm tiết mối tƣơng quan với “từ” tiếng Việt 40 3.1.1 Cấu trúc âm tiết năm thành phần 40 3.1.2 Cấu trúc âm tiết ba thành phần 42 3.1.3 So sánh cấu trúc hai loại âm tiết 49 3.2 Nguyên lý thống kê dựa Internet 50 3.3 Sử dụng giải thuật di truyền để tách từ tiếng Việt 53 3.3.1 Khảo sát độ dài “từ” từ điển 54 3.3.2 Xử lý liệu 55 3.3.3 Biểu diễn cá thể 57 3.3.4 Khởi tạo tham số 58 3.3.5 Toán tử chọn lọc 59 3.3.6 Toán tử lai ghép 60 3.3.7 Toán tử đột biến 61 3.3.8 Quá trình sinh sản 62 3.4 Phân loại văn tiếng Việt 63  Kết luận chƣơng 63 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 70 TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Hơn hai thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ thiết bị điện tử không ngừng tăng lên Do ƣu điểm lƣu trữ tài liệu số nhƣ cách lƣu trữ gọn nhẹ, thời gian lƣu trữ lâu dài, tiện dụng trao đổi, dễ dàng sửa đổi… nên phƣơng thức sử dụng giấy tờ công việc giao dịch dần đƣợc số hoá chuyển sang dạng văn lƣu trữ máy tính truyền tải mạng Điều làm số lƣợng văn số tăng lên nhanh chóng Cùng với gia tăng số lƣợng văn bản, nhu cầu tìm kiếm văn tăng theo Với lƣợng văn đồ sộ việc phân loại văn tự động phục vụ q trình tìm kiếm thơng tin dễ dàng, nhanh chóng cần thiết Đồng thời, việc phân loại văn tự động giúp ngƣời tiết kiệm đƣợc nhiều thời gian công sức Theo [29], “Việc phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện” Trong tiếng Anh có nhiều cơng trình nghiên cứu đạt đƣợc kết nhƣ: Graph - Based Approach [6], Neural Network [12], Support Vector Machine [18], Linear Least Squares Fit [28]… Các phƣơng pháp dựa vào xác suất thống kê thông tin trọng số từ văn Đối với tiếng Việt, có số cơng trình nghiên cứu phân loại văn bản: Conditional Random Fields and Support Vector Machine [7], Weighted Finit State Transducer and Neural Network [10], Dynamic Programming [20]… Các nghiên cứu đề cập đến khó khăn vấn đề xử lý văn để rút tần số xuất từ Trong đó, để phân loại văn bƣớc tách từ quan trọng Đồng thời phần lớn phƣơng pháp tách từ tiếng Việt dựa tập liệu huấn luyện từ điển TIEU LUAN MOI download : skknchat@gmail.com chƣa có từ điển hay tập liệu huấn luyện tiếng Việt đƣợc gán nhãn đủ lớn phục vụ việc Trong thời gian gần đây, phƣơng pháp tiếp cận cho việc tách từ phân loại văn là: Internet and Genetics Algorithm - Based Text Categorization (IGATEC) H Nguyen [17] Điểm khác biệt thuật toán kết hợp giải thuật di truyền với việc trích xuất thơng tin thống kê từ Internet thơng qua cơng cụ tìm kiếm thay lấy từ tập liệu nhƣ phƣơng pháp khác Giải thuật di truyền cho phép xây dựng phƣơng pháp tìm kiếm song song (tìm kiếm tiến hóa) quần thể mà cá thể tƣơng ứng với cách tách từ cho câu xét Hàm thích nghi đánh giá độ thích nghi tài liệu thống kê, rút trích từ Internet sử dụng cơng cụ tìm kiếm thơng minh (Search Engine) Thơng tin rút trích bao gồm tần số tài liệu thông tin tƣơng quan nhóm từ tài liệu Trên sở phân tích trên, luận văn thực tìm hiểu giải thuật di truyền, sở toán học, cải tiến giải thuật di truyền ứng dụng vào vấn đề tách từ tiếng Việt Việc tách từ tiếng Việt luận văn dựa ý tƣởng thuật tốn IGATEC nhƣng có bổ sung vài cải tiến trình lai ghép đột biến nhằm tăng độ xác Ngồi phần mở đầu, kết luận phụ lục, luận văn đƣợc chia thành chƣơng nhƣ sau:  Chƣơng Một số phƣơng pháp tách từ phân loại văn tiếng Việt: tìm hiểu hƣớng tiếp cận tách từ phân loại văn tiếng Việt phƣơng pháp tách từ tiếng Việt sử dụng giải thuật di truyền kết hợp với trích xuất thơng tin thống kê từ Internet  Chƣơng Giải thuật di truyền: tìm hiểu giải thuật di truyền, sở toán học, toán tử cải tiến giải thuật di truyền TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen  Chƣơng Sử dụng giải thuật di truyền để tách từ tiếng Việt: đề xuất số cải tiến trình lai ghép đột biến với mục tiêu tăng hiệu thuật toán IGATEC Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép nhƣng khơng tránh khỏi thiếu sót Hiện thời luận văn dừng mức tìm hiểu, sử dụng giải thuật di truyền cho trình tách từ tiếng Việt phục vụ cho chƣơng trình dịch chéo đa ngữ, phân loại tự động văn tiếng Việt… Mong quý thầy cô bạn đọc thơng cảm, có ý kiến đóng góp để hồn thiện đề tài (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen Chƣơng MỘT SỐ PHƢƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 1.1 Tổng quan tách từ phân loại văn tiếng Việt Theo kết nghiên cứu [7, 10, 20, 29], phƣơng pháp phân loại văn tiếng Việt hiệu nhƣ: Support Vector Machine, Conditional Random Fields, Dynamic Programing… cần thông tin xác suất hay thống kê trọng số từ Thơng qua tìm hiểu phƣơng pháp việc phân loại văn tiếng Việt, nhận việc tách từ bƣớc quan trọng cần phải đƣợc giải Đối với ngôn ngữ châu Á nhƣ tiếng Hoa, tiếng Nhật, tiếng Hàn tiếng Việt, tách từ khó khăn việc phân loại văn Mặc dù đƣợc viết ký tự La tinh mở rộng, tiếng Việt có đặc tính chung với ngơn ngữ Đơng Nam Á khác nhƣ khó xác định ranh giới từ có nhiều điểm khác biệt ngữ âm, văn phạm ngữ nghĩa… so với tiếng Anh Do đó, khó áp dụng hƣớng tiếp cận đƣợc nghiên cứu thử nghiệm thành công tiếng Anh [6, 12, 18, 29, 30]… cho phân loại văn tiếng Việt không xây dựng thành công giải pháp cho việc tách từ văn tiếng Việt Vì việc xác định ranh giới từ tiếng Việt lại tốn khó? Đơn vị tiếng Việt tiếng (hay “âm tiết”), từ Trong [1] nêu số đặc tính từ tiếng Việt nhƣ sau: - Từ dạng nguyên thể, hình thức ý nghĩa độc lập với cú pháp - Từ đƣợc cấu trúc từ “tiếng” (hay “âm tiết”) (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen - Từ bao gồm từ đơn (từ tiếng) từ ghép (n tiếng với n < 5), bao gồm từ láy từ ghép Ví dụ: “Khoa học” từ ghép gồm “tiếng” tiếng Việt Trong đó, định nghĩa từ tiếng Anh nhƣ sau: “Từ nhóm ký tự có nghĩa, phân cách ký tự khoảng trắng câu” (Theo từ điển Webster) Dƣới số điểm khác biệt tiếng Việt tiếng Anh [2, 17, 25] Đặc điểm Tiếng Việt Tiếng Anh Đơn vị Tiếng (Âm tiết) Từ Tiền tố/Hậu tố Khơng có Có Khơng đồng Đƣợc định nghĩa rõ Từ loại Tổ hợp có nghĩa dựa vào Khoảng trắng dấu câu ngữ cảnh tiếng Ranh giới từ Bảng 1.1 Các điểm khác biệt tiếng Việt tiếng Anh Chính đặc điểm khác biệt làm cho việc tách từ tiếng Việt trở nên khó khăn Theo Đinh Điền [10], số phƣơng pháp tách từ tiếng Hoa số ngôn ngữ Đông Nam Á khác đƣợc thử nghiệm tiếng Việt điều kiện quan trọng cần có hệ thống từ điển tập liệu huấn luyện đầy đủ xác Một từ điển hay tập liệu huấn luyện khơng hồn chỉnh làm giảm hiệu suất thuật tốn Hiện tại, chƣa có từ điển chuẩn hay liệu huấn luyện tiếng Việt đƣợc gán nhãn đủ lớn phục vụ việc Do đặc điểm tiếng Việt nên việc xây dựng từ điển chuẩn hay liệu cần nhiều thời gian, công sức chi (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen phí Đây vấn đề đáng lo toán phân loại văn tiếng, xử lý ngơn ngữ tự nhiên tìm kiếm thông tin tiếng Việt 1.2 Hƣớng tiếp cận tách từ phân loại văn tiếng Việt Theo kết khảo sát Foo Li [14] tách từ văn tiếng Hoa qua tìm hiểu thấy có hai cách tiếp cận vấn đề tách từ phân loại văn bản: Hƣớng tiếp cận dựa từ hƣớng tiếp cận dựa ký tự Vietnamese Segmentation Chinese Segmentation Character - Based Uni - Gram Lê Hà An Word - Based N - Gram H Nguyen Statistic Dictionary Nguyễn Cẩm Tú Hybrid Đinh Điền Luận văn Full Word / Phrase Shortest Match Longest Match Component Overlap Match Hình 1.1 Các hướng tiếp cận việc tách từ tiếng Hoa hướng tiếp cận tách từ tiếng Việt (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 1.2.1 Hướng tiếp cận dựa từ Các hƣớng tiếp cận dựa từ đƣợc chia thành ba nhóm: dựa vào thống kê (Statistic Based), dựa vào từ điển (Dictionary Based) nhóm lai (Hybrid) Giải pháp theo hƣớng tiếp cận dựa vào thống kê cần phải dựa vào thống tin thống kê nhƣ: từ, tần số ký tự, xác suất xuất tập liệu sở… Tính hiệu giải pháp loại chủ yếu dựa vào liệu huấn luyện cụ thể đƣợc sử dụng Đây vấn đề khó khăn toán tách từ tiếng Việt Trong hƣớng tiếp cận dựa vào từ điển, phân đoạn văn đƣợc đối sánh dựa vào từ điển Hạn chế việc tách từ theo hƣớng tiếp cận dựa từ điển cần phải thực hồn tồn dựa từ điển hoàn chỉnh, việc xây dựng từ điển hồn chỉnh khơng khả thi Hƣớng tiếp cận lai áp dụng nhiều cách khác để tận dụng ƣu điểm giải pháp Mặc dù có đƣợc ƣu điểm giải pháp nhƣng hƣớng tiếp cận lại gặp phải khóa khăn, phức tạp khác nhƣ: thời gian xử lý, không gian đĩa… Đinh Điền [10] xây dựng liệu huấn luyện riêng (khoảng 10MB) dựa vào tài nguyên, tin tức sách điện tử Internet… Trên sở tập liệu tác giả sử dụng hệ thống tách từ tiếng Việt gồm hai tầng: tầng WFST việc tách từ xử lý thêm vấn đề liên quan đến đặc thù tiếng Việt nhƣ từ láy, tên riêng… tầng mạng nơron dùng để khử nhập nhằng trƣờng hợp tầng WFST cho kết ngang Phƣơng pháp cho kết với độ xác cao mục đích tác giả để phục vụ cho việc dịch máy Tuy nhiên tập liệu huấn luyện cịn tƣơng đối nhỏ, khó đảm bảo dung lƣợng độ phong phú cho việc tách từ (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 56 khỏi kết tìm kiếm vacation london or Từ khóa “or” paris Admission Giới hạn site site: www.vnexpress.net Star Wars Giới hạn ngày daterange: 2452122- Phép site: tìm kiếm site đƣợc định daterange: trả file có thời gian thõa mãn điều kiện 2452234 Google filetype: doc or Lọc file filetype: pdf Google -filetype: doc or Loại trừ file -filetype: pdf Tìm theo tiêu đề intitle:Google search filetype: tìm kiếm file có kiểu mở rộng đƣợc liệt kê -filetype: ngƣợc lại với lọc file intitle: tìm kiếm tiêu đề web Bảng 3.7 Một số câu truy vấn đặc biệt Google Với Xpath tìm kiếm chuỗi: trang kết trả đƣợc chuyển sang định dạng xHTML dùng cho việc trích xuất dùng Xpath (Xpath đƣợc cung cấp địa http://www.w3.org/TR/XPath20) hay thực tìm kiếm chuỗi Cả hai phƣơng pháp cho hiệu suất tốt (khoảng 1-3s/truy vấn) Xpath định dạng đƣợc W3C đề nghị đƣợc sử dụng rộng rãi việc truy vấn tập tin XML Sử dụng Xpath có thuận lợi tìm kiếm chuỗi chỗ sử dụng trích xuất nhiều ngôn ngữ trả từ Google cấu trúc trang web thay đổi ta lấy đƣợc thơng tin trả Google Trong việc tìm kiếm chuỗi phụ thuộc vào câu đặc biệt (nhƣ “các kết ” ) Do đó, trang trả Google trình bày khác đi, cách tìm kiếm chuỗi khơng cho kết mong muốn Tuy nhiên, sử dụng cách tìm kiếm chuỗi cho kết nhanh dùng Xpath hệ thống khơng phải tốn thời gian phân tích liệu thành dạng tài liệu XML (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 57 3.3.2.2 Tổ chức lưu trữ liệu dạng file Cache Hƣớng tiếp cận luận văn dựa thống kê từ Google, lần cần lấy tần số xuất từ phải thực lấy thông tin từ Google, điều làm tiêu tốn thời gian chờ đợi Do thông tin lấy đƣợc từ Internet đƣợc lƣu lại vào file liệu đệm để sử dụng lại cần đến Việc quản lý liệu đƣợc thực file văn thông thƣờng kiểu fonts Unicode UTF-8 File liệu đệm chứa thông tin:  Từ: từ tìm từ Google  Xác suất: xác suất từ Google  Loại từ mang giá trị: W(là từ), NW (khơng từ), WC (có thể từ), NWC (khơng thể từ), UD (chƣa phân loại) Khi bắt đầu hoạt động, hệ thống tự động thực đọc file liệu, phân tích chuỗi file để lấy thông tin Cách xử lý làm tăng tốc độ tìm kiếm thơng tin từ 3.3.3 Biểu diễn cá thể Nhƣ phân tích chƣơng 2, biểu diễn nhị phân khiến cho cách mã hóa có sơ đồ Đồng thời cách mã hóa chuỗi nhị phân thƣờng giúp dễ dàng toán tử di truyền Trong toán ta lựa chọn cách biểu diễn nhị phân để biểu diễn cá thể (id) Quần thể (pop) tập hợp cá thể (id) đƣợc biểu diễn xâu nhị phân: Mỗi bit tƣơng ứng với tiếng, từ gồm bit giống liên tiếp Ví dụ: học || sinh || học || sinh || học 0 0 (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 58 học sinh # học # sinh học x1 x2 x3 3.3.4 Khởi tạo tham số Ở bƣớc này, ta gán giá trị tham số nhƣ số lƣợng hệ tiến hóa, kích thƣớc quần thể, xác suất lai ghép (pc), đột biến (pm) tỉ lệ tái sinh… Các tham số giải thuật di truyền nhƣ sau: - Số lƣợng hệ tối đa = 100 - Số lƣợng cá thể quần thể = 100 - Xác suất lai ghép = 0.8 - Xác suất đột biến = 0.1 - Phép chọn N = 100 cá thể tốt Các cá thể ban đầu quần thể đƣợc sản sinh ngẫu nhiên Tuy nhiên, nhằm tối ƣu hóa chuỗi ngẫu nhiên đƣợc sinh áp dụng số ràng buộc, cụ thể: - Mỗi đoạn gồm tối đa tiếng - Xác suất tạo đoạn gồm tiếng cao xác suất tạo đoạn có độ dài khác tiếng o Xác suất từ tiếng = 0.1 o Xác suất từ tiếng = 0.7 o Xác suất từ tiếng = 0.1 o Xác suất từ tiếng = 0.1 Hình 3.3 Thang tỷ lệ phát sinh loại từ (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 59 Với cách khởi tạo nhẫu nhiên, sinh ngẫu nhiên xác suất f (0 ≤ f ≤ 1) để chọn loại từ: - Nếu ≤ f < 0.1: sinh loại từ tiếng - Nếu 0.1 ≤ f < 0.8: sinh loại từ tiếng - Nếu 0.8 ≤ f < 0.9: sinh loại từ tiếng - Nếu 0.9 ≤ f ≤ 1: sinh loại từ tiếng Ngoài ra, áp dụng dạng đơn giản giải thuật đối sánh Left Right Maximum Matching (Theo ChihHao Tsai [8]) để tạo hai cá thể đặc biệt: cá thể “tiến” cá thể “lùi” Thực tách từ theo hai hƣớng từ trái sang phải từ phải sang trái, hai cách tách từ trùng chọn gộp vào số cá thể đƣợc khởi tạo ngẫu nhiên Phƣơng pháp LRMM cần duyệt tuyến tính, giảm thiểu đƣợc chi phí thời gian tính tốn so với phƣơng pháp khác Đây bƣớc khởi tạo quan trọng điểm cải tiến so với IGATEC với hi vọng quần thể ban đầu có số cá thể tối ƣu hóa cục bộ, giúp tăng tốc độ q trình tiến hóa 3.3.5 Toán tử chọn lọc Ở hệ, đánh giá chọn giữ lại N cá thể tốt Trƣớc tiên, cá thể đƣợc tính độ thích nghi (fitness) tổng giá trị MI từ đƣợc tách câu Hàm thích nghi cá thể id đƣợc xác định nhƣ sau: m fit(id) = fit(x1x2…xm) =  MI ( x k 1 k ) (3.7) N fit(pop) =  fit (id ) i 1 i (3.8) với id=x1x2…xm cá thể quần thể pop = {id1, …, idN} (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 60 Xử lý chọn lọc thể đƣợc hình thành mơ hình tái tạo quay vịng trịn có hƣớng Rulet Mỗi cần tạo con, giải thuật thực lần quay vịng trịn có trọng số nhằm sinh sản ứng cử viên cho việc tái sinh Kỹ thuật thực theo bƣớc sau: - Tính fit(pop) tất thành viên quần thể - Sinh số ngẫu nhiên  khoảng từ đến fit(pop) - Trả lại thành viên mà độ phù hợp công với độ phù hợp thành viên trƣớc lớn  Nếu ta cần chọn tái sinh N cá thể việc tiến hành N lần Sau thực q trình tái tạo, quần thể đƣợc xếp theo giá trị độ thích nghi giảm dần, q trình chọn lọc cá thể chọn top N cá thể có độ thích nghi cao để tạo nên quần thể tiếp tục tiến hoá hệ sau Đây trình quan trọng cải tiến trình tiến hố việc lựa chọn cá thể bƣớc định cá thể tiến hố có tốt hay khơng 3.3.6 Tốn tử lai ghép Áp dụng thao tác lai ghép hai xâu bit bố mẹ để tạo lai tốt với xác suất lai ghép p c Xác suất cho số lƣợng pc*pop cá thể đƣợc dùng cho hoạt động lai ghép Với cá thể quần thể: - Sinh số ngẫu nhiên r [0 1] - Nếu r < Pc chọn cá thể để lai ghép - Kết hợp cá thể đƣợc chọn cách ngẫu nhiên Luận văn đề xuất cải tiến cho phép lai thực lai ghép nhiều điểm hai cá thể bố mẹ Với cặp cá thể id1 id2, phát sinh ngẫu nhiên (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 61 n số pi (i  [1 n]) báo hiệu vị trí lai ghép cá thể bố mẹ Hai cá thể đƣợc tạo hoán đổi đoạn id1 với id2 ngƣợc lại Ví dụ: Giả sử có hai bố mẹ là: id1 = 0 | 1 | 1 id2 = | 1 | 1 với vị trí lai ghép hai cá thể con: id‟1 = 0 1 1 id‟2 = 1 1 1 Trong trình thực lai ghép, cá thể vi phạm điều kiện giới hạn kích thƣớc (mỗi đoạn xk có kích thƣớc tối đa 4) đƣợc chuẩn cách đảo bit gây vi phạm cuối đoạn 3.3.7 Toán tử đột biến Thay dùng phép đột biến đảo bit ngẫu nhiên, luận văn đề xuất hai cải tiến q trình đột biến nhƣ sau:  Hốn chuyển vị trí hai bit liền vị trí ngẫu nhiên: Trong việc phân định ranh giới từ, ta thấy tiếng kết hợp với tiếng trƣớc khơng phù hợp kết hợp với từ đứng sau phù hợp hơn, đứng Ví dụ: Có chuỗi có độ dài 14 nhƣ sau: id = 0 0 1 0 0 Thực đảo vị trí bit số chuỗi ta đƣợc thể mới: id' = 0 0 1 0 0  Sắp xếp lại bit cá thể con: (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen(LUAN.van.THAC.si).cac.ky.thuat.lai.ghep.trong.giai.thuat.di.truyen 62 Thực tìm kiếm xếp lại bit cá thể (toán tử đảo ngƣợc) Dƣới tác động toán tử này, hai điểm đƣợc chọn dọc theo chiều dài chuỗi, cắt chuỗi hai điểm Tiếp theo đó, hai chuỗi gen hai đầu đƣợc đổi chỗ cho Ví dụ: Có chuỗi có độ dài 14 nhƣ sau: id = | 0 1 0 | Chuỗi đƣợc cắt vị trí số vị trí số 12, sau tráo đổi hai chuỗi hai đầu cho nhau, có chuỗi kết quả: A' = 1 0 1 0 Tƣơng tự trình lai ghép, ta chuẩn hóa cá thể để thỏa mãn điều kiện giới hạn kích thƣớc phân đoạn 3.3.8 Quá trình sinh sản Sau thực chọn lọc lai ghép ta chọn lại số cá thể hệ trƣớc đƣa vào quần thể thực đột biến làm tăng kích thƣớc quần thể đến giá trị quần thể đƣợc khởi tạo  Hội tụ: Q trình tiến hóa nhằm cải thiện độ thích nghi cá thể quần thể, tức cải thiện chất lƣợng việc tách từ Ở hệ tiến hóa, số thích nghi quần thể tăng dần đến ngƣỡng gọi độ hội tụ  Khi đó, độ chênh lệch số thích nghi quần thể hai hệ nhỏ dần tiến dần đến Vì vây, dừng trình tiến hóa độ thích nghi hệ sau không cao hệ trƣớc, số lƣợng hệ đạt ngƣỡng  cho trƣớc ( 

Ngày đăng: 17/12/2023, 01:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w