Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
157,77 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN XUÂN TOÀN CÁC KỸ THUẬT LAI GHÉP TRONG GIẢI THUẬT DI TRUYỀN NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TSKH NGUYỄN XUÂN HUY HÀ NỘI - 2007 MỤC LỤC MỞ ĐẦU Chƣơng MỘT SỐ PHƢƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT .6 1.1 Tổng quan tách từ phân loại văn tiếng Việt 1.2 Hƣớng tiếp cận tách từ phân loại văn tiếng Việt 1.2.1 Hƣớng tiếp cận dựa từ 1.2.2 Hƣớng tiếp cận dựa ký tự 10 1.2.3 Một số nhận xét phƣơng pháp tách từ tiếng Việt 11 1.3 Phƣơng pháp tách từ phân loại văn tiếng Việt dựa thống kê từ Internet Giải thuật di truyền .11 Kết luận chƣơng 15 Chƣơng GIẢI THUẬT DI TRUYỀN 16 2.1 Tổng quan giải thuật di truyền 16 2.2 Một số cách biểu diễn lời giải giải thuật di truyền 19 2.2.1 Biểu diễn nhị phân 19 2.2.2 Biểu diễn hoán vị 20 2.2.3 Biểu diễn giá trị 21 2.2.4 Biểu diễn dạng 21 2.3 Các toán tử di truyền 21 2.3.1 Đánh giá độ thích nghi cá thể toán tử chọn lọc 22 2.3.2 Toán tử lai ghép 24 2.3.3 Toán tử đột biến 25 2.4 Cơ sở toán học giải thuật di truyền 27 2.4.1 Một số khái niệm 28 2.4.2 Định lý sơ đồ 30 2.5 Những cải tiến giải thuật di truyền 32 2.5.1 Các toán tử cao cấp 2.5.2 Các sơ đồ lựa chọn Kết luận chƣơng Chƣơng SỬ DỤNG GIẢI THUẬT DI TRUYỀN TÁCH TỪ TIẾNG VIỆT 3.1 Cấu trúc âm tiết mối tƣơng quan với “từ” tiếng Việt 3.1.1 Cấu trúc âm tiết năm thành phần 3.1.2 Cấu trúc âm tiết ba thành phần 3.1.3 So sánh cấu trúc hai loại âm tiết 3.2 Nguyên lý thống kê dựa Internet 3.3 Sử dụng giải thuật di truyền để tách từ tiếng Việt 3.3.1 Khảo sát độ dài “từ” từ điển 3.3.2 Xử lý liệu 3.3.3 Biểu diễn cá thể 3.3.4 Khởi tạo tham số 3.3.5 Toán tử chọn lọc 3.3.6 Toán tử lai ghép 3.3.7 Toán tử đột biến 3.3.8 Quá trình sinh sản 3.4 Phân loại văn tiếng Việt Kết luận chƣơng KẾT LUẬN TÀI LIỆU THAM KHẢO PHỤ LỤC MỞ ĐẦU Hơn hai thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ thiết bị điện tử không ngừng tăng lên Do ƣu điểm lƣu trữ tài liệu số nhƣ cách lƣu trữ gọn nhẹ, thời gian lƣu trữ lâu dài, tiện dụng trao đổi, dễ dàng sửa đổi… nên phƣơng thức sử dụng giấy tờ công việc giao dịch dần đƣợc số hoá chuyển sang dạng văn lƣu trữ máy tính truyền tải mạng Điều làm số lƣợng văn số tăng lên nhanh chóng Cùng với gia tăng số lƣợng văn bản, nhu cầu tìm kiếm văn tăng theo Với lƣợng văn đồ sộ việc phân loại văn tự động phục vụ trình tìm kiếm thơng tin dễ dàng, nhanh chóng cần thiết Đồng thời, việc phân loại văn tự động giúp ngƣời tiết kiệm đƣợc nhiều thời gian công sức Theo [29], “Việc phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện” Trong tiếng Anh có nhiều cơng trình nghiên cứu đạt đƣợc kết nhƣ: Graph - Based Approach [6], Neural Network [12], Support Vector Machine [18], Linear Least Squares Fit [28]… Các phƣơng pháp dựa vào xác suất thống kê thông tin trọng số từ văn Đối với tiếng Việt, có số cơng trình nghiên cứu phân loại văn bản: Conditional Random Fields and Support Vector Machine [7], Weighted Finit State Transducer and Neural Network [10], Dynamic Programming [20] … Các nghiên cứu đề cập đến khó khăn vấn đề xử lý văn để rút tần số xuất từ Trong đó, để phân loại văn bƣớc tách từ quan trọng Đồng thời phần lớn phƣơng pháp tách từ tiếng Việt dựa tập liệu huấn luyện từ điển chƣa có từ điển hay tập liệu huấn luyện tiếng Việt đƣợc gán nhãn đủ lớn phục vụ việc Trong thời gian gần đây, phƣơng pháp tiếp cận cho việc tách từ phân loại văn là: Internet and Genetics Algorithm - Based Text Categorization (IGATEC) H Nguyen [17] Điểm khác biệt thuật toán kết hợp giải thuật di truyền với việc trích xuất thơng tin thống kê từ Internet thông qua công cụ tìm kiếm thay lấy từ tập liệu nhƣ phƣơng pháp khác Giải thuật di truyền cho phép xây dựng phƣơng pháp tìm kiếm song song (tìm kiếm tiến hóa) quần thể mà cá thể tƣơng ứng với cách tách từ cho câu xét Hàm thích nghi đánh giá độ thích nghi tài liệu thống kê, rút trích từ Internet sử dụng cơng cụ tìm kiếm thơng minh (Search Engine) Thơng tin rút trích bao gồm tần số tài liệu thông tin tƣơng quan nhóm từ tài liệu Trên sở phân tích trên, luận văn thực tìm hiểu giải thuật di truyền, sở toán học, cải tiến giải thuật di truyền ứng dụng vào vấn đề tách từ tiếng Việt Việc tách từ tiếng Việt luận văn dựa ý tƣởng thuật toán IGATEC nhƣng có bổ sung vài cải tiến trình lai ghép đột biến nhằm tăng độ xác Ngồi phần mở đầu, kết luận phụ lục, luận văn đƣợc chia thành chƣơng nhƣ sau: Chƣơng Một số phƣơng pháp tách từ phân loại văn tiếng Việt: tìm hiểu hƣớng tiếp cận tách từ phân loại văn tiếng Việt phƣơng pháp tách từ tiếng Việt sử dụng giải thuật di truyền kết hợp với trích xuất thông tin thống kê từ Internet Chƣơng Giải thuật di truyền: tìm hiểu giải thuật di truyền, sở toán học, toán tử cải tiến giải thuật di truyền Chƣơng Sử dụng giải thuật di truyền để tách từ tiếng Việt: đề xuất số cải tiến trình lai ghép đột biến với mục tiêu tăng hiệu thuật toán IGATEC Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép nhƣng không tránh khỏi thiếu sót Hiện thời luận văn dừng mức tìm hiểu, sử dụng giải thuật di truyền cho trình tách từ tiếng Việt phục vụ cho chƣơng trình dịch chéo đa ngữ, phân loại tự động văn tiếng Việt… Mong quý thầy cô bạn đọc thơng cảm, có ý kiến đóng góp để hồn thiện đề tài Chƣơng MỘT SỐ PHƢƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 1.1 Tổng quan tách từ phân loại văn tiếng Việt Theo kết nghiên cứu [7, 10, 20, 29], phƣơng pháp phân loại văn tiếng Việt hiệu nhƣ: Support Vector Machine, Conditional Random Fields, Dynamic Programing… cần thông tin xác suất hay thống kê trọng số từ Thơng qua tìm hiểu phƣơng pháp việc phân loại văn tiếng Việt, nhận việc tách từ bƣớc quan trọng cần phải đƣợc giải Đối với ngôn ngữ châu Á nhƣ tiếng Hoa, tiếng Nhật, tiếng Hàn tiếng Việt, tách từ khó khăn việc phân loại văn Mặc dù đƣợc viết ký tự La tinh mở rộng, tiếng Việt có đặc tính chung với ngơn ngữ Đơng Nam Á khác nhƣ khó xác định ranh giới từ có nhiều điểm khác biệt ngữ âm, văn phạm ngữ nghĩa… so với tiếng Anh Do đó, khó áp dụng hƣớng tiếp cận đƣợc nghiên cứu thử nghiệm thành công tiếng Anh [6, 12, 18, 29, 30]… cho phân loại văn tiếng Việt không xây dựng thành công giải pháp cho việc tách từ văn tiếng Việt Vì việc xác định ranh giới từ tiếng Việt lại tốn khó? Đơn vị tiếng Việt tiếng (hay “âm tiết”), từ Trong [1] nêu số đặc tính từ tiếng Việt nhƣ sau: - Từ dạng nguyên thể, hình thức ý nghĩa độc lập với cú pháp - Từ đƣợc cấu trúc từ “tiếng” (hay “âm tiết”) Từ bao gồm từ đơn (từ tiếng) từ ghép (n tiếng với n < 5), bao - gồm từ láy từ ghép Ví dụ: “Khoa học” từ ghép gồm “tiếng” tiếng Việt Trong đó, định nghĩa từ tiếng Anh nhƣ sau: “Từ nhóm ký tự có nghĩa, phân cách ký tự khoảng trắng câu” (Theo từ điển Webster) Dƣới số điểm khác biệt tiếng Việt tiếng Anh [2, 17, 25] Đặc điểm Đơn vị Tiền tố/Hậu tố Từ loại Ranh giới từ Bảng 1.1 Các điểm khác biệt tiếng Việt tiếng Anh Chính đặc điểm khác biệt làm cho việc tách từ tiếng Việt trở nên khó khăn Theo Đinh Điền [10], số phƣơng pháp tách từ tiếng Hoa số ngôn ngữ Đông Nam Á khác đƣợc thử nghiệm tiếng Việt điều kiện quan trọng cần có hệ thống từ điển tập liệu huấn luyện đầy đủ xác Một từ điển hay tập liệu huấn luyện khơng hồn chỉnh làm giảm hiệu suất thuật toán Hiện tại, chƣa có từ điển chuẩn hay liệu huấn luyện tiếng Việt đƣợc gán nhãn đủ lớn phục vụ việc Do đặc điểm tiếng Việt nên việc xây dựng từ điển chuẩn hay liệu cần nhiều thời gian, công sức chi phí Đây vấn đề đáng lo tốn phân loại văn tiếng, xử lý ngơn ngữ tự nhiên tìm kiếm thơng tin tiếng Việt 1.2 Hƣớng tiếp cận tách từ phân loại văn tiếng Việt Theo kết khảo sát Foo Li [14] tách từ văn tiếng Hoa qua tìm hiểu thấy có hai cách tiếp cận vấn đề tách từ phân loại văn bản: Hƣớng tiếp cận dựa từ hƣớng tiếp cận dựa ký tự Chinese Segmentation Character - Based Uni - Gram Lê Hà An Luận văn Full Word / Phrase Shortest Match Hình 1.1 Các hướng tiếp cận việc tách từ tiếng Hoa hướng tiếp cận tách từ tiếng Việt 1.2.1 Hướng tiếp cận dựa từ Các hƣớng tiếp cận dựa từ đƣợc chia thành ba nhóm: dựa vào thống kê (Statistic Based), dựa vào từ điển (Dictionary Based) nhóm lai (Hybrid) Giải pháp theo hƣớng tiếp cận dựa vào thống kê cần phải dựa vào thống tin thống kê nhƣ: từ, tần số ký tự, xác suất xuất tập liệu sở… Tính hiệu giải pháp loại chủ yếu dựa vào liệu huấn luyện cụ thể đƣợc sử dụng Đây vấn đề khó khăn tốn tách từ tiếng Việt Trong hƣớng tiếp cận dựa vào từ điển, phân đoạn văn đƣợc đối sánh dựa vào từ điển Hạn chế việc tách từ theo hƣớng tiếp cận dựa từ điển cần phải thực hoàn toàn dựa từ điển hoàn chỉnh, việc xây dựng từ điển hồn chỉnh khơng khả thi Hƣớng tiếp cận lai áp dụng nhiều cách khác để tận dụng ƣu điểm giải pháp Mặc dù có đƣợc ƣu điểm giải pháp nhƣng hƣớng tiếp cận lại gặp phải khóa khăn, phức tạp khác nhƣ: thời gian xử lý, không gian đĩa… Đinh Điền [10] xây dựng liệu huấn luyện riêng (khoảng 10MB) dựa vào tài nguyên, tin tức sách điện tử Internet… Trên sở tập liệu tác giả sử dụng hệ thống tách từ tiếng Việt gồm hai tầng: tầng WFST ngồi việc tách từ cịn xử lý thêm vấn đề liên quan đến đặc thù tiếng Việt nhƣ từ láy, tên riêng… tầng mạng nơron dùng để khử nhập nhằng trƣờng hợp tầng WFST cho kết ngang Phƣơng pháp cho kết với độ xác cao mục đích tác giả để phục vụ cho việc dịch máy Tuy nhiên tập liệu huấn luyện tƣơng đối nhỏ, khó đảm bảo dung lƣợng độ phong phú cho việc tách từ Từ khóa “or” Giới hạn site Giới hạn ngày Lọc file Loại trừ file Tìm theo tiêu đề Bảng 3.7 Một số câu truy vấn đặc biệt Google Với Xpath tìm kiếm chuỗi: trang kết trả đƣợc chuyển sang định dạng xHTML dùng cho việc trích xuất dùng Xpath (Xpath đƣợc cung cấp địa http://www.w3.org/TR/XPath20) hay thực tìm kiếm chuỗi Cả hai phƣơng pháp cho hiệu suất tốt (khoảng 1-3s/truy vấn) Xpath định dạng đƣợc W3C đề nghị đƣợc sử dụng rộng rãi việc truy vấn tập tin XML Sử dụng Xpath có thuận lợi tìm kiếm chuỗi chỗ sử dụng trích xuất nhiều ngôn ngữ trả từ Google cấu trúc trang web thay đổi ta lấy đƣợc thơng tin trả Google Trong việc tìm kiếm chuỗi phụ thuộc vào câu đặc biệt (nhƣ “các kết ” ) Do đó, trang trả Google trình bày khác đi, cách tìm kiếm chuỗi khơng cho kết mong muốn Tuy nhiên, sử dụng cách tìm kiếm chuỗi cho kết nhanh dùng Xpath hệ thống khơng phải tốn thời gian phân tích liệu thành dạng tài liệu XML 57 3.3.2.2 Tổ chức lưu trữ liệu dạng file Cache Hƣớng tiếp cận luận văn dựa thống kê từ Google, lần cần lấy tần số xuất từ phải thực lấy thông tin từ Google, điều làm tiêu tốn thời gian chờ đợi Do thông tin lấy đƣợc từ Internet đƣợc lƣu lại vào file liệu đệm để sử dụng lại cần đến Việc quản lý liệu đƣợc thực file văn thông thƣờng kiểu fonts Unicode UTF-8 File liệu đệm chứa thơng tin: Từ: từ tìm từ Google Xác suất: xác suất từ Google Loại từ mang giá trị: W(là từ), NW (khơng từ), WC (có thể từ), NWC (không thể từ), UD (chƣa phân loại) Khi bắt đầu hoạt động, hệ thống tự động thực đọc file liệu, phân tích chuỗi file để lấy thông tin Cách xử lý làm tăng tốc độ tìm kiếm thơng tin từ 3.3.3 Biểu diễn cá thể Nhƣ phân tích chƣơng 2, biểu diễn nhị phân khiến cho cách mã hóa có sơ đồ Đồng thời cách mã hóa chuỗi nhị phân thƣờng giúp dễ dàng toán tử di truyền Trong toán ta lựa chọn cách biểu diễn nhị phân để biểu diễn cá thể (id) Quần thể (pop) tập hợp cá thể (id) đƣợc biểu diễn xâu nhị phân: Mỗi bit tƣơng ứng với tiếng, từ gồm bit giống liên tiếp Ví dụ: học || sinh || học || sinh || học 0 0 58 học sinh # học # sinh học x1 x2 x3 3.3.4 Khởi tạo tham số Ở bƣớc này, ta gán giá trị tham số nhƣ số lƣợng hệ tiến hóa, kích thƣớc quần thể, xác suất lai ghép (p c), đột biến (pm) tỉ lệ tái sinh… Các tham số giải thuật di truyền nhƣ sau: - Số lƣợng hệ tối đa = 100 - Số lƣợng cá thể quần thể = 100 - Xác suất lai ghép = 0.8 - Xác suất đột biến = 0.1 - Phép chọn N = 100 cá thể tốt Các cá thể ban đầu quần thể đƣợc sản sinh ngẫu nhiên Tuy nhiên, nhằm tối ƣu hóa chuỗi ngẫu nhiên đƣợc sinh áp dụng số ràng buộc, cụ thể: - Mỗi đoạn gồm tối đa tiếng - Xác suất tạo đoạn gồm tiếng cao xác suất tạo đoạn có độ dài khác tiếng o Xác suất từ tiếng = 0.1 o Xác suất từ tiếng = 0.7 o Xác suất từ tiếng = 0.1 o Xác suất từ tiếng = 0.1 Hình 3.3 Thang tỷ lệ phát sinh loại từ 59 Với cách khởi tạo nhẫu nhiên, sinh ngẫu nhiên xác suất f (0 ≤ f ≤ 1) để chọn loại từ: - Nếu ≤ f < 0.1: sinh loại từ tiếng - Nếu 0.1 ≤ f < 0.8: sinh loại từ tiếng - Nếu 0.8 ≤ f < 0.9: sinh loại từ tiếng - Nếu 0.9 ≤ f ≤ 1: sinh loại từ tiếng Ngoài ra, áp dụng dạng đơn giản giải thuật đối sánh Left Right Maximum Matching (Theo ChihHao Tsai [8]) để tạo hai cá thể đặc biệt: cá thể “tiến” cá thể “lùi” Thực tách từ theo hai hƣớng từ trái sang phải từ phải sang trái, hai cách tách từ trùng chọn gộp vào số cá thể đƣợc khởi tạo ngẫu nhiên Phƣơng pháp LRMM cần duyệt tuyến tính, giảm thiểu đƣợc chi phí thời gian tính toán so với phƣơng pháp khác Đây bƣớc khởi tạo quan trọng điểm cải tiến so với IGATEC với hi vọng quần thể ban đầu có số cá thể tối ƣu hóa cục bộ, giúp tăng tốc độ q trình tiến hóa 3.3.5 Tốn tử chọn lọc Ở hệ, đánh giá chọn giữ lại N cá thể tốt Trƣớc tiên, cá thể đƣợc tính độ thích nghi (fitness) tổng giá trị MI từ đƣợc tách câu Hàm thích nghi cá thể id đƣợc xác định nhƣ sau: m fit(id) = fit(x1x2…xm) = k =1 fit(pop) = ∑ MI (x ) ∑ k N fit (id ) i i=1 với id=x1x2…xm cá thể quần thể pop = {id1, …, idN} 60 Xử lý chọn lọc thể đƣợc hình thành mơ hình tái tạo quay vịng trịn có hƣớng Rulet Mỗi cần tạo con, giải thuật thực lần quay vịng trịn có trọng số nhằm sinh sản ứng cử viên cho việc tái sinh Kỹ thuật thực theo bƣớc sau: - Tính fit(pop) tất thành viên quần thể - Sinh số ngẫu nhiên α khoảng từ đến fit(pop) - Trả lại thành viên mà độ phù hợp cơng với độ phù hợp thành viên trƣớc lớn α Nếu ta cần chọn tái sinh N cá thể việc tiến hành N lần Sau thực q trình tái tạo, quần thể đƣợc xếp theo giá trị độ thích nghi giảm dần, q trình chọn lọc cá thể chọn top N cá thể có độ thích nghi cao để tạo nên quần thể tiếp tục tiến hố hệ sau Đây q trình quan trọng cải tiến trình tiến hố việc lựa chọn cá thể bƣớc định cá thể tiến hố có tốt hay khơng 3.3.6 Tốn tử lai ghép Áp dụng thao tác lai ghép hai xâu bit bố mẹ để tạo lai tốt với xác suất lai ghép pc Xác suất cho số lƣợng p c*pop cá thể đƣợc dùng cho hoạt động lai ghép Với cá thể quần thể: - Sinh số ngẫu nhiên r [0 1] - Nếu r < Pc chọn cá thể để lai ghép - Kết hợp cá thể đƣợc chọn cách ngẫu nhiên Luận văn đề xuất cải tiến cho phép lai thực lai ghép nhiều điểm hai cá thể bố mẹ Với cặp cá thể id1 id2, phát sinh ngẫu nhiên 61 n số pi (i ∈ [1 n]) báo hiệu vị trí lai ghép cá thể bố mẹ Hai cá thể đƣợc tạo hoán đổi đoạn id1 với id2 ngƣợc lại Ví dụ: Giả sử có hai bố mẹ là: id1 = 0 | 1 | 1 id2 = | 1 | 1 với vị trí lai ghép hai cá thể con: id‟1 = 0 1 1 id‟2 = 1 1 1 Trong trình thực lai ghép, cá thể vi phạm điều kiện giới hạn kích thƣớc (mỗi đoạn x k có kích thƣớc tối đa 4) đƣợc chuẩn cách đảo bit gây vi phạm cuối đoạn 3.3.7 Toán tử đột biến Thay dùng phép đột biến đảo bit ngẫu nhiên, luận văn đề xuất hai cải tiến q trình đột biến nhƣ sau: Hốn chuyển vị trí hai bit liền vị trí ngẫu nhiên: Trong việc phân định ranh giới từ, ta thấy tiếng kết hợp với tiếng trƣớc khơng phù hợp kết hợp với từ đứng sau phù hợp hơn, đứng Ví dụ: Có chuỗi có độ dài 14 nhƣ sau: id = 0 0 1 0 0 Thực đảo vị trí bit số chuỗi ta đƣợc thể mới: id' = 0 0 1 0 0 Sắp xếp lại bit cá thể con: 62 Thực tìm kiếm xếp lại bit cá thể (toán tử đảo ngƣợc) Dƣới tác động toán tử này, hai điểm đƣợc chọn dọc theo chiều dài chuỗi, cắt chuỗi hai điểm Tiếp theo đó, hai chuỗi gen hai đầu đƣợc đổi chỗ cho Ví dụ: Có chuỗi có độ dài 14 nhƣ sau: id = | 0 1 0 | Chuỗi đƣợc cắt vị trí số vị trí số 12, sau tráo đổi hai chuỗi hai đầu cho nhau, có chuỗi kết quả: A'=010100 01 100010 Tƣơng tự trình lai ghép, ta chuẩn hóa cá thể để thỏa mãn điều kiện giới hạn kích thƣớc phân đoạn 3.3.8 Quá trình sinh sản Sau thực chọn lọc lai ghép ta chọn lại số cá thể hệ trƣớc đƣa vào quần thể thực đột biến làm tăng kích thƣớc quần thể đến giá trị quần thể đƣợc khởi tạo Hội tụ: Q trình tiến hóa nhằm cải thiện độ thích nghi cá thể quần thể, tức cải thiện chất lƣợng việc tách từ Ở hệ tiến hóa, số thích nghi quần thể tăng dần đến ngƣỡng gọi độ hội tụ Khi đó, độ chênh lệch số thích nghi quần thể hai hệ nhỏ dần tiến dần đến Vì vây, dừng trình tiến hóa độ thích nghi hệ sau không cao hệ trƣớc, số lƣợng hệ đạt ngƣỡng α cho trƣớc ( α