Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
1,65 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Thu Trang NGHIÊN CỨU GÁN NHÃN TỪ LOẠI CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC MÁY KHÔNG CĨ HƯỚNG DẪN Chun nghành: Bảo đảm tốn học cho máy tính hệ thống tính tốn Mã số: 60 46 35 TÓM TẮT LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ MINH HUYỀN Hà Nội – Năm 2012 Mục lục LỜI NÓI ĐẦU Chƣơng - TỔNG QUAN 1.1 Bài toán gán nhãn từ loại 1.2 Tổng quan cách tiếp cận giải toán 1.2.1 Quá trình gán nhãn từ loại 1.2.2 Ngữ liệu 1.2.3 Các tiếp cận giải toán 1.2.5 Gán nhãn dựa luật 10 1.2.6 Gán nhãn thống kê 11 1.2.7 Các từ chƣa biết 12 1.3 Bài toán gán nhãn từ loại tiếng Việt 13 Chƣơng - CƠ SỞ TOÁN HỌC 15 2.1 Định lý Bayes 15 2.2 Thuật tốn cực đại hóa kỳ vọng (EM) 16 2.3 Mơ hình Markov ẩn 17 2.3.1 Ba toán HMM 18 2.2.2 Mơ hình n-gram 23 2.4 Phân cụm 23 2.4.1 Khái niệm phân cụm 23 2.4.2 Các yêu cầu phân cụm 24 2.4.3 Các phƣơng pháp phân cụm 24 2.4.4 Độ đo khoảng cách 26 2.5 Phân tích giá trị kỳ dị 27 Chƣơng - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHƠNG CĨ HƢỚNG DẪN CHO GÁN NHÃN TỪ LOẠI 30 3.1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng 30 3.1.1 Huấn luyện mơ hình Trigram 31 3.1.2 Kết thử nghiệm với tiếng Anh 34 3.1.3 Các thí nghiệm 34 3.2 Gán nhãn từ loại kỹ thuật phân cụm 35 3.2.1 Suy luận gán nhãn 36 3.2.2 Suy luận dựa từ loại 37 3.2.3 Suy luận dựa loại từ ngữ cảnh 37 3.2.4 Suy luận dựa loại từ ngữ cảnh, sử dụng véc tơ ngữ cảnh trái phải tổng quát hoá 38 3.2.5 Các kết 39 3.3 Đề xuất phƣơng pháp không hƣớng dẫn cho toán gán nhãn từ loại tiếng Việt 40 KẾT LUẬN 48 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo khoa Tốn–Cơ–Tin học dạy dỗ truyền đạt cho em nhiều kiến thức năm học vừa qua Đặc biệt em xin gửi lời cảm ơn tới TS Nguyễn Thị Minh Huyền tận tình bảo truyền đạt kiến thức chuyên ngành trình em thực luận văn Cuối em xin gửi lời chúc tốt đẹp tới thầy cô giáo khoa, cô Nguyễn Thị Minh Huyền, gia đình bạn bè ngƣời ủng hộ em thời gian vừa qua LỜI NÓI ĐẦU Một vấn đề tảng ngôn ngữ tự nhiên việc phân loại từ thành lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tƣơng ứng với lớp từ giữ vai trò ngữ pháp định Nói chung, từ ngơn ngữ gắn với nhiều từ loại, việc tự động “hiểu” nghĩa từ phụ thuộc vào việc đƣợc xác định từ loại hay khơng Cơng việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn Các cơng cụ gán nhãn (hay thích) từ loại cho từ văn thay đổi tuỳ theo quan niệm đơn vị từ vựng thông tin ngôn ngữ cần khai thác ứng dụng cụ thể Xác định từ loại xác cho từ văn vấn đề quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Công cụ gán nhãn từ loại đƣợc ứng dụng rộng rãi hệ thống tìm kiếm thơng tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói nhƣ hệ thống dịch máy Công cụ hỗ trợ cho việc phân tích cú pháp văn bản, góp phần giải tính đa nghĩa từ, trợ giúp hệ hống rút trích thông tin hƣớng đến ngữ nghĩa, v.v… Vấn đề gán nhãn từ loại nhiều ngôn ngữ đƣợc giải tốt phƣơng pháp học máy có hƣớng dẫn, nghĩa phải xây dựng kho ngữ liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại Hiện nay, toán gán nhãn từ loại tiếng Việt đƣợc số nhóm nghiên cứu giải giải chủ yếu phƣơng pháp học máy có hƣớng dẫn, nhƣng việc xây dựng tập huấn luyện cịn gặp nhiều khó khăn thân nhà ngơn ngữ học cịn chƣa thống tập từ loại tiếng Việt nên nhóm tự định nghĩa tập nhãn khác nhau, nhóm tự xây dựng kho liệu gán nhãn xây dựng tập luật khác Công việc nhiều thời gian, tiền công sức nhà nghiên cứu Một cách tiếp cận khác cho toán gán nhãn từ loại sử dụng phƣơng pháp học máy khơng có hƣớng dẫn để mặt giải vấn đề xác định nhãn từ loại, mặt khác tiết kiệm công sức xây dựng tập huấn luyện Đề tài nghiên cứu số phƣơng pháp gán nhãn từ loại khơng có hƣớng dẫn, sở đƣa quy trình giải toán gán nhãn từ loại tiếng Việt cách tiếp cận Cấu trúc luận văn Cấu trúc luận văn chia làm chƣơng: Chƣơng I: Tổng quan Trong chƣơng trình bày tổng quan tốn gán nhãn từ loại, tiếp cận để giải toán gán nhãn từ loại, so sánh tiếp cận Chƣơng trình bày trạng phƣơng pháp đƣợc dùng để giải toán gán nhãn từ loại cho tiếng Việt, khó khăn chƣa khắc phục đƣợc Chƣơng II: Cơ sở toán học Chƣơng trình bày kiến thức tốn học, mơ hình học máy đƣợc sử dụng luận văn Chƣơng III: Cách tiếp cận khơng có hƣớng dẫn cho tốn gán nhãn từ loại Chƣơng trình bày số phƣơng pháp học máy khơng có hƣớng dẫn cho toán gán nhãn từ loại, để từ xây dựng quy trình giải toán gán nhãn từ loại tiếng Việt theo cách tiếp cận Chƣơng - TỔNG QUAN 1.1 Bài toán gán nhãn từ loại Gán nhãn từ loại việc xác định chức ngữ pháp từ câu trình gán từ đoạn văn với đánh dấu từ loại cấu trúc ngữ pháp Đây bƣớc trƣớc phân tích cú pháp hay vấn đề xử lý ngôn ngữ phức tạp khác Thông thƣờng, từ có nhiều chức ngữ pháp, ví dụ: câu “con ngựa đá đá ngựa đá”, từ “đá” nhƣng từ thứ thứ ba giữ chức ngữ pháp danh từ, nhƣng từ thứ hai lại động từ câu Gán nhãn từ loại mức thấp phân tích ngữ nghĩa Xác định từ loại hỗ trợ cho việc phân tích cú pháp văn bản, góp phần giải tính đa nghĩa từ, trợ giúp hệ thống rút trích thơng tin hƣớng đến ngữ nghĩa, v.v Ví dụ1: John/ NNP saw/ VBD the/ DT saw/NN and/CC decided/VBD to/TO take/VB it/PRP to/IN the/DT table/N Ví dụ 2: Loan/Np muốn/V đi/V du lịch/V Huế/Np Trong nhãn NNP, Np, NN, N: danh từ VBD, V: động từ DT: từ hạn đinh IN, TO: giới từ 1.2 Tổng quan cách tiếp cận giải toán 1.2.1 Quá trình gán nhãn từ loại Gán nhãn từ loại trình gồm bƣớc xử lý:[2] - Bƣớc (tiền xử lí): Phân tách xâu kí tự thành chuỗi từ Giai đoạn phức tạp hay đơn giản tuỳ theo ngôn ngữ đơn vị từ vựng Chẳng hạn với tiếng Anh tiếng Pháp, việc phân tách từ chủ yếu dựa vào ký tự trắng Tuy nhiên có cụm từ ghép hay cụm từ công cụ gây tranh cãi cách xử lý Trong với tiếng Việt dấu trắng khơng phải dấu hiệu để xác định ranh giới đơn vị từ vựng tần số xuất từ ghép cao - Bƣớc 2: Gán nhãn tiên nghiệm, tức tìm cho từ tập tất nhãn từ loại mà có Tập nhãn thu đƣợc từ sở liệu từ điển từ kho văn gán nhãn tay Đối với từ chƣa xuất sở liệu sử dụng nhãn ngầm định gắn cho tập tất nhãn Trong ngơn ngữ biến đổi hình thái ngƣời ta dựa vào hình thái từ để đốn nhận lớp từ loại từ xét - Bƣớc 3: Quyết định kết gán nhãn Giai đoạn loại bỏ nhập nhằng, tức lựa chọn cho từ nhãn phù hợp với ngữ cảnh tập nhãn tiên nghiệm 1.2.2 Ngữ liệu Để thực gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng là: - Từ điển văn phạm loại bỏ nhập nhằng - Kho văn gán nhãn, kèm theo quy tắc ngữ pháp xây dựng tay - Kho văn chƣa gán nhãn, có kèm theo thông tin ngôn ngữ nhƣ tập từ loại thông tin mô tả quan hệ từ loại hậu tố - Kho văn chƣa gán nhãn, với tập từ loại đƣợc xây dựng tự động nhờ tính tốn thống kê Trong trƣờng hợp khó dự đốn trƣớc tập từ loại 1.2.3 Các tiếp cận giải toán Chúng ta có hai tiếp cận cho gán nhãn từ loại tự động:[19] - Tiếp cận có hƣớng dẫn - Tiếp cận khơng hƣớng dẫn Bộ gán nhãn có hƣớng dẫn có đặc thù dựa kho ngữ liệu đƣợc gán nhãn cho việc tạo cơng cụ đƣợc sử dụng cho q trình gán nhãn Ví dụ nhƣ Từ điển gán nhãn, tần suất từ/nhãn, xác suất chuỗi nhãn, tập luật Các mơ hình khơng hƣớng dẫn khơng u cầu kho ngữ liệu gán nhãn nhƣng lại sử dụng thuật tốn tính tốn phức tạp để tự động xây dựng nhóm từ (nghĩa xây dựng tập nhãn) dựa nhóm từ để tính tốn thơng tin xác suất cần thiết cho gán nhãn thống kê để xây dựng luật ngữ cảnh cần thiết cho hệ thống dựa luật Sự khác hai tiếp cận thể bảng sau: Khơng hƣớng dẫn Có hƣớng dẫn - Lựa chọn tập văn gán nhãn/tập - Rút tập nhãn sử dụng liệu nhãn huấn luyện chƣa gán nhãn - Tạo từ điển sử dụng tập văn - Xây dựng từ điển sử dụng liệu gán nhãn huấn luyện chƣa gán nhãn - Tính tốn cơng cụ khử nhập - Quy nạp cơng cụ khử nhập nhằng, bao gồm: nhằng, bao gồm: + tần suất từ + tần suất từ + Các xác suất chuỗi nhãn + Các xác suất chuỗi nhãn + Các thể luật Tuy có nhiều khách nhƣng chúng có điểm giống là: - Gán nhãn liệu sử dụng thông tin từ điển xây dựng - Khử nhập nhằng tiếp cận dựa vào thống kê, dựa luật lai tiếp cận Vì việc khử khử nhập nhằng sử dụng tiếp cận dựa luật dựa thống kê lai tiếp cận ta tìm hiểu tiếp cận nêu 1.2.5 Gán nhãn dựa luật Bộ gán nhãn dựa luật sử dụng luật đƣợc viết tay để phân biệt nhập nhằng nhãn, ràng buộc để loại nhãn không phù hợp Gán nhãn dựa luật sử dụng từ điển để tìm từ loại cho từ, sử dụng luật làm thành nghĩa, ví dụ nhƣ : det - X - n = X/adj đặc biệt hàng trăm ràng buộc đƣợc thiết kế cách thủ công Các tiếp cận gán nhãn dựa luật sử dụng thông tin ngữ cảnh để gán nhãn cho từ chƣa biết từ nhập nhằng Các luật thƣờng đƣợc biết nhƣ luật khung ngữ cảnh Nhƣ ví dụ, luật khung ngữ cảnh nói vài điều: Nếu từ chƣa biết nhập nhằng X đứng sau từ hạn định đứng đằng trƣớc danh từ, nhãn tính từ Trong việc bổ sung cho thông tin ngữ cảnh, nhiều gán nhãn sử dụng thơng tin hình thái học để thêm vào quy trình khử nhập nhằng Ví dụ: Nếu từ nhập nhằng chƣa biết kết thúc với đuôi “ing” đằng trƣớc động từ nhãn từ động từ (phụ thuộc vào lý thuyết ngữ pháp) V-W (ing) = W/Verb Vài hệ thống vƣợt việc sử dụng thông tin ngữ cảnh hình thái việc xây dựng luật gắn với nhân tố nhƣ viết chữ hoa (có thể xác định nhƣ danh từ riêng) hệ thống dấu chấm câu Thông tin loại nhỏ lớn phụ thuộc vào ngôn ngữ đƣợc gán nhãn 10 tử tổng quát hoá cho hình thái động từ biến cách xuất thƣờng xuyên bên phải Vấn đề đƣợc giải việc sử dụng SVD cho ma trận cỡ 47025, 250 véc tơ ngữ cảnh trái phân cụm véc tơ ngữ cảnh kết thành 250 lớp Một véc tơ ngữ cảnh v phải tổng quát hoá cho từ w đƣợc hình thành cách đếm mức độ thƣờng xuyên từ 250 lớp xuất bên phải w, hạng tử wi đếm số lần mà từ từ lớp i xuất bên phải w tập văn (trái với số lần mà từ với hạng tần số i xuất bên phải w) Các véc tơ ngữ cảnh trái tổng quát hoá đƣợc bắt nguồn thủ tục tƣơng tự sử dụng véc tơ ngữ cảnh phải dựa từ Chú ý thông tin véc tơ ngữ cảnh trái phải đƣợc giữ riêng biệt tính tốn Sự khác với tiếp cận trƣớc véc tơ ngữ cảnh trái phải từ luôn đƣợc sử dụng véc tơ đƣợc kết nối Một đối số khác cho hai bƣớc tổng quát hóa véc tơ ngữ cảnh bắt nguồn nhiều từ khơng có tần suất xuất 250 nhƣ láng giềng trái phải chúng Do đó, véc tơ ngữ cảnh trái phải chúng Phân lớp dựa véc tơ ngữ cảnh trái, phải tổng quát hóa làm cho có khả thể nghĩa đầy đủ đƣợc hình thành cho tất từ từ vựng Các véctơ ngữ cảnh tổng quát hoá đầu vào cho thủ tục suy luận nhãn mô tả cho véctơ ngữ cảnh từ: 20000 từ đƣợc lựa chọn từ tập văn, đƣợc mã hố nhƣ véctơ 1000 chiều (gồm có véctơ ngữ cảnh đƣợc tổng qt hố) đƣợc phân tích SVD phân lớp thành 200 lớp 3.2.5 Các kết Các kết thí nghiệm đƣợc đánh giá cách hình thành 16 lớp nhãn từ Penn treebank [33] Kết gãn nhãn đạt đƣợc sử dụng kỹ thuật phân cụm cho thấy kết gán nhãn phân cụm dựa vào từ loại ngữ cảnh đạt kết 39 tốt dựa vào từ loại phân cụm dựa vào véc tơ ngữ cảnh đƣợc tổng quát hóa Ta tìm hiểu đƣợc hai phƣơng pháp gán nhãn khơng có hƣớng dẫn cho tốn gán nhãn từ loại, phƣơng pháp có ƣu nhƣợc điểm riêng, với phƣơng pháp sử dụng kỹ thuật cực đại hóa kỳ vọng có ƣu điểm cho độ xác gán nhãn cao mà sử dụng kho ngữ liệu gán nhãn lớn để gán nhãn, nhƣng để xây dựng đƣợc kho ngữ liệu gán nhãn lớn nhƣ nhiều thời gian nhãn đƣợc thống nhà ngơn ngữ ngơn ngữ Cịn với phƣơng pháp sử dụng kỹ thuật phân cụm đạt độ xác chƣa cao nhƣng giải đƣợc hai vấn đề toán gán nhãn từ loại là: xây dựng loại từ loại dựa vào kỹ thuật phân cụm tạo khởi đầu gán nhãn cho văn ngôn ngữ mới, ƣu điểm bật phƣơng pháp không yêu cầu lƣợng văn gán nhãn Vì tơi xin đƣợc đƣa đề xuất để cải thiện đƣợc khó khăn cho toán tiếng Việt sử dụng kỹ thuật phân cụm để giải toán gán nhãn tiếng Việt Cơ sở đề xuất kỹ thuật phân cụm cho phép: (1) Xây dựng loại từ loại (2) Tạo khởi đầu gán nhãn cho văn ngôn ngữ 3.3 Đề xuất phƣơng pháp không hƣớng dẫn cho toán gán nhãn từ loại tiếng Việt Nhƣ ta biết, gán nhãn từ loại phƣơng pháp có hƣớng dẫn có nhiều nghiên cứu, nhƣng phải sử dụng kho ngữ liệu gán nhãn tay nhãn đƣợc sử dụng cho kho ngữ liệu chƣa đƣợc thống nhà ngơn ngữ nên chƣa có kho ngữ liệu chuẩn xây dựng kho ngữ liệu tốn thời gian, tốn nhân lực tiền của, luận văn đề xuất giải pháp khác cho gán nhãn từ loại tiếng Việt để giải vấn 40 đề nhập nhằng tập nhãn tiếng Việt tiết kiệm đƣợc thời gian nhƣ tiền để gán nhãn tay kho ngữ liệu sử dụng phƣơng pháp khơng hƣớng dẫn Nhƣ trình bày trên, gán nhãn từ loại phƣơng pháp không hƣớng dẫn có tiếp cận, nhƣng tiếp cận tiếp cận theo hƣớng sử dụng kỹ thuật phân cụm khơng hƣớng dẫn hồn tồn, ta xây dựng loại từ loại dựa vào kỹ thuật phân cụm tạo khởi đầu gán nhãn cho văn ngôn ngữ mới, ƣu điểm bật phƣơng pháp không yêu cầu lƣợng văn gán nhãn Vì tốn thời gian hơn, giải đƣợc việc xây dựng loại từ loại mà chƣa thống tiếng Việt, tất nhiên với phƣơng pháp nhƣ có nhƣợc điểm khó khăn với liệu thƣa từ nhập nhằng, cho độ xác chƣa cao Phƣơng pháp gán nhãn từ loại dựa thuộc tính chung văn khơng có kiến thức tiên nghiệm phạm trù ngữ pháp có sẵn (một tình xuất thƣờng xun thực tế) Phƣơng pháp đƣa nhập nhằng từ loại phổ biến từ vấn đề khó giải Nhƣ nghiên cứu phƣơng pháp cụm giải toán gán nhãn từ loại thực nghiệm cho tiếng Anh Kết đạt đƣợc cho thấy gán nhãn dựa véc tơ ngữ cảnh từ loại có giới hạn ngữ cảnh đạt độ xác cao nhất, nên đề xuất ta tính tốn độ tƣơng tự hai từ theo véc tơ ngữ cảnh có giới hạn ngữ cảnh tự nhiên khơng có phụ thuộc ngữ pháp rõ từ dấu câu nên ta làm nhƣ sau: Bƣớc 1: loại bỏ dấu câu với từ có tần suất xuất thấp (dƣới 10 lần) Bƣớc 2: tính véc tơ ngữ cảnh trải phải từ nhƣ sau: 41 Tính véc tơ ngữ cảnh từ chứa số lần suất từ 250 từ xuất nhiều kho văn Ví dụ: a1, a2, ,a250 250 từ xuất nhiều kho văn Xét từ w: a1: xuất n1 lần bên phải a2: xuất n2 lần bên phải a250: xuất n250 lần bên phải (n1,n2, n250) véc tơ ngữ cảnh phải từ Véc tơ ngữ cảnh trái tính tƣơng tự Vì vai trị cú pháp từ dựa trên: - Các thuộc tính cú pháp láng giềng từ - Các mối quan hệ cú pháp với láng giềng Nên sau tính xong hai véc tơ ngữ cảnh trái phải từ ta tính véc tơ ngữ cảnh từ w cách ghép nối véc tơ ngữ cảnh sau: - Véc tơ ngữ cảnh phải từ đứng trƣớc - Véc tơ ngữ cảnh trái từ w - Véc tơ ngữ cảnh phải từ w - Véc tơ ngữ cảnh trái từ theo sau Cuối đo độ tƣơng tự hai từ ta dụng độ đo cosin để tính tốn dựa vào véc tơ ngữ cảnh đƣợc tính Bƣớc 3: Sử dụng thuật toán phân cụm để phân thành nhóm dựa vào độ đo đƣợc tính Vậy thứ tự để thực gán nhãn nhƣ sau: Tính tốn tần số xuất từ kho ngữ liệu Loại từ có tần suất xuất q nhiều Tìm 250 từ xuất nhiều lại 42 Tính tốn véc tơ ngữ cảnh trái phải từ Xây dựng ma trận ngữ cảnh C nhƣ sau: Mỗi hàng ma trận gồm véc tơ ngữ cảnh từ w đƣợc kết nối từ véc tơ ngữ cảnh (véc tơ ngữ cảnh phải từ đứng trƣớc, véc tơ ngữ cảnh trái từ w, véc tơ ngữ cảnh phải từ w, véc tơ ngữ cảnh trái từ theo sau) Sử dụng giải pháp SVD để giảm số chiều ma trận C Tính độ đo tƣơng tự từ dựa ma trận C giảm số chiều sử dụng độ đo cosin Phân cụm dựa vào độ đo tính sử dụng thuật toán phân cụm mờ Sau thực phân cụm ta xây dựng đƣợc tập nhãn Sử dụng tập nhãn để xây dựng kho ngữ liệu gán nhãn tay Để thực gán nhãn ta sử dụng mơ hình Markov ẩn, theo nghiên cứu gán nhãn sử dụng mô hình Markov đạt độ xác cao kho ngữ liệu gán nhãn tay nhỏ sử dụng huấn luyện ML để thực Phần cuối trình bày chi tiết giải thuật bƣớc Giải thuật tính véc tơ ngữ cảnh trái (phải) từ: Đầu vào: Các tệp văn tách từ Đầu ra: Véc tơ ngữ cảnh trái (phải) từ tệp văn Bƣớc 1: Lƣu lại tất từ xuất toàn tệp văn số lần xuất tƣơng ứng từ Dùng bảng băm(Hashing) để lưu trữ liệu từ số lần xuất (tần suất) tương ứng từ toàn tệp văn for tệp Mở tệp, chuyển trỏ đọc tệp đến dòng 43 while (tệp liệu) đọc dịng văn vị trí trỏ for từ if (từ tồn bảng băm) then tăng giá trị lưu trữ tần suất từ bảng băm lên đơn vị else khởi tạo giá trị lưu trữ tần suất từ bảng băm end if end for chuyển trỏ đọc tệp sang dịng end while end for Bƣớc Tìm 250 từ có tần suất xuất cao nhất: Duyệt toàn bảng băm đưa liệu vào mảng.Mỗi phần tử mảng chứa thuộc tính: từ tần suất xuất từ Sắp xếp mảng theo thứ tự giảm dần tần suất xuất từ Loại phần tử xuất nhiều, lấy 250 phần tử mảng lại, từ 250 phần tử mảng 250 từ có tần suất xuất nhiều Đưa 250 từ vào tập hợp topset Bƣớc Xây dựng liệu trung gian Đưa thêm đối tượng lưu trữ liệu sau: - bảng băm chứa tất từ bên trái từ tần suất xuất tương ứng (tạm gọi bảng băm láng giềng trái) - bảng băm phải chứa tất từ bên phải từ tần suất xuất tương ứng (tạm gọi bảng băm láng giềng phải) 44 Lưu 250 từ 250 bảng băm láng giềng trái tương ứng vào bảng băm (tạm gọi Tâp hợp bảng băm láng giềng trái) Lưu 250 từ 250 bảng băm láng giềng phải tương ứng vào bảng băm (tạm gọi Tập hợp bảng băm láng giềng phải) Sau giải thuật xây dựng Tập hợp bảng băm láng giềng trái Tập hợp bảng băm láng giềng phải Bước 1: Khởi tạo Tập hợp bảng băm láng giềng trái Tập hợp bảng băm láng giềng phải Mỗi tập hợp bảng băm gồm 250 khóa (là từ topSet) liệu tương ứng khóa bảng băm trống.(ta cập nhật liệu cho bảng băm trống để trở thành bảng băm láng giềng trái, bảng băm láng giềng phải) Bước 2: Xây dựng Tập hợp bảng băm láng giềng trái Tập hợp bảng băm láng giềng phải For tệp Mở tệp Đưa trỏ đọc tệp vào dòng Đọc dòng Tách từ dòng văn thành tập hợp từ riêng lẻ for từ (word) (Thường cấu trúc thành dạng mảng để dễ truy cập dc từ bên trái bên phải từ) if (word nằm tập hợp 250 từ có tần suất xuất cao nhất) then if (word có láng giềng trái) then lấy bảng băm láng giềng trái word lấy từ bên trái word dòng văn wordl 45 if (wordl tồn bảng băm láng giềng trái) then tăng giá trị tần suất xuất wordl bảng băm láng giềng trái lên else thêm phần tử wordl vào bảng băm, với liệu tần suất xuất end if end if if (word có láng giềng phải) then lấy bảng băm láng giềng phải word lấy từ bên phải word dòng văn wordr if (wordr tồn bảng băm láng giềng phải) then tăng giá trị tần suất xuất wordr bảng băm láng giềng phải lên else thêm phần tử wordr vào bảng băm, với liệu tần suất xuất end if end if end if end for Di chuyển trỏ đọc tệp đến dòng kể tiếp End for Bƣớc 4: Tìm véc tơ ngữ cảnh trái từ (ngữ cảnh phải làm tƣơng tự) /*Bây ta có đối tƣợng liệu cần thiết tập hợp bảng băm láng giềng trái Tập hợp bảng băm láng giềng phải 46 Với từ bất kỳ, giả sử word, thuật tốn tìm láng giềng trái nhƣ sau (Tƣơng tự láng giềng phải) */ Khởi tạo liệu ban đầu vector ngữ cảnh trái (là vector 250 chiều có phần tử 0) for từ (topWord) topSet lấy bảng băm láng giềng phải topWord Tập hợp bảng băm láng giềng phải lấy tần suất xuất word bảng băm láng giềng phải if (tồn giá trị tần suất xuất word bảng băm láng giếng phải) then gán giá trị tần suất lấy cho phần tử tương ứng với vector ngữ cảnh trái từ word end if end for Đối tƣợng lƣu trữ liệu bảng băm, kích thƣớc bảng băm tỉ lệ thuận với số lƣợng từ khác tồn tệp văn Vì thuật tốn xử lý tệp tuần tự, kích thƣớc tệp nhỏ xử lý đọc dòng tệp văn nên chƣơng trình khơng địi hỏi phải có không gian nhớ lớn để xử lý tệp (ngoại trừ đối tƣợng bảng băm) Ở chƣơng luận văn đề xuất hƣớng giải khó khăn vấn đề từ loại cho toán gán nhãn từ loại tiếng Việt Tiếp theo tổng kết lại nội dung toàn luận văn hƣớng phát triển luận văn 47 KẾT LUẬN Những kết đạt đƣợc luận văn: Tổng quan toán gán nhãn từ loại: luận văn trình bày đƣợc tốn gán nhãn từ loại, trình bày so sánh hƣớng tiếp cận khơng có hƣớng dẫn có hƣớng dẫn để giải toán gán nhãn từ loại, để làm sở nghiên cứu tiếp cận đƣợc sử dụng để giải toán gán nhãn từ loại tiếng Anh, nhƣ tiếng Việt thời gian vừa qua Tìm hiểu sở toán học sử dụng phƣơng pháp mà luận văn nghiên cứu đƣợc trình bày: luận văn trình bày đƣợc kiến thức xác suất thống kê, mơ hình nhƣ mơ hình Markov ẩn tốn mơ hình thuật tốn đƣợc dùng để giải tốn đó, ngồi luận văn cịn trình bày kiến thức kỹ thuật phân cụm nhƣ định nghĩa cách đo độ tƣơng tự cho loại đối tƣợng khác nhau, phƣơng pháp phân tích giá trị kỳ dị đƣợc sử dụng tiếp cận giải toán gán nhãn từ loại đƣợc trình bày Từ kiến thức để hiểu đƣợc phƣơng pháp đƣợc sử dụng để giải tốn Tìm hiểu phƣơng pháp khơng có hƣớng dẫn cho tốn gán nhãn từ loại tiếng Anh: Luận văn trình bày đƣợc hai phƣơng pháp khơng có hƣớng dẫn để giải tốn gán nhãn từ loại tiếng Anh Đó phƣơng pháp sử dụng kỹ thuật cực đại hóa kỳ vọng kỹ thuật phân cụm Phân tích đƣợc ƣu nhƣợc điểm phƣơng pháp để từ tìm đƣợc phƣơng pháp áp dụng cho toán gán nhãn từ loại tiếng Việt 48 Tìm hiều tốn gán nhãn từ loại tiếng Việt: trình bày đƣợc phƣơng pháp đƣợc sử dụng việc giải toán gán nhãn từ loại tiếng Việt, tìm hiểu đƣợc ƣu điểm hạn chế chƣa giải đƣợc toán gán nhãn từ loại tiếng Việt, đồng thời sử dụng kiến thức phƣơng pháp sử dụng để đƣa đề xuất giải hạn chế toán gán nhãn tiếng Việt Hạn chế hƣớng phát triển luận văn: Mặc dù luận văn tìm hiểu đƣợc số phƣơng pháp học máy khơng có hƣớng dẫn đƣợc sử dụng cho tốn gán nhãn từ loại, tìm hiểu đƣợc mặt cịn hạn chế tốn gán nhãn từ loại tiếng Việt đƣa đƣợc đề xuất để khắc phục hạn chế nhƣng chƣa thực đƣợc thực nghiệm cụ thể cho đề xuất đó, hạn chế luận văn coi hƣớng phát triển luận văn thực thực nghiệm dựa vào đề xuất để sử dụng kết đạt đƣợc góp phần vào việc giải hạn chế toán gán nhãn từ loại tiếng Việt Đƣợc hƣớng dẫn tận tình giảng viên Nguyễn Thị Minh Huyền trình làm luận văn, giúp đỡ thầy giáo giảng dạy chƣơng trình đạo tạo thạc sĩ bạn đồng nghiệp suốt thời kì học tập, tơi hồn thành chƣơng trình đào tạo luận văn Tơi mong nhận đƣợc góp ý thầy cô giáo hội đồng bảo vệ luận văn ngƣời quan tâm đến vấn đề để hồn thiện vốn kiến thức, trình độ nhƣ tiếp tục phát triển luận văn mức cao Tôi xin chân thành cảm ơn 49 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Quang Châu, Phan Thị Tƣơi, Cao Hoàng Trụ Gán nhãn Từ loại cho tiếng Việt dựa văn phong tính tốn xác suất, Tạp chí phát triển KH&CN, Tập 9, số năm 2006 [2] Nguyễn Thị Minh Huyền, Vũ Xuân Lƣơng, Lê Hồng Phƣơng 2003 “Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Báo cáo hội thảo ICT.rda [3] Phan Xuân hiếu 2009 Công cụ gán nhãn từ loại tiếng Việt dựa Conditional Random Fields Maximum Entropy [4] Trần Thị Oanh 2008 Mơ hình tách từ, gán nhãn từ loại hƣớng tiếp cận tích hợp cho tiếng Việt Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội [5] Lê Hoàng Quỳnh 2009 So sánh số phƣơng pháp học máy cho toán gán nhãn từ loại tiếng Việt Luận văn đại học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tiếng Anh [6] Ankit K Srivastava March 19, 2008 Unsupervised Approaches to Part-of-Speech Tagging [7] A Haghighi and D Klein 2006 Prototype-driven learning for sequence Models In Proceedings of HLT-NAACL [8] A Clark 2000 Inducing syntactic categories by context distribution clustering In Proceedings of the Conference on Natural Language Learning (CONLL) [9] E Brill 1995 Unsupervised learning of disambiguation rules for part of speech tagging In Proceedings of the 3rd Workshop on Very Large Corpora, pages 1–13 50 [10] Cucerzan, S and Yarowsky, D 2002 Bootstrapping a Multilingual Part-of-Speech Tagger in One Person-day In Proceedings of the 6th Conference on Computational Natural Language Learning, CoNLL [11] Dien Dinh and Kiem Hoang, 2003 POS-tagger for EnglishVietnamese bilingual corpus HLT-NAACL Workshop on Building and using parallel texts: data driven machine translation and beyond [12] Elworthy, D 1994 Does Baum-Welch Re-estimation Help Taggers? In Proceedings of the 4th ACL Conference on Applied Natural Language Processing, ANLP [13] Goldwater, S and Griffiths, T 2007 A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging In Proceedings of the Association for Computational Linguistics, ACL [14] Merialdo, B 1994.Tagging English Text with a Probabilistic Model Computational Linguistics, 20(2): 155-171 [15] Feldman, A., Hana, J., and Brew, C 2006 Experiments in CrossLanguage Morphological Annotation Transfer In Proceedings of the Computational Linguistics and Intelligent Text Processing, CICLing [16] Thi Minh Huyen Nguyen 2003 Tagging of Vietnamese Texts The 10th annual onference TALN [17] Thi Minh Huyen Nguyen Le Hong Phuong 2010 An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts TALN 2010, Montréal [18] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, and Xuan Luong Vu A lexicon for Vietnam 51 [19] Linda Van Guilder 1995 Automated Part of Speech Tagging: A Brief Overview [20] J Kupiec.1992 Robust part-of-speech tagging using a hidden Markov model Computer Speech and Language [21] Hinrich Schfitze 1993 Part of speech induction from scratch In Proceedings o/ the 31st annual meeting o/ the Association /or Computational Linguistics, pages 251-258 Hinrich Schfitze 1997 Ambiguity [22] H Schutze 1995 Distributional part-of-speech tagging In Proceedings of the European Chapter of the Association or Computational Linguistics (EACL) [23] S Finch and N Chater 1992 Bootstrapping syntactic categories In Proceedings o/ the l~th Annual Meeting of the Cognitive Science Society, pages 820-825 [24] M Banko and R Moore 2004 A study of unsupervised partofspeech tagging In Proceedings of COLING ’04 [25] Silviu Cucerzan and David Yarowsky 2002 Bootstrapping a Multilingual Part-of-speech Tagger in One Person-day Proceedings of the Sixth Conference on Natural Language Learning (CoNLL) [26] T Minka 2003 Estimating a Dirichlet distribution Technical report, Microsoft Research, ambridge [27] Michael Lamar, Yariv Maron SVD and Clustering for Unsupervised POS Tagging [28] R Krishnapuram, A Joshi, L Yi 1999 A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering Proc IEEE Intl Conf Fuzzy Systems, Korea 52 [29] Ankit K Srivastava March 19, 2008 Unsupervised Approaches to Part-of-Speech Tagging [30] Nghiem Q M., Dinh D & Nguyen T N M 2008 Improving Vietnamese POS-tagging by integrating a rich feature set and support vector machines In Proceedings of the 6th IEEE International Conference in Computer Science : Research, Innovation and Vision of the Future, RIVF, HCMC, Vietnam [31] Morgan Kaufmann Publishers 2001 Data Mining: Concepts and Techniques [32] J Jang, C Sun, E Mizutani 1997 Neuro-Fuzzy and Soft Computing –A Computational Approach to Learning and Machine Intelligence, Prentice Hall [33] Mitchell P Marcus, Mary Ann Marcinkiewicz , Beatrice Santorini June 1993 Building a large annotated corpus of English: the penn treebank [34] http://www.cs.wits.ac.za/~michael/SVDTut.pdf [35] http://nlp.stanford.edu/IR-book/newslides.html [36] http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf [37] http://langbank.engl.polyu.edu.hk/corpus/brown.html 53 ... phƣơng pháp không hƣớng dẫn cho toán gán nhãn từ loại tiếng Việt Nhƣ ta biết, gán nhãn từ loại phƣơng pháp có hƣớng dẫn có nhiều nghiên cứu, nhƣng phải sử dụng kho ngữ liệu gán nhãn tay nhãn đƣợc... đƣợc luận văn: Tổng quan toán gán nhãn từ loại: luận văn trình bày đƣợc tốn gán nhãn từ loại, trình bày so sánh hƣớng tiếp cận khơng có hƣớng dẫn có hƣớng dẫn để giải toán gán nhãn từ loại, ... pháp học máy khơng có hƣớng dẫn cho tốn gán nhãn từ loại, để từ xây dựng quy trình giải tốn gán nhãn từ loại tiếng Việt theo cách tiếp cận Chƣơng - TỔNG QUAN 1.1 Bài toán gán nhãn từ loại Gán nhãn