Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
1,25 MB
Nội dung
i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HƢƠNG THẢO PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TIẾNG VIỆT SỬ DỤNG MƠ HÌNH CRFs Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Phƣơng Thái Hà Nội – 2010 TIEU LUAN MOI download : skknchat@gmail.com i MỤC LỤC Lời cảm ơn .Error! Bookmark not defined Tóm tắt nội dung Error! Bookmark not defined Lời cam đoan Error! Bookmark not defined Danh mục bảng số liệu iii Danh mục hình vẽ iv Lời mở đầu Chương 1: Khái quát toán phân tách cụm danh từ sở 1.1 Giới thiệu toán 1.2 Một số nghiên cứu toán phân tách cụm danh từ sở 1.3 Một số phương pháp biểu diễn liệu 1.4 Một số phương pháp giải toán 1.4.1 Thuật toán học dựa vào biến đổi 1.4.2 Thuật toán máy vector hỗ trợ 10 1.4.3 Phương pháp tiếp cận luận văn 12 Chương 2: Mơ hình trường ngẫu nhiên có điều kiện 13 2.1 Mô hình đồ thị 14 Mơ hình đồ thị vô hướng 14 2.2 Mơ hình trường ngẫu nhiên có điều kiện 15 2.3 Ước lượng tham số suy diễn CRFs 17 2.3.1 Ước lượng tham số cho CRFs 17 2.3.2 Suy diễn CRFs 19 Chương 3: Đặc điểm cụm danh từ tiêng Việt phương pháp xây dựng tập liệu 21 3.1 Đặc điểm cụm danh từ tiếng Việt 21 3.2 Phương pháp xây dựng tập liệu 26 3.2.1 Phương pháp xây dựng tập liệu tiếng Anh 26 3.2.2 Phương pháp xây dựng tập liệu Tiếng Việt 26 Chương 4: Bài toán phân tách cụm danh từ tiếng Việt sử dụng mơ hình CRFs 33 4.1 Phân tách cụm từ tiếng Việt sử dụng mơ hình CRFs 33 4.2 Thực nghiệm 34 TIEU LUAN MOI download : skknchat@gmail.com ii 4.2.1 Dữ liệu chương trình 34 4.2.2 Kết thử nghiệm 36 4.2.2.1 Thực nghiệm 1: Đánh giá phục thuộc tập thuộc tính 36 4.2.2.2 Đánh giá phụ thuộc kích thước tập liệu huấn luyện 40 4.2.2.3 Đánh giá phân tích lỗi 41 Kết luận 43 Tài liệu tham khảo 45 Phụ lục: Tập nhãn từ loại nhãn cú pháp Viet Treebank 49 Tập nhãn từ loại: 49 Tập nhãn cú pháp 49 Tập nhãn mệnh đề: 50 Tập nhãn chức cú pháp: 50 TIEU LUAN MOI download : skknchat@gmail.com iii Danh mục bảng số liệu Bảng 1: Một số kết toán phân tách cụm danh từ sở tiếng Anh Bảng 2: Một số kết toán phân tách cụm danh từ sở ngôn ngữ khác Bảng 3: Ví dụ phương pháp biểu diễn liệu Bảng 4: Cấu trúc phần đầu cụm danh từ tiếng Việt 23 Bảng 5: Cấu trúc phần đầu cụm danh từ tiếng Việt 24 Bảng 6: Ví dụ tệp liệu sử dụng thực nghiệm 34 Bảng 7: Một vài thống kê tập liệu 36 Bảng 8: Một số ví dụ mẫu thuộc tính 37 Bảng 9: Chi tiết tập thuộc tính thí nghiệm 39 Bảng 10: Kết phân tách cụm danh từ tiếng Việt 40 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs iv Danh mục hình vẽ Hình 1: Q trình huấn luyện thuật tốn TBL Hình 2: Siêu phẳng có lề hẹp 11 Hình 3: Siêu phẳng có lề rộng 11 Hình 4: Dữ liệu có nhiễu 11 Hình 5: Dữ liệu khơng thể phân tách tuyến tính 11 Hình 6: Mơ hình đồ thị CRFs 16 Hình 7: Ví dụ biểu diễn dạng câu phân tích cú pháp 27 Hình 8: Ví dụ nhánh NP có độ sâu 28 Hình 9: Ví dụ nhánh NP có độ sâu lớn 29 Hình 10: Nhánh NP có độ sâu lớn 30 Hình 11: Nhánh QP có độ sâu 30 Hình 12: Nhánh QP có độ sâu 30 Hình 13: Nhánh QP có độ sâu chứa NP 30 Hình 14: Nhánh QP có độ sâu lớn chứa NP có độ sâu 31 Hình 15: Ví dụ cụm danh từ chứa liên từ “và” 31 Hình 16: Mơ hình hoạt động tách cụm danh từ tiếng Việt 33 Hình 17: Sự tác động tập thuộc tính đến độ xác mơ hình phân cụm 38 Hình 18: Kết phân tách cụm danh từ theo kích thước tập liệu huấn luyện 40 (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs Lời mở đầu Thế giới bước vào kỷ 21 với phát triển nhanh đạt nhiều thành tựu tất lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội… Cùng với phát triển này, nhân loại tạo lượng thông tin khổng lồ phần lớn thơng tin tìm thấy thơng qua hệ thống mạng Internet World Wide Web (gọi tắt Web) trở thành môi trường chuyển tải thông tin thiếu thời đại Công nghệ thông tin ngày Sự phổ biến bùng nổ thông tin Web đặt thách thức làm để khai thác thông tin Web cách hiệu quả, mà cụ thể để máy tính trợ giúp xử lý tự động chúng Có thể nói xử lý ngơn ngữ tự động máy tính vấn đề khó Cơng nghệ thơng tin Cái khó nằm chỗ cho máy hiểu ngôn ngữ người, từ việc hiểu nghĩa từ hoàn cảnh cụ thể, đến việc hiểu nghĩa câu, hiểu văn Trong nỗ lực xây dựng sở tri thức tiếng Việt tốn tách từ, gán nhãn từ loại, xác định cụm từ, phân tích cú pháp, … cơng việc thiếu Tùy ứng dụng cần phân tích thơng tin mức độ khác Nhiều ứng dụng xử lý ngôn ngữ tự nhiên (như dịch máy) yêu cầu thông tin cú pháp cơng cụ để phân tích cú pháp Tuy nhiên với tiếng Việt, hầu hết nhà nghiên cứu tập trung vào toán tách từ gán nhãn từ loại (theo [21]) Quá trình xây dựng công cụ liệu gán nhãn cho toán tảng phân tách cụm từ phân tích cú pháp nghiên cứu, phát triển Đây bước quan trọng cho ứng dụng phát triển ngôn ngữ tự nhiên yêu cầu hiểu sâu ngôn ngữ Nhu cầu cần phải phát triển công cụ động lực thúc đẩy tơi nghiên cứu tìm hiểu toán phân tách cụm từ danh từ tiếng Việt, với mục tiêu phát triển công cụ cho toán Luận văn với đề tài “Phân tách cụm danh từ sở tiếng Việt sử dụng mô hình CRFs” tổ chức thành bốn chương mà nội dung chương giới thiệu Chương 1: Khái quát toán phân tách cụm danh từ giới thiệu toán nghiên cứu trước kết đạt tốn Chương trình bày số thuật tốn điển hình phân tách cụm danh từ, từ chọn (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs hướng tiếp cận với ngôn ngữ tiếng Việt Một số phương pháp biểu diễn liệu giới thiệu chương Chương 2: Mơ hình trường ngẫu nhiên có điều kiện trình bày CRFs mơ hình học máy đánh giá mơt phương pháp tốt cho tốn gán nhãn liệu dạng chuỗi Chương Đặc điểm cụm danh từ tiếng Việt phương pháp xây dựng tập liệu trình bày cấu trúc cụm danh từ tiếng Việt, từ đề xuất phương pháp thích hợp xây dựng tập liệu tiếng Việt Chương Bài toán phân tách cụm danh từ tiếng Việt sử dụng mơ hình CRFs trình bày kết thực nghiệm áp dụng mơ hình CRFs để phân tách cụm danh từ tiếng Việt với liệu luận văn xây dựng Một số nhận xét, đánh giá trình bày (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs Chương 1: Khái quát toán phân tách cụm danh từ sở 1.1 Giới thiệu toán Trong năm gần đây, nhiều ứng dụng xử lý ngơn ngữ tự nhiên trích chọn thơng tin, tóm tắt văn bản, hỏi đáp dịch máy phát triển mạnh mẽ đem lại nhiều lợi ích thiết thực Trong ứng dụng này, cụm danh từ sở đóng vai trị quan trọng Chính vậy, từ năm 1990, có nhiều nghiên cứu liên quan đến lĩnh vực tiếng Anh nghiên cứu liên tục cải tiến đạt số kết khả quan định Các ngôn ngữ khác tiếng Trung, tiếng Hàn Quốc, tiếng Ấn Độ … quan tâm nghiên cứu nhiều Nhiều cơng trình nghiên cứu báo khoa học liên quan đến vấn đề công bố, điển hình phải kể đến hai hội nghị: Hội nghị xử lý ngôn ngữ tự nhiên CoNLL1 năm 2000 với chủ đề phân tách cụm từ phân tách cụm danh từ; Hội nghị phân tích sơ ngôn ngữ Nam Á SPSAL 2007 Đối với tiếng Việt, hầu hết nhà nghiên cứu tập trung vào toán tách từ gán nhãn từ loại Phân tách cum danh từ sở tiếng Việt cịn tốn mở Các nghiên cứu tốn dừng mức thử nghiệm quy mô nhỏ, chưa công bố rộng rãi Phân tách cụm từ toán chia câu thành cụm cho từ cụm có liên quan với mặt cú pháp Các cụm không chồng lên (non-overlapping) theo nghĩa từ phép thuộc cụm Ví dụ câu tiếng Anh tách thành cụm sau: [NP He] [VP reckons] [NP the current account deficit] [VP will narrow] [PP to] [NP only £ 1.8 billion] Hoặc câu tiếng Việt tách thành cụm sau: [NP Cô ấy] [VP học] [PP ở] [NP trường Đại học Công nghệ] Ở đây, cụm biểu diễn nhóm từ liền kề nằm hai dấu ngoặc vuông: Dấu ngoặc vuông mở biểu thị bắt đầu cụm; Dấu ngoặc vng đóng biểu thị kết thúc cụm Các chữ viết hoa liền sau dấu ngoặc vng mở kí hiệu viết tắt biểu thị loại cụm, ví dụ NP cụm danh từ, VP cụm động từ, PP cụm giới từ Trong loại cụm cụm danh từ chiếm tỷ lệ lớn nhất, tập liệu http://www.cnts.ua.ac.be/conll2000/ http://shiva.iiit.ac.in/SPSAL2007/ (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs tiếng Anh WSJ 15-18 có tới 51% cụm danh từ [12] Hơn nữa, nhiều ứng dụng xử lý ngôn ngữ tự nhiên, việc tách cụm danh từ bước trung gian quan trọng để xử lý bước Vì vậy, phân tách cụm danh từ đóng vai trị quan trọng xử lý ngôn ngữ tự nhiên Phân tách cụm danh từ phần toán phân tách cụm từ, giải việc nhận biết cụm danh từ không đệ quy (non-recursive noun phrase) hay cụm danh từ không chồng (non-overlappling noun phrase) câu Các cụm danh từ phân tách cụm danh từ đơn giản, hay cụm danh từ sở Đó cụm danh từ khơng đệ quy, tức không chứa cụm danh từ khác bên khơng chứa thành phần bổ nghĩa cụm danh từ Trong khuôn khổ luận văn này, tơi tập trung giải tốn tách cụm danh từ sở tiếng Việt Tuy nhiên, đặc trưng ngôn ngữ tiếng Việt nên cấu trúc cụm danh từ sở tiếng Việt khác cấu trúc cụm danh từ đơn giản xử lý trích cụm danh từ tiếng Anh Đặc trưng cấu trúc cụm danh từ sở tiếng Việt trình bày kỹ Chương Một hệ thống phân tách cụm danh từ sở tốt áp dụng nhiều toán như: Trong hệ thống tìm kiếm thơng tin, thay tìm kiếm tài liệu chứa từ riêng lẻ, hệ thống tìm kiếm dựa vào cụm từ Khi số cụm từ danh từ riêng hữu ích cho mục đích tìm kiếm tài liệu Phân tách cụm từ hữu ích cho tốn trích chọn thơng tin, máy hỏi-đáp Hệ thống dịch máy dựa vào thống kê gồm hệ có nhiệm vụ dịch cụm cụm danh từ, cụm động từ, cụm giới từ,… tác vụ nhỏ trình dịch Hệ dịch huấn luyện tập liệu học cụm danh từ, cụm động từ, cụm giới từ,… Với hệ dịch máy sử dụng tập liệu huấn luyện song song, cụm danh từ sử dụng để gióng hàng văn Các câu tập liệu song song gióng hàng cách sử dụng thông tin cụm từ liên kết cụm ngôn ngữ nguồn với cụm ngôn ngữ đích Phân tách cụm danh từ sử dụng bước tiền xử lý trước phân tích câu Vì ngơn ngữ tự nhiên có tính nhập nhằng cao nên việc phân tích câu trở nên phức tạp Trong trường hợp này, phân tách cụm từ sử dụng bước tiền xử lý giải nhập nhằng (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs Xác định đồng tham chiếu toán xác định cụm danh từ tham chiếu tới thực thể Xác định đồng tham chiếu nghiên cứu cốt lõi xử lý ngơn ngữ tự nhiên, đóng vai trị quan trọng lĩnh vực máy hỏi-đáp, dịch tự động, tóm tắt văn Để giải toán phải qua nhiều bước, bước quan trọng phải xác định cụm danh từ câu Vì vậy, phân tách cụm danh từ toán sở để xác định tham chiếu văn Trong hệ thống tự động sinh mục thuật ngữ cho sách, bước phải xác định thuật ngữ để đánh mục Các thuật ngữ thường danh từ cụm danh từ Do đó, tốn phát phân tách cụm danh từ bước quan trọng trình sinh mục tự động 1.2 Một số nghiên cứu toán phân tách cụm danh từ sở Năm 1991, Stenven Abney đề xuất tốn phân tích câu đầu vào thành cụm từ từ cụm tương liên với [7] Nghiên cứu tác giả dựa vào kết nghiên cứu hai nhà tâm lý học Gee Grojean (1983), theo cụm quãng ngắt đọc câu Giả sử đọc câu, ta không đọc liền mạch câu mà ngắt thành cụm sau: [I begin] [with an intuition] : [when I read] [a sentence], [I read it] [a chunk] [at a time] Những cụm gọi cụm Cụm điển hình gồm từ nội dung, xung quanh từ chức Từ chức (function word) từ chứa nghĩa từ vựng nhập nhằng ngữ nghĩa diễn tả quan hệ ngữ pháp với từ khác câu giới từ, đại từ, …); Những từ từ chức gọi từ nội dung (content word) Sau Abney, số nghiên cứu khác tập trung chủ yếu vào phát cụm danh từ mức thấp, thường trích chọn thuật ngữ (Bourigault 1992, Voutilainen 1993) (theo [19]) cách sử dụng văn phạm Phải đến năm 1995 Lance Ramshaw Mitch Marcus đề xuất phương pháp phân tách cụm từ phương pháp học máy toán biết đến rộng rãi nhiều nhà khoa học quan tâm Phương pháp học máy dựa vào biến đổi (Transformation-Based Learning - TBL) Ramshaw Marcus sử dụng đem lại kết khả quan với F1 92.03% [19] Hai tác giả xây dựng liệu chuẩn tiếng Anh mà hầu hết nghiên cứu sau thường sử dụng để so sánh, đánh giá kết Ba nhà nghiên cứu Abney, Ramshaw, Marcus coi người tiên phong vấn đề (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 36 4.2.2 Kết thử nghiệm 4.2.2.1 Thực nghiệm 1: Đánh giá phục thuộc tập thuộc tính Lựa chọn thuộc tính Việc lựa chọn thuộc tính đóng vai trị quan trọng ảnh hưởng trực tiếp tới độ xác phương pháp Các thuộc tính chọn tinh tế, có ý nghĩa độ xác hệ thống cao Đặc biệt, cấu trúc cụm danh từ tiếng Việt phức tạp; Việc xác định cụm từ phụ thuộc nhiều vào ngữ cảnh xuất từ xét Vì vậy, Tơi lựa chọn thuộc tính liên quan đến từ vựng, nhãn từ loại nhãn IOB từ Tập liệu học liệu kiểm tra lựa chọn ngẫu nhiên theo tỉ lệ 2:1 – phương pháp phân hoạch phổ biến tập liệu lớn Bảng thống kê chi tiết tập liệu sử dụng thực nghiệm Bảng 7: Một vài thống kê tập liệu Số câu Số cụm danh từ Số từ Tập liệu huấn luyện 3552 78751 18165 Tập liệu kiểm tra 1777 39005 9136 Total 5329 117756 27301 Gọi w0 p0 từ nhãn từ loại từ vị trí từ xét; wn pn từ nhãn từ loại vị trí n n kích thước cửa sổ trượt Xem xét ví dụ “những bơng hoa mặt_trời xinh_đẹp ngả bóng xuống…”, giả sử từ xét “mặt_trời”, ta có: w0 : “mặt_trời” p0 :N w1 : “xinh_đẹp” p1 : A-H w-1 : “hoa” p-1 :N Tập thuộc tính chia thành nhóm sau: - Các thuộc tính liên quan đến từ vựng, ví dụ w0, w1, w2, w-1, w-2 - Các thuộc tính liên quan nhãn từ loại, ví dụ p0, p1, p2, p-1, p-2 - Các thuộc tính kết hợp từ vựng nhãn từ loại, ví dụ w0p0p-1, w0p0p1, w1w0p0, w1w0p0 (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 37 Việc lựa chọn thuộc tính phải thử nghiệm cách tỉ mỉ, cẩn thận Nếu thuộc tính thời gian huấn luyện kiểm tra mơ hình nhanh kết thu thấp Nếu nhiều thuộc tính làm cho việc huấn luyện kiểm tra mơ hình hiệu quả, có kết thu không cao Với CRF++, tập thuộc tính sinh cách tự động từ tệp mẫu thuộc tính người dùng cung cấp tham số đầu vào Tệp mẫu bao gồm nhiều mẫu thuộc tính, mẫu biểu diễn dịng Trong đó, mẫu có dạng %x[hàng, cột] sử dụng để xác định từ chuỗi liệu đầu vào “Hàng” quan hệ vị trí với từ xét “cột” vị trí tuyệt đối cột Ví dụ câu đầu vào sau: Ngày N-H B thứ N-H I Ba M I phúc thẩm V-H O vụ án N-H B Lã Thị Kim Oanh Np-H I Từ xem xét Một số mẫu thuộc tính là: Bảng 8: Một số ví dụ mẫu thuộc tính Mẫu thuộc tính %x[0,0] Thuộc tính Mơ tả mở rộng Ba Từ vị trí %x[0,1] M Nhãn từ loại từ %x[-1,0] thứ Từ trước từ vị trí %x[2,1] N-H Nhãn từ loại từ sau vị trí %x[0,0]/%x[0,1] ba/M ABC%x[-2,0]123 ABCNgày123 … … Có hai loại mẫu thuộc tính, phân biệt kí tự tên mẫu: - Loại 1(mẫu unigram): xác định kí tự „U‟ Đây mẫu mơ tả thuộc tính unigram, thuộc tính kết hợp mẫu nhãn từ xem xét (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 38 Xét mẫu U01:%x[0,1], CRF++ tự động sinh tập hàm thuộc tính (func1, … funcN) có dạng sau: func1 = If (nhãn = B thuộc tính = “U01:M”) return else return func2 = If (nhãn = I thuộc tính = “U01:M”) return else return func3 = If (nhãn = O thuộc tính = “U01:M”) return else return … Như vậy, với mẫu thuộc tính, số hàm thuộc tính sinh mẫu thuộc tính (L*N), L số lớp nhãn (với toán phân tách cụm từ, L = 3) N số chuỗi mở rộng từ mẫu cho - Loại (mẫu bigram), xác định kí tự „B‟ Đây mẫu mơ tả thuộc tính bigram, thuộc tính kết hợp mẫu nhãn từ xem xét nhãn từ liền trước Loại mẫu sinh cách tự động liên kết nhãn nhãn từ liền trước Như tạo (L*L*N) hàm thuộc tính Khi số lượng lớp lớn, loại mẫu sinh hàng tỉ thuộc tính khác nhau, ảnh hưởng tới hiệu huấn luyện sử dụng mơ hình Hình 17: Sự tác động tập thuộc tính đến độ xác mơ hình phân cụm Để đánh giá phụ thuộc vào tập thuộc tính, tơi tiến hành thực nghiệm: (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 39 - Ba thực nghiệm đầu sử dụng thông tin nhãn từ loại từ với kích thước cửa sổ 0, 1, - Ba thực nghiệm thêm thông tin từ vựng từ với kích thước cửa sổ 0, 1, Các thuộc tính liên kết từ vựng nhãn từ loại sử dụng thí nghiệm - Thực nghiệm áp dụng việc chọn lựa thuộc tính Kết thu hình 17 Kết thu cho thấy, thơng tin từ vựng từ loại với kích thước cửa sổ trượt ảnh hưởng nhiều tới độ xác hệ thống Nếu sử dụng thông tin từ loại, thí nghiệm Pos2 cho kết thấp Pos1 chút Tuy nhiên, thêm thông tin từ vựng kết lại cao Độ đo F1 thực nghiệm cao 3.29% so với thực nghiệm Mở rộng kích thước cửa sổ trượt thêm cho từ vựng từ loại thu kết cao 9.13% so với sử dụng thông tin từ vựng từ loại từ xem xét Kết tốt thu thực nghiệm với F1 = 82.59% áp dụng lựa chọn thuộc tính Tập thuộc tính sử dụng thực nghiệm mô tả chi tiết bảng Bảng 9: Chi tiết tập thuộc tính thí nghiệm Mẫu thuộc tính unigram Từ vựng W-2, W-1, W0, W1, W2, W-2W-1, W-1W0, W0W1, W1W2 Từ loại P-3, P-2, P-1, P0, P1, P2, P3, P-2P-1, P-1P0, P0P1, P1P2, P-2P-1P0, P-1P0P1, P0P1P2 Kết hợp W-2P-2, W-1P-1, W0P0, W1P1, W2P2, P0P1W0, P-1P0W0 Mẫu thuộc tính bigram Từ vựng W0, W-1, W-1W0 Từ loại P-2, P-1, P0, P1, P0P1, P-1P0 Kết hợp W-1P-1, W0P0 Sử dụng tập thuộc tính này, tơi tiến hành lần lựa chọn ngẫu nhiên tập liệu học liệu kiểm tra Kết thu bảng 10 Thí nghiệm lần đạt kết cao nhất, nhiên chênh lệch lần thí nghiệm khơng đáng kể Độ đo F1 trung bình lần thực nghiệm 82.67% (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 40 Bảng 10: Kết phân tách cụm danh từ tiếng Việt STT Số cụm danh từ Độ xác (Accuracy) Độ xác (Precision) Độ hồi tưởng (Recall) F1 9136 94.08 82.90 82.28 82.59 9113 93.77 82.28 82.21 82.24 9130 93.88 82.53 82.50 82.52 8949 94.30 83.27 83.28 83.28 9173 94.15 82.64 82.85 82.74 Trung bình 9100 94.04 82.72 82.62 82.67 4.2.2.2 Đánh giá phụ thuộc kích thước tập liệu huấn luyện Để đánh giá ảnh hưởng kích thước tập liệu huấn luyện đến độ xác hệ thống, tơi lựa chọn ngẫu nhiên kích thước tập liệu học, 500, 1000, 2000, 3000, 4329 câu Tập liệu kiểm tra cố định 1000 câu Sử dụng tập thuộc tính thực nghiệm 7, kết thu hình 18, số biểu đồ độ đo F1 trường hợp Kết cho thấy, tăng kích thước tập liệu huấn luyện phân tách dự đốn xác Hình 18: Kết phân tách cụm danh từ theo kích thước tập liệu huấn luyện (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 41 4.2.2.3 Đánh giá phân tích lỗi Kết thu cho thấy nhiều cụm danh từ có cấu trúc đệ quy phân tách tốt Ví dụ : “Ơng Hồng Tuấn Việt – chi cục trưởng Chi cục Hải quan cửa cảng sân bay Vũng Tàu” cụm danh từ đệ quy có cấu trúc tương đối phức tạp (hình 18): Hình 18 : Cây phân tích cú pháp cụm từ tiếng Việt Hệ thống phân tách thành ba cụm danh từ xác sau: Từ Từ loại Nhãn Nhãn dự đốn ơng Nc-H B-NP B-NP Hồng_Tuấn_Việt Np I-NP I-NP - - O O chi_cục_trưởng N-H B-NP B-NP Chi_cục N-H B-NP I-NP Hải_quan N I-NP I-NP cửa_khẩu N-H B-NP B-NP cảng N-H I-NP I-NP sân_bay N I-NP I-NP Vũng_Tàu Np-H I-NP I-NP (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 42 Tuy nhiên, kết cho thấy thông tin từ loại tập liệu huấn luyện ảnh hướng nhiều tới độ xác hệ thống Ví dụ, “nghề ni tơm sú” cụm danh từ phân tách gãn nhãn sau: Từ Từ loại Nhãn Nhãn dự đoán nghề N-H B-NP B-NP Nuôi V-H I-NP O tôm_sú N-H I-NP B-NP Hầu hết ví dụ tập liệu học, động từ “ni ” nằm ngồi cụm danh từ, ví dụ hệ thống gán nhãn O Do đó, cụm “nghề ni tơm_sú” phân tách thành hai cụm danh từ “nghề” “tôm_sú” Một ví dụ khác “đại_diện viện_kiểm_sát”: cụm danh từ hệ thống tách thành hai cụm danh từ Một phần lý tập liệu học, từ gán nhãn Np-H thường từ bắt đầu cụm danh từ Từ đại_diện Từ loại N-H Viện_Kiểm_sát Np-H Nhãn Nhãn dự đoán B-NP B-NP I-NP B-NP Tương tự ví dụ này, cụm danh từ “lọ thuốc Pennicillin” dự đoán thành hai cụm danh từ: Từ Từ loại Nhãn Nhãn dự đoán lọ N-H B-NP B-NP thuốc N I-NP I-NP Penicillin Np-H I-NP B-NP Những kết thực nghiệm cho thấy mơ hình CRFs phương pháp tiềm để giải toán phân tách cụm danh từ tiếng Việt Tôi tin tưởng rằng, lựa chọn tập thuộc tính phù hợp tập liệu học lớn hơn, đa dạng hệ thống đem lại kết cao (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 43 KẾT LUẬN Luận văn hệ thống hóa số vấn đề phân tách cụm danh từ tiếng Việt đạt kết sau: - Giới thiệu khái quát toán phân tách cụm danh từ, khảo sát nghiên cứu trước kết đạt phân tách cụm danh từ với ngôn ngữ tiếng Anh, tiếng Trung, tiếng Hàn,… Luận văn nghiên cứu phương pháp giải tốn, trình bày chi tiết hai thuật tốn thuật toán học dựa vào biến đổi thuật toán máy vector hỗ trợ Từ khảo sát này, luận văn đề xuất phương án phân tách cụm danh từ tiếng Việt phương pháp học máy sử dụng mơ hình CRFs - Trình bày mơ hình CRFs, gồm định nghĩa, cách ước lượng tham số cho CRFs suy diễn CRFs Các ưu điểm CRFs so với mơ hình trước HMMs, MEMMs tìm hiểu, phân tích - Nghiên cứu cấu trúc đặc điểm cụm danh từ tiếng Việt, từ khó khăn mà mơ hình phân tách cụm danh từ tiếng Việt gặp phải Dựa vào cấu trúc này, luận văn đề xuất phương pháp xây dựng tập liệu cho toán phân tách cụm danh từ tiếng Việt từ Viet treebank - Xây dựng tập liệu cụm danh từ tiếng Việt gồm 5329 câu từ Viet treebank, biểu diễn theo định dạng IOB2 - Áp dụng mơ hình CRFs, kết thực nghiệm tập liệu luận văn xây dựng cho kết khả quan Luận văn tiến hành thực nghiệm với tập thuộc tính khác nhau, từ lựa chọn tập thuộc tính cho kết cao với độ đo F1 trung bình 82.67% Bên cạnh đó, thời gian kiến thức có hạn, luận văn cịn vài hạn chế sau: - Bộ liệu xây dựng tự động, có rà sốt thủ cơng hạn chế mặt thời gian nguồn lực nên khơng tránh khỏi sai sót Vì đánh giá tập liệu chưa mang tính khách quan - Luận văn sử dụng mơ hình CRFs cho toán phân tách cụm danh từ tiếng Việt nên chưa có đối sánh kết với phương pháp khác để chọn phương án tốt Trong tương lai, luận văn tiếp tục hoàn thiện theo hướng sau: (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 44 - Rà sốt lại liệu, từ nghiên cứu hiệu chỉnh tiêu chí để xây dựng tập liệu cho toán phân tách cụm danh từ tiếng Việt, mục tiêu xây dựng tập liệu tiếng Việt chuẩn cho toán - Áp dụng thêm số thuật toán khác CRFs, từ tìm phương pháp hiệu toán phân tách cụm danh từ tiếng Việt Thử nghiệm nhiều liệu khác liệu luận văn xây dựng (nếu có) - Trong thử nghiệm trên, luận văn sử dụng thuộc tính liên quan tới từ vựng từ loại Các mẫu thuộc tính khác nghiên cứu thời gian tới (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 45 Tài liệu tham khảo Tài liệu tham khảo tiếng Việt [1] Diệp Quang Ban Hoàng Bân (2004), Ngữ pháp tiếng Việt, Nhà xuất Giáo dục, Hà Nội [2] Đồng Thị Bích Thủy, Hồ Bảo Quốc (2008), “Ứng dụng xử lý ngôn ngữ tự nhiên hệ tìm kiếm thơng tin văn tiếng Việt” [3] Lại Thị Hạnh (2002), “Trích cụm danh từ tiếng Việt nhằm phục vụ cho hệ thống tra cứu thông tin đa ngôn ngữ”, Luận văn Thạc sĩ Đại học Khoa học Tự nhiên TP.HCM [4] Nguyễn Tài Cẩn (1999), Ngữ pháp tiếng Việt, Nhà xuất Đại học Quốc gia Hà Nội [5] Nguyễn Chí Hiếu, “Ứng dụng xử lý ngôn ngữ tự nhiên dịch máy” [6] Trần Ngọc Tuấn, Phan Thị Tươi (2004), “Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất”, Tạp chí Bưu viễn thơng Tài liệu tham khảo tiếng Anh [7] Abney, Steven (1991), Parsing by chunks, In Berwick, Abney, and Tenny, editors, Principle-Based Parsing, Kluwer Academic Publishers [8] Andrew McCallum, Freitag, and Pereia (2000), “Maximum entropy markov models for information extraction and segmentation”, Proc Interational Conference on Machine Learning [9] Andrew McCallum (2003), “Efficiently Inducing Features of Conditional Random Fields”, Conference on Uncertainty in Artificial Intelligence (UAI) [10] Akshar Bharathi, Prashanth R.Mannem (2007), “Introduction to the Shallow Parsing Contest for South Asia Languages”, Proceedings of the IJCAI-2007 Workshop on Shallow Parsing for South Asian languages [11] Eric Brill (1993), A Corpus-Based Approach to Language Learning, phD thesis, University of Pennsylvania [12] Erik F Tjong Kim Sang, Sabine Buchholz (2000), “Introduction to the CoNLL-2000 Shared Task: Chunking”, Proceedings of CoNLL-2000 and LLL-2000, pp.127-132, Lisbon, Portugal (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 46 [13] Erik F Tjong Kim Sang (2000), “Noun Phrase Representation by System Combination”, Proceedings of ANLP-NAACL 2000, Seattle, WA, USA [14] Fabrizio Sebastiani (2002), “Machine Learning in Automated Text Categorization”, ACM Computing Survey, 34(1), pp.1-47 [15] Fang Xu, Chengqing Zong (2006), “A Hybrid Approach to Chinese Base Noun Phrase Chunking”, Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, pp.87–93 [16] Hanna M.Wallach (2004), “Conditional Random Fields: An Introduction”, University of Pennsylvania CIS Technical Report MS-CIS-04-21 [17] Hanna Wallach (2002), Efficient Training of Conditional Random Fields, Master of Science School of Cognitive Science Division of Informatics University of Edinburgh [18] Hong Shen and Anoop Sarkar, “Voting between Multiple Data Representations for Text Chunking”, Proceedings of the 18th Conference of the Canadian Society for Computational Studies of Intelligence [19] Lance A.Ramshaw, Mitchell P.Marcus (1995), “Text Chunking using Transformation-Based Learning”, Proceedings of the ACL 3rd Workshop on Very Large Corpora, pp 82-94 [20] Lafferty, John D.; McCallum, Andrew; Pereira, Fernando C N.: Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data Proceedings of the Eighteenth International Conference on Machine Learning (ICML 2001), Morgan Kaufmann Publishers, 2001, pp 282 [21] Le Minh Nguyen, Huong Thao Nguyen, Phuong Thai Nguyen, Tu Bao Ho, Akira Shimazu, “An empirical study of Vietnamese noun phrase chunking with discriminative sequence models”, Proceedings of the 7th Workshop on Asian Language Resources, pp.9-16 [22] Michael I Jordan (2004), Graphical Models, Statistical Science (Special Issue on Bayesian Statistics), 19, pp.140-155 [23] Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni (2007), “Open Information Extraction from the Web”, Proceedings of the International Joint Conference on Artificial Intelligence [24] Nguyen Phuong Thai, Vu Xuan Luong, Nguyen Thi Minh Huyen, Nguyen Van Hiep, Le Hong Phuong, “Building a Large Syntactically-Annotated (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 47 Corpus of Vietnamese”, Proceedings of the 3rd Linguistic Annotation Workshop (LAW) at ACL-IJCNLP 2009 [25] H.X Phan, M.L Nguyen, Y Inoguchi, and S Horiguchi (2007), “HighPerformance Training Conditional Random Fields for Large-Scale Applications of Labeling Sequence Data”, IEICE Transactions on Information and Systems, Vol.E90-D, No.1, pp.13-21 [26] J Lafferty, A McCallum, and F Pereia (2001), “Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data”, In International Conference on Machine Learning [27] Philipp Koehn (2004), “Pharoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models”, 6th Conference of the Association for Machine Translation in the Americas, pp.115–124 [28] Rahul Gupta (2005), “Conditional Random Fields”, Technical Report [29] Rie Kubota Ando, Tong Zhang (2005), “A High-Performance SemiSupervised Learning Method for Text Chunking”, Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp.1-9 [30] Roman Klinger, Katrin Tomanek (2007), “Classical Probabilistic Methods and Conditional Random Fields”, Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology [31] Sha, Pereira (2003), “Shallow parsing with conditional random fields”, Technical Report MS-CIS-02-35, University of Pennsylvania [32] Sutton, C., McCallum (2006), “An Introduction to Conditional Random Fields for Relational Learning”, In Introduction to Statistical Relational Learning, Edited by Lise Getoor and Ben Taskar MIT Press [33] Taku Kudo, Yuji Matsumoto (2000), “Use of Support Vector Learning for Chunk Identification”, Proceedings of CoNLL-2000 and LLL-2000, pp.142144 [34] Taku Kudo, Yuji Matsumoto (2001), “Chunking with Support Vector Machines”, Proceedings of the NAACL 2001, pp.192-199 [35] Tjong Kim Sang, Jorn Veenstra (1999), “Representing text chunks”, Proceedings of EACL’99’, pp.173-179 (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 48 [36] Wenliang Chen, Yujie Zhang, Hitoshi Isahara (2006), “Chinese Chunking based on Conditional Random Fields”, NLP2006, Yokohama, Japan, pp 149152 [37] Yoav Goldberg, Meni Adler, Michael Elhadad (2006), “Noun Phrase Chunking in Hebrew Influence of Lexical and Morphological Features”, Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, pp.689-696 [38] Yong-Hun Lee, Mi-Young Kim, and Jong-Hyeok Lee (2005), “Chunking Using Conditional Random Fields in Korean Texts”, Lecture Notes in Artificial Intelligence IJCNLP 2005 [39] Yongmei Tan, Tianshun Yao, Qing Chen and Jingbo Zhu (2005), “Applying Conditional Random Fields to Chinese Shallow Parsing”, The 6th International Conference on Intelligent Text Processing and Computational Linguistics [40] Wengliang Chen, Yujie Zhang, Hotoshi Isahara (2006), “An Empirical Study of Chinese chunking”, In Proceedings of the 44th Annual Meeting of ACL, pp 97-104 [41] CRF++: Yet Another CRF Toolkit, http://crfpp.sourceforge.net/ [42] http://staff.science.uva.nl/~erikt/research/np-chunking.html [43] http://www.cnts.ua.ac.be/conll2000/chunking/ [44] http://www.cnts.ua.ac.be/conll2000/chunking/output.html (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs 49 Phụ lục: Tập nhãn từ loại nhãn cú pháp Viet Treebank Tập nhãn từ loại: STT Tên Chú thích N Danh từ Np Danh từ riêng Nc Danh từ loại Nu Danh từ đơn vị V Động từ A Tính từ P Đại từ L Định từ M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt 17 X Các từ không phân loại Tập nhãn cú pháp STT Tên Chú thích NP Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ số lượng MDP Cụm từ tình thái WHNP Cụm danh từ nghi vấn (ai, gì, gì, v.v.) (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs (LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs(LUAN.VAN.THAC.SI).Phan.tach.cum.danh.tu.co.so.tieng.Viet.su.dung.mo.hinh.CRFs