(LUẬN VĂN THẠC SĨ) Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt

56 2 0
(LUẬN VĂN THẠC SĨ) Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt TRẦN THỊ OANH Master Thesis Giảng viên hướng dẫn: TS Lê Anh Cường PGS.TS Hà Quang Thụy 2008 TIEU LUAN MOI download : skknchat@gmail.com Mục lục Mở đầu iv KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 1.1 Khái quát tách từ tiếng Việt 1.2 Khái quát gán nhãn từ loại - POS tagging 1.2.1 Giới thiệu toán gán nhãn từ loại 1.2.2 Các hướng tiếp cận toán POS tagging 1.2.3 Các nghiên cứu gán nhãn từ loại cho tiếng Việt Vấn đề tích hợp tách từ gán nhãn từ loại 1.3 MỘT MƠ HÌNH TÁCH TỪ TIẾNG VIỆT 2.1 Các mơ hình liên quan 2.1.1 Mơ hình dựa vào từ điển 2.1.2 Mơ hình nhận dạng tên thực thể - Named Entity Recognition 10 2.1.3 Mơ hình N-gram 10 2.2 Phân tích mơ hình 11 2.3 Thiết kế tập đặc trưng 12 2.4 2.3.1 FS1: Đặc trưng trích từ mơ hình tách từ dựa vào từ điển 13 2.3.2 FS2: Đặc trưng dựa vào mơ hình nhận dạng tên thực thể 13 2.3.3 FS3: Đặc trưng dựa vào mơ hình N-gram 14 Kết thực nghiệm 15 2.4.1 Đánh giá đặc trưng FS1 FS2 so với mơ hình trước 15 2.4.2 Đánh giá tầm quan trọng tập thuộc tính 16 v TIEU LUAN MOI download : skknchat@gmail.com vi 2.5 Đánh giá kết tách từ 17 MỘT MƠ HÌNH GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 3.1 3.2 3.3 3.4 19 Xây dựng corpus gán nhãn từ loại cho tiếng Việt 19 3.1.1 Thiết kế tập thẻ VnPOSTag 19 3.1.2 Mô tả liệu làm vnPOS corpus 21 3.1.3 Xây dựng vnPOS corpus 22 Gán nhãn từ loại phương pháp Maximum Entropy Model 24 3.2.1 Mơ hình xác suất 24 3.2.2 Các đặc trưng gán nhãn từ loại 25 Đề xuất mô hình gán nhãn từ loại cho tiếng Việt 26 3.3.1 Gán nhãn từ loại dựa vào thông tin từ 27 3.3.2 Gán nhãn từ loại dựa vào hình vị 29 Đánh giá kết gán nhãn từ loại 30 MỘT MƠ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 32 4.1 Các mơ hình tích hợp cho tiếng Trung 32 4.2 Lựa chọn mô hình tích hợp cho tiếng Việt 34 4.3 Xây dựng mơ hình tiến hành thực nghiệm 35 4.4 4.3.1 Features 35 4.3.2 Giải mã 35 4.3.3 Kết 36 Thảo luận 36 A Chú giải tập từ loại vnPOS 44 vi TIEU LUAN MOI download : skknchat@gmail.com Danh sách hình vẽ 2.1 Mơ hình tách từ sử dụng N-gram 11 2.2 Các mơ hình liên quan cần để trích đặc trưng 12 2.3 Biểu đồ độ đo F1 18 3.1 Giao diện công cụ trợ giúp gán nhãn vnPOS 23 3.2 Kiến trúc gán nhãn từ loại 26 4.1 Kiến trúc tích hợp tách từ gán nhãn từ loại tiếng Việt 34 vii TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet Danh sách bảng Bảng thuật ngữ Anh - Việt 2.1 Bảng tập đặc trưng 13 2.2 Ví dụ tập đặc trưng (FS1) 13 2.3 Ví dụ câu tách từ 15 2.4 Kết đánh giá hiệu đặc trưng dựa vào từ điển 16 2.5 Kết đánh giá hiệu đặc trưng dựa vào NER 16 2.6 Kết thực nghiệm bỏ tập đặc trưng 17 2.7 Kết thực nghiệm sử dụng loại đặc trưng riêng 17 3.1 Tập thẻ vnPOSTag từ loại tiếng việt 22 3.2 Kết gán nhãn từ loại dựa vào thông tin mức từ 29 3.3 Kết gán nhãn từ loại dựa vào thơng tin hình vị 30 4.1 Một ví dụ ouput mơ hình tích hợp 35 4.2 Kết thực nghiệm tích hợp tách từ gán nhãn từ loại 36 (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet viii TIEU LUAN MOI download : skknchat@gmail.com ix (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet Một số thuật ngữ tiếng Anh - Việt STT Bảng 1: Bảng thuật ngữ Anh Thuật ngữ tiếng Anh Viết tắt Natural Language Processing NLP Word Segmentation WS Part of speech tagging POS tagging Maximum Entropy Model MEM Named Entity Recognition NER Hidden Markov Model HMM Maximal Matching MM Longest Matching LM Việt Thuật ngữ tiếng Việt Xử lý ngôn ngữ tự nhiên Tách từ Gán nhãn từ loại Mơ hình entropy cực đại Nhận dạng thực thể Mơ hình Markov ẩn Phù hợp tốt Phù hợp dài (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet ix TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet iii MỞ ĐẦU Tách từ (word segmentation) gán nhãn từ loại( part-of-speech tagging – POS tagging) hai toán đặc biệt quan trọng xử lý ngôn ngữ tự nhiên Tuy nhiên, nghiên cứu Việt Nam hai vấn đề giai đoạn ban đầu Do đó, nhu cầu lớn sở khoa học xây dựng công cụ thực sẵn dùng Xét mặt ngôn ngữ, cách tách từ khác dẫn đến cách gán nhãn từ loại khác ngược lại thông tin qui tắc kèm từ loại ảnh hướng tới việc tách từ Đây sở cho mơ hình chung hai trình Vì thế, luận văn chúng tơi nghiên cứu “Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt” Đóng góp luận văn việc tìm hiểu, nghiên cứu đề xuất mơ hình thực tách từ, gán nhãn từ loại tiếng Việt; xây dựng công cụ thực liên quan; bên cạnh để huấn luyện kiểm thử mơ hình chúng tơi tiến hành xây dựng corpus tiếng Việt gán nhãn từ loại xấp xỉ 8000 câu Luận văn tiến hành thực nghiệm hướng tiếp cận tích hợp cho hai tốn Các nghiên cứu trình bày luận văn đặc biệt hữu ích cho nghiên cứu mức cao dịch máy, tóm tắt văn bản, phân tích cú pháp Cấu trúc luận văn trình bày sau: • Chương 1: Khái quát tách từ gán nhãn từ loại tiếng Việt : Trong chương này, luận văn giới thiệu hai tốn xử lý ngơn ngữ tự nhiên toán tách từ toán gán nhãn từ loại tiếng Việt, hướng tiếp cận cho tốn tình hình nghiên cứu chung Việt Nam giới Chương trình bày hướng tiếp cận tích hợp hai toán để nâng cao hiệu hai mơ hình áp dụng thành cơng cho tiếng Trung • Chương 2: Một mơ hình tách từ tiếng Việt : Chương nghiên cứu đề xuất mơ hình cho tốn tách từ tiếng Việt tận dụng thông tin tri thức từ nhiều nguồn khác nhằm tăng độ xác tách từ • Chương 3: Một mơ hình gán nhãn từ loại tiếng Việt: Chương nghiên cứu đề xuất mơ hình gán nhãn từ loại tiếng Việt, công việc mà luận văn (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet iii TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet iv tiến hành nhằm xây dựng mơ hình gán nhãn từ loại hiệu thiết kế corpus gán nhãn từ loại, đề xuất mơ hình sử dụng Maximum Entropy Model (MEM) thiết kế tập đặc trưng khác để tìm đặc trưng hữu ích cho tiếng Việt • Chương 4: Một mơ hình tích hợp tách từ gán nhãn từ loại tiếng Việt: Từ nghiên cứu trình bày chương 2, chương đặc điểm tiếng Việt, chương trình bày mơ hình tích hợp hai tốn áp dụng cho tiếng Việt • Kết luận: Phần tóm tắt lại nội dung luận văn đóng góp mà luận văn thực • Phụ lục A: Chú giải tập từ loại vnPOS : Mơ tả cụ thể để giải thích thêm tập nhãn từ loại mà luận văn đề xuất phục vụ xây dựng corpus gán nhãn từ loại tiếng Việt (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet iv TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet Chương KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 1.1 Khái quát tách từ tiếng Việt Tiếng Việt ngơn ngữ đơn lập, khơng biến hình, ký tự dựa hệ chữ Latin Cũng giống số tiếng khác tiếng Trung, tiếng Nhật, tiếng Hàn từ tiếng Việt khơng xác định khoảng trắng Một từ tiếng Việt tạo nhiều hình vị hình vị phân tách khoảng trắng Từ đơn vị để phân tích cấu trúc ngơn ngữ, để tiến tới ứng dụng xa xử lý ngôn ngữ tiếng Việt gán nhãn chức từ loại, phân tích cú pháp việc ta phải giải toán tách từ Các nhà nghiên cứu đề xuất số hướng tiếp cận để giải toán tách từ [11, 14, 16, 20, 23, 25, 27] Nhìn chung, hướng tiếp cận chia thành loại: tiếp cận dựa từ điển tiếp cận dựa thống kê Hai phương pháp tiêu biểu hướng tiếp cận dựa vào từ điển Longest Matching Maximal Matching Hầu hết nghiên cứu ban đầu tách từ dựa cách tiếp cận [25, 29] Hướng tiếp cận có đặc điểm đơn giản, dễ hiểu nhiên hiệu mang lại khơng cao Lý khơng xử lý nhiều trường hợp nhập nhằng khả phát từ văn Chính mà hệ thống tách từ có chất lượng cao thường sử dụng hướng tiếp cận dựa thống kê Ví dụ, tiếng Trung có nghiên cứu liên quan [14, 27], tiếng Thái [25], tiếng Việt [12, 23] Cụ thể, tiếng Việt tác giả Lê An Hà[16] xây dựng corpus xấp xỉ 10 triệu hình vị sử dụng thông tin N-gram để tối ưu tổng xác suất tách cho phân cụm (chunk) Kết thực nghiệm không cao cho thấy N-gram trở nên hữu ích ta biết cách sử dụng thông tin liên kết với nguồn thông tin khác Hiện nay, nhiều hệ thống tách từ phổ biến sử dụng hướng tiếp cận lai Ví dụ, nhóm tác giả Cẩm Tú [23] nghiên cứu ứng dụng mơ hình CRF SVM để tách (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet từ tiếng Việt Hoặc nhóm tác giả Đinh Điền [12] sử dụng mơ hình MEM sử dụng giải thuật tối ưu GIS để huấn luyện tách corpus gán nhãn Trong nghiên cứu đó, tác giả phân tách hai trình nhận dạng từ (unknown word recognition) tách từ biết (known word segmentation) hai tiến trình độc lập Tuy nhiên, nhiều nghiên cứu cho thấy hai tiến trình nên tiến hành đồng thời để nâng cao độ xác Một ví dụ điển hình hướng tiếp cận cho tiếng Trung J.Gao đề cập [14] Trong phương pháp lai, tác giả tận dụng thông tin từ điển số thông tin khác nhằm phát tên thực thể Tuy nhiên, nghiên cứu chưa quan tâm thích đáng tới việc đánh giá ảnh hưởng nguồn tri thức đặc biệt chưa có nghiên cứu để phát từ (không tên thực thể dạng factoid) Nghiên cứu phương pháp phát từ ta thấy thông tin Ngram đóng vai trị hữu ích giúp ta phát từ mà corpus thống kê đủ lớn xác định độ đo phù hợp Câu hỏi đặt làm cách để tận dụng tất nguồn tri thức Đây động lực cho luận văn 1.2 Khái quát gán nhãn từ loại - POS tagging 1.2.1 Giới thiệu toán gán nhãn từ loại Gãn nhãn từ loại công việc quan trọng bắt buộc phải có hầu hết ứng dụng xử lý ngôn ngữ tự nhiên Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn đó, tức phân loại từ vào lớp từ loại ngơn ngữ đó: • Input: Một chuỗi từ tập nhãn từ loại (Ví dụ tiếng Anh: “Book that flight.”, tập thẻ Penn Treebank) • Output: Một nhãn tốt cho từ câu (Ví dụ: Book/VB that/DT flight/NN /.) Q trình gán nhãn từ loại chia làm bước sau: Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi từ Giai đoạn đơn giản hay phức tạp tuỳ theo ngôn ngữ quan niệm đơn vị từ vựng (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 34 hợp tồn thơng tin từ vào việc gán nhãn từ loại Ví dụ, đặc trưng chuẩn “word + POS tag” ứng dụng rõ ràng Gần Zhang Clark [30] đề xuất mơ hình tích hợp cho tốn này, khơng hạn chế tương tác thông tin từ loại thông tin tách từ giảm khơng gian tìm kiếm Thay vào đó, thuật tốn tìm kiếm multiple beam search sử dụng để giải mã hiệu Việc xếp hạng ứng cử khơng gian tìm kiếm dựa mơ hình tích hợp phân biệt, với đặc trưng trích rút từ từ phân đoạn thông tin từ loại cách đồng thời Huấn luyện thực perceptron đơn Trong thực nghiệm, mơ hình làm giảm lỗi 14.6% tách từ 12.2% vừa tách từ gán nhãn từ loại so với hướng tiếp cận truyền thống Kết sánh ngang với hệ thống tốt cho tiếng Trung 4.2 Lựa chọn mơ hình tích hợp cho tiếng Việt Tới đây, xây dựng tách từ gán nhãn từ loại tiếng Việt Trong đó, tách từ đạt state-of-the-art kết công bố [28] hội nghị Các phương pháp thực nghiệm cho ngôn ngữ Châu Á, EMALP - PRICAI 2008 Với gán nhãn từ loại chúng tơi tìm đặc trưng hữu ích cho tiếng Việt kết đạt khả quan Từ khích lệ cộng với thành cơng cách tiếp cận gán nhãn từ loại dựa vào hình vị, chúng tơi lựa chọn phương pháp tích hợp giống Ng Low [22] (đã trình bày phần trên) Hình 4.1: Kiến trúc tích hợp tách từ gán nhãn từ loại tiếng Việt (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 34 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 35 Kiến trúc tích hợp mơ tả hình 4.1 Với văn đầu vào, qua bước tiền xử lý để tách câu đầu vào hệ thống câu Với câu đầu vào, chúng tơi cho qua phân lớp tích hợp, đầu gán cho hình vị câu thẻ bao gồm hai thông tin: Thông tin từ (word boundary) thông tin thẻ từ loại (POS) Số lớp mơ hình tích số lớp thông tin từ nhân với số lớp thông tin thẻ từ loại (các lớp giống trình bày phần phần trên) Ví dụ đầu cho câu "Cơng ty mở chiến dịch quảng cáo " bảng 4.1: Cơng B_NN 4.3 Bảng 4.1: Một ví dụ ouput mơ hình tích hợp ty mở chiến dịch quảng cáo I_NN B_AD B_VB B_NN I_NN B_VB I_VB B_ Xây dựng mơ hình tiến hành thực nghiệm 4.3.1 Features Các đặc trưng tổng hợp từ đặc trưng mơ hình tách từ đặc trưng mơ hình gán nhãn từ loại Trong đó, đặc trưng mơ hình gán nhãn từ loại lấy dựa vào hướng tiếp cận dựa hình vị Chú ý đặc trưng thơng tin thẻ từ loại hình vị thay bằng: • B(S−1W0 )P OS(S−1W0 ) • B(S−2W0 )P OS(S−2W0 )B(S−1W0 )P OS(S−1W0 ) B thông tin từ B(Begin_Of_Word) I(Inner_Of_Word), cịn POS thơng tin từ loại hình vị xét Như vậy, so với hướng tiếp cận gán nhãn từ loại theo kiểu pipeline thơng tin thẻ khơng gồm thơng tin từ loại (POS) mà cịn bao gồm thơng tin từ (word boundary) 4.3.2 Giải mã Trong giải mã, sử dụng giải mã thuật tốn BEAM SEARCH trình bày với N = Trong ý chọn tập thẻ tốt cho hình vị (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 35 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 36 xét thẻ hợp lệ tức thẻ thỏa mãn hình vị từ phải có thẻ từ loại 4.3.3 Kết Kết thực nghiệm 5-fold test corpus xây dựng trình bày bảng 4.2: Bảng 4.2: Kết thực nghiệm tích hợp tách từ gán nhãn từ loại Fold Tách từ Gán nhãn từ loại Precision Recall F1 Precision Recall F1 91.75 94.41 93.06 84.97 87.45 86.2 92.1 94.53 93.32 84.3 88.12 86.21 91.76 95 93.38 84.65 89.01 86.83 92.53 95.11 93.82 83.71 88.15 85.93 91.87 95.2 93.54 84.76 88.92 86.84 Trung bình 92 94.85 93.42 84.48 88.33 86.40 Nhìn vào bảng kết thực nghiệm, nhận thấy hướng tiếp cận tích hợp cho kết thấp so với hướng tiếp cận pipeline hai tốn 4.4 Thảo luận Kết thực nghiệm cho thấy tiếp cận tích hợp áp dụng cho tiếng Việt thử nghiệm corpus mô tả không làm tăng hiệu hai riêng rẽ (khác so với nghiên cứu tiếng Trung tích hợp cho kết nhìn chung cao hai tốn) Cách tiếp cận tích hợp giống Ng Low không áp dụng thành công cho tiếng Việt liệu mà tiến hành kiểm thử (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 36 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet KẾT LUẬN Luận văn trình bày nghiên cứu đề tài: “Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt” đạt kết sau: Về lý thuyết: Trong khuôn khổ luận văn thạc sỹ, tìm hiểu hai tốn tảng xử lý ngơn ngữ tự nhiên tốn tách từ toán gán nhãn từ loại Đối với tốn, chúng tơi trình bày đặc điểm, hướng tiếp cận để giải hai toán Việt Nam giới Từ nghiên cứu đó, chúng tơi đề xuất xây dựng mơ hình tách từ gán nhãn từ loại tương ứng áp dụng cho tiếng Việt Chúng tơi tìm hiểu nghiên cứu vấn đề tích hợp hai tốn xây dựng thành cơng cho tiếng Trung từ đó, chúng tơi lựa chọn để tiến hành thực nghiệm phương pháp tích hợp áp dụng cho tiếng Việt Về thực nghiệm sản phẩm công cụ thực hiện: Trong luận văn này, chúng tơi đề xuất mơ hình tương ứng để giải toán cách tự động Đặc biệt, tốn tách từ, chúng tơi tiến hành xây dựng mơ hình đạt kết tốt kết trình bày báo khoa học [28] Đối với toán gán nhãn từ loại, nghiên cứu cách trích chọn đặc trưng khác tìm tập đặc trưng hữu ích cho tiếng Việt Kết cho thấy mơ hình mà đặc trưng dựa hình vị (syllable-based features) cho kết khả quan (∼90%) hẳn so với cách trích đặc trưng dựa thơng tin từ vựng (word-based features) Ngồi ra, chúng tơi tiến hành xây dựng mơ hình tích hợp toán tách từ gán nhãn từ loại cho tiếng Việt (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 37 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 38 Kết thực nghiệm cho thấy hướng tiếp cận tích hợp không tốt so với tiếp cận pipeline phương pháp kiểm thử corpus chọn Về việc đóng góp xây dựng tài nguyên: Trong nỗ lực chung để xây dựng phát triển nguồn tài nguyên liệu phong phú cho tiếng Việt, tiến hành xây dựng corpus gán nhãn từ loại tiếng Việt Trước hết, chúng tơi tìm hiểu đặc điểm tiếng Việt đặc biệt tìm hiểu ngữ pháp tiếng Việt xuất nhà ngôn ngữ tiếng Việt Nam Từ đó, chúng tơi thống thiết kế tập thẻ từ loại cho tiếng Việt Trên sở đó, gán nhãn cho corpus tách từ xấp xỉ 8000 câu tiếng Việt Trong tất thực nghiệm gán nhãn từ loại kiểm thử mơ hình tích hợp chúng tơi sử dụng corpus để đánh giá chất lượng mơ hình (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 38 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet CÔNG VIỆC TIẾP THEO Tiếp theo luận văn này, dự định nghiên cứu thêm đặc điểm tiếng Việt để tìm thêm nhiều đặc trưng hữu ích cho toán tách từ toán gán nhãn từ loại Chúng dự định thử nghiệm đặc trưng chọn đưa vào mơ hình học máy khác để huấn luyện, kiểm thử so sánh; chúng tơi thử nghiệm mơ hình corpus khác tiếng Việt Đối với tốn tích hợp, chúng tơi nghiên cứu đề xuất mơ hình tích hợp khác để làm tăng chất lượng hệ chung so với cách tiếp cận pipeline truyền thống (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 39 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet Tài liệu tham khảo [1] Diep Quang Ban, Hoang Ban Ngu phap tieng Viet NXB Giao Duc, Ha Noi, 2000 [2] Nguyen thi minh huyen, vu xuan luong, le hong phuong su dung bo gan nhan tu loai xac suat qtag cho van ban tieng viet In Ky yeu hoi thao ICT.rda’03 Ha Noi, 2003 [3] Nguyen quang chau, phan thi tuoi, hoang tru gan nhan tu loai cho tieng viet dua tren van phong va tinh toan xac suat In Tap chi phat trien KHCN tap 9, page 11, So 2, nam 2006 [4] Trung Tam tu dien hoc Tu dien tieng Viet Nha Xuat Ban Da Nang, 2008 [5] Nguyen Chi Hoa Ngu phap tieng Viet thuc hanh NXB DHQG Ha Noi, 2004 [6] Ratnaparkhi A A simple introduction to maximum entropy models for natural language processing In Technical Report 97-08, pages 133–142 Institute for Research in Cognitive Science, University of Pennsylvania, 1996 [7] Wu A.D and Jiang Z.X Word segmentation in sentence analysis In Proceedings of the 1998 Interrintionnl Conference on Chinese Informntion Processing, pages 169– 180 Beijing, 1998 [8] Steven J Benson and Jorge J More A limited-memory variable-metric method for bound-constrained minimization In Preprint ANL/MCS, pages 909–0901, 2001 [9] Lai B.Y., h i M.S., and et al Chinese word segmentation and part-of-speech tagging in one step In Proceedings of International, Conference Research on Compiitational Linguistics, pages 229–236 Taipei, 1997 (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 40 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 41 [10] Chang C.H and Chen C.D A study on integrating chinese word segmentation and part-of-speech tagging In Comrniinications of COLES, pages Vol 3, No 2, 69–77, 1993 [11] D.Dien, H.Kiem, and N.V.Toan Vietnamese word segmentation In Proceedings of NLPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), pages 749–756 Tokyo, Japan, 2001 [12] Dinh Dien and Vu Thuy A maximum entropy approach for vietnamese word segmentation In In Proceedings of 4th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future, pages 12–16 HoChiMinh City, Vietnam, 2006 [13] Dien Dinh and Kiem Hoang Pos-tagger for english-vietnamese bilingual corpus In Workshop On Building And Using Parallel Texts: Data Driven Machine Translation And Beyond, 2003 [14] Gao, J.F., Li M., Wu A., and Huang C.N Chinese word segmentation and named entity recognition: A pragmatic approach In Computational Linguistics MIT Press, 2005 [15] J Gimenez and L Marquez Svmtool technical manual v1.3 In TALP Research Center, Universitat Politcnica de Catalunya Barcelona, 2006 [16] Le An Ha A method for word segmentation in vietnamese In Proceedings of Corpus Linguistics Lancaster, UK, 2003 [17] Fahim Muhammad Hasan, Naushad UzZaman, and Mumit Khan Comparison of unigram, bigram, hmm and brill’s pos tagging approaches for some south asian languages In Proceedings of the Conference on Language and Technology (CLT07) Pakistan, 2007 [18] Daniel Jurafsky and James H.Martin Speech and Language Processing Prentice Hall, Englewood Cliffs, New Jersey 07632, 1999 (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 41 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 42 [19] F Karlsson, A Voutilainen, J Heikkila, and A Anttila Constraint grammar: A language independent system for parsing unrestricted text pages 165–284 Mouton de Gruyter, 1995 [20] Jin Kiat Low, Hwee Tou Ng, and Wenyuan Guo A maximum entropy approach to chinese word segmentation In Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing, pages 161–164, 2005 [21] Sun M.S., Xu D.L., and Tsou B.K Integrated word segmentation and part-of-speech tagging based on the divide and conquer strategy In In Proceedings of 2003 International Conference on Natural Language Processing and Knowledge Engineering, pages 610–615, 2003 [22] Hwee Tou Ng and Jin Kiat Low Chinese part-of-speech tagging: One-at-a-time or all-at-once? word-based or character-based? In In Proceedings of EMNLP, pages 277–284, 2004 [23] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, and Quang-Thuy Ha Vietnamese word segmentation with crfs and svms: An investigation In Proceeding of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215–222 Wuhan, China, 2005 [24] Tri Tran Q., Thao Pham T X., Hung Ngo Q., Dien Dinh, and Nigel Collier Named entity recognition in vietnamese documents In Progress in Informatics, pages No.4, pp 5–13, 2007 [25] Mekanavin S., Charenpornsawat P., and Kijsirikul B Feature-based thai words segmentation In Proceedings of the Natural Language Processing Pacific Rim Symposium, pages 41–48 Phuket, Thailand, 1997 [26] Yanxin Shi and Mengqiu Wang A dual-layer crf based joint decoding method for cascade segmentation and labelling tasks In In Proceedings of the IJCAI Conference, Hyderabad, India, 2007 [27] Maosong Sun, Dayang Shen, and Benjamin K Tsou Chinese word segmentation without using lexicon and hand-crafted training data In In Proceeding of COLINGACL, pages 1265–1271, 1998 (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 42 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 43 [28] Oanh Tran, Cuong Le, and Thuy Ha Improving vietnamese word segmentation by using multiple knowledge resourses In Proceeding of workshop on EMALP, PRICAI08, pages 1–12 Hanoi, Vietnam, 2008 [29] P Wong and C Chan Chinese word segmentation based on maximum matching and word binding force In Proceedings of Coling 96, pages 200–203, 1996 [30] Yue Zhang and Stephen Clark Joint word segmentation and pos tagging using a single perceptron In In proceedings of ACL, 2008 (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 43 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet Phụ lục A Chú giải tập từ loại vnPOS AD - Phó từ (Phụ từ) Khái niệm: Phó từ hư từ thường dùng kèm với thực từ (động từ, tính từ) Chúng biểu thị ý nghĩa quan hệ trình đặc trưng với thực tại, đồng thời biểu ý nghĩa cách thức nhận thức phản ánh trình đặc trưng thực Phó từ khơng có khả làm trung tâm ngữ nghĩa – ngữ pháp kết hợp thực từ, có khả làm thành phần câu Phó từ thường xuất phổ biến vị trí thành tố phụ kết hợp thực từ, cấu tạo thành phần câu Phân loại : Phó từ bao gồm loại sau: • Phó từ thời gian: đã, từng, mới, sẽ, • Phó từ so sánh tiếp diễn: cũng, đều, vẫn, cứ, cịn, nữa, cùng, • Phó từ trình độ: rất, lắm, q, cực kỳ, hơi, khí, khá, • Phó từ phủ định, khẳng định: khơng, chẳng, chưa, có, • Phó từ sai khiến: hãy, đừng, chớ, • Phó từ kết quả: mất, được, ra, đi, • Phó từ tần số: thường, năng, ít, hiếm, ln ln, thường thường, • Phó từ tác động: cho • Phó từ ý nghĩa tình thái chủ quan khách quan: vụt, thốt, chợt, bỗng, dưng, thình lình, đột nhiên, ắt, là, hẳn là, hẳn, Ví dụ: Chúng em [đã/Ad] rải đá mà đường Nó [đang/Ad] di chuyển phía Con [mới/Ad] Anh [vừa/Ad] xuống Tơi [lại/Ad] [sắp/Ad] xa chuyến Nhưng anh [lại/Ad] yêu tơi, tơi phải nói, tơi [cũng/Ad] u anh Mọi người [đều/Ad] nhảy, trừ chị Lộc Keng [vẫn/Ad] chạy suốt ngày CC - Liên từ (Kết từ đẳng lập) Khái niệm: Chỉ ý nghĩa quan hệ đẳng lập, dùng để nối kết từ, kết hợp từ (ở bậc cụm từ hay bậc câu, đoạn văn) Kết từ đẳng lập khơng gắn bó với thành tố kết hợp có quan hệ đẳng lập Kết từ đẳng lập từ đơn hay cặp hô ứng Kết từ đơn thường đứng hai thành tố có quan hệ đẳng lập Cặp kết từ hô ứng (hai từ) thường phân phối đứng trước thành tố kết hợp Phân loại : Và, với, cùng, hay, hoặc, rời, là, rằng, hình như, cịn, thì, như, Ví dụ Kính mong ơng [cùng/CC] vị giáo viên phổ biến [và/CC] giải thích Vậy mà ba [với/CC] tưởng má đến mai (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 44 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 45 Sáu năm [hay/CC] năm Đơng bạn anh Anh vít cần uống thêm [rồi/CC] tiếp D - Số từ định từ Xét văn phạm tiếng Việt, vị trí số từ định từ luật sinh văn phạm gần Do ta gộp số từ định từ vào chung loại tag Số từ Số từ gồm từ biểu thị ý nghĩa số Xét theo đối tượng phản ánh nhận thức tư duy, ý nghĩa số vừa có tính chất thực, vừa có tính chất hư Khả kết hợp với số từ phổ biến dùng kèm danh từ để biểu thị số lượng vật nêu danh từ Số từ đảm nhiệm số chức cú pháp (làm chủ ngữ, làm vị ngữ), bị hạn chế điều kiện định kết cấu câu văn Bao gồm: Một, hai, Vài, dăm ba, Định từ Là từ biểu thị quan hệ số lượng với vật nêu danh từ, chuyên dùng kèm với danh từ, với chức làm thành tố phụ kết hợp từ có trung tâm ngữ nghĩa – ngữ pháp danh từ Số lượng định từ khơng nhiều, chúng có tác dụng dạng thức hóa số ý nghĩa ngữ pháp quan trọng từ loại danh từ Bao gồm: Những, các, một, Mỗi, từng, mọi, Cái, mấy, Ví dụ: Trâu đứng ăn [năm/D] Đi cách [hai/D] số IN - Giới từ (Kết từ phụ) Khái niệm: Kết từ phụ ý nghĩa quan hệ phụ Kết từ phụ dùng để nối kết thành tố phụ vào thành tố (nối kết từ phụ với từ chính, thành phần phụ với thành phần câu ) Phân loại Bao gồm: của, cho, bằng, do, vì, tại, bởi, để, mà, ở, tại, đối với, với, cùng, với, về, đến, tới, từ, trong, ngoài, trên, dưới, tuy, dù, mặc dù, /giá /hễ /miễn /giả thử/ /là / Ví dụ Quần áo [của/IN] tơi để đấy, tơi tự giặt lấy Tơi u anh [vì/IN] nguyên nhân sâu xa Tôi định [để/IN] mặc, đến lúc hay lúc Cả hai chúng em phải dựa vào [mà/IN] sống JJ - Tính từ Khái niệm: Là lớp từ ý nghĩa đặc trưng Ý nghĩa đặc trưng biểu tính từ thường có tính chất đối lập phân cực có tính chất mức độ Tính từ có khả kết hợp với phụ từ, không kết hợp với “hãy”, “đừng”, “chớ” Tính từ kết hợp với thực từ kèm để bổ nghĩa cho tính từ Làm vị ngữ câu coi chức tính từ, tính từ dùng kèm danh từ động từ để bổ nghĩa cho danh từ hay động từ Phân loại Bao gồm: Tốt, đẹp, xấu, khéo, vụng, Nhiều, ít, rậm, thưa, ngắn, dài, Mạnh, yếu, nóng, lạnh, sáng, tối, lạnh lẽo, Vng, trịn, thẳng, gãy, Xanh, đỏ, vàng, nâu, Ồn, im, vắng, ồn ào, lặng lẽ, Thối, đắng, cay, ngọt, bùi, Riêng, chung, công, tư, Đỏ lịm, trắng phau, đen sì, xanh xanh, Ồn ào, đùng đùng, lè tè, lênh khênh, Ví dụ Tôi nghe tiếng máy tàu [hu hu/JJ] lúc gần (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 45 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 46 Ý nghĩ [nhoang nhống/JJ] qua đầu trời chớp NC - Danh từ loại Khái niệm: Danh từ loại tất từ có tính chất từ loại danh từ có nội dung ý nghĩa thứ, loại, hạng vật, kể danh từ có kiểu ý nghĩa từ vựng trực tiếp loại từ thứ, loại, hạng, kiểu, Chúng mang đầy đủ đặc tính danh từ, dùng rời từ đơn, kết hợp phía sau với từ này, Chúng vừa có tác dụng xếp vật vào loại khái quát, đồng thời lại có khả làm cho vật tách bạch thành đơn vị rời, thành vật lẻ, đếm Phân loại : Các danh từ loại thường gặp với vai trò thành tố cụm danh từ trực tiếp đứng sau số từ số đếm là: Chỉ loại, đơn vị tập hợp: bọn, lũ, tốp, đám, đoàn, đội, Chỉ loại, đơn vị riêng lẻ: con, cái, đứa, bức, mét, kg, giờ, Cục, hòn, miếng, mẩu, vụn, hạt, thanh, tấm, Làn, cơn, trận, Tên, tay, đầu, gốc, chân, Thứ, loại, hạng, kiểu, cách, Nước, khu, tỉnh, huyện, xã, làng, Chỗ, nơi, chốn, xứ, miền, khu, khoảnh, vùng, Màu, sắc, mùi, hương, vị, tiếng, giọng, Ví dụ Một con//NC gà, bờ ao Hai cái//NC bàn nhà Đồ cục//NC đất Cho xem bức//NC ảnh với Bọn//NC cướp thật độc ác NN - Danh từ thường Khái niệm Là danh từ người, đồ đạc, động thực vật, khái niệm trừu tượng, Là danh từ không đếm được, thường đứng sau danh từ loại, kết hợp với danh từ loại làm thành tố cụm danh từ Phân loại Ví dụ: Hai đứa sinh viên nghèo Ở ví dụ trên, “đứa” danh từ loại, “sinh viên” danh từ thường “đứa sinh viên” thành tố cụm danh từ “hai đứa sinh viên nghèo ấy” Một số danh từ thường: chị em, bàn ghế, nhà cửa chó, mèo, gà NP - Danh từ riêng Khái niệm: Là tên riêng người, vật cụ thể Ví dụ: - Danh từ tên riêng: Nguyễn Tất Thành, Hồ Chí Minh - Danh từ tên tỉnh, thành phố: Hà Nội, Hải Phòng, Sài Gòn PP - Đại từ Khái niệm Đại từ lớp từ dùng để thay trỏ Đại từ không trực tiếp biểu thị thực thể, trình đặc trưng danh từ, động từ, tính từ Đại từ nói chung, đảm nhiệm chức cú pháp thực từ thay Ngồi đại từ cịn dùng để thay trỏ vào người vật tham gia trình giao tiếp Phân loại Bao gồm: (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 46 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 47 Tôi, tao, mày, ,họ , , Ta, chúng ta, mình, chúng mình, Nhau, Ai, ai, Bây giờ, giờ, rày, nay, nãy, Này, đây, đó, kia, kìa, nọ, ấy, Bao lâu, , Đâu, nào, Tất cả, thảy, hết thảy, nhiêu, , Gì, sao, Ví dụ Tơi/PP muốn mua hai mèo Chúng_ta/PP mua RB - Trợ từ Khái niệm Dùng câu biểu thị ý nghĩa tình thái, cách nhấn mạnh vào từ, kết hợp từ có nội dung phản ánh liên quan với thực mà người nói muốn lưu ý người nghe Vị trí trợ từ thường tương ứng với chỗ ngừng hay chỗ ngắt đoạn phát ngơn câu Do trợ từ có tác dụng phân tách thành phần câu Phân loại Bao gồm: Thì, ngay, cả, đúng, là, những, mà, là, chính, đích, là, chỉ, là, thật, thật ra, thực ra, đến, đến cả, đến nỗi, tự Ví dụ Tơi [thì/RB] tơi quay lại phía biển [Ngay/RB] lúc chập tối, đồng chí Quỳnh [Đúng là/RB] tụi giặc đuổi theo UH - Tình thái từ (Thán từ) Khái niệm Là tiểu từ chuyên dùng biểu thị ý nghĩa tình thái quan hệ chủ thể phát ngôn với người nghe hay với nội dung phản ánh; ý nghĩa tình thái gắn với mục đích phát ngơn Tình thái từ có vị trí câu linh hoạt Chúng đặt đầu câu, cuối câu hay câu Khi đứng câu, tình thái từ thường có tác dụng phân tách ranh giới thành phần câu, tạo dạng thức kiểu câu theo mục đích phát ngơn Tình thái từ đứng riêng biệt, làm thành câu đặc biệt Phân loại Bao gồm: à, ư, chăng, hử, hả, không, phỏng, đi, với, nhé, mà, nào, thôi, à, á, vậy, kia, mà, cơ, mà, hứ, hé, thật, ôi, ối, ái, ồ, chà, ơi, hỡi, à, này, vâng, dạ, Ví dụ VB - Động từ Khái niệm Động từ từ biểu thị ý nghĩa khái quát trình Ý nghĩa trình thể trực tiếp đặc trưng vận động thực thể Đó ý nghĩa hành động Ý nghĩa trạng thái khái quát hóa mối liên hệ với vận động thực thể thời gian khơng gian Động từ thường có phụ từ kèm, để biểu thị ý nghĩa quan hệ có tính tình thái q trình với cách thức với đặc trưng vận động trình khơng gian, thời gian thực Động từ kết hợp với thực từ nhằm phản ánh quan hệ nội dung vận động trình Khả kết hợp với “hãy”, “đừng”, “chớ” có tác dụng quy loại động từ Động từ có khả đảm nhiệm nhiều chức Cú pháp khác nhau, chức phổ biến quan trọng làm vị ngữ cấu tạo câu (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet 47 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet (LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet(LUAN.VAN.THAC.SI).Mo.hinh.tach.tu gan.nhan.tu.loai.va.huong.tiep.can.tich.hop.cho.tieng.Viet

Ngày đăng: 17/12/2023, 01:49

Tài liệu cùng người dùng

Tài liệu liên quan