Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	16
Dung lượng	168,03 KB

Nội dung

Mô hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt TRẦN THỊ OANH Master Thesis Giảng viên hướng dẫn: TS Lê Anh Cường PGS.TS Hà Quang Thụy 2008 1 i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố công trình trước i ii LỜI CẢM ƠN Trước tiên, xin bày tỏ biết ơn sâu sắc tới PGS Tiến sĩ Hà Quang Thuỵ (trường Đại học Công nghệ - ĐH Quốc gia Hà Nội) tận tình hướng dẫn suốt trình thực luận văn Tôi xin gửi lời cảm ơn chân thành tới Tiến sĩ Lê Anh Cường (Bộ môn KHMT – Trường Đại học Công nghệ - ĐH Quốc gia Hà Nội) nhiệt tình bảo hỗ trợ để hoàn thiện luận văn Tôi xin gửi lời cảm ơn anh chị em nhóm seminar khai phá liệu phòng thí nghiệm Các hệ tích hợp thông minh (SISLAB) – trường Đại học Công nghệ tạo môi trường nghiên cứu khoa học giúp thực luận văn Tôi xin cảm ơn đề tài QG.07.25 đề tài 203609 hỗ trợ phần kinh phí thời gian thực luận văn Và lời cuối cùng, xin bày tỏ lòng chân thành biết ơn vô hạn tới cha mẹ, anh chị bên cạnh tôi, giúp vượt qua khó khăn học tập sống Hà Nội, ngày 30 tháng 12 năm 2008 Trần Thị Oanh ii iii MỞ ĐẦU Tách từ (word segmentation) gán nhãn từ loại( part-of-speech tagging – POS tagging) hai toán đặc biệt quan trọng xử lý ngôn ngữ tự nhiên Tuy nhiên, nghiên cứu Việt Nam hai vấn đề giai đoạn ban đầu Do đó, nhu cầu lớn sở khoa học xây dựng công cụ thực sẵn dùng Xét mặt ngôn ngữ, cách tách từ khác dẫn đến cách gán nhãn từ loại khác ngược lại thông tin qui tắc kèm từ loại ảnh hướng tới việc tách từ Đây sở cho mô hình chung hai trình Vì thế, luận văn nghiên cứu “Mô hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt” Đóng góp luận văn việc tìm hiểu, nghiên cứu đề xuất mô hình thực tách từ, gán nhãn từ loại tiếng Việt; xây dựng công cụ thực liên quan; bên cạnh để huấn luyện kiểm thử mô hình tiến hành xây dựng corpus tiếng Việt gán nhãn từ loại xấp xỉ 8000 câu Luận văn tiến hành thực nghiệm hướng tiếp cận tích hợp cho hai toán Các nghiên cứu trình bày luận văn đặc biệt hữu ích cho nghiên cứu mức cao dịch máy, tóm tắt văn bản, phân tích cú pháp Cấu trúc luận văn trình bày sau: • Chương 1: Khái quát tách từ gán nhãn từ loại tiếng Việt : Trong chương này, luận văn giới thiệu hai toán xử lý ngôn ngữ tự nhiên toán tách từ toán gán nhãn từ loại tiếng Việt, hướng tiếp cận cho toán tình hình nghiên cứu chung Việt Nam giới Chương trình bày hướng tiếp cận tích hợp hai toán để nâng cao hiệu hai mô hình áp dụng thành công cho tiếng Trung • Chương 2: Một mô hình tách từ tiếng Việt : Chương nghiên cứu đề xuất mô hình cho toán tách từ tiếng Việt tận dụng thông tin tri thức từ nhiều nguồn khác nhằm tăng độ xác tách từ • Chương 3: Một mô hình gán nhãn từ loại tiếng Việt: Chương nghiên cứu đề xuất mô hình gán nhãn từ loại tiếng Việt, công việc mà luận văn iii iv tiến hành nhằm xây dựng mô hình gán nhãn từ loại hiệu thiết kế corpus gán nhãn từ loại, đề xuất mô hình sử dụng Maximum Entropy Model (MEM) thiết kế tập đặc trưng khác để tìm đặc trưng hữu ích cho tiếng Việt • Chương 4: Một mô hình tích hợp tách từ gán nhãn từ loại tiếng Việt: Từ nghiên cứu trình bày chương 2, chương đặc điểm tiếng Việt, chương trình bày mô hình tích hợp hai toán áp dụng cho tiếng Việt • Kết luận: Phần tóm tắt lại nội dung luận văn đóng góp mà luận văn thực • Phụ lục A: Chú giải tập từ loại vnPOS : Mô tả cụ thể để giải thích thêm tập nhãn từ loại mà luận văn đề xuất phục vụ xây dựng corpus gán nhãn từ loại tiếng Việt iv Mục lục Mở đầu iv KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 1.1 Khái quát tách từ tiếng Việt 1.2 Khái quát gán nhãn từ loại - POS tagging 1.2.1 Giới thiệu toán gán nhãn từ loại 1.2.2 Các hướng tiếp cận toán POS tagging 1.2.3 Các nghiên cứu gán nhãn từ loại cho tiếng Việt Vấn đề tích hợp tách từ gán nhãn từ loại 1.3 MỘT MÔ HÌNH TÁCH TỪ TIẾNG VIỆT 2.1 Các mô hình liên quan 2.1.1 Mô hình dựa vào từ điển 2.1.2 Mô hình nhận dạng tên thực thể - Named Entity Recognition 10 2.1.3 Mô hình N-gram 10 2.2 Phân tích mô hình 11 2.3 Thiết kế tập đặc trưng 12 2.4 2.3.1 FS1: Đặc trưng trích từ mô hình tách từ dựa vào từ điển 13 2.3.2 FS2: Đặc trưng dựa vào mô hình nhận dạng tên thực thể 13 2.3.3 FS3: Đặc trưng dựa vào mô hình N-gram 14 Kết thực nghiệm 15 2.4.1 Đánh giá đặc trưng FS1 FS2 so với mô hình trước 15 2.4.2 Đánh giá tầm quan trọng tập thuộc tính 16 v vi 2.5 Đánh giá kết tách từ 17 MỘT MÔ HÌNH GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 3.1 3.2 3.3 3.4 19 Xây dựng corpus gán nhãn từ loại cho tiếng Việt 19 3.1.1 Thiết kế tập thẻ VnPOSTag 19 3.1.2 Mô tả liệu làm vnPOS corpus 21 3.1.3 Xây dựng vnPOS corpus 22 Gán nhãn từ loại phương pháp Maximum Entropy Model 24 3.2.1 Mô hình xác suất 24 3.2.2 Các đặc trưng gán nhãn từ loại 25 Đề xuất mô hình gán nhãn từ loại cho tiếng Việt 26 3.3.1 Gán nhãn từ loại dựa vào thông tin từ 27 3.3.2 Gán nhãn từ loại dựa vào hình vị 29 Đánh giá kết gán nhãn từ loại 30 MỘT MÔ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 32 4.1 Các mô hình tích hợp cho tiếng Trung 32 4.2 Lựa chọn mô hình tích hợp cho tiếng Việt 34 4.3 Xây dựng mô hình tiến hành thực nghiệm 35 4.4 4.3.1 Features 35 4.3.2 Giải mã 35 4.3.3 Kết 36 Thảo luận 36 A Chú giải tập từ loại vnPOS 44 vi Danh sách hình vẽ 2.1 Mô hình tách từ sử dụng N-gram 11 2.2 Các mô hình liên quan cần để trích đặc trưng 12 2.3 Biểu đồ độ đo F1 18 3.1 Giao diện công cụ trợ giúp gán nhãn vnPOS 23 3.2 Kiến trúc gán nhãn từ loại 26 4.1 Kiến trúc tích hợp tách từ gán nhãn từ loại tiếng Việt vii 34 Danh sách bảng Bảng thuật ngữ Anh - Việt 2.1 Bảng tập đặc trưng 13 2.2 Ví dụ tập đặc trưng (FS1) 13 2.3 Ví dụ câu tách từ 15 2.4 Kết đánh giá hiệu đặc trưng dựa vào từ điển 16 2.5 Kết đánh giá hiệu đặc trưng dựa vào NER 16 2.6 Kết thực nghiệm bỏ tập đặc trưng 17 2.7 Kết thực nghiệm sử dụng loại đặc trưng riêng 17 3.1 Tập thẻ vnPOSTag từ loại tiếng việt 22 3.2 Kết gán nhãn từ loại dựa vào thông tin mức từ 29 3.3 Kết gán nhãn từ loại dựa vào thông tin hình vị 30 4.1 Một ví dụ ouput mô hình tích hợp 35 4.2 Kết thực nghiệm tích hợp tách từ gán nhãn từ loại 36 viii ix 28 seach Sau huấn luyện mô hình entropy cực đại, ta sử dụng để gán nhãn từ loại cho câu Quá trình gán nhãn cho câu tiến hành cho từ từ trái sang phải Tại thời điểm lưu lại k chuỗi nhãn tốt (xác suất lớn nhất) sử dụng để làm ngữ cảnh gán nhãn cho từ Cho trước câu w1 , , wn , chuỗi nhãn ứng cử viên có xác suất điều kiện phương trình 3.9 n P (a1 an |w1 wn ) = p(ai |bi ) (3.9) i=1 bi lịch sử tương ứng với từ thứ i Thay phải tính tích thừa số nhỏ ta logarit hai vế phương trình đưa phép lấy tổng Thuật toán BEAM SEARCH: beamsize = N • Sinh tag cho từ wi , tìm N tag có xác suất cao gắn vào N chuỗi tag kí hiệu Sj (j = 1, , N) • For i = to n ( n độ dài câu) – For j = to N ∗ Sinh tag cho wi với Sj chuỗi tag trước ∗ Gắn tag vào đuôi Sj – Từ chuỗi tag có tìm N chuỗi có xác suất cao Sj (j = 1, , N) • Trả chuỗi tag có xác suất cao S1 Trong thực nghiệm để đo độ xác mô hình gán nhãn từ loại, chọn kích thước beam size N = Kết thực nghiệm Thực nghiệm tiến hành corpus có kích thước ∼8000 câu mô tả phần Toàn corpus chia làm fold sau kiểm thử theo phương pháp kiểm thử chéo (cross validation) Kết thực nghiệm mô tả bảng 3.2: Kết thực nghiệm cho thấy độ xác trung bình đạt 85.57%, thấp nhiều so với kết tầm 96% mà Rat sử dụng gán nhãn cho English Như vậy, đặc trưng tỏ hữu ích với gán nhãn từ loại tiếng Anh dường không ứng dụng cho tiếng Việt khung MEM 28 29 Bảng 3.2: Kết gán nhãn từ loại dựa vào thông tin mức từ Fold Precision 85.17 85.64 85.51 85.71 85.81 Trung bình 85.57 3.3.2 Gán nhãn từ loại dựa vào hình vị Vì gán nhãn từ loại dựa thông tin từ cho kết không cao, cách xa độ xác mà Ratnaparkhi thực gán nhãn từ loại cho tiếng Anh, tiếp tục nghiên cứu cách biểu diễn đặc trưng khác xây dựng thành công cho tiếng Trung [22] Với đặc điểm tiếng Việt hình vị cấu tạo nên từ, thiết kế tập đặc trưng dựa thông tin hình vị sau: Đặc trưng - Features Chúng tiến hành thử nghiệm với loại đặc trưng dựa hình vị mô tả phần đây: • Hình vị Si ( i= -2,-1,0,1,2) • Sự liên kết hình vị với hình vị với window size = • Thẻ hình vị đằng trước POS(S−1W0 ) • Thẻ hình vị đằng trước từ POS(S−2W0 )POS(S−1W0 ) • Hình vị xét có phải dấu câu? • Hình vị xét có phải hình vị câu? • Hình vị xét có ký tự viết hoa hay không? Trong với ý thêm đặc trưng POS(S−1W0 ) nhãn từ loại hình vị thuộc từ đứng trước từ Và POS(S−2W0 )POS(S−1W0 ) nhãn từ loại hình vị thuộc từ đứng trước cách từ từ Giả sử xét ví dụ câu đầu vào là: Từ lâu ông biết đến nhà quản_lý tài_ba 29 30 Bảng 3.3: Kết gán nhãn từ loại dựa vào thông tin hình vị Fold Precision 88.63 89.64 89.26 89.36 89.63 Trung bình 89.22 Giả sử xét hình vị ba đặc trưng tương ứng cho hình vị nhận giá trị là: VB NC_VB (Với giả thiết "nhà" gán nhãn NC "quản_lý" gán nhãn VB) Giải mã - Testing Thủ tục giải mã tương tự mô tả phần trên, ý điểm xác suất từ gán nhãn từ loại t tính tích xác suất hình vị từ gán nhãn từ loại t tương ứng Giả sử đánh giá xác suất từ "tài_ba" gán nhãn JJ ta tính xác suất hình vị "tài" "ba" gán nhãn JJ sau nhân tích hai xác suất ta xác suất từ "tài_ba" gán nhãn JJ Đây ràng buộc để tất hình vị từ câu tách từ phải có nhãn từ loại Kết thực nghiệm Chúng tiến hành thực nghiệm dựa corpus tương tự mô tả phần 3.1 thực nghiệm cho kết bảng 3.3: Độ xác trung bình fold lên cao 89.22% 3.4 Đánh giá kết gán nhãn từ loại Từ kết thực nghiệm ta nhận thấy đặc trưng tỏ hữu ích với tiếng Anh lại không thực hữu ích tiếng Việt khác biệt ngôn ngữ (tiếng Anh ngôn ngữ biến hình tiếng Việt ngôn ngữ đơn lập, không biến hình) Kết thực nghiệm cách trích đặc trưng dựa hình vị cho kết cao 30 31 đáng kể (89.22%) so với cách trích đặc trưng dựa thông tin từ (85.57%) Như vậy, tiếng Việt hướng tiếp cận dựa hình vị tỏ hữu ích hẳn hướng tiếp cận dựa từ 31 Chương MỘT MÔ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 4.1 Các mô hình tích hợp cho tiếng Trung Các nghiên cứu gần áp dụng cho tiếng Trung bắt đầu nghiên cứu việc tích hợp phân đoạn từ gán nhãn từ loại, báo cáo cải tiến độ xác so với hướng tiếp cận pipeline truyền thống Các tiếp cận giải mã khác áp dụng để làm giảm không gian tìm kiếm tích hợp Như tóm lược sơ qua phần giới thiệu chương toán tích hợp chia làm loại: Một loại tích hợp giả loại tích hợp thực Năm 1993, Chang Chen [10] trình bày mô hình tích hợp bao gồm bước: Tạo N chuỗi tách từ tốt nhất(N-best word sequences) câu cho sẵn Thực gán nhãn từ loại cho chuỗi từ đó, sau chọn N chuỗi thẻ từ loại tốt tương ứng Sử dụng đánh giá có trọng số (1) (2) để chọn giải pháp tách từ gán nhãn từ loại tốt cho câu đầu vào đó, bước thực nhau, có tên gọi tích hợp giả (pseudo-integration) Các hướng tiếp cận tích hợp thực quan tâm nghiên cứu nhiều Lai [9] đề xuất hướng tiếp cận tích hợp thực (true-integration): Xem xét tất chuỗi tách từ có câu đầu vào Tiếp tục mở rộng chuỗi thành chuỗi thẻ có thể, tạo thành không gian ứng cử tách từ gán nhãn cho câu 32 Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html [...]... trưng dựa trên hình vị cho kết quả cao 30 31 hơn đáng kể (89.22%) so với cách trích các đặc trưng dựa trên thông tin về từ (85.57%) Như vậy, đối với tiếng Việt thì hướng tiếp cận dựa trên hình vị tỏ ra hữu ích hơn hẳn hướng tiếp cận dựa trên từ 31 Chương 4 MỘT MÔ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 4.1 Các mô hình tích hợp cho tiếng Trung Các nghiên cứu gần đây áp dụng cho tiếng Trung... dụng khi gán nhãn cho English Như vậy, các đặc trưng tỏ ra hữu ích với bộ gán nhãn từ loại tiếng Anh thì dường như không ứng dụng được cho tiếng Việt trong khung MEM 28 29 Bảng 3.2: Kết quả gán nhãn từ loại dựa vào thông tin mức từ Fold Precision 1 85.17 2 85.64 3 85.51 4 85.71 5 85.81 Trung bình 85.57 3.3.2 Gán nhãn từ loại dựa vào hình vị Vì bộ gán nhãn từ loại dựa trên thông tin về từ cho kết quả... trình bày một mô hình tích hợp bao gồm các bước: 1 Tạo ra N chuỗi tách từ tốt nhất(N-best word sequences) đối với một câu cho sẵn 2 Thực hiện gán nhãn từ loại cho mỗi chuỗi từ đó, sau đó chọn ra N chuỗi thẻ từ loại tốt nhất tương ứng 3 Sử dụng đánh giá có trọng số của (1) và (2) để chọn giải pháp tách từ và gán nhãn từ loại tốt nhất cho câu đầu vào đó trong đó, bước 1 và 2 được thực hiện kế tiếp nhau,... cứu việc tích hợp phân đoạn từ và gán nhãn từ loại, báo cáo những cải tiến độ chính xác so với hướng tiếp cận pipeline truyền thống Các tiếp cận giải mã khác nhau đã được áp dụng để làm giảm không gian tìm kiếm khi tích hợp Như đã tóm lược sơ qua trong phần giới thiệu ở chương 1 thì bài toán tích hợp được chia làm 2 loại: Một loại là tích hợp giả và một loại là tích hợp thực sự Năm 1993, Chang và Chen... cho hình vị này sẽ nhận giá trị là: VB và NC_VB (Với giả thiết rằng "nhà" được gán nhãn là NC và "quản_lý" được gán nhãn là VB) Giải mã - Testing Thủ tục giải mã tương tự như đã mô tả ở phần trên, chú ý một điểm là xác suất của một từ được gán nhãn từ loại t được tính bằng tích xác suất của mỗi hình vị trong từ đó được gán nhãn từ loại t tương ứng Giả sử khi đánh giá xác suất của từ "tài_ba" được gán. ..28 seach Sau khi đã huấn luyện mô hình entropy cực đại, ta có thể sử dụng nó để gán nhãn từ loại cho một câu mới Quá trình gán nhãn cho câu mới tiến hành cho các từ từ trái sang phải Tại mỗi thời điểm sẽ lưu lại k chuỗi nhãn tốt nhất (xác suất lớn nhất) và sử dụng nó để làm ngữ cảnh gán nhãn cho từ tiếp theo Cho trước một câu w1 , , wn , một chuỗi nhãn ứng cử viên có xác suất điều kiện như... vậy nó có tên gọi là tích hợp giả (pseudo-integration) Các hướng tiếp cận tích hợp thực sự được quan tâm nghiên cứu nhiều hơn Lai [9] đề xuất một hướng tiếp cận tích hợp thực sự (true-integration): 1 Xem xét tất cả các chuỗi tách từ có thể có đối với mỗi câu đầu vào 2 Tiếp tục mở rộng các chuỗi đó thành chuỗi các thẻ có thể, tạo thành một không gian ứng cử tách từ và gán nhãn cho câu đó 32 Thank you... đầu tiên thuộc từ đứng ngay trước từ hiện tại Và POS(S−2W0 )POS(S−1W0 ) chính là nhãn từ loại của hình vị đầu tiên thuộc từ đứng trước và cách từ hiện tại 1 từ Giả sử xét ví dụ câu đầu vào là: Từ lâu ông được biết đến là nhà quản_lý tài_ba 29 30 Bảng 3.3: Kết quả gán nhãn từ loại dựa vào thông tin hình vị Fold Precision 1 88.63 2 89.64 3 89.26 4 89.36 5 89.63 Trung bình 89.22 Giả sử xét hình vị ba thì... hiện gán nhãn từ loại cho tiếng Anh, chúng tôi tiếp tục nghiên cứu một cách biểu diễn đặc trưng khác đã được xây dựng thành công cho tiếng Trung [22] Với đặc điểm tiếng Việt rằng hình vị cấu tạo nên từ, chúng tôi thiết kế tập đặc trưng mới dựa trên thông tin về hình vị như sau: Đặc trưng - Features Chúng tôi đã tiến hành thử nghiệm với loại đặc trưng dựa trên hình vị như mô tả trong phần dưới đây: • Hình. .. nhãn JJ thì đầu tiên ta tính xác suất của mỗi hình vị "tài" và "ba" được gán nhãn JJ sau đó nhân tích hai xác suất này ta được xác suất của từ "tài_ba" được gán nhãn JJ Đây cũng chính là ràng buộc để tất cả các hình vị trong một từ của một câu đã được tách từ phải có cùng một nhãn từ loại Kết quả thực nghiệm Chúng tôi cũng tiến hành thực nghiệm dựa trên corpus tương tự như đã mô tả trong phần 3.1 và

Ngày đăng: 09/11/2016, 10:20

Xem thêm