Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
168,03 KB
Nội dung
Môhìnhtáchtừ,gánnhãntừloạihướngtiếpcậntíchhợpchotiếngViệt TRẦN THỊ OANH Master Thesis Giảng viên hướng dẫn: TS Lê Anh Cường PGS.TS Hà Quang Thụy 2008 1 i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố công trình trước i ii LỜI CẢM ƠN Trước tiên, xin bày tỏ biết ơn sâu sắc tới PGS Tiến sĩ Hà Quang Thuỵ (trường Đại học Công nghệ - ĐH Quốc gia Hà Nội) tận tình hướng dẫn suốt trình thực luận văn Tôi xin gửi lời cảm ơn chân thành tới Tiến sĩ Lê Anh Cường (Bộ môn KHMT – Trường Đại học Công nghệ - ĐH Quốc gia Hà Nội) nhiệt tình bảo hỗ trợ để hoàn thiện luận văn Tôi xin gửi lời cảm ơn anh chị em nhóm seminar khai phá liệu phòng thí nghiệm Các hệ tíchhợp thông minh (SISLAB) – trường Đại học Công nghệ tạo môi trường nghiên cứu khoa học giúp thực luận văn Tôi xin cảm ơn đề tài QG.07.25 đề tài 203609 hỗ trợ phần kinh phí thời gian thực luận văn Và lời cuối cùng, xin bày tỏ lòng chân thành biết ơn vô hạn tới cha mẹ, anh chị bên cạnh tôi, giúp vượt qua khó khăn học tập sống Hà Nội, ngày 30 tháng 12 năm 2008 Trần Thị Oanh ii iii MỞ ĐẦU Táchtừ (word segmentation) gánnhãntừ loại( part-of-speech tagging – POS tagging) hai toán đặc biệt quan trọng xử lý ngôn ngữ tự nhiên Tuy nhiên, nghiên cứu Việt Nam hai vấn đề giai đoạn ban đầu Do đó, nhu cầu lớn sở khoa học xây dựng công cụ thực sẵn dùng Xét mặt ngôn ngữ, cách táchtừ khác dẫn đến cách gánnhãntừloại khác ngược lại thông tin qui tắc kèm từloại ảnh hướng tới việc táchtừ Đây sở chomôhình chung hai trình Vì thế, luận văn nghiên cứu “Mô hìnhtáchtừ,gánnhãntừloạihướngtiếpcậntíchhợpchotiếng Việt” Đóng góp luận văn việc tìm hiểu, nghiên cứu đề xuất môhình thực táchtừ,gánnhãntừloạitiếng Việt; xây dựng công cụ thực liên quan; bên cạnh để huấn luyện kiểm thử môhình tiến hành xây dựng corpus tiếngViệtgánnhãntừloại xấp xỉ 8000 câu Luận văn tiến hành thực nghiệm hướngtiếpcậntíchhợpcho hai toán Các nghiên cứu trình bày luận văn đặc biệt hữu ích cho nghiên cứu mức cao dịch máy, tóm tắt văn bản, phân tích cú pháp Cấu trúc luận văn trình bày sau: • Chương 1: Khái quát táchtừgánnhãntừloạitiếngViệt : Trong chương này, luận văn giới thiệu hai toán xử lý ngôn ngữ tự nhiên toán táchtừ toán gánnhãntừloạitiếng Việt, hướngtiếpcậncho toán tình hình nghiên cứu chung Việt Nam giới Chương trình bày hướngtiếpcậntíchhợp hai toán để nâng cao hiệu hai môhình áp dụng thành công chotiếng Trung • Chương 2: Một môhìnhtáchtừtiếngViệt : Chương nghiên cứu đề xuất môhìnhcho toán táchtừtiếngViệt tận dụng thông tin tri thức từ nhiều nguồn khác nhằm tăng độ xác táchtừ • Chương 3: Một môhìnhgánnhãntừloạitiếng Việt: Chương nghiên cứu đề xuất môhìnhgánnhãntừloạitiếng Việt, công việc mà luận văn iii iv tiến hành nhằm xây dựng môhìnhgánnhãntừloại hiệu thiết kế corpus gánnhãntừ loại, đề xuất môhình sử dụng Maximum Entropy Model (MEM) thiết kế tập đặc trưng khác để tìm đặc trưng hữu ích chotiếngViệt • Chương 4: Một môhìnhtíchhợptáchtừgánnhãntừloạitiếng Việt: Từ nghiên cứu trình bày chương 2, chương đặc điểm tiếng Việt, chương trình bày môhìnhtíchhợp hai toán áp dụng chotiếngViệt • Kết luận: Phần tóm tắt lại nội dung luận văn đóng góp mà luận văn thực • Phụ lục A: Chú giải tập từloại vnPOS : Mô tả cụ thể để giải thích thêm tập nhãntừloại mà luận văn đề xuất phục vụ xây dựng corpus gánnhãntừloạitiếngViệt iv Mục lục Mở đầu iv KHÁI QUÁT VỀ TÁCHTỪVÀGÁNNHÃNTỪLOẠITIẾNGVIỆT 1.1 Khái quát táchtừtiếngViệt 1.2 Khái quát gánnhãntừloại - POS tagging 1.2.1 Giới thiệu toán gánnhãntừloại 1.2.2 Các hướngtiếpcận toán POS tagging 1.2.3 Các nghiên cứu gánnhãntừloạichotiếngViệt Vấn đề tíchhợptáchtừgánnhãntừloại 1.3 MỘT MÔHÌNHTÁCHTỪTIẾNGVIỆT 2.1 Các môhình liên quan 2.1.1 Môhình dựa vào từ điển 2.1.2 Môhìnhnhận dạng tên thực thể - Named Entity Recognition 10 2.1.3 Môhình N-gram 10 2.2 Phân tíchmô hình 11 2.3 Thiết kế tập đặc trưng 12 2.4 2.3.1 FS1: Đặc trưng trích từmôhìnhtáchtừ dựa vào từ điển 13 2.3.2 FS2: Đặc trưng dựa vào môhìnhnhận dạng tên thực thể 13 2.3.3 FS3: Đặc trưng dựa vào môhình N-gram 14 Kết thực nghiệm 15 2.4.1 Đánh giá đặc trưng FS1 FS2 so với môhình trước 15 2.4.2 Đánh giá tầm quan trọng tập thuộc tính 16 v vi 2.5 Đánh giá kết táchtừ 17 MỘT MÔHÌNHGÁNNHÃNTỪLOẠITIẾNGVIỆT 3.1 3.2 3.3 3.4 19 Xây dựng corpus gánnhãntừloạichotiếngViệt 19 3.1.1 Thiết kế tập thẻ VnPOSTag 19 3.1.2 Mô tả liệu làm vnPOS corpus 21 3.1.3 Xây dựng vnPOS corpus 22 Gánnhãntừloại phương pháp Maximum Entropy Model 24 3.2.1 Môhình xác suất 24 3.2.2 Các đặc trưng gánnhãntừloại 25 Đề xuất môhìnhgánnhãntừloạichotiếngViệt 26 3.3.1 Gánnhãntừloại dựa vào thông tin từ 27 3.3.2 Gánnhãntừloại dựa vào hình vị 29 Đánh giá kết gánnhãntừloại 30 MỘT MÔHÌNHTÍCHHỢPTÁCHTỪVÀGÁNNHÃNTỪLOẠITIẾNGVIỆT 32 4.1 Các môhìnhtíchhợpchotiếng Trung 32 4.2 Lựa chọn môhìnhtíchhợpchotiếngViệt 34 4.3 Xây dựng môhình tiến hành thực nghiệm 35 4.4 4.3.1 Features 35 4.3.2 Giải mã 35 4.3.3 Kết 36 Thảo luận 36 A Chú giải tập từloại vnPOS 44 vi Danh sách hình vẽ 2.1 Môhìnhtáchtừ sử dụng N-gram 11 2.2 Các môhình liên quan cần để trích đặc trưng 12 2.3 Biểu đồ độ đo F1 18 3.1 Giao diện công cụ trợ giúp gánnhãn vnPOS 23 3.2 Kiến trúc gánnhãntừloại 26 4.1 Kiến trúc tíchhợptáchtừgánnhãntừloạitiếngViệt vii 34 Danh sách bảng Bảng thuật ngữ Anh - Việt 2.1 Bảng tập đặc trưng 13 2.2 Ví dụ tập đặc trưng (FS1) 13 2.3 Ví dụ câu táchtừ 15 2.4 Kết đánh giá hiệu đặc trưng dựa vào từ điển 16 2.5 Kết đánh giá hiệu đặc trưng dựa vào NER 16 2.6 Kết thực nghiệm bỏ tập đặc trưng 17 2.7 Kết thực nghiệm sử dụng loại đặc trưng riêng 17 3.1 Tập thẻ vnPOSTag từloại tiếng việt 22 3.2 Kết gánnhãntừloại dựa vào thông tin mức từ 29 3.3 Kết gánnhãntừloại dựa vào thông tin hình vị 30 4.1 Một ví dụ ouput môhìnhtíchhợp 35 4.2 Kết thực nghiệm tíchhợptáchtừgánnhãntừloại 36 viii ix 28 seach Sau huấn luyện môhình entropy cực đại, ta sử dụng để gánnhãntừloạicho câu Quá trình gánnhãncho câu tiến hành chotừtừ trái sang phải Tại thời điểm lưu lại k chuỗi nhãn tốt (xác suất lớn nhất) sử dụng để làm ngữ cảnh gánnhãnchotừCho trước câu w1 , , wn , chuỗi nhãn ứng cử viên có xác suất điều kiện phương trình 3.9 n P (a1 an |w1 wn ) = p(ai |bi ) (3.9) i=1 bi lịch sử tương ứng với từ thứ i Thay phải tính tích thừa số nhỏ ta logarit hai vế phương trình đưa phép lấy tổng Thuật toán BEAM SEARCH: beamsize = N • Sinh tag chotừ wi , tìm N tag có xác suất cao gắn vào N chuỗi tag kí hiệu Sj (j = 1, , N) • For i = to n ( n độ dài câu) – For j = to N ∗ Sinh tag cho wi với Sj chuỗi tag trước ∗ Gắn tag vào đuôi Sj – Từ chuỗi tag có tìm N chuỗi có xác suất cao Sj (j = 1, , N) • Trả chuỗi tag có xác suất cao S1 Trong thực nghiệm để đo độ xác môhìnhgánnhãntừ loại, chọn kích thước beam size N = Kết thực nghiệm Thực nghiệm tiến hành corpus có kích thước ∼8000 câu mô tả phần Toàn corpus chia làm fold sau kiểm thử theo phương pháp kiểm thử chéo (cross validation) Kết thực nghiệm mô tả bảng 3.2: Kết thực nghiệm cho thấy độ xác trung bình đạt 85.57%, thấp nhiều so với kết tầm 96% mà Rat sử dụng gánnhãncho English Như vậy, đặc trưng tỏ hữu ích với gánnhãntừloạitiếng Anh dường không ứng dụng chotiếngViệt khung MEM 28 29 Bảng 3.2: Kết gánnhãntừloại dựa vào thông tin mức từ Fold Precision 85.17 85.64 85.51 85.71 85.81 Trung bình 85.57 3.3.2 Gánnhãntừloại dựa vào hình vị Vì gánnhãntừloại dựa thông tin từcho kết không cao, cách xa độ xác mà Ratnaparkhi thực gánnhãntừloạichotiếng Anh, tiếp tục nghiên cứu cách biểu diễn đặc trưng khác xây dựng thành công chotiếng Trung [22] Với đặc điểm tiếngViệthình vị cấu tạo nên từ, thiết kế tập đặc trưng dựa thông tin hình vị sau: Đặc trưng - Features Chúng tiến hành thử nghiệm với loại đặc trưng dựa hình vị mô tả phần đây: • Hình vị Si ( i= -2,-1,0,1,2) • Sự liên kết hình vị với hình vị với window size = • Thẻ hình vị đằng trước POS(S−1W0 ) • Thẻ hình vị đằng trước từ POS(S−2W0 )POS(S−1W0 ) • Hình vị xét có phải dấu câu? • Hình vị xét có phải hình vị câu? • Hình vị xét có ký tựviết hoa hay không? Trong với ý thêm đặc trưng POS(S−1W0 ) nhãntừloạihình vị thuộc từ đứng trước từVà POS(S−2W0 )POS(S−1W0 ) nhãntừloạihình vị thuộc từ đứng trước cách từtừ Giả sử xét ví dụ câu đầu vào là: Từ lâu ông biết đến nhà quản_lý tài_ba 29 30 Bảng 3.3: Kết gánnhãntừloại dựa vào thông tin hình vị Fold Precision 88.63 89.64 89.26 89.36 89.63 Trung bình 89.22 Giả sử xét hình vị ba đặc trưng tương ứng chohình vị nhận giá trị là: VB NC_VB (Với giả thiết "nhà" gánnhãn NC "quản_lý" gánnhãn VB) Giải mã - Testing Thủ tục giải mã tương tựmô tả phần trên, ý điểm xác suất từgánnhãntừloại t tính tích xác suất hình vị từgánnhãntừloại t tương ứng Giả sử đánh giá xác suất từ "tài_ba" gánnhãn JJ ta tính xác suất hình vị "tài" "ba" gánnhãn JJ sau nhântích hai xác suất ta xác suất từ "tài_ba" gánnhãn JJ Đây ràng buộc để tất hình vị từ câu táchtừ phải có nhãntừloại Kết thực nghiệm Chúng tiến hành thực nghiệm dựa corpus tương tựmô tả phần 3.1 thực nghiệm cho kết bảng 3.3: Độ xác trung bình fold lên cao 89.22% 3.4 Đánh giá kết gánnhãntừloạiTừ kết thực nghiệm ta nhận thấy đặc trưng tỏ hữu ích với tiếng Anh lại không thực hữu ích tiếngViệt khác biệt ngôn ngữ (tiếng Anh ngôn ngữ biến hìnhtiếngViệt ngôn ngữ đơn lập, không biến hình) Kết thực nghiệm cách trích đặc trưng dựa hình vị cho kết cao 30 31 đáng kể (89.22%) so với cách trích đặc trưng dựa thông tin từ (85.57%) Như vậy, tiếngViệthướngtiếpcận dựa hình vị tỏ hữu ích hẳn hướngtiếpcận dựa từ 31 Chương MỘT MÔHÌNHTÍCHHỢPTÁCHTỪVÀGÁNNHÃNTỪLOẠITIẾNGVIỆT 4.1 Các môhìnhtíchhợpchotiếng Trung Các nghiên cứu gần áp dụng chotiếng Trung bắt đầu nghiên cứu việc tíchhợp phân đoạn từgánnhãntừ loại, báo cáo cải tiến độ xác so với hướngtiếpcận pipeline truyền thống Các tiếpcận giải mã khác áp dụng để làm giảm không gian tìm kiếm tíchhợp Như tóm lược sơ qua phần giới thiệu chương toán tíchhợp chia làm loại: Một loạitíchhợp giả loạitíchhợp thực Năm 1993, Chang Chen [10] trình bày môhìnhtíchhợp bao gồm bước: Tạo N chuỗi táchtừ tốt nhất(N-best word sequences) câu cho sẵn Thực gánnhãntừloạicho chuỗi từ đó, sau chọn N chuỗi thẻ từloại tốt tương ứng Sử dụng đánh giá có trọng số (1) (2) để chọn giải pháp táchtừgánnhãntừloại tốt cho câu đầu vào đó, bước thực nhau, có tên gọi tíchhợp giả (pseudo-integration) Các hướngtiếpcậntíchhợp thực quan tâm nghiên cứu nhiều Lai [9] đề xuất hướngtiếpcậntíchhợp thực (true-integration): Xem xét tất chuỗi táchtừ có câu đầu vào Tiếp tục mở rộng chuỗi thành chuỗi thẻ có thể, tạo thành không gian ứng cử táchtừgánnhãncho câu 32 Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html [...]... trưng dựa trên hình vị cho kết quả cao 30 31 hơn đáng kể (89.22%) so với cách trích các đặc trưng dựa trên thông tin về từ (85.57%) Như vậy, đối với tiếngViệt thì hướngtiếpcận dựa trên hình vị tỏ ra hữu ích hơn hẳn hướngtiếpcận dựa trên từ 31 Chương 4 MỘT MÔHÌNHTÍCHHỢPTÁCHTỪVÀGÁNNHÃNTỪLOẠITIẾNGVIỆT 4.1 Các môhìnhtíchhợpchotiếng Trung Các nghiên cứu gần đây áp dụng chotiếng Trung... dụng khi gánnhãncho English Như vậy, các đặc trưng tỏ ra hữu ích với bộ gánnhãntừloạitiếng Anh thì dường như không ứng dụng được chotiếngViệt trong khung MEM 28 29 Bảng 3.2: Kết quả gánnhãntừloại dựa vào thông tin mức từ Fold Precision 1 85.17 2 85.64 3 85.51 4 85.71 5 85.81 Trung bình 85.57 3.3.2 Gánnhãntừloại dựa vào hình vị Vì bộ gánnhãntừloại dựa trên thông tin về từcho kết quả... trình bày một môhìnhtíchhợp bao gồm các bước: 1 Tạo ra N chuỗi táchtừ tốt nhất(N-best word sequences) đối với một câu cho sẵn 2 Thực hiện gánnhãntừloạicho mỗi chuỗi từ đó, sau đó chọn ra N chuỗi thẻ từloại tốt nhất tương ứng 3 Sử dụng đánh giá có trọng số của (1) và (2) để chọn giải pháp táchtừvàgánnhãntừloại tốt nhất cho câu đầu vào đó trong đó, bước 1 và 2 được thực hiện kế tiếp nhau,... cứu việc tíchhợp phân đoạn từvàgánnhãntừ loại, báo cáo những cải tiến độ chính xác so với hướngtiếpcận pipeline truyền thống Các tiếpcận giải mã khác nhau đã được áp dụng để làm giảm không gian tìm kiếm khi tíchhợp Như đã tóm lược sơ qua trong phần giới thiệu ở chương 1 thì bài toán tíchhợp được chia làm 2 loại: Một loại là tíchhợp giả và một loại là tíchhợp thực sự Năm 1993, Chang và Chen... chohình vị này sẽ nhận giá trị là: VB và NC_VB (Với giả thiết rằng "nhà" được gánnhãn là NC và "quản_lý" được gánnhãn là VB) Giải mã - Testing Thủ tục giải mã tương tự như đã mô tả ở phần trên, chú ý một điểm là xác suất của một từ được gánnhãntừloại t được tính bằng tích xác suất của mỗi hình vị trong từ đó được gánnhãntừloại t tương ứng Giả sử khi đánh giá xác suất của từ "tài_ba" được gán. ..28 seach Sau khi đã huấn luyện môhình entropy cực đại, ta có thể sử dụng nó để gánnhãntừloạicho một câu mới Quá trình gánnhãncho câu mới tiến hành cho các từtừ trái sang phải Tại mỗi thời điểm sẽ lưu lại k chuỗi nhãn tốt nhất (xác suất lớn nhất) và sử dụng nó để làm ngữ cảnh gánnhãnchotừtiếp theo Cho trước một câu w1 , , wn , một chuỗi nhãn ứng cử viên có xác suất điều kiện như... vậy nó có tên gọi là tíchhợp giả (pseudo-integration) Các hướngtiếpcậntíchhợp thực sự được quan tâm nghiên cứu nhiều hơn Lai [9] đề xuất một hướngtiếpcậntíchhợp thực sự (true-integration): 1 Xem xét tất cả các chuỗi táchtừ có thể có đối với mỗi câu đầu vào 2 Tiếp tục mở rộng các chuỗi đó thành chuỗi các thẻ có thể, tạo thành một không gian ứng cử táchtừvàgánnhãncho câu đó 32 Thank you... đầu tiên thuộc từ đứng ngay trước từ hiện tại Và POS(S−2W0 )POS(S−1W0 ) chính là nhãntừloại của hình vị đầu tiên thuộc từ đứng trước và cách từ hiện tại 1 từ Giả sử xét ví dụ câu đầu vào là: Từ lâu ông được biết đến là nhà quản_lý tài_ba 29 30 Bảng 3.3: Kết quả gánnhãntừloại dựa vào thông tin hình vị Fold Precision 1 88.63 2 89.64 3 89.26 4 89.36 5 89.63 Trung bình 89.22 Giả sử xét hình vị ba thì... hiện gánnhãntừloạichotiếng Anh, chúng tôi tiếp tục nghiên cứu một cách biểu diễn đặc trưng khác đã được xây dựng thành công chotiếng Trung [22] Với đặc điểm tiếngViệt rằng hình vị cấu tạo nên từ, chúng tôi thiết kế tập đặc trưng mới dựa trên thông tin về hình vị như sau: Đặc trưng - Features Chúng tôi đã tiến hành thử nghiệm với loại đặc trưng dựa trên hình vị như mô tả trong phần dưới đây: • Hình. .. nhãn JJ thì đầu tiên ta tính xác suất của mỗi hình vị "tài" và "ba" được gánnhãn JJ sau đó nhântích hai xác suất này ta được xác suất của từ "tài_ba" được gánnhãn JJ Đây cũng chính là ràng buộc để tất cả các hình vị trong một từ của một câu đã được táchtừ phải có cùng một nhãntừloại Kết quả thực nghiệm Chúng tôi cũng tiến hành thực nghiệm dựa trên corpus tương tự như đã mô tả trong phần 3.1 và