1. Trang chủ
  2. » Luận Văn - Báo Cáo

SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪLOẠI TIẾNG VIỆT

68 602 2
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 684,31 KB

Nội dung

SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh HÀ NỘI - 2009 i LỜI CẢM ƠN Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy và bồi d ưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đến các thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóa luận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai. Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viên trong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợp thông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứu khoa học hi ệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quá trình nghiên cứu. Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúp tôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong học tập. Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quan tâm, động viên tôi trong suố t quá trình học tập và thực hiện khóa luận tốt nghiệp này. Sinh viên Lê Hoàng Quỳnh ii TÓM TẮT Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã có một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm tốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn cả trong các ph ương pháp đã được công bố. Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ (SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứng dụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm áp dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử dụ ng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên các dữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gán nhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kết quả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong các ngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Vi ệt. iii Mục lục MỞ ĐẦU .1 Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI .3 1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP 3 1.1.1. Khái niệm về bài toán gán nhãn từ loại 3 1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP 4 1.2. Các khó khăn của bài toán gán nhãn từ loại .6 1.3. Tập nhãn từ loại 7 1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới .7 1.3.2. Một số tậ p nhãn từ loại hiện được đề xuất ở Việt Nam 10 Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI .13 2.1. Gán nhãn bằng phương pháp dựa trên hệ luật .13 2.2. Các phương pháp dựa vào học máy .15 2.3. Phương pháp lai 19 2.4. Các nghiên cứu liên quan tại Việt Nam .21 2.4.1. Các nghiên cứu dựa trên phương pháp hệ luật .21 2.4.2. Các nghiên cứu dựa trên phương pháp học máy 22 2.4.3. Các nghiên cứu dựa trên phương pháp lai 22 Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆ T .25 3.1. Mô hình cực đại hóa Entropy .25 3.1.1. Khái niệm MEM .25 3.1.2. Nguyên lý cực đại hóa Entropy 26 3.1.3. Mô hình xác suất .26 3.1.4. Hạn chế của mô hình MEM 27 3.2. Mô hình trường ngẫu nhiên điều kiện 28 3.2.1. Khái niệm CRF .28 iv 3.2.2. Hàm tiềm năng của các mô hình CRF 30 3.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi 31 3.2.4. Ước lượng tham số cho các mô hình CRF 33 3.3. Mô hình máy véc tơ hỗ trợ .33 3.3.1. Khái niệm và cơ sở của phương pháp SVM .33 3.3.2. Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại .36 3.3.3. Huấn luyện SVM 37 Chương 4. THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ 39 4.1. Mô tả thực nghiệm .39 4.1.1. Phần cứng 39 4.1.2. Phần m ềm 39 4.1.3. Dữ liệu thực nghiệm và tập nhãn từ loại .40 4.2. Mô tả tập đặc trưng dựa trên mức từ và mức hình vị .43 4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại 43 4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy 45 4.3. Hệ thống gán nhãn từ loại cho tiếng Việt 45 4.3.1. Gán nhãn từ loại dựa vào thông tin về từ 47 4.3.2. Gán nhãn từ loại dựa vào thông tin hình vị 47 4.4. Phương pháp thự c nghiệm và các tham số đánh giá thực nghiệm .48 4.4.1. Phương pháp thực nghiệm 48 4.4.2. Các tham số đánh giá thực nghiệm .48 4.5. Kết quả thực nghiệm 48 4.5.1. Kết quả của năm lần thực nghiệm 48 4.5.2. Tổng hợp kết quả 51 4.5.3. Đánh giá và thảo luận .53 KẾT LUẬN 55 v Danh mục hình vẽ Hình 1. Các bước xử lý ngôn ngữ tự nhiên 4 Hình 2. Một số tập nhãn từ loại cho Tiếng Anh .8 Hình 3. Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh 13 Hình 4. Đồ thị có hướng mô tả mô hình HMM 17 Hình 5. Mô hình tổng quát của phương pháp lai 19 Hình 6. Mô hình TBL cho tiếng Việt .24 Hình 7. Đồ thị vô hướng mô tả CRF 29 Hình 8. Một bước trong thuật toán Viterbi cải tiến 32 Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt .33 Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. 34 Hình 11. Trường hợ p không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính .35 Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân 35 Hình 13. Hàm nhân Basis Radial 37 Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu 44 Hình 15. Một mô hình gán nhãn từ loại tiếng Việt .46 Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất 52 Hình 17. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệ u thứ hai 52 vi Danh mục bảng biểu Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận viii Bảng 2. Tổng kêt số nhãn có thể có của các từ trong tập từ vựng Brown 7 Bảng 3. Tập nhãn từ loại Penn Treebank .8 Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh .20 Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt 42 Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lự a chọn đặc trưng 44 Bảng 8. Một số mẫu ngữ cảnh BTCQ xác định dữ liệu dạng số 45 Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ .49 Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị .49 Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ .50 Bảng 12. Độ chính xác khi áp dụng mô hình CRF ở mức hình vị .50 Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ 51 Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị 51 vii Một số thuật ngữ Anh – Việt Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Nghĩa tiếng Việt 1 Conditional Random Field CRF Miền ngẫu nhiên điều kiện 2 Hidden Markov Model HMM Mô hình Markov ẩn 3 Maximum Entropy Model MEM, MaxEnt Mô hình cực đại hóa Entropy 4 Natural Language Processing NLP Xử lý ngôn ngữ tự nhiên 5 Part of speech tagging POS tagging Gán nhãn từ loại 6 Regular expression BTCQ Biểu thức chính quy 7 Rule-based tagger Bộ gán nhãn dựa trên luật 8 Transformation-Based Learning TBL Phương pháp học dựa trên chuyển đổi 1 MỞ ĐẦU Gán nhãn từ loại cho một văn bản tức là xác định từ loại chính xác cho các từ trong văn bản đó. Đây là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, là bước tiền xử lý của nhiều bài toánmột số hệ thống thông minh khác, tuy nhiên các nghiên cứu về bài toán này ở Việt Nam vẫn còn ở giai đoạn ban đầu nên nhu cầu về cả lý thuyết và ứng dụng đều còn r ất lớn. Đối với các văn bản tiếng Việt, việc gán nhãn từ loại gặp phải nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất. Ý thức được tầm quan trọng và nhu cầu thực tiễn cũng như những khó khăn của bài toán gán nhãn từ loạ i, nghiên cứu trong khóa luận phục vụ đồng thời hai mục đích: Thứ nhất, lựa chọn một tập đặc trưng phù hợp với tính chất của tiếng Việt và có thể sử dụng cho các phương pháp học máy khác nhau. Thứ hai, áp dụng ba phương pháp học máy cho kết quả khá tốt ở các ngôn ngữ khác vào bài toán gán nhãn từ loại tiếng Việt, từ đó đưa ra nhận xét về kết quả, độ phù h ợp của từng phương pháp với các ứng dụng thực tế cũng như góp phần đánh giá chất lượng của tập đặc trưng đã xây dựng. Thực nghiệm trên các văn bản tiếng Việt áp dụng ba mô hình học máy đều cho kết quả khá khả quan, tùy vào các đặc trưng riêng của mỗi mô hình mà thời gian xử lý cũng như độ chính xác có những chênh lệch nhất định. Các vấn đề đượ c giải quyết trong khóa luận sẽ đóng góp một phần hữu ích trong việc lựa chọn phương pháp thích hợp giải quyết bài toán, để từ đó phục vụ cho việc tiến hành các nghiên cứu ở mức cao hơn như phân tích cú pháp, dịch máy, tóm tắt văn bản … Khóa luận được tổ chức thành bốn chương chính với nội dung cơ bản như sau: Chương 1: Khái quát về bài toán gán nhãn từ loại. Chươ ng 1 đưa ra khái niệm, vị trí và ứng dụng của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên. Cùng với đó, việc phân tích các vấn đề cơ bản của bài toán và việc xây dựng tập nhãn từ loại cũng là nội dung quan trọng mà chương này đề cập tới. Chương 2: Các hướng tiếp cận bài toán gán nhãn từ loại. Trình bày một số hướng tiếp cận nhằm giải quyết bài toán gán nhãn từ loại nh ư phương pháp thủ công, các phương pháp học máy mà đại diện tiêu biểu là HMM và các phương pháp lai. So với hướng tiếp cận thủ công có nhược điểm là tốn kém về mặt thời gian, công sức và không khả chuyển, các phương pháp học máy thường được đánh giá cao hơn. Chương [...]... giới thiệu một số nghiên cứu có liên quan đến bài toán gán nhãn từ loại cho tiếng Việt trong những năm gần đây Chương 3 Ba mô hình học máy áp dụng cho bài toán gán nhãn từ loại tiếng Việt Khóa luận lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả quan ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt khi áp dụng cho tiếng Việt là MEM, CRF và SVM Chương 3 đặt nền tảng lý thuyết cho phần thực... nghiệm áp dụng ba mô hình học máy cho bài toán gán nhãn từ loại tiếng Việt và đánh giá kết quả Chương này trình bày các công việc thực nghiệm mà khóa luận đã tiến hành, bao gồm việc lựa chọn tập đặc trưng phù hợp cho tiếng Việt và áp dụng ba mô hình học máy MEM, CRF và SVM để giải quyết bài toán gán nhãn từ loại tiếng Việt Từ kết quả đạt được, tiến hành đối chiếu, so sánh và đưa ra một số nhận xét về ưu,... Hình 3 Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh Theo Daniel Jurafsky [9], hầu hết các thuật toán được sử dụng để giải quyết bài toán gán nhãn từ loại thuộc vào một trong hai loại: Phương pháp thủ công và phương pháp dựa trên học máy Ngoài ra người ta còn có thể kết hợp một số phương pháp để cho kết quả tốt hơn, kỹ thuật này gọi là phương pháp lai 2.1 Gán nhãn bằng phương pháp. .. phương pháp trên một vài yêu tố, cũng như xem xét độ phù hợp của tập đặc trưng đã sử dụng đối với tiếng Viêt 24 Chương 3 BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT Việc khảo sát các phương pháp học máy được áp dụng thành công cho nhiều ngôn ngữ (chủ yếu là khảo sát các phương pháp đã được sử dụng cho 3 ngôn ngữ tiêu biểu là tiếng Anh, tiếng Trung Quốc và tiếng Thái) cho thấy... 6 Mô hình TBL cho tiếng Việt Như vậy, có khá nhiều phương pháp học máy đã được áp dụng để giải quyết bài toán gán nhãn từ loại tiếng Việt Tuy bước đầu đạt được một số kết quả khả quan, nhưng hầu hết các nghiên cứu đều mang tính cá thể, sử dụng bộ dữ liệu học cũng như tập đặc trưng khác nhau Trong khóa luận này, chúng tôi thực hiện so sánh một vài phương pháp học máy điển hình trên cùng một bộ dữ liệu... nhiều phương pháp xác suất khác có thể sử dụng để giải quyết bài toán gán nhãn từ loại nói chung và bài toán gán nhãn từ loại tiếng Việt nói riêng, nhiều trong số chúng có những ưu điểm giải quyết được các hạn chế của mô hình HMM mà ta đã nói ở trên Cùng với đó, bên cạnh các phương pháp học máy xác suất, còn có các phương pháp học máy khác, ví dụ phương pháp học máy dựa trên độ đo, phương pháp sử dụng... biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được xây dựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng vì các ưu điểm của nó như miễn phí, đem lại kết quả khá khả quan (Độ chính xác là 96.6% cho tập ngữ liệu Wall Street Journal) 2.4 Các nghiên cứu liên quan tại Việt Nam Bài toán gán nhãn từ loại cho tiếng Việt bắt đầu được quan tâm khá muộn so với tiếng. .. phương pháp dựa vào học máy là các phương pháp xây dựng hệ thống mà bằng cách nào đó có thể “tự học (để ngắn gọn ở các phần dưới đây ta sẽ gọi là các phương pháp học máy) Phần này sẽ xem xét một đại diện tiêu biểu của phương pháp học máy, giải quyết nhập nhằng bằng cách sử dụng một bộ dữ liệu huấn luyện để tính toán xác suất của một từ cho sẵn sẽ được gán với một nhãn nào đó trong ngữ cảnh cho trước,... giám sát, đòi hỏi một tập ngữ liệu đã được gán nhãn Phương pháp này sử dụng đặc tính của cả hai kiến trúc gán nhãn nói trên Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật để xác định khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất Giống như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách tự động từ một bộ dữ liệu huấn luyện đã được gán nhãn trước Ý tưởng... phương pháp học máy có thể áp dụng cho bài toán gán nhãn từ loại Tiếng Việt Khóa luận lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả quan ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt đối với tiếng Việt, đó là MEM, CRF và SVM Cơ sở lý thuyết ở chương này sẽ là nền tảng cho phần thực nghiệm để đưa ra đánh giá về độ chính xác cũng như phù hợp của các phương pháp này với Tiếng Việt Trong

Ngày đăng: 27/04/2013, 10:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[22] Website: http://svmlight.joachims.org/svm_multiclass.html. SVM multiclass based on SVM light by Joachims Link
[23] Website: http://www.kernel-machines.org/. Website is devoted to learning methods building on kernels, such as the support vector machine Link
[24] Website: http://sourceforge.net/projects/crfpp. Yet Another CRF toolkit by Taku Kudo Link
[25] Website: http://homepages.inf.ed.ac.uk/lzhang10/maxent.html. Maximum Entropy Modeling Link
[2] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ. Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất. Đăng trên tạp chí phát triển KH&CN, tập 9, số 2-2006 Khác
[3] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương. Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản Tiếng Việt. Báo cáo hội thảo ICT.rda, 2003 Khác
[4] Trần Thị Oanh. Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt. Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2008.Tài liệu tham khảo tiếng Anh Khác
[5] Robert Dale, H. L. Somers, Hermann Moisl. Handbook of Natural Language Processing. Published by Marcel Dekker, Inc, New York, NY, USA, 2000. Chapter 17 Khác
[6] Dinh Dien, Hoang Kiem. POS-Tagger for English-Vietnamese Bilingual Corpus. In HLT-NAACL 2003 Workshop: Building and Using Parallel Texts Data Driven Machine Translation and Beyond, pp.88-95, Edmonton. May-June 2003 Khác
[7] Yair Halevi. Part of Speech Tagging Slide. Seminar in Natural Language Processing and Computational Linguistics, The Blavatnik School of Computer Science – Tel Aviv University. 25 April 2006 Khác
[8] Introduction to SVM (Support Vector Machine) and CRF (Conditional Random Field) Slide. Artifical Intelligence Lab, the University of Arizona. Courses Syllabus of MIS510, Spring 2009 Khác
[9] Daniel Jurafsky, Jame H. Martin. Speech and language processing. Draft of September 28, 1999. Published by Prentice-Hall, Inc, 2000. Pp. 285-317 Khác
[10] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data. In Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001 Khác
[11] Andrew W. Moore. Support Vector Machines Slide. The Auton Lab, Carnegie Mellon University's School of Computer Science. Nov 23rd, 2001 Khác
[12] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine- Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002, Pages 145-158 Khác
[13] Hwee Tou Ng, in Kiat Low. Chinese Part-of-Speech Tagging: One-at-a- Time or All-at-Once? Word-Based or Character-Based? Department of Computer ScienceNational University of Singapore. In Proc. of the Fifth SIGHAN Workshop on Chinese Language Processing, pages 205–208, Sydney, July 2006 Khác
[14] Owen Rambow. Introduction to Syntax, with Part-of-Speech Tagging Slide. Computer Science at Columbia University. September 17 & 19, 2008 Khác
[15] A.Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In Proc. Emparical Methods for Natural Language Processing, 1996 Khác
[16] Richard Sproat. Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of Electrical and Computer Engineering, University of Illinois at Urbana-Champaign. ECE 398RS Courses, Fall 2007 Khác
[17] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, Quang-Thuy Ha. Vietnamese word segmentation with crfs and svms: An investigation.In Proc. of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215_222. Wuhan, China, 2005 Khác

HÌNH ẢNH LIÊN QUAN

Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Ngh ĩ a ti ế ng Vi ệ t  - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Ngh ĩ a ti ế ng Vi ệ t (Trang 9)
Mô hình cực đại hóa Entropy  - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
h ình cực đại hóa Entropy (Trang 9)
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận  STT  Thuật ngữ Tiếng Anh  Viết tắt  Nghĩa tiếng Việt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Nghĩa tiếng Việt (Trang 9)
Hình 1. Các bước xử lý ngôn ngữ tự nhiên - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 1. Các bước xử lý ngôn ngữ tự nhiên (Trang 13)
Hình 1. Các bước xử lý ngôn ngữ tự nhiên - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 1. Các bước xử lý ngôn ngữ tự nhiên (Trang 13)
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown (Trang 16)
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown (Trang 16)
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh (Trang 17)
loại khác nhau được xây dựng và sử dụng, hình 2 điểm qua một số tập nhãn từ loại đã - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
lo ại khác nhau được xây dựng và sử dụng, hình 2 điểm qua một số tập nhãn từ loại đã (Trang 17)
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh (Trang 17)
Bảng 3. Tập nhãn từ loại Penn Treebank - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 3. Tập nhãn từ loại Penn Treebank (Trang 17)
Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời gian [7]:  - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời gian [7]: (Trang 22)
Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời  gian [7]: - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời gian [7]: (Trang 22)
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như hình 4. - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
a có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như hình 4 (Trang 26)
Hình 4. Đồ thị có hướng mô tả mô hình HMM - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 4. Đồ thị có hướng mô tả mô hình HMM (Trang 26)
cho bài toán gán nhãn từ loại trong các ngôn ngữ khác, đó là mô hình cực đại hóa Entropy MEM, mô hình miền ngẫu nhiên điều kiện CRF và mô hình máy véc tơ hỗ trợ - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
cho bài toán gán nhãn từ loại trong các ngôn ngữ khác, đó là mô hình cực đại hóa Entropy MEM, mô hình miền ngẫu nhiên điều kiện CRF và mô hình máy véc tơ hỗ trợ (Trang 28)
Hình 5. Mô hình tổng quát của phương pháp lai - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 5. Mô hình tổng quát của phương pháp lai (Trang 28)
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh (Trang 29)
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh (Trang 29)
Hình 6. Mô hình TBL cho tiếng Việt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 6. Mô hình TBL cho tiếng Việt (Trang 33)
Hình 6. Mô hình TBL cho tiếng Việt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 6. Mô hình TBL cho tiếng Việt (Trang 33)
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mô hình đồ thị cho CRF có dạng: - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
hi ệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mô hình đồ thị cho CRF có dạng: (Trang 38)
Hình 7. Đồ thị vô hướng mô tả CRF - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 7. Đồ thị vô hướng mô tả CRF (Trang 38)
Hình 8. Một bước trong thuật toán Viterbi cải tiến - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 8. Một bước trong thuật toán Viterbi cải tiến (Trang 41)
Hình 8. Một bước trong thuật toán Viterbi cải tiến - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 8. Một bước trong thuật toán Viterbi cải tiến (Trang 41)
3.2.4. Ước lượng tham số cho các mô hình CRF - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
3.2.4. Ước lượng tham số cho các mô hình CRF (Trang 42)
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt (Trang 42)
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm (Trang 43)
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm (Trang 43)
của biến đổi sử dụng hàm nhân được minh họa trong hình 12 [23]. - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
c ủa biến đổi sử dụng hàm nhân được minh họa trong hình 12 [23] (Trang 44)
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính  - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính (Trang 44)
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng  hàm nhân - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân (Trang 44)
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu  phẳng tuyến tính - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính (Trang 44)
Hình 13. Hàm nhân Basis Radial - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 13. Hàm nhân Basis Radial (Trang 46)
Hình 13. Hàm nhân Basis Radial - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 13. Hàm nhân Basis Radial (Trang 46)
Bảng 5. Tập nhãn từ loại VietTreeBank cho tiếng Việt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 5. Tập nhãn từ loại VietTreeBank cho tiếng Việt (Trang 50)
Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt (Trang 50)
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt (Trang 51)
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt (Trang 51)
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa ch ọ n  đặ c tr ư ng  - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa ch ọ n đặ c tr ư ng (Trang 53)
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu  Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng (Trang 53)
Bảng dưới đây là một ví dụ cho các mẫu ngữ cảnh biểu thức chính quy xác định  dữ liệu có dạng số: - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng d ưới đây là một ví dụ cho các mẫu ngữ cảnh biểu thức chính quy xác định dữ liệu có dạng số: (Trang 54)
hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử (Trang 55)
Hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử  dụng mô hình - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử dụng mô hình (Trang 55)
Bảng 9. Độ chính xác khi áp dụng mô hình ME Mở mức từ - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 9. Độ chính xác khi áp dụng mô hình ME Mở mức từ (Trang 58)
Thực nghiệm áp dụng mô hình MEM để gán nhãn cho văn bản tiếng Việt ở mức từ cho độ chính xác trung bình với bộ dữ liệu thứ nhất là 86.42% trong đó kết qu ả  cao  nhấtlà 86.73% - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
h ực nghiệm áp dụng mô hình MEM để gán nhãn cho văn bản tiếng Việt ở mức từ cho độ chính xác trung bình với bộ dữ liệu thứ nhất là 86.42% trong đó kết qu ả cao nhấtlà 86.73% (Trang 58)
Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ (Trang 58)
Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị (Trang 58)
Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ (Trang 59)
Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ (Trang 60)
Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị (Trang 60)
Hình 17. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 17. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai (Trang 61)
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất (Trang 61)
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất - SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất (Trang 61)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w