Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
719,58 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Lê Hồng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Trần Thị Oanh HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trước tiên, muốn bày tỏ lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc Sĩ Trần Thị Oanh, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Thấu hiểu nỗi vất vả tận tụy thầy cô giáo giảng dạy bồi dưỡng kiến thức cho bốn năm qua, xin gửi lời cảm ơn chân thành đến thầy cô, kiến thức mà nhận khơng giúp tơi hồn thành khóa luận mà cịn hành trang quan trọng giúp tơi vững bước tương lai Tôi xin gửi lời cảm ơn tới thầy cô, anh chị bạn sinh viên nhóm seminar “Khai phá liệu”, phịng thí nghiệm Các hệ thống tích hợp thơng minh (SISLAB) – trường Đại học Công nghệ tạo môi trường nghiên cứu khoa học hiệu cho tơi lời khun bổ ích chun mơn q trình nghiên cứu Bên cạnh đó, tập thể sinh viên lớp K50CA đóng vai trị khơng nhỏ giúp xây dựng, củng cố kiến thức với tơi vượt qua khó khăn học tập Và cuối cùng, vô quan trọng, xin bày tỏ lịng chân thành biết ơn vơ hạn tới cha mẹ, anh chị bạn bè thân thiết bên cạnh, quan tâm, động viên tơi suốt q trình học tập thực khóa luận tốt nghiệp Sinh viên Lê Hồng Quỳnh i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT Gán nhãn từ loại (Part-of-Speech Tagging) hai tốn tảng, đóng vai trị quan trọng hệ thống xử lý ngôn ngữ tự nhiên Ở Việt Nam có số nghiên cứu toán này, nhiên kết đạt cịn mức khiêm tốn so với nhiều ngơn ngữ khác Việc tìm hiểu phương pháp gán nhãn từ loại tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết tốt phương pháp công bố Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho toán gán nhãn từ loại tiếng Việt, mơ hình cực đại hóa Entropy (MEM- Jaynes, 1957); mơ hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) mơ hình máy véc tơ hỗ trợ (SVM- Vapnik & Chervonekis, 1995) Đây ba phương pháp học máy ứng dụng thành công nhiều tốn xử lý ngơn ngữ tự nhiên Thực nghiệm áp dụng ba mơ hình học máy tiến hành môi trường phần cứng sử dụng tập đặc trưng để đảm bảo tính khách quan Kết thu liệu thực nghiệm cho thấy mơ hình CRF có độ xác cao thời gian gán nhãn tốt nhất, SVM MEM có ưu thời gian huấn luyện Kết tương đồng với kết vài nghiên cứu tương đương ngôn ngữ khác khẳng định tính khả thi ba mơ hình cho tiếng Việt ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục MỞ ĐẦU .1 Chương KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 1.1 Khái niệm vị trí tốn gán nhãn từ loại NLP 1.1.1 Khái niệm toán gán nhãn từ loại 1.1.2 Vị trí ứng dụng toán gán nhãn từ loại NLP 1.2 Các khó khăn tốn gán nhãn từ loại .6 1.3 Tập nhãn từ loại 1.3.1 Nguyên tắc xây dựng tập nhãn từ loại số tập nhãn từ loại ngôn ngữ giới 1.3.2 Một số tập nhãn từ loại đề xuất Việt Nam 10 Chương CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI 13 2.1 Gán nhãn phương pháp dựa hệ luật 13 2.2 Các phương pháp dựa vào học máy 15 2.3 Phương pháp lai 19 2.4 Các nghiên cứu liên quan Việt Nam .21 2.4.1 Các nghiên cứu dựa phương pháp hệ luật 21 2.4.2 Các nghiên cứu dựa phương pháp học máy 22 2.4.3 Các nghiên cứu dựa phương pháp lai 22 Chương BA MƠ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT .25 3.1 Mơ hình cực đại hóa Entropy 25 3.1.1 Khái niệm MEM 25 3.1.2 Nguyên lý cực đại hóa Entropy 26 3.1.3 Mơ hình xác suất .26 3.1.4 Hạn chế mô hình MEM 27 3.2 Mơ hình trường ngẫu nhiên điều kiện 28 3.2.1 Khái niệm CRF 28 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2.2 Hàm tiềm mơ hình CRF 30 3.2.3 Thuật toán gán nhãn cho liệu dạng chuỗi 31 3.2.4 Ước lượng tham số cho mơ hình CRF 33 3.3 Mơ hình máy véc tơ hỗ trợ .33 3.3.1 Khái niệm sở phương pháp SVM .33 3.3.2 Áp dụng phương pháp SVM cho toán gán nhãn từ loại .36 3.3.3 Huấn luyện SVM 37 Chương THỰC NGHIỆM ÁP DỤNG BA MƠ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ 39 4.1 Mô tả thực nghiệm .39 4.1.1 Phần cứng 39 4.1.2 Phần mềm 39 4.1.3 Dữ liệu thực nghiệm tập nhãn từ loại 40 4.2 Mô tả tập đặc trưng dựa mức từ mức hình vị .43 4.2.1 Các đặc trưng dựa vào thông tin từ vựng thông tin từ loại 43 4.2.2 Mẫu ngữ cảnh dạng biểu thức quy 45 4.3 Hệ thống gán nhãn từ loại cho tiếng Việt 45 4.3.1 Gán nhãn từ loại dựa vào thông tin từ 47 4.3.2 Gán nhãn từ loại dựa vào thông tin hình vị 47 4.4 Phương pháp thực nghiệm tham số đánh giá thực nghiệm 48 4.4.1 Phương pháp thực nghiệm 48 4.4.2 Các tham số đánh giá thực nghiệm 48 4.5 Kết thực nghiệm 48 4.5.1 Kết năm lần thực nghiệm 48 4.5.2 Tổng hợp kết 51 4.5.3 Đánh giá thảo luận 53 KẾT LUẬN 55 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục hình vẽ Hình Các bước xử lý ngơn ngữ tự nhiên Hình Một số tập nhãn từ loại cho Tiếng Anh .8 Hình Một số phương pháp giải toán POS tagging cho tiếng Anh 13 Hình Đồ thị có hướng mơ tả mơ hình HMM 17 Hình Mơ hình tổng qt phương pháp lai 19 Hình Mơ hình TBL cho tiếng Việt 24 Hình Đồ thị vô hướng mô tả CRF 29 Hình Một bước thuật toán Viterbi cải tiến 32 Hình Hai cách chia khơng gian véc tơ thành hai nửa riêng biệt .33 Hình 10 Mặt siêu phẳng tách mẫu dương khỏi mẫu âm 34 Hình 11 Trường hợp khơng thể phân chia mẫu âm mẫu dương siêu phẳng tuyến tính 35 Hình 12 Biến đổi siêu phẳng khơng tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân 35 Hình 13 Hàm nhân Basis Radial 37 Hình 14 Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo liệu 44 Hình 15 Một mơ hình gán nhãn từ loại tiếng Việt .46 Hình 16 Độ xác trung bình thực nghiệm với liệu thứ 52 Hình 17 Độ xác trung bình thực nghiệm với liệu thứ hai 52 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục bảng biểu Bảng Một số thuật ngữ Anh – Việt sử dụng khóa luận viii Bảng Tổng kêt số nhãn có từ tập từ vựng Brown Bảng Tập nhãn từ loại Penn Treebank .8 Bảng Ví dụ số luật chuyển TBL cho tiếng Anh 20 Bảng Tập nhãn từ loại VnPOS cho tiếng Việt 42 Bảng Thông tin từ vựng thông tin từ loại sử dụng cho việc lựa chọn đặc trưng 44 Bảng Một số mẫu ngữ cảnh BTCQ xác định liệu dạng số 45 Bảng Độ xác áp dụng mơ hình MEM mức từ .49 Bảng 10 Độ xác áp dụng mơ hình MEM mức hình vị .49 Bảng 11 Độ xác áp dụng mơ hình CRF mức từ .50 Bảng 12 Độ xác áp dụng mơ hình CRF mức hình vị .50 Bảng 13 Độ xác áp dụng mơ hình SVM mức từ 51 Bảng 14 Độ xác áp dụng mơ hình SVM mức hình vị 51 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Một số thuật ngữ Anh – Việt Bảng Một số thuật ngữ Anh – Việt sử dụng khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Nghĩa tiếng Việt Conditional Random Field CRF Miền ngẫu nhiên điều kiện Hidden Markov Model HMM Mô hình Markov ẩn Maximum Entropy Model MEM, MaxEnt Mơ hình cực đại hóa Entropy Natural Language Processing NLP Xử lý ngôn ngữ tự nhiên Part of speech tagging POS tagging Gán nhãn từ loại Regular expression BTCQ Biểu thức quy Rule-based tagger Bộ gán nhãn dựa luật Transformation-Based Learning TBL Phương pháp học dựa chuyển đổi vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Gán nhãn từ loại cho văn tức xác định từ loại xác cho từ văn Đây vấn đề quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên, bước tiền xử lý nhiều tốn số hệ thống thơng minh khác, nhiên nghiên cứu toán Việt Nam giai đoạn ban đầu nên nhu cầu lý thuyết ứng dụng lớn Đối với văn tiếng Việt, việc gán nhãn từ loại gặp phải nhiều khó khăn, đặc biệt thân việc phân loại từ tiếng Việt vấn đề cịn nhiều tranh cãi, chưa có chuẩn mực thống Ý thức tầm quan trọng nhu cầu thực tiễn khó khăn tốn gán nhãn từ loại, nghiên cứu khóa luận phục vụ đồng thời hai mục đích: Thứ nhất, lựa chọn tập đặc trưng phù hợp với tính chất tiếng Việt sử dụng cho phương pháp học máy khác Thứ hai, áp dụng ba phương pháp học máy cho kết tốt ngơn ngữ khác vào tốn gán nhãn từ loại tiếng Việt, từ đưa nhận xét kết quả, độ phù hợp phương pháp với ứng dụng thực tế góp phần đánh giá chất lượng tập đặc trưng xây dựng Thực nghiệm văn tiếng Việt áp dụng ba mơ hình học máy cho kết khả quan, tùy vào đặc trưng riêng mơ hình mà thời gian xử lý độ xác có chênh lệch định Các vấn đề giải khóa luận đóng góp phần hữu ích việc lựa chọn phương pháp thích hợp giải tốn, để từ phục vụ cho việc tiến hành nghiên cứu mức cao phân tích cú pháp, dịch máy, tóm tắt văn … Khóa luận tổ chức thành bốn chương với nội dung sau: Chương 1: Khái quát toán gán nhãn từ loại Chương đưa khái niệm, vị trí ứng dụng toán gán nhãn từ loại xử lý ngơn ngữ tự nhiên Cùng với đó, việc phân tích vấn đề toán việc xây dựng tập nhãn từ loại nội dung quan trọng mà chương đề cập tới Chương 2: Các hướng tiếp cận toán gán nhãn từ loại Trình bày số hướng tiếp cận nhằm giải toán gán nhãn từ loại phương pháp thủ công, phương pháp học máy mà đại diện tiêu biểu HMM phương pháp lai So với hướng tiếp cận thủ cơng có nhược điểm tốn mặt thời gian, công sức không khả chuyển, phương pháp học máy thường đánh giá cao Chương LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2.2 Mẫu ngữ cảnh dạng biểu thức quy Một đặc trưng quan trọng khác cần xem xét đến đặc trưng xây dựng chuẩn hóa biểu thức quy Các mẫu ngữ cảnh biểu thức quy có tác dụng hỗ trợ xác định nhãn từ loại nhanh chóng xác Trong nhiều trường hợp dựa vào thông tin từ từ loại từ trước sau từ xét gặp phải nhập nhằng làm ảnh hưởng đến kết hệ thống Trong đó, dựa vào mẫu ngữ cảnh biểu thức quy xác định nhãn từ loại Bảng ví dụ cho mẫu ngữ cảnh biểu thức quy xác định liệu có dạng số: Bảng Một số mẫu ngữ cảnh BTCQ xác định liệu dạng số Mẫu ngữ cảnh Ví dụ Ý nghĩa 123456 Số 12/04/2005 Ngày tháng ^[0-9]+/[0-9]+$ 22/5 Ngày tháng phân số ^[0-9][0-9][0-9][0-9]$ 2005 Năm ^[0-9]* ^[0-9]+/[0-9]+/[0-9]+$ ^[0-9]đồng$ 10000 đồng ^[0-9]USD$ 30 USD ^[0-9]%$ 7% Z1 = {một, hai …, mười,} Z2 = {mươi, trăm…} ^[z1]* [z2]*[z1]*$ … Tám mươi Mười … Tiền tệ Phần trăm Số … 4.3 Hệ thống gán nhãn từ loại cho tiếng Việt Sử dụng phương pháp học máy MEM, CRF SVM, toán gán nhãn từ loại xem toán phân lớp với lớp nhãn từ loại xác định trước Trong phần này, ta quan tâm tới kiến trúc đường ống (pipeline), tức việc gán nhãn từ loại thực sau có thơng tin từ vựng Kiến trúc tổng thể mơ hình gán nhãn từ loại sử dụng thực nghiệm thể 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com hình 15 [4] Trong đó, có hai pha pha huấn luyện mơ hình pha kiểm thử sử dụng mơ hình Pha huấn luyện mơ hình: Đầu vào văn tách từ, đưa qua trích chọn đặc trưng (cách thiết kế tập đặc trưng hữu ích cho tiếng Việt trình bày phần sau) đưa vào mơ hình học máy để huấn luyện Ta sử dụng MEM, CRF SVM để huấn luyện mơ hình bước Pha kiểm thử: Còn gọi pha gán nhãn hay pha giải mã Văn đầu vào qua pha kiểm thử theo thuật tốn phù hợp, ví dụ thuật tốn beam search [4], kết cho chuỗi nhãn tốt tương ứng với liệu đầu vào (chuỗi nhãn gồm nhãn thuộc tập nhãn chọn) Tài liệu gán nhãn Trích chọn đặc trưng Huấn luyện mơ hình Tài liệu chưa gán nhãn Pha kiểm thử Tài liệu gán nhãn từ loại Hình 15 Một mơ hình gán nhãn từ loại tiếng Việt Thực nghiệm nội dung khóa luận tiến hành gán nhãn từ loại theo hướng tiếp cận khác nhau, với tập đặc trưng có thay đổi phù hợp với cách tiếp cận: Gán nhãn từ loại dựa vào thông tin từ (Tiếp cận dựa mức từ) Gán nhãn từ loại dựa vào thơng tin hình vị (Tiếp cận dựa mức hình vị) 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.1 Gán nhãn từ loại dựa vào thông tin từ Gán nhãn từ loại dựa vào thông tin từ việc gán nhãn sử dụng đặc trưng ngữ cảnh xung quanh từ xét Các mẫu đặc trưng mô tả đây, W đề cập tới từ POS đề cập tới nhãn từ loại từ Từ Wi (i = -2, -1, 0, 1, 2) Nhãn từ đằng trước từ POS(W-1) Hai nhãn hai từ đằng trước từ POS(W-2) POS(W-1) Từ xét có phải dấu câu? Từ xét có phải từ câu? Từ xét có ký tự đầu hình vị viết hoa hay khơng? 4.3.2 Gán nhãn từ loại dựa vào thơng tin hình vị Hướng tiếp cận gán nhãn từ loại mức hình vị dựa đặc điểm tiếng Việt từ cấu thành từ hình vị Trong tiếng việt, hình vị nhỏ “tiếng” hình thành nhiều ký tự bảng chữ Dưới mơ tả đặc trưng dựa hình vị: Hình vị S-i (i = -2, -1, 0, 1, 2) Nhãn hình vị đằng trước từ POS(S-1wo) Nhãn hình vị đằng trước từ POS(S-2Wo) POS(S-1Wo) Hình vị xét có phải dấu câu? HÌnh vị xét có phải hình vị câu? Hình vị xét có ký tự viết hoa hay khơng? Trong đó, với ý thêm đặc trưng POS(S-1wo) nhãn từ loại hình vị thuộc từ đứng trước từ Và POS(S-2Wo) POS(S-1Wo) nhãn từ loại hình vị thuộc từ đứng trước cách từ từ 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.4 Phương pháp thực nghiệm tham số đánh giá thực nghiệm 4.4.1 Phương pháp thực nghiệm Thực nghiệm theo phương pháp kiểm thử chéo lần (5-fold cross validation) Theo phương pháp này, liệu thực nghiệm chia thành phần nhau, lấy phần để huấn luyện phần lại để kiểm thử, kết sau lần thực nghiệm ghi lại đánh giá tổng thể 4.4.2 Các tham số đánh giá thực nghiệm Khóa luận đánh giá độ “tốt” thực nghiệm dựa hai yếu tố chính: Độ xác kết (tức liệu đầu mơ hình) Đây yếu tố quan trọng cần phải xem xét để đánh giá độ tốt mơ hình Đối với thực nghiệm tiến hành, độ xác liệu đầu tính cơng thức: P correct correct incorrect Thời gian xử lý gán nhãn Thời gian bao gồm: thời gian huấn luyện thời gian gán nhãn (ở ta tính thời gian kiểm thử thực nghiệm) Ở ta ký hiệu thời gian huấn luyện T (tính đơn vị giây) thời gian kiểm thử t (tính đơn vị giây); thời gian kiểm thử tính thời gian từ lúc mơ hình bắt đầu gán nhãn cho liệu kiểm thử đến lúc đầu in file cách hoàn chỉnh 4.5 Kết thực nghiệm Các mơ hình học máy MEM, CRF SVM huấn luyện môi trường phần cứng sử dụng tập đặc trưng thiết kế phần trước 4.5.1 Kết năm lần thực nghiệm a Kết thực nghiệm áp dụng mơ hình MEM Dữ liệu huấn luyện kiểm thử xử lý theo câu một, thủ tục kiểm thử tuân theo thuật toán beam search, thuật toán tìm kiếm để liệt kê chuỗi nhãn ứng cử viên cho câu chuỗi nhãn cao chọn đáp án 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ở mức từ Bảng Độ xác áp dụng mơ hình MEM mức từ Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 86.47 86.73 86.56 86.24 86.11 86.42 Bộ liệu thứ hai 85.57 85.17 85.64 85.51 85.71 85.81 Thực nghiệm áp dụng mơ hình MEM để gán nhãn cho văn tiếng Việt mức từ cho độ xác trung bình với liệu thứ 86.42% kết cao 86.73% Với liệu thứ hai, độ xác trung bình 85.57% độ xác cao 85.81% Thời gian huấn luyện MEM vào khoảng gần tiếng với liệu thứ khoảng tiếng với liệu thứ hai MEM cần nhiều thời gian để tiến hành kiểm thử, khoảng 10 phút liệu Ở mức hình vị Bảng 10 Độ xác áp dụng mơ hình MEM mức hình vị Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 89.72 89.93 89.76 90.07 89.86 89.87 Bộ liệu thứ hai 89.30 88.63 89.64 89.26 89.36 89.63 Trong thực nghiệm mức hình vị, độ xác hai liệu nhìn chung tăng lên đáng kể: Với liệu thứ 89.87% giá trị trung bình, kết cao 90.07%; Với liệu thứ hai, độ xác trung bình 89.30% cao 89.64% Thời gian huấn luyện tăng lên khoảng 1.5 lần so với mức từ (khoảng 4,5 tiếng để huấn luyện mơ hình sử dụng liệu thứ khoảng tiếng sử dụng liệu thứ hai) Thời gian kiểm thử vào khoảng 20 phút với liệu thứ 15 phút với liệu thứ hai Tương tự MEM, CRF liệu huấn luyện kiểm thử xử lý theo câu Trong thực nghiệm này, việc ước lượng tham số cho mơ CRF tiến hành phương pháp LBFGS 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com b Kết thực nghiệm áp dụng mơ hình CRF Ở mức từ Bảng 11 Độ xác áp dụng mơ hình CRF mức từ Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 90.91 91.02 90.87 90.86 90.93 90.92 Bộ liệu thứ hai 89.59 89.36 89.61 89.48 89.76 89.72 Áp dụng CRF mức từ, độ xác trung bình đạt với liệu thứ 90.92% (cao 91.02%) Với liệu thứ hai, độ xác trung bình 89.59% (cao đạt 89.72%) Thời gian huấn luyện nhìn chung lớn (khoảng tiếng với liệu thứ tiếng với liệu thứ hai) Nhưng ngược lại, thời gian kiểm thử nhỏ, xấp xỉ 1-2 giây với liệu Ở mức hình vị Bảng 12 Độ xác áp dụng mơ hình CRF mức hình vị Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 91.32 91.88 91.49 91.68 91.83 91.64 Bộ liệu thứ hai 90.17 89.82 90.35 90.76 89.95 89.98 Ở mức hình vị, độ xác trung bình đạt với liệu thứ 91.64%, cao là 91.88%, với liệu thứ hai, độ xác trung bình 90.17% độ xác cao 90.76% Như vậy, độ xác có tăng so với thực nghiệm mức từ, độ tăng không nhiều (khoảng 0,6 – 0,7%) Thực nghiệm mức hình vị với CRF nhiều thời gian để huấn luyện kiểm thử so với thực nghiệm mức từ, mức tăng vào khoảng tiếng, thời gian kiểm thử tăng không đáng kể mức thấp c Kết thực nghiệm áp dụng mơ hình SVM Để phục vụ cho việc trích chọn đặc trưng từ hình vị, từ điển từ hình vị xây dựng, việc số hóa đặc trưng theo u cầu đầu vào mơ hình dựa số thứ tự từ hình vị từ điển Kết thực nghiệm áp dụng mô hình SVM cho bảng 14 bảng 15 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ở mức từ Bảng 13 Độ xác áp dụng mơ hình SVM mức từ Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 89.44 88.59 88.62 88.21 88.96 88.76 Bộ liệu thứ hai 87.06 87.27 86.89 87.16 86.93 87.05 Thực nghiệm áp dụng mơ hình SVM mức từ cho độ xác trung bình với liệu thứ 88.76%, kết cao 89.44%, hai số với liệu thứ hai 87.06% 87.27% SVM không cần nhiều thời gian để huấn luyện, (khoảng nửa đến liệu) Tốc độ kiểm thử tốt, nằm khoảng 4-5 giây Ở mức hình vị Bảng 14 Độ xác áp dụng mơ hình SVM mức hình vị Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 90.41 91.24 90.81 90.88 90.56 90.78 Bộ liệu thứ hai 89.41 89.96 89.16 89.79 89.16 88.96 Ở mức hình vị, nhìn chung độ xác tăng nhiều so mức từ (khoảng 2%), độ xác trung bình với liệu thứ 90.78%, cao 91.24%, với liệu thứ hai 89.41% mức trung bình 89.96% độ xác cao Thời gian huấn luyện mức hình vị tăng lên khoảng 20 phút so với huấn luyện mức từ, thời gian kiểm thử tăng không đáng kể mức thấp, nằm khoảng 5-6 giây 4.5.2 Tổng hợp kết Để phục vụ cho việc đánh giá so sánh kết áp dụng mơ hình học máy khác cho tốn gán nhãn từ loại tiếng Việt, hình 16 17 tổng hợp kết trung bình độ xác áp dụng ba mơ hình học máy cho liệu thứ liệu thứ hai 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com a Thực nghiệm với liệu thứ Các lần thực nghiệm tiến hành với trung bình khoảng 8000 câu cho huấn luyện 2000 câu cho kiểm thử Kết tổng hợp hình 16 100 95 89.87 90 90.92 91.64 90.78 88.76 86.42 Mức từ Mức hình vị 85 80 MEM CRF SVM Hình 16 Độ xác trung bình thực nghiệm với liệu thứ b Thực nghiệm với liệu thứ hai Các lần thực nghiệm tiến hành với trung bình khoảng 6000 câu cho huấn luyện 1500 câu cho kiểm thử Kết tổng hợp hình 17 100 95 89.3 90 89.59 90.17 89.41 87.06 85.57 Mức từ Mức hình vị 85 80 MEM CRF SVM Hình 17 Độ xác trung bình thực nghiệm với liệu thứ hai 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.5.3 Đánh giá thảo luận Qua tiến hành thực nghiệm áp dụng ba mơ hình học máy MEM, CRF SVM cho toán gán nhãn từ loại tiếng Việt, sử dụng liệu tập nhãn tương ứng khác môi trường thực nghiệm cách lấy đặc trưng, đưa số nhận xét sau: Thực nghiệm cho thấy tính khả quan hướng tiếp cận dựa mơ hình MEM, CRF SVM cho toán gán nhãn từ loại tiếng Việt Dù nội dung khóa luận tích hợp số đặc trưng đơn giản (chưa tích hợp từ điển từ vựng, hệ luật bổ sung để chữa lỗi, …), bước đầu ba phương pháp cho kết độ xác đáng ý Trong đó, phương pháp áp dụng mơ hình CRF ln cho độ xác cao tất thực nghiệm Nhìn chung, xếp độ xác ba phương pháp theo thứ tự tăng dần sau: MEM < SVM < CRF Cũng độ xác, nhìn chung cách tiếp cận mức hình vị cho kết xác mức từ, phương pháp có chênh lệch kết khác Điều chứng tỏ phương pháp này, cách trích chọn đặc trưng dựa thơng tin hình vị phù hợp so với cách trích chọn đặc trưng dựa thông tin từ o Đối với MEM, cách tiếp cận thực nghiệm dựa mức hình vị cho kết khả quan hẳn so với cách tiếp cân dựa mức từ (tăng lên trung bình 3-4%) o Khi áp dụng SVM, thực nghiệm mức hình vị cho độ xác tăng lên trung bình 2%, số vượt trội MEM, cải thiện kết đáng ý o CRF ln cho độ xác cao nhất, độ xác có tăng thự nghiệm mức từ, nhiên độ chênh lệch không nhiều, khoảng 0.6% Thời gian huấn luyện phương pháp chênh lệch Lấy ví dụ với liệu thứ nhất, SVM khoảng để huấn luyện mức từ CRF đến tiếng để huấn luyện, số MEM tiếng 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tuy nhiên áp dụng vào thực tế, thường ta phải huấn luyện lần cho tất lần sử dụng sau, yếu tố thời gian huấn luyện không trở ngại lớn Từ kết thực nghiệm, xếp theo thứ tự giảm dần thời gian huấn luyện sau: CRF > MEM > SVM Thời gian kiểm thử, tức thời gian mà hệ thống tiến hành gán nhãn cho văn lạ, yếu tố quan trọng cần phải xét đến góp phần định đến khả sử dụng ứng dụng thực tế Ngược lại với thời gian huấn luyện, CRF tiến hành kiểm thử nhanh (chỉ khoảng 1-3 giây), SVM kiểm thử chậm CRF, dừng lại mức 5-6 giây Trong MEM cần đến khoảng 10-20 phút cho việc kiểm thử Ta đưa so sánh tương đối thời gian kiểm thử ba mơ hình theo thứ tự giảm dần là: MEM < SVM