1. Trang chủ
  2. » Thể loại khác

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf

68 196 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 684,31 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Trần Thị Oanh HÀ NỘI - 2009 LỜI CẢM ƠN Trước tiên, tơi muốn bày tỏ lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc Sĩ Trần Thị Oanh, người tận tình bảo hướng dẫn tơi suốt q trình thực khoá luận tốt nghiệp Thấu hiểu nỗi vất vả tận tụy thầy cô giáo giảng dạy bồi dưỡng kiến thức cho bốn năm qua, xin gửi lời cảm ơn chân thành đến thầy cô, kiến thức mà tơi nhận khơng giúp tơi hồn thành khóa luận mà cịn hành trang quan trọng giúp vững bước tương lai Tôi xin gửi lời cảm ơn tới thầy cô, anh chị bạn sinh viên nhóm seminar “Khai phá liệu”, phịng thí nghiệm Các hệ thống tích hợp thông minh (SISLAB) – trường Đại học Công nghệ tạo môi trường nghiên cứu khoa học hiệu cho tơi lời khun bổ ích chun mơn q trình nghiên cứu Bên cạnh đó, tập thể sinh viên lớp K50CA đóng vai trị khơng nhỏ giúp tơi xây dựng, củng cố kiến thức với tơi vượt qua khó khăn học tập Và cuối cùng, vô quan trọng, tơi xin bày tỏ lịng chân thành biết ơn vô hạn tới cha mẹ, anh chị bạn bè thân thiết bên cạnh, quan tâm, động viên tơi suốt q trình học tập thực khóa luận tốt nghiệp Sinh viên Lê Hồng Quỳnh i TĨM TẮT Gán nhãn từ loại (Part-of-Speech Tagging) hai toán tảng, đóng vai trị quan trọng hệ thống xử lý ngôn ngữ tự nhiên Ở Việt Nam có số nghiên cứu tốn này, nhiên kết đạt mức khiêm tốn so với nhiều ngơn ngữ khác Việc tìm hiểu phương pháp gán nhãn từ loại tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết tốt phương pháp cơng bố Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho tốn gán nhãn từ loại tiếng Việt, mơ hình cực đại hóa Entropy (MEM- Jaynes, 1957); mơ hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) mơ hình máy véc tơ hỗ trợ (SVM- Vapnik & Chervonekis, 1995) Đây ba phương pháp học máy ứng dụng thành cơng nhiều tốn xử lý ngôn ngữ tự nhiên Thực nghiệm áp dụng ba mơ hình học máy tiến hành môi trường phần cứng sử dụng tập đặc trưng để đảm bảo tính khách quan Kết thu liệu thực nghiệm cho thấy mơ hình CRF có độ xác cao thời gian gán nhãn tốt nhất, SVM MEM có ưu thời gian huấn luyện Kết tương đồng với kết vài nghiên cứu tương đương ngơn ngữ khác khẳng định tính khả thi ba mơ hình cho tiếng Việt ii Mục lục MỞ ĐẦU .1 Chương KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 1.1 Khái niệm vị trí toán gán nhãn từ loại NLP 1.1.1 Khái niệm toán gán nhãn từ loại 1.1.2 Vị trí ứng dụng tốn gán nhãn từ loại NLP 1.2 Các khó khăn tốn gán nhãn từ loại .6 1.3 Tập nhãn từ loại 1.3.1 Nguyên tắc xây dựng tập nhãn từ loại số tập nhãn từ loại ngôn ngữ giới 1.3.2 Một số tập nhãn từ loại đề xuất Việt Nam 10 Chương CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI 13 2.1 Gán nhãn phương pháp dựa hệ luật 13 2.2 Các phương pháp dựa vào học máy 15 2.3 Phương pháp lai 19 2.4 Các nghiên cứu liên quan Việt Nam .21 2.4.1 Các nghiên cứu dựa phương pháp hệ luật 21 2.4.2 Các nghiên cứu dựa phương pháp học máy 22 2.4.3 Các nghiên cứu dựa phương pháp lai 22 Chương BA MƠ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TỐN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT .25 3.1 Mô hình cực đại hóa Entropy 25 3.1.1 Khái niệm MEM 25 3.1.2 Nguyên lý cực đại hóa Entropy 26 3.1.3 Mơ hình xác suất .26 3.1.4 Hạn chế mơ hình MEM 27 3.2 Mơ hình trường ngẫu nhiên điều kiện 28 3.2.1 Khái niệm CRF 28 iii 3.2.2 Hàm tiềm mơ hình CRF 30 3.2.3 Thuật toán gán nhãn cho liệu dạng chuỗi 31 3.2.4 Ước lượng tham số cho mơ hình CRF 33 3.3 Mơ hình máy véc tơ hỗ trợ .33 3.3.1 Khái niệm sở phương pháp SVM .33 3.3.2 Áp dụng phương pháp SVM cho toán gán nhãn từ loại .36 3.3.3 Huấn luyện SVM 37 Chương THỰC NGHIỆM ÁP DỤNG BA MƠ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ 39 4.1 Mô tả thực nghiệm .39 4.1.1 Phần cứng 39 4.1.2 Phần mềm 39 4.1.3 Dữ liệu thực nghiệm tập nhãn từ loại 40 4.2 Mô tả tập đặc trưng dựa mức từ mức hình vị .43 4.2.1 Các đặc trưng dựa vào thông tin từ vựng thông tin từ loại 43 4.2.2 Mẫu ngữ cảnh dạng biểu thức quy 45 4.3 Hệ thống gán nhãn từ loại cho tiếng Việt 45 4.3.1 Gán nhãn từ loại dựa vào thông tin từ 47 4.3.2 Gán nhãn từ loại dựa vào thông tin hình vị 47 4.4 Phương pháp thực nghiệm tham số đánh giá thực nghiệm 48 4.4.1 Phương pháp thực nghiệm 48 4.4.2 Các tham số đánh giá thực nghiệm 48 4.5 Kết thực nghiệm 48 4.5.1 Kết năm lần thực nghiệm 48 4.5.2 Tổng hợp kết 51 4.5.3 Đánh giá thảo luận 53 KẾT LUẬN 55 iv Danh mục hình vẽ Hình Các bước xử lý ngôn ngữ tự nhiên Hình Một số tập nhãn từ loại cho Tiếng Anh .8 Hình Một số phương pháp giải tốn POS tagging cho tiếng Anh 13 Hình Đồ thị có hướng mơ tả mơ hình HMM 17 Hình Mơ hình tổng quát phương pháp lai 19 Hình Mơ hình TBL cho tiếng Việt 24 Hình Đồ thị vô hướng mô tả CRF 29 Hình Một bước thuật toán Viterbi cải tiến 32 Hình Hai cách chia khơng gian véc tơ thành hai nửa riêng biệt .33 Hình 10 Mặt siêu phẳng tách mẫu dương khỏi mẫu âm 34 Hình 11 Trường hợp phân chia mẫu âm mẫu dương siêu phẳng tuyến tính 35 Hình 12 Biến đổi siêu phẳng khơng tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân 35 Hình 13 Hàm nhân Basis Radial 37 Hình 14 Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo liệu 44 Hình 15 Một mơ hình gán nhãn từ loại tiếng Việt .46 Hình 16 Độ xác trung bình thực nghiệm với liệu thứ 52 Hình 17 Độ xác trung bình thực nghiệm với liệu thứ hai 52 v Danh mục bảng biểu Bảng Một số thuật ngữ Anh – Việt sử dụng khóa luận viii Bảng Tổng kêt số nhãn có từ tập từ vựng Brown Bảng Tập nhãn từ loại Penn Treebank .8 Bảng Ví dụ số luật chuyển TBL cho tiếng Anh 20 Bảng Tập nhãn từ loại VnPOS cho tiếng Việt 42 Bảng Thông tin từ vựng thông tin từ loại sử dụng cho việc lựa chọn đặc trưng 44 Bảng Một số mẫu ngữ cảnh BTCQ xác định liệu dạng số 45 Bảng Độ xác áp dụng mơ hình MEM mức từ .49 Bảng 10 Độ xác áp dụng mơ hình MEM mức hình vị .49 Bảng 11 Độ xác áp dụng mơ hình CRF mức từ .50 Bảng 12 Độ xác áp dụng mơ hình CRF mức hình vị .50 Bảng 13 Độ xác áp dụng mơ hình SVM mức từ 51 Bảng 14 Độ xác áp dụng mơ hình SVM mức hình vị 51 vi Một số thuật ngữ Anh – Việt Bảng Một số thuật ngữ Anh – Việt sử dụng khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Nghĩa tiếng Việt Conditional Random Field CRF Miền ngẫu nhiên điều kiện Hidden Markov Model HMM Mơ hình Markov ẩn Maximum Entropy Model MEM, MaxEnt Mơ hình cực đại hóa Entropy Natural Language Processing NLP Xử lý ngôn ngữ tự nhiên Part of speech tagging POS tagging Gán nhãn từ loại Regular expression BTCQ Biểu thức quy Rule-based tagger Bộ gán nhãn dựa luật Transformation-Based Learning TBL Phương pháp học dựa chuyển đổi vii MỞ ĐẦU Gán nhãn từ loại cho văn tức xác định từ loại xác cho từ văn Đây vấn đề quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên, bước tiền xử lý nhiều tốn số hệ thống thơng minh khác, nhiên nghiên cứu toán Việt Nam giai đoạn ban đầu nên nhu cầu lý thuyết ứng dụng lớn Đối với văn tiếng Việt, việc gán nhãn từ loại gặp phải nhiều khó khăn, đặc biệt thân việc phân loại từ tiếng Việt vấn đề nhiều tranh cãi, chưa có chuẩn mực thống Ý thức tầm quan trọng nhu cầu thực tiễn khó khăn tốn gán nhãn từ loại, nghiên cứu khóa luận phục vụ đồng thời hai mục đích: Thứ nhất, lựa chọn tập đặc trưng phù hợp với tính chất tiếng Việt sử dụng cho phương pháp học máy khác Thứ hai, áp dụng ba phương pháp học máy cho kết tốt ngơn ngữ khác vào tốn gán nhãn từ loại tiếng Việt, từ đưa nhận xét kết quả, độ phù hợp phương pháp với ứng dụng thực tế góp phần đánh giá chất lượng tập đặc trưng xây dựng Thực nghiệm văn tiếng Việt áp dụng ba mơ hình học máy cho kết khả quan, tùy vào đặc trưng riêng mô hình mà thời gian xử lý độ xác có chênh lệch định Các vấn đề giải khóa luận đóng góp phần hữu ích việc lựa chọn phương pháp thích hợp giải tốn, để từ phục vụ cho việc tiến hành nghiên cứu mức cao phân tích cú pháp, dịch máy, tóm tắt văn … Khóa luận tổ chức thành bốn chương với nội dung sau: Chương 1: Khái quát toán gán nhãn từ loại Chương đưa khái niệm, vị trí ứng dụng toán gán nhãn từ loại xử lý ngơn ngữ tự nhiên Cùng với đó, việc phân tích vấn đề tốn việc xây dựng tập nhãn từ loại nội dung quan trọng mà chương đề cập tới Chương 2: Các hướng tiếp cận toán gán nhãn từ loại Trình bày số hướng tiếp cận nhằm giải toán gán nhãn từ loại phương pháp thủ công, phương pháp học máy mà đại diện tiêu biểu HMM phương pháp lai So với hướng tiếp cận thủ cơng có nhược điểm tốn mặt thời gian, công sức không khả chuyển, phương pháp học máy thường đánh giá cao Chương 4.2.2 Mẫu ngữ cảnh dạng biểu thức quy Một đặc trưng quan trọng khác cần xem xét đến đặc trưng xây dựng chuẩn hóa biểu thức quy Các mẫu ngữ cảnh biểu thức quy có tác dụng hỗ trợ xác định nhãn từ loại nhanh chóng xác Trong nhiều trường hợp dựa vào thông tin từ từ loại từ trước sau từ xét gặp phải nhập nhằng làm ảnh hưởng đến kết hệ thống Trong đó, dựa vào mẫu ngữ cảnh biểu thức quy xác định nhãn từ loại Bảng ví dụ cho mẫu ngữ cảnh biểu thức quy xác định liệu có dạng số: Bảng Một số mẫu ngữ cảnh BTCQ xác định liệu dạng số Mẫu ngữ cảnh Ví dụ Ý nghĩa 123456 Số 12/04/2005 Ngày tháng ^[0-9]+/[0-9]+$ 22/5 Ngày tháng phân số ^[0-9][0-9][0-9][0-9]$ 2005 Năm ^[0-9]* ^[0-9]+/[0-9]+/[0-9]+$ ^[0-9]đồng$ 10000 đồng ^[0-9]USD$ 30 USD ^[0-9]%$ 7% Z1 = {một, hai …, mười,} Z2 = {mươi, trăm…} ^[z1]* [z2]*[z1]*$ … Tám mươi Mười … Tiền tệ Phần trăm Số … 4.3 Hệ thống gán nhãn từ loại cho tiếng Việt Sử dụng phương pháp học máy MEM, CRF SVM, toán gán nhãn từ loại xem toán phân lớp với lớp nhãn từ loại xác định trước Trong phần này, ta quan tâm tới kiến trúc đường ống (pipeline), tức việc gán nhãn từ loại thực sau có thơng tin từ vựng Kiến trúc tổng thể mơ hình gán nhãn từ loại sử dụng thực nghiệm thể 45 hình 15 [4] Trong đó, có hai pha pha huấn luyện mơ hình pha kiểm thử sử dụng mơ hình  Pha huấn luyện mơ hình: Đầu vào văn tách từ, đưa qua trích chọn đặc trưng (cách thiết kế tập đặc trưng hữu ích cho tiếng Việt trình bày phần sau) đưa vào mơ hình học máy để huấn luyện Ta sử dụng MEM, CRF SVM để huấn luyện mơ hình bước  Pha kiểm thử: Cịn gọi pha gán nhãn hay pha giải mã Văn đầu vào qua pha kiểm thử theo thuật tốn phù hợp, ví dụ thuật tốn beam search [4], kết cho chuỗi nhãn tốt tương ứng với liệu đầu vào (chuỗi nhãn gồm nhãn thuộc tập nhãn chọn) Tài liệu gán nhãn Trích chọn đặc trưng Huấn luyện mơ hình Tài liệu chưa gán nhãn Pha kiểm thử Tài liệu gán nhãn từ loại Hình 15 Một mơ hình gán nhãn từ loại tiếng Việt Thực nghiệm nội dung khóa luận tiến hành gán nhãn từ loại theo hướng tiếp cận khác nhau, với tập đặc trưng có thay đổi phù hợp với cách tiếp cận:  Gán nhãn từ loại dựa vào thông tin từ (Tiếp cận dựa mức từ)  Gán nhãn từ loại dựa vào thông tin hình vị (Tiếp cận dựa mức hình vị) 46 4.3.1 Gán nhãn từ loại dựa vào thông tin từ Gán nhãn từ loại dựa vào thông tin từ việc gán nhãn sử dụng đặc trưng ngữ cảnh xung quanh từ xét Các mẫu đặc trưng mô tả đây, W đề cập tới từ cịn POS đề cập tới nhãn từ loại từ  Từ Wi (i = -2, -1, 0, 1, 2)  Nhãn từ đằng trước từ POS(W-1)  Hai nhãn hai từ đằng trước từ POS(W-2) POS(W-1)  Từ xét có phải dấu câu?  Từ xét có phải từ câu?  Từ xét có ký tự đầu hình vị viết hoa hay không? 4.3.2 Gán nhãn từ loại dựa vào thơng tin hình vị Hướng tiếp cận gán nhãn từ loại mức hình vị dựa đặc điểm tiếng Việt từ cấu thành từ hình vị Trong tiếng việt, hình vị nhỏ “tiếng” hình thành nhiều ký tự bảng chữ Dưới mô tả đặc trưng dựa hình vị:  Hình vị S-i (i = -2, -1, 0, 1, 2)  Nhãn hình vị đằng trước từ POS(S-1wo)  Nhãn hình vị đằng trước từ POS(S-2Wo) POS(S-1Wo)  Hình vị xét có phải dấu câu?  HÌnh vị xét có phải hình vị câu?  Hình vị xét có ký tự viết hoa hay khơng? Trong đó, với ý thêm đặc trưng POS(S-1wo) nhãn từ loại hình vị thuộc từ đứng trước từ Và POS(S-2Wo) POS(S-1Wo) nhãn từ loại hình vị thuộc từ đứng trước cách từ từ 47 4.4 Phương pháp thực nghiệm tham số đánh giá thực nghiệm 4.4.1 Phương pháp thực nghiệm Thực nghiệm theo phương pháp kiểm thử chéo lần (5-fold cross validation) Theo phương pháp này, liệu thực nghiệm chia thành phần nhau, lấy phần để huấn luyện phần lại để kiểm thử, kết sau lần thực nghiệm ghi lại đánh giá tổng thể 4.4.2 Các tham số đánh giá thực nghiệm Khóa luận đánh giá độ “tốt” thực nghiệm dựa hai yếu tố chính:  Độ xác kết (tức liệu đầu mơ hình) Đây yếu tố quan trọng cần phải xem xét để đánh giá độ tốt mơ hình Đối với thực nghiệm tiến hành, độ xác liệu đầu tính cơng thức: P correct correct  incorrect  Thời gian xử lý gán nhãn Thời gian bao gồm: thời gian huấn luyện thời gian gán nhãn (ở ta tính thời gian kiểm thử thực nghiệm) Ở ta ký hiệu thời gian huấn luyện T (tính đơn vị giây) thời gian kiểm thử t (tính đơn vị giây); thời gian kiểm thử tính thời gian từ lúc mơ hình bắt đầu gán nhãn cho liệu kiểm thử đến lúc đầu in file cách hồn chỉnh 4.5 Kết thực nghiệm Các mơ hình học máy MEM, CRF SVM huấn luyện môi trường phần cứng sử dụng tập đặc trưng thiết kế phần trước 4.5.1 Kết năm lần thực nghiệm a Kết thực nghiệm áp dụng mơ hình MEM Dữ liệu huấn luyện kiểm thử xử lý theo câu một, thủ tục kiểm thử tuân theo thuật tốn beam search, thuật tốn tìm kiếm để liệt kê chuỗi nhãn ứng cử viên cho câu chuỗi nhãn cao chọn đáp án 48  Ở mức từ Bảng Độ xác áp dụng mơ hình MEM mức từ Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 86.47 86.73 86.56 86.24 86.11 86.42 Bộ liệu thứ hai 85.57 85.17 85.64 85.51 85.71 85.81 Thực nghiệm áp dụng mơ hình MEM để gán nhãn cho văn tiếng Việt mức từ cho độ xác trung bình với liệu thứ 86.42% kết cao 86.73% Với liệu thứ hai, độ xác trung bình 85.57% độ xác cao 85.81% Thời gian huấn luyện MEM vào khoảng gần tiếng với liệu thứ khoảng tiếng với liệu thứ hai MEM cần nhiều thời gian để tiến hành kiểm thử, khoảng 10 phút liệu  Ở mức hình vị Bảng 10 Độ xác áp dụng mơ hình MEM mức hình vị Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 89.72 89.93 89.76 90.07 89.86 89.87 Bộ liệu thứ hai 89.30 88.63 89.64 89.26 89.36 89.63 Trong thực nghiệm mức hình vị, độ xác hai liệu nhìn chung tăng lên đáng kể: Với liệu thứ 89.87% giá trị trung bình, kết cao 90.07%; Với liệu thứ hai, độ xác trung bình 89.30% cao 89.64% Thời gian huấn luyện tăng lên khoảng 1.5 lần so với mức từ (khoảng 4,5 tiếng để huấn luyện mô hình sử dụng liệu thứ khoảng tiếng sử dụng liệu thứ hai) Thời gian kiểm thử vào khoảng 20 phút với liệu thứ 15 phút với liệu thứ hai Tương tự MEM, CRF liệu huấn luyện kiểm thử xử lý theo câu Trong thực nghiệm này, việc ước lượng tham số cho mơ CRF tiến hành phương pháp LBFGS 49 b Kết thực nghiệm áp dụng mơ hình CRF  Ở mức từ Bảng 11 Độ xác áp dụng mơ hình CRF mức từ Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 90.91 91.02 90.87 90.86 90.93 90.92 Bộ liệu thứ hai 89.59 89.36 89.61 89.48 89.76 89.72 Áp dụng CRF mức từ, độ xác trung bình đạt với liệu thứ 90.92% (cao 91.02%) Với liệu thứ hai, độ xác trung bình 89.59% (cao đạt 89.72%) Thời gian huấn luyện nhìn chung lớn (khoảng tiếng với liệu thứ tiếng với liệu thứ hai) Nhưng ngược lại, thời gian kiểm thử nhỏ, xấp xỉ 1-2 giây với liệu  Ở mức hình vị Bảng 12 Độ xác áp dụng mơ hình CRF mức hình vị Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 91.32 91.88 91.49 91.68 91.83 91.64 Bộ liệu thứ hai 90.17 89.82 90.35 90.76 89.95 89.98 Ở mức hình vị, độ xác trung bình đạt với liệu thứ 91.64%, cao là 91.88%, với liệu thứ hai, độ xác trung bình 90.17% độ xác cao 90.76% Như vậy, độ xác có tăng so với thực nghiệm mức từ, độ tăng không nhiều (khoảng 0,6 – 0,7%) Thực nghiệm mức hình vị với CRF nhiều thời gian để huấn luyện kiểm thử so với thực nghiệm mức từ, mức tăng vào khoảng tiếng, thời gian kiểm thử tăng không đáng kể mức thấp c Kết thực nghiệm áp dụng mơ hình SVM Để phục vụ cho việc trích chọn đặc trưng từ hình vị, từ điển từ hình vị xây dựng, việc số hóa đặc trưng theo u cầu đầu vào mơ hình dựa số thứ tự từ hình vị từ điển Kết thực nghiệm áp dụng mô hình SVM cho bảng 14 bảng 15 50  Ở mức từ Bảng 13 Độ xác áp dụng mơ hình SVM mức từ Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 89.44 88.59 88.62 88.21 88.96 88.76 Bộ liệu thứ hai 87.06 87.27 86.89 87.16 86.93 87.05 Thực nghiệm áp dụng mô hình SVM mức từ cho độ xác trung bình với liệu thứ 88.76%, kết cao 89.44%, hai số với liệu thứ hai 87.06% 87.27% SVM không cần nhiều thời gian để huấn luyện, (khoảng nửa đến liệu) Tốc độ kiểm thử tốt, nằm khoảng 4-5 giây  Ở mức hình vị Bảng 14 Độ xác áp dụng mơ hình SVM mức hình vị Lần Lần Lần Lần Lần Trung bình Bộ liệu thứ 90.41 91.24 90.81 90.88 90.56 90.78 Bộ liệu thứ hai 89.41 89.96 89.16 89.79 89.16 88.96 Ở mức hình vị, nhìn chung độ xác tăng nhiều so mức từ (khoảng 2%), độ xác trung bình với liệu thứ 90.78%, cao 91.24%, với liệu thứ hai 89.41% mức trung bình 89.96% độ xác cao Thời gian huấn luyện mức hình vị tăng lên khoảng 20 phút so với huấn luyện mức từ, thời gian kiểm thử tăng không đáng kể mức thấp, nằm khoảng 5-6 giây 4.5.2 Tổng hợp kết Để phục vụ cho việc đánh giá so sánh kết áp dụng mơ hình học máy khác cho toán gán nhãn từ loại tiếng Việt, hình 16 17 tổng hợp kết trung bình độ xác áp dụng ba mơ hình học máy cho liệu thứ liệu thứ hai 51 a Thực nghiệm với liệu thứ Các lần thực nghiệm tiến hành với trung bình khoảng 8000 câu cho huấn luyện 2000 câu cho kiểm thử Kết tổng hợp hình 16 100 95 89.87 90 90.92 91.64 90.78 88.76 86.42 Mức từ Mức hình vị 85 80 MEM CRF SVM Hình 16 Độ xác trung bình thực nghiệm với liệu thứ b Thực nghiệm với liệu thứ hai Các lần thực nghiệm tiến hành với trung bình khoảng 6000 câu cho huấn luyện 1500 câu cho kiểm thử Kết tổng hợp hình 17 100 95 89.3 90 89.59 90.17 89.41 87.06 85.57 Mức từ Mức hình vị 85 80 MEM CRF SVM Hình 17 Độ xác trung bình thực nghiệm với liệu thứ hai 52 4.5.3 Đánh giá thảo luận Qua tiến hành thực nghiệm áp dụng ba mô hình học máy MEM, CRF SVM cho tốn gán nhãn từ loại tiếng Việt, sử dụng liệu tập nhãn tương ứng khác môi trường thực nghiệm cách lấy đặc trưng, đưa số nhận xét sau:  Thực nghiệm cho thấy tính khả quan hướng tiếp cận dựa mô hình MEM, CRF SVM cho tốn gán nhãn từ loại tiếng Việt Dù nội dung khóa luận tích hợp số đặc trưng đơn giản (chưa tích hợp từ điển từ vựng, hệ luật bổ sung để chữa lỗi, …), bước đầu ba phương pháp cho kết độ xác đáng ý Trong đó, phương pháp áp dụng mơ hình CRF ln cho độ xác cao tất thực nghiệm Nhìn chung, xếp độ xác ba phương pháp theo thứ tự tăng dần sau: MEM < SVM < CRF  Cũng độ xác, nhìn chung cách tiếp cận mức hình vị cho kết xác mức từ, phương pháp có chênh lệch kết khác Điều chứng tỏ phương pháp này, cách trích chọn đặc trưng dựa thơng tin hình vị phù hợp so với cách trích chọn đặc trưng dựa thơng tin từ o Đối với MEM, cách tiếp cận thực nghiệm dựa mức hình vị cho kết khả quan hẳn so với cách tiếp cân dựa mức từ (tăng lên trung bình 3-4%) o Khi áp dụng SVM, thực nghiệm mức hình vị cho độ xác tăng lên trung bình 2%, khơng phải số vượt trội MEM, cải thiện kết đáng ý o CRF ln cho độ xác cao nhất, độ xác có tăng thự nghiệm mức từ, nhiên độ chênh lệch không nhiều, khoảng 0.6%  Thời gian huấn luyện phương pháp chênh lệch Lấy ví dụ với liệu thứ nhất, SVM khoảng để huấn luyện mức từ CRF đến tiếng để huấn luyện, số MEM tiếng 53 Tuy nhiên áp dụng vào thực tế, thường ta phải huấn luyện lần cho tất lần sử dụng sau, yếu tố thời gian huấn luyện không trở ngại lớn Từ kết thực nghiệm, xếp theo thứ tự giảm dần thời gian huấn luyện sau: CRF > MEM > SVM  Thời gian kiểm thử, tức thời gian mà hệ thống tiến hành gán nhãn cho văn lạ, yếu tố quan trọng cần phải xét đến góp phần định đến khả sử dụng ứng dụng thực tế Ngược lại với thời gian huấn luyện, CRF tiến hành kiểm thử nhanh (chỉ khoảng 1-3 giây), SVM kiểm thử chậm CRF, dừng lại mức 5-6 giây Trong MEM cần đến khoảng 10-20 phút cho việc kiểm thử Ta đưa so sánh tương đối thời gian kiểm thử ba mơ hình theo thứ tự giảm dần là: MEM < SVM

Ngày đăng: 27/06/2014, 22:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[22] Website: http://svmlight.joachims.org/svm_multiclass.html. SVM multiclass based on SVM light by Joachims Link
[23] Website: http://www.kernel-machines.org/. Website is devoted to learning methods building on kernels, such as the support vector machine Link
[24] Website: http://sourceforge.net/projects/crfpp. Yet Another CRF toolkit by Taku Kudo Link
[25] Website: http://homepages.inf.ed.ac.uk/lzhang10/maxent.html. Maximum Entropy Modeling Link
[2] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ. Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất. Đăng trên tạp chí phát triển KH&amp;CN, tập 9, số 2-2006 Khác
[3] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương. Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản Tiếng Việt. Báo cáo hội thảo ICT.rda, 2003 Khác
[4] Trần Thị Oanh. Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt. Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2008.Tài liệu tham khảo tiếng Anh Khác
[5] Robert Dale, H. L. Somers, Hermann Moisl. Handbook of Natural Language Processing. Published by Marcel Dekker, Inc, New York, NY, USA, 2000. Chapter 17 Khác
[6] Dinh Dien, Hoang Kiem. POS-Tagger for English-Vietnamese Bilingual Corpus. In HLT-NAACL 2003 Workshop: Building and Using Parallel Texts Data Driven Machine Translation and Beyond, pp.88-95, Edmonton. May-June 2003 Khác
[7] Yair Halevi. Part of Speech Tagging Slide. Seminar in Natural Language Processing and Computational Linguistics, The Blavatnik School of Computer Science – Tel Aviv University. 25 April 2006 Khác
[8] Introduction to SVM (Support Vector Machine) and CRF (Conditional Random Field) Slide. Artifical Intelligence Lab, the University of Arizona. Courses Syllabus of MIS510, Spring 2009 Khác
[9] Daniel Jurafsky, Jame H. Martin. Speech and language processing. Draft of September 28, 1999. Published by Prentice-Hall, Inc, 2000. Pp. 285-317 Khác
[10] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data. In Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001 Khác
[11] Andrew W. Moore. Support Vector Machines Slide. The Auton Lab, Carnegie Mellon University's School of Computer Science. Nov 23rd, 2001 Khác
[12] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine- Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002, Pages 145-158 Khác
[13] Hwee Tou Ng, in Kiat Low. Chinese Part-of-Speech Tagging: One-at-a- Time or All-at-Once? Word-Based or Character-Based? Department of Computer ScienceNational University of Singapore. In Proc. of the Fifth SIGHAN Workshop on Chinese Language Processing, pages 205–208, Sydney, July 2006 Khác
[14] Owen Rambow. Introduction to Syntax, with Part-of-Speech Tagging Slide. Computer Science at Columbia University. September 17 &amp; 19, 2008 Khác
[15] A.Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In Proc. Emparical Methods for Natural Language Processing, 1996 Khác
[16] Richard Sproat. Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of Electrical and Computer Engineering, University of Illinois at Urbana-Champaign. ECE 398RS Courses, Fall 2007 Khác
[17] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, Quang-Thuy Ha. Vietnamese word segmentation with crfs and svms: An investigation.In Proc. of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215_222. Wuhan, China, 2005 Khác

HÌNH ẢNH LIÊN QUAN

Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận  STT  Thuật ngữ Tiếng Anh  Viết tắt  Nghĩa tiếng Việt - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận STT Thuật ngữ Tiếng Anh Viết tắt Nghĩa tiếng Việt (Trang 9)
Hình 1. Các bước xử lý ngôn ngữ tự nhiên - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 1. Các bước xử lý ngôn ngữ tự nhiên (Trang 13)
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown (Trang 16)
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh (Trang 17)
Bảng 3. Tập nhãn từ loại Penn Treebank - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 3. Tập nhãn từ loại Penn Treebank (Trang 17)
Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời  gian [7]: - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời gian [7]: (Trang 22)
Hình 4. Đồ thị có hướng mô tả mô hình HMM - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 4. Đồ thị có hướng mô tả mô hình HMM (Trang 26)
Hình 5. Mô hình tổng quát của phương pháp lai - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 5. Mô hình tổng quát của phương pháp lai (Trang 28)
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh (Trang 29)
Hình 6. Mô hình TBL cho tiếng Việt - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 6. Mô hình TBL cho tiếng Việt (Trang 33)
Hình 7. Đồ thị vô hướng mô tả CRF - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 7. Đồ thị vô hướng mô tả CRF (Trang 38)
Hình 8. Một bước trong thuật toán Viterbi cải tiến - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 8. Một bước trong thuật toán Viterbi cải tiến (Trang 41)
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt (Trang 42)
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm (Trang 43)
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng  hàm nhân - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân (Trang 44)
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu  phẳng tuyến tính - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính (Trang 44)
Hình 13. Hàm nhân Basis Radial - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 13. Hàm nhân Basis Radial (Trang 46)
Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt (Trang 50)
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt (Trang 51)
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu  Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng (Trang 53)
Bảng dưới đây là một ví dụ cho các mẫu ngữ cảnh biểu thức chính quy xác định  dữ liệu có dạng số: - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng d ưới đây là một ví dụ cho các mẫu ngữ cảnh biểu thức chính quy xác định dữ liệu có dạng số: (Trang 54)
Hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử  dụng mô hình - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử dụng mô hình (Trang 55)
Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ (Trang 58)
Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị (Trang 58)
Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ (Trang 59)
Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ (Trang 60)
Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị (Trang 60)
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH pdf
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất (Trang 61)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w