Luận văn thạc sĩ kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng việt 04

49 2 0
Luận văn thạc sĩ kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng việt  04

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nội dung luận văn ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG HỒNG HẠNH KIỂM TRA LỖI TỰ ĐỘNG TỪ DỮ LIỆU ĐƢỢC GÁN NHÃN TRONG TIẾNG VIỆT Ngành Công nghệ thông tin Chuyên ngành Hệ thống thông t[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - ĐẶNG HỒNG HẠNH KIỂM TRA LỖI TỰ ĐỘNG TỪ DỮ LIỆU ĐƢỢC GÁN NHÃN TRONG TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC TS NGUYỄN PHƢƠNG THÁI Hà Nội - 2014 z LỜI CẢM ƠN Lời cảm ơn xin gửi đến đến TS Nguyễn Phƣơng Thái Thầy ngƣời đƣa ý tƣởng chọn đề tài cung cấp cho phƣơng pháp nghiên cứu vấn đề mang tính khoa học Thầy thƣờng xuyên đƣa giúp có ý tƣởng làm luận văn Tơi xin chân thành cảm ơn NCS.Nguyễn Hồng Quân hỗ trợ nhiệt tình anh suốt thời gian qua Tôi xin chân thành cảm ơn thầy Khoa Cơng nghệ thơng tin Phịng Đào tạo sau đại học - Nghiên cứu Khoa học, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, ngƣời ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Hà Nội, ngày … tháng … năm 2014 Học viên Đặng Hồng Hạnh z LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu độc lập riêng tơi thực dƣới hƣớng dẫn TS Nguyễn Phƣơng Thái, khơng chép cơng trình luận văn, luận án tác giả khác Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Các trích dẫn, số liệu kết tham khảo dùng để so sánh có nguồn trích dẫn rõ ràng Hà Nội, ngày … tháng … năm 2014 Tác giả Đặng Hồng Hạnh z MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU CHUNG 11 1.1 Khái quát gán nhãn liệu 11 1.1.1 Khái niệm Dữ liệu đƣợc gán nhãn 11 1.1.2 Giới thiệu toán gán nhãn cú pháp 12 1.2 Khái quát lỗi gãn nhãn liệu 12 1.2.1 Nhập nhằng mức từ loại 12 1.2.2 Nhập nhằng mức phân tích cú pháp 13 1.3 Giới thiệu toán Kiểm tra lỗi tự động từ liệu đƣợc gán nhãn 15 CHƢƠNG 2: GIỚI THIỆU VỀ TREEBANK 17 2.1 Giới thiệu Penn Treebank 17 2.1.1 Các lƣợc đồ giải 17 2.1.2 Phƣơng pháp 22 2.2 Treebank tiếng Việt 24 2.2.1 Các đặc trƣng tiếng Việt 24 2.2.2 Treebank tiếng Việt 25 2.2.3 Một số hƣớng dẫn gán nhãn cụm tiếng Việt 29 2.2.4 Công cụ gán nhãn 31 2.2.4 Quá trình gán nhãn 31 CHƢƠNG 3: PHƢƠNG PHÁP PHÁT HIỆN LỖI DICKINSON 34 3.1 Lớp tƣơng đƣơng 34 3.2 Các bƣớc xác định lớp tƣơng đƣơng 34 3.3 Tính điểm theo vế phải (Whole daughters scoring - WDS) 35 3.4 Tính điểm theo Bigram (Bigram scoring- BGS) 36 3.5 Đánh giá 36 CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38 z 4.1 Thực nghiệm 38 4.1.1 Tiền xử lý 38 4.1.2 Trích rút luật từ liệu 38 4.1.3 Thực tính điểm luật theo phƣơng pháp WDS 39 4.1.4 Thực tính điểm luật theo phƣơng pháp BGS 39 4.2 Đánh giá kết 39 4.2.1 Một số ví dụ 40 4.2.2 Đánh giá kết 45 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO 46 5.1 Kết luận 46 5.2 Hƣớng phát triển đề tài 47 TÀI LIỆU THAM KHẢO 48 z DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT Từ/cụm từ Từ viết tắt Từ tiếng Anh Gán nhãn từ loại POS part-of-speech Treebank tiếng Việt VTB Việt Treebank Luật dị thƣờng Adhoc Tính điểm Bigram BGS Bigram Scoring Tính điểm theo tồn vế phải WDS Whole daughters scoring z DANH MỤC HÌNH VẼ Hình 1.1 Giới từ bổ nghĩa cho động từ 12 Hình 1.2 Giới từ bổ nghĩa cho danh từ “cô gái” 13 Hình 1.3 Các cú pháp câu “Hơm trời mƣa” 14 Hình 2.1 Quá trình gán nhãn từ loại 31 Hình 4.1 Mối quan hệ câu luật trích rút đƣợc 37 z DANH MỤC BẢNG Bảng 2.1 Tập nhãn POS Penn Treebank 17 Bảng 2.2 Tập nhãn cú pháp Penn Treebank 19 Bảng 2.3 Nhãn chức 20 Bảng 2.4 Bốn nhãn đính kèm 20 Bảng 2.5 Chú giải gián đoạn 21 Bảng 2.6 Nhãn từ loại Việt Treebank 25 Bảng 2.7 Nhãn cụm từ 25 Bảng 2.8 Nhãn mệnh đề 26 Bảng 2.9 Nhãn chức cú pháp 26 Bảng 2.10 Nhãn phân loại phụ ngữ động từ 27 Bảng 2.11 Nhãn thành phần rỗng 28 Bảng 3.1 Áp dụng tính điểm WDS Penn Treebank 36 Bảng 3.2 Áp dụng tính điểm BGS Penn Treebank 36 Bảng 4.1 Kết áp dụng tính điểm WDS 38 Bảng 4.2 Kết áp dụng tính điểm BGS 38 Bảng 4.3 Một số lỗi tìm thấy tập ứng viên B3 43 Bảng 4.4 Một số lỗi tìm thấy tập ứng viên T2 43 Bảng 4.5 Kết đánh giá lỗi 37 z MỞ ĐẦU ĐẶT VẤN ĐỀ Phân tích cú pháp nhiệm vụ quan trọng việc xử lý ngôn ngữ tự nhiên Trong đó, việc gán nhãn từ loại trọng tâm Kho liệu tiếng Anh đƣợc gán nhãn thành công kho liệu Peen Treebank Kho liệu đƣợc gán nhãn nhờ sử dụng ba lƣợc đồ thích bản: Gán nhãn từ loại, Gán nhãn cú pháp, Gán nhãn gián đoạn Tuy sử dụng nhiều hình thức gán nhãn để đảm bảo độ xác cao, nhƣng khơng thể tránh việc xảy lỗi Đối với văn tiếng Việt, ngày có nhiều đề tài nghiên cứu phục vụ cho việc gán nhãn tiếng Việt Đề tài phân tích cú pháp tiếng Việt đƣợc nhiều ngƣời biết đến Đề tài VLSP nhóm tác giả Hồ Tú Bảo, Nguyễn Phƣơng Thái đồng nghiệp Do việc gán nhãn thực tự động tay, nên vấn đề nhà nghiên cứu gặp phải phân tích cú pháp lỗi gán nhãn Những lỗi lỗi nhận dạng từ vựng sai, lỗi cú pháp Kho liệu cần nghiên cứu lớn nên việc phát lỗi phƣơng pháp thủ cơng khó khăn MỤC ĐÍCH CỦA LUẬN VĂN Từ đặc điểm nguyên nhân gây lỗi đa dạng, tập luật văn lớn, ta thấy việc phát lỗi phƣơng pháp thủ cơng vơ khó khăn Do cần có phƣơng pháp phát lỗi tự động hỗ trợ ngƣời tìm lỗi, từ tìm cách khắc phục lỗi làm cho tập nhãn ngày xác Theo Dickinson, xem xét văn phạm, có luật khơng có treebank, chúng luật lạ - gọi luật adhoc Những luật kỳ lạ khơng giống luật treebank nhƣng chƣa lỗi, chúng đƣợc xếp vào lớp nghiên cứu Trong nghiên cứu mình, Dickinson đƣa hai phƣơng pháp tính điểm cho luật, từ điểm số đƣợc tính tốn xác định luật có nguy chứa lỗi – luật có tần suất xuất thấp Trong luận văn này, xây dựng công cụ phát lỗi tự động dựa việc phát luật Adhoc áp dụng cho treebank tiếng Việt theo hai phƣơng pháp tính điểm cho tập luật Dickinson đề xuất z 10 BỐ CỤC CỦA LUẬN VĂN Luận văn đƣợc trình bày chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung luận văn đƣợc trình bày theo cấu trúc nhƣ sau: Chương 1: Giới thiệu chung Trong chƣơng này, trình bày khái niệm bản: Dữ liệu đƣợc gán nhãn, Lỗi gán nhãn liệu Bên cạnh đó, trình bày chi tiết nguyên nhân gây lỗi gán nhãn liệu Đồng thời, giới thiệu toán Kiểm tra lỗi liệu đƣợc gán nhãn Chương 2: Giới thiệu Treebank Trong chƣơng 2, giới thiệu cụ thể Penn Treebank VietTreebank Với Penn Treebank, trình bày khái quát khái niệm phƣơng pháp thực ba kiểu lƣợc đồ giải Cùng với việc giới thiệu tổng quan VietTreebank, chúng tơi trình bày chi tiết bảng nhãn hƣớng dẫn gán nhãn cho VietTreebank Chương 3: Phương pháp phát lỗi Dickinson Đây chƣơng trình bày sở để giải toán đặt Đầu tiên, chúng tơi trình bày khái niệm Dickinson Lớp tƣơng đƣơng, Lớp tƣơng đƣơng hẹp Tiếp theo hai phƣơng pháp tính điểm cho luật tập liệu Dickinson đề xuất lần lƣợt đƣợc trình bày cụ thể Chương 4: Kết thực nghiệm Trong chƣơng này, trình bày q trình chúng tơi thực nghiệm liệu VietTreebank kết thu đƣợc sau thực nghiệm Chương 5: Kết luận hướng phát triển Kết luận đánh giá phƣơng pháp phát lỗi Dickinson đề xuất nêu hƣớng phát triển đề tài z ... Kiểm tra lỗi tự động từ liệu đƣợc gán nhãn Bài toán Kiểm tra lỗi tự động liệu đƣợc gán nhãn đƣợc nghiên cứu nhằm giải việc phát lỗi kho liệu lớn, khó làm thủ công + Input: kho liệu đƣợc gán nhãn. .. nhiên gán nhãn cho nội dung liệu nghiên cứu để tạo liệu đƣợc gán nhãn Dữ liệu đƣợc gán nhãn tập văn bản, từ, cụm từ đƣợc giải với nhãn từ loại nhãn chức tƣơng ứng Nhãn từ loại gì? Trong câu, từ. .. Danh từ Cụm động từ Tôi Động từ Danh từ nhìn gái Cụm giới từ Giới từ với Hình 1.1: (1)- Giới từ bổ nghĩa cho động từ z Danh từ ống nhòm Câu 14 Chủ ngữ Vị ngữ Danh từ Cụm động từ Tôi Cụm danh từ Động

Ngày đăng: 06/03/2023, 15:41

Tài liệu cùng người dùng

Tài liệu liên quan