1. Trang chủ
  2. » Thể loại khác

Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt: Luận văn ThS. Công nghệ thông tin: 60 48 01 04

49 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 791,07 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - ĐẶNG HỒNG HẠNH KIỂM TRA LỖI TỰ ĐỘNG TỪ DỮ LIỆU ĐƢỢC GÁN NHÃN TRONG TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC TS NGUYỄN PHƢƠNG THÁI Hà Nội - 2014 LỜI CẢM ƠN Lời cảm ơn xin gửi đến đến TS Nguyễn Phƣơng Thái Thầy ngƣời đƣa ý tƣởng chọn đề tài cung cấp cho phƣơng pháp nghiên cứu vấn đề mang tính khoa học Thầy thƣờng xun đƣa giúp tơi có ý tƣởng làm luận văn Tôi xin chân thành cảm ơn NCS.Nguyễn Hồng Quân hỗ trợ nhiệt tình anh suốt thời gian qua Tơi xin chân thành cảm ơn thầy Khoa Công nghệ thơng tin Phịng Đào tạo sau đại học - Nghiên cứu Khoa học, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, ngƣời ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Hà Nội, ngày … tháng … năm 2014 Học viên Đặng Hồng Hạnh LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu độc lập riêng tơi thực dƣới hƣớng dẫn TS Nguyễn Phƣơng Thái, không chép cơng trình luận văn, luận án tác giả khác Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Các trích dẫn, số liệu kết tham khảo dùng để so sánh có nguồn trích dẫn rõ ràng Hà Nội, ngày … tháng … năm 2014 Tác giả Đặng Hồng Hạnh MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU CHUNG 11 1.1 Khái quát gán nhãn liệu 11 1.1.1 Khái niệm Dữ liệu đƣợc gán nhãn 11 1.1.2 Giới thiệu toán gán nhãn cú pháp 12 1.2 Khái quát lỗi gãn nhãn liệu 12 1.2.1 Nhập nhằng mức từ loại 12 1.2.2 Nhập nhằng mức phân tích cú pháp 13 1.3 Giới thiệu toán Kiểm tra lỗi tự động từ liệu đƣợc gán nhãn 15 CHƢƠNG 2: GIỚI THIỆU VỀ TREEBANK 17 2.1 Giới thiệu Penn Treebank 17 2.1.1 Các lƣợc đồ giải 17 2.1.2 Phƣơng pháp 22 2.2 Treebank tiếng Việt 24 2.2.1 Các đặc trƣng tiếng Việt 24 2.2.2 Treebank tiếng Việt 25 2.2.3 Một số hƣớng dẫn gán nhãn cụm tiếng Việt 29 2.2.4 Công cụ gán nhãn 31 2.2.4 Quá trình gán nhãn 31 CHƢƠNG 3: PHƢƠNG PHÁP PHÁT HIỆN LỖI DICKINSON 34 3.1 Lớp tƣơng đƣơng 34 3.2 Các bƣớc xác định lớp tƣơng đƣơng 34 3.3 Tính điểm theo vế phải (Whole daughters scoring - WDS) 35 3.4 Tính điểm theo Bigram (Bigram scoring- BGS) 36 3.5 Đánh giá 36 CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38 4.1 Thực nghiệm 38 4.1.1 Tiền xử lý 38 4.1.2 Trích rút luật từ liệu 38 4.1.3 Thực tính điểm luật theo phƣơng pháp WDS 39 4.1.4 Thực tính điểm luật theo phƣơng pháp BGS 39 4.2 Đánh giá kết 39 4.2.1 Một số ví dụ 40 4.2.2 Đánh giá kết 45 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO 46 5.1 Kết luận 46 5.2 Hƣớng phát triển đề tài 47 TÀI LIỆU THAM KHẢO 48 DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT Từ/cụm từ Từ viết tắt Từ tiếng Anh Gán nhãn từ loại POS part-of-speech Treebank tiếng Việt VTB Việt Treebank Luật dị thƣờng Adhoc Tính điểm Bigram BGS Bigram Scoring Tính điểm theo toàn vế phải WDS Whole daughters scoring DANH MỤC HÌNH VẼ Hình 1.1 Giới từ bổ nghĩa cho động từ 12 Hình 1.2 Giới từ bổ nghĩa cho danh từ “cơ gái” 13 Hình 1.3 Các cú pháp câu “Hơm trời mƣa” 14 Hình 2.1 Quá trình gán nhãn từ loại 31 Hình 4.1 Mối quan hệ câu luật trích rút đƣợc 37 DANH MỤC BẢNG Bảng 2.1 Tập nhãn POS Penn Treebank 17 Bảng 2.2 Tập nhãn cú pháp Penn Treebank 19 Bảng 2.3 Nhãn chức 20 Bảng 2.4 Bốn nhãn đính kèm 20 Bảng 2.5 Chú giải gián đoạn 21 Bảng 2.6 Nhãn từ loại Việt Treebank 25 Bảng 2.7 Nhãn cụm từ 25 Bảng 2.8 Nhãn mệnh đề 26 Bảng 2.9 Nhãn chức cú pháp 26 Bảng 2.10 Nhãn phân loại phụ ngữ động từ 27 Bảng 2.11 Nhãn thành phần rỗng 28 Bảng 3.1 Áp dụng tính điểm WDS Penn Treebank 36 Bảng 3.2 Áp dụng tính điểm BGS Penn Treebank 36 Bảng 4.1 Kết áp dụng tính điểm WDS 38 Bảng 4.2 Kết áp dụng tính điểm BGS 38 Bảng 4.3 Một số lỗi tìm thấy tập ứng viên B3 43 Bảng 4.4 Một số lỗi tìm thấy tập ứng viên T2 43 Bảng 4.5 Kết đánh giá lỗi 37 MỞ ĐẦU ĐẶT VẤN ĐỀ Phân tích cú pháp nhiệm vụ quan trọng việc xử lý ngôn ngữ tự nhiên Trong đó, việc gán nhãn từ loại trọng tâm Kho liệu tiếng Anh đƣợc gán nhãn thành công kho liệu Peen Treebank Kho liệu đƣợc gán nhãn nhờ sử dụng ba lƣợc đồ thích bản: Gán nhãn từ loại, Gán nhãn cú pháp, Gán nhãn gián đoạn Tuy sử dụng nhiều hình thức gán nhãn để đảm bảo độ xác cao, nhƣng khơng thể tránh việc xảy lỗi Đối với văn tiếng Việt, ngày có nhiều đề tài nghiên cứu phục vụ cho việc gán nhãn tiếng Việt Đề tài phân tích cú pháp tiếng Việt đƣợc nhiều ngƣời biết đến Đề tài VLSP nhóm tác giả Hồ Tú Bảo, Nguyễn Phƣơng Thái đồng nghiệp Do việc gán nhãn thực tự động tay, nên vấn đề nhà nghiên cứu gặp phải phân tích cú pháp lỗi gán nhãn Những lỗi lỗi nhận dạng từ vựng sai, lỗi cú pháp Kho liệu cần nghiên cứu lớn nên việc phát lỗi phƣơng pháp thủ công khó khăn MỤC ĐÍCH CỦA LUẬN VĂN Từ đặc điểm nguyên nhân gây lỗi đa dạng, tập luật văn lớn, ta thấy việc phát lỗi phƣơng pháp thủ công vô khó khăn Do cần có phƣơng pháp phát lỗi tự động hỗ trợ ngƣời tìm lỗi, từ tìm cách khắc phục lỗi làm cho tập nhãn ngày xác Theo Dickinson, xem xét văn phạm, có luật khơng có treebank, chúng luật lạ - gọi luật adhoc Những luật kỳ lạ khơng giống luật treebank nhƣng chƣa lỗi, chúng đƣợc xếp vào lớp nghiên cứu Trong nghiên cứu mình, Dickinson đƣa hai phƣơng pháp tính điểm cho luật, từ điểm số đƣợc tính tốn xác định luật có nguy chứa lỗi – luật có tần suất xuất thấp Trong luận văn này, xây dựng công cụ phát lỗi tự động dựa việc phát luật Adhoc áp dụng cho treebank tiếng Việt theo hai phƣơng pháp tính điểm cho tập luật Dickinson đề xuất 10 BỐ CỤC CỦA LUẬN VĂN Luận văn đƣợc trình bày chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung luận văn đƣợc trình bày theo cấu trúc nhƣ sau: Chương 1: Giới thiệu chung Trong chƣơng này, trình bày khái niệm bản: Dữ liệu đƣợc gán nhãn, Lỗi gán nhãn liệu Bên cạnh đó, trình bày chi tiết ngun nhân gây lỗi gán nhãn liệu Đồng thời, chúng tơi giới thiệu tốn Kiểm tra lỗi liệu đƣợc gán nhãn Chương 2: Giới thiệu Treebank Trong chƣơng 2, giới thiệu cụ thể Penn Treebank VietTreebank Với Penn Treebank, trình bày khái quát khái niệm phƣơng pháp thực ba kiểu lƣợc đồ giải Cùng với việc giới thiệu tổng quan VietTreebank, chúng tơi trình bày chi tiết bảng nhãn hƣớng dẫn gán nhãn cho VietTreebank Chương 3: Phương pháp phát lỗi Dickinson Đây chƣơng trình bày sở để giải toán đặt Đầu tiên, chúng tơi trình bày khái niệm Dickinson Lớp tƣơng đƣơng, Lớp tƣơng đƣơng hẹp Tiếp theo hai phƣơng pháp tính điểm cho luật tập liệu Dickinson đề xuất lần lƣợt đƣợc trình bày cụ thể Chương 4: Kết thực nghiệm Trong chƣơng này, trình bày q trình chúng tơi thực nghiệm liệu VietTreebank kết thu đƣợc sau thực nghiệm Chương 5: Kết luận hướng phát triển Kết luận đánh giá phƣơng pháp phát lỗi Dickinson đề xuất nêu hƣớng phát triển đề tài 35 Sau bƣớc 3: S → NP VP Việc sử dụng lớp tƣơng đƣơng để phát luật dị thƣờng hữu ích Dickinson đề xuất thêm khái niệm Lớp tƣơng đƣơng hẹp Theo Dickinson, lớp đƣợc gọi tƣơng đƣơng hẹp lớp bao gồm luật có độ tƣơng tự cao luật có vế trái có vế phải sau rút gọn Để xác định lớp tƣơng đƣơng hẹp, việc rút gọn vế phải thực theo hai bƣớc sau: - Bƣớc 1: Loại tất thành phần mà khơng dự đốn thành tố cú pháp nhƣ dấu câu(.,;-/), dấu ngoặc(), cặp dấu nháy kép ”” - Bƣớc 2: Gộp lớp tiểu từ loại từ loại chính, ví dụ: N (danh từ), Np (danh từ riêng), Nc (danh từ loại) 3.3 Tính điểm theo vế phải (Whole daughters scoring - WDS) Mục tiêu việc tính điểm tìm luật dị thƣờng (luật adhoc) cách xác định luật có điểm số thấp, luật đƣợc dự đoán lỗi Đây hai phƣơng pháp phát luật ad hoc cách tính tốn trực tiếp cho luật tƣơng tự thơng qua lớp tƣơng đƣơng Dickinson Mỗi kiểu luật đƣợc gán điểm số thực, đƣợc tính theo bƣớc sau: Rút gọn luật theo khái niệm lớp tƣơng đƣơng hẹp Mỗi lần xuất luật rút gọn lớp tƣơng đƣơng hẹp đƣợc tính điểm Mỗi lần xuất luật rút gọn lớp có độ tƣơng tự cao đƣợc tính 0,5 điểm Hai luật có độ tƣơng tự cao hai luật sai khác khoảng cách Levenshtein Trong đó, khoảng cách Levenshtein sử dụng hai phép chèn xóa, khơng sử dụng phép thay Điểm số cho luật tổng số điểm gán cho luật Xét tập luật số lần xuất luật: NP → N N (40) NP → N N VP (20) NP → L N N (15) NP → L N N PP (30) Trong lớp trên, luật NP → N N có độ tƣơng tự cao với tất luật lại Luật NP → L N N có độ tƣơng tự cao với NP → L N N NP → L N N PP Điểm số tính cho luật NP → N N: 40*1 + 20*0.5 + 15*0.5 + 30*0.5 = 72.5 Điểm số tính cho luật NP → L N N: 15*1 + 30*0.5 = 30 Theo phƣơng pháp này, luật xuất nhiều đáng tin cậy, luật quan sát đƣợc (điểm số thấp) luật có khả chứa lỗi 36 3.4 Tính điểm theo Bigram (Bigram scoring- BGS) Tính điểm theo Bigram phƣơng pháp khác để phát luật adhoc dựa tính tốn điểm số thực cách tập trung đặc biệt vào mà lớp khơng có điểm chung Thay tính tốn, so sánh tính tồn vẹn chúng, phƣơng pháp trích luật từ phần cấu thành nó, tƣơng tự với đặc tính sử dụng thơng tin n-gram nút vế phải mơ hình phân tích cú pháp Khơng tính tổng qt, Dickinson thêm vào luật cặp thẻ START END Điểm số luật đƣợc tính tốn nhƣ sau: Rút gọn luật theo khái niệm lớp tƣơng đƣơng hẹp Tính tần suất cặp bigram Mỗi lần xuất cặp đƣợc tính điểm Gán điểm thấp cặp bigram cho luật Theo Dickinson, gán điểm thấp cho luật quan tâm đến tần số bất thƣờng Đây ý tƣởng Kv etion Oliva (2002), ngƣời mà xác định bigram không hợp lệ cho tần suất nhãn POS việc phát lỗi bất thƣờng Theo phƣơng pháp này, ta cần tìm luật chứa phần tử đƣợc sử dụng (điểm Bigram thấp) luật có khả chứa lỗi Trong Treebank, xem ví dụ, NP → NP DT NNP đƣợc viết lại theo Bigram (START NP), (NP DT), (DT NNP), (NNP END) Tất cặp bigram tƣơng đối phổ biến (mỗi thành phần xuất 100 lần), ngoại trừ NP DT xuất loại luật Thực vậy, DT thẻ khơng xác (NNP xác) Khi tìm luật adhoc theo phƣơng pháp tính điểm tồn vế phải (WDS) đơi gặp lỗi phƣơng pháp khơng xem xét xác nhãn Phƣơng pháp tính điểm Bigram (BGS) xem xét cặp nhƣng xảy lỗi xem tổng thể luật Ví dụ: NP → NNP CC NP có đƣợc điểm số lớn (1905) chuỗi phổ biến Nhƣng chuỗi xác thƣờng (NNP NP thƣờng nhau) 3.5 Đánh giá Dickinson áp dụng hai phƣơng pháp tính điểm WDS BGS tập liệu Wall Street Journal (WSJ) Brown Penn Treebank Sau áp dụng thực nghiệm, Dickinson đánh giá tính khơng phổ biến – không sử dụng luật hai bảng kết thực nghiệm sau: 37 Bảng 3.1: Áp dụng phƣơng pháp tính điểm WDS Penn Treebank Thresh Rules Unused Ungen 311 311 100.00% 25 2683 2616 97.50% 50 3548 3439 96.93% 100 4596 4419 96.15% Bảng 3.2: Áp dụng phƣơng pháp tính điểm BGS Penn Treebank Thresh Rules Unused Ungen 599 529 98.83% 1661 1628 98.01% 10 2349 2289 97.44% 15 2749 2657 96.65 20 3120 2997 96.06% So sánh kết hai bảng 3.1 bảng 3.2 sử dụng phƣơng pháp tính điểm WDS tốt sử dụng phƣơng pháp tính điểm BGS 38 CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Thực nghiệm Trong luận văn này, dựa phƣơng pháp phát lỗi Dickinson để khảo sát với liệu VietTreebank tập trung khảo sát luật đƣợc sinh từ hai vế trái AP PP Trong 174 file liệu VietTreebank với 10.407 câu, tơi trích rút đƣợc 10672 luật 4.1.1 Tiền xử lý Việc tơi làm sửa lỗi tả tập liệu Những lỗi tả q trình đánh máy sinh ra, lỗi tƣơng đối dễ phát dễ sửa Khảo sát 174 tập liệu, chúng tơi phát 425 lỗi tả Ví dụ: Vb, Eb, Vđầu, … Sau phát hiện, tất lỗi đƣợc sửa lại Theo hƣớng dẫn gán nhãn nhãn S đƣợc sử dụng để gán cho mệnh đề câu Nhƣng liệu chúng tơi khảo sát nhãn S đƣợc sử dụng gán cho nhãn từ loại nhƣ: “hợp lý hố”, “phó giám đốc”, “ngun chủ tịch” Trong trƣờng hợp này, sử dụng nhãn Sx thay cho nhãn S Trong nghiên cứu này, sử dụng nhãn thành tố mà không sử dụng nhãn chức nhƣ SUB, DOB, … Vì tập luật sau trích rút từ liệu, loại bỏ nhãn chức khỏi nhãn Cuối cùng, thống sử dụng nhãn mệnh đề S, SQ, SBAR, S-EXC, S-CMD, không sử dụng dấu gạch nối 4.1.2 Trích rút luật từ liệu Trong liệu tiếng Việt gán nhãn, thực trích rút luật cú pháp Trong trình thực hiện, chúng tơi thống kê đƣợc mối quan hệ số câu văn với số luật trích rút đƣợc thể hình 4.1: 12000 10000 Luật 8000 Luật 6000 4000 2000 10 x1000 câu Hình 4.1: Mối quan hệ số câu luật trích rút 39 Khảo sát 174 tập liệu VTB, thu đƣợc 10.407 câu thu đƣợc 10.672 luật Trong đó, chia thành 3.669 lớp tƣơng đƣơng Nhƣ vậy, trung bình lớp tƣơng đƣơng chứa 2,9 luật 4.1.3 Thực tính điểm luật theo phƣơng pháp WDS Chúng tơi áp dụng phƣơng pháp tính điểm WDS Dickinson cho tồn tập luật trích rút đƣợc từ VTB Khảo sát ngƣỡng: T1 (điểm WDS

Ngày đăng: 23/09/2020, 21:36

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w