Thực hiện tính điểm của luật theo phƣơng pháp BGS

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 39)

Áp dụng phƣơng pháp tính điểm BGS của Dickinson cho toàn bộ tập luật trích rút từ VTB, chúng tôi thu đƣợc kết quả trong bảng 4.2. Chúng tôi khảo sát với 5 ngƣỡng B3 (điểm BGS <=3), B5 (điểm BGS <=5), B10 (điểm BGS<=10).

Bảng 4.2: Kết quả khi áp dụng tính điểm BGS Ngƣỡng Số ứng viên lỗi B1 (điểm BGS<=1) 697 B3 (điểm BGS<=3) 1264 B5 (điểm BGS<=5) 1629 B10 (điểm BGS<=10) 2232 B15 (điểm BGS<=15) 2592 4.2. Đánh giá kết quả

Sau khi áp dụng các phƣơng pháp tính điểm, áp dụng các ngƣỡng để khảo sát luật thì các luật đƣợc liệt kê theo các ngƣỡng đề xuất là những luật có khả năng chứa lỗi. Để xác định các luật đó có thực sự chứa lỗi hay không thì phải thông qua việc kiểm tra thủ công của con ngƣời.

Trong khuôn khổ thời gian thực hiện luận văn, chúng tôi thực hiện khảo sát bằng tay với hai ngƣỡng T2 và B3. Đối với ngƣỡng T2 chúng tôi khảo sát đối

với các luật đƣợc sinh ra từ vế trái AP (cụm tính từ). Với ngƣỡng B3, chúng tôi khảo sát với các luật đƣợc sinh ra từ vế trái PP (cụm giới từ).

Khi kiểm tra cụ thể trên từng luật, chúng tôi thấy các lỗi thƣờng gặp do nguyên nhân cơ bản là xây dựng sai cây cú pháp và do gán sai nhãn từ loại.

4.2.1. Một số ví dụ

Ví dụ 4.1. PP → V NP (28472.prd, 55)

(S

(VP-DIR (V-H Ra) (PP-LOC (E-H tới)

(NP (Np-H Tazon) (, ,) (Np-H Bình Thuận)))) (, ,) (NP-SUB (N-H anh)) (VP (R mới) (V-H than) (: :) (“ “) (SBAR (S (NP-SUB (P-H Tôi)) (VP (VP (V-H đi) (PP-DIR (PP (R chỉ) (E-H từ) (NP (Ny-H TP) (. .) (Np HCM))) (PP (V-H ra) (NP (Np-H Đồng Nai)))) (T thôi)) (C mà) (VP (V-H phải) (VP (V-H xuống) (VP (V-H chung) (PP (E-H đến) (NP (M bốn) (Nc-H nhóm) (N CSGT) (VP (V-H lƣu động))))))))))) (. .))

Trong ví dụ 4.1: Sai do gán nhãn từ loại, nhãn PP phải đƣợc sửa thành nhãn VP.

Vậy luật PP → V NP đƣợc sửa thành VP → V NP.

Ví dụ 4.2: PP → R R (46692.prd, 89)

(VP(VP(R Không)(V-H đe dọa) (NP-DOB(N-H tính mạng))) (, ,) (VP(R không)(V-H làm)(A ầm ĩ) (PP-LOC(E-H ở) (NP(N-H cơ quan)))) (, ,) (C thì) (S(PP-MDP(R rất)(R-H có thể)) (NP-SUB(P-H đó)) (VP(V-H là) (NP(N-H vợ) (NP(Nc-H ông)(Np Chƣơng))))) (... ...))

Ví dụ 4.2 sai do gán nhãn sai từ vựng, nhãn PP phải sửa thành nhãn RP. Ví dụ 4.2 phải đƣợc sửa thành RP → R R. Ví dụ 4.3: PP → E NP R (5932.prd, 57) (S (NP-SUB(P-H Tôi)) (VP(VP(V-H bấm) (NP-DOB(N-H đồng hồ) (PP-TMP(E-H đến) (NP(N-H giờ)(N thứ)(M ba)) (R rồi)))) (C mà) (VP(R vẫn)(R chƣa)(V-H thấy)

(SBAR(S (NP-SUB(N-H thợ)(V lặn)(P nào)) (VP(V-H ngoi)(R lên))))))

(. .))

Phân tích ví dụ 4.3, chúng tôi nhận thấy: phụ từ (R rồi) bổ nghĩa cho động từ (V-H bấm) nên luật đúng phải là: PP → E NP.

Ví dụ 4.4: AP → R A C R (45930.prd, 49)

(S(NP-SUB(Np-H Hải))

(AP-PRD(R vẫn)(A-H bình thản)(C nhƣ)(R không)) (. .))

Phân tích lỗi trong ví dụ 4.4, thấy lỗi gặp phải là lỗi phân tách từ: nhƣ_không. Cần sửa lại là:

(AP-PRD(R vẫn)(A-H bình thản)(X nhƣ_không)) (. .))

Vậy luật AP → R A C R cần sửa là AP → R A X

Ví dụ 4.5: AP → A A V PP (45817.prd, 31)

(S

(S(VP-ADV(A Bất ngờ)(V-H dò)(R đến)

(NP-DOB(Nc-H loại)(Np Siemens C 35i) (LBKT LBKT)

(NP(N-H loại)

(AP(A-H lạc hậu)(, ,)(A-H khó)(V bán) (PP-LOC(E-H ở) (NP(Np-H Hà Nội))))) (RBKT RBKT))) (NP-SUB(Np-H Bình)) (VP(V-H muốn) (VP(V-H mua) (NP-DOB(M 70)(Nc-H chiếc))))) (C thì) (adsbygoogle = window.adsbygoogle || []).push({});

(S(NP-SUB(M hai)(N-H anh) (PP(E-H của)

(NP(Np-H Tuấn))))

(AP-PRD(A-H háo hức)(A khác thƣờng)) (C và) (VP(V-H nói) (PP(E-H với) (NP(N-H nhau))) (: :)(" ") (SBAR(S(NP-TMP(N-H Hôm)(P nọ)) (NP-SUB(Nc-H thằng)(Np Tuấn)) (VP(V-H nói) (SBAR(S(NP-SUB *E*) (VP(V-H còn))))))) (... ...)(" "))) (. .))

Trong ví dụ 4.5, động từ (V bán) bổ ngữ cho tính từ (A khó), không bổ ngữ cho danh từ (N loại). Nên:

(PP-LOC(E-H ở)

(NP(Np-H Hà Nội)))))

Cần sửa thành:

(AP(A-H lạc hậu)(, ,)(AP(A-H khó)(V bán)) (PP-LOC(E-H ở)

(NP(Np-H Hà Nội)))))

Luật: AP → A A V PP cần sửa thành: AP → A AP PP

Ví dụ 4.6: AP → V R (60200.prd, 30)

(S(AP-ADV(V-H Nói)(R xong))

(NP-SUB(N-H anh)) (VP(V-H quyết định) (VP(V-H cho)

(NP-DOB(N-H tiểu đội)) (VP(V-H đào)

(NP-TMP(N-H lần)(A cuối))))) (. .))

Lỗi gặp phải trong ví dụ 4.6 là lỗi gán nhãn từ loại, cụm từ nói xong là cụm động từ không phải cụm tính từ.

Vì vậy (AP(V-H Nói)(R xong)đƣợc sửa lại là (VP(V-H Nói)(R xong)

Luật AP → V Rsửa thành VP → V R

Ví dụ 4.7 AP → R V SBAR (90854.prd, 18)

(AP(R không)(V-H phải)

(SBAR(S(NP-SUB-1(P-H chúng tôi)) (VP(V-H muốn)

(VP(V-H làm)

(NP-DOB(P-H nó))

(AP-PRD(A-H nổi tiếng))))) Ví dụ 4.7 chứa lỗi gán nhãn từ loại, gán nhãn VP bởi AP. Trong vế trái của luật, động từ phải là thành phần trung tâm của cụm, vì vậy cụm phải là cụm động từ VP.

Sửa lại là: VP → R V SBAR

Sau khi khảo sát tƣơng tự với tất cả luật trong tập ứng viên lỗi B3 với vế phải là cụm giới từ PP, chúng tôi đƣa ra một số luật thật sự lỗi và sửa lại cho đúng nhƣ trong bảng 4.3:

Bảng 4.3: Một số lỗi tìm thấy trong tập ứng viên B3

STT Vị trí tìm thấy Luật lỗi Luật đƣợc sửa lại Loại lỗi 1 25439.prd, 39 PP → N VP NP → N VP Gán nhãn 2 25600.prd, 8 PP → PP R C PP PP → E NP R C PP Cú pháp 3 26558.prd, 1 PP → E WHNP PP → E WHPP Gán nhãn 4 28472.prd, 29 PP → E VP → V Gán nhãn 5 28472.prd, 55 PP → V NP VP → V NP Gán nhãn 6 45817.prd, 32 PP → V NP NP → C NP Gán nhãn 7 4652.prd, 72 PP → V NP PP → V E Gán nhãn 8 46692.prd, 89 PP → R R RP → R R Gán nhãn 9 5932.prd, 57 PP → E NP R PP → E NP Cú pháp 10 46851.prd, 41 PP → V VP VP → V VP Gán nhãn 11 467779.prd, 66 PP → R RP → R Gán nhãn 12 46851.prd, 85 PP → P NP → P Gán nhãn 13 59127.prd, 24 PP → R V NP VP → R V NP Gán nhãn

Đối với tập ứng viên lỗi T2 có vế phải là cụm tính từ AP, chúng tôi cũng đƣa ra một số luật chứa lỗi trong bảng 4.4

Bảng 4.4: Một số lỗi tìm thấy trong tập ứng viên T2 (adsbygoogle = window.adsbygoogle || []).push({});

STT Vị trí tìm thấy Luật lỗi Luật đƣợc sửa lại Loại lỗi 1 45817.prd, 31 AP → A A V PP AP → A A PP Cú pháp 2 45930.prd, 49 AP → R A C R AP → R A X Phân tách từ 3 46803.prd, 1 AP → V N AP → A N Gán nhãn 4 59085.prd, 3 AP → M N NP → M N Gán nhãn 5 59792.prd, 10 AP → R T A WHNP AP → R T A WHAP Gán nhãn 6 60200.prd, 2 AP → R M N VP NP → R M N VP Gán nhãn 7 60200.prd, 30 AP → V R VP → V R Gán nhãn 8 81531.prd, 65 AP → R V PP VP → V R PP Gán nhãn 9 90854.prd, 21 AP → R R A P XP → R R X Gán nhãn Tách từ 10 8160.prd, 55 AP → PP R A PP AP → PP R A Cú pháp

4.2.2. Đánh giá kết quả

Thực hiện kiểm tra bằng tay với tập luật đƣợc liệt kê, chúng tôi thu đƣợc kết quả trong bảng 4.4.

Bảng 4.5: Kết quả đánh giá lỗi Ngƣỡng Ứng viên

lỗi

Luật chứa lỗi Tỷ lệ Tổng Lỗi cú pháp Lỗi từ loại

T2(AP) 141 82 10 72 57% B3 (PP) 197 122 14 108 62%

Qua quá trình khảo sát, kết quả của đề tài đã chỉ ra một số điểm nhƣ sau: - Đối với phƣơng pháp phát hiện lỗi tự động bằng cách tính điểm toàn bộ vế phải (WDS):

+ Phƣơng pháp này đƣa ra các ứng viên lỗi bao gồm chủ yếu là các luật dài (vế phải chứa chuỗi dài).

+ Theo phƣơng pháp này, các luật ngắn ít có khả năng chứa lỗi.

+ Phƣơng pháp tính điểm WDS chƣa chỉ ra vị trí có khả năng chứa lỗi trong luật mà chỉ mới đƣa ra luật có khả năng chứa lỗi.

+ Ƣu điểm là xem xét tính điểm cho từng luật trong kho dữ liệu, tức là mỗi luật đƣợc xem xét với toàn bộ chuỗi hoàn chỉnh.

- Đối với phƣơng pháp phát hiện lỗi tự bằng cách tính điểm Bigram (BGS): + Phƣơng pháp tính điểm Bigram (BGS) có thể xem xét từng cặp nhƣng vẫn có thể xảy ra lỗi khi xem tổng thể một luật. Ví dụ: NP → NNP CC NP có đƣợc điểm số lớn (1905) bởi vì mỗi chuỗi con là khá phổ biến. Nhƣng những chuỗi chính xác thƣờng hiếm (NNP và NP thƣờng ít đi cùng nhau).

+ Phƣơng pháp tính điểm Bigram (BGS), khi đƣa ra ứng viên lỗi đồng thời cũng chỉ ra vị trí có khả năng chứa lỗi của ứng viên đó.

- Trong khuôn khổ nghiên cứu của luận văn thì kết quả đƣợc đƣa ra bởi phƣơng pháp tính điểm BGS tốt hơn kết quả thu đƣợc từ phƣơng pháp tính điểm Toàn bộ vế phải (WDS).

CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO 5.1. Kết luận

Trƣớc nghiên cứu của Dickinson đã có một số phƣơng pháp nghiên cứu phát hiện lỗi. Năm 2004, tác giả Gertjan van Noord đã đề xuất phƣơng pháp phát hiện lỗi dựa trên việc khai phá dữ liệu trên kho ngữ liệu lớn. Phƣơng pháp này đã khá thành công khi áp dụng cho kho ngữ liệu với bộ sƣu tập dữ liệu lớn, nhƣng mới chỉ tập trung vào phát hiện lỗi gán nhãn từ loại, chƣa quan tâm đến nhãn cú pháp.

Nghiên cứu của nhóm tác giả Nguyễn Phƣơng Thái dựa trên entropy của nhãn để phát hiện lỗi trên tập dữ liệu gán nhãn tiếng Việt. Nghiên cứu này đã thực nghiệm và thu đƣợc kết quả tốt trên VietTreebank.

Năm 2013, tác giả luận văn Nhữ Văn Kiên đã trình bày phƣơng pháp phát hiện lỗi tự động dựa thống kê số lƣợng các biến thể nucleis và vị trí của chúng trong kho ngữ liệu VietTreebank đƣợc chú giải từ loại trong các n-grams (01 gram, 02 gram,… , n–gram) và đƣa ra tập nhãn của các vị trí biến thể nucleis có khả năng lỗi. Luận văn này cũng chỉ thực hiện nghiên cứu trên nhãn từ loại, chƣa xác định đƣợc lỗi cú pháp.

Trong đề tài nghiên cứu này, chúng tôi đã đạt đƣợc một số kết quả:

Về lý thuyết, chúng tôi tìm hiểu các khái niệm về nhãn dữ liệu, các khái niệm lỗi trong gán nhãn dữ liệu. Luận văn đã đề cập đến các đặc trƣng của Penn Treebank và VietTreebank, sự khác biệt cơ bản về ngôn ngữ học của tiếng Việt so với tiếng Anh. Đồng thời, chúng tôi tìm hiểu việc gán nhãn cú pháp trên dữ liệu tiếng Việt. Chúng tôi nghiên cứu về các luật cú pháp của văn phạm phi ngữ cảnh, nghiên cứu ý nghĩa các luật ít xảy ra trên bộ dữ liệu.

Thực nghiệm, từ cơ sở lý thuyết, chúng tôi đã giải quyết đƣợc bài toán kiểm tra lỗi tự động trên bộ dữ liệu gán nhãn tiếng Việt bằng cách áp dụng phƣơng pháp của Dickinson. Đây là một hƣớng nghiên cứu mới, chỉ tập trung vào các luật dị thƣờng (luật lạ, ít xuất hiện). Kết quả chúng tôi thu đƣợc là tập các ứng viên bao gồm các luật có khả năng chứa lỗi. Để xác định lỗi thực sự trong tập ứng viên này, chúng tôi đã tiến hành khảo sát bằng tay trên từng luật đối với 2 tập ứng viên B3 và T2. Tuy kết quả là tỷ lệ lỗi chính xác đƣợc kiểm tra trên tập ứng viên lỗi đƣợc phát hiện bởi phƣơng pháp là chƣa cao (62% đối với B3 và 57% đối với T2). Nhƣng khi áp dụng trên tập dữ liệu lớn thì kết quả này cũng rất có ý nghĩa.

5.2. Hƣớng phát triển tiếp theo của đề tài

Do thời gian nghiên cứu còn hạn chế nên kết quả mới dừng lại ở mức đƣa ra các ứng viên lỗi và khảo sát lỗi trên tập ứng viên. Hƣớng phát triển tiếp theo của đề tài là xây dựng hệ thống sửa lỗi tự động những lỗi đƣợc phát hiện bởi nghiên cứu của luận văn.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Cao Xuân Hạo. 2006, Tiếng Việt sơ thảo ngữ pháp chức năng, NXB Khoa học Xã hội.

2. Nhữ Văn Kiên (2013), Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng Việt được chú giải từ loại, Luận văn thạc sỹ Khoa học máy tính, Trƣờng đại học Bƣu chính viễn thông.

3. Nguyễn Phƣơng Thái, Vũ Xuân Lƣơng, Nguyễn Thị Minh Huyền (2008),

Xây dựng treebank Tiếng Việt. Hà nội : ICT-08. 4. SP 7.3 – Dự án VLSP

4. Nguyễn Phƣơng Thái, Vũ Xuân Lƣơng, Nguyễn Thị Minh Huyền (adsbygoogle = window.adsbygoogle || []).push({});

Đào Minh Thu, Đào Thị Minh Ngọc, Lê Kim Ngân (2008), Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn, SP 7.3 – Dự án VLSP

5. Nguyễn Kim Thản. 2008, Cơ sở ngữ pháp tiếng Việt, NXB Khoa học Xã hội.

6. Vƣơng Hoài Thu (2009), Phân tích cú pháp tiếng Việt theo tiếp cận thống kê, Khóa luận tốt nghiệp Công nghệ thông tin, Trƣờng đại học Công nghệ, Đại học quốc gia Hà Nội.

Tiếng Anh

7. Brill E (1999), Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, Computational Linguistics, 21(4), p.543-565.

8. Dermatas E., Kokkinakis G (1995), Automatic Stochastic Tagging of Natural Language Texts, Computational Linguistics 21.2, p. 137 - 163. 9. El-Bèze M, Spriet T (1995), Etiquetage probabiliste et contraintes syntaxiques, Actes de la conférence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille, France,14-16/6/1995.

10. Gertjan van Noord, Error mining for wide-coverage grammar

engineering,In: ACL 2004, Barcelona.

11. Markus Dickinson (2008), Ad Hoc Treebank Structures, Proceedings of ACL-08: HLT Association for Computational Linguistics, Columbus, Ohio, USA, p.362–370

12. Markus Dickinson and Marwa Ragheb (2014), Dependency annotation of coordination for learner language. In Kim Gerdes, Eva Hajičová, and Leo Wanner (eds), Dependency Linguistics: Recent advances in linguistic theory using dependency structures. John Benjamins Publishing Company.

13. Schmid H (1994), Part-of-Speech Tagging with Neural networks, International Conference on Computational Linguistics, Japan, p. 172-176, Kyoto.

14. Tufis D (1999), Tiered Tagging and combined classifie", In Jelineck F. and Nörth E. (Eds), Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer.

Một phần của tài liệu Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt (Trang 39)