Các mẫu luật chuyển cho Tiếng Anh

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại (Trang 52 - 61)

3.3. Tiếp cận xây dựng bộ gán nhãn từ loại

3.3.1. Xử lý dữ liệu

Chúng tơi nghiên cứu cơng cụ của nhĩm tác giả Lê Hồng Phương [54] và cơng cụ Stanford Maxent Tagger [58] làm cơ sở cho việc phát triển cơng cụ gán nhãn từ loại. Trước khi thực hiện gán nhãn từ loại cho các câu trong một ngơn ngữ cụ thể, ta cần xây dựng mơ hình xác suất thống kê và tập luật để sửa sai nhãn từ loại của ngơn ngữ bằng việc huấn luyện mơ hình kết hợp đã đề xuất. Ngữ liệu huấn luyện cần được chuẩn hĩa để đảm bảo sự thống nhất theo quy tắc sau:

+ Các từ tố (Token) được tạo bởi hai thành phần từ và từ loại, từ và từ loại được phân cách bởi dấu /. Tuy nhiên trong ngữ liệu đơi khi tồn tại các từ tố được tạo bởi thành phần từ là một số thập phân và thành phần từ loại là số (M) như “3/4/M” nên khi tách từ và từ loại cần tách từ ký tự cuối cùng theo thuật tốn sau:

Thuật tốn: 3-10. Thuật tốn tách từ

Đầu vào: Từ tố.

Đầu ra: Từ.

Bước 1: String temp = "";

Bước 2: j = Từ tố.Vị trí cuối('/')-1;

Bước 3: Lặp khi J>=0

Bước 3.1. temp = Từ tố.Ký tự tại vị trí(j) + temp ; Bước 3.2. j = j - 1;

0

Thuật tốn: 3-11. Thuật tốn tách từ loại

+ Một câu (Sentence) bao gồm một tập hợp các từ tố, các từ tố cách nhau bởi một dấu cách. Kết thúc câu là dấu chấm câu.

+ Một tài liệu (Artice) bao gồm tập hợp các câu. + Một ngữ liệu (Corpus) bao gồm nhiều tài liệu.

3.3.2. Cấu hình để thực hiện

Chúng tơi kế thừa mã nguồn trong [58] [54] để cài đặt mơ hình kết hợp đã đề xuất. Trong [58] [54] tất cả các thuộc tính cần thiết lập giá trị cho từng ngơn ngữ được lưu trong các tệp tin cĩ phần mở rộng là .props trong thư mục model (gọi chung là các tệp thuộc tính). Các tệp tin này chứa các giá trị của các thuộc tính mặc định của bộ gán nhãn từ loại. Để sử dụng cho các ngơn ngữ khác tiếng Anh thì cần phải thay đổi một số giá trị trên một số thuộc tính trong tệp thuộc tính này. Với sự thay đổi một số thuộc tính cĩ thể làm thay đổi mơ hình xác suất thống kê cĩ được sau khi huấn luyện. Lớp TaggerConfig trên bộ gán nhãn Stanford nhận thơng tin đầu vào từ tệp thuộc tính để tạo ra sự độc lập tương đối cho quá trình thiết lập và cài đặt hệ thống. Thuộc tính được chi thành các loại sau:

STT THUỘC TÍNH GIÁ TRỊ Ý NGHĨA

1. model *.tagger Tên tệp lưu mơ hình

2. arch left3words Kiến trúc mơ hình ngơn ngữ. 3. trainFile vtb-train.pos Tệp chứa ngữ liệu huấn luyện 4. curWordMinFeatureThresh 2 Gưỡng sinh đặc trưng cho từ 5. tagSeparator / Ký hiệu phân cách từ và từ loại

Đầu vào: Từ tố.

Đầu ra: Từ loại.

Bước 1: String temp = "";

Bước 2: i = Từ tố.độ rộng()-1;

Bước 3: Lặp khi i>=0 và Từ tố.Ký tự tại vị trí(i)!=’/’)

Bước 3.1. temp = Từ tố.Ký tự tại vị trí(i) + temp ; Bước 3.2. i = i - 1;

STT THUỘC TÍNH GIÁ TRỊ Ý NGHĨA

6. encoding UTF-8 Mã hĩa

7. iterations 100 Số vịng lặp

8. lang Vietnamese Ngơn ngữ

9. minFeatureThresh 2 Ngưỡng loại bỏ ngữ cảnh (history) 10. rareWordMinFeatureThresh 10 Ngưỡng loại bỏ ngữ cảnh từ hiếm 11. rareWordThresh 5 Ngưỡng phân loại từ hiếm

12. search owlqn Phương pháp tối ưu (L1 reg)

13. sigmaSquared 0.0 Tham số làm mịnh mơ hình 14. tokenize true Cĩ ký hiệu phân tách từ tố 15. outputFormat slashTags Định dạng tệp kết quả

Bảng 3-6: Một số thuộc tính cho mơ hình cực đại hĩa Entropy

- Lớp edu.stanford.nlp.tagger.maxent.Extractor sử dụng các kiến trúc mơ hình ngơn ngữ được chỉ ra trong tham số arch để làm tham số trích chọn từng thành phần của đặc trưng. - Lớp edu.stanford.nlp.tagger.maxent.AmbiguityClass để lưu trữ các từ tố cĩ hiện tượng nhập nhằng từ loại.

- Lớp edu.stanford.nlp.tagger.maxent.ExtractorFrames bản chất là một mảng các Extractor được ghép lại với nhau tạo thành đặc trưng cho mơ hình. Các đặc trưng này là các đặc trưng cho mọi từ trong ngữ liệu huấn luyện.

- Lớp edu.stanford.nlp.tagger.maxent. ExtractorFramesRare tương tự chức năng của ExtractorFrames nhưng lớp này chỉ tạo ra các đặc trưng cho từ hiếm.

3.3.3. Huấn luyện

- Sử dụng lớp Trainer để thực hiện việc huấn luyện mơ hình. Để thực hiện được việc huấn luyện cần đưa vào các tham số sau:

+ Tập tin cấu hình: chứa giá trị thuộc tính trong mơ hình; + Tập tin chứa các câu cần huấn luyện;

+ Tập tin đầu ra chứa các sự kiện trong quá trình huấn luyện;

+ Tập tin dẫn xuất chứ tất cả thơng tin liên quan đến quá trình huấn luyện như cấu hình, xác suất, v.v…

Việc huấn luyện diễn ra dựa vào dữ liệu đầu vào, nếu dữ liệu đầu vào là tập các tập tin chứa sự kiện sẽ được huấn luyện khác với trường hợp đưa vào một tập tin dẫn xuất

cũng như khác với việc huấn luyện mới hồn tồn. Do quá trình thực nghiệm chúng tơi sử dụng kho ngữ liệu cĩ sẵn TreeBank, mỗi câu là một tập hợp các từ tố nên quá trình huấn luyện sẽ hồn tồn mới và được xây dựng trong phương thức train. Việc huấn luyện trải qua năm pha. Trong pha đầu tiên (Phase 0), Dữ liệu được đọc từ tập tin chứa các câu đã được gán nhãn để huấn luyện sẽ được chuyển sang dạng câu chứa các từ tố, thực hiện việc tiền xử lý cây bằng cách gọi lớp Training trong gĩi ngơn ngữ đã được đưa vào trước đĩ. Sau khi thực hiện việc tiền xử lý câu sẽ chuyển sang pha thứ hai (Phase 1), nhiệm vụ của pha này là xây dựng tập từ điển, và tính tốn xác suất của những từ trong tập từ điển đĩ. Pha thứ ba (Phase 2), bộ gán nhãn từ loại thực hiện việc sàng lọc và trích chọn đặc trưng đồng thời loại bỏ những từ cĩ tần số xuất hiện thấp. Cuối cùng (Phase 3), nhiệm vụ đầu tiên trong pha này được thực hiện đĩ là thu thập các thơng tin đã thống kê. Sau quá trình thu thập các ước lượng xác suất, đưa các thơng tin xác suất vào trong các mơ hình đã được khởi tạo từ trước. Mơ hình này được sử dụng để gán nhãn cho ngữ liệu sử dụng huấn luyện cho ngữ liệu được sử dụng để huấn luyện cho mơ hình học luật chuyển đổi tại pha cuối (Phase 4).

3.3.4. Gãn nhãn từ loại

- Xây dựng lớp vn.uet.nlp.tbl.LanguageTaggedToSentence để thực hiện việc gán nhãn từ loại câu.

- Các đối số cần đưa vào để thực thi là: + Tập tin cấu hình

+ Tập tin dẫn xuất chứa các mơ hình + Tập tin kiểm tra

- Dữ liệu ban đầu trước khi kiểm tra là một tập tin chứa các câu đã được gán nhãn chuẩn. Sử dụng các phương thức trong lớp cĩ sẵn của bộ cơng cụ Standford, thực hiện lập trình phương thức hỗ trợ với mục tiêu sinh ra tập tin chứa các câu theo dạng chuỗi các từ. Các câu này sẽ được gán nhãn lại với cơng cụ xây dựng dựa trên mơ hình kết hợp.

CHƯƠNG 4. THỰC NGHIỆM



Trong chương này, chúng tơi đề cập đến việc sử dụng kho ngữ liệu cĩ sẵn cho quá trình thực nghiệm. Dựa trên các kho ngữ liệu này, chúng tơi tiến hành quá trình thực nghiệm trên mơ hình cơ sở và mơ hình kết hợp cho bài tốn gán nhãn từ loại trên cùng một mơi trường và cùng tập đặc trưng, từ đĩ so sánh và đánh giá ưu và nhược điểm của mơ hình mà chúng tơi đề xuất với mơ hình cơ sở và với một số mơ hình khác.

4.1. Mơ tả thực nghiệm

4.1.1. Dữ liệu thực nghiệm

Để tiến hành quá trình thực nghiệm, luận văn sử dụng hai kho ngữ liệu riêng biệt đã được gán nhãn với hai tập nhãn khác nhau cho quá trình huấn luyện và kiểm tra nhằm làm tăng tính khách quan cho kết quả đạt được. Trong nội dung của luận văn, với hai kho ngữ liệu Penn Treebank và Viet Treebank đĩng vai trị như ngữ liệu chuẩn. Để tạo ra sự thống nhất trong quá trình thực nghiệm, chúng tơi đã lập trình cơng cụ chuyển ngữ liệu Penn Treebank về cùng định dạng với kho ngữ liệu Viet Treebank (từ và từ loại trong từ tố phân cách nhau bởi dấu / ). Tuy nhiên quy tắc này cũng cĩ thể thay đổi trên tệp thuộc tính cấu hình.

4.1.1.1. Peen TreeBank

Peen TreeBank là sản phẩm của trường đại học Pennsylvania phát triển [48]. Kho ngữ liệu Penn TreeBank được sử dụng rộng rãi trong các ứng dụng xử lý ngơn ngữ tự nhiên. Trong luận văn này chúng tơi sử dụng một phần kho ngữ liệu Penn TreeBank cho quá trình thực nghiệm với 56000 câu chứa hơn 1,9 triệu từ. Kế thừa tập nhãn từ loại trong ngữ liệu Brows, ngữ liệu Peen TreeBank được chú thích với 48 nhãn từ loại. Thơng qua quá trình khảo sát chúng tơi thu được bảng phân bố từ loại như sau:

STT Từ loại Số lượng STT Từ loại Số lượng

1. CC 32212 25. TO 30179 2. CD 49223 26. UH 122 3. DT 111153 27. VB 35643 4. EX 1174 28. VBD 41563 5. FW 302 29. VBG 19919 6. IN 134804 30. VBN 27082 7. JJ 82390 31. VBP 16780

8. JJR 4409 32. VBZ 28781 9. JJS 2658 33. WDT 5818 10. LS 71 34. WP 3158 11. MD 13086 35. WP$ 243 12. NN 179582 36. WRB 2899 13. NNS 81084 37. # 189 14. NNP 126041 38. $ 9771 15. NNPS 3273 39. . 53253 16. PDT 496 40. , 66276 17. POS 11890 41. : 6854 18. PRP 23261 42. ( 1931 19. PRP$ 11290 43. ) 1929 20. RB 42117 44. “ 1634 21. RBR 2389 45. ‘ 1564 22. RBS 591 46. “ 19634 23. RP 2298 47. ‘ 1564 24. SYM 73 48. “ 19634

Bảng 4-1: Tần suất xuất hiện nhãn từ loại trong ngữ liệu Peen Treebank [48]

Trong đĩ hiện tượng nhập nhằng từ loại xuất hiện khá phổ biến. Thống kê trên 56000 câu trong kho ngữ liệu Penn Treebank chúng tơi thấy cĩ trên 6000 từ cĩ hơn một nhãn từ loại, cá biệt cĩ những từ cĩ đến 8 từ loại như bảng thống kê 4.5 sau:

STT Từ Số lượng Nhãn

1. down 8 RP; RB; IN; NN; JJ; RBR; VBP; IN|RB 2. put 7 VBN; VB; VBD; NN; VBP; VBP|VB; JJ 3. back 6 NN; VB; RB; JJ; RP; VBP 4. run 5 VBP; VBN; NN; VB; VBD 5. pressured 4 JJ; VBN; NN; VBD 6. feel 3 VBP; VB; NN 7. surveyed 2 VBN; VBD

Nhãn từ loại trong Penn Treebank được biểu diễn bởi bảng 4.6. Nĩ chứa tất cả 36 nhãn từ loại và 12 loại nhãn khác (dành cho tiền tệ và dấu câu).

STT Từ loại Chức năng STT Từ loại Chức năng 1. CC Coordinating conjunction 25. TO to

2. CD Cardinal number 26. UH Interjection 3. DT Determiner 27. VB Verb, base form 4. EX Existential there 28. VBD Verb, past tense

5. FW Foreign word 29. VBG Verb, gerund or present participle

6. IN

Preposition or subordinating conjunction

30. VBN Verb, past participle

7. JJ Adjective 31. VBP Verb, non-3rd person singular present 8. JJR Adjective, comparative 32. VBZ Verb, 3rd person singular present 9. JJS Adjective, superlative 33. WDT Wh-determiner

10. LS List item marker 34. WP Wh-pronoun

11. MD Modal 35. WP$ Possessive wh-pronoun 12. NN Noun, singular or mass 36. WRB Wh-adverb

13. NNS Noun, plural 37. # Pound sign 14. NNP Proper noun, singular 38. $ Dollar sign

15. NNPS Proper noun, plural 39. . Sentence-final punctuation 16. PDT Predeterminer 40. , Comma

17. POS Possessive ending 41. : Colon, semi-colon 18. PRP Personal pronoun 42. ( Left bracket character 19. PRP$ Possessive pronoun 43. ) Right bracket character 20. RB Adverb 44. “ Straight double quote 21. RBR Adverb, comparative 45. ‘ Left open single quote 22. RBS Adverb, superlative 46. “ Left open double quote 23. RP Particle 47. ‘ Right open single quote 24. SYM Symbol 48. “ Right open double quote

4.1.1.2. Viet TreeBank

Đây là sản phẩm của dự án quốc gia VLSP, gồm 142 văn bản, tương ứng với khoảng hơn 10.000 câu và khoảng 230.000 từ. Bộ dữ liệu này được gán nhãn từ loại bằng tập nhãn từ loại VTB (Viet TreeBank) gồm 17 nhãn từ loại, và 1 nhãn cho ký hiệu đặc biệt. Qua quá trình khảo sát chúng tơi thu được bảng phân phối nhãn từ loại như sau:

STT Tên nhãn Số lượng STT Tên nhãn Số lượng

1 N 52377 10 R 16030 2 Np 8752 11 E 13680 3 Nc 5511 12 C 7967 4 Nu 1076 13 I 100 5 V 43215 14 T 1450 6 A 13628 15 U 40 7 P 9400 16 Y 54 8 L 3979 17 X 834 9 M 8428

Bảng 4-4: Tần suất xuất hiện nhãn từ loại trong ngữ liệu Viet Treebank

Trong đĩ cĩ trên 1400 từ cĩ hơn một nhãn từ loại, điển hình là một số từ sau:

STT Từ Số lượng Nhãn 1. cả 5 P; T; R; A; L 2. đến 4 E; V; R; T 3. đơi 3 M; N; L 4. chi_tiết 2 A; N Bảng 4-5: Một số từ cĩ đa nhãn từ loại

Trong quá trình xây dựng cây cú pháp, nhĩm xây dựng Viet Treebank tiếp cận theo quan điểm phân từ loại. Thơng qua nhãn từ loại ta cĩ thể biết được một số thơng tin như: động từ, danh từ, tính từ,… Dựa vào cách phân loại đĩ nhĩm tác giả đã đề xuất danh sách các từ loại được sử dụng trong kho ngữ liệu Viet Treebank như sau:

STT Tên nhãn Chức năng

1 N Danh từ

STT Tên nhãn Chức năng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt

17 X Các từ khơng phân loại được

Bảng 4-6: Nhãn từ loại trong Viet Treebank

Ngồi ra, đối với các từ nhãn từ viết tắt là nhãn kép, ví dụ như từ HIV cĩ nhãn là Ny. Trong dữ liệu mới nhất của nhĩm mà chúng tơi cĩ được, cĩ xuất hiện thêm nhãn Nb miêu tả các từ vay mượn.

Quá trình thực nghiệm chúng tơi giả sử các kho dữ liệu đã được phân đoạn từ đúng nhưng thực tế khi tiến hành thực nghiệm, đặc biệt trên kho dữ liệu Viet TreeBank chúng tơi gặp phải một số trường hợp lỗi ngoại lệ gây ra lỗi cho quá trình tách các từ tố trong câu, qua đĩ chúng tơi cũng đã tiến hành xây dựng cơng cụ để tách những câu này để sửa sai trước khi tiến hành quá trình thực nghiệm. Một số lỗi phổ biến như sau:

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại (Trang 52 - 61)

Tải bản đầy đủ (PDF)

(72 trang)