Tiểu luận môn học: Xử lý ngôn ngữ tự nhiên Tìm hiểu công cụ gán nhãn từ loại (Stanford POS Tagger)

Tìm hiểu công cụ gán nhãn từ loại (Stanford POS Tagger) Công cụ gán nhãn từ loại (POS Tagger) là một phần của phần mềm đọc văn bản trong một số ngôn ngữ và gán các phần của ngôn ngữ cho mỗi từ (và danh tính khác), chẳng hạn như danh từ, động từ, tính từ, vv, mặc dù các ứng dụng tính toán thông thường sử dụng nhãn từ loại mịn hơn như danh từ số nhiều. Phần mềm này là một thực thi Java của các công cụ gán nhãn từ loại bản ghi tuyến tính được mô tả trong bài báo:

Trang 1

Đề tài: Tìm hiểu công cụ gán nhãn từ loại (Stanford POS Tagger) Giảng viên hướng dẫn: T.S Nguyễn Thị Thanh Huyền

Học viên: Phạm Xuân Thu

Nguyễn Đức Hoàng Tùng Lớp: K7MCS

1 Mục tiêu công cụ

Công cụ gán nhãn từ loại (POS Tagger) là một phần của phần mềm đọc văn bản trong một số ngôn ngữ và gán các phần của ngôn ngữ cho mỗi từ (và danh tính khác), chẳng hạn như danh từ, động từ, tính từ, vv, mặc dù các ứng dụng tính toán thông thường sử dụng nhãn từ loại mịn hơn như 'danh từ số nhiều' Phần mềm này là một thực thi Java của các công cụ gán nhãn từ loại bản ghi tuyến tính được mô tả trong bài báo:

- Kristina Toutanova and Christopher D Manning 2000 Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger (làm phong phú các nguồn kiến thức sử dụng trong một công cụ gán nhãn từ loại

Entropy tối đa) In Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (Trong kỷ yếu của hội nghị Joint SIGDAT về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên và các văn bản rất lớn) (EMNLP/VLC-2000), pp 63-70

- Kristina Toutanova, Dan Klein, Christopher Manning, and Yoram Singer 2003 Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network (Gán nhãn từ loại giàu đặc trưng với mạng phụ thuộc Cyclic)

In Proceedings of NAACL 2003, pp 252-259 (trong kỷ yếu của

HLT-NAACL: Hội thảo công nghệ ngôn ngữ người về vấn đề Bắc Mỹ của Hiệp hội Ngôn ngữ học tính toán)

2 Phương pháp giải quyết bài toán

2.1 Giới thiệu về bài toán gán nhãn từ loại

Gãn nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với mọi hệ xử lý ngôn ngữ tự nhiên Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ trong đó:

Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ đối với tiếng Anh:

“Book that flight.”, và tập thẻ Penn Treebank)

Output: Một nhãn tốt nhất cho từng từ trong câu (Ví dụ: Book/VB that/DT flight/NN /.)

Quá trình gán nhãn từ loại có thể chia làm 3 bước như sau:

Trang 2

Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ Giai đoạn

này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn

là dựa vào các ký hiệu trắng Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao

Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà

nó có thể có Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ

để đoán nhận lớp từ loại tương ứng của từ đang xét

Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập nhằng, tức là

lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là phương pháp Brill và các phương pháp xác suất Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất

và ràng buộc ngữ pháp, gán nhãn nhiều tầng,

Việc gán nhãn từ loại đã được quan tâm từ rất sớm, cùng với nó là sự xuất hiện của rất nhiều phương pháp giải quyết Tới nay, các phương pháp mới vẫn đang tiếp tục được nghiên cứu nhằm hoàn thiện hơn nữa các kết quả đã đạt được

Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt kết quả rất khả quan Bên cạnh việc hoàn thiện hơn nữa các bộ gán nhãn

đã có, ngày càng nhiều bộ gán nhãn mới ra đời, đem lại kết quả gần như tối ưu Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như tiếng Trung Quốc, Nhật, Hàn Quốc ), các ngôn ngữ của Ân Độ, Thái Lan,

A Rập, Nga cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn còn là một thách thức lớn Các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả thấp Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải

kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc là đề xuất ra các hướng tiếp cận mới sao cho phù hợp với các đặc điểm riêng biệt của ngôn ngữ mình

2.2 Các hướng tiếp cận bài toán POS tagging

Hầu hết các thuật toán gán nhãn từ loại rơi vào một trong hai lớp: gán nhãn dựa trên luật (rule-based) hoặc bộ gán nhãn xác suất (stochastic taggers)

Các bộ gán nhãn dựa trên luật thường liên quan tới một cơ sở dữ liệu lớn các luật được viết bằng tay Ví dụ một từ nhập nhằng đang xét có xu hướng là

Trang 3

một danh từ hơn là một động từ nếu nó đi sau một từ chỉ định Phần tiếp sau sẽ

mô tả một bộ gán nhãn dựa trên luật mẫu, ENGTWOL, dựa trên kiến trúc cú pháp ràng buộc của Karlson năm 1995

Bộ gán nhãn xác suất thường giải quyết nhập nhằng bằng cách sử dụng một corpus huấn luyện để tính toán xác suất của một từ cho sẵn sẽ được gán một thẻ nào đó trong ngữ cảnh cho trước Phần sau sẽ mô tả một bộ gán nhãn HMM (HMM Tagger), hay còn được gọi là Maximum Likelihood Tagger, hoặc một bộ gán nhãn Markov Model, cũng dựa trên mô hình Markov ẩn

Ngoài ra còn có các hướng tiếp cận khác gồm bộ gán nhãn dựa trên biến đổi transformation- based tagger hoặc bộ gán nhãn Brill (Brill tagger) Bộ gán nhãn Brill sẽ sử dụng các đặc tính của cả 2 kiến trúc gán nhãn trên Giống như

bộ gán nhãn dựa trên luật, nó dựa vào luật để xác định khi một từ nhập nhằng thì

nó có khả năng là một thẻ nào nhất Giống như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách tự động từ một corpus huấn luyện đã được gán nhãn trước

Gán nhãn chức năng cú pháp dựa trên luật

Các thuật toán khởi thủy gán nhãn tự động từ loại thường gồm hai giai đoạn Giai đoạn một nó sử dụng một từ điển để gán cho mỗi từ một danh sách các từ loại có thể có Giai đoạn 2 nó sử dụng một danh sách gồm tập các luật không có nhập nhằng thường được soạn bằng tay để gán cho mỗi từ chỉ một từ loại phù hợp nhất Mộ bộ gán nhãn điển hình áp dụng cho tiếng Anh là bộ gán nhãn ENGTWOL

Gán nhãn từ loại xác suất

Phần này trình bày một bộ gán nhãn xác suất điển hình sử dụng mô hình Markov ẩn Thuật toán này lựa chọn chuỗi nhãn tốt nhất cho toàn bộ câu Và thông thường người ta hay sử dụng thuật toán Viterbi để tìm chuỗi thẻ tốt nhất

đó Giả sử với câu đầu vào là W ta cần tìm một chuỗi thẻ T=t 1 , ,t n thỏa mãn công thức 1.1:

Sử dụng luật Bayes, P(T|W) được viết theo công thức 1.2

( ) ( | ) ( | )

( )

P T P W T

P T W

P W



(1.2)

Ta đang quan tâm tới chuỗi thẻ phù hợp nhất làm cực đại công thức sau:

( , )

( , ) f h t j

j

p h t    

Trong đó:

Trang 4

hH: là tập từ có thể và ngữa cảnh tử loại, hoặc còn gọi là “lịch sử”

t T: là tập các thẻ có thể có

p

: xác suất mô hình của lịch sử h cùng với thẻ t

: là hằng số chuẩn hóa

{ , , ,1  }: là các tham số mang giá trị dương của mô hình k

{ f1, , f k}: là các đặc trưng thỏa f h t j( , ) {0,1}

Mỗi tham số j tương ứng với một đặc trưng f j

Do đó mẫu số trong tất cả các trường hợp là giống nhau nên bài toán trở thành chuỗi thẻ thỏa mãn công thức 1.3

Áp dụng luật chuỗi xác suất có công thức 1.4

1 1 1 1 1 1 1 1 1

i

P T P W T P w w t w t t P t w t w t   



(1.4)

Vẫn không có phương pháp hiệu quả để tính toán xác xuất của chuỗi này một cách chính xác, nó yêu cầu quá nhiều dữ liệu Tuy nhiên, xác suất có thể được xấp xỉ bởi một xác suất đơn giản hơn bằng cách áp dụng các giả thiết độc lập điều kiện Mặc dù các giả thiết này là không thực tế nhưng trong thực hành thì việc đánh giá đó là vẫn hợp lý Ớ đây, ta sử dụng giả thiết N-gram để mô hình hóa xác suất chuỗi từ Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram Đầu tiên, ta làm đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào thẻ của nó (xem công thức 1.5):

1 1 1 1

(w | w wi i i i) (w | )i i

Tiếp đến, ta giả thiết rằng các thẻ phía trước có thể được xấp xỉ bởi 2 thẻ gần nó nhất (xem công thức 1.6)

( | w wi i i ) ( |i i i )

P t t  t   P t t t  (1.6)

Vì vậy cuối cùng ta lựa chọn chuỗi thẻ làm cực đại công thức 1.7:

1 2 1 2 1

3 1

i i

P t P t t P t t t  P t

(1.7)

Các thành phần thừa số trong công thức 1.7 có thể được tính toán từ corpus huấn luyện của mô hình Chú ý rằng để có thổ tránh xác suất bằng 0 ta cần sử dụng

Trang 5

các kỹ thuật làm trơn.

3 Thử nghiệm đã thực hiện trên công cụ

Công cụ full stanford POS tagger 3.2.0 tại trang web:

http://nlp.stanford.edu/software/tagger.shtml

Nhóm đã tiến hành 02 thử nghiệm như sau:

Thử nghiệm 1: Sử dụng bộ dữ liệu sample-input.txt có sẵn trong

công cụ stanford-postagger-full-2013-06-20 Là đoạn văn tiếng Anh kể về một vụ tai nạn máy bay chở khách sau khi cất cánh tại Bishkek, Thủ

đô của Kyrgzystan:

A passenger plane has crashed shortly after take-off from Kyrgyzstan's capital, Bishkek, killing a large number of those on board The head of Kyrgyzstan's civil aviation authority said that out

of about 90 passengers and crew, only about 20 people have survived The Itek Air Boeing 737 took off bound for Mashhad, in north-eastern Iran, but turned round some 10 minutes later

Kết quả chạy chương trình:

A_DT passenger_NN plane_NN has_VBZ crashed_VBN

Kyrgyzstan_NNP 's_POS capital_NN ,_, Bishkek_NNP ,_, killing_VBG a_DT large_JJ number_NN of_IN those_DT on_IN board_NN ._ The_DT head_NN of_IN

Trang 6

authority_NN said_VBD that_IN out_IN of_IN about_IN 90_CD passengers_NNS and_CC crew_NN ,_, only_RB about_IN 20_CD people_NNS have_VBP survived_VBN ._ The_DT Itek_NNP Air_NNP Boeing_NNP 737_CD took_VBD off_RP bound_VBN for_IN Mashhad_NNP ,_, in_IN north-eastern_JJ Iran_NNP ,_, but_CC turned_VBD round_NN some_DT 10_CD minutes_NNS later_RB _

Thử nghiệm 2: Bộ dữ liệu sử dụng là một đoạn văn tiếng Anh kể về tiểu

sử của nhà vật lý học người Đức:

Albert Einstein (/ˈælbərt ˈaɪnstaɪn/; German: [ˈalbɐt ˈaɪnʃtaɪn]; 14 March 1879 – 18 April 1955) was a German-born theoretical physicist who developed the general theory of relativity, one of the two pillars

of modern physics (alongside quantum mechanics).While best known for his mass–energy equivalence formula E

= mc2 (which has been dubbed "the world's most famous equation"), he received the 1921 Nobel Prize in Physics "for his services to theoretical physics, and especially for his discovery of the law of the photoelectric effect" The latter was pivotal in establishing quantum theory

Kết quả chạy chương trình:

Albert_NNP Einstein_NNP -LRB-_-LRB- \/_: ˈælbərt_JJ ˈaɪnstaɪn_NN \/_: ;_: German_NNP :_: -LSB-_-LRB- ˈalbɐt_JJ ˈaɪnʃtaɪn_NN -RSB-_-RRB- ;_: 14_CD March_NNP 1879_NNS _: 18_CD April_NNP 1955_CD -RRB-_-RRB- was_VBD a_DT German-born_JJ theoretical_JJ physicist_NN who_WP developed_VBD the_DT general_JJ

Trang 7

theory_NN of_IN relativity_NN ,_, one_CD of_IN the_DT two_CD pillars_NNS of_IN modern_JJ physics_NNS -LRB-_-LRB- alongside_IN quantum_NN mechanics_NNS -RRB-_-RRB- ._ While_IN best_RB known_VBN for_IN his_PRP$ mass_NN _: energy_NN equivalence_JJ formula_NN E_NN

=_JJ mc2_NN -LRB-_-LRB- which_WDT has_VBZ been_VBN dubbed_VBN ``_`` the_DT world_NN 's_POS most_RBS famous_JJ equation_NN ''_'' -RRB-_-RRB- ,_, he_PRP received_VBD the_DT 1921_CD Nobel_NNP Prize_NNP in_IN Physics_NN ``_`` for_IN his_PRP$ services_NNS to_TO theoretical_JJ physics_NNS ,_, and_CC especially_RB for_IN his_PRP$ discovery_NN of_IN the_DT law_NN of_IN the_DT photoelectric_JJ effect_NN ''_'' ._ The_DT latter_NN was_VBD pivotal_JJ in_IN establishing_VBG quantum_NN theory_NN _

* Nhận xét:

- Với thử nhiệm 1 sử dụng bộ dữ liệu mẫu của chương trình thì kết quả gán nhãn từ loại chính xác ở những số đếm tuy nhiên ở thử nghiệm thứ 2 có sự nhầm lẫn như năm sinh 1879 thì chương trình gán nhãn là NNS (danh từ số nhiều) trong khi đó năm mất 1955 thì chương trình lại gán nhãn là CD (số đếm)

- Ở thử nghiệm 2 các từ phiêm âm tiếng Anh và tiếng Đức chương trình gán nhãn là tính từ và danh từ: ˈælbərt_JJ; ˈaɪnstaɪn_NN; ˈalbɐt_JJ; ˈaɪnʃtaɪn_NN

- Ở thử nghiệm 2 cho thấy các công thức toán học E = mc2 thì chương trình cũng gán nhãn bị sai

4 Tập thẻ Penn Treebank

Tập thẻ quy định các nhãn từ loại sử dụng trong các chương trình gán nhãn từ loại

Tập thẻ Penn Treebank

`` opening quotation

mark

` ``

Trang 8

coordinating

& 'n and both but either et for less minus neither nor or plus so therefore times v versus

vs whether yet

CD numeral, cardinal mid-1890 nine-thirty forty-two one-tenth ten

million 0.5 one forty-seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s 025 fifteen 271,124 dozen quintillion DM2,000

DT determiner all an another any both del each either every

half la many much nary neither no some such

that the them these this those

FW foreign word gemeinschaft hund ich jeux habeas

Haementeria Herr K'ang-si vous lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte terram fiche oui corporis

Trang 9

IN preposition or

conjunction, subordinating

astride among uppon whether out inside pro despite on by throughout below within for towards near behind atop around if like until

below next into if beside

JJ adjective or numeral,

ordinal

third ill-mannered pre-war regrettable oiled calamitous first separable ectoplasmic battery-powered participatory fourth still-to-be-named

multilingual multi-disciplinary

comparative

bleaker braver breezier briefer brighter brisker broader bumper busier calmer cheaper choosier cleaner clearer closer colder commoner costlier

cozier creamier crunchier cuter

JJS adjective, superlative calmest cheapest choicest classiest cleanest

clearest closest commonest corniest costliest crassest creepiest crudest cutest darkest deadliest dearest deepest densest dinkiest

LS list item marker A A B B C C D E F First G H I J K One

SP-44001 SP-44002 SP-44005 SP-44007 Second Third Three Two \* a b c d first five four one

six three two

MD modal auxiliary can cannot could couldn't dare may might must

need ought shall should shouldn't will would

singular or mass

common-carrier cabbage knuckle-duster Casino afghan shed thermostat investment slide humour falloff slick wind hyena override

subhumanity machinist

NNP noun, proper, singular Motown Venneboerger Czestochwa Ranzer

Conchita Trumplane Christos Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA Shannon A.K.C Meltex

Trang 10

Liverpool

NNP

S

noun, proper, plural Americans Americas Amharas Amityvilles

Amusements Anarcho-Syndicalists Andalusians Andes Andruses Angels Animals Anthony Antilles Antiques Apache Apaches

Apocrypha

NNS noun, common, plural undergraduates scotches bric-a-brac products

bodyguards facets coasts divestitures storehouses designs clubs fragrances averages subjectivists apprehensions muses

factory-jobs

PDT pre-determiner all both half many quite such sure this

PRP pronoun, personal hers herself him himself hisself it itself me

myself one oneself ours ourselves ownself self she thee theirs them themselves they thou thy

us

PRP$ pronoun, possessive her his mine my our ours their thy your

adventurously professedly stirringly prominently technologically magisterially predominately swiftly fiscally pitilessly

RBR adverb, comparative further gloomier grander graver greater

grimmer harder harsher healthier heavier higher however larger later leaner lengthier less-perfectly lesser lonelier longer louder lower

more

Định dạng
Số trang	12
Dung lượng	218,04 KB