1. Trang chủ
  2. » Công Nghệ Thông Tin

báo cao xư lý ngôn ngữ tự nhiên gán nhãn từ loại tiếng anh

19 861 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 604,46 KB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NÔI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BỘ MÔN HỆ THỐNG THÔNG TIN BÀI TẬP LỚN XỬ LÝ NGÔN NGỮ TỰ NHIÊN ĐỀ TÀI: Gán nhãn từ loại Tiếng Anh Giáo viên hướng dẫn : PGS.Lê Thanh Hương Sinh viên thực hiện: 1.Lê Xuân Tùng 20083004 2.Nguyễn Hán Luân 20081642 3.Ngô Quang Vịnh 20083571 4.Lương Thành Công 20080314 5.Đỗ Duy Quang 20082051 Lớp : HTTT-K53 Hà Nội,tháng 4 năm 2012 1 MỤC LỤC Gán nhãn từ loại Tiếng Anh Trang 2 NỘI DUNG I.KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI. 1. Khái niệm về gán nhãn từ loại. Gán nhãn từ loại là một vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đây là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác. Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại hay không dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán nhãn từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước. Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiện những chức năng ngữ pháp nhất định ở trong câu. Mô tả bài toán: + Input: Một chuỗi các từ và tập nhãn từ loại ( Ví dụ như chuỗi các từ “Book that flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh. ) + Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra ( Ví dụ: đối với chuỗi từ “Book that flight.” thì nhãn thích hợp tương ứng cho từng từ sẽ là Book/VB that/DT flight/NN./ ). Quá trình gán nhãn từ loại Thường được chia làm 3 bước như sau: + Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý. + Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các Gán nhãn từ loại Tiếng Anh Trang 3 ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét. + Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp và các phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng … 2. Ứng dụng của bài toán gán nhãn từ loại. Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ. Một số ứng dụng quan trọng của gán nhãn từ loại: + Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải quyết các bài toán xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, phân cụm, phân loại văn bản … + Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy … + Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ loại là trong hệ thống dịch máy. Có ba cách để thực hiện bài toán dịch máy là: dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi. Trong đó phương pháp dịch dựa trên chuyển đổi tỏ ra là có hiệu quả nhất. Nếu cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. Giả sử như hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang tiếng Việt: “Jet planes fly about nine miles high”, nếu không có sự trợ giúp của công cụ gán nhãn từ loại, hệ thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả tiếng Việt là “Phản lực các phi cơ bay khoảng chín dặm cao” Jet planes fly about nine miles high. Gán nhãn từ loại Tiếng Anh Trang 4 Phản lực các phi cơ bay khoảng chín dặm cao. Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ có khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ phản lực bay cao khoảng chín dặm” Jet planes fly about nine miles high. Các phi cơ phản lực bay cao khoảng chín dặm. 3. Các khó khăn của bài toán gán nhãn từ loại. Giả sử mỗi từ chỉ có một nhãn từ loại và chúng ta có thể xây dựng được một từ điển hữu hạn các từ và nhãn tương ứng của nó thì chắc chắn chúng ta có thể giải quyết được bài toán gán nhãn từ loại với kết quả tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều hơn một nhãn từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có thể xuất hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại phải đối mặt: Nhập nhằng từ loại và từ mới. Thực tế thì vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại bỏ nhập nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể, nó chỉ có thể có một từ loại đúng mà thôi. Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông tin về ngữ cảnh mà một số từ vẫn còn sự nhập nhằng về từ loại. Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ mới mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường. Trong trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để chuyển sang phần xử lý tên riêng ( proper name ) hay từ mới ( unknown word ). II. CƠ SỞ LÝ THUYẾT. 1. Tập nhãn trong gán nhãn từ loại. Gán nhãn từ loại Tiếng Anh Trang 5 Các tập nhãn sử dụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bản là các lớp từ đóng ( Closed word class, function word class, còn được gọi là các từ chức năng, là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa một số lượng ít các từ có liên quan. Ví dụ: Giới từ, mạo từ, đại từ, số đếm ) và các lớp từ mở ( Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác. ) Các lớp từ đóng gồm có: + Giới từ (Prepositions): on, under, over,… + Tiểu từ (Particles): abroad, about, around, before, in, instead, since, without,… + Mạo từ (Articles): a, an, the + Liên từ (Conjunctions): and, or, but, that,… + Đại từ (Pronouns): you, me, I, your, what, who,… + Trợ động từ (Auxiliary verbs): can, will, may, should… Gán nhãn từ loại Tiếng Anh Trang 6 Lớp từ mở trong Tiếng Anh: Proper noun: IBM, Colorado… Noun Common noun Count nouns : book, cat… Mass noun: snow, sand Verb Auxiliaries: go, run, eat… Adjectives Color: red, green, blue… Age: old, young… Openclass Value: good, bad… Locatives adverbs: home, here… Adverb Degree adverbs: extremely, very… Manner adverbs: slowly, delicately… Temporal adverbs: yesterday, Monday… Đối với tiếng Anh thì hiện nay đã có rất nhiều tập từ loại khác nhau được xây dựng: Gán nhãn từ loại Tiếng Anh Trang 7 Một số tập nhãn từ loại cho tiếng Anh. Có thể kể đến một số tập từ nhãn điển hình như: + Brown corpus: 87 nhãn. + Penn Treebank: 45 nhãn. Các nhãn của tập nhãn từ loại Penn Treebank được cho trong bảng dưới đây. + Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National Corpus): 61 nhãn. + Lancaster C7: 145 nhãn. Nhãn Ý nghĩa Nhãn Ý nghĩa CC Coordinating conjunction SYM Symbol CD Cardinal number TO “to” DT Determiner UH Interjection EX Existential there VB Verb, base form FW Foreign word VBD Verb, past tense IN Preposition/sub- conjunction VBG Verb, gerund,present participle JJ Adjective VBN Verb, past participle JJR Adjective, comparative VBP Verb, non-3rd person singular present JJS Adjective, superlative VBZ Verb, 3rd person singular present LS List item marker WT D Wh-determiner MD Modal WP Wh-pronoun NN Noun, singular or mass WP$ Possessive wh-pronoun NNS Noun, plural WR B Wh-adverb NNP Proper noun, singular $ Dollar sign NNP S Proper noun, plural # Pound sign PDT Predeterminer “ Left quote POS Possessive ending ” Right quote PP Personal pronoun ( Left parenthesis PP$ Possessive pronoun ) Right parenthesis RB Adverb , Comma Gán nhãn từ loại Tiếng Anh Trang 8 RBR Adverb, comparative . Sentence-final punc RBS Adverb, superlative : Mid-sentence punc Bảng Penn Treebank. Ví dụ: The grand jury commented on a number of other topics. => The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN other/JJ topics/NNS ./. 2.Học máy và xử lý ngôn ngữ tự nhiên. Các phương pháp máy học được áp dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên được phân loại như sau: + Hướng tiếp cận theo thống kê (stochastic approach). + Hướng tiếp cận theo biểu trưng ( symbolic approach ): học theo ví dụ ( instance – based learning ), cây quyết định ( decision tree ), logic quy nạp ( inductive logic ), phân tách tuyến tính theo ngưỡng ( threshold linear separator ) Trong các phương pháp này, đáng chú ý nhất là phương pháp học dựa trên các luật chuyển đổi ( TBL – Transformation Based Learning ). Phương pháp này cho phép đưa ra tập các khung luậttổng quát có thể giải quyết các vấn đề nhậpnhằng tương tự nhau ( như trong bài toán gán nhãn từ loại ). + Hướng tiếp cận theo biểu trưng thay thế (sybsymbolic approach): mạng nơ-ron (neural network), thuật toán di tuyền (genetic algorithm) Ở đây chúng ta tập trung vào hướng tiếp cận thống kê và mô hình Markov ẩn. 3.Hướng tiếp cận thống kê. Hướng tiếp cận thống kê được xem là một hướng tiếp cận mô tả quá trình thế giới thực tạo ra dữ liệu quan sát được. Các mô hình trong hướng tiếpcậnthống kê thường được thể hiện dưới dạng một mạng thống kê các mối quan hệ phụ thuộc giữa các biến ngẫu nhiên. Mỗi nút của mạng có một phân phối, và từ những phân phối này chúng ta cố gắng tìm ra các phân phối chung của dữ liệu quan sát. Các hướng tiếp cận khác nhau của phương pháp này xuất phát từ cách tạo ra mạng thống kê và cách kết hợp các phân phối của mỗi nút. Gán nhãn từ loại Tiếng Anh Trang 9 Có khá nhiều môhình trong hướng tiếp cận này được áp dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ví dụ như mô hình phân loại Bayes ( Naive Bayes classifier ), nguyên lý hỗn loạn cực đại ( Maximum Entropy Principle ), mô hình Markov ẩn ( Hidden Markov model ). Các mô hình này được áp dụng để giải quyết nhiều bài toán trong xử lý ngôn ngữ tự nhiên như: sửa lỗi chính tả theo ngữ cảnh, gán nhãn từ loại, nhận dạng mệnh đề, nhận dạng tiếng nói… Hiện nay trong bài toán gán nhãn từ loại thì hướng tiếp cận thống kê được xem là một trong những hương tiếp cận có kết quả cao. III. MÔ HÌNH MARKOV ẨN. 1.Khái niệm Mô hình markov ẩn là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này. Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu. Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất. Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái. Đây là một mô hình toán thống kê có ứng dụng rộng rãi trong sinh tin học. Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái. Nhiều bài toán thực tế được biểu diễn dưới mối quan hệ nhân quả, nhưng chỉ quan sát được phần quả còn phần nhân thì ẩn. • HMM dùng để giải quyết các bài toán xác lập mối nhân quả cục bộ (Fragmentation,Classification, Similarity Search). Cơ chế của mô hình Markov ẩn là sử dụng tất cả những thông tin đã có và đoán. Gán nhãn dựa trên xác suất theo mô hình Markov ẩn: Gán nhãn từ loại Tiếng Anh Trang 10 [...]... từ loại Giữa hai câu được ngăn cách bằng ký hiêu Ta sẽ load đến file dữ liệu có trong chương trình sẽ như sau Gán nhãn từ loại Tiếng Anh Trang 16 Sau đây chúng ta gõ câu tiếng anh “Have a nice day” sẽ cho kết quả như sau: Gán nhãn từ loại Tiếng Anh Trang 17 Gán nhãn từ loại Tiếng Anh Trang 18 TÀI LIỆU THAM KHẢO 1.Wikipedia-mô hinh markov ẩn 2 Lawrence Rabiner, 1989 A Tutorial on Hidden Markov... nếu hôm nay trời mưa Khả_năng _loại_ bỏ cho thấy anh bạn thích làm những việc gì mỗi ngày Nếu Gán nhãn từ loại Tiếng Anh Trang 14 trời mưa thì có đến 50% khả năng anh bạn này sẽ dọn phòng, trong khi trời nắng thì 60% khả năng anh ta sẽ đi dạo Ví dụ này được xem xét tỉ mỉ hơn trong trang Viterbi Các ứng dụng • Sự nhận biết lời nói hay ký tự quan học • Quy trình ngôn ngữ tự nhiên • Tin sinh học và hệ gen... trình tự gen o Xác định các họ gen hoặc họ proteinliên quan Mô phỏng cấu trúc không gian của protein từ trình tự amino acid Vvv… o • Gán nhãn từ loại Tiếng Anh Trang 15 DEMO CHƯƠNG TRÌNH Sau đây là chương trình demo Sau khi chạy chương trình sẽ ra giao diện như sau: Dữ liệu trong chương trình đã được lưu ở file test.pos Tập học là test.pos đây là một văn bản đã chứa sẵn hơn 60000 câu đã gán nhãn từ loại. .. Extraction AAAI 99 Workshop on Machine Learning for Information Extraction, 1999 4 http://4tech.com.vn/forums/showthread.php/5055-Tim-hieu-mo-hinh-Markov-an 5.Bài giảng xử lý ngôn ngữ tự nhiên –cô Lê Thanh Hương Gán nhãn từ loại Tiếng Anh Trang 19 ...Chọn thẻ từ loại làm tối đa xác suất P (từ| từ loại) .P (từ loại| n từ loại phía trước) Ví dụ: The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN other/NNS  P(jury|NN)=1/2 Công thức Bigram HMM: chọn t cho w có nhiều khả năng nhất khi biết ti và wi : ti = argmaxj P(tj |ti-1 ,wi ) Giả thiết đơn giản hóa HMM: Vấn đề có thể giải quyết bằng cách dựa trên các từ và thẻ từ bên cạnh nó: ti... suất nhả ký tự bi(k) của tập các trạng thái ẩn Si Gán nhãn từ loại Tiếng Anh Trang 11 - Và chuyển sang trạng thái mới qt+1 = Sj tuỳ theo xác suất chuyển trạng aij của tập các trạng thái ẩn - Thiết lập t = t +1 và sau đó quay lại thực hiện lần lược như bước (3) Nếu t < T thì kết thúc thuật toán .Ứng dụng của mô hình Markov ẩn: Mô hình này được ứng dụng nhiều trong các lĩnh vực như: • Nhận dạng tiếng nói... t=0 hay t=1 4.Sử dụng các mô hình Markov Có ba vấn đề cơ bản để giải quyết bằng HMM: • Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra cụ thể Giải bằng thuật toán sy diễn tiến Gán nhãn từ loại Tiếng Anh Trang 13 Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn) có khả năng lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp Giải bằng thuật toán Vieterbi • Cung cấp dãy đầu ra,... nhau và anh ta kể cho tôi nghe anh ta đã làm gì trong ngày Người bạn tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ và 3) dọn phòng Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếp vào thời tiết hôm đấy thế nào Như vậy, tôi không nhận được thông tin cụ thể về thời tiết nơi anh bạn tôi sống nhưng tôi lại biết về xu hướng chung Dựa vào lời kể của công việc hàng ngày của anh. .. chuyển trạng có gắn xác suất • Các node “sinh” các ký hiệu theo xác suất • Các kỹ hiệu “sinh” quan sát được trong khi dãy chuyển trạng là ẩn 2.Cách chuyển trạng thái trong mô hình Markov ẩn Gán nhãn từ loại Tiếng Anh Trang 12 3.Sự tiến hóa của mô hình Markov ẩn Biểu đồ trên đây làm nổi bật các chuyển tiếp trạng thái của mô hình Markov ẩn Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của mô hình theo... mô hình Markov ẩn: Mô hình này được ứng dụng nhiều trong các lĩnh vực như: • Nhận dạng tiếng nói • Nhận dạng chữ viết tay • Xử lý ngôn ngữ thống kê • Dịch máy • Tin sinh học: – Khớp xấp xỉ nhiều chuỗi – Tìm Motif _Tìm kiếm tương tự Thuộc tính Markov Một dãy trạng thái ngẫu nhiên gọi là có thuộc tính Markov nếu như xác suất chuyển sang trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và quá . LỤC Gán nhãn từ loại Tiếng Anh Trang 2 NỘI DUNG I.KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI. 1. Khái niệm về gán nhãn từ loại. Gán nhãn từ loại là một vấn đề rất quan trọng trong lĩnh vực xử lý ngôn. bài toán gán nhãn từ loại. Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm. xử lý tên riêng ( proper name ) hay từ mới ( unknown word ). II. CƠ SỞ LÝ THUYẾT. 1. Tập nhãn trong gán nhãn từ loại. Gán nhãn từ loại Tiếng Anh Trang 5 Các tập nhãn sử dụng cho việc gán nhãn từ

Ngày đăng: 23/10/2014, 23:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w