1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cao xư lý ngôn ngữ tự nhiên gán nhãn từ loại tiếng anh

21 1,1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 526,95 KB

Nội dung

Gán nhãn từ loại là một vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đây là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác.. Công việc gán nhãn

Trang 1

BÀI TẬP LỚN

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Đề tài: Gán nhãn từ loại cho văn bản tiếng Anh

Giáo viên hướng dẫn: PGS TS Lê Thanh Hương

Sinh viên thực hiện: Lê Xuân Tùng 20083004

Nguyễn Hán Luân 20081642 Lương Thành Công 20080314

Đỗ Duy Quang 20082051 Ngô Quang Vịnh 20083571

Trang 2

I.Khái quát về gán nhãn từ loại

1.Khái niệm về gán nhãn từ loại

2.Các ứng dụng của gán nhãn từ loại3.Các khó khăn trong gán nhãn từ loại

Trang 3

I.Khái quát về gán nhãn từ loại

1 Khái niệm về gán nhãn từ loại.

Gán nhãn từ loại là một vấn đề rất quan trọng

trong lĩnh vực xử lý ngôn ngữ tự nhiên, đây là

bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác.

Công việc gán nhãn từ loại cho một văn bản là

xác định từ loại của mỗi từ trong phạm vi văn bản

đó, tức là phân loại các từ thành các lớp từ loại

dựa trên thực tiễn hoạt động ngôn ngữ

Việc gán nhãn từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước

Trang 4

Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa khái quát, theo khả năng kết hợp với các từ ngữ khác

trong ngữ lưu và thực hiện những chức năng ngữ pháp nhất định ở trong câu

Mô tả bài toán:

Input: Một chuỗi các từ và tập nhãn từ loại và tập nhãn từ loại (Penn Treebank của tiếng

Anh)

Output: Một nhãn tốt nhất cho từng từ trong

chuỗi từ đã được đưa ra (Ví dụ: đối với chuỗi

từ “Book that flight.” thì nhãn thích hợp tương ứng cho từng từ sẽ là Book/VB that/DT flight/NN)

Trang 5

Quá trình gán nhãn từ loại:

Giai đoạn tiền xử lý: Phân tách xâu ký tự thành

chuỗi các từ Giai đoạn này có thể đơn giản hay

phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị

từ vựng.

Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay.

Quyết định kết quả gán nhãn, đó là giai đoạn loại

bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên Có nhiều phương pháp để thực hiện việc

này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp và các phương pháp xác suất

Trang 6

2 Ứng dụng của bài toán gán nhãn từ

loại.

Một số ứng dụng quan trọng của gán nhãn từ loại:

Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải quyết các bài

toán xử lý ngôn ngữ tự nhiên khác như tóm

tắt văn bản, phân cụm, phân loại văn bản … Ứng dụng rộng rãi trong các hệ thống tìm

kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy …

Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ loại là trong

hệ thống dịch máy

Trang 7

Có ba cách để thực hiện bài toán dịch máy là:

Dịch trực tiếp.

Dịch thông qua ngôn ngữ trung gian.

Dịch dựa trên chuyển đổi

Nếu cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai

Giả sử như hệ thống tiến hành dịch câu sau đây

từ tiếng Anh sang tiếng Việt: “Jet planes fly

about nine miles high”, nếu không có sự trợ giúp của công cụ gán nhãn từ loại, hệ thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả tiếng Việt là “Phản lực các phi cơ bay khoảng

chín dặm cao” trong khi phải dịch chính xác là

“Các phi cơ phản lực bay cao khoảng chín dặm”

Trang 8

3 Các khó khăn của bài toán gán nhãn từ loại.

Giả sử mỗi từ chỉ có một nhãn từ loại và chúng ta

có thể xây dựng được một từ điển hữu hạn các từ

Thực tế thì vấn đề chủ yếu của bài toán gán nhãn

từ loại thực chất là việc loại bỏ nhập nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể, nó chỉ có thể có một từ loại đúng mà thôi.

Trang 9

Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến ngữ cảnh

mà từ đó xuất hiện, tuy nhiên trong một số

trường hợp, ngay cả khi có thông tin về ngữ cảnh mà một số từ vẫn còn sự nhập nhằng về

từ loại

Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ mới mà bộ gán nhãn không thể giải quyết được bằng

những cách thông thường Trong trường hợp này, thường thì hệ thống sẽ để nguyên và

đánh dấu một từ loại đặc biệt để chuyển sang phần xử lý tên riêng (proper name) hay từ

mới (unknown word)

Trang 10

II CƠ SỞ LÝ THUYẾT.

1 Tập nhãn trong gán nhãn từ loại.

Các tập nhãn sử dụng cho việc gán nhãn từ loại

thường được xây dựng và phát triển từ các lớp cơ bản

là các lớp từ đóng và lớp từ mở.

Các lớp từ đóng (Closed word class, function word class)còn được gọi là các từ chức năng, là một tập cố định và không thể mở rộng Chúng gồm có:

Giới từ (Prepositions): on, under, over,…

Tiểu từ (Particles): abroad, about, around, before, in, instead, since, without,…

Mạo từ (Articles): a, an, the

Liên từ (Conjunctions): and, or, but, that,…

Đại từ (Pronouns): you, me, I, your, what, who,…

Trợ động từ (Auxiliary verbs): can, will, may, should…

Trang 11

Lớp từ mở trong Tiếng Anh:

Danh từ (Noun): book, cat, Alexander…

Động từ (Verb): go, run…

Tính từ (Adjectives): red, green, blue…

Động từ (Adverb): very, slowly

Lớp từ mở còn gọi là Open class, là các lớp từ

có khả năng mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác

Số lượng từ của lớp từ mở lớn hơn rất nhiều

so với lớp từ đóng

Trang 12

2.Học máy và xử lý ngôn ngữ tự nhiên.

Các phương pháp máy học được áp dụng trong lĩnh vực xử

lý ngôn ngữ tự nhiên được phân loại như sau:

Hướng tiếp cận theo thống kê (stochastic approach).

Hướng tiếp cận theo biểu trưng: học theo ví dụ (instance – based learning), cây quyết định (decision tree), logic quy nạp (inductive logic ) Trong các phương pháp này, đáng chú ý nhất là phương pháp học dựa trên các luật chuyển đổi (TBL–Transformation Based Learning) Phương pháp này cho phép đưa ra tập các khung luậttổng quát có thể giải quyết các vấn đề nhậpnhằng tương tự nhau ( như

trong bài toán gán nhãn từ loại ).

Hướng tiếp cận theo biểu trưng thay thế (sybsymbolic

approach): mạng nơ-ron (neural network), thuật toán di tuyền (genetic algorithm)

Ở đây chúng ta tập trung vào hướng tiếp cận thống kê và

mô hình Markov ẩn.

Trang 13

3.Hướng tiếp cận thống kê.

Hướng tiếp cận thống kê được xem là một hướng tiếp cận mô tả quá trình thế giới thực tạo ra dữ liệu quan sát được

Các mô hình trong hướng tiếpcậnthống kê

thường được thể hiện dưới dạng một mạng thống

kê các mối quan hệ phụ thuộc giữa các biến

ngẫu nhiên Mỗi nút của mạng có một phân phối,

và từ những phân phối này chúng ta cố gắng tìm

ra các phân phối chung của dữ liệu quan sát

Có khá nhiều môhình trong hướng tiếp cận này được áp dụng trong lĩnh vực xử lý ngôn ngữ tự

nhiên: mô hình phân loại Bayes, nguyên lý hỗn loạn cực đại, mô hình Markov ẩn

Trang 14

III MÔ HÌNH MARKOV ẨN.

1.Khái niệm

Mô hình markov ẩn là mô hình thống kê trong

đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết

trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa

nhận này.

Trong một mô hình Markov điển hình, trạng

thái được quan sát trực tiếp bởi người quan sát,

và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân

bổ trên các biểu hiện đầu ra có thể

Trang 15

Cơ chế của mô hình Markov ẩn là sử dụng tất

cả những thông tin đã có và đoán

Gán nhãn dựa trên xác suất theo mô hình

Markov ẩn:

Chọn thẻ từ loại làm tối đa xác suất

P(từ|từ loại).P(từ loại| n từ loại phía trước)

Ví dụ:

The/DT grand/JJ jury/NN commented/VBD on/

IN a/DT number/NN of/IN other/NNS

P(jury|NN)=1/2

Trang 16

Công thức Bigram HMM: chọn t cho w có

nhiều khả năng nhất khi biết ti và wi :

ti = argmaxj P(tj |ti-1 ,wi )

Giả thiết đơn giản hóa HMM: Vấn đề có thể giải quyết bằng cách dựa trên các từ và thẻ từ bên cạnh nó:

ti =argmaxj P(tj |t j-1).P(wi |tj )

xschuỗi thẻ xs thường xuất hiện với thẻ

tj

Trang 17

IV CHƯƠNG TRÌNH

Chương trình được viết bằng ngôn ngữ C#.Chương trình tính xác suất từ loại lớn nhất ứng với mỗi từ trong câu nhập vào và quyết định từ loại cho từng từ

Trang 18

Giao diện chương trình:

Trang 19

Load dữ liệu học:

Trang 20

Nhập vào một câu tiếng Anh:

Trang 21

End Thank for watching!

Ngày đăng: 23/10/2014, 23:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w