1. Trang chủ
  2. » Công Nghệ Thông Tin

TÌM HIỂU bài TOÁN gán NHÃN từ LOẠI (POS TAGGING)

36 639 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 222,84 KB

Nội dung

Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Các bộ chú thích từ loại có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể.

Trang 1

TÌM HIỂU BÀI TOÁN GÁN NHÃN TỪ LOẠI

(Part-of-speech tagging)

Giảng viên hướng dẫn: TS Lê Thị Tú Kiên

Học viên: Phạm Thị Nhan

Lớp: CH – K26

Môn học: Xử lý ngôn ngữ tự nhiên

TRƯỜNG ĐH SƯ PHẠM HÀ NỘI

Trang 2

NỘI DUNG TÌM HIỂU

 GIỚI THIỆU BÀI TOÁN

 MỘT SỐ HƯỚNG TIẾP CẬN

• Rule-Based Tagger: ENCG Tagger (Voutilainen 1995,1999)

• Stochastic Tagger: HMM-based Tagger

• Transformation-Based Tagger: Brill Tagger (Brill 1995)

 ĐÁNH GIÁ

Trang 3

GIỚI THIỆU BÀI TOÁN

 Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ

 Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định Các bộ chú thích từ loại có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể

Trang 4

GIỚI THIỆU BÀI TOÁN

 Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không

 Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó Khi hệ thống

văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy

Trang 5

QUI TRÌNH XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Phân tích từ vựng (Lexical Analysis)

Phân tích cú pháp (Syntax Analysis)

Phân tích ngữ nghĩa (Semantic Analysis)

Sinh mã trung gian

Trang 6

KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI

 Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại hay không dựa trên ngữ cảnh cho trước

Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ Việc gán nhãn từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước

Trang 7

KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI

Quá trình gán nhãn từ loại thường được chia làm 3 bước:

Bước 1: Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ Giai đoạn này có thể đơn giản hay phức tạp tuỳ

theo ngôn ngữ và quan niệm về đơn vị từ vựng Chẳng hạn, đối với tiếng Anh hay tiếng Pháp, việc phân tách từ

phần lớn là dựa vào các ký hiệu trắng Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử

lý Trong khi đó, với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do

tần số xuất hiện từ ghép rất cao

Trang 8

KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI

Quá trình gán nhãn từ loại thường được chia làm 3 bước:

Bước 2: Khởi tạo gán nhãn: tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay Đối với một từ mới chưa xuất hiện trong

cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét

Trang 9

KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI

Quá trình gán nhãn từ loại thường được chia làm 3 bước:

Bước 3: Quyết định kết quả gán nhãn: đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên Có nhiều phương pháp để thực hiện việc này, trong đó

người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là phương pháp Brill)

và các phương pháp xác suất Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng, …

Trang 10

Ví dụ câu: The girl kissed the boy on the cheek

KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI

the girl kissed the boy on the cheek

WORDS

TAGS

NNS VBN IN DT

Trang 11

Ví dụ câu: Con ruồi đậu mâm xôi đậu

KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI

Con ruồi đậu mâm xôi

NNS VB NN DT

WORDS

TAGS

Trang 12

MỘT SỐ BÀI TOÁN GÁN NHÃN

Ví dụ: bà ba [CON NGUOI] bán bánh mì [THUC PHAM] ở phường mười ba [DIA DIEM] Có giá trị về mặt ngữ nghĩa ở mức trung bình, thường được dùng để phân lớp văn bản

toán này từng rất cấp thiết trong chiến tranh thế giới thứ 2, khi mà thông tin tình báo của địch cần được dịch trong thời gian ngắn nhất, giúp cho các lãnh đạo có thể đưa ra những chiến lược cấp thiết

Trang 13

MỘT SỐ BÀI TOÁN GÁN NHÃN

thống kê của Apple, người dùng thích sử dụng tiếng nói của mình để nhập văn bản hơn là cách nhập dữ liệu bằng bàn phím như truyền thống, đồng thời tương tác giữa người và máy theo cách này có tốc độ nhập liệu nhanh hơn

Trang 14

TẬP NHÃN TỪ LOẠI (TAGSETS)

với các từ ngữ khác và thực hiện những chức năng ngữ pháp nhất định ở trong câu

 Trong thực tế, các tập nhãn sử dụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bản sau:

• Các lớp từ đóng (Closed word class, function word class, còn được gọi là các từ chức năng, là một tập cố định và không thể mở rộng, các

lớp này thường chỉ chứa một số lượng ít các từ có liên quan Ví dụ: Giới từ, mạo từ, đại từ, số đếm, )

• Các lớp từ mở (Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc“mượn” từ các ngôn ngữ khác Có 4 lớp từ

mở chính là danh từ - nouns, động từ -verb, tính từ - adjective và một phần của phó từ - [adverb])

Trang 15

Open class (lexical) words

Closed class (functional)

… more

IBM

Italy

cat / cats snow

see registered

can

old older oldest

slowly

to with the some

Numbers

122,312 one

Trang 16

 Với mỗi ngôn ngữ sẽ có nhiều tập nhãn từ loại có thể sử dụng Tuy nhiên, việc lựa chọn tập nhãn ảnh hướng rất lớn đến “độ khó” của bài toán gán nhãn từ loại

• Nếu chọn tập nhãn lớn sẽ làm tăng độ khó

• Nhưng nếu chọn tập nhãn nhỏ có thể không đủ đáp ứng cho một mục đích nhất định nào đó

TẬP NHÃN TỪ LOẠI (TAGSETS)

Trang 17

 Vì vậy, việc chọn tập nhãn nào sẽ tùy thuộc vào từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứng dụng đó đòi hỏi Muốn thế, cần phải có sự cân đối giữa:

• Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn, chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện

sự khác biệt).

• Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại càng ít càng dễ tiến hành).

TẬP NHÃN TỪ LOẠI (TAGSETS)

Trang 18

Penn Treebank P.O.S Tags

Trang 19

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Gán nhãn bằng phương pháp dựa trên hệ luật

 Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai” đều thực hiện theo phương pháp này

Trang 20

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Gán nhãn bằng phương pháp dựa trên hệ luật

 Nội dung chính của phương pháp này là xây dựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì vậy

phương pháp này còn được gọi là phương pháp gán nhãn thủ công Các luật được xây dựng dựa vào ngữ cảnh

thích hợp

Ví dụ: nếu một từ nhập nhằng đang xét đi sau một từ chỉ định thì nó có xu hướng là một danh từ hơn là một động từ.

 Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này là ENGTWOL (ENGlish TWO Level analysis - Voutilainen, 1995)

Trang 21

Sample ENGTWOL Lexicon

Trang 22

Các phương pháp dựa vào học máy

 Phương pháp dựa trên luật là một phương pháp thủ công còn tiềm tàng rất nhiều nhập nhằng Cùng với đó, việc xây dựng một hệ thống trích chọn dựa trên các luật là rất tốn công sức

 Các phương pháp dựa vào học máy là các phương pháp xây dựng hệ thống mà bằng cách nào đó có thể “tự học”

 Để gán nhãn từ loại, sử dụng phương pháp học có giám sát (supervised learning), cụ thể là xác suất liên hợp

thường gọi là mô hình sinh mẫu (Generative model). Hidden Markov Model (HMM) là một trong những mô hình thuộc phân nhóm này

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 23

Các phương pháp dựa vào học máy: Mô hình HMM

 Mô hình Markov ẩn được giới thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay

nó được ứng dụng nhiều trong:

• Nhận dạng tiếng nói,

• Tin sinh học

• Xử lý ngôn ngữ tự nhiên

 HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người ta sử dụng thuật toán Viterbi để tìm

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 24

Các phương pháp dựa vào học máy: Mô hình HMM

 Một trong những bộ gán nhãn tiêu biểu sử dụng phương pháp này là bộ gán nhãn TnT của tác giả Thorsten Brants

sử dụng phương pháp tri-gram, cho kết quả 96.7% với tập nhãn Penn TreeBank và bộ dữ liệu WallStreet trong tiếng

Anh

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 25

Các phương pháp dựa vào học máy: Mô hình HMM

 QTAG là một bộ gán nhãn dựa trên mô hình HMM do nhóm nghiên cứu Corpus Research thuộc trường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đích nghiên cứu

 Một điểm nổi trội của QTAG là dù được xây dựng cho tiếng Anh nhưng nó có thể được huấn luyện để sử dụng cho các ngôn ngữ khác

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 26

Các phương pháp dựa vào học máy: Mô hình HMM

 Phương pháp xác suất còn được sử dụng để gán nhãn từ loại trong rất nhiều ngôn ngữ khác nhau

 Ví dụ việc áp dụng mô hình HMM cho bài toán gán nhãn từ loại tiếng Trung Quốc đạt đến 93.5 % trong nghiên cứu của các tác giả GouDong Zhou và Jian Su;

 Hai tác giả Fábio N.Kepler và Marcelo Finger cũng công bố kết quả sử dụng mô hình HMM để gán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả 93.48%

 Tuy nhiên, mô hình HMM truyền thống còn hạn chế là chưa xử lý tốt với dữ liệu dạng chuỗi

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 27

Phương pháp lai

 Đại diện tiêu biểu của phương pháp lai là phương pháp dựa trên học chuyển đổi (Transformation-Based learning TBL), đây là một phương pháp học có giám sát, đòi hỏi một tập ngữ liệu đã được gán nhãn

 Phương pháp này sử dụng đặc tính của cả hai kiến trúc gán nhãn nói trên:

• Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật để xác định khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất

• Giống như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách tự động từ một bộ dữ liệu huấn luyện đã được gán nhãn trước

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 28

Phương pháp lai

 Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản (hoặc tinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật biến đổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu chính xác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang nhãnchính xác)

 Quá trình này sẽ dừng lại khi không còn luật chuyển tối ưu nào được lựa chọn hoặc đã hết dữ liệu

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 29

Phương pháp lai

 Mô hình tổng quát của phương pháp lai

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 30

Phương pháp lai: Thuật toán bao gồm 5 bước:

Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất.

Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán bằng nhãn mới mà kết quả đem lại có hệ số đánh giá

lỗi thấp hơn (Đánh giá một phép chuyển bằng hệ số đánh giá lỗi thực chất là so sánh nó với “sự thật”).

Bước 3: Áp dụng phép chuyển này cho cả tập huấn luyện.

Bước 4: Thực hiện lại các bước trên

Bước 5: Đưa ra kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng unigrams, sau đó áp dụng phép chuyển đã được “học”

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 31

Phương pháp lai: Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được cho bởi bảng sau:

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 32

Phương pháp lai:

Xét từ “race” trong hai câu dưới đây:

- It is expected to race tomorrow.

- The race for outer space.

Thuật toán sẽ thực hiện như sau:

Đầu tiên, gán nhãn tất cả các từ “race” là NN (nhãn thường gặp nhất trong tập ngữ liệu Brown corpus) Tức là:

“It is expected to race/NN tomorrow”

“The race/NN for outer space”

 Sau đó, sử dụng luật biến đổi để thay thế các nhãn NN bằng VB cho tất cả các từ “race” mà đứng trước nó là từ

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 33

Phương pháp lai:

 Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được xây dựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng vì các ưu điểm của nó như:

• Miễn phí,

• Đem lại kết quả khá khả quan (Độ chính xác là 96.6% cho tập ngữ liệu Wall Street Journal)

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

Trang 34

ĐÁNH GIÁ

Một số thách thức đối với bài toán gán nhãn từ loại:

 Vân đề Nhập nhằng (ambiguity): một từ có thể có nhiều từ loại, hay một từ có thể có nhiều nghĩa (có khoảng 11% từ như vậy)

Ví dụ “con ruồi đậu mâm xôi đậu“, từ “đậu” có lúc là động từ (hành động đậu lên một vật thể) hoặc có lúc là danh từ (tên

của một loài thực vật)

 Trong thực tế, có nhiều từ không xuất hiện trong ngữ liệu huấn luyện (training corpus) nên khi xây dựng mô hình gán nhãn sẽ gặp nhiều khó khăn

Trang 35

ĐÁNH GIÁ

Độ chính xác của mô hình gán nhãn phụ thuộc vào hai yếu tố:

Ví dụ: Trong câu: “Con ruồi đậu mâm xôi đậu” - từ “đậu” có xu hướng là động từ nhiều hơn là danh từ (phụ thuộc vào ngữ

liệu đang xét)

Ví dụ trên, từ “đậu” có xu hướng là động từ khi theo sau từ “ruồi” và từ “đậu” có xu hướng là danh từ khi theo sau

từ “xôi”.

Trang 36

TÀI LIỆU THAM KHẢO

://ongxuanhong.wordpress.com/category/kien-thuc/xu-ly-ngon-ngu-tu-nhien-natural-language-proc essing-nlp

/

 http://viet.jnlp.org/home

Ngày đăng: 11/11/2017, 09:07

TỪ KHÓA LIÊN QUAN

w