Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Các bộ chú thích từ loại có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể.
TRƯỜNG ĐH SƯ PHẠM HÀ NỘI TÌM HIỂU BÀI TỐN GÁN NHÃN TỪ LOẠI (Part-of-speech tagging) Giảng viên hướng dẫn: TS Lê Thị Tú Kiên Học viên: Phạm Thị Nhan Lớp: CH – K26 Môn học: Xử lý ngôn ngữ tự nhiên HÀ NỘI, 11/2017 NỘI DUNG TÌM HIỂU GIỚI THIỆU BÀI TOÁN MỘT SỐ HƯỚNG TIẾP CẬN • • • Rule-Based Tagger: ENCG Tagger (Voutilainen 1995,1999) Stochastic Tagger: HMM-based Tagger Transformation-Based Tagger: Brill Tagger (Brill 1995) ĐÁNH GIÁ TÀI LIỆU THAM KHẢO GIỚI THIỆU BÀI TOÁN Một vấn đề tảng phân tích ngơn ngữ việc phân loại từ thành lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với hình thái vai trò ngữ pháp định Các thích từ loại thay đổi tuỳ theo quan niệm đơn vị từ vựng thông tin ngôn ngữ cần khai thác ứng dụng cụ thể GIỚI THIỆU BÀI TỐN Mỗi từ ngơn ngữ nói chung gắn với nhiều từ loại, việc giải thích nghĩa từ phụ thuộc vào việc xác định từ loại hay không Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn Khi hệ thống văn gán nhãn, hay nói cách khác thích từ loại ứng dụng rộng rãi hệ thống tìm kiếm thơng tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói hệ thống dịch máy QUI TRÌNH XỬ LÝ NGƠN NGỮ TỰ NHIÊN Phân tích từ vựng (Lexical Analysis) Phân tích cú pháp (Syntax Analysis) Phân tích ngữ nghĩa (Semantic Analysis) Sinh mã trung gian Tối ưu mã Sinh mã đích KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI Mỗi từ ngơn ngữ nói chung đơi gắn với nhiều từ loại việc giải thích nghĩa từ phụ thuộc vào việc có xác định từ loại hay không dựa ngữ cảnh cho trước Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn đó, tức phân loại từ thành lớp từ loại dựa thực tiễn hoạt động ngôn ngữ Việc gán nhãn từ loại thường thể cách gán cho từ “nhãn” có sẵn theo tập nhãn cho trước KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI Quá trình gán nhãn từ loại thường chia làm bước: Bước 1: Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi từ Giai đoạn đơn giản hay phức tạp tuỳ theo ngôn ngữ quan niệm đơn vị từ vựng Chẳng hạn, tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn dựa vào ký hiệu trắng Tuy nhiên có từ ghép hay cụm từ gây tranh cãi cách xử lý Trong đó, với tiếng Việt dấu trắng dấu hiệu để xác định ranh giới đơn vị từ vựng tần số xuất từ ghép cao KHÁI NIỆM BÀI TỐN GÁN NHÃN TỪ LOẠI Q trình gán nhãn từ loại thường chia làm bước: Bước 2: Khởi tạo gán nhãn: tức tìm cho từ tập tất nhãn từ loại mà có Tập nhãn thu từ sở liệu từ điển kho ngữ liệu gán nhãn tay Đối với từ chưa xuất sở ngữ liệu dùng nhãn ngầm định gắn cho tập tất nhãn Trong ngôn ngữ biến đổi hình thái người ta dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng từ xét KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI Quá trình gán nhãn từ loại thường chia làm bước: Bước 3: Quyết định kết gán nhãn: giai đoạn loại bỏ nhập nhằng, tức lựa chọn cho từ nhãn phù hợp với ngữ cảnh tập nhãn khởi tạo nói Có nhiều phương pháp để thực việc này, người ta phân biệt chủ yếu phương pháp dựa vào quy tắc ngữ pháp (với đại diện bật phương pháp Brill) phương pháp xác suất Ngồi có hệ thống sử dụng mạng nơ-ron, hệ thống lai sử dụng kết hợp tính tốn xác suất ràng buộc ngữ pháp, gán nhãn nhiều tầng, … KHÁI NIỆM BÀI TỐN GÁN NHÃN TỪ LOẠI Ví dụ câu: The girl kissed the boy on the cheek WORDS TAGS the girl kissed NNS the VBN boy IN on DT the cheek 10 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Các phương pháp dựa vào học máy Phương pháp dựa luật phương pháp thủ cơng tiềm tàng nhiều nhập nhằng Cùng với đó, việc xây dựng hệ thống trích chọn dựa luật tốn công sức Các phương pháp dựa vào học máy phương pháp xây dựng hệ thống mà cách “tự học” Để gán nhãn từ loại, sử dụng phương pháp học có giám sát (supervised learning), cụ thể xác suất liên hợp thường gọi mơ hình sinh mẫu (Generative model). Hidden Markov Model (HMM) mơ hình thuộc phân nhóm 22 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Các phương pháp dựa vào học máy: Mơ hình HMM Mơ hình Markov ẩn giới thiệu nghiên cứu vào cuối năm 1960 đầu năm 1970, ứng dụng nhiều trong: • • • Nhận dạng tiếng nói, Tin sinh học Xử lý ngôn ngữ tự nhiên HMM lựa chọn chuỗi nhãn tốt cho tồn câu, thơng thường người ta sử dụng thuật tốn Viterbi để tìm chuỗi nhãn tốt 23 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Các phương pháp dựa vào học máy: Mơ hình HMM Một gán nhãn tiêu biểu sử dụng phương pháp gán nhãn TnT tác giả Thorsten Brants sử dụng phương pháp tri-gram, cho kết 96.7% với tập nhãn Penn TreeBank liệu WallStreet tiếng Anh 24 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Các phương pháp dựa vào học máy: Mơ hình HMM QTAG gán nhãn dựa mơ hình HMM nhóm nghiên cứu Corpus Research thuộc trường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đích nghiên cứu Một điểm trội QTAG dù xây dựng cho tiếng Anh huấn luyện để sử dụng cho ngôn ngữ khác 25 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Các phương pháp dựa vào học máy: Mơ hình HMM Phương pháp xác suất sử dụng để gán nhãn từ loại nhiều ngôn ngữ khác Ví dụ việc áp dụng mơ hình HMM cho toán gán nhãn từ loại tiếng Trung Quốc đạt đến 93.5 % nghiên cứu tác giả GouDong Zhou Jian Su; Hai tác giả Fábio N.Kepler Marcelo Finger công bố kết sử dụng mơ hình HMM để gán nhãn từ loại cho tiếng Bồ Đào Nha với kết 93.48% Tuy nhiên, mơ hình HMM truyền thống hạn chế chưa xử lý tốt với liệu dạng chuỗi 26 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Phương pháp lai Đại diện tiêu biểu phương pháp lai phương pháp dựa học chuyển đổi (Transformation-Based learning TBL), phương pháp học có giám sát, đòi hỏi tập ngữ liệu gán nhãn Phương pháp sử dụng đặc tính hai kiến trúc gán nhãn nói trên: • • Giống gán nhãn dựa luật, dựa vào luật để xác định từ nhập nhằng có khả nhãn Giống gán nhãn xác suất, có thành phần học máy để tạo luật cách tự động từ liệu huấn luyện gán nhãn trước 27 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Phương pháp lai Ý tưởng thuật tốn bắt đầu với vài giải pháp đơn giản (hoặc tinh vi) cho vấn đề (gọi “baseline tagging”) bước áp dụng luật biến đổi (luật chuyển) tối ưu (tìm từ tập ngữ liệu huấn luyện đánh dấu xác) để giải vấn đề (tức chuyển từ nhãn khơng xác sang nhãnchính xác) Q trình dừng lại khơng luật chuyển tối ưu lựa chọn hết liệu 28 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Phương pháp lai Mơ hình tổng qt phương pháp lai 29 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Phương pháp lai: Thuật toán bao gồm bước: • • Bước 1: Gán nhãn cho từ nhãn thông dụng Bước 2: Chọn phép chuyển có tính định thay nhãn gán nhãn mà kết đem lại có hệ số đánh giá lỗi thấp (Đánh giá phép chuyển hệ số đánh giá lỗi thực chất so sánh với “sự thật”) • • • Bước 3: Áp dụng phép chuyển cho tập huấn luyện Bước 4: Thực lại bước Bước 5: Đưa kết gán nhãn mà nhãn sử dụng unigrams, sau áp dụng phép chuyển “học” theo thứ tự 30 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Phương pháp lai: Ví dụ số luật chuyển thường áp dụng cho phương pháp lai cho bảng sau: 31 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Phương pháp lai: Xét từ “race” hai câu đây: - It is expected to race tomorrow - The race for outer space Thuật toán thực sau: Đầu tiên, gán nhãn tất từ “race” NN (nhãn thường gặp tập ngữ liệu Brown corpus) Tức là: • • “It is expected to race/NN tomorrow” “The race/NN for outer space” Sau đó, sử dụng luật biến đổi để thay nhãn NN VB cho tất từ “race” mà đứng trước từ gán nhãn TO Tức là: • • “It is expected to race/VB tomorrow” Và “The race/NN for outer space” 32 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Phương pháp lai: Đại diện tiêu biểu cho phương pháp gán nhãn từ loại Brill’s (được xây dựng Eric Brill) sử dụng cho tiếng Anh, gán nhãn thơng dụng ưu điểm như: • • Miễn phí, Đem lại kết khả quan (Độ xác 96.6% cho tập ngữ liệu Wall Street Journal) 33 ĐÁNH GIÁ Một số thách thức toán gán nhãn từ loại: Vân đề Nhập nhằng (ambiguity): từ có nhiều từ loại, hay từ có nhiều nghĩa (có khoảng 11% từ vậy) Ví dụ “con ruồi đậu mâm xơi đậu“, từ “đậu” có lúc động từ (hành động đậu lên vật thể) có lúc danh từ (tên lồi thực vật) Trong thực tế, có nhiều từ không xuất ngữ liệu huấn luyện (training corpus) nên xây dựng mơ hình gán nhãn gặp nhiều khó khăn 34 ĐÁNH GIÁ Độ xác mơ hình gán nhãn phụ thuộc vào hai yếu tố: Bản thân từ có xu hướng (xác suất lớn) từ loại Ví dụ: Trong câu: “Con ruồi đậu mâm xơi đậu” - từ “đậu” có xu hướng động từ nhiều danh từ (phụ thuộc vào ngữ liệu xét) Ngữ cảnh câu Ví dụ trên, từ “đậu” có xu hướng động từ theo sau từ “ruồi” và từ “đậu” có xu hướng danh từ theo sau từ “xôi” 35 TÀI LIỆU THAM KHẢO Christopher Manning, “Part-of-speech tagging” https ://ongxuanhong.wordpress.com/category/kien-thuc/xu-ly-ngon-ngu-tu-nhien-natural-language-proc essing-nlp / http://viet.jnlp.org/home 36 ... xuất từ ghép cao KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠI Quá trình gán nhãn từ loại thường chia làm bước: Bước 2: Khởi tạo gán nhãn: tức tìm cho từ tập tất nhãn từ loại mà có Tập nhãn thu từ sở... CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Gán nhãn phương pháp dựa hệ luật Đây phương pháp gán nhãn từ loại đời sớm nhất, gán nhãn “sơ khai” thực theo phương pháp 19 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ... loại từ thành lớp từ loại dựa thực tiễn hoạt động ngôn ngữ Việc gán nhãn từ loại thường thể cách gán cho từ nhãn có sẵn theo tập nhãn cho trước KHÁI NIỆM BÀI TỐN GÁN NHÃN TỪ LOẠI Q trình gán nhãn