So sánh các phương pháp học máy trong bài toán gán nhãn từ loại tiếng Việt

MỤC LỤC

KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI

Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên

    Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ (nếu có) [5, 9].  Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy ….

    Hình 1. Các bước xử lý ngôn ngữ tự nhiên
    Hình 1. Các bước xử lý ngôn ngữ tự nhiên

    Các khó khăn của bài toán gán nhãn từ loại

    Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ có khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ phản lực bay cao khoảng chín dặm”. Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông tin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại.

    Tập nhãn từ loại

      Đối với các ngôn ngữ khác trên thế giới, để phục vụ cho việc giải quyết bài toán gán nhãn từ loại, nhiều tập nhãn từ loại với độ mịn khác nhau cũng đã được xây dựng cho mỗi ngôn ngữ, ví dụ như tập nhãn Chinese Treebank gồm 33 nhãn và Uppen CTB gồm 23 nhãn cho tiếng Trung Quốc, tập nhãn di SI-TAL gồm 15 nhãn và tập nhãn Achim Stein Italian tagset gồm 37 nhãn của tiếng Ý [18], …. Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại được, … Bộ nhãn gồm nhiều nhãn nhất hiện nay được xây dựng bởi nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không xác định.

      Hình 2. Một số tập nhãn từ loại cho Tiếng Anh
      Hình 2. Một số tập nhãn từ loại cho Tiếng Anh

      CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI

      • Các nghiên cứu liên quan tại Việt Nam

        Phương pháp xác suất còn được sử dụng để gán nhãn từ loại trong rất nhiều ngôn ngữ khác nhau, ví dụ việc áp dụng mô hình HMM cho bài toán gán nhãn từ loại tiếng Trung Quốc đạt đến 93.5 % trong nghiên cứu của các tác giả GouDong Zhou và Jian Su [20]; Hai tác giả Fábio N.Kepler và Marcelo Finger cũng công bố kết quả sử dụng mô hình HMM để gán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả 93.48 % [18]. Nghiên cứu theo hướng giải quyết bài toán gán nhãn từ loại tiếng Việt bằng phương pháp xác suất, nhóm nghiên cứu của tác giả Nguyễn Thị Minh Huyền [3] đã sửa đổi phần mềm QTAG được xây dựng cho tiếng Anh (do nhóm nghiên cứu Corpus Research thuộc trường đại học tổng hợp Birmingham phát triển) để thích nghi với việc thao tác trên văn bản tiếng Việt, cũng như cho phép sử dụng từ điển từ vựng có thông tin từ loại bên cạnh việc sử dụng kho văn bản đa gán nhãn. Áp dụng phương pháp lai TBL, Ðinh Ðiền và các cộng sự đã đề xuất một phương pháp gán nhãn từ loại tự động cho Tiếng Việt [6] bằng việc xây dựng kho ngữ liệu song ngữ Anh-Việt (EVC) với hơn 500.000 câu mà trong đó hơn 25.000 câu tiếng Việt đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt (Tập nhãn tiếng Anh sử dụng để đối chiếu là Brown corpus, kho ngữ liệu này đã được công bố ở Hội nghị Quốc tế về Xử lý ngôn ngữ APIS02 tại Bangkok, Thái Lan vào 2/2002).

        Hình 4. Đồ thị có hướng mô tả mô hình HMM
        Hình 4. Đồ thị có hướng mô tả mô hình HMM

        BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

        Mô hình cực đại hóa Entropy

          Mặc dùng mô hình MEM có những ưu điểm về độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng như các mô hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn đề “label bias” [10]. Vấn đề “label bias” là vấn đề do các trạng thái có phân phối chuyển với entropy thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện tại, mô hình MEM gặp phải vấn đề này tức là không xác định được nhánh rẽ đúng, điều này sẽ có ảnh hưởng đến kết quả mà nó đạt được. Giải pháp thứ hai mà Bottou đưa ra là chúng ta sẽ bắt đầu mô hình với một đồ thị đầy đủ của các trạng thái và để cho thủ tục huấn luyện tự quyết định một cấu trúc thích hợp cho mô hình.Tiếc rằng giải pháp này sẽ làm mất đi tính có thứ tự của mô hình, một tính chất rất có ích cho các bài toán trích chọn thông tin.

          Mô hình trường ngẫu nhiên điều kiện

            Trong bài toán gán nhãn từ loại, X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên (gồm các từ), Y là một chuỗi ngẫu nhiên các nhãn tương ứng với các từ tạo thành câu này và mỗi một thành phần Yi của Y có miền giá trị là tập tất cả các nhãn từ loại có thể (danh từ, động từ, tính từ,..). Vì trong các bài toán xử lý dữ liệu dạng chuỗi đồ thị biểu diễn cấu trúc của một CRF có dạng đường thẳng như trong hình 7 nên tập C phải là hợp của E và V, trong đó E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách khác đồ thị con A hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G. Có nhiều phương pháp tìm cực đại của hàm log-likelihood như các phương pháp lặp (IIS, GIS), các phương pháp tối ưu số (phương pháp dựa trên vector gradient như phương pháp gradient liên hợp, quasi-Newton …) và L-BFGs có thể phục vụ cho ước lượng tham số mô hình.

            Hình 7. Đồ thị vô hướng mô tả CRF
            Hình 7. Đồ thị vô hướng mô tả CRF

            Mô hình máy véc tơ hỗ trợ

              Theo [23], bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch – còn gọi là lề- xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng nhất. Có thể nói SVM thực chất là một bài toán tối ưu, mục tiêu của thuật toán là tìm được một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số khi phân lớp là thấp nhất, nghĩa là kết quả phân lớp sẽ cho kết quả tốt nhất. Một vấn đề được đặt ra là, phương pháp SVM có thể chia dữ liệu làm hai lớp, tuy nhiên đối với bài toán gán nhãn từ loại cho dữ liệu văn bản, số lớp tương ứng với số từ loại mà ta cần xác định luôn lớn hơn hai, vậy liệu phương pháp SVM có phù hợp để giải quyết bài toán gán nhãn từ loại hay không?.

              Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.
              Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.

              TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ

              • Mô tả thực nghiệm 1. Phần cứng
                • Mô tả tập đặc trưng dựa trên mức từ và mức hình vị
                  • Hệ thống gán nhãn từ loại cho tiếng Việt
                    • Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm
                      • Kết quả thực nghiệm

                        Hai bộ dữ liệu đều được thu thập từ các báo điện tử có uy tín ở Việt Nam và bao gồm nhiều văn bản thuộc các chủ đề khác nhau như: Công nghệ thông tin, Kinh tế, Chính trị, Xã hội, Pháp luật, Đời sống … Trong nội dung của khóa luận, dữ liệu đã được qua bước tiền xử lý, tức là đã được tách từ, quy chuẩn theo đúng định dạng cần thiết và đã được gán nhãn sẵn để phục vụ cho quá trình học có giám sát cũng như kiểm thử. Ký hiệu thông tin ngữ cảnh (còn được gọi là lịch sử) là h, thông tin về nhãn là t, xác suất đồng thời của lịch sử h và thông tin về nhãn t được xác định bằng các tham số mà các đặc trưng tương ứng của nó là ữu ích, ví dụ αi thỏa mãn fi (h,t) = 1. Ở đây ta ký hiệu thời gian huấn luyện là T (tính bằng đơn vị giây) và thời gian kiểm thử là t (tính bằng đơn vị giây); thời gian kiểm thử được tính bằng thời gian từ lúc mô hình bắt đầu gán nhãn cho dữ liệu kiểm thử đến lúc đầu ra được in ra file một cách hoàn chỉnh.

                        Để phục vụ cho việc đánh giá và so sánh kết quả áp dụng các mô hình học máy khác nhau cho bài toán gán nhãn từ loại tiếng Việt, hình 16 và 17 dưới đây tổng hợp các kết quả trung bình về độ chính xác khi áp dụng ba mô hình học máy cho bộ dữ liệu thứ nhất và bộ dữ liệu thứ hai. Bên cạnh đó, các yếu tố về thời gian có sự chênh lệch khá nhiều (CRF cần nhiều thời gian để huấn luyện nhất, bù lại tốc độ gán nhãn rất nhanh, SVM có ưu thế về mặt thời gian huấn luyện, tốc độ gán nhãn cũng khá tốt, trong khi đó MEM tuy không cần quá nhiều thời gian để huấn luyện nhưng tốc độ gán nhãn lại chậm hơn nhiều so với hai phương pháp còn lại).

                        Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt
                        Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt