BÁO CÁO KỸ THUẬT SP8.4: XÂY DỰNG BỘ XÁC ĐỊNH NHÓM CỤM TỪ TIẾNG VIỆT

BÁO CÁO KỸ THUẬT SP8.4: XÂY DỰNG BỘ XÁC ĐỊNH NHÓM CỤM TỪ TIẾNG VIỆT Thực hiện: Nguyễn Lê Minh, Cao Hoàng Trụ, Nguyễn Phương Thảo Cộng Tác: Nguyễn Phương Thái, Trần Mạnh Kế Tóm tắt Việc phân nhóm cụm từ tiếng Việt đóng vai trò quan trọng ứng dụng thực tế tìm kiếm thông tin, trích chọn thông tin, dịch máy Để thực tốt công việc này, khảo sát phương pháp học máy áp dụng thành công cho ngôn ngữ bao gồm tiếng Trung, tiếng Nhật, tiếng Anh Sau khảo sát phương pháp lựa chọn phương pháp Conditional Random Fileds Online Learning công cụ việc xây dựng phân cụm từ Tiếng Việt Nghiên cứu phân cụm từ tiếng Việt mẻ toán tiếng Việt Do báo trình bày việc thiết kế mô hình mà trình bày nét hay yếu tố liên quan đến khía cạnh ngôn ngữ toán phân cụm Chúng khảo sát xây dựng tập nhãn liệu thử nghiệm để thực việc đánh giá mô hình phân cụm rõ ràng Ngoài trình bày đánh giá dựa việc lựa chọn thuộc tính phù hợp cho toán huấn luyện dãy Bản báo cáo bao gồm phần: Phần trình bày khảo sát toàn gộp nhóm (Chunking) cho tiếng Anh tiếng Trung Chúng trình bày đặc thù ngôn ngữ tiếng Việt Phần trình bày kỹ thuật thông dụng sử dụng toán phân cụm Phần trình bày mô hình hệ thống Phần mô tả thí nghiệm ban đầu thử nghiệm tập Vietnamese TreeBank (VTB) Phần trình bày số quan điểm tác giả định hướng nghiên cứu tương lai nhận định toán phân cụm từ Tiếng Việt Từ khóa: Cụm từ, Phân tích cú pháp, Học máy cấu trúc 1 Tổng quan Bài toán phân nhóm cụm từ nghiên cứu sử dụng nhiều ứng dụng thực tế hệ thống trích trọn thông tin, dịch máy, tóm tắt văn Bài toán phân cụm hiểu việc gộp dãy liên tiếp từ câu để gán nhãn cú pháp (ví dụ: cụm danh từ, cụm động từ) Việc nghiên cứu toán xác định nhóm cụm giới thực kỹ lưỡng thành công cho nhiều ngôn ngữ bao gồm: tiếng Anh, tiếng trung, tiếng Nhật, tiếng Pháp Gần phương pháp học máy chứng tỏ sức mạnh tính hiệu sử dụng cho toán xử lý ngôn ngữ tự nhiên bao gồm toán phân cụm Đối với toán phân cụm tiếng Anh, tiếng Trung, phương pháp học máy cho kết tốt [1][2] Với lý đó, nghiên cứu vận dụng phương pháp học máy cho toán phân cụm tiếng Việt Trước sâu trình bày mô hình cụ thể, tóm tắt nghiên cứu phận cụm cho tiếng Anh tiếng Trung 1.1 Nghiên cứu cụm từ tiếng Anh tiếng Trung Theo kết công bố SIGNL2001, nhãn cụm chia thành sau (http://www.cnts.ua.ac.be/conll2000/ chunking/ ) Ví dụ sau mô tả kết chunking tiếng Anh NP He] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ] Chúng ta thấy nhãn cụm từ bao gồm: a) Noun Phrase (NP) Mô tả cụm danh từ ví dụ Anh [“người bạn tốt tôi”] b) Verb Phrase (VP ) Mô tả cụm động từ, dãy từ bao gồm động từ từ bổ trợ Ví dụ: Chim [bay lên cao] c) ADVP and ADJP Tương đương với tiếng việt: cụm tính từ cụm phó từ d) PP and SBAR Tương đương với tiếng Việt: Cụm phó từ e) CONJC Tương đương với tiếng Việt: Cụm liên từ Quan sát tập nhãn thấy chúng hoàn toàn tương đồng với khái niệm tập nhãn tiếng Việt Thêm nữa, hầu hết ứng dụng dịch máy, tóm tắt văn bản, trích lọc thông tin chủ yếu dụng loại nhãn Để tìm hiểu cách đắn tham khảo thêm nhãn tiếng Trung ngôn ngữ châu Á có đặc tính cú pháp gần gũi tiếng Việt Cụ thể khảo sát chi tiết hệ thống phân cụm từ tiếng Trung, liệu, loại nhãn Chúng tập trung vào tài liệu tham khảo [2] Bảng Các nhãn Chiness chunking [2] Kiểu nhãn ADJP ADVP CLP DNP DP DVP LCP LST NP PP QP VP Khai báo Adjective Phrase Adverbial Phrase Classifier Phrase DEG Phrase Determiner Phrase DEV Phrase Localizer Phráe List Marker Noun Phrase Prepositional Phrase Quantifier Phrase Verb Phrase Bảng số khác biệt tiếng Trung, chẳng hạn LST, DEG, CLP DP QP Chúng khảo sát thêm văn tiếng Việt cho lọai nhãn thấy không cần thiết có tập nhãn 1.2 Nhãn cụm từ Sau nghiên cứu khảo sát ngôn ngữ tiếng Việt, xác định tập nhãn cho việc phân cụm hữu ích toán Chúng đưa tập nhãn chuẩn xuất nhiều câu văn tiếng Việt Từ đó, đưa nhãn việc phân cụm từ tiếng Việt bao gồm sau: Bảng Nhãn cụm từ cho hệ phân cụm từ Việt Tên Chú thích Cụm danh từ NP Cụm động từ VP Cụm tính từ ADJP Cụm phó từ ADVP Cụm giới từ PP Cụm từ số lượng QP WHNP Cụm danh từ nghi vấn (ai, gì, gì, v.v.) WHAD JP WHAD VP WHPP Cụm tính từ nghi vấn (lạnh nào, đẹp sao, v.v.) Cụm từ nghi vấn dùng hỏi thời gian, nơi chốn, v.v Cụm giới từ nghi vấn (với ai, cách nào, v.v.) Chú ý nhãn đồng với nhãn Vietnames TreeBank (VTB) hiệu chỉnh tương lai Cấu trúc cụm danh từ sau [8]: Ví dụ: “mái tóc đẹp” danh từ “tóc” phần trung tâm, định từ “mái” phần phụ trước, tính từ “đẹp” phần phụ sau (NP (D mái) (N tóc) (J đẹp)) Một cụm danh từ thiếu phần phụ trước hay phần phụ sau thiếu phần trung tâm Ký hiệu: VP Cấu trúc chung: Giống cụm danh từ, cấu tạo cụm động từ sau: Bổ ngữ trước: Phần phụ trước cụm động từ thường phụ từ Ví dụ: “đang ăn cơm” (VP (R đang) (V ăn) (NP cơm)) Ký hiệu: ADJP Cấu trúc chung: Cấu tạo cụm tính từ sau: Bổ ngữ trước: Bổ ngữ trước tính từ thường phụ từ mức độ Ví dụ: đẹp (ADJP (R rất) (J đẹp)) Ký hiệu: PP Cấu trúc chung : Ví dụ : vào Sài Gòn (PP (S vào) (NP Sài Gòn)) Ký hiệu : QP Cấu trúc chung : Thành phần QP số từ Có thể số từ xác định, số từ không xác định, hay phân số Ngoài có phụ từ “khoảng”, “hơn”, v.v QP đóng vai trò thành phần phụ trước cụm danh từ (vị trí -2) Ví dụ: năm trăm (QP (M năm) (M trăm)) Ví dụ: 200 (QP (R hơn) (M 200)) Phương pháp Phân Cụm Từ Tiếng Việt dùng CRFs MIRA Bài toán xác định nhóm cụm tiếng Việt phát biểu sau: Gọi X câu đầu vào tiếng Việt bao gồm dãy từ tố kí hiệu X=(X1, X2,…, Xn) Chúng ta cần xác định Y=(Y1, Y2, , Yn) dãy nhãn cụm từ (ví dụ: cụm danh từ, cụm động từ) Để giải toán quy vấn đề học đoán nhận cấu trúc (ở cấu trúc dãy) (có thể thực qua việc sử dụng mô hình học máy [4][5]) Quy trình học thực cách sử dụng tập câu gán nhãn để huấn luyện mô hình học, sử dụng mô hình cho việc gán nhãn câu (không thuộc tập huấn luyện) Để thực việc gán nhãn cụm cho câu tiếng Việt, sử dụng hai mô hình học máy câu trúc thông dụng bao gồm: CRFs [4] Online Learning [5] Cả hai phương pháp toán dựa giả thuyết từ tố câu X=(X1, X2,…, Xn) tuân theo quan hệ chuỗi Markov Ở sử dụng mô hình Makov bậc Về mặt lý thuyết dùng mô hình bậc cao hơn, nhiên khuôn khổ liệu hạn chế tập trung vào mô hình bậc 1, bậc cao thí nghiệm công việc tương lai Trước mô tả chi tiết mô hình phân cụm, giới thiệu mô hình học CRFs Online Learning sau 2.1 Mô hình học CRFs Mô hình CRFs cho phép quan sát toàn X, nhờ sử dụng nhiều thuộc tính phương pháp Hidden Markov Model (HMM) Một cách hình thức xác định quan hệ dãy nhãn y câu đầu vào x qua công thức đây: p( y | x) = ⎛ ⎞ exp ⎜ ∑ ∑ λk t k ( yi −1 , yi , x ) + ∑ ∑ μ k sk ( yi , x ) ⎟ (1) Z ( x) i k ⎝ i k ⎠ Ở đây, x, y chuỗi liệu quan sát chuỗi trạng thái tương ứng; tk thuộc tính toàn chuỗi quan sát trạng thái ví trí i-1, i chuỗi trạng thái; sk thuộc tính toàn chuỗi quan sát trạng thái ví trí i chuỗi trạng thái Thừa số chuẩn hóa Z(x) tính sau: Z ( x) = ⎛ ∑ exp ⎜⎝ ∑ ∑ λ t k k y i k ⎞ ( y i −1 , y i , x ) + ∑ ∑ μ k s k ( y i , x ) ⎟ i k ⎠ θ (λ1 , λ , , μ1, μ ) vector tham số mô hình Giá trị tham số ước lượng nhờ phương pháp tối ưu LBFGS 2.2 Huấn luyện mô hình trọng số phương pháp MIRA Trong báo triển khai việc sử dụng mô hình học Online Learning (Voted Perceptron) [5] cho toán phân cụm Điểm mạnh phương pháp tốc độ nhanh, dễ cài đặt, cho hiệu cao toán đoán nhận cấu trúc, đặc biệt dạng cấu trúc dãy toán phân cụm Thông thường sau khoảng 10 vòng lặp thuật toán MIRA hội tụ Thuật toán MIRA thuật toán Online Learning phổ biến độ xác cho kết tương đương với CRFs nhiều toán khác [5] Do hiệu phương pháp này, xem xét sử dụng thuật toán MIRA toán phân cụm từ Việt cách hiệu Lý chọn MIRA Các đặc tính MIRA khiến phù hợp với toán phân cụm tiếng Việt sau đây: 1) Nó phương pháp học máy phân biệt1 2) Phân lớp chia thành nhiều toán con, số có toán học có cấu trúc phân lớp tuyến tính Phân tích phụ thuộc toán học có cấu trúc, MIRA nằm số phương pháp học máy giải hiệu toán 3) Khi có mô hình, bước suy luận MIRA dựa giải thuật Hildreth [5] giải toán quy hoạch bậc hai; không cần tới giải thuật forward-backward, inside-outside phức tạp CRFs hay tính toán phân phối tối ưu phức tạp CRFs [4] Cách tiếp cận MIRA MIRA online SVMs2 nhờ dùng phép xấp xỉ Chúng ta so sánh phương pháp MIRA với phương pháp SVM cách tóm tắt hình SVMs cho toán học có cấu trúc MIRA (mỗi lần cập nhật w ta chọn vectơ trọng số gần với vectơ cũ nhất) Thuật ngữ tiếng Anh “discriminative learning” SVMs viết tắt “Support Vector Machines” tìm min||w|| w(i+1) = argminw*||w* - w(i)|| với s(x,y) - s(x,y’) ≥ L(y,y’) với s(xt,yt) - s(xt,y’) ≥ L(yt,y’) ứng với w* cho ∀ (x,y) ∈ T, y’ ∈ chunker(x) cho ∀ y’ ∈ chunker(xt) Hình So sánh MIRA SVMs Trong L(y,y’) hàm xác định độ sai sót y’ so với y, tính số mục từ y’ có cung vào khác y; parses(x) không gian tất (tập cụm) ứng với câu x Chú ý w vector trọng số tương ứng thuộc tính không gian thuộc tính Mỗi giá trị w mức độ ảnh hưởng thuộc tính tương ứng tập liệu huấn luyện Mục tiêu toán tìm vector w phù hợp để giảm thiểu độ sai sót dùng w cho việc phân cụm lại câu tập huấn luyện so sánh chúng với phân tích chuẩn (cụm) Dùng k-best MIRA xấp xỉ MIRA để tránh số nhãn tăng theo hàm mũ Chỉ áp dụng ràng buộc lề cho k c y’ có s(x,y’) cao w(i+1) = argminw*||w* - w(i)|| với s(xt,yt) - s(xt,y’) ≥ L(yt,y’) ứng với w* cho y’ ∈ bestk(xt , w(i)) Hình k-best MIRA Hình k-best MIRA tổng quát, MST tác giả sử dụng k=1 Trong hệ thống sử dụng k=1, liệu lớn sé thử nghiệm giá trị k khác Thông thường kết nghiên cứu cho thấy k=5 hay k=10 thường đạt kết tốt 2.3 Thuộc tính Trong mô hình CRFs Online Learning sử dụng chung tập thuộc tính Chúng sử dụng “template” sau để sinh thuộc tính cho toán phân cụm từ: Các template sử dụng để lấy thông tin từ vựng (lexical), thông tin từ loại (part of speech tagging) thông tin nhãn cụm từ Ở bảng U00 loại thuộc tính từ vựng (xét từ vựng trước vị trí POS tại) Có thể xem chi tiết Bảng 3) Chúng sử dụng “template” để sinh tập thuộc tính dùng mô hình CRFs [4] Online Learning [5] Hiện thí nghiệm tập liệu CONLL-2000 cho kết tương đương với kết công bố toán phân cụm từ tiếng Anh [9] (cỡ vào khoảng 94% độ xác) Chúng hy vọng tập thuộc tính tương thích toán gộp nhóm từ Việt Trong phần thực nghiệm mô tả so sánh hai phương pháp tập liệu chuẩn (i.e VTB corpus) Bảng Bảng thuộc tính toán phân cụm từ Tiếng Việt 2.4 Thuật toán giải mã Các mô hình sau ước lượng sử dụng thuật toán giải mã Thuật toán giải mã (decoding) cho hai mô hình CRFs Online Learning dựa thuật toán quy hoạch động (dynamic programming), hay gọi thuật toán Viterbi Sơ đồ hệ thống Hình mô tả mô hình gộp nhóm từ Việt, gồm hai thành phần Thành phần huấn luyện từ tập liệu có sẵn thành phần gộp nhóm (decoding) Để huấn luyện chúng, tập trung vào phương pháp CRFs Online Learning Mô hình CRFs sử dụng thông dụng toán phân cụm cho ngôn ngữ khác Phương pháp CRF cho Chunking Tiếng Anh thể kết tốt [9], nhiên nhược điểm phương pháp thời gian tính toán tương đối chậm trường hợp số lượng liệu huấn luyện lớn Một mặt, ưu điểm phương pháp Online Learning thời gian huấn luyện nhanh áp dụng cho số lượng liệu huấn luyện lớn chất mô hình học tăng cường Data CRFs Online-Learning Chunking models Anh ăn cơm VN Sentence Decoding Chunks NP[anh ấy] VP[đang ăn cơm] Hình Mô hình hoạt động gộp nhóm từ Việt Chúng khảo sát thêm phương pháp học máy sử dụng việc gán nhãn tiếng Trung [3] Kết cho thấy CRFs tốt SVMs, nhiên việc kết hợp phương pháp khác (kết hợp CRFs SVMs) đem lại kết cao Trước hết chọn sử dụng phương pháp CRFs cho việc xây dựng công cụ hỗ trợ gộp nhóm mẫu Công cụ dụng để huấn luyện tập liệu bé sau dùng phương pháp học nửa giám sát (semi-supervised learning) để làm tăng số lượng mẫu huấn luyện gộp nhóm từ trước đưa cho người dùng gán nhãn Để thực việc gán nhãn này, áp dụng mô hình chuyển đổi nhãn B-I-O toán chunking Phương pháp khẳng định tính hiệu cao áp dụng với ngôn ngữ khác Anh, Trung, Nhật, … [1][3] Nội dung cụ thể phương pháp tóm tắt cách đơn giản sau: Với từ cụm, ta chia làm hai loại B-Chunk I-Chunk B-Chunk từ cụm từ I-Chunk từ cụm Ví dụ: (NP (N máy tính) IBM (PP quan)) Ta chuyển thành dạng chuẩn sau Máy tính IBM quan N B-NP N I-NP B-PP N I-PP Phương pháp học nửa giám sát (semi-supervised learning) thực cách đơn giản dựa mô hình Boostraping Gồm bước sau đây: Bước 1: Tạo liệu huấn luyện bé Bước thực việc nhập liệu từ người chuyên gia Bước 2: Sử dụng mô hình CRFs để huấn luyện tập liệu Bước 3: Cho tập test dụng CRFs để gán nhãn Bước 4: Tạo liệu Bộ liệu bổ sung kết từ việc gán nhãn tập test Hiện cần thêm liệu huấn luyện từ nhóm TreeBank để huấn luyện mô hình gộp nhóm từ Việt Nhóm liệu Vietnamese TreeBank (VTB) chuyển giao liệu cho thời gian tới với số lượng liệu đủ lớn (10,000 câu) cho việc phân cụm từ tiếng Việt Thêm nữa, công cụ phân đoạn từ, gán nhãn từ loại, từ điển cần thiết để xây dựng phân cụm chuẩn Hiện tài nguyên chưa hoàn toàn có sẵn Bởi vậy, giai đoạn hiên nay, hệ thống thử nghiệm phân cụm từ tiếng Việt tập liệu tương đối nhỏ nhóm VTB cung cấp Kết thực nghiệm 4.1 Thử nghiệm phân cụm toàn Chúng sử dụng liệu từ VTB (Vietnamese Tree Bank) cho toán phân cụm sử dụng mô hình CRFs mô hình học MIRA (Online Learning) Số lượng liệu không nhiều (trước mắt nhóm VTB cung cấp xấp xỉ 2,000 câu gán nhãn) kết thực nghiệm khích lệ Trước hết nhiệm vụ trích lọc liệu từ tập corpus VTB có Cách sinh liệu chunking từ VTB mô tả sau (bảng 4) Bước Lấy VTB Bước Duyệt đến nút sinh thành phần [Word, POS, Chunk] (Nhãn POS nhãn nút cha nhãn Chunk nhãn nút “ông” Bước Chuẩn hóa liệu dạng B-I-O Chú ý nhãn mức chi tiết thay mức cao (ví dụ NP-DOP thay đổi thành NP) Chào_mừng V-H VP (S-TTL Đại_hội N-H NP(VP(V-H Chào mừng) DOB (NP-DOB(N-H Đại hội) thi_đua V-H VP (VP(VP(V-H thi đua) yêu V-H VP (VP(V-H yêu) nước N NP (NP(N nước)))) TP Y NP-LOC (NP(NP-LOC(Y HCM Y NP-LOC TP)( .) 2005 M NP (Y HCM))(M O 2005))))) ( .)) 10 Hình Mô tả trình sinh dạng liệu phân cụm dùng thuật toán Bảng Để chứng tỏ hiệu phương pháp, chia ngẫu nhiên 1,996 câu cho liệu huấn luyện 300 câu lại dùng để đánh giá độ xác chương trình Sau 50 vòng lặp, mô hình CRFs cho kết hội tụ Chúng bước đầu đánh giá độ xác phương pháp phân cụm 300 câu thử nghiệm mô hình dùng 2,000 câu làm liệu huấn luyện Chúng đánh giá dựa vào độ xác tương tự phương pháp đánh giá CONLL-2000 cho toán phân cụm từ tiếng Anh Kết thực nghiệm thể bảng Bảng Kết tập Vietnamese Tree Bank Thuộc tính Toàn thuộc tính Độ xác (CRFs) 91.33% Không dùng thuộc tính từ vựng 90.88% Không dùng bigram 91.72% Độ xác (MIRA) 90.96% 89.02% 89.76% Bảng kết thể với corpus nhỏ, thu kết tương đối tốt (91.72%) Có thể lý giải hệ thống phân cụm từ cho kết hoàn chỉnh Đó nhờ khả phương pháp học máy cấu trúc, cách chọn thuộc tính Qua thí nghiệm cho thấy, hai phương pháp CRFs MIRA cho độ xác với kết xấp xỉ Tuy nhiên phương pháp CRFs cho kết cao sử dụng toàn thuộc tính mô tả bảng Điều cho thấy MIRA lẫn CRFs thích ứng với toán phân cụm tiếng Việt Ngoài so sánh thời gian huấn luyện MIRA CRF, kết cho thấy thời gian hội tụ MIRA nhanh 30% so với phương pháp CRFs Trong tương lai gần, kiểm định lại hai phương pháp CRF MIRA tập liệu huấn luyện lớn nhiều sử dụng Bảng thể việc đánh giá ảnh hưởng loại thuộc tính sử dụng việc huấn luyện Cụ thể, thuật ngữ sử dụng toàn thuộc tính có nghĩa sử dụng toàn thuộc tính khai báo bảng “không dùng thuộc tính từ vựng” tương đương với việc không xét từ vựng bao quanh từ cần lấy nhãn Ở dòng thứ bảng 5, “không dùng bigram” có nghĩa không xét nhãn cụm đứng trước vị trí cần xét Kết thí nghiệm cho thấy “sử dụng toàn thuộc tính”, nhung không sử dụng bigram cho kết tốt so sánh với loại thuộc tính khác Bảng cho thấy độ xác giảm nhiều không sử dụng thuộc tính Bảng thể độ xác phương pháp huấn luyện thay đổi theo số vòng lặp phương pháp CRFs Kết từ bảng cho thấy vòng lặp thứ 10, thuật toán CRFs cho độ xác tương đương với vòng lặp nhiều Điều cho thấy thực tế, để tiết kiệm thời gian huấn luyện, cần huấn luyện 10 vòng lặp 11 Bảng Độ xác CRFs thay đổi theo vòng lặp Vòng lặp Không Không Toàn dùng dùng từ thuộc bigram vựng tính 10 91.35 90.69 91.16 20 91.25 90.91 91.21 30 91.45 90.84 91.09 40 91.52 90.74 91.52 50 91.72 90.88 91.33 Trong giai đoạn tiếp theo, sau có số lượng liệu kết công cụ phân đoạn từ (SP8.2), gán nhãn từ loại (SP8.3), thực thí nghiệm cách tốt Bảng cho thấy với việc sử dụng số lượng corpus với dung lượng bé, phân cụm đạt đến kết đáng khích lệ (91.92%) Trong tương lai gần thực việc huấn luyện lại mô hình phân cụm sau có thêm corpus bổ sung từ nhóm liệu VTB 4.2 Thử nghiệm phân cụm danh từ Với liệu để xây dựng công cụ gán nhãn từ loại đủ tốt cho việc sử dụng thực tế chưa Do đó, tiến hành nghiên cứu xây dựng nhận dạng cụm danh từ Chia tập liệu ngẫu nhiên theo tỉ lệ 2:1, hai phần cho huấn luyện phần để kiểm thử mô hình Thống kê tập liệu sau: Số câu Số từ Số cụm danh từ Dữ liệu huấn luyện 1812 38679 9912 Dữ liệu kiểm tra 905 19427 5021 Tổng 2717 58106 14933 kết tốt thu cho toán đóan nhận cụm danh từ sử dụng mẫu thuộc tính sau: Bảng 7: Các mẫu thuộc tính liên quan đến nhãn cú pháp Mẫu thuộc tính unigram %x[0,1] %x[-2,1] %x[1,1] %x[3,1] %x[1,0]/%x[2,0] %x[-2,1]/%x[-1,1] %x[-1,1] %x[-3,1] %x[2,1] %x[0,0]/%x[1,0] %x[-1,1]/%x[0,1] %x[-2,1]/%x[-1,1]/%x[0,1] %x[1,1]/%x[0,1]/% x[1,1] %x[0,1]/%x[1,1]/%x[2,1] Mẫu bigram %x[0,1]/%x[1,1] %x[0,1]/%x[-1,1] 12 Bảng 8: Các mẫu thuộc tính kết hợp từ vựng nhãn cú pháp sử dụng cho toán gán nhãn cụm từ Mẫu thuộc tính unigram %x[0,0]/%x[0,1] %x[1,0]/%x[1,1] %x[0,1]/%x[0,0]/%x[-1,1] Mẫu bigram %x[-1,0]/%x[-1,1] %x[0,1]/%x[0,0]/%x[1,1] %x[0,0]/%x[0,1] %x[-1,0]/%x[-1,1] Kết lần thử nghiệm lựa chọn ngẫu nhiên tập liệu học kiểm tra mô tả bảng biểu đồ dưới: TN1 TN2 TN3 TN4 TN5 Accuracy (%) 93.61 93.71 94.05 93.26 93.68 Precision (%) 82.59 82.34 82.50 81.68 81.59 Recall (%) 82.83 83.00 83.68 81.60 82.05 F1 (%) 82.71 82.67 83.09 81.64 81.82 Bảng 9: Kết thử nghiệm lần toán phân cụm danh từ Hinh 5: Kết thử nghiệm lần toán phân cụm danh từ Từ kết thấy, độ xác mức từ cao, thực nghiệm > 93%, nhiên mức cụm từ chưa tốt Sự chênh lệch kết hiểu sau: giả sử cụm danh từ gồm m từ, hệ thống gán nhãn m-1 nhãn nhãn sai cụm từ bị coi gán nhãn sai Chúng tin nhược điểm khắc phục liệu huấn luyện lớn 13 Thảo luận Quan sát tập liệu tiếng Anh từ CONLL-2000 shared task tiếng Trung (Chiness Tree Bank), nhận thấy khái niệm gán nhãn tương đồng với tiếng Việt Dựa sở sở tham khảo nhóm VTB (Viet Tree Bank) chọn tập nhãn trình bày báo Đồng thời, xây dựng công cụ phân cụm từ tiếng Việt, sử dụng hai phương pháp học máy cấu trúc bao gồm CRFs MIRA Công cụ huấn luyện tập liệu VTB gồm khoảng 2,000 câu Quá trình thử nghiệm cho thấy mô hình đề hoàn toàn tương thích với liệu VTB Mặc dầu với số lượng liệu khoảng 2,000 câu, kết thể mô hình CRFs Online Learning lựa chọn đắn cho toán gộp nhóm cụm từ tiếng Việt Đây hai phương pháp kinh tế, đảm bảo mặt thời gian lẫn độ xác Các kết thu hệ thống gộp nhóm cụm từ tiếng Việt dùng liệu chuẩn VTB thể phù hợp vận dụng phương pháp học máy cấu trúc (CRF++, MIRA) Chúng hy vọng kết tốt thử nghiệm mô hình với lượng liệu lớn Trong tương lai thử nghiệm gộp nhóm từ Việt với liệu cỡ 10,000 câu Lời cảm ơn Nghiên cứu thực khuôn khổ Đề tài Nhà nước “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” mã số KC01.01/06-10 TÀI LIỆU THAM KHẢO [1] Erik F Tjong Kim Sang and Sabine Buchholz, Introduction to the CoNLL-2000 Shared Task: Chunking In: Proceedings of CoNLL-2000 , Lisbon, Portugal, 2000 [2] W Chen, Y Zhang, and H Ishihara “An empirical study of Chinese chunking”, in Proceedings COLING/ACL 2006 [3] Diệp Quang Ban (2005) Ngữ pháp tiếng Việt NXB Giáo Dục [4] J Lafferty, A McCallum, and F Pereira “Conditional random fields: Probabilistic models for segmenting and labeling sequence data” In the proceedings of International Conference on Machine Learning (ICML), pp.282-289, 2001 [5] Koby Crammer et al, “Online Pasive-Aggressive Algorithm”, Journal of Machine Learning Research, 2006 [6] X.H Phan, M.L Nguyen, C.T Nguyen, “FlexCRFs: Flexible Conditional Random Field Toolkit”, http://flexcrfs.sourceforge.net, 2005 [7] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, Xuan Luong Vu, “A lexicon for Vietnamese language processing”, Language Reseourse & Evaluation (2006) 40:291-309 [8] Cao Xuân Hạo:”Tiếng Việt: Sơ Thảo; Ngữ pháp chức năng”, Nhà Xuất Bản Khoa Học 14 Xã Hội, 1991 [9] F Sha and F Pereira “Shallow Parsing with Conditional Random Fields”, Proceedings of HLT-NAACL 2003 213-220 (2003) 15 Phụ lục 1: Phương pháp xây dựng liệu gán nhãn từ loại cho cụm danh từ (NP) Ví dụ câu tập liệu phân tích cú pháp: “Ngày thứ ba phúc thẩm vụ án Lã Thị Kim Oanh : ” (S-SPL-TTL (NP-TMP(N-H Ngày) (NP(N-H thứ )(M ba))) (VP(V-H phúc thẩm) (NP-DOB(N-H vụ án)(NP(Np-H Lã Thị Kim Oanh)))) (: :) ( .)) Biểu diễn dạng ví dụ hình vẽ sau: Các cụm danh từ trích ví dụ là: “Ngày thứ ba”, “vụ án Lã Thị Kim Oanh” Để trích chọn cụm danh từ này, xây dựng số quy tắc trích chọn dựa vào phân tích cú pháp Về lựa chọn nhánh có nhãn NP NP không lồng Tuy nhiên, tính chất phức tạp tiếng Việt, số NP chứa phần bổ nghĩa sau nên ta cần xem xét thêm tiêu chí khác Ví dụ câu trên, nhánh NP-DOB chứa cụm NP bên trong, nhiên tách thành hai cụm “vụ án” “Lã Thị Kim Oanh” làm phần ý nghĩa Hơn nữa, theo cấu trúc cụm danh từ tiếng Việt “vụ án Lã Thị Kim Oanh” cụm danh từ, “vụ án” danh từ trung tâm, “Lã Thị Kim Oanh” danh từ bổ nghĩa Với trường 16 hợp này, bổ sung thêm quy tắc khác liên quan đến độ sâu nhánh, nhãn nhánh anh em với danh từ trung tâm Các tiêu chí để trích rút cụm danh từ sở cách tự động từ tập liệu phân tích cú pháp Viet Treebank sau: • Nếu nhánh NP có độ sâu cụm danh từ toàn nhánh NP Ví dụ câu: “Các tài xế vội vã chạy xuống dúi vào tay anh CSGT mảnh giấy nhỏ” Trong câu này, nhánh NP có độ sâu nên cụm danh từ toàn nhánh NP này: “Các tài xế” • Nếu nhánh NP có độ sâu cụm NP gồm phần đầu, danh từ trung tâm phần sau, phần sau nhánh có nhãn khác PP (cụm giới từ) SBAR Vẫn xét ví dụ trên, hai nhánh NP có độ sâu lựa chọn “tay anh CSGT” “mảnh giấy nhỏ” Hai cụm chứa danh từ trung tâm, theo sau cụm danh từ cụm tính từ (AP) Điều phù hợp với cấu trúc cụm danh từ trình bày phần Một trường hợp khác phổ biến tập liệu cụm danh từ sở chứa cụm động từ (VP) đứng sau danh từ trung tâm: 17 Trong ví dụ này, “giấy tờ mua bán” cụm danh từ • Một số trường hợp đặc biệt nhánh NP có độ sâu xét cụm danh từ sở Những trường hợp này, lựa chọn nhánh NP có độ sâu 3, gồm danh từ trung tâm theo sau NP có độ sâu Ví dụ hình trên, “vị nhân chứng đặc biệt này” cụm danh từ sở • Các trường hợp nhánh NP lại lựa chọn từ độ sâu thuộc cụm danh từ sở , ví dụ: 18 Trong trường hợp này, nhánh NP tương đối phức tạp Lựa chọn từ độ sâu nhánh NP-DOB ta thu cụm danh từ sở “một số cán bộ”, “nhân chứng” • Ngoài ra, xem xét nhánh có nhãn QP cụm danh từ số lượng: - Nếu QP có độ sâu chứa danh từ cụm danh từ toàn nhánh QP Ví dụ: “15 g”, “600.000 đồng” 19 - Nếu nhánh có nhãn QP chứa NP có độ sâu nhỏ cụm NP toàn nhánh QP Ví dụ: “trên 900 hộ dân” “trên 31 đất sản xuất chính” cụm danh từ - Nếu nhánh có nhãn QP có độ sâu lớn chứa NP có độ sâu cụm danh từ gồm từ thuộc nhánh QP có độ sâu nhánh NP Ví dụ, cụm danh từ trích chọn hình vẽ “gần bảy tiếng đồng hồ” 20 Đối với cụm chứa dấu phảy, liên từ “và”, tùy trường hợp phân tách thành hai cụm mở rộng thành cụm Ví dụ câu: “Khói mịt mù, Nguyên phải dùng tay chân đập bể cửa kính cho khói thoát …” “tay chân” coi cụm danh từ Tuy nhiên, ví dụ sau: “Tuy nhiên, HĐXX định công khai băng ghi hình đối chất để luật sư, cử toạn theo dõi” “băng ghi hình đối chất này” tách thành hai cụm danh từ: “băng ghi hình”, “cuộc đối chất này” Cụm “các luật sư, cử tọa” coi cụm có dấu phảy Một số trường hợp đặc biệt, cụm danh từ chứa dấu nháy kép, ví dụ câu: “Nhưng chứng thu thập mỏng, phải để bắt tang việc giao nhận tiền “trùm” đường dây này.”, “trùm” coi cụm danh từ sở Để rút tiêu chí trên, phải nghiên cứu tìm hiểu kỹ lưỡng tập liệu, đồng thời kết hợp với kết thực nghiệm để chỉnh sửa dần tiêu chí cho phù hợp xác Tuy nhiên, trình thực tự động nên có nhiều trường hợp cụm danh từ trích chọn chưa xác Do thực rà soát lại tập liệu sửa lại trường hợp chưa xác cách thủ công 21 22 [...]... bé, bộ phân cụm đã đạt đến một kết quả rất đáng khích lệ (91.92%) Trong tương lai gần chúng tôi sẽ thực hiện việc huấn luyện lại mô hình phân cụm sau khi có thêm corpus bổ sung từ nhóm dữ liệu VTB 4.2 Thử nghiệm phân cụm danh từ Với dữ liệu hiện tại để xây dựng một bộ công cụ gán nhãn từ loại đủ tốt cho việc sử dụng thực tế là chưa được Do đó, chúng tôi tiến hành nghiên cứu xây dựng bộ nhận dạng cụm. .. lần đối với bài toán phân cụm danh từ Hinh 5: Kết quả thử nghiệm 5 lần đối với bài toán phân cụm danh từ Từ kết quả trên có thể thấy, độ chính xác ở mức từ khá cao, trong cả 5 thực nghiệm đều > 93%, tuy nhiên ở mức cụm từ vẫn chưa tốt lắm Sự chênh lệch kết quả này được hiểu như sau: giả sử một cụm danh từ gồm m từ, hệ thống gán nhãn m-1 nhãn đúng và chỉ một nhãn sai thì cụm từ này vẫn bị coi là gán... Thảo luận Quan sát tập dữ liệu tiếng Anh từ CONLL-2000 shared task và tiếng Trung (Chiness Tree Bank), chúng tôi nhận thấy các khái niệm về gán nhãn hầu như tương đồng với tiếng Việt Dựa trên cơ sở đó và trên cơ sở tham khảo nhóm VTB (Viet Tree Bank) chúng tôi chọn tập nhãn như trình bày trong bài báo này Đồng thời, chúng tôi cũng đã xây dựng một bộ công cụ phân cụm từ tiếng Việt, sử dụng hai phương pháp... nhánh NP có độ sâu bằng 2 thì cụm NP sẽ gồm phần đầu, danh từ trung tâm và phần sau, trong đó phần sau là các nhánh có nhãn khác PP (cụm giới từ) và SBAR Vẫn xét ví dụ trên, hai nhánh NP có độ sâu bằng 2 được lựa chọn là “tay anh CSGT” và “mảnh giấy nhỏ” Hai cụm này chứa danh từ trung tâm, theo sau là cụm danh từ hoặc cụm tính từ (AP) Điều này phù hợp với cấu trúc cụm danh từ như đã trình bày ở phần trên... câu, nhưng những kết quả của nó thể hiện rằng mô hình CRFs và Online Learning là các lựa chọn đúng đắn cho bài toán gộp nhóm cụm từ tiếng Việt Đây là hai phương pháp kinh tế, đảm bảo cả về mặt thời gian lẫn độ chính xác Các kết quả thu được đối với hệ thống gộp nhóm cụm từ tiếng Việt dùng dữ liệu chuẩn VTB thể hiện sự phù hợp khi vận dụng các phương pháp học máy cấu trúc (CRF++, MIRA) Chúng tôi hy... biệt này” là một cụm danh từ cơ sở • Các trường hợp nhánh NP còn lại chúng tôi chỉ lựa chọn những từ ở độ sâu bằng 1 thuộc cụm danh từ cơ sở , ví dụ: 18 Trong trường hợp này, nhánh NP tương đối phức tạp Lựa chọn các từ ở độ sâu bằng 1 của nhánh NP-DOB ta thu được cụm danh từ cơ sở “một số cán bộ , “nhân chứng” • Ngoài ra, chúng tôi cũng xem xét các nhánh có nhãn QP là các cụm danh từ chỉ số lượng:... sâu bằng 1 và chứa danh từ thì cụm danh từ sẽ là toàn bộ nhánh QP đó Ví dụ: “15 g”, “600.000 đồng” 19 - Nếu nhánh có nhãn QP và chứa NP có độ sâu nhỏ hơn hoặc bằng 2 thì cụm NP sẽ toàn bộ nhánh QP Ví dụ: “trên 900 hộ dân” và “trên 31 ha đất sản xuất chính” là một cụm danh từ - Nếu nhánh có nhãn QP có độ sâu lớn hơn 3 nhưng chứa NP có độ sâu bằng 1 thì cụm danh từ sẽ gồm các từ thuộc nhánh QP có độ... cũng khá phổ biến trong tập dữ liệu là cụm danh từ cơ sở chứa cụm động từ (VP) đứng sau danh từ trung tâm: 17 Trong ví dụ này, “giấy tờ mua bán” là một cụm danh từ • Một số trường hợp đặc biệt đối với các nhánh NP có độ sâu bằng 3 nhưng vẫn được xét như một cụm danh từ cơ sở Những trường hợp này, chúng tôi lựa chọn các nhánh NP có độ sâu bằng 3, chỉ gồm danh từ trung tâm và theo sau là một NP có độ... nhánh anh em với danh từ trung tâm Các tiêu chí để trích rút các cụm danh từ cơ sở một cách tự động từ tập dữ liệu đã phân tích cú pháp Viet Treebank như sau: • Nếu nhánh NP có độ sâu là 1 thì cụm danh từ sẽ là toàn bộ nhánh NP đó Ví dụ câu: “Các tài xế vội vã chạy xuống dúi vào tay anh CSGT mảnh giấy nhỏ” Trong câu này, nhánh NP đầu tiên có độ sâu bằng 1 nên cụm danh từ sẽ là toàn bộ nhánh NP này: “Các... thêm những tiêu chí khác Ví dụ câu trên, nhánh NP-DOB chứa cụm NP bên trong, tuy nhiên nếu tách thành hai cụm là “vụ án” và “Lã Thị Kim Oanh” thì sẽ làm mất đi một phần ý nghĩa Hơn nữa, theo cấu trúc của cụm danh từ tiếng Việt thì “vụ án Lã Thị Kim Oanh” cũng là một cụm danh từ, trong đó “vụ án” là danh từ trung tâm, “Lã Thị Kim Oanh” là danh từ bổ nghĩa Với những trường 16 hợp này, chúng tôi bổ sung

Định dạng
Số trang	22
Dung lượng	608,93 KB