Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
252,03 KB
Nội dung
Phân cụm từ Tiếng Việt phương pháp học máy cấu trúc Nguyễn Lê Minh Japan Advanced Institute of Science and Technology Cao Hoàng Trụ Ho Chi Minh City University of Technology Tóm tắt Việc phân nhóm cụm từ tiếng Việt đóng vai trị quan trọng ứng dụng thực tế tìm kiếm thơng tin, trích chọn thơng tin, dịch máy Để thực tốt công việc này, khảo sát phương pháp học máy áp dụng thành công cho ngôn ngữ bao gồm tiếng Trung, tiếng Nhật, tiếng Anh Sau khảo sát phương pháp lựa chọn phương pháp Conditional Random Fileds Online Learning cơng cụ việc xây dựng phân cụm từ Tiếng Việt Nghiên cứu phân cụm từ tiếng Việt mẻ tốn tiếng Việt Do báo khơng trình bày việc thiết kế mơ hình mà cịn trình bày nét hay yếu tố liên quan đến khía cạnh ngơn ngữ tốn phân cụm Chúng tơi khảo sát xây dựng tập nhãn liệu thử nghiệm để thực việc đánh giá mơ hình phân cụm rõ ràng Ngồi chúng tơi trình bày đánh giá dựa việc lựa chọn thuộc tính phù hợp cho toán huấn luyện dãy Bài báo bao gồm phần: Phần trình bày khảo sát tồn gộp nhóm (Chunking) cho tiếng Anh tiếng Trung Chúng tơi trình bày đặc thù ngơn ngữ tiếng Việt Phần trình bày kỹ thuật thông dụng sử dụng tốn phân cụm Phần trình bày mơ hình hệ thống Phần mơ tả thí nghiệm ban đầu thử nghiệm tập Vietnamese TreeBank (VTB) Phần trình bày số quan điểm tác giả định hướng nghiên cứu tương lai nhận định toán phân cụm từ Tiếng Việt Tổng quan Bài toán phân cụm từ nghiên cứu sử dụng nhiều ứng dụng thực tế hệ thống chích trọn thơng tin, dịch máy, tóm tắt văn Bài tốn phân cụm hiểu việc gộp dãy liên tiếp từ câu để gán nhãn cú pháp Việc nghiên cứu toán phân cụm giới thực kỹ lưỡng cho nhiều ngôn ngữ bao gồm: Tiếng Anh, Tiếng Trung, Tiếng Nhật, Tiếng Pháp Gần phương pháp học máy chứng tỏ sức mạnh tính hiệu sử dụng cho tốn xử lý ngơn ngữ tự nhiên Đối với toán phân cụm tiếng Anh, tiếng Trung, etc Phương pháp học máy cho kết tốt [1][2] Với lý đó, chúng tơi nghiên cứu vận dụng phương pháp học máy cho toán phân cụm tiếng Việt Trước sâu trình bày mơ hình cụ thể, chúng tơi tóm tắt nghiên cứu phận cụm cho ngôn ngữ tiếng Anh tiếng Trung 1.1 Nghiên cứu cụm từ tiếng Anh tiếng Trung Theo kết công bố SIGNL2001, nhãn cụm chia thành sau (Xem http://www.cnts.ua.ac.be/conll2000/chunking/ ) Ví dụ sau mơ tả kết chunking tiếng Anh NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ] Chúng ta thấy nhãn cụm từ bao gồm: a) Noun Phrase (NP) Mô tả cụm danh từ ví dụ Anh [“ngư i bạn tốt tôi”] b) Verb Phrase (VP ) Mô tả cụm động từ, dãy từ bao gồm động từ từ bổ trợ Ví dụ: Chim [bay lên cao] c) ADVP and ADJP Tương đương với tiếng việt: cụm tính từ cụm phó từ d) PP and SBAR Tương đương với tiếng Việt: Cụm phó từ e) CONJC Tương đương với tiếng Việt: Cụm liên từ Quan sát tập nhãn thấy chúng hoàn toàn tương đồng với khái niệm tập nhãn tiếng Việt Thêm nữa, hầu hết ứng dụng dịch máy, tóm tắt văn bản, trích lọc thơng tin chủ yếu dụng loại nhãn Điều hoàn toàn phù hợp với nhu cầu sử dụng thông tin ngữ pháp sản phẩm ứng dụng tiếng Việt đòi hỏi tốc độ nhanh Để tìm hiểu cách đắn tham khảo thêm nhãn tiếng Trung b i ngơn ngữ châu Á có đặc tính cú pháp gần gũi tiếng Việt Cụ thể khảo sát chi tiết hệ thống phân cụm từ tiếng Trung, liệu, loại nhãn Chúng tập trung vào tài liệu tham khảo [2] _ å_Ð ý Bảng Các nhãn Chiness chunking [2] Kiểu nhãn Khai báo ADJP ADVP CLP DNP DP DVP LCP LST NP PP QP VP Adjective Phrase Adverbial Phrase Classifier Phrase DEG Phrase Determiner Phrase DEV Phrase Localizer Phráe List Marker Noun Phrase Prepositional Phrase Quantifier Phrase Verb Phrase Bảng số khác biệt tiếng Trung, chẳng hạn LST, DEG, CLP DP QP Chúng khảo sát thêm văn tiếng Việt cho lọai nhãn thấy khơng cần thiết có tập nhãn 1.2 Nhãn cụm từ Sau nghiên cứu khảo sát ngôn ngữ tiếng Việt, xác định tập nhãn cho việc phân cụm hữu ích tốn Chúng tơi đưa tập nhãn chuẩn xuất nhiều câu văn tiếng Việt Từ đó, chúng tơi đưa nhãn việc phân cụm từ tiếng Việt bao gồm sau: Tên Bảng Nhãn cụm từ cho hệ phân cụm từ Việt Chú thích NP Cụm danh từ VP Cụm động từ ADJP Cụm tính từ ADVP Cụm phó từ PP Cụm giới từ QP Cụm từ số lượng WHNP Cụm danh từ nghi vấn (ai, gì, gì, v.v.) WHADJP Cụm tính từ nghi vấn (lạnh nào, đẹp sao, v.v.) WHADVP Cụm từ nghi vấn dùng hỏi th i gian, nơi chốn, v.v WHPP Cụm giới từ nghi vấn (với ai, cách nào, v.v.) Chú ý nhãn phối hợp chặt trẽ với nhóm VTB hiệu chỉnh tương lai Cấu trúc cụm danh từ sau [8]: Ví dụ: “mái tóc đẹp” danh từ “tóc” phần trung tâm, định từ “mái” phần phụ trước, cịn tính từ “đẹp” phần phụ sau (NP (D mái) (N tóc) (J đẹp)) Một cụm danh từ thiếu phần phụ trước hay phần phụ sau thiếu phần trung tâm Ký hiệu: VP Cấu trúc chung: Giống cụm danh từ, cấu tạo cụm động từ sau: Bổ ngữ trước: Phần phụ trước cụm động từ thư ng phụ từ Ví dụ: “đang ăn cơm” (VP (R đang) (V ăn) (NP cơm)) Ký hiệu: ADJP Cấu trúc chung: Cấu tạo cụm tính từ sau: Bổ ngữ trước: Bổ ngữ trước tính từ thư ng phụ từ mức độ Ví dụ: đẹp (ADJP (R rất) (J đẹp)) Ký hiệu: PP Cấu trúc chung : Ví dụ : vào Sài Gịn (PP (S vào) (NP Sài Gòn)) Ký hiệu : QP Cấu trúc chung : Thành phần QP số từ Có thể số từ xác định, số từ khơng xác định, hay phân số Ngồi cịn có phụ từ "khoảng", "hơn", v.v QP đóng vai trò thành phần phụ trước cụm danh từ (vị trí -2) Ví dụ 1: năm trăm (QP (M năm) (M trăm)) Ví dụ 2: 200 (QP (R hơn) (M 200)) Phương pháp Phân Cụm Từ Tiếng Việt Bài toán phân cụm tiếng Việt phát biểu sau: Gọi X câu đầu vào tiếng Việt bao gồm dãy từ tố kí hiệu X=(X1, X2,…, Xn) Chúng ta cần xác định Y=(Y1, Y2, , Yn) dãy nhãn cụm từ (cụm danh từ, cụm động từ) Để giải toán chúng tơi quy vấn đề học đốn nhận dãy (có thể thực qua việc sử dụng mơ hình học máy [4][5]) Quy trình học thực cách sử dụng tập câu gán nhãn để huấn luyện mơ hình học cho việc gán nhãn câu (không thuộc tập huấn luyện) Để thực việc gán nhãn cụm cho câu tiếng Việt, chúng tơi sử dụng hai mơ hình học thông dụng bao gồm: Conditional Random Fields [4] Online Learning [5] Cả phương pháp toán dựa giả thuyết từ tố câu X=(X1, X2,…, Xn) tuân theo quan hệ chuỗi Markov chúng tơi sử dụng mơ hình Makov bậc Về mặt lý thuyết dùng mơ hình bậc cao hơn, nhiên khn khổ liệu hạn chế tập trung vào mơ hình bậc Trước vào chi tiết mơ hình phân cụm, chúng tơi giới thiệu mơ hình học CRFs Online Learning sau 2.1 Mơ hình học CRFs Mơ hình CRFs cho phép quan sát tồn X, nh sử dụng nhiều thuộc tính phương pháp Hidden Markov Model (HMM) Một cách hình thức xác định quan hệ dãy nhãn y câu đầu vào x qua công thức p( y | x) = ⎛ ⎞ exp ⎜ ∑ ∑ λ k t k ( y i −1 , y i , x ) + ∑ ∑ μ k s k ( y i , x ) ⎟ Z ( x) i k ⎝ i k ⎠ (1) đây, x, y chuỗi liệu quan sát chuỗi trạng thái tương ứng; tk thuộc tính tồn chuỗi quan sát trạng thái ví trí i-1, i chuỗi trạng thái; sk thuộc tính tồn chuỗi quan sát trạng thái ví trí i chuỗi trạng thái Ví dụ: xi= “Bill” yi=I_PER si = ngược lại xi-1= “Bill”, xi=”Clinton” yi-1=B_PER, yi=I_PER ti = ngược lại Thừa số chuẩn hóa Z(x) tính sau: ⎛ ⎞ Z ( x) = ∑ exp ⎜ ∑∑ λk tk ( yi −1 , yi , x) + ∑∑ μk sk ( yi , x) ⎟ y i k ⎝ i k ⎠ θ (λ1 , λ , , μ1, μ ) vector tham số mơ hình Giá trị tham số ước lượng nh phương pháp tối ưu LBFGS 2.2 Pha học mơ hình trọng số phương pháp MIRA Trong báo triển khai việc dụng mơ hình học Online Learning (Voted Perceptron) [5] cho toán phân cụm Lợi điểm phương pháp tốc độ nhanh, dễ cài đặt, cho hiệu cao toán đoán nhận cấu trúc, đặc biệt dạng cấu trúc dãy tốn phân cụm Thơng thư ng số lượng vòng lặp sử dụng khoảng 10 vòng lặp thuật tốn hội tụ Thuật tốn MIRA thuật toán Online Learning phổ biến cho kết tương đương với CRFs nhiều toán khác [5] Do hiệu phương pháp này, xem xét sử dụng thuật toán MIRA toán phân cụm cách hiệu Lý chọn MIRA Các đặc tính MIRA khiến phù hợp với tốn phân cụm tiếng Việt sau đây: 1) Nó phương pháp học máy phân biệt1 Thuật ngữ tiếng Anh “discriminative learning” 2) Phân lớp chia thành nhiều toán con, số có tốn học có cấu trúc phân lớp tuyến tính Phân tích phụ thuộc tốn học có cấu trúc, MIRA nằm số phương pháp học máy giải hiệu tốn 3) Khi có mơ hình, bước suy luận MIRA dựa giải thuật Hildreth [5] giải tốn quy hoạch bậc hai Nó khơng cần tới giải thuật forward-backward, inside-outside phức tạp CRFs hay tính tốn phân phối tối ưu phức tạp CRFs [4] Cách tiếp cận MIRA MIRA online SVMs2 nh dùng phép xấp xỉ Chúng ta so sánh phương pháp MIRA với phương pháp SVM cách tóm tắt hình SVMs cho tốn học có cấu trúc tìm min||w|| với s(x,y) - s(x,y’) ≥ L(y,y’) cho ∀ (x,y) ∈ T, y’ ∈ chunker(x) MIRA (mỗi lần cập nhật w ta chọn vectơ trọng số gần với vectơ cũ nhất) w(i+1) = argminw*||w* - w(i)|| với s(xt,yt) - s(xt,y’) ≥ L(yt,y’) ứng với w* cho ∀ y’ ∈ chunker(xt) Hình So sánh MIRA SVMs Trong L(y,y’) hàm xác định độ sai sót y’ so với y, tính số mục từ y’ có cung vào khác y; parses(x) khơng gian tất (tập cụm) ứng với câu x Dùng k-best MIRA xấp xỉ MIRA để tránh số nhãn tăng theo hàm mũ Chỉ áp dụng ràng buộc lề cho k c y’ có s(x,y’) cao w(i+1) = argminw*||w* - w(i)|| với s(xt,yt) - s(xt,y’) ≥ L(yt,y’) ứng với w* i) cho y’ ∈ bestk(xt , w( ) Hình k-best MIRA Hình k-best MIRA tổng quát, MST tác giả sử dụng k=1 Trong hệ thống sử dụng k=1, liệu lớn sé thử nghiệm giá trị k khác 2.3 Thuộc tính Trong mơ hình CRFs Online Learning chúng tơi sử dụng chung kiểu thuộc tính Chúng tơi sử dụng “template” sau để sinh thuộc tính cho toán phân cụm từ: Các template đuợc sủ dụng để lấy thông tin từ vựng (lexical), thông tin từ loại (Part of speech tagging) thông tin nhãn cụm từ bảng U00 loại thuộc tính từ vựng (xét từ vựng trước vị trí POS tại) Có thể xem chi tiết bảng (Bảng 3) SVMs viết tắt “Support Vector Machines” U00:%x[-2,0] : ( xét từ truớc vị trí POS tại) U01:%x[-1,0]: (xét từ trước vị trí tại) U02:%x[0,0] U03:%x[1,0] (Từ sau vị trí tại) U04:%x[2,0] từ sau vị trí U05:%x[-1,0]/%x[0,0]: từ trước từ U06:%x[0,0]/%x[1,0] từ sau từ U10:%x[-2,1] : POS từ trước vị trí U11:%x[-1,1] POS từ trước vị trí U12:%x[0,1] : POS từ U13:%x[1,1] : POS từ sau vị trí U14:%x[2,1] : POS từ sau vị trí U15:%x[-2,1]/%x[-1,1] U16:%x[-1,1]/%x[0,1] U17:%x[0,1]/%x[1,1] U18:%x[1,1]/%x[2,1] U20:%x[-2,1]/%x[-1,1]/%x[0,1] U21:%x[-1,1]/%x[0,1]/%x[1,1] U22:%x[0,1]/%x[1,1]/%x[2,1] Bảng Bảng thuộc tính dùng cho việc phân cụm từ Tiếng Việt Chúng sử dụng template để sinh tập thuộc tính dùng mơ hình CRFs [4] Online Learning [5] Hiện thí nghiệm tập liệu CONLL-2000 cho kết tương đương với kết công bố tốn phân cụm từ tiếng Anh [9] Chúng tơi hy vọng tập thuộc tính tương thích tốn gộp nhóm từ Việt Trong phần thực nghiệm mô tả so sánh hai phương pháp tập liệu 2.4 Thuật tốn giải mã Các mơ hình sau ước lượng sử dụng thuật toán giải mã Thuật tốn giải mã cho hai mơ hình CRFs Online Learning dựa thuật tốn quy hoạch động (dynamic programming), hay cịn gọi thuật toán Viterbi Sơ đồ hệ thống Hình mơ tả mơ hình gộp nhóm từ Việt, gồm hai thành phần Thành phần huấn luyện từ tập liệu có sẵn thành phần gộp nhóm (decoding) Để huấn luyện chúng, tơi tập trung vào phương pháp CRFs Online Learning Phương pháp Conditional Random Fields sử dụng thông dụng tốn phân cụm cho ngơn ngữ khác Phương pháp CRF cho Chunking Tiếng Anh thể kết tốt [9], nhiên nhược điểm phương pháp th i gian tính tốn tương đối chậm trư ng hợp số lượng liệu huấn luyện lớn Chúng tơi khắc phục nhược điểm cách sử dụng khả tính tốn song song FlexCRFs Cùng với FlexCRFs [6] nhiều kết sử dụng online learning method (Voted Perceptron) cho kết tương đương với CRFs Lợi phương pháp Online Learning th i gian huấn luyện nhanh áp dụng cho số lượng liệu huấn luyện lớn Trong th i gian chúng tơi cài đặt mơ hình chung cho phương pháp dạng mã nguồn m Data CRFs Online-Learning Chunking models Anh ăn cơm VN Sentence Decoding Chunks NP[anh ấy] VP[đang ăn cơm] Hình Mơ hình hoạt động gộp nhóm từ Việt Chúng khảo sát thêm phương pháp học máy sử dụng việc gán nhãn tiếng Trung [3], kết cho thấy CRFs tốt SVMs nhiên việc kết hợp phương pháp đem lại kết cao Trước hết chọn sử dụng phương pháp CRFs cho việc xây dựng công cụ hỗ trợ gộp nhóm mẫu Cơng cụ dụng để huấn luyện tập liệu bé sau dùng phương pháp học nửa giám sát (semi-supervised learning) để làm tăng số lượng mẫu huấn luyện gộp nhóm từ trước đưa cho ngư i dùng gán nhãn Để thực việc gán nhãn này, chúng tơi áp dụng mơ hình chuyển đổi nhãn BI-O toán chunking Phương pháp khẳng định mang tính hiệu cao cho ngơn ngữ khác Anh, Trung, Nhật, etc [1][3] Nội dung cụ thể phương pháp tóm tắt sau: Với từ cụm, ta chia làm hai loại B-Chunk I-Chunk B-Chunk từ cụm từ I-Chunk từ cụm Ví dụ: (NP (N máy tính) IBM (PP quan)) Ta chuyển thành dạng chuẩn sau Máy tính N B-NP IBM N I-NP - B-PP quan N I-PP Phương pháp học nửa giám sát (semi-supervised learning) thực cách đơn giản dựa mơ hình Boostraping Gồm bước sau đây: Bước 1: Tạo liệu huấn luyện bé Bước thực việc nhập liệu từ ngư i chuyên gia Bước 2: Sử dụng mơ hình CRFs để huấn luyện tập liệu Bước 3: Cho tập test dụng CRFs để gán nhãn Bước 4: Tạo liệu Bộ liệu bổ sung kết từ việc gán nhãn tập test Hiện cần thêm liệu huấn luyện từ nhóm TreeBank để huấn luyện mơ hình gộp nhóm từ Việt Nhóm liệu Viet-TreeBank chuyển giao liệu cho th i gian tới với số lượng liệu đủ lớn (10,000 câu) cho việc phân cụm từ tiếng Việt Thêm nữa, tool phân đoạn từ, gán nhãn từ loại, từ điển cần thiết để xây dựng phân cụm chuẩn Trong giai đoạn hiên nay, hệ thống thử nghiệm tập liệu tương đối nhỏ nhóm VTB cung cấp Kết thực nghiệm Chúng sử dụng liệu từ VTB (Viet Tree Bank) cho toán phân cụm sử dụng mơ hình CRFs mơ hình học Online Learning Số lượng liệu khơng nhiều (trước mắt nhóm VTB cung cấp 260 câu gán nhãn) kết thực nghiệm khích lệ Trước hết nhiệm vụ chúng tơi trích lọc liệu từ tập corpus VTB có Cách chúng tơi sinh liệu chunking từ VTB thực sau: Bảng Thuật toán sinh liệu từ VTB Bước Lấy VTB Bước Duyệt đến nút sinh thành phần [Word, POS, Chunk] (Nhãn POS nhãn nút cha nhãn Chunk nhãn nút “ông” Bước Chuẩn hóa liệu dạng B-I-O (S-TTL (VP(V-H Chào mừng) (NP-DOB(N-H Đại hội) (VP(VP(V-H thi đua) (VP(V-H yêu) (NP(N nước)))) (NP(NP-LOC(Y TP)( .) (Y HCM))(M 2005))))) ( .)) Chào_mừng Đại_hội thi_đua yêu nước TP HCM 2005 V-H N-H V-H V-H N Y Y M VP NP-DOB VP VP NP NP-LOC NP-LOC NP S-TTL Hình Mơ tả q trình sinh dạng liệu phân cụm dùng thuật toán bảng Để chứng tỏ hiểu phương pháp, chia ngẫu nhiên 215 câu làm liệu huấn luyện 45 câu sử dụng liệu để đánh giá độ xác chương trình Sau 45 vịng lặp mơ hình CRFs cho kết hội tụ Chúng tơi bước đầu đánh giá độ xác phương pháp phân cụm 45 câu thử nghiệm mơ hình dùng 215 câu làm liệu huấn luyện Kết thực nghiệm thể bảng đây: Bảng Kết tập Viet Tree Bank Thuộc tính Độ xác (CRFs) Độ xác (MIRA) Tồn features 63.55% 64.78% Khơng dùng thuộc tính từ vựng Không dùng bigram 62.32% 61.82% 65.27% 64.82% Bảng kết thể với số lượng corpus nhỏ thu kết đáng khích lệ Có thể lý giả lý kết chưa cao b i trình học máy với số lượng liệu bé xuất trư ng hợp liệu thưa Có nhiều tượng ngữ pháp tập liệu kiểm định không xuất tập huấn luyện Qua thí nghiệm cho thấy hai phương pháp CRFs MIRA cho kết sấp xỉ Tuy nhiên phương pháp MIRA cho kết cao sử dụng tồn thuộc tính bảng Như phương pháp MIRA thích ứng với số lượng corpus nhỏ Ngồi chúng tơi đánh giá th i gian huấn luyện MIRA CRF, kết cho thấy th i gian hội tụ MIRA nhanh 30% so với phương pháp CRFs Trong tương lai kiểm định lại hai phương pháp sau sử dụng tập corpus lớn Bảng thể việc đánh giá thuộc tính sử dụng việc huấn luyện Củ thể, sử dụng tồn features có nghĩa sử dụng tồn thuộc tính khai báo bảng Khơng dùng thuộc tính từ vựng có nghĩa không xét từ vựng bao quanh từ cần lấy nhãn Khơng dùng bigram có nghĩa chúng tơi khơng xét nhãn cụm đứng trước Có thể nói thuộc tính tồn từ vựng có ảnh hư ng lớn so sánh với loại thuộc tính khác Bảng cho thấy độ xác giảm nhiều khơng thuộc tính Trong giai đoạn tiếp theo, sau có số lượng liệu kết tool phân đoạn từ, gán nhãn từ loại, chúng tơi thực thí nghiệm cách tốt Bảng cho thấy với việc sử dụng số lượng corpus với dung lượng bé, phân cụm đạt đến kết đáng khích lệ (65.27%) Trong tương lai gần thực việc huấn luyện lại mơ hình phân cụm sau có thêm corpus bổ sung từ nhóm liệu VTB Thảo luận Quan sát tập liệu tiếng Anh từ CONLL-2000 shared task tiếng Trung (Chiness Tree Bank), nhận thấy khái niệm gán nhãn tương đồng với tiếng Việt Dựa s s tham khảo nhóm VTB (Viet Tree Bank) chúng tơi chọn tập nhãn trình bày báo cáo Đồng th i, xây dựng công cụ phân cụm từ tiếng Việt sử dụng hai phương pháp học máy cấu trúc bao gồm CRFs MIRA Công cụ huấn luyện tập liệu VietTreeBank gồm khoảng 260 câu Q trình thử nghiệm cho thấy mơ hình đề hồn tồn tương thích với liệu VTB Mặc dầu với số lượng liệu ban đầu không nhiều kết thể mơ hình CRFs Online Learning lựa chọn đắn Đây hai phương pháp kinh tế, đảm bảo mặt th i gian lẫn độ xác Các kết thu hệ thống phân cụm từ tiếng Việt dùng liệu chuẩn VTB cho kết khả quan Chúng hy vọng kết tốt thử nghiệm mơ hình với lượng liệu lớn Lời cảm ơn Nghiên cứu thực khuôn khổ Đề tài Nhà nước “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” mã số KC01.01/0610 Tài liệu tham khảo [1] Erik F Tjong Kim Sang and Sabine Buchholz, Introduction to the CoNLL-2000 Shared Task: Chunking In: Proceedings of CoNLL-2000 , Lisbon, Portugal, 2000 [2] W Chen, Y Zhang, and H Ishihara “An empirical study of Chinese chunking”, in Proceedings COLING/ACL 2006 [3] Diệp Quang Ban (2005) Ngữ pháp tiếng Việt NXB Giáo Dục [4] J Lafferty, A McCallum, and F Pereira “Conditional random fields: Probabilistic models for segmenting and labeling sequence data” In the proceedings of International Conference on Machine Learning (ICML), pp.282-289, 2001 [5] Koby Crammer et al, “Online Pasive-Aggressive Algorithm”, Journal of Machine Learning Research, 2006 [6] X.H Phan, M.L Nguyen, C.T Nguyen, “FlexCRFs: Flexible Conditional Random Field Toolkit”, http://flexcrfs.sourceforge.net, 2005 [7] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, Xuan Luong Vu, “A lexicon for Vietnamese language processing”, Language Reseourse & Evaluation (2006) 40:291-309 [8] Cao Xuân Hạo:”Tiếng Việt: Sơ Thảo; Ngữ pháp chức năng”, Nhà Xuất Bản Khoa Học Xã Hội, 1991 [9] F Sha and F Pereira “Shallow Parsing with Conditional Random Fields”, Proceedings of HLT-NAACL 2003 213-220 (2003) ... việc phân cụm hữu ích tốn Chúng tơi đưa tập nhãn chuẩn xuất nhiều câu văn tiếng Việt Từ đó, chúng tơi đưa nhãn việc phân cụm từ tiếng Việt bao gồm sau: Tên Bảng Nhãn cụm từ cho hệ phân cụm từ Việt. .. Việt Chú thích NP Cụm danh từ VP Cụm động từ ADJP Cụm tính từ ADVP Cụm phó từ PP Cụm giới từ QP Cụm từ số lượng WHNP Cụm danh từ nghi vấn (ai, gì, gì, v.v.) WHADJP Cụm tính từ nghi vấn (lạnh... ngữ tiếng Anh “discriminative learning” 2) Phân lớp chia thành nhiều tốn con, số có tốn học có cấu trúc phân lớp tuyến tính Phân tích phụ thuộc tốn học có cấu trúc, MIRA nằm số phương pháp học máy