1. Trang chủ
  2. » Công Nghệ Thông Tin

Tách từ tiếng Việt sử dụng Longest Matching và CONDITIONAL RANDOM FIELDS

20 231 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 149,88 KB

Nội dung

Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự nhiên, nhằm xác định được ranh giới các từ có trong văn bản. Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết) khác so với tiếng anh. Bên cạnh đó, ngữ cảnh cũng ảnh hưởng không ít đến việc tách từ, đặc biệt có những câu đa nghĩa trong tiếng việt như “Con ngựa đá con ngựa đá”.

ĐẶT VẤN ĐỀ Với phát triển nhanh chóng công nghệ thông tin, nguồn thông tin trực tuyến (online) dạng văn xuất ngày nhiều Nguồn thông tin đến từ thư viện điện tử, thư điện tử, trang web, hệ thống tìm kiếm tra cứu thông tin Việc khám phá tri thức tiềm ẩn từ kho liệu văn cần thiết cho việc quản lý, khai thác hiệu nguồn thông tin văn khổng lồ Trong nỗ lực xây dựng sở tri thức tiếng Việt việc hiểu văn tiếng Việt, tóm tắt văn tiếng Việt, hay phân loại văn tiếng Việt…là cơng việc khơng thể thiếu Chính lý đó, Bộ Khoa học - Cơng nghệ phê duyệt đề tài cấp nhà nước với tên gọi "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" năm 2006 Một dạng điển hình kết đề tài công cụ dùng để xử lý văn (tiếng Việt) kiểm lỗi tả, phân tách từ, xác định loại từ, phân tích cú pháp Cơng việc có tính tiên phân đoạn từ tiếng Việt Tách từ bước quan trọng thiếu xử lý ngôn ngữ tự nhiên, nhằm xác định ranh giới từ có văn Trong tiếng Việt, ngồi từ đơn (một âm tiết), cịn có từ ghép (đa âm tiết) khác so với tiếng anh Bên cạnh đó, ngữ cảnh ảnh hưởng khơng đến việc tách từ, đặc biệt có câu đa nghĩa tiếng việt “Con ngựa đá ngựa đá” Ý thức lợi ích việc xây dựng sở tri thức tiếng Việt nói chung tốn phân đoạn từ tiếng Việt nói riêng, chúng em chọn đề tài môn học Khai phá liệu tìm hiểu cách thức phân đoạn từ tiếng Việt I Tiếng Việt cách hướng tiếp cận toán tách từ Từ vựng Tiếng Việt Việc định nghĩa xác suất từ khơng phải đơn giản, địi hỏi cơng sức nghiên cứu nhà ngôn ngữ học Chúng ta giới thiệu định nghĩa sau làm ví dụ định nghĩa từ: “Từ đơn vị nhỏ có nghĩa, có kết cấu vỏ ngữ âm bền vững, hồn chỉnh, có chức gọi tên, vận dụng độc lập, tái tự lời nói để tạo câu” Nhưng xét góc độ ứng dụng, ta hiểu đơn giản “từ cấu tạo nhiều tiếng” 1.1 Tiếng – đơn vị cấu tạo lên từ: + Về mặt hình thức, tiếng đoạn phát âm người nói, dù có cố tình phát âm chậm đến khơng thể tách tiếng thành đơn vị khác Tiếng nhà ngôn ngữ gọi âm tiết (syllable) + Về mặt nội dung, tiếng đơn vị nhỏ có nội dung thể hiện, chí tiếng có giá trị mặt hình thái học (cấu tạo từ), người ta gọi tiếng hình tiết (morphemesyllable), tức âm tiết có có giá trị hình thái học - Phân loại: Các tiếng tất giống nhau, xét mặt ý nghĩa, chia tiếng thành loại sau - Tiếng tự thân có ý nghĩa, thường quy chiếu vào đối tượng, khái niệm Ví dụ: trời, đất, nước, cây, cỏ… - Tiếng tự thân khơng có ý nghĩa, chúng khơng quy chiếu vào đối tượng, khái niệm Chúng thường với tiếng khác có nghĩa làm thay đổi sắc thái tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (năng) nôi… - Tiếng tự thân khơng có ý nghĩa lại với để tạo thành từ Những tách rời tiếng đứng riêng chúng khơng có nghĩa cả, lại ghép lại thành từ có nghĩa Ta thường xuyên gặp từ mượn phéc-mơ-tuya, a-pa-tít, mì-chính Trong tiếng Việt tiếng thuộc nhóm chiếm đa số Các tiếng thuộc hai nhóm sau thưởng chiếm số ít, đặc biệt nhóm thứ 3, chúng thường gọi tiếng vơ nghĩa Việc nhóm chiếm đa số phản ánh thực tế nói, người ta thường sử dụng tiếng có nghĩa, lại nói tồn từ vơ nghĩa 1.2 Cấu tạo từ - Từ đơn: Từ đơn, hay gọi từ đơn âm tiết, từ cấu tạo tiếng Ví dụ: tơi, bạn, nhà, hoa, vườn… - Từ ghép: Từ ghép từ tạo lên từ hai nhiều tiếng lại Giữa tiếng có quan hệ nghĩa với nhau, ta có loại từ ghép khác • Từ ghép đẳng lập: thành phần cấu tạo từ có mối quan hệ bình đẳng với nghĩa Ví dụ: ăn nói, bơi lội … • Từ ghép phụ: thành phần cấu tạo từ có mối quan hệ phụ thuộc với nghĩa Thành phần phụ có vai trị làm chun biệt hóa, tạo sắc thái cho thành phần Ví dụ: hoa hồng, đường sắt… - Theo Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: • 81.55% âm tiết từ : từ đơn • 15.69% từ từ điển từ đơn • 70.72% từ ghép có âm tiết • 13.59% từ ghép ≥ âm tiết • 1.04% từ ghép ≥ âm tiết - Từ láy: Một từ coi từ láy yếu tố cấu tạo nên có thành phần ngữ âm lặp lại; vừa có lặp (cịn gọi điệp) vừa có biến đổi (cịn gọi đối) Ví dụ: đo đỏ, man mát… Nếu từ có phần lặp mà khơng có biến đổi (chẳng hạn từ nhà nhà, ngành ngành…) ta có dạng láy từ 1.3 Nhập nhằng Nếu ta dựa khái niệm “từ” nhà ngôn ngữ học để trực tiếp phân đoạn từ tay khó xảy việc nhập nhằng tiếng Việt Song góc độ ứng dụng máy tính, coi từ đơn giản cấu tạo từ nhiều tiếng, việc dễ gây nhập nhằng trình phân đoạn từ Sự nhập nhằng tiếng Việt chia thành kiểu sau: • Nhập nhằng chồng chéo: chuỗi “abc” gọi nhặp nhằng chồng chéo từ “ab”, “bc” xuất từ điển tiếng Việt Ví dụ câu “ơng già nhanh q” chuỗi “ơng già đi” bị nhập nhằng chồng chéo từ “ơng già” “già đi” có từ điển • Nhập nhằng kết hợp: chuỗi “abc” gọi nhập nhằng kết hợp từ “a”,”b”,”ab” xuất từ điển tiếng Việt Ví dụ câu “Bàn cịn mới” chuỗi “bàn là” bị nhập nhằng kết hợp, từ “bàn”, “là”, “bàn là” có từ điển Các hướng tiếp cận Để nhận dạng ranh giới từ (tách từ) phục vụ cho tốn phân tích liệu văn như: gom nhóm, phân lớp văn bản, nhà khoa học đề xuất nhiều phương pháp tách từ Dựa đặc điểm từ, kết hợp với cách tiếp cận khác nhau, phương pháp tách từ chia thành ba nhóm chính: dựa từ điển (dictionary-based), dựa thống kê (statistic-based) phương pháp lai (hybrid) Sau tìm hiểu ngơn ngữ tiếng Việt số phương pháp phân đoạn từ tiếng Việt máy tính nay, em nhận thấy mơ hình phân đoạn từ tiếng Việt tốt phải giải hai vấn đề giải nhập nhằng tiếng Việt có khả phát từ Xuất phát từ đó, em chọn hướng tiếp cận sử dụng mơ hình học máy CRF cho toán phân đoạn từ tiếng Việt Đây mơ hình có khả tích hợp hàng triệu đặc điểm liệu huấn luyện cho trình học máy, nhờ giảm thiểu nhập nhằng tiếng Việt Các phương pháp tìm hiểu 2.1 Phương pháp So khớp từ dài (Longest Matching) Là phương pháp theo hướng tiếp cận dựa từ điển: Ý tưởng phương pháp tách từ dựa từ điển từ từ điển sẵn có, thực so khớp âm tiết văn với từ có từ điển Tuỳ vào cách thức so khớp mà ta có phương pháp khác như: so khớp từ dài (longest matching), so khớp từ ngắn (short matching), so khớp chồng lắp (overlap matching) so khớp cực đại (maximum matching) Độ xác phương pháp dựa từ điển phụ thuộc lớn vào kích thước từ điển xây dựng Với đặc điểm khơng cần phải có bước huấn luyện nên thời gian xử lý phương pháp tương đối nhanh, đơn giản dễ hiểu Tuy nhiên, phương pháp khó xử lý dược tình nhập nhằng xử lý tình xuất từ không tồn từ điển Giải thuật: Gọi V danh sách tiếng chưa xét T từ điển While V≠⍉ Begin Wmax= từ đầu danh sách V; // từ dài Foreach (v thuộc từ gồm tiếng bắt đầu V) If(length(v)> length(Wmax) and v thuộc T) then Wmax= v; Loại tiếng Wmax đầu danh sách V; End Ví dụ: Tơi cơng dân nước Việt Nam: Bước Từ dài Các tiếng cịn lại cơng dân nước Việt Tơi Nam Là công dân nước Việt Nam Công dân nước Việt Nam Nước Việt Nam Việt Nam Ưu điểm: • Tách từ nhanh đơn giản cần dựa vào từ điển • Độ xác tương đối cao Hạn chế: • Độ xác phụ thuộc vào hồn tồn vào tính đầy đủ xác từ điển Phương pháp không đạt kết cuối từ trước có liên hệ với từ sau Ví dụ : ơng quan tài giỏi => ||ông|| quan tài|| giỏi Khi tồn từ ghép ngồi từ điển, phương pháp khơng thể nhận 2.2 Phương pháp WFST Phương pháp WFST Phương pháp WFST (Weighted Finite-State Transducer) gọi phương pháp chuyển dịch trạng thái hữu hạn có trọng số Ý tưởng phương pháp áp dụng cho phân đoan từ tiếng Việt từ gán trọng số xác suất xuất từ liệu Sau duyệt qua câu, cách duyệt có trọng số lớn cách dùng để phân đoạn từ Hoạt động WFST chia thành ba bước sau: • Xây dựng từ điển trọng số: từ điển trọng số D xây dựng đồ thị biến đổi trạng thái hữu hạn có trọng số Giả sử - H tập tiếng tiếng Việt - P tập loại từ tiếng Việt - Mỗi cung D là: + Từ phần tử H tới môt phần tử H + Từ phần tử ε (xâu rỗng) đến phần tử P - Mỗi từ D biểu diễn chuỗi cung bắt đầu cung tương ứng với phần tử H, kết thúc cung có trọng số tương ứng với phần tử ε × P Trọng số biểu diễn chi phí ước lượng (estimated cost) cho công thức: C = - log() Trong f: tần số xuất từ, N: kích thước tập mẫu • Xây dựng khả phân đoạn từ: bước thống kê tất khả phân đoạn câu Giả sử câu có n tiếng, có cách phân đoạn khác Để giảm bùng nổ cách phân đoạn, thuật toán loại bỏ nhánh phân đoạn mà chứa từ không xuất từ điển • Lựa chọn khả phân đoạn tối ưu: sau liệt kê tất khả phân đoạn từ, thuật toán chọn cách phân đoạn tốt nhất, cách phân đoạn có trọng số bé Ví dụ: câu “Tốc độ truyền thơng tin tăng cao” - Từ điển trọng số: Tốc độ 8.68 Truyền 12.31 Truyền thông 12.31 Thông tin 7.24 Tin 7.33 Sẽ 6.09 Tăng 7.43 Cao 6.95 Trọng số theo cách phân đoạn tính : • “Tốc độ # truyền thông # tin # # tăng # cao.” = 8.68 +12.31 + 7.33 + 6.09 + 7.43 +6.95 • “Tốc độ # truyền # thơng tin # # tăng # cao.” = 8.68 +12.31 + 7.24 + 6.09 + 7.43 +6.95 Do đó, ta có phân đoạn tối ưu cách phân đoạn sau “Tốc độ # truyền # thông tin # # tăng #cao.” Nhận xét: Nhược điểm thuật tốn việc đánh trọng số dựa tần số xuất từ, nên tiến hành phân đoạn khơng tránh khỏi nhập nhằng tiếng Việt Hơn với văn dài phương pháp cịn gặp phải bùng nổ khả phân đoạn câu Ưu điểm phương pháp cho độ xác cao ta xây dựng liệu học đầy đủ xác 3 Conditional Random Field Một số qui ước ký hiệu:  Chữ viết hoa X, Y, Z kí hiệu cho biến ngẫu nhiên  Chữ đậm ví dụ: x = (x1, ,xn), y, t ký hiệu vector vector biểu diễn chuỗi liệu quan sát , vector biểu diễn chuỗi nhãn  xi , yi biểu diễn thành phần vector  chữ viết thường x, y, z… ký hiệu cho giá trị đơn liệu quan sát hay trạng thái  S tập hữu hạn trạng thái  O tập liệu quan sát 3.1 MƠ HÌNH MARKOV ẨN- HMM Mơ hình Markov giới thiệu vào cuối năm 1960 Cho đến có ứng dụng rộng nhận dạng giọng nói, tính tốn sinh học (Computational Biology ), xử lý ngôn ngữ tự nhiên HMM mô hình máy hữu hạn trạng thái với tham số biểu diễn xác suất chuyển trạng thái xác suất sinh liệu quan sát trạng thái Mô hình Markov ẩn mơ hình thống kê hệ thống mơ hình hóa cho q trình Markov với tham số khơng biết trước, nhiệm vụ xác định tham số ẩn từ tham số quan sát Trong mơ hình Markov điển hình, trạng thái quan sát trực tiếp người quan sát, xác suất chuyển tiếp trạng thái tham số (hình mơ tả rõ cho điều này) Hình HMM - xi — Các trạng thái mơ hình Markov - aij — Các xác suất chuyển tiếp - bij — Các xác suất đầu - yi — Các liệu quan sát Mơ hình Markov ẩn thêm vào đầu ra: trạng thái có xác suất phân bố biểu đầu Vì vậy, nhìn vào dãy biểu sinh HMM không trực tiếp dãy trạng thái Ta có tìm chuỗi trạng thái mô tả tốt cho chuỗi liệu quan sát cách tính (2.1) Y Y … … … Y n X X … … … X n Hình Đồ thị vơ hướng HMM Ở Yn trạng thái thời điểm thứ t=n chuỗi trạng thái Y, Xn liệu quan sát thời điểm thứ t=n chuỗi X Do trạng thái phụ thuộc vào trạng thái trước với giả thiết liệu quan sát thời điểm t phụ thuộc trạng thái t Ta tính P(Y, X) (2.2) Một số hạn chế mơ hình Markov để tính xác suất P(Y,X) thông thường ta phải liệt kê hết trường hợp chuỗi Y chuỗi X Thực tế chuỗi Y hữu hạn liệt kê được, X (các liệu quan sát) phong phú Để giải vấn đề HMM đưa giả thiết độc lập liệu quan sát: Dữ liệu quan sát thời điểm t phụ thuộc vào trạng thái thời điểm Hạn chế thứ hai gặp phải việc sử dụng xác suất đồng thời P(Y, X) khơng xác với số tốn việc sử dụng xác suất điều kiện P(Y | X) cho kết tốt nhiều 3.2 MÔ HÌNH CỰC ĐẠI HĨA ENTROPY-MEMM Mơ hình MEMM thay xác suất chuyển trạng thái xác suất sinh quan sát HMM hàm xác suất P(Si | Si-1, Oi) (xác suất dịch chuyển từ trạng thái Si-1 tới trạng thái trước Si với liệu quan sát Oi) thay sử dụng P(Si | Si-1) P(Oi | Si) Mơ hình MEMM quan niệm quan sát cho trước không cần quan tâm đến xác suất sinh chúng mà quan tâm vào xác suất chuyển trạng thái Dưới đồ thị có hướng mơ tả cho mơ hình MEMM S S … … … S n S 1: n Hình Đồ thị có hướng mô tả cho mô hinh MEMM Qua đồ thị ta nhận thấy quan sát không phụ thuộc vào trạng thái mà cịn phụ thuộc vào trạng thái trước Xác suất P(S | O) tính sau: (2.3) MEMM coi liệu quan sát điều kiện cho trước thay coi chúng thành phần sinh mơ HMM xác suất chuyển trạng thái phụ thuộc vào thuộc tính đa dạng chuỗi liệu quan sát Với mơ hình ta chia thành hàm dịch chuyển huấn luyện cách riêng biệt |S| - tập hợp trạng thái Như sau: McCallum xác định phân phối cho xác suất chuyển trạng thái có dạng hàm mũ sau: (2.4) Ở tham số cần huấn luyện; Z(Ot, St) thừa số chuẩn hóa để tổng xác suất chuyển từ trạng St-1 sang St kề với 1; fa(Ot, St) hàm thuộc tính vị trí thứ i chuỗi liệu quan sát chuỗi trạng thái Ở ta định nghĩa thuộc tính fa có hai đối số: Dữ liệu quan sát trạng thái McCallum đinh nghĩa a= b phụ thuộc vào liệu quan sát liệu quan sát “1tỷ” b(Ot)= ngược lại Hàm thuộc tính fa xác định b(Ot) nhận giá trị xác định: b(Ot)=1 St=St-1 f(Ot,St)= ngược lại Vấn đề “label alias” gặp phải mô hình MEMM Vấn đề gặp phải mơ hình MEMM [14] “lable alias” Xét ví dụ đơn giản sau: Hình label alias Giả sử ta cần xác định chuỗi trạng thái xuất chuỗi quan sát “rob” chuỗi trạng thái 0345 ta mong đợi xác suất P( 0345|rob ) > P( 0125|rob) Lại có P(0125|rob) = P(0)*P(1|0, r)*P(2|1,o )*P(5|2, b) Do xác suất chuyển trạng thái trạng thái kề l Do vậy: P(0125 | rob)=P(0)*P(1 | 0, r) Tương tự ta có P(0345 | rob)=P(0)*P(3 | 0, r) Nếu tập huấn luyện “rib”xuất nhiều “rob” chuỗi trạng thái S=0125 ln chọn dù chuỗi quan sát rib hay rob Đây hạn chế gặp phải mơ hình MEMM, hạn chế ảnh hưởng lớn đến trình gán nhãn MEMM Để giải vấn đề alias Léon Bottou (1991) đưa số cách sau: Thứ mơ hình ta gộp trạng thái và trì hỗn việc phân nhánh gặp quan sát xác định ( Discriminating Observation ) Nhưng máy hữu hạn trạng thái điều khơng thể xảy bùng nổ tổ hợp giải pháp thứ hai ta ln thay đổi cấu trúc trạng thái mơ hình điều có nghĩa xác suất tồn chuỗi trạng thái không bảo tồn mà bị thay đổi vài bước chuyển tùy thuộc vào quan sát Trên vấn đề hạn chế HMM MEMM từ cho thấy nhu cầu cần thiết mơ hình CRF giải hạn chế 3.3 MƠ HÌNH CONDITIONAL RANDOM FIELDS CRF giới thiệu vào năm 2001 Lafferty đồng nghiệp CRF mơ hình dựa xác xuất điều kiện, thường sử dụng gán nhãn phân tích liệu ví dụ ký tự, ngơn ngữ tự nhiên Khác với mơ hình MEMM, CRF mơ hình đồ thị vơ hướng Điều cho phép CRF định nghĩa phân phối xác suất toàn chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay phân phối trạng thái với điều kiện biết trạng thái trước quan sát mơ hình MEMM Chính tính chất CRF mà mơ hình giải vấn đề “label bias” 3.3.1 Định nghĩa CRF Trước xem định nghĩa trường ngẫu nhiên điều kiện ta xem định nghĩa trường ngẫu nhiên Cho đồ thị vơ hướng khơng có chu trình G(V,E), V tập đỉnh đồ thị E tập cạnh vô hướng nối đỉnh đồ thị thỏa mãn: V gọi trường ngẫu nhiên Y5 (2.5) Y1 Y2 Y4 Y3 Y6 Hình Một trường ngẫu nhiên P(Y5| Yi)=P(Y5|Y4,Y6) Vậy Y={Y5, Y4,Y6} trường ngẫu nhiên Tiếp đến định nghĩa trường ngẫu nhiên có điều kiện sau: X biến ngẫu nhiên nhận giá trị chuỗi liệu cần phải gán nhãn.Y biến ngẫu nhiên nhận giá trị chuỗi nhãn tương ứng Mỗi thành phần Yi Y biến ngẫu nhiên nhận giá trị tập hữu hạn trạng thái S Các đỉnh V biểu diễn thành phần biến ngẫu nhiên Y cho tồn ánh xạ – đỉnh thành phần Yv Y Ta nói: CRF định nghĩa: (Y | X) trường ngẫu nhiên điều kiện (Conditional Random Field) với điều kiện X ta tính xác xuất có điệu kiện P(Yi | Xi) với YiY Xi X với Xi ta chọn argmaxYiP(Yi | Xi) Trong toán liệu dạng chuỗi, G biểu diễn sau: G = ( V={1,2,3,…m}, E={i,i+1}i=1…m-1) Kí hiệu X=(X1, X2…Xn), Y=(Y1, Y2,…Yn) Ta có mơ hình đồ thị vơ hướng CRF có dạng sau: Hình 10 Đồ thị vơ hướng mô tả cho CRF Gọi C tập hợp tất đồ thị đầy đủ đồ thị G (đồ thị biểu diễn cấu trúc CRF) Theo kết Hammerly-Clifford cho trường Markov, ta thừa số hóa p(y | x) – xác suất chuỗi nhãn với điều kiện biết chuỗi liệu quan sát – thành tích hàm tiềm năng: P(y|x)= Có thể mơ hình sau: (2.6) Yt+3 Yt+1 Yt Yt+2 Ψ2 Ψ3 Ψ1 X1:n Hình 11 Mơ tả hàm tiềm 3.3.2 Conditional Random Fields Mơ hình CRFs cho phép quan sát toàn X, nhờ sử dụng nhiều thuộc tính phương pháp Hidden Markov Model Một cách hình thức xác định quan hệ dãy nhãn y câu đầu vào x qua công thức sau (2.17) Ở x,y chuỗi liệu quan sát chuỗi trạng thái tương ứng; tk(yi-1,yi,x,i): thuộc tính tồn chuỗi quan sát trạng thái vị trí i-1, i chuỗi trạng thái; sk(yi,x,i): thuộc tính toàn chuỗi quan sát trạng thái vị trí i chuỗi trạng thái; λj, μk: tham số thiết lập từ liệu huấn luyện II Cài đặt thuật tốn Mơ tả tốn phận đoạn từ tiếng Việt Ta quy toán phân đoạn từ tiếng Việt thành toán gán nhãn cho âm tiết tiếng Việt Dựa vào nhãn ta xác định ranh giới từ văn tiếng Việt Các nhãn sử dụng • B_W: nhãn đánh dấu bắt đầu từ • I_W: nhãn đánh dấu từ Như toán phân đoạn từ tiếng Việt phát biểu là: “Hãy xây dựng mơ hình để gán nhãn {B_W, I_W} cho âm tiết văn tiếng Việt chưa phân đoạn” Để xây dựng mơ hình tốt, trước hết ta phải chuẩn bị tập liệu huấn luyện đầy đủ xác Dữ liệu cần chuẩn bị dạng sau: X = [[{'bias': 1.0, 'lower': 'hello'}, {'bias': 1.0, 'lower': 'world'}], [{'bias': 1.0, 'lower': 'world'}, {'bias': 1.0, 'lower': 'hello'}]] y = [['B', 'I'], ['B', 'I']] X liệu features, chuẩn bị dạng dictionary Mỗi âm (syllable) tính tạo liệu đặc trưng dạng json Ví dụ: với câu “Hello World” có syllables “Hello” “World” Syllable “Hello” tạo dict {‘bias’: 1.0, ‘lower’: ‘hello’} Một số feature tính là: ‘bias’, ‘lower’, ‘isupper’, ‘istitle’, ‘isdigit’ Lưu ý: feature từ tính cho từ phía trước phía sau Ví dụ: ‘+1:lower’: ‘world’ feature “Hello” Tương ứng với syllable (ví dụ “Hello”) nhãn, chẳng hạn ‘B’ hay ‘I’ Dữ liệu Dữ liệu train dựa lĩnh vực tách từ STT Lĩnh vực Kinh doanh Pháp luật Thể thao Văn hóa Vi tính Xã hội Số lượng 540 240 660 360 660 300 Tổng số file 2760 Dữ liệu test với 301 file chuẩn bị trước Kết cài đặt Thống kê với lần thử nghiệm, ta có kết thống kê sau: Lần F1 score F1 score tập test tập train 0.935 0.944 0.932 0.946 0.935 0.944 0.936 0.945 0.933 0.946 Như vậy, ta thấy model train phù hợp toán tách từ liệu chuẩn bị III Kết luận Tiểu luận hệ thống hóa số vấn đề phân đoạn từ tiếng Việt bao gồm tìm hiểu từ vựng tiếng Việt, hướng tiếp cận toán phần đoạn từ tiếng Việt kèm theo đánh giá nhận xét Đồng thời đề xuất phương án phân đoạn từ tiếng Việt học máy sử dụng mơ hình CRF, thực nghiệm liệu tiếng Việt cho kết khả quan Sau tóm lược số ý luận văn đề cập tới: - Đã trình bày hệ thống mơ hình CRF, gồm định nghĩa, huấn luyện mơ hình cách suy diễn mơ hình - Đã mô tả chi tiết phương pháp phân đoạn tiếng Việt theo hướng thi hành phương pháp áp dụng mơ hình CRF Q trình thu thập xử lý liệu mô tả chi tiết Chương đưa cách đánh giá độ xác mơ hình theo ước lượng chéo k tập con, với ba độ đo độ xác, độ hồi tưởng, độ đo F1 Hướng nghiên cứu tiếp theo: Mặc dù kết thu luận văn đáng khích lệ thời gian có hạn, em chưa thể thu thập liệu lớn tiến hành thêm nhiều thử nghiệm khác Trong thời gian tới, em tiến hành thu thập thêm liệu sách báo, truyện tiếng Việt, văn cổ… với lượng liệu phong phú nhiều lĩnh vực em hi vọng đạt kết cao Cũng sở kết đạt luận văn, xây dựng phần mềm hoàn chỉnh cho phép phân đoạn văn tiếng Việt với độ xác cao, tiện dụng đem lại hiệu thiết thực xử lý văn tiếng Việt ... Theo Từ điển từ tiếng Việt (Vietlex): >40.000 từ, đó: • 81.55% âm tiết từ : từ đơn • 15.69% từ từ điển từ đơn • 70.72% từ ghép có âm tiết • 13.59% từ ghép ≥ âm tiết • 1.04% từ ghép ≥ âm tiết - Từ. .. có nghĩa, lại nói tồn từ vơ nghĩa 1.2 Cấu tạo từ - Từ đơn: Từ đơn, hay gọi từ đơn âm tiết, từ cấu tạo tiếng Ví dụ: tơi, bạn, nhà, hoa, vườn… - Từ ghép: Từ ghép từ tạo lên từ hai nhiều tiếng lại... So khớp từ dài (Longest Matching) Là phương pháp theo hướng tiếp cận dựa từ điển: Ý tưởng phương pháp tách từ dựa từ điển từ từ điển sẵn có, thực so khớp âm tiết văn với từ có từ điển Tuỳ vào

Ngày đăng: 30/03/2021, 15:15

TỪ KHÓA LIÊN QUAN

w