Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
609,49 KB
Nội dung
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG KHOA CƠNG NGHỆ THƠNG TIN & TỐN ỨNG DỤNG LUẬN VĂN TỐT NGHIỆP TÁCH TỪ TIẾNG VIỆT Giảng viên hướng dẫn : CN VŨ ĐÌNH HỒNG Sinh viên thực hiện: PHẠM THỊ THU HƯƠNG MSSV : 060196T Lớp : 06TH2D Khố : 10 TP Hồ Chí Minh, tháng năm 2010 Lời cảm ơn! Em xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học Tôn Đức Thắng tạo điều kiện cho em thực đề tài Em xin cảm ơn thầy Vũ Đình Hồng nhiệt tình hướng dẫn động viên em thực đề tài Em xin chân thành cảm ơn quý thầy, cô tận tình dạy dỗ truyền đạt kiến thức quý báu suốt bốn năm qua Con xin gởi lời biết ơn đến ông bà, cha mẹ anh chị, người ln chăm sóc động viên bước đường học vấn, người nguồn động lực lớn cho Chân thành cám ơn bạn đồng hành suốt năm đại học, chia sẻ khó khăn, nhiệt tình động viên Mặc dù cố gắng kiến thức cịn hạn chế, thời gian có giới hạn nên chắn đề tài có nhiều thiếu sót Kính mong q thầy bạn thơng cảm góp ý cho em tiếp tục hoàn thiện đề tài, tiến tới phát triển tương lai Cuối cùng, xin cảm ơn quan tâm quý thầy cô bạn Người thực Phạm Thị Thu Hương NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Tách từ tiếng Việt MỤC LỤC Lời cảm ơn Danh Mục Hình Danh Mục Bảng Lời nói đầu 10 CHƯƠNG I: GIỚI THIỆU 11 I.1 Tách từ tiếng Việt – Thách thức thú vị: 11 I.2 Mục tiêu luận văn: 12 CHƯƠNG II: CÁC HƯỚNG TIẾP CẬN TÁCH TỪ VN 13 II.1 Dựa từ: (Word-based approaches) 15 II.2 Dựa tiếng (Character-based approaches) 15 II.4 Một số phương pháp tách từ tiếng việt 16 II.4.1 Phương pháp maximum-matching (pp khớp tối đa) 16 II.4.2 Phương pháp transformation-based learning 17 II.4.3 Mơ hình tách từ WFST sử dụng mạng neural 17 II.4.4 Phương pháp dựa thống kê từ internet thuật giải di truyền 17 II.4.5 Phương pháp quy hoạch động (dynamic programming) 18 II.5 So sánh phương pháp tách từ Tiếng Việt 19 CHƯƠNG III: TỔNG QUAN MẠNG NEURAL 21 III.1 Khái niệm Neural nhân tạo 22 III.2 Mạng Neural nhân tạo 24 III.3 Đặc trưng mạng Neural 25 III.3.1 Tính phi tuyến 25 III.3.2 Tính chất tương ứng đầu vào đầu 25 III.3.3 Tính chất thích nghi 26 III.3.4 Tính chất đưa lời giải có chứng 26 III.3.5 Tính chấp nhận sai xót 26 III.3.6 Khả cài đặt VLSI (Very-large-scale-intergrated) 26 GVHD: Vũ Đình Hồng Trang Tách từ tiếng Việt III.3.7 Tính chất đồng dạng phân tích thiết kế 26 III.4 Phân loại mạng neural nhân tạo 27 III.4.1 Phân loại theo kiểu liên kết Neural 27 III.4.2 Một số mạng Neural 27 III.5 Huấn luyện mạng Neural 30 III.5.1 Phương pháp học 30 III.5.2 Thuật toán học 31 III.6 Thu thập liệu cho mạng Neural 34 III.7 Biểu diễn tri thức cho mạng Neural 35 III.8 Một số vấn đề mạng Neural 37 CHƯƠNG V: TÁCH TỪ TIẾNG VIỆT 39 IV.1 Từ tiếng Việt 40 IV.1.1 Khái niệm tiếng 40 IV.1.2 Quan hệ tiếng từ 40 IV.1.3 Hình vị 41 IV.2 Các tiêu chí nhận diện từ 41 IV.3 Phân loại từ 41 IV.4 Mơ hình tách từ WFST mạng Neural 42 IV.4.1 Bước tiền xử lý 42 IV.4.2 Tầng WFST 47 IV.4.3 Tầng mạng neural 49 CHƯƠNG V: CHƯƠNG TRÌNH ỨNG DỤNG 50 V.1 Xây dựng từ điển: 51 V.2 Bài toán tách từ tiếng Việt: 51 V.3 Các bước giải toán: 51 V.4 Giao diện ứng dụng 52 V.5 Kết đánh giá: 53 V.5.1 Mơ hình đánh giá: 53 V.5.2 Một số ví dụ: 54 GVHD: Vũ Đình Hồng Trang Tách từ tiếng Việt CHƯƠNG VI: NHẬN XÉT & HƯỚNG PHÁT TRIỂN 55 VI.1 Nhận xét 55 VI.1.1 Kết đạt 55 VI.1.2 Hạn chế 55 TÀI LIỆU THAM KHẢO 57 GVHD: Vũ Đình Hồng Trang Tách từ tiếng Việt Danh Mục Hình Hình 1:Mơ hình hướng tiếp cận tách từ Tiếng Việt 14 Hình : Mơ hình Neural nhân tạo 22 Hình 2: Sơ đồ đơn giản mạng neural nhân tạo 24 Hình 3: Mạng tiến với mức neural 28 Hình 4: Mạng tiến kết nối đầy đủ với mức ẩn mức đầu 29 Hình 5: Mạng hồi quy khơng có neural ẩn khơng có vịng lặp tự phản hồi 29 Hình 6: Mạng hồi quy có neural ẩn 30 Hình 1: Sơ đồ mơ hình tách từ WFST- mạng Neural 42 Hình 2: Mơ hình tách câu mạng Neural 45 Hình 1: Giao diện ban đầu ứng dụng 52 Hình 2: Giao diện kết tách từ 53 GVHD: Vũ Đình Hồng Trang Tách từ tiếng Việt Danh Mục Bảng Bảng Bảng Bảng Bảng :Một số hàm kích hoạt mạng neural 24 : Danh sách ngữ liệu huấn luyện 51 : Kết hệ số đo độ tin cậy chương trình 54 : Một số ví dụ tách từ 54 GVHD: Vũ Đình Hồng Trang Tách từ tiếng Việt Lời nói đầu Em trình bày báo cáo thành chương: Chương I Giới thiệu: tầm quan trọng tách từ tiếng Việt tài lý chọn đề Chương II Các hướng tiếp cận tách từ Việt Nam: trình bày hướng tách từ tiếng Việt, số cơng trình tách từ tiếng Việt, giới thiệu tóm tắt số phương pháp tách từ tiếng Việt ưu nhược điểm phương pháp Chương III Tổng quan mạng Neural : trình bày mạng Neural nhân tạo, đặc trưng mạng Neural, phân loại mạng Neural theo kiểu liên kết Neural giới thiệu số loại mạng Neural Chương IV Tách từ tiếng Việt: trình bày sơ lược tiếng Việt (các đơn vị tiếng Việt, khái niệm tiếng tiếng Việt, mối quan hệ tiếng từ, …) mơ hình áp dụng tách từ tiếng Việt đồ án này_WFST (Weighted Finite State Transducer) mạng Neural Chương V Chương trình ứng dụng : giới thiệu toán tách từ tiếng VIệt, cách giải toán, xây ứng dụng tách từ tiếng Việt đánh giá kết tách từ Chương VI Nhận xét hướng phát triển: chương cuối báo cáo Nêu vấn đề giải quyết, hạn chế hướng phát triển tương lai GVHD: Vũ Đình Hồng Trang 10 Chương 4: Tách từ tiếng Việt Tách từ tiếng Việt - Dấu hiệu đoạn mới: dấu hiệu bắt đầu đoạn văn xét có xuống dòng dòng văn text quét Nếu phát dấu hiệu phận tách đoạn kết thúc đoạn văn xử lý chuyển cho tách câu Các dấu hiệu bắt đầu đoạn gồm: + Viết hoa đầu dòng thụt đầu dịng khác + Đánh số đầu dịng (có thể là: [khoảng trắng][khoảng trắng]) + Gạch đầu dòng: [khoảng trắng] < “*” | “+” | “-”> [khoảng trắng] Các dấu hiệu bắt đầu tách khỏi đoạn văn trước chuyển cho phần tách câu - Dấu hiệu kết thúc đoạn: dấu hiệu kết thúc đoạn: + Chấm câu xuống hàng + Xuống hàng lần liên tiếp + Xuất dấu hai chấm “:” xuống hàng IV.4.1.3 Tách câu Thông thường người ta dùng dấu chấm “.”, chấm than “!”, chấm hỏi “?” ,… để nhận biết kết thúc câu Ta gọi dấu dấu báo hiệu kết thúc câu hay dấu chấm câu Nhưng việc xác định ranh giới câu gặp khó khăn tính nhập nhằng dấu câu Dấu chấm dấu chấm thập phân (3.14), cụm từ viết tắt (Trần.V.Anh), … - Tách câu Heuristic: sau nhận văn lọc ký tự dư thừa, ký tự phụ, phận tách câu bắt đầu phân tích dựa cách chấm câu ngữ nghĩa số từ để tách câu riêng biệt + Xử lý dấu chấm: dấu có nhiều trường hợp : (1)kết thúc văn bản, (2)dấu chấm thập phân (3.789), (3)biểu thị viết tắt (v.v), (4)địa Internet (www.google.com.vn), email( vdhong@yahoo.com.vn ),… để phân biệt trường hợp ta dựa vào số đặc trưng : (1)nếu dấu chấm khơng phải trường hợp 2,3,4 dấu chấm để nhận biết kết thúc câu ln có khoảng trắng sau dấu chấm ký tự chữ viết hoa (2)Ta có nhận biết dấu chấm thập phân cách đọc toàn phần liền trước liền sau dấu chấm để phát số có dấu chấm thập phân (3)Để nhận biết dấu chấm trường hợp từ viết tắt, ta xây dựng danh sách từ viết tắt để tra cứu cần (4)Trong trường hợp có tính chất chung dấu chấm khơng nằm cuối từ, ký tự (nghĩa khơng có khoảng trắng liền sau) nên dễ dàng phân biệt GVHD: Vũ Đình Hồng Trang 44 Chương 4: Tách từ tiếng Việt Tách từ tiếng Việt Để giải số trường hợp nhập nhằng ta cần phải giải sử dụng thêm số thông tin trước sau dấu chấm Các thông tin khơng đơn giản hình thái hay từ pháp vài từ mà phải dùng đến tầng cú pháp để xác định thành phần trước sau dấu chấm có câu hồn chỉnh hay khơng + Xử lý dấu câu ngoặc: tách câu gặp dấu mở ngoặc đơn hay ngoặc kép quét đoạn văn xét để tìm dấu đóng tương ứng Nếu tìm thấy, tồn phần ngoặc giữ nguyên tìm dấu kết thúc câu ngồi dấu ngoặc Nếu khơng tìm thấy dấu đóng tương ứng, dấu mở bị bỏ qua xử lý tiếp ký tự sau dấu mở bình thường - Tách câu mạng Neural : sử dụng mạng Neural với thông tin đầu vào từ xung quanh dấu báo hiệu kết thúc câu (ngữ cảnh dấu báo hiệu), đầu giá trị cho phép xác định có phải giá trị kết thúc câu hay không Chúng ta biểu diễn ngữ cảnh xung quanh dấu chấm câu dãy vector xác suất, vector xác suất đại diện cho từ thuộc ngữ cảnh Xác suất sử dụng cho từ ngữ cảnh xác suất lớn số xác suất từ loại có từ đó, xác suất lấy từ từ điển chứa liệu tần suất từ loại cho từ Vector ngữ cảnh (cịn gọi mảng mơ tả) sử dụng làm đầu vào cho mạng Neural với trọng số huấn luyện ngữ liệu tách câu Đầu mạng neural sau sử dụng để xác định vai trị dấu chấm “.” câu (là kết thúc câu hay không ) Gọi f giá trị hàm sigmoid đầu mạng neural Với 0< t1 ≤ t2 kết thúc Bước 3: kiểm tra tồn chuỗi từ điển Nếu có ta token sang bước Bước 4: tách chuỗi thành n chuỗi (n>=1) nhờ vào dấu chuỗi (vd: www.google.com ->www/./google/./com) Nếu tồn chuỗi có từ điển ta n token, không ta token Bộ phân tách token có chứa danh sách từ viết tắt thơng dụng, chuỗi nằm từ viết tắt xem token khơng cần tách nhỏ Các token sau tách phải có ý nghĩa Bước 5: quay lại bước + Bộ phận xác định từ loại: Ngữ cảnh xung quanh dấu chấm câu biểu diễn nhiều cách khác Đơn giản dễ thấy sử dụng từ đơn phía trước phía sau dấu câu (vd: Tôi ngủ Mẹ thức) Để xác định dấu chấm có phải dấu kết thúc câu ta phải xem xét từ ngữ cảnh có khả kết thúc hay bắt đầu câu Nhưng để xác định từ loại tốn thời gian (cần có liệu lớn để chứa thơng tin phục vụ cho việc xác định)và bị xử lý vòng (vì muốn xác định từ loại phải xác định ranh giới câu trước ) Vì vậy, ta chọn xấp xỉ ngữ cảnh hệ thống tách câu cách sử dụng xác suất lớn Ta cần từ điển liệu để chứa tần suất xuất từ loại từ Những từ từ điển gồm hình thái gốc, theo sau từ loại có với tần suất xuất tương ứng Bộ phận tìm kiếm từ loại hệ tiền xử lý tìm từ từ điển, thấy trả dãy từ loại từ với tần suất xuất tương ưng cho từ loại (vd: đá ->động từ_62% danh từ_38%) Từ điển có giới hạn nên có số từ khơng tìm thấy từ điển Khi đó, hệ thống sử dụng heuristics để cố gắng tìm từ loại hợp lý để gán cho từ : token chứa số từ tới GVHD: Vũ Đình Hồng Trang 46 Tách từ tiếng Việt Chương 4: Tách từ tiếng Việt IV.4.2 Tầng WFST IV.4.2.1 Xây dựng từ điển trọng số Theo mơ hình WFST, việc phân đoạn từ xem chuyển dịch trạng thái có xác suất Chúng ta miêu tả từ điển D đồ thị biến đổi trạng thái hữu hạn có trọng số Giả sử: - H tập từ tả tiếng Việt (tiếng) - P từ loại từ Mỗi cung D : • Từ phần tử H tới phần tử H • Từ ε (ký hiệu kết thúc từ) tới phần tử P Nói cách khác, từ miêu tả từ điển dãy cung: bắt đầu trạng thái ban đầu D, gán nhãn phần tử S thuộc H, kết thúc cung gán nhãn phần tử ε x P Nhãn biểu thị chi phí ước lượng Chúng ta biểu diễn câu cần tách phân đoạn trạng thái hữu hạn trọng số (FSA – Finite State Acceptor) I H Giả sử tồn hàm Id có đầu vào FSA A đầu chuyển dịch, mà phần tử bao gồm phần tử thuộc A gọi D* Cuối định nghĩa trường hợp phân đoạn từ câu câu có trọng số nhỏ Id(I) x D* Mỗi từ kết thúc cung biểu diễn chuyển đổi ε từ loại chúng Xác suất chuyển đổi tính cách lấy log xác suất từ tập mẫu lớn, theo công thức:cost= −log ( ) Trong : f: xác suất từ N: kích thước tập mẫu Xác suất lưu vào từ điển từ mới, ta áp dụng xác suất có điều kiện Good- Turning (Baayeen) để tính tốn trọng số cho từ sau: Giả sử ta có từ ABC, AB từ bản, C hậu tố ta cần tính cost(ABC) GVHD: Vũ Đình Hồng Trang 47 Tách từ tiếng Việt Chương 4: Tách từ tiếng Việt Gọi p(C) xác suất xuất C P(unseen( C)) : xác suất C đứng kề AB ୳୬ୱୣୣ୬(େ) => P(unseen(C ))=p( େ )* p(C) => cost(ABC) = cost (AB) + cost (unseen(C)) Với cost tính theo cơng thức Do từ điển từ tiền tố hậu tố ta lưu thêm xác suất C C đứng liền sau từ loại định IV.4.2.2 Xây dựng dãy khả phân đoạn từ Để tránh bùng nổ tổ hợp phân đoạn từ cho câu, ta duyệt câu để loại trường hợp khơng có khả tồn dựa vào so khớp từ điển vd: Em học học Em học Em Em học Khơng có từ từ điển Như ta có phân đoạn : Em || || học Thay có phân đoạn: Em||đi||học; Em||đi học; Em đi||học; Em học IV.4.2.3 Lựa chọn khả phân đoạn từ tối ưu Sau có danh sách phân đoạn ta chọn trường hợp có tổng trọng số bé Ví dụ: input = “Tốc độ truyền thơng tin tăng cao” “tốc độ” 8.68 “truyền” 12.31 “truyền thông” 12.31 “thông tin” 7.24 “tin” 7.33 “sẽ” 6.09 “tăng” 7.43 “cao” 6.95 GVHD: Vũ Đình Hồng Trang 48 Tách từ tiếng Việt Chương 4: Tách từ tiếng Việt Id(D) x D* = “Tốc độ # truyền thông # tin # # tăng # cao.” 48.79 (8.68 +12.31 + 7.33 + 6.09 + 7.43 +6.95 = 48.79 ) Id(D) x D* = “Tốc độ # truyền # thông tin # # tăng # cao.” 48.70 (8.68 +12.31 + 7.24 + 6.09 + 7.43 +6.95 = 48.70 ) Do đó, ta có phân đoạn tối ưu “Tốc độ # truyền # thông tin # # tăng # cao.” IV.4.3 Tầng mạng neural Sau cho câu phân đoạn từ mơ hình WFST Để xác định kết phân đoạn từ có thật hợp lệ hay không ta định nghĩa ngưỡng giá trị t0 : chênh lệch trọng số lớn t0 kết phân đoạn từ có trọng số nhỏ chấp nhận Cịn chênh lệch khơng lớn t0 cách phân đoạn chưa xem phân đoạn câu Khi cách phân đoạn từ chưa ta đưa qua mạng neraul để xử lý tiếp Mơ hình học câu mà sau qua mơ hình WFST cịn nhập nhằng Khi đó, câu nhập nhằng phân đoạn tay đưa vào máy học Để thực việc kiểm tra hợp lệ dãy từ loại câu ta sử dụng ngữ cảnh k cho từ có câu, ta sử dụng cửa sổ trượt có kích thước k từ mảng mơ tả trượt câu cần xét bắt đầu từ kết thúc từ cuối câu Mơ hình mạng ta sử dụng gồm nút nhập, 10 nút ẩn nút xuất Tầng nhập mạng neural kết nối hoàn toàn với tầng ẩn gồm 10 nút hàm truyền Những nút ẩn kết nối hoàn toàn với tầng xuất gồm nút Mỗi nút nhập giá trị nút xuất số thực nằm khoảng (0;1) thể khả hợp lệ dãy từ đứng liền cửa sổ trượt cửa sổ trượt từ đầu câu đến cuối câu ta cộng dồn kết lại với gán giá trị thành trọng số câu Hàm truyền ta sử dụng hàm sigmoid: ݂(ℎ ) = ଵ ష ଵା Câu chọn câu có trọng số lớn GVHD: Vũ Đình Hồng Trang 49 Chương 5: Chương trình ứng dụng Tách từ tiếng Việt CHƯƠNG V: CHƯƠNG TRÌNH ỨNG DỤNG Nội dung chương V: Xây dựng từ điển trọng số Bài toán tách từ tiếng Việt Các bước giải toán tách từ tiếng Việt Giao diện chương trình tách từ tiếng Việt Kết đánh giá Mơ hình đánh giá Một số ví dụ tách từ GVHD: Vũ Đình Hồng Trang 50 Chương 5: Chương trình ứng dụng Tách từ tiếng Việt V.1 Xây dựng từ điển Sử dụng kho ngữ liệu huấn luyện lấy từ www.vietlex.com để xây dựng từ điển có trọng số Đây kho ngữ liệu dùng để huấn luyện VNQTAG: Văn / Văn phong Số từ Chuyện tình trước lúc rạng đơng / Tiểu thuyết 16787 Chuyện tình trước lúc rạng đơng / Tiểu thuyết 14698 Hồng tử bé / Truyện nước 18663 Lược sử thời gian / Sách khoa học 11626 Muối rừng / Truyện ngắn 3573 Những học / Truyện ngắn 8244 Công nghệ / Báo chí 1033 Bảng : Danh sách ngữ liệu huấn luyện Tách từ (thủ công) văn tính xác suất từ Dùng cơng thức –log(f/n) để tính xác suất xuất từ Với f:số lần xuất từ n: tập mẫu Mỗi từ từ điển gắn với trọng số V.2 Bài toán tách từ tiếng Việt Cho toán tách từ tiếng Việt với đầu vào câu tiếng Việt Dùng mơ hình WFST mạng Neural tách câu thành từ Ứng dụng viết ngôn ngữ Python V.3 Các bước giải tốn - Nhập vào câu GVHD: Vũ Đình Hồng Trang 51 Chương 5: Chương trình ứng dụng Tách từ tiếng Việt - Chuẩn hóa câu (bỏ ký tự thừa, …) Tách câu thành cụm từ (dựa vào ký hiệu kết thúc) Tách lấy tên riêng (nếu viết tả) thành từ Tách tiếng cịn lại(khơng phải tên riêng) chuẩn hóa từ đầu câu Dùng WFST để tách từ: + Phân đoạn trường hợp có câu + Để tránh bùng nổ tổ hợp em sử dụng từ điển để loại trường hợp không hợp lệ + Dựa vào từ điển để tính trọng số cho trường hợp xem tách + Câu chọn câu có trọng số nhỏ - Nếu câu tách có nhập nhằng dùng mạng Neural - Xuất câu tách V.4 Giao diện ứng dụng Giao diện chương trình đơn giản Chỉ gồm textbox để nhập câu cần tách, button để nhập mún tách câu label để hiển thị kết sau tách từ Hình 1: Giao diện ban đầu ứng dụng 1: text để nhập nội dung câu cần tách vào 2: nút , nhấp vào nhận nội dung text xử lý tách từ 3: label để kết tách từ Gõ văn vào textbox, nhấn button Tách Từ (hoặc nhấn enter) chương trình nhận câu textbox, chuẩn hóa câu chuyển sang tầng WFST Ở tầng WFST GVHD: Vũ Đình Hồng Trang 52 Chương 5: Chương trình ứng dụng Tách từ tiếng Việt tìm khả phân đoạn có câu, dựa vào từ điển để tính trọng số, câu có trọng số nhỏ câu chọn Kết tách sau: Hình 2: Giao diện kết tách từ V.5 Kết đánh giá V.5.1 Mơ hình đánh giá Về mặt định lượng, để so sánh đánh giá độ xác mơ hình tách từ (dựa số tiêu chuẩn ranh giới từ) người ta dựa vào thông số sau1: Recall (R): Hệ số Recall đánh giá độ xác số lượng từ tách tổng số từ có liệu ban đầu Hệ số xác định theo số lượng từ xác chia cho tổng tất từ liệu ban đầu, với công thức sau: ܴ= số ݐừ đượܿ ݊ℎậ݊ ݀݅ệ݊ đú݊݃ số ݐừ ݃݊ ݃݊ݎݐữ ݈݅ệ ݑℎݑấ݊ ݈ݕݑệ݊ Precision (P): Hệ số Precision đánh giá độ xác số lượng tách tổng số lượng từ mà mơ hình thuật tốn tách Hệ số xác định theo số lượng từ tách xác chia cho tổng số lượng từ nhận diện mơ hình thuật tốn, với công thức sau: ܲ= số ݐừ đượܿ ݊ℎậ݊ ݀݅ệ݊ đú݊݃ số ݐừ đượܿ ݊ℎậ݊ ݀݅ệ݊ ܾằ݊݃ ݉ơ ℎì݊ℎ ݐℎݑậݐ ݐá݊ Đây cách đánh giá sử dụng hội nghị Bakeoff [8] GVHD: Vũ Đình Hồng Trang 53 Tách từ tiếng Việt Chương 5: Chương trình ứng dụng F-measure (F): Hệ số F-measure đánh giá mức độ xác chương trình dựa kết hợp Recall Precision, với công thức sau: F = 2RP R+P Dựa theo công thức xác định độ xác trên, ta có bảng kết sau: Tài liệu Hồng tử bé Cơng nghệ Số từ ngữ liệu 15547 1033 Số từ tách 15536 1021 Số từ tách 14943 985 Recall (%) Precision (%) Fmeasure 96.115 95.353 96.183 96.474 96.149 95.910 Bảng : Kết hệ số đo độ tin cậy chương trình V.5.2 Một số ví dụ Câu Kết trước bàn ông quan tài giỏi ||trước||bàn||là||một||ông quan||tài giỏi phải cho người làm việc người làm ||phải ||cho ||mỗi ||người ||làm ||việc ||người ||đó ||có thể ||làm Lâm ông quan tài giỏi ||Lâm ||là ||một ||ông ||quan ||tài giỏi rụt rè nhú lên mặt trời ||rụt rè ||nhú ||lên ||mặt trời ||một ||cái ||nhánh nhánh hiền lành tuyệt xinh ||con ||hiền ||lành ||tuyệt ||xinh ta xem mặt trời lặn ||ta ||đi ||xem ||mặt trời lặn ||đi tiếp nhận lời nhận xét bạn ||tôi ||tiếp nhận ||lời ||nhận ||xét ||của ||bạn Bảng : Một số ví dụ tách từ GVHD: Vũ Đình Hồng Trang 54 Chương 6: Nhận xét & hướng phát triển Tách từ tiếng Việt CHƯƠNG VI: NHẬN XÉT & HƯỚNG PHÁT TRIỂN VI.1 Nhận xét Trong cơng trình nghiên cứu này, em nghiên cứu ngữ pháp tiếng Việt mức bản: tiếng, từ, câu, … để áp dụng vào đề tài tách từ tiếng Việt Sau tìm hiểu số phương pháp tách từ tiếng Việt em xác định phương pháp cho đề tài mơ hình WFST mạng Neural Đây xem phương pháp có xác suất tách từ cao (Độ xác 97% [Đinh Điền et al, 2001]) việc xây dựng tập ngữ liệu công phu Đối với mạng Neural em hiểu mạng Neural gì, cấu trúc, phân loại, huấn luyện mạng Neural, … Em dùng Python để cài đặt ứng dụng tách từ tiếng Việt Do ngôn ngữ dễ học, mã nguồn dễ đọc, bố cục trực quan, dễ hiểu Tuy kết ban đầu có độ xác chưa thật cao, chúng hứa hẹn triển vọng tốt cho nghiên cứu VI.1.1 Kết đạt VI.1.1.1 Về mặt lý thuyết Biết tầm quan trọng tách từ vấn đề vấn đề xoay quanh xử lý ngôn ngữ tự nhiên Tìm hiểu qua số phương pháp tách từ tiếng Việt thấy ưu điểm nhược điểm phương pháp Và có lựa chọn mơ hình WFST cho đề tài tách từ tiếng Việt Hiểu cách tổng quát mạng Neural để chọn loại mạng thích hợp cho ứng dụng mạng dẫn tiến đa mức Hiểu ngơn ngữ tiếng Việt có tiếng đơn vị nhỏ từ gồm đến nhiều tiếng tạo thành Từ xây dựng mơ hình WFST mạng Neural để phục vụ cho việc xử lý toán tách từ tiếng Việt VI.1.1.2 Về mặt thực nghiệm Xây dựng thành công phần mềm tách từ tiếng Việt VI.1.2 Hạn chế Kho ngữ liệu nhỏ, cần tăng cường kho ngữ liệu để tăng cường độ xác chương trình GVHD: Vũ Đình Hồng Trang 55 Chương 6: Nhận xét & hướng phát triển Tách từ tiếng Việt VI.2 Hướng phát triển Sau thực đề tài này, em dự định tiếp tục nâng cao chức chương trình: Mở rộng kho ngữ liệu để việc tách từ xác Tách câu có độ nhập nhằng cao Tách cụm từ tiếng Việt Tách từ văn tiếng Việt Nếu hoàn thành phần tách từ tiếng Việt tốt, sở để thực số đề tài nóng bỏng nay: dịch máy, xử lý văn (kiểm lỗi tả, kiểm lỗi văn phạm, phân loại văn bản, …), khai thác văn bản, … GVHD: Vũ Đình Hồng Trang 56 Tách từ tiếng Việt Tài liệu tham khảo TÀI LIỆU THAM KHẢO Tiếng Việt: Đinh Điền, 2006, Xử lý ngôn ngữ tự nhiên, NXB Đại học quốc gia TP HCM GS.TS Hoàng Văn Hoành, TS Hà Quang Năng, PGS.TS Nguyễn Văn Khang, 1998, Từ Tiếng Việt, NXB Khoa Học Xã Hội Lại Thị Hạnh, 2002, “Trích cụm danh từ tiếng Việt nhằm phục vụ cho hệ thống tra cứu thông tin đa ngôn ngữ”, Luận văn Thạc sĩ Đại Học Khoa Học Tự Nhiên TP HCM Nguyễn Tài Cẩn, 1999, Ngữ pháp tiếng Việt, NXB Ðại học quốc gia Hà nội Tiếng Anh: Artificial neural network từ Wikipedia colin Fyfe, department of computing and information system, Artificial Neural Networks and Information theory, the university of Paisley H.Nguyễn et al, 2005 Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese Hoàng Kiếm, Đinh Điền, Nguyễn văn Toàn, 2001, Vietnamese Word Segmentation Proceeding of the Sixth Natural Language Processing Pacific Rim Symposium(NLPR 2001) Tokyo Le An Ha, 2008, A method for word segmentation Vietnamese 10 Le Hong Phuong, Anzim Roussanaly, 2009 A Hybrid Approach to Word Segmentation of Vietnamese Texts, France 11 PhD Thesis in Computer Science and Control Engineering , Natural Language Processing and Automated Text Categorization, University of Rome 12 Vapnik & Cortes, 1995 C.Cortes and V.Vapnik, Support Vector Network, Machine Learning, 20:273-297,1995 GVHD: Vũ Đình Hồng Trang 57 Tài liệu tham khảo Tách từ tiếng Việt 13 www.codeproject.com 14 VNQTAG: http://www.loria.fr/equipes/led/download/source/vnqtag.zip GVHD: Vũ Đình Hồng Trang 58 ... phụ thu? ??c vào trình bày liệu ứng dụng Những mơ hình phức tạp dẫn đến vấn đề lựa chọn trình huấn luyện việc lựa chọn giải thu? ??t học Lựa chọn giải thu? ??t học: có nhiều cân giải thu? ??t học Gần giải thu? ??t... chất đồng dạng phân tích thi? ??t kế Phân loại mạng Neural nhân tạo Phân loại theo kiểu liên kết Neural Một số mạng Neural Huấn luyện mạng Neural Phương pháp học Thu? ??t toán học Thu thập liệu cho mạng... tăng cường phần thu? ??t toán tồn cục Các tốn thường giải học tăng cường tốn điều khiển, trị chơi nhiệm vụ định (sequential decision making) khác III.5.2 Thu? ??t toán học III.5.2.1 Thu? ??t toán học mạng