1. Trang chủ
  2. » Thể loại khác

NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

27 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,19 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - Năm 2017 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học : PGS TS PHAN HUY KHÁNH Phản biện 1: PGS.TS Huỳnh Xuân Hiệp Phản biện 2: PGS.TS Nguyễn Tấn Khôi Phản biện 3: PGS.TS Hoàng Hữu Hạnh Luận văn bảo vệ Hội đồng chấm Luận án tiến sĩ Đại học Đà Nẵng vào ngày tháng năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm Thơng tin – Học liệu, Đại học Đà Nẵng - Thư viện Quốc gia Hà Nội MỞ ĐẦU Hiện nay, trường Đại học Champasak, trường Đại học tương đối lớn nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn hoạt động giao dịch hành chính, văn phòng khẩn trương tấp nập Hàng ngày, cán viên chức bận rôn thực phân loại, lưu trữ VBHC xuất lúc nơi, sau lại phải tìm kiếm, xử lý văn Từ nhu cầu thực tiễn cần đổi hiệu hoạt động hành văn phịng trường Đại học Champasak, luận án nhằm đến mục tiêu giải toán PLVB tiếng Lào tự động sở giải toán XLNNTN cho tiếng Lào Mục tiêu, đối tượng phạm vị nghiên cứu Mục đích đề tài : Nghiên cứu đặc trưng tiếng Lào, phương pháp tách từ PLVB đề xuất cho tiếng Thái, tiếng Việt tiếng Anh, sau áp dụng cho tốn PLVB tiếng Lào nói chung, VBHC trường ĐH Champasack, CHDCND Lào nói riêng Đối tượng nghiên cứu : Các toán liên quan đến lĩnh vực xử lý NNTN, XL tiếng Lào ngôn ngữ Lào Các phương pháp giải toán tách từ phân loại văn nói chung, giải cho tốn tách từ phân loại văn tiếng Lào nói riêng Hoạt động hành văn phịng trưởng ĐH Champasak, CHDCND Lào Phạm vi nghiên cứu : Lĩnh vực trí tệ nhân tao, XL NNTN, XL tiếng Lào Các giải pháp xây dựng kho ngữ liệu, soạn thảo văn bản, giải pháp tách từ, phân loại văn học máy Môi trường công cụ lập trình để thực nghiệm giải tốn tách từ, phân loại văn hành văn phịng trưởng ĐH Champasak, CHDCND Lào Nhiệm vụ nghiên cứu kết đạt Để đạt mục đích đề đây, luận án hướng đến ba nhiệm vụ sau : Nghiên cứu chuyên sâu XL NNTN, ngôn ngữ Lào phân tích, đánh giá kết xử lý tiếng Lào công bố Đề xuất giải pháp phân tách từ văn tiếng Lào sở xây dựng sở luật đặc trưng ngữ pháp, tính chất nguyên âm chữ viết Lào xây dựng kho ngữ liệu tiếng Lào Đề xuất mơ hình PLVB tiếng Lào sử dụng kết phân tách từ dùng luật kho ngữ vựng xây dựng Cấu trúc luận án Sau phần mở đầu, nội dung luận án gồm bốn chương sau : Chương giới thiệu tổng quan XLNNTN xử lý tiếng Lào Chương trình bày tổng quan lý thuyết phân tách từ, phân lớp PLVB, đó, luận án tập trung giới thiệu thuật toán phân tách từ, PLVB hướng nghiên cứu liên quan Chương tập trung đề xuất giải pháp giải toán tách từ văn tiếng Lào dựa sở luật đặc trưng ngữ pháp tính chất nguyên âm xây dựng kho ngữ vựng Trong chương tiến hành đánh giá hai thuật toán đề xuất SVM sử dụng mạng Neuron RBF Chương phân tích hoạt động hành văn phịng trường Đại học Champasak, trình bày bước thực nghiệm từ kho VBHC tiếng Lào trường, đánh giá kết thực nghiệm PLVB dựa hướng tiếp cận SVM sử dụng mạng Neuron RBF Đóng góp luận án Có kiến thức chuyên sâu lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý tiếng Lào, xây dựng toán tách từ sở nhận diện từ phục vụ giải toán phân loại văn tiếng Lào Có kiến thức chuyên sâu ngôn ngữ Lào, vận dung đặc trưng ngữ pháp tiếng Lào, xây dựng sở luật nhận diện từ câu văn tiếng Lào Đề xuất giải pháp nhận diện từ từ mơ hình cấu trúc từ tiếng Lào để giải toán tách từ phân loại văn tiếng Lào Xây dựng sở liệu chữ Lào, kho ngữ vựng kho văn hành tiếng Lào để phục vụ phân loại văn tiếng Lào Cài đặt hệ thống thử nghiệm, đánh giá kết phân loại văn hành tiếng Lào trường ĐH Champasack, CHDCND Lào CHƯƠNG VẤN ĐỀ XỬ LÝ TIẾNG LÀO 1.1 TÌM HIỂU TIẾNG LÀO 1.1.1.Giới thiệu tiếng Lào 1.1.2.Nguồn gốc tiếng Lào Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai, chịu ảnh hưởng tiếng Phạn (梵 語; sa saṃskṛtā vāk संस्कृता वाक् , ngôn ngữ cổ Ấn Độ), đời từ khoảng kỷ XVI, ngôn ngữ truyền thống Hoàng tộc Lào, truyền đạt tư tưởng Ấn Độ giáo Phật giáo, ngôn ngữ hỗn hợp bán đảo Đông Nam Á Tiếng Lào, ngôn ngữ đơn âm có điệu, đa số vay mượn từ ngôn ngữ cổ Ấn Độ, Paly, Sansakit Đạo Phật, phát triển rõ ràng vào kỷ XX 1.1.3.Những yếu tố ngữ pháp tiếng Lào Bảng chữ tiếng Lào Bảng chữ tiếng Lào gồm nhóm : phụ âm, nguyên âm dấu chữ số Hệ thống từ vựng tiếng Lào Từ đơn : Có thể mơ hình hố cấu trúc từ tiếng Lào theo ba tầng từ lên chân (tầng 3), thân (tầng 2) tóc (tầng 1) Tóc (tầng 1) Dấu Nguyên âm Thân (tầng 2) Thân chữ ກ, ຂ, ຄ,… ຈ, ສ, Chân (tầng 3) Nguyên âm Hình 1.1 Cấu trúc ba tầng chữ Lào Từ ghép : Từ láy : 3.Cấu trúc câu tiếng Lào Câu đơn Câu ghép 1.2 SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG 1.2.1.So sánh bảng chữ 1.2.2.So sánh cấu trúc âm tiết 1.2.3.So sánh cấu trúc từ vựng 1.2.4.So sánh cấu trúc câu 1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN 1.3.1.Giới thiệu số kết xử lý tiếng Lào 1.3.2.Thực trạng thách thức xử lý tiếng Lào 1.3.3.Đặt toán phân loại văn tiếng Lào 1.4 KẾT LUẬN CHƯƠNG Chương giới thiệu nguồn gốc tiếng Lào, vị trí tiếng Lào nước CHDCND Lào, giới thiệu tổng quan số đặc trưng tiếng Lào phổ thông Lào-Tai, Nội dung chương so sánh đặc điểm ngôn ngữ với số ngôn ngữ láng giềng Việt Nam, Thái Khmer để làm bất chất phức tạp toán tách từ Nội dung chương giới thiệu số cơng trình tiêu biểu cơng bố xử lý tiếng Lào, đánh giá trạng hạn chế bối cảnh XL NNTN xử lý tiếng Lào CHƯƠNG PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ 2.1 MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN 2.1.1 Khái niệm văn 2.1.2 Khái niệm soạn thảo văn (STVB) 2.1.3 Xu soạn thảo văn 2.2 BÀI TOÁN PHÂN LOẠI VĂN BẢN 2.2.1.Tìm hiểu tốn phân loại văn 2.2.2.Quy trình giải tốn PLVB Một cách tổng quát, giải toán PLVB gồm bước : Lựa chọn vec tơ đặc trưng văn bản, Biểu diễn văn theo mơ hình, Học có giám sát (SuperviseD Learning), Tiến hành phân loại văn Vec tơ đặc trưng biểu diễn văn cần xử lý số lần, hay tần suất, xuất từ văn bản, Loại văn nhãn C mà văn thuộc (ví dụ Nghị định, Quyết định, Công văn… ) 2.2.3 Các phương pháp giải toán PLVB Phương pháp máy học vec tơ hỗ trợ SVM Áp dụng cho toán PLVB : Thuật toán gồm hai giai đoạn huấn luyện phân loại : Giai đoạn huấn luyện : Đầu vào : - Các vec tơ đặc trưng văn tệp huấn luyện (ma trận kích thước MxN, với M số vec tơ đặc trưng tệp huấn luyện, N số đặc trưng vec tơ) - Tệp nhãn cho vec tơ đặc trưng tệp huấn luyện - Các tham số cho mơ hình SVM : C (tham số hàm kernel, thường dùng hàm Gauss) Đầu : - Mơ hình SVM (Các Support Vec tơ, nhân tử Lagrange a, tham số b) Giai đoạn phân loại : Đầu vào : - Vec tơ đặc trưng văn cần phân loại - Mơ hình SVM Đầu văn phân loại Kỹ thuật hàm bán kính xuyên tâm sở RBF Mạng hàm bán kính xuyên tâm sở RBF (Radial BasisFunctions), hay mạng nơ ron nhân tạo, gọi tắt mạng nơ ron RBF, dùng để giải toán nội suy xấp xỉ hàm nhiều biến Ưu điểm mạng nơ ron RBF thời gian huấn luyện ngắn, việc thiết lập nhanh đơn giản Nhận xét Có ba yếu tố quan trọng tác động đến kết PLVB liên quan đến tệp liệu huấn luyện, phương pháp tách từ thuật toán PLVB sử dụng Tệp liệu huấn luyện : Cần tệp liệu huấn luyện chuẩn đủ lớn thuật tốn học phân loại Nếu chúng tơi có tệp liệu cho văn tiếng Lào chuẩn đủ lớn trình huấn luyện tốt chúng tơi có kết qủa phân loại tốt sau học Sử dụng phương pháp tách từ : Các phương pháp hầu hết sử dụng mơ hình vec tơ để biểu diễn văn bản, phương pháp tách từ văn đóng vai trị quan trọng q trình biểu diễn văn vec tơ Sử dụng phương pháp PLVB : Phương pháp sử dụng để PLVB phải có thời gian xử lý hợp lý, thời gian bao gồm : thời gian học, thời gian PLVB Ngồi ra, thuật tốn sử dụng phải có tính tăng cường (Incremental Function) nghĩa không phân loại lại toàn tệp văn thêm số văn vào tệp liệu mà phân loại văn mà thơi, thuật tốn phải có khả giảm độ nhiễu (Noise) PLVB 2.3 BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN 2.3.1.Tìm hiểu tốn tách từ 2.3.2 Các phương pháp tách từ Để giải toán tách từ, hay phân đoạn từ, nhiều phương pháp khác nhau, hướng tiếp cận khác Đa số mơ hình áp dụng thành cơng cho ngôn ngữ tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Thái… Sau số hướng tiếp cận : - So khớp tối đa, hay cực đại MM (Maximum Matching) - Sử dụng trường xác xuất có điều kiện CRF (Conditional Random Field) - Phương pháp máy học sử dụng vec tơ hỗ trợ (Support Vector Machines) - Sử dụng mơ hình Markov ẩn HMM (Hidden Markov Models) - Sử dụng phương pháp máy học dựa cải biến TBL (Transformation-Based Learning) - Chuyển đổi trạng thái trọng số hữu hạn WFST (Weighted Finite State Transducer) - Độ hỗn loạn cực đại ME (Maximum Entropy) Phương pháp so khớp tối đa Ý tưởng phương pháp so khớp tối đa (Maximum Matching), hay gọi so khớp tối đa từ trái qua phải (From Left to Right Maximum Matching) duyệt câu vào từ trái qua phải chọn cụm từ dài có mặt từ điển từ vựng cho Quá trình tiếp tục lặp lại cụm từ tìm có độ dài giảm dần hết câu Phương pháp sử dụng trường ngẫu nhiên có điều kiện CRF Trong giải vấn đề nhiều lĩnh vực khoa học, người ta thường bắt gặp toán phân đoạn gán nhãn liệu dạng chuỗi Các mơ hình xác suất phổ biến để giải tốn mơ hình Markov ẩn (HMMs) văn phạm thống kê (Stochastic Grammar, hay Statistical Grammar) 2.3.3.Đánh giá hai phương pháp Phương pháp so khớp tối đa : Ưu điểm phương pháp so khớp tối đa đơn giản, dễ hiểu chạy nhanh Hơn phương pháp cần tệp từ điển đầy đủ tiến hành phân đoạn văn bản, hồn tồn khơng phải trải qua huấn luyện phương pháp trình bày Nhược điểm phương pháp khơng giải hai vấn đề quan trọng toán phân đoạn từ tiếng Lào : thuật toán gặp phải nhiều nhập nhằng, hồn tồn khơng có chiến lược với từ chưa biết bối cảnh hệ thống chữ viết Lào không sử dụng dấu trống để phân cách từ Phương pháp sử dụng trường xác xuất có điều kiện Mơ hình Markov ẩn văn phạm thống kê mơ hình sinh (Generative Models), tính tốn xác suất liên kết (Joint) cặp chuỗi quan sát chuỗi trạng thái Các tham số thường huấn luyện cách làm cực đại độ đo D liệu huấn luyện Để tính xác suất liên kết chuỗi quan sát chuỗi trạng thái, mơ hình sinh cần phải liệt kê tất trường hợp có chuỗi quan sát chuỗi trạng thái CHƯƠNG GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO 3.1 NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP 3.1.1.Vấn đề nhận diện từ câu tiếng Lào Trong tiếp cận giải toán tách từ tiếng Lào, tiến hành giải vấn đề nhận diện, hay xác định từ có mặt câu xét văn tiếng Lào cho Sau bước nhận diện từ bước tách từ PLVB Cho đến nay, vấn đề có tính nghiên cứu XL NNTN Hiện chưa có thống chung tiếp cận nghiên cứu từ, chưa có định nghĩa mang tính phổ dụng (Universal Definition) Trong vấn đề chưa giải cách triệt để ngôn ngữ học, vấn đề từ, định nghĩa từ xem xét trước triển khai bước nghiên cứu 3.1.2 Xây dựng mơ hình cấu trúc từ đơn Phân tích đặc trưng hệ viết chữ Lào, sử dụng bảng chữ cái, phụ âm đơn ghép, nguyên âm đơn ghép, dấu chữ số tiếng Lào (xem phụ lục), cho phép xây dựng mơ hình cấu trúc từ đơn tiếng Lào sau (hình 3.2.) : V2 X5 X4 V1 X0 X1 C X6 X7 X8 X9 X10 X2 X3 Hình 3.1 Cấu trúc từ đơn tiếng Lào Trong mơ hình cấu trúc từ đơn này, trung tâm phụ âm C, thành phần lại từ đơn tiếng Lào xác định vị trí so với phụ âm C, phía trước, phía sau, phía trên, cuối cùng, phía Như vậy, mơ hình cấu trúc có dạng chữ thập, hay gồm hai vec tơ giao vng góc với : -Vec tơ V1 = (X0, X1, C, X6, X7, X8, X9, X10) nằm ngang gồm nguyên âm, hay phụ âm Xi (đánh số từ trái qua phải) cho 11 biết cấu trúc từ cần nhận diện theo cách viết truyền thống -Vec tơ V2 = (X5, X4, C, X2, X3) thẳng đứng gồm nguyên âm, hay phụ âm, hay dấu Xj, đánh số từ xuống (ở phía C) từ lên (ở phía C) xác định cách viết từ -Phụ âm C nằm vị trí trung tâm, giao điểm hai vec tơ V1 V2 Các thành phần Xi, i=0 10, mơ hình cấu trúc đánh số theo cách viết truyền thống (hay thứ tự gõ vào từ bàn phím) chữ viết Lào Vec tơ V1 cho biết từ đơn khơng có ngun âm hay dấu phía hay phía trên, thứ tự viết theo hướng từ trái qua phải, tuỳ theo có mặt thành phần Vec tơ V2 xử lý trường hợp từ đơn có nguyên âm dấu phía và/hoặc phía Khi từ đơn có ngun âm dấu phía dưới, thứ tự viết theo hướng từ xuống dưới, X2 trước X3 Khi từ đơn có hai ngun âm phía trên, thứ tự viết theo hướng từ lên trên, X4 trước X5 Khi từ đơn có nguyên âm dấu phía phía trên, thứ tự viết X2, X3 tiếp tục X4, X5 Từ mơ hình cấu trúc từ đơn tiếng Lào, xây dựng vec tơ V tổ hợp hai vec tơ V1 V2 gồm thành phần Xi cho biết thứ tự viết tả từ đơn Các thành phần Xi vắng mặt tuỳ theo ngữ cảnh, nhiên phụ âm C ln ln có mặt Có thể biểu diễn vec tơ V sau ([Xi] định Xi vắng mặt): V = ([X0], [X1], C, [X2], [X3], [X4], [X5], [X]6, [X7], [X8], [X9], [X10]) 3.1.3 Giải pháp nhận diện từ câu 1.Xây dựng CSDL từ bảng chữ Lào, gọi chung ký tự, gồm phụ âm, nguyên âm, dấu chữ số tiếng Lào 2.Xây dựng vị từ (Predicate) nhận diện ký tự, sau xây dựng sở luật nhận diện từ đơn sở xác định vị trí ký tự câu máy suy diễn (MSD) hoạt động theo chế quay lui 3.Từ tập từ đơn nhận diện câu văn tiếng Lào đưa vào, tiếp tục bước tách từ để nhận kết 12 Kho VBHC tiếng Lào Máy suy diễn Câu vào S Văn vào Cơ sở luật Từ đơn W X Kho từ đơn tiếng Lào Tách câu Hình 3.3 Mơ hình nhận diện từ đơn tiếng Lào 3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN 3.2.1.Xây dựng vị từ hàm Để xây dựng sở luật nhận diện từ câu, bước xây dựng vị từ hàm xử lý liên quan Từ phân tích trên, sử dụng bảng 1.2, chúng tơi xây dựng vị từ xác định vị trí ký tự điểm bắt đầu, điểm kết thúc, hay nằm từ Mỗi vị từ dạng P(X), P(g(X, Y)) có kết (True) biến X hàm g(X, Y) vị từ thoả mãn điều kiện xét, X ϵ D1 Y ϵ D2, D1 D2 miền giá trị xác định từ CSDL chữ tiếng Lào xây dựng Vị từ trả kết sai (False) trường hợp ngược lại 3.2.3 Xây dựng máy suy diễn nhận diện từ đơn Văn tiếng Lào đưa vào tách câu, gọi S, để xử lý Ý tưởng xây dựng MSD theo chế quay lui (BackChaining) sau : MSD tách ký tự cuối câu S (từ phải qua trái) để ghép vào đầu từ đơn W (lúc đầu rỗng) hết câu Mỗi ký tự tách nhận diện vị trí nhờ sở luật Từ đơn W sau ghép nối thành công cập nhật vào kho từ đơn tiếng Lào Trong trình nhận diện ký tự, MSD cho biết có mặt hợp thức phụ âm trung tâm C W Nếu C vắng mặt W, MSD dừng báo lỗi 13 { Khởi động CSDL chữ tiếng Lào, xem kiện (Facts) } Procedure SymbolSetup(Symbol) [1] If X SymbolBase Then Return(“Success”) [2] Return(Setup1(SymbolBase)) { Khởi động sở luật nhận diện từ đơn (RuleBase) } Procedure Setup1(Rules) [3] If Rules =  Then Return(“Failure”) [4] ARule  Chọn luật ARule từ Rules (luật gặp đầu tiên, từ xuống) [5] Rules  Rules  { ARule } {  có nghĩa phép gán giá trị } [6] If (X  ARule.Conclusion) Then { X ký tự xuất bên phải luật} [7] If Setup2(ARule) = “Success” Then Return(“Success”) [8] Return(Setup1(Rules)) { Khởi động luật } { Nhận diện ký tự X từ câu vào S (ASymbol) } Procedure Setup2(Rule, Symbols) [9] Symbols  { F | F ARule.Premise } { Ký tự xuất bên trái luật } [10] Return SymbolsConjuntionSetup(Symbols) { Xử lý ghép (Concatenation) ký tự X vào từ đơn W } Procedure SymbolsConcatSetup(Symbols) If Symbols =  Then Return(“Success”) ASymbol  Nhận ký tự từ Symbols sau nhận diện Symbols  Symbols  { ASymbol } If SymbolSetup (ASymbol) = “Failure” Then Return(“Failure”) [11] Return(SymbolsConcatSetup(Symbols)) Hình 3.4 Cơ chế hoạt động máy suy diễn nhận diện từ đơn 14 3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ 3.3.1.Xây dựng kho ngữ vựng tiếng Lào 1.Cơ sở liệu từ điển May thay có nhiều nguồn cung cấp liệu từ điển miễn phí mạng với số lượng phong phú đa dạng, tận dụng nguồn tài nguyên để xây dựng sở liệu cho từ điển riêng 2.Định dạng dict.tab Đây chuẩn liệu từ điển Startdict (http://stardict.sourceforge.net/) 3.Định dạng dict.org Dict.org định dạng từ điển xây dựng www.dict.org Định dạng dễ sử dụng thường cá nhân sử dụng để xây dựng từ điển lớn Định dạng Dict mơ tả sau : tồn sở liệu từ điển lưu trữ hai tệp, tệp mục (chẳng hạn anhviet.index) tệp chứa nghĩa từ (chẳng hạn anhviet.dict) _ເ {Tab} Offset {Tab} Len_ 3.3.2 Kho VBHC tiếng Lào Văn vào Áp dụng phương pháp so khớp tối đa Kho từ vựng tiếng Lào Tách từ theo phương pháp so khớp tối đa Văn tách từ Hình 3.6 Mơ hình tách từ tiếng Lào dùng phương pháp so khớp tối đa Theo phương pháp này, hệ thống duyệt câu văn từ trái sang phải chọn cụm từ có nhiều từ đơn (tiếng hay âm tiết) có mặt từ điển, thể tiếp tục cho từ 15 hết câu Từ điển từ đơn tiếng Lào Văn tách từ chưa xử lý Khử bỏ nhập nhằng Văn xử lý nhập nhằng Cơ sở luật xử lý nhập nhằng Hình 3.7 Mơ hình xử lý nhập nhằng cho tách từ tiếng Lào 3.4 KẾT LUẬN CHƯƠNG Tách từ tiếng Lào nêu kết hơp phương pháp khử bỏ nhập nhằng số đặc trưng ngữ pháp tiếng Lào, việc tách từ dựa vào từ điển kho từ, phương pháp yêu câu phải có kho ngữ liệu lớn để hiệu cho việc tách từ, phương pháp giải nhập nhằng đa nghĩa từ, tách từ tách nhiều cách Những giải pháp mà đề cập góp phần xử lý phần tượng nhập nhằng văn tiếng Lào, cụ thể xử lý nhập nhằng đồng tự (hai từ có ký tự) CHƯƠNG THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 CHUẨN BỊ DỮ LIỆU 4.1.1.Phân tích trạng trường Đại học Champasak 4.1.2.Thu thập liệu HCVP trường Đại học Champasak 4.1.3.Xây dựng kho văn HCVP trường Đại học Champasak Đầu vào: Tệp văn cần phải phân tích gồm dạng :TXT, DOC, HTML, HTM, PDF Đầu : chuỗi ký tự túy theo quy ước sau : Nếu liệu đầu vào tệp văn tuý tiếng Anh (TXT) 16 lấy tất liệu Để tiến hành trình thực nghiệm đánh giá mơ hình đề xuất, bước chúng tơi sử dụng công cụ Htttrack để lấy mã html VBHC trang web tiếng Lào 4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM 4.2.1 Xây dụng mơ hình thử nghiệm Kho VBHC tiếng Lào Xử lý văn bản, chuyển dạng văn Thử nghiệm PLVB đánh giá kết Kho VBHC tiếng Lào xử lý Thử nghiệm phương pháp tách từ Kết phân loại VB Hình 4.1 Mơ hình triển khai thử nghiệm PLVB tiếng Lào 4.2.2 Chuẩn bị sở thử nghiệm 1.Cấu hình phần cứng, phần mềm 2.Đề xuất quy trình thử nghiệm 3.Đề xuất quy trình đánh giá kết Độ chuẩn xác A (Accuracy) tỉ số phần trăm cho biết số văn phân loại tuyệt đối thực tế : Ai  TPi  TNi TPi  TNi  FPi  FNi (4.1) Tỷ lệ, hay tần suất sai E (Error Rate) tỉ số phần trăm cho biết số văn bị phân loại sai : Ei   Aci  FPi  FNi TPi  TNi  FPi  FNi 17 (4.2) Độ xác P (Precision) tỉ số phần trăm cho biết số văn phân loại đúng: Pi  TPi TPi  FPi (4.3) Độ bao phủ R (Recall) tỉ lệ phần trăm số văn phân loại tổng số văn xử lý phân loại, không thuộc vào lớp xét Ri  TPi TPi  FNi (4.4) Giá trị trung bình điều hịa F (F- Score Harmonic Mean) tiêu chí đánh giá độ xác mơ hình dựa hai yếu tố độ xác P độ bao phủ R : F  P.R PR (4.5) 4.2.3 Đề xuất PLVB sử dụng hai phương pháp SVM RBF 1.Tiếp cận PLVB sử dụng phương pháp SVM 2.Tiếp cận PLVB sử dụng phương pháp mạng nơ ron RBF 4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.3.1.Thử nghiệm phương pháp nhận diện từ đơn Quá trình thử nghiệm sử dụng kho văn HCVP trường Đại học Champasak tiến hành cho bốn trường hợp khác dung lượng, hay độ lớn văn đầu vào khoảng từ 20KB đến 80KB : 1.20 K ≈ 1.000 từ 2.40 K ≈ 2.000 từ 3.60 K ≈ 3.000 từ 4.80 K ≈ 4.000 từ Kết chạy máy suy diễn từ sở luật xây dựng cho phép bóc tách từ đơn văn HCVP xây dựng kho 18 từ đơn tiếng Lào Để đánh giá hiệu giải pháp, sử dụng độ xác Precision, độ bao phủ Recall giá trị trung bình điều hịa F-Score Bảng 4.2 Thử nghiệm phương pháp nhận diện từ đơn sử dụng sở luật Dung lượng văn 20K 40K 60K 80K Độ xác 81.53 83.47 84.84 89.22 Độ bao phủ 75.50 78.34 79.77 79.67 Giá trị trung bình điều hòa 78.40 80.83 82.23 84.18 Kết 4.3.2.Thử nghiệm hai phương pháp tách từ CRF MM Chúng sử dụng độ đo : độ xác P, độ bao phủ R giá trị trung bình điều hòa để đánh giá kết chạy thử nghiệm hai phương pháp tách từ sử dụng trường điều kiện ngẫu nhiên CRF so khớp tối đa MM Các bảng mô tả số kết theo dung lượng văn (không hiển thị dấu % sau giá trị thống kê) : Bảng 4.3 Kết tách từ sử dụng phương pháp mạng nơ ron Dung lượng văn 20K 40K 60K 80K Kết Độ xác 75.98 78.43 78.52 80.28 Độ bao phủ 73.07 76.01 76.77 78.45 Giá trị trung bình điều hịa 74.49 77.2 77.64 79.36 Bảng 4.4 Kết tách từ sử dụng phương pháp so khớp tối đa Dung lượng văn 20K 40K 60K 80K Kết Độ xác 74.61 71.37 70.27 76.20 Độ bao phủ 51.76 67.44 73.00 69.53 Giá trị trung bình điều hịa 61.12 69.35 71.61 72.71 19 Bảng 4.5 Kết tách từ sử dụng ba phương pháp CRF, MMS dùng luật Dung lượng văn Giá trị trung bình điều hịa Sử dụng mạng nơ ron 20K 40K 60K 80K 74.49 77.2 77.64 79.36 So khớp tối đa 61.12 69.35 71.61 72.71 Sử dụng luật xử lý nhập nhằng 78.40 80.83 82.23 84.18 4.3.4.Thử nghiệm phân loại văn Chúng tiến hành thử nghiệm PLVB sử dụng hai phương pháp máy vec tơ hỗ trợ SVM mạng nơ ron RBF, sau đánh giá kết cách sử dụng độ đo quy ước : độ tích cực TP, độ tiêu cực TN, độ sai tích cực FP, độ sai tiêu cực FN, độ chuẩn xác A, tỷ lệ sai E, độ xác P độ bao phủ R Phân loại văn SVM kết hợp tách từ sử dụng mạng nơ ron Bảng 4.6 Kết PLVB tiếng Lào kết hợp SVM với CRF Tên lờp phân loại Nhân tiền lương Đào tạo Tuyển sinh Tốt nghiệp Đồn-Đảng-Thanh niên Cơng đồn Thời PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng CRF gian TP TN FP FN Accuracy ErrorRate Precision Recall BQ 63 17s 53 274 15 10 92.90 7.10 77.94 84.13 19s 55 272 16 13 68 91.85 8.15 77.46 80.88 19s 48 279 20 68 93.97 6.03 97.96 70.59 16s 47 280 17 14 61 91.34 8.66 73.44 77.05 19s 51 276 17 68 93.70 6.30 91.07 75.00 72 22s 63 264 17 92.63 7.37 78.75 87.50 Overall 92.73 7.27 82.77 79.19 Số VB 20 2.Phân loại văn SVM kết hợp tách từ sử dụng sở luật Bảng 4.7 Kết PLVB tiếng Lào kết hợp SVM với tách từ dựa sở luật Thời PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng sở luật Tên lờp gian Số VB phân loại BQ TP TN FP FN Accuracy ErrorRate Precision Recall Nhân tiền lương 63 12s 51 276 12 93.97 6.03 85.00 80.95 Đào tạo 68 14s 59 268 14 93.43 6.57 80.82 86.76 Tuyển sinh 68 14s 54 273 21 14 90.33 9.67 72.00 79.41 Tốt nghiệp 61 11s 48 279 12 13 92.90 7.10 80.00 78.69 Đoàn-Đảng-Thanh niên 68 14s 53 274 15 94.24 5.76 91.38 77.94 Cơng đồn 72 15s Overall : 62 265 10 95.61 4.39 92.54 86.11 93.41 6.59 83.62 81.64 3.Phân loại văn RBF kết hợp tách từ sử dụng CRF Bảng 4.8 PLVB RBF tiếng Lào kết hợp với tách từ sử dụng RF Tên lờp phân loại Số VB Thời gian BQ TP TN FP FN 12 93.97 6.03 85.00 80.95 PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng sở luật Accuracy ErrorRate Precision Recall Nhân tiền lương 63 12s 51 276 Đào tạo 68 14s 59 268 14 93.43 6.57 80.82 86.76 Tuyển sinh 68 14s 54 273 21 14 90.33 9.67 72.00 79.41 Tốt nghiệp 61 11s 48 279 12 13 92.90 7.10 80.00 78.69 Đoàn-Đảng-Thanh niên 68 14s 53 274 15 94.24 5.76 91.38 77.94 Cơng đồn 72 15s Overall : 62 265 10 95.61 4.39 92.54 86.11 93.41 6.59 83.62 81.64 Kết thử nghiệm PLVB sử dụng phương pháp mạng nơ ron 21 4.Phân loại văn RBF kết hợp tách từ sử dụng sở luật Bảng 4.9 Kết PLVB tiếng Lào kết hợp RBF với tách từ sử dụng sở luật Tên lờp phân loại Số VB Thời gian BQ TP TN FP FN PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng sở luật Accuracy ErrorRate Precision Recall Nhân tiền lương 63 12s 51 276 12 93.97 6.03 85.00 80.95 Đào tạo 68 14s 59 268 14 93.43 6.57 80.82 86.76 Tuyển sinh 68 14s 54 273 21 14 90.33 9.67 72.00 79.41 Tốt nghiệp 61 11s 48 279 12 13 92.90 7.10 80.00 78.69 Đoàn-Đảng-Thanh niên 68 14s 53 274 15 94.24 5.76 91.38 77.94 Cơng đồn 72 15s Overall : 62 265 10 95.61 4.39 92.54 86.11 93.41 6.59 83.62 81.64 5.Đánh giá phương pháp PLVB kết hợp tách từ Bảng 4.10 Kết thực nghiệm PLVB tiếng Lào kết hợp tách từ PLVB với vec tơ hỗ trợ SVM Tên lờp phân loại PLVB dùng mạng nơ ron RBF Số Thời Tách từ CRF VB gian BQ TP Accuracy TP Accuracy TP Accuracy TP Accuracy Nhân lương 63 Đào tạo Dựa sở luật Tách từ CRF Dựa sở luật 92.90 51 93.97 61 95.65 55 92.44 68 53 10s 12s 55 91.85 59 93.43 59 94.56 54 95.38 Tuyển sinh 68 12s 48 93.97 54 90.33 46 90.41 52 89.19 Tốt nghiệp 61 9s 47 91.34 48 92.90 55 92.96 51 96.77 Đoàn-Đảng -Thanh niên 68 12s 51 93.70 53 94.24 48 91.92 55 94.83 Công đoàn 72 15s 63 92.63 62 95.61 45 92.18 63 94.29 Tổng số văn 400 92.73 93.41 22 92.95 93.82 Hình 4.3 Lược đồ so sánh kết thực nghiệm mạng RBF SVM 4.4.KẾT LUẬN CHƯƠNG Trong chương này, luận án trình bày tổng hợp nghiên cứu PLVB nói chung tốn PLVB tiếng Lào nói riêng Về mặt lý thuyết, phương pháp máy vec tơ hỗ trợ SVM đơn giản phương pháp mạng nơ ron RBF trình thực nghiệm phức tạp khơng dễ tìm tham số phù hợp Quá trình lựa chọn tham số ngưỡng loại bỏ đặc trưng, thường q trình thử-sai nhiều cơng sức Với mạng nơ ron RBF, trình thực nghiệm tiến hành cơng cụ thư viện có sẵn nên hệ thống tham số lựa chọn cách đơn giản nhanh chóng Thơng qua kết thực nghiệm cho thấy, mạng nơ ron RBF giải toán PLVB cho kết khả quan phân loại SVM, khơng nhiều KẾT LUẬN 1.Các kết luận án Nơi dung nghiên cứu tập trung tìm hiểu khái niệm, mơ hình, phương pháp, kỹ thuật so sánh, đánh giá ưu nhược điểm phương pháp Luận án tập hợp trình bày số phương pháp phổ biến máy vec tơ hỗ trợ SVM 23 mạng nơ ron RBF Từ luận án đưa định sử dụng phương pháp PLVB cho tiếng Lào Các kết thử nghiệm PLVB tách từ đánh giá, so sánh thông qua bảng biểu đồ - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.73 % - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.41% - PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.94% - PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.82% 2.Những mặt hạn chế Thông qua kết thực nghiệm cho thấy, kết hợp tách từ sử dụng giải pháp sở luật để xử lý nhập nhằng, phương pháp mạng nơ ron RBF giải toán PLVB cho kết tốt (tuy không nhiều) phân loại máy vec tơ hỗ trợ SVM Các kết nghiên cứu cơng bố cơng trình 3.Hướng phát triển luận án Trong tương lai, tiếp tục nghiên cứu mối quan hệ kích thước ngữ liệu huấn luyện, mức độ cân ngữ liệu huấn luyện tác động lên hiệu phương pháp phân loại Chúng tiếp tục nghiên cứu giải toán PLVB cho văn đa ngữ, đa tạp (multimedia), đa lĩnh vực, có kích thước hay dung lượng lớn môi trường sử dụng linh hoạt Hơn nữa, tiếp tục cải thiện độ xác phương pháp PLVB, tách từ tiếng Lào có được, thơng qua việc cải thiện sở luật, máy suy diễn kết hợp thêm số đặc trưng từ loại, cú pháp ngữ nghĩa hệ việt tiếng Lào 24

Ngày đăng: 18/04/2021, 22:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN