Mục tiêu nghiên cứu đề tài là nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,…
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS Trần Thị Kiều Đà Nẵng, 12/2016 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS Trần Thị Kiều Xác nhận quan chủ trì đề tài Đà Nẵng, 12/2016 Chủ nhiệm đề tài MỤC LỤC MỞ ĐẦU 1 LÝ DO CHỌN ĐỀ TÀI MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu BỐ CỤC CỦA BÁO CÁO CHƯƠNG 1.1 TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1.1 Tổng quan từ điển 1.1.2 Cơ sở liệu từ điển 1.1.3 Các chuẩn liệu từ điển 1.1.4 Kho ngữ liệu 1.1.5 Các phương pháp tách từ tiếng Việt 11 1.2 CÁC CƠNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN 11 1.3 TỔNG KẾT CHƯƠNG 12 CHƯƠNG ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU 13 2.1 PHÁT BIỂU BÀI TOÁN 13 2.2 ĐỀ XUẤT GIẢI PHÁP 14 2.2.1 Mơ hình tốn 14 2.2.2 Đặc tả mơ hình tốn 15 2.3 LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 16 2.3.1 Phân đoạn từ tiếng Việt 16 2.3.2 Dịch máy thống kê 18 2.3.3 Định dạng liệu từ điển 20 2.4 TỔNG KẾT CHƯƠNG 20 CHƯƠNG 3.1 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM 21 TRIỂN KHAI ỨNG DỤNG .21 3.1.1 Lựa chọn công nghệ 21 3.1.2 Chuẩn bị liệu 21 3.1.3 Kết đạt 21 3.1.4 Đánh giá kết 25 3.2 TỔNG KẾT CHƯƠNG 25 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa HTML HyperText Markup Language CSDL Cơ sở liệu KDD Knowledge Discovery in Database KPDL Khai phá liệu LRMM Left Right Maximum Matching RLMM Right Left Maximum Matching MMSEG Maximum Matching Segmentation WFST Weighted finit–state Transducer DANH MỤC CÁC HÌNH VẼ Hình 1.1: Định dạng dict.org Hình 1.2: Định dạng dict.org Hình1.3: Ví dụ tập tin có định dạng spdict Hình 2.1 :Phác thảo mơ hình toán 14 Hình 2.2: Mơ phương pháp khớp tối đa 18 Hình 2.3: Ví dụ thống kê dựa vào cụm từ 20 Hình 3.1: Cấu trúc tập tin kho ngữ liệu Anh – Việt 22 Hình 3.2: Kết phân tích từ từ kho song ngữ 22 Hình 3.3: Kết sau tách từ tiếng Anh 23 Hình 3.4: Kết sau tách từ tiếng Việt 23 Hình 3.5: Lưu liệu từ điển theo định dạng dict.org 24 DANH MỤC CÁC BẢNG Bảng 3.1: Kết thử nghiệm công cụ trích xuất liệu từ điển 25 TÓM TẮT KẾT QUẢ NGHIÊN CỨU Tên đề tài: Nghiên cứu xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu Mã số: Chủ nhiệm: ThS Trần Thị Kiều Điện thoại: 0905.433.387 E-mail: ttkieu@cit.udn.vn Cơ quan chủ trì: Trường Cao đẳng Công nghệ Thông tin Đơn vị thực hiện: Trường Cao đẳng Công nghệ Thông tin Thời gian thực hiện: 12 tháng Mục tiêu: Mục tiêu đề tài là nghiên cứu xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu: Nghiên cứu từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; kho ngữ liệu, loại kho ngữ liệu Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Từ đó, làm nguồn liệu cho phần mềm từ điển, nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Nội dung chính: Nghiên cứu tổng quan từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Xây dựng công cụ xây dựng sở liệu từ điển từ kho ngữ liệu Kết đạt (khoa học, ứng dụng, đào tạo, kinh tế - xã hội): Kết đạt áp dụng nội dung thuyết minh, cụ thể sau: Đã công bố 01 bài báo đăng CITA 2016 Báo cáo tổng kết Đã xây dựng công cụ xây dựng sở liệu từ điển từ kho ngữ liệu Cơ quan Chủ trì Chủ nhiệm đề tài (ký, họ tên, đóng dấu) (ký, họ tên) MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Người ta thường nói rằng: “Chúng ta sống thời đại công nghệ thông tin”, thực ra, sống thời đại liệu Lượng liệu khổng lồ tất lĩnh vực kỹ thuật, kinh tế, xã hội,…phần lớn tìm thấy thơng qua hệ thống mạng Internet Tuy nhiên, lượng thông tin mạng Internet chưa khai thác triệt để nhiều lý lý quan trọng là rào cản ngôn ngữ Để phá bỏ rào cản và giúp ta tiếp cận nhanh với thời đại công nghệ, giao lưu và làm việc với bạn bè quốc tế Và tất nhiên từ điển công cụ quan trọng và đắc lực phục vụ người học, người làm Hiện có nhiều phần mềm, nhiều trang web từ điển hỗ trợ có thực tế lượng liệu nguồn từ điển hữu hạn phần mềm trang web có lượng từ hoạt động lĩnh vực khác Có từ khơng tìm thấy trang web này tìm thấy trang web khác Điều làm cho người dùng phải sử dụng nhiều trang web, cài nhiều phần mềm,… bất tiện Hơn nữa, phần quan trọng ứng dụng từ điển là sở liệu, coi trái tim chương trình Qua khảo sát có nhiều cơng trình, nhiều báo nghiên cứu để tạo nên sở liệu từ: giải pháp hợp liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa kho ngữ liệu song song [6], [9] Tuy nhiên, cơng trình nghiên cứu hợp sở liệu có sẵn chưa xử lý ngơn ngữ tiếng Việt Với thực trạng đó, tơi mong muốn nghiên cứu giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Thay xây dựng từ điển, qui luật chuyển đổi tay tự động xây dựng từ điển, qui luật dựa kết thống kê có từ kho ngữ liệu Mục đích làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ 14 liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… 2.2 ĐỀ XUẤT GIẢI PHÁP 2.2.1 Mơ hình tốn Hình 2.1 :Phác thảo mơ hình tốn Trên là mơ hình bước xây dựng toán xây dựng sở liệu từ điển Từ kho song ngữ Anh – Việt, ta tiến hành trích xuất văn tiếng Anh, văn tiếng Việt Sau đó, ta tiền xử lý văn bản: tách dịng tách từ cho văn Bước gióng từ cho câu song ngữ Và cuối tao từ điển cho văn song ngữ Như mơ hình trên, tơi tóm tắt việc xây dựng sở liệu từ điển bước sau: 15 Bước 1: Chuẩn bị liệu Bước 2: Trích xuất văn tiếng Anh, văn tiếng Việt Bước 3: Tiền xử lý văn bản, tách từ tiếng Việt Bước 4: Gióng từ song ngữ Anh – Việt Bước 5: Tạo từ điển cho văn song ngữ Bước 6: Làm mịn liệu 2.2.2 Đặc tả mơ hình tốn 2.2.2.1 Chuẩn bị liệu Đây là bước quan trọng Như phân tích liệu trái tim chương trình phần mềm từ điển người làm liệu từ điển phải tìm kho ngữ liệu chất lượng Chúng ta tìm kiếm kho ngữ liệu từ cá nhân, tổ chức nghiên cứu muốn chia sẻ Các nguồn ngữ liệu tồn nhiều định dạng khác Càng tìm kiếm nhiều kho ngữ liệu chất lượng việc tạo liệu từ điển tốt 2.2.2.2 Trích xuất văn tiếng Anh, văn tiếng Việt Vì kho ngữ liệu sau thu thập tồn nhiều định dạng khác nên phải phân tích kho ngữ liệu, đọc định dạng tiến hành trích xuất văn tiếng Anh, văn tiếng Việt từ kho song ngữ Đầu vào: kho song ngữ Anh – Việt Đầu ra: văn tiếng Anh, văn tiếng Việt 2.2.2.3 Tiền xử lý văn bản, tách từ tiếng Việt Từ văn tiếng Anh, văn tiếng Việt trích xuất bước 2, ta tiền xử lý văn bản: mã hóa, tách dịng, tách từ cho văn 2.2.2.4 Gióng từ Từ văn sau tiền xử lý, ta tiến hành gióng từ tương ứng cho câu văn 16 2.2.2.5 Tạo từ điển cho văn song ngữ Tạo từ điển gióng câu ví dụ từ kho ngữ liệu song ngữ 2.2.2.6 Làm mịn liệu Đây là cơng đoạn cuối chuỗi qui trình tạo liệu từ điển Sau hồn thành q trình tạo liệu từ điển có nhiều trường hợp liệu bị trùng lặp liệu kết hợp lại với chưa kết hợp, mục đích cơng đoạn làm giảm dư thừa liệu để làm cho chất lượng sở liệu tốt 2.3 LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 2.3.1 Phân đoạn từ tiếng Việt Các phương pháp phân loại ứng dụng vào ngôn ngữ khác cho hiệu khác [5] Nếu tiếng Anh từ có nghĩa tiếng Việt bên cạnh từ đơn cịn có từ phức, từ ghép nhiều từ đơn ghép lại mà tạo nên nghĩa Ví dụ: Ví dụ, câu nói “phân_đoạn từ tiếng_Việt bài_tốn quan_trọng”, thấy dấu cách trống dấu hiệu để nhận ranh giới từ Các phương pháp ứng dụng rộng rãi để tách từ tiếng Việt: MM Maximum Matching: forward / backward; LRMM: Left Right, RLMM: Right Left và phương pháp MMSEG: Maximum Matching Segmentation, là cách tách từ đơn giản nhanh sử dụng thuật toán khớp tối đa (Maximum Matching) Theo phương pháp LRMM để phân đoạn từ tiếng Việt ngữ/câu, ta từ trái sang phải chọn từ có nhiều âm tiết mà có mặt từ điển, tiếp tục cho từ hết câu Với cách này, ta dễ dàng tách xác ngữ/câu như: “hợp tác xã | mua bán”; “thành lập | nước | Việt Nam | dân chủ | cộng hoà”,… Phương pháp RLMM ngược lại, câu/ngữ, ta từ phải sang trái chọn từ có nhiều âm tiết mà có mặt từ điển, tiếp tục cho từ hết câu Phương pháp MMSEG là kết hợp hai phương pháp LRMM và RLMM, MMSEG cho kết tốt hai phương pháp 17 Trong đề tài chọn phương pháp MMSEG để tách từ tiếng việt có sử dụng từ điển Tiếng Việt Phương pháp Maximum Matching cho bài toán tách từ tiếng Việt Với thuật tốn khớp tối đa (Maximum Matching) có nhiều nghiên cứu với kết thực nghiệm khả quan Trong tiếng Trung, cách này đạt độ xác 98,41% [Chih-HaoTsai,2000] Hơn nữa, cách tách từ đơn giản, nhanh, cần dựa vào từ điển Trong phạm vi đề tài tơi sử dụng thuật tốn so khớp để tách từ tiếng Việt dựa vào từ điển tiếng Việt gồm 70880 từ đơn và từ ghép.; Phương pháp Maximum Matching trình bày sau: Phương pháp khớp tối đa (Maximum Matching) Theo phương pháp này, ta duyệt ngữ câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển, thể tiếp tục cho từ hết câu Thuật tốn trình bày [13] Dạng đơn giản dùng giải nhập nhằng từ đơn Giả sử có chuỗi ký tự (tương đương với chuỗi tiếng tiếng Việt) C1, C2 , Cn Ta đầu Đầu tiên kiểm tra xem C1, có phải từ hay khơng, sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục tìm tìm từ dài Từ hợp lý từ dài Chọn từ đó, sau tìm tiếp cho từ lại xác định toàn chuỗi từ Dạng phức tạp: quy tắc dạng này là phân đoạn hợp lý là đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu dạng đơn giản Nếu phát cách tách từ gây nhập nhằng (ví dụ, C1 từ C1C2 là từ), ta xem chữ để tìm tất đoạn ba từ có bắt đầu với C1 C1C2 Ví dụ ta đoạn sau: C1 C2 C3 C4 C1C2 C3 C4 C5 C1C2 C3 C4 C5 C6 18 Chuỗi dài chuỗi thứ ba Vậy từ chuỗi thứ ba (C1C2) chọn Thực lại bước chuỗi từ hồn chỉnh Hình 2.2: Mô phương pháp khớp tối đa 2.3.2 Dịch máy thống kê Mục tiêu dịch văn từ ngơn ngữ nguồn sang ngơn ngữ đích Chúng ta có câu văn ngôn ngữ nguồn (“Tiếng Anh”) 𝑒1𝐼 = e1,…,ei, mà dịch thành câu văn ngơn ngữ đích (“Tiếng Việt”) 𝑣1𝐼 = v1,…,vi Trong tất câu có văn đích, chọn câu cho: 𝑣1𝐼 = argmax p|(𝑣1𝐼 |𝑒1𝐼 ) [4] Ưu điểm phương pháp dịch thống kê [4] Cho trước từ ngôn ngữ nguồn, phải định chọn từ ngơn ngữ đích Vì vậy, tạo cho cảm giác giải định lý định thống kê Điếu dẫn đến cách tiếp cận thống kê đề xuất Mối quan hệ đối tượng ngôn ngữ từ, cụm từ cấu trúc ngữ pháp thường yếu và mơ hồ Để mơ hình hóa phụ thuộc này, cần cơng thức hóa đưa phân phối xác suất mà giải với vấn đề phụ thuộc lẫn 19 Để thực dịch máy, thiết phải kết hợp nhiều nguồn trí thức Trong dịch thống kê, dựa vào toán học để thực kết hợp tối ưu nguồn trí thức Trong dịch máy thống kê, trí thức dịch học cách tự động từ liệu huấn luyện Với kết vậy, việc phát triển hệ dịch dựa vào thống kê nhanh so với hệ dịch dựa vào luật Dịch máy thống kê phù hợp với ứng dụng nhúng mà dịch máy phần ứng dụng lớn Việc đưa khái niệm “chính xác” mối quan hệ ngữ pháp, ngữ nghĩa, văn phong khó khăn khơng nói khơng thể Vì vậy, việc hình thức hóa vấn đề xác tốt khơng thể dựa vào giằng buộc luật mô tả chúng Thay vào đó, cách tiếp cận thống kê, giả định mơ hình kiểm định thực nghiệm dựa vào liệu huấn luyện Dịch máy thống kê dựa vào cụm từ (phrase-based) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng rộng rãi ngày nay, thay vào là dịch máy thống kê sở cụm từ [4] Dịch máy thống kê sở cụm từ có mục đích là để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ kỹ thuật này thường không theo nghĩa ngôn ngữ học mà cụm từ tìm thấy cách sử dụng phương pháp thống kê để trích rút từ cặp câu Từ ngôn ngữ nguồn (Tiếng Anh) dựa vào thuật tốn tìm kiếm Beam dựa đặc trưng hệ dịch máy thống kê dựa cụm từ (mơ hình ngơn ngữ, mơ hình dịch, mơ hình đảo cụm,…) ngơn ngữ đích (Tiếng Việt) 20 Hình 2.3: Ví dụ thống kê dựa vào cụm từ Hầu hết hệ thống dựa cụm từ sử dụng Giza++ để gióng hàng câu, trích rút cặp câu song ngữ 2.3.3 Định dạng liệu từ điển Định dạng dict.tab file text, cấu trúc dễ hiểu Theo cách thông thường hướng dẫn chuẩn dict, để load danh sách nạp toàn danh sách từ vào listbox, thao tác với danh sách từ đơn giản listbox hỗ trợ hết, số lượng từ từ điển tương đối nhiều tốc độ truy cập khơng tối ưu.Vì người ta khơng dùng làm liệu từ điển, kết hợp với liệu từ điển theo định dạng Spdict làm tăng khả tra từ cho từ điển Định dạng Spdict tác giả Bùi Đức Tiến phát triển dựa định dạng dict.org khắc phục số hạn chế dict.org: thêm, sửa, xóa nghĩa từ Cấu trúc định dạng Spdict phức tạp, gần giống mảng trỏ Ở báo cáo chọn lưu liệu từ điển theo định dạng dict.org Định dạng dễ sử dụng và số cá nhân sử dụng để xây dựng từ điển lớn Hơn dễ dàng chuyển đổi qua lại định dạng liệu từ điển nên lưu liệu từ điển định dạng 2.4 TỔNG KẾT CHƯƠNG Giải pháp tổng thể toán xây dựng sở liệu từ điển; lựa chọn giải pháp kỹ thuật; nội dung phương pháp tách câu từ, tách từ cho tiếng Việt trình bày chương này Lúc ta xem có đầy đủ mặt sở lý thuyết giải pháp xây dựng liệu từ điển Bước ta hoàn tồn xây dựng triển khai thực nghiệm hệ thống Đó là nội dung trình bày chương 21 CHƯƠNG TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM Sau tìm hiểu tổng quan lĩnh vực từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; tổng quan kho ngữ liệu, loại kho ngữ liệu chương Và chương phân tích và trình bày đề xuất giải pháp lựa chọn mặt phương pháp, kỹ thuật Ta hoàn toàn có sở vững để triển khai xây dựng liệu từ điển Vì vậy, chương báo cáo trình bày nội dung triển khai thực nghiệm 3.1 TRIỂN KHAI ỨNG DỤNG 3.1.1 Lựa chọn công nghệ Ứng dụng sử dụng ngôn ngữ Python kết hợp thư viện NLTK 3.0 hệ điều hành Linux 3.1.2 Chuẩn bị liệu Kho ngữ liệu song ngữ Anh – Việt thu thập từ kho ngữ liệu tác giả Đinh Điền Kho song ngữ này đăng ký quyền tác giả Cục Bản quyền Tác giả 3.1.3 Kết đạt Phần làm việc chương trình gồm phần: Phần (1) trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu tách từ tiếng Việt Phần (2) gióng từ Anh –Việt Phần (3) lưu liệu từ điển theo định dạng dict.org Phần (1) trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu tách từ tiếng Việt: Đầu vào: file song ngữ Anh – Việt Đa số kho ngữ liệu song song sử dụng XML để biểu diễn định dạng chúng XML cho phép tạo định dạng chuẩn mà dễ dàng lưu trữ và trao đổi tổ chức, hệ thống khác Vì vậy, kho song ngữ Anh – Việt sử dụng dạng chuẩn XML E002905.xml : 300 câu song ngữ E002906.xml: 300 câu song ngữ 22 E002907.xml: 244 câu song ngữ Hình 3.1: Cấu trúc tập tin kho ngữ liệu Anh – Việt Cơng cụ tiến hành trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu giai đoạn tách từ tiếng Việt tơi sử dụng công cụ tách từ tiếng Việt vnTokenizer tác giả Lê Hồng Phương Kết sau: Hình 3.2: Kết phân tích từ từ kho song ngữ 23 Đầu trình file chứa câu Anh – Việt sau xử lý tách từ o File source.tok: Hình 3.3: Kết sau tách từ tiếng Anh o File target.tok: Hình 3.4: Kết sau tách từ tiếng Việt Như từ file source.tok, target.tok ta thấy kết tách từ câu song ngữ Anh – Việt sau: They won against big artist like DBSK, Big_Bang, Lee_Hyori, and Rain making them the top girl group of the year Họ giành chiến_thắng trước nghệ_sĩ lớn DBSK, Big_Bang, Lee_Hyori Rain làm cho họ trở_thành nhóm nhạc nữ hàng_đầu năm 24 Phần (2) gióng từ Anh – Việt: phần sử dụng tool GIZA++ Đầu vào: file source.tok, target.tok, tập tin chứa câu ngôn ngữ nguồn, tập tin chứa câu ngơn ngữ đích Mỗi câu nằm dòng Số câu tập tin phải tương ứng Đầu ra: file sau gióng từ song ngữ Anh – Việt # Sentence pair (1) source length 24 target length 26 họ giành chiến_thắng trước nghệ_sĩ lớn dbsk , big_bang , lee_hyori rain làm cho họ trở_thành nhóm nhạc nữ hàng_đầu năm NULL ({ 24 }) they ({ }) won ({ }) against ({ }) big ({ }) artist ({ }) like ({ }) dbsk ({ }) , ({ 10 }) big_bang ({ 11 }) , ({ 12 }) lee_hyori ({ 13 }) , ({ }) and ({ 14 }) rain ({ 15 }) making ({ 16 17 }) them ({ 18 }) the ({ }) top ({ 19 23 }) girl ({ 21 22 }) group ({ 20 }) of ({ }) the ({ }) year ({ 25 }) ({ 26 }) Phần (3) lưu vào file liệu từ điển theo định dạng dict.org Hình 3.5: Lưu liệu từ điển theo định dạng dict.org 25 3.1.4 Đánh giá kết Tơi tiến hành thử nghiệm trích xuất liệu từ điển từ kho ngữ liệu và kết sau: Lần thử Kho ngữ liệu E002905.xml E002906.xml E002907.xml Cặp câu song ngữ 300 300 244 Tổng số từ tách Tiếng Anh 6273 6707 4993 Tiếng Việt 6546 6816 5201 Số từ điển trích xuất 295 309 261 Bảng 3.1: Kết thử nghiệm cơng cụ trích xuất liệu từ điển Trên là đánh giá thử nghiệm kho ngữ liệu: E002905.xml, E002906.xml, E002907.xml Số từ điển trích xuất phụ thuộc nhiều trường hợp, chẳng hạn số lượng từ, cụm từ Anh – Việt lặp lặp lại, hay từ tiếngAnh dịch nhiều nghĩa tiếng Việt Nhìn chung, kết này khơng cao nhiên đạt hiệu định Hơn nữa, với phương pháp này ta tạo liệu từ điển từ kho ngữ liệu và có ngân hàng ví vụ cho từ điển từ kho song ngữ 3.2 TỔNG KẾT CHƯƠNG Chương triển khai thành công công cụ xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu Từ đó, làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Bên cạnh đó, chương này trình bày đánh hạn chế chưa đạt và đề định hướng nghiên cứu tương lai 26 KẾT LUẬN Báo cáo trình bày nghiên cứu giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Thay xây dựng từ điển, qui luật chuyển đổi tay tự động xây dựng từ điển, qui luật dựa kết thống kê có từ kho ngữ liệu Mục đích làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Báo cáo tiến hành thử nghiệm kho song ngữ Anh- Việt trích xuất liệu từ điển phương pháp trích rút từ kho ngữ liệu Kết không cao nhiên đạt hiệu định so với cơng trình nghiên cứu lĩnh vực xây dựng sở liệu từ điển Bên cạnh kết đạt được, dù cố gắng hữu hạn thời gian kiến thức, báo cáo số hạn chế: Chưa tiến hành so sánh phương pháp, kỹ thuật báo cáo chọn so với phương pháp khác hiệu nào Thay vào lựa chọn phương pháp, kỹ thuật dựa đánh giá nghiên cứu cơng trình tun bố trước Số lượng liệu từ điển trích xuất phụ thuộc vào chất lượng kho ngữ liệu Tuy nhiên, báo cáo chưa thử nghiệm nhiều kho ngữ liệu nhiều lĩnh vực khác kho ngữ liệu lớn Định hướng nghiên cứu tương lai: Tiến hành so sánh phương pháp, kỹ thuật luận văn chọn so với phương pháp khác hiệu Tiến hành thử nghiệm nhiều kho ngữ liệu lớn nhiều lĩnh vực khác nhau, đưa đánh giá cụ thể Cải thiện, cải tiến để triển khai hệ thống áp dụng thực tế 27 TÀI LIỆU THAM KHẢO [1] Đặng Đại Thọ, Huỳnh Công Pháp (2013), “Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa”, Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng – Số 12 (73), Quyển II [2] Ngô Anh Vũ (2015), “Nghiên cứu giải pháp hợp liệu để xây dựng từ điển đa ngữ”, Luận văn Thạc Sĩ, Đại học Đà Nẵng [3] Đặng Đại Thọ (2014), “Xây dựng hệ thống mở rộng kho ngữ liệu dịch tự động”, Đề tài khoa học công nghệ - ĐHĐN, Mã số: Đ2013-07-06-BS [4] Đào Ngọc Tú (2012), “Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt, Luận văn Thạc Sĩ, Học viện Công nghệ Bưu Viễn thơng [5] Trần Thị Kiều (2015), “Nghiên cứu xây dựng hệ thống hỗ trợ tư vấn việc làm”, Luận văn Thạc Sĩ, Đại học Đà Nẵng [6] Enikö Héja (2010), “Dictionary Building based on Parallel Corpora and Word Alignment”, Research Institute for Linguistics, HAS, Dept of Language Technology [7] Huynh C-P (2016), “Solutions of Creating Large Data Resources in Natural Language Processing”, ACIIDS_2016_submission [8] Huynh C-P (2010) Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia PhD thesis-National Polytechnic Institute of Grenoble, 228 p [9] Adam Kilgarriff (2012), “Using corpora [and the web] as data sources for dictionaries” [10] Huynh C-P (2011),”New approach for collecting high quality parallel corpora from multilingual Websites”, iiWAS11 Conference Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services [11] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2nd International Conference on Language and Automata Theory and Applications LATA 2008, Mar 2008, Tarragona, Spain [12] J Han and M Kamber, Data mining: concepts and techniques San Francisco: Morgan Kaufmann Publishers, 2006 [13] Chih-Hao Tsai, “MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm” 28 [14] http://tech.fpt.com.vn/en/expert-opinion/vietnamese-word-segmentation-part-iind498054.html Truy cập ngày 15/12/2016 [15] http://www.statmt.org/moses/giza/GIZA++.html Truy cập ngày 15/12/2016 [16] http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer Truy cập ngày 15/12/2016 ...ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ... dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu: Nghiên cứu từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; kho ngữ liệu, loại kho ngữ liệu Tìm giải pháp xây dựng. .. Nghiên cứu tổng quan từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Xây dựng công cụ xây dựng sở liệu