Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	37
Dung lượng	1,54 MB

Nội dung

Mục tiêu nghiên cứu đề tài là nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,…

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS Trần Thị Kiều Đà Nẵng, 12/2016 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS Trần Thị Kiều Xác nhận quan chủ trì đề tài Đà Nẵng, 12/2016 Chủ nhiệm đề tài MỤC LỤC MỞ ĐẦU 1 LÝ DO CHỌN ĐỀ TÀI MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu BỐ CỤC CỦA BÁO CÁO CHƯƠNG 1.1 TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1.1 Tổng quan từ điển 1.1.2 Cơ sở liệu từ điển 1.1.3 Các chuẩn liệu từ điển 1.1.4 Kho ngữ liệu 1.1.5 Các phương pháp tách từ tiếng Việt 11 1.2 CÁC CƠNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN 11 1.3 TỔNG KẾT CHƯƠNG 12 CHƯƠNG ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU 13 2.1 PHÁT BIỂU BÀI TOÁN 13 2.2 ĐỀ XUẤT GIẢI PHÁP 14 2.2.1 Mơ hình tốn 14 2.2.2 Đặc tả mơ hình tốn 15 2.3 LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 16 2.3.1 Phân đoạn từ tiếng Việt 16 2.3.2 Dịch máy thống kê 18 2.3.3 Định dạng liệu từ điển 20 2.4 TỔNG KẾT CHƯƠNG 20 CHƯƠNG 3.1 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM 21 TRIỂN KHAI ỨNG DỤNG .21 3.1.1 Lựa chọn công nghệ 21 3.1.2 Chuẩn bị liệu 21 3.1.3 Kết đạt 21 3.1.4 Đánh giá kết 25 3.2 TỔNG KẾT CHƯƠNG 25 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa HTML HyperText Markup Language CSDL Cơ sở liệu KDD Knowledge Discovery in Database KPDL Khai phá liệu LRMM Left Right Maximum Matching RLMM Right Left Maximum Matching MMSEG Maximum Matching Segmentation WFST Weighted finit–state Transducer DANH MỤC CÁC HÌNH VẼ Hình 1.1: Định dạng dict.org Hình 1.2: Định dạng dict.org Hình1.3: Ví dụ tập tin có định dạng spdict Hình 2.1 :Phác thảo mơ hình toán 14 Hình 2.2: Mơ phương pháp khớp tối đa 18 Hình 2.3: Ví dụ thống kê dựa vào cụm từ 20 Hình 3.1: Cấu trúc tập tin kho ngữ liệu Anh – Việt 22 Hình 3.2: Kết phân tích từ từ kho song ngữ 22 Hình 3.3: Kết sau tách từ tiếng Anh 23 Hình 3.4: Kết sau tách từ tiếng Việt 23 Hình 3.5: Lưu liệu từ điển theo định dạng dict.org 24 DANH MỤC CÁC BẢNG Bảng 3.1: Kết thử nghiệm công cụ trích xuất liệu từ điển 25 TÓM TẮT KẾT QUẢ NGHIÊN CỨU Tên đề tài: Nghiên cứu xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu Mã số: Chủ nhiệm: ThS Trần Thị Kiều Điện thoại: 0905.433.387 E-mail: ttkieu@cit.udn.vn Cơ quan chủ trì: Trường Cao đẳng Công nghệ Thông tin Đơn vị thực hiện:  Trường Cao đẳng Công nghệ Thông tin Thời gian thực hiện: 12 tháng Mục tiêu: Mục tiêu đề tài là nghiên cứu xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu:  Nghiên cứu từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; kho ngữ liệu, loại kho ngữ liệu  Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu  Từ đó, làm nguồn liệu cho phần mềm từ điển, nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Nội dung chính:  Nghiên cứu tổng quan từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển  Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu  Xây dựng công cụ xây dựng sở liệu từ điển từ kho ngữ liệu Kết đạt (khoa học, ứng dụng, đào tạo, kinh tế - xã hội): Kết đạt áp dụng nội dung thuyết minh, cụ thể sau:  Đã công bố 01 bài báo đăng CITA 2016  Báo cáo tổng kết  Đã xây dựng công cụ xây dựng sở liệu từ điển từ kho ngữ liệu Cơ quan Chủ trì Chủ nhiệm đề tài (ký, họ tên, đóng dấu) (ký, họ tên) MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Người ta thường nói rằng: “Chúng ta sống thời đại công nghệ thông tin”, thực ra, sống thời đại liệu Lượng liệu khổng lồ tất lĩnh vực kỹ thuật, kinh tế, xã hội,…phần lớn tìm thấy thơng qua hệ thống mạng Internet Tuy nhiên, lượng thông tin mạng Internet chưa khai thác triệt để nhiều lý lý quan trọng là rào cản ngôn ngữ Để phá bỏ rào cản và giúp ta tiếp cận nhanh với thời đại công nghệ, giao lưu và làm việc với bạn bè quốc tế Và tất nhiên từ điển công cụ quan trọng và đắc lực phục vụ người học, người làm Hiện có nhiều phần mềm, nhiều trang web từ điển hỗ trợ có thực tế lượng liệu nguồn từ điển hữu hạn phần mềm trang web có lượng từ hoạt động lĩnh vực khác Có từ khơng tìm thấy trang web này tìm thấy trang web khác Điều làm cho người dùng phải sử dụng nhiều trang web, cài nhiều phần mềm,… bất tiện Hơn nữa, phần quan trọng ứng dụng từ điển là sở liệu, coi trái tim chương trình Qua khảo sát có nhiều cơng trình, nhiều báo nghiên cứu để tạo nên sở liệu từ: giải pháp hợp liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa kho ngữ liệu song song [6], [9] Tuy nhiên, cơng trình nghiên cứu hợp sở liệu có sẵn chưa xử lý ngơn ngữ tiếng Việt Với thực trạng đó, tơi mong muốn nghiên cứu giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Thay xây dựng từ điển, qui luật chuyển đổi tay tự động xây dựng từ điển, qui luật dựa kết thống kê có từ kho ngữ liệu Mục đích làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ 14 liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… 2.2 ĐỀ XUẤT GIẢI PHÁP 2.2.1 Mơ hình tốn Hình 2.1 :Phác thảo mơ hình tốn Trên là mơ hình bước xây dựng toán xây dựng sở liệu từ điển Từ kho song ngữ Anh – Việt, ta tiến hành trích xuất văn tiếng Anh, văn tiếng Việt Sau đó, ta tiền xử lý văn bản: tách dịng tách từ cho văn Bước gióng từ cho câu song ngữ Và cuối tao từ điển cho văn song ngữ Như mơ hình trên, tơi tóm tắt việc xây dựng sở liệu từ điển bước sau: 15  Bước 1: Chuẩn bị liệu  Bước 2: Trích xuất văn tiếng Anh, văn tiếng Việt  Bước 3: Tiền xử lý văn bản, tách từ tiếng Việt  Bước 4: Gióng từ song ngữ Anh – Việt  Bước 5: Tạo từ điển cho văn song ngữ  Bước 6: Làm mịn liệu 2.2.2 Đặc tả mơ hình tốn 2.2.2.1 Chuẩn bị liệu Đây là bước quan trọng Như phân tích liệu trái tim chương trình phần mềm từ điển người làm liệu từ điển phải tìm kho ngữ liệu chất lượng Chúng ta tìm kiếm kho ngữ liệu từ cá nhân, tổ chức nghiên cứu muốn chia sẻ Các nguồn ngữ liệu tồn nhiều định dạng khác Càng tìm kiếm nhiều kho ngữ liệu chất lượng việc tạo liệu từ điển tốt 2.2.2.2 Trích xuất văn tiếng Anh, văn tiếng Việt Vì kho ngữ liệu sau thu thập tồn nhiều định dạng khác nên phải phân tích kho ngữ liệu, đọc định dạng tiến hành trích xuất văn tiếng Anh, văn tiếng Việt từ kho song ngữ Đầu vào: kho song ngữ Anh – Việt Đầu ra: văn tiếng Anh, văn tiếng Việt 2.2.2.3 Tiền xử lý văn bản, tách từ tiếng Việt Từ văn tiếng Anh, văn tiếng Việt trích xuất bước 2, ta tiền xử lý văn bản: mã hóa, tách dịng, tách từ cho văn 2.2.2.4 Gióng từ Từ văn sau tiền xử lý, ta tiến hành gióng từ tương ứng cho câu văn 16 2.2.2.5 Tạo từ điển cho văn song ngữ Tạo từ điển gióng câu ví dụ từ kho ngữ liệu song ngữ 2.2.2.6 Làm mịn liệu Đây là cơng đoạn cuối chuỗi qui trình tạo liệu từ điển Sau hồn thành q trình tạo liệu từ điển có nhiều trường hợp liệu bị trùng lặp liệu kết hợp lại với chưa kết hợp, mục đích cơng đoạn làm giảm dư thừa liệu để làm cho chất lượng sở liệu tốt 2.3 LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 2.3.1 Phân đoạn từ tiếng Việt Các phương pháp phân loại ứng dụng vào ngôn ngữ khác cho hiệu khác [5] Nếu tiếng Anh từ có nghĩa tiếng Việt bên cạnh từ đơn cịn có từ phức, từ ghép nhiều từ đơn ghép lại mà tạo nên nghĩa Ví dụ: Ví dụ, câu nói “phân_đoạn từ tiếng_Việt bài_tốn quan_trọng”, thấy dấu cách trống dấu hiệu để nhận ranh giới từ Các phương pháp ứng dụng rộng rãi để tách từ tiếng Việt: MM Maximum Matching: forward / backward; LRMM: Left Right, RLMM: Right Left và phương pháp MMSEG: Maximum Matching Segmentation, là cách tách từ đơn giản nhanh sử dụng thuật toán khớp tối đa (Maximum Matching) Theo phương pháp LRMM để phân đoạn từ tiếng Việt ngữ/câu, ta từ trái sang phải chọn từ có nhiều âm tiết mà có mặt từ điển, tiếp tục cho từ hết câu Với cách này, ta dễ dàng tách xác ngữ/câu như: “hợp tác xã | mua bán”; “thành lập | nước | Việt Nam | dân chủ | cộng hoà”,… Phương pháp RLMM ngược lại, câu/ngữ, ta từ phải sang trái chọn từ có nhiều âm tiết mà có mặt từ điển, tiếp tục cho từ hết câu Phương pháp MMSEG là kết hợp hai phương pháp LRMM và RLMM, MMSEG cho kết tốt hai phương pháp 17 Trong đề tài chọn phương pháp MMSEG để tách từ tiếng việt có sử dụng từ điển Tiếng Việt  Phương pháp Maximum Matching cho bài toán tách từ tiếng Việt Với thuật tốn khớp tối đa (Maximum Matching) có nhiều nghiên cứu với kết thực nghiệm khả quan Trong tiếng Trung, cách này đạt độ xác 98,41% [Chih-HaoTsai,2000] Hơn nữa, cách tách từ đơn giản, nhanh, cần dựa vào từ điển Trong phạm vi đề tài tơi sử dụng thuật tốn so khớp để tách từ tiếng Việt dựa vào từ điển tiếng Việt gồm 70880 từ đơn và từ ghép.; Phương pháp Maximum Matching trình bày sau: Phương pháp khớp tối đa (Maximum Matching) Theo phương pháp này, ta duyệt ngữ câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển, thể tiếp tục cho từ hết câu Thuật tốn trình bày [13] Dạng đơn giản dùng giải nhập nhằng từ đơn Giả sử có chuỗi ký tự (tương đương với chuỗi tiếng tiếng Việt) C1, C2 , Cn Ta đầu Đầu tiên kiểm tra xem C1, có phải từ hay khơng, sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục tìm tìm từ dài Từ hợp lý từ dài Chọn từ đó, sau tìm tiếp cho từ lại xác định toàn chuỗi từ Dạng phức tạp: quy tắc dạng này là phân đoạn hợp lý là đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu dạng đơn giản Nếu phát cách tách từ gây nhập nhằng (ví dụ, C1 từ C1C2 là từ), ta xem chữ để tìm tất đoạn ba từ có bắt đầu với C1 C1C2 Ví dụ ta đoạn sau: C1 C2 C3 C4 C1C2 C3 C4 C5 C1C2 C3 C4 C5 C6 18 Chuỗi dài chuỗi thứ ba Vậy từ chuỗi thứ ba (C1C2) chọn Thực lại bước chuỗi từ hồn chỉnh Hình 2.2: Mô phương pháp khớp tối đa 2.3.2 Dịch máy thống kê Mục tiêu dịch văn từ ngơn ngữ nguồn sang ngơn ngữ đích Chúng ta có câu văn ngôn ngữ nguồn (“Tiếng Anh”) 𝑒1𝐼 = e1,…,ei, mà dịch thành câu văn ngơn ngữ đích (“Tiếng Việt”) 𝑣1𝐼 = v1,…,vi Trong tất câu có văn đích, chọn câu cho: 𝑣1𝐼 = argmax p|(𝑣1𝐼 |𝑒1𝐼 ) [4]  Ưu điểm phương pháp dịch thống kê [4] Cho trước từ ngôn ngữ nguồn, phải định chọn từ ngơn ngữ đích Vì vậy, tạo cho cảm giác giải định lý định thống kê Điếu dẫn đến cách tiếp cận thống kê đề xuất Mối quan hệ đối tượng ngôn ngữ từ, cụm từ cấu trúc ngữ pháp thường yếu và mơ hồ Để mơ hình hóa phụ thuộc này, cần cơng thức hóa đưa phân phối xác suất mà giải với vấn đề phụ thuộc lẫn 19 Để thực dịch máy, thiết phải kết hợp nhiều nguồn trí thức Trong dịch thống kê, dựa vào toán học để thực kết hợp tối ưu nguồn trí thức Trong dịch máy thống kê, trí thức dịch học cách tự động từ liệu huấn luyện Với kết vậy, việc phát triển hệ dịch dựa vào thống kê nhanh so với hệ dịch dựa vào luật Dịch máy thống kê phù hợp với ứng dụng nhúng mà dịch máy phần ứng dụng lớn Việc đưa khái niệm “chính xác” mối quan hệ ngữ pháp, ngữ nghĩa, văn phong khó khăn khơng nói khơng thể Vì vậy, việc hình thức hóa vấn đề xác tốt khơng thể dựa vào giằng buộc luật mô tả chúng Thay vào đó, cách tiếp cận thống kê, giả định mơ hình kiểm định thực nghiệm dựa vào liệu huấn luyện  Dịch máy thống kê dựa vào cụm từ (phrase-based) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng rộng rãi ngày nay, thay vào là dịch máy thống kê sở cụm từ [4] Dịch máy thống kê sở cụm từ có mục đích là để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ kỹ thuật này thường không theo nghĩa ngôn ngữ học mà cụm từ tìm thấy cách sử dụng phương pháp thống kê để trích rút từ cặp câu Từ ngôn ngữ nguồn (Tiếng Anh) dựa vào thuật tốn tìm kiếm Beam dựa đặc trưng hệ dịch máy thống kê dựa cụm từ (mơ hình ngơn ngữ, mơ hình dịch, mơ hình đảo cụm,…) ngơn ngữ đích (Tiếng Việt) 20 Hình 2.3: Ví dụ thống kê dựa vào cụm từ Hầu hết hệ thống dựa cụm từ sử dụng Giza++ để gióng hàng câu, trích rút cặp câu song ngữ 2.3.3 Định dạng liệu từ điển Định dạng dict.tab file text, cấu trúc dễ hiểu Theo cách thông thường hướng dẫn chuẩn dict, để load danh sách nạp toàn danh sách từ vào listbox, thao tác với danh sách từ đơn giản listbox hỗ trợ hết, số lượng từ từ điển tương đối nhiều tốc độ truy cập khơng tối ưu.Vì người ta khơng dùng làm liệu từ điển, kết hợp với liệu từ điển theo định dạng Spdict làm tăng khả tra từ cho từ điển Định dạng Spdict tác giả Bùi Đức Tiến phát triển dựa định dạng dict.org khắc phục số hạn chế dict.org: thêm, sửa, xóa nghĩa từ Cấu trúc định dạng Spdict phức tạp, gần giống mảng trỏ Ở báo cáo chọn lưu liệu từ điển theo định dạng dict.org Định dạng dễ sử dụng và số cá nhân sử dụng để xây dựng từ điển lớn Hơn dễ dàng chuyển đổi qua lại định dạng liệu từ điển nên lưu liệu từ điển định dạng 2.4 TỔNG KẾT CHƯƠNG Giải pháp tổng thể toán xây dựng sở liệu từ điển; lựa chọn giải pháp kỹ thuật; nội dung phương pháp tách câu từ, tách từ cho tiếng Việt trình bày chương này Lúc ta xem có đầy đủ mặt sở lý thuyết giải pháp xây dựng liệu từ điển Bước ta hoàn tồn xây dựng triển khai thực nghiệm hệ thống Đó là nội dung trình bày chương 21 CHƯƠNG TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM Sau tìm hiểu tổng quan lĩnh vực từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; tổng quan kho ngữ liệu, loại kho ngữ liệu chương Và chương phân tích và trình bày đề xuất giải pháp lựa chọn mặt phương pháp, kỹ thuật Ta hoàn toàn có sở vững để triển khai xây dựng liệu từ điển Vì vậy, chương báo cáo trình bày nội dung triển khai thực nghiệm 3.1 TRIỂN KHAI ỨNG DỤNG 3.1.1 Lựa chọn công nghệ Ứng dụng sử dụng ngôn ngữ Python kết hợp thư viện NLTK 3.0 hệ điều hành Linux 3.1.2 Chuẩn bị liệu Kho ngữ liệu song ngữ Anh – Việt thu thập từ kho ngữ liệu tác giả Đinh Điền Kho song ngữ này đăng ký quyền tác giả Cục Bản quyền Tác giả 3.1.3 Kết đạt Phần làm việc chương trình gồm phần: Phần (1) trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu tách từ tiếng Việt Phần (2) gióng từ Anh –Việt Phần (3) lưu liệu từ điển theo định dạng dict.org  Phần (1) trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu tách từ tiếng Việt: Đầu vào: file song ngữ Anh – Việt Đa số kho ngữ liệu song song sử dụng XML để biểu diễn định dạng chúng XML cho phép tạo định dạng chuẩn mà dễ dàng lưu trữ và trao đổi tổ chức, hệ thống khác Vì vậy, kho song ngữ Anh – Việt sử dụng dạng chuẩn XML  E002905.xml : 300 câu song ngữ  E002906.xml: 300 câu song ngữ 22  E002907.xml: 244 câu song ngữ Hình 3.1: Cấu trúc tập tin kho ngữ liệu Anh – Việt Cơng cụ tiến hành trích xuất văn tiếng Anh, văn tiếng Việt; tiền xử lý liệu giai đoạn tách từ tiếng Việt tơi sử dụng công cụ tách từ tiếng Việt vnTokenizer tác giả Lê Hồng Phương Kết sau: Hình 3.2: Kết phân tích từ từ kho song ngữ 23 Đầu trình file chứa câu Anh – Việt sau xử lý tách từ o File source.tok: Hình 3.3: Kết sau tách từ tiếng Anh o File target.tok: Hình 3.4: Kết sau tách từ tiếng Việt Như từ file source.tok, target.tok ta thấy kết tách từ câu song ngữ Anh – Việt sau: They won against big artist like DBSK, Big_Bang, Lee_Hyori, and Rain making them the top girl group of the year Họ giành chiến_thắng trước nghệ_sĩ lớn DBSK, Big_Bang, Lee_Hyori Rain làm cho họ trở_thành nhóm nhạc nữ hàng_đầu năm 24  Phần (2) gióng từ Anh – Việt: phần sử dụng tool GIZA++ Đầu vào: file source.tok, target.tok, tập tin chứa câu ngôn ngữ nguồn, tập tin chứa câu ngơn ngữ đích Mỗi câu nằm dòng Số câu tập tin phải tương ứng Đầu ra: file sau gióng từ song ngữ Anh – Việt # Sentence pair (1) source length 24 target length 26 họ giành chiến_thắng trước nghệ_sĩ lớn dbsk , big_bang , lee_hyori rain làm cho họ trở_thành nhóm nhạc nữ hàng_đầu năm NULL ({ 24 }) they ({ }) won ({ }) against ({ }) big ({ }) artist ({ }) like ({ }) dbsk ({ }) , ({ 10 }) big_bang ({ 11 }) , ({ 12 }) lee_hyori ({ 13 }) , ({ }) and ({ 14 }) rain ({ 15 }) making ({ 16 17 }) them ({ 18 }) the ({ }) top ({ 19 23 }) girl ({ 21 22 }) group ({ 20 }) of ({ }) the ({ }) year ({ 25 }) ({ 26 })  Phần (3) lưu vào file liệu từ điển theo định dạng dict.org Hình 3.5: Lưu liệu từ điển theo định dạng dict.org 25 3.1.4 Đánh giá kết Tơi tiến hành thử nghiệm trích xuất liệu từ điển từ kho ngữ liệu và kết sau: Lần thử Kho ngữ liệu E002905.xml E002906.xml E002907.xml Cặp câu song ngữ 300 300 244 Tổng số từ tách Tiếng Anh 6273 6707 4993 Tiếng Việt 6546 6816 5201 Số từ điển trích xuất 295 309 261 Bảng 3.1: Kết thử nghiệm cơng cụ trích xuất liệu từ điển Trên là đánh giá thử nghiệm kho ngữ liệu: E002905.xml, E002906.xml, E002907.xml Số từ điển trích xuất phụ thuộc nhiều trường hợp, chẳng hạn số lượng từ, cụm từ Anh – Việt lặp lặp lại, hay từ tiếngAnh dịch nhiều nghĩa tiếng Việt Nhìn chung, kết này khơng cao nhiên đạt hiệu định Hơn nữa, với phương pháp này ta tạo liệu từ điển từ kho ngữ liệu và có ngân hàng ví vụ cho từ điển từ kho song ngữ 3.2 TỔNG KẾT CHƯƠNG Chương triển khai thành công công cụ xây dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu Từ đó, làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Bên cạnh đó, chương này trình bày đánh hạn chế chưa đạt và đề định hướng nghiên cứu tương lai 26 KẾT LUẬN Báo cáo trình bày nghiên cứu giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu Thay xây dựng từ điển, qui luật chuyển đổi tay tự động xây dựng từ điển, qui luật dựa kết thống kê có từ kho ngữ liệu Mục đích làm nguồn liệu cho phần mềm từ điển, liệu cập nhật từ thường xuyên từ kho ngữ liệu; nguồn cho chương trình dịch tự động, trích rút thơng tin tự động, tóm tắt văn tự động,… Báo cáo tiến hành thử nghiệm kho song ngữ Anh- Việt trích xuất liệu từ điển phương pháp trích rút từ kho ngữ liệu Kết không cao nhiên đạt hiệu định so với cơng trình nghiên cứu lĩnh vực xây dựng sở liệu từ điển Bên cạnh kết đạt được, dù cố gắng hữu hạn thời gian kiến thức, báo cáo số hạn chế: Chưa tiến hành so sánh phương pháp, kỹ thuật báo cáo chọn so với phương pháp khác hiệu nào Thay vào lựa chọn phương pháp, kỹ thuật dựa đánh giá nghiên cứu cơng trình tun bố trước Số lượng liệu từ điển trích xuất phụ thuộc vào chất lượng kho ngữ liệu Tuy nhiên, báo cáo chưa thử nghiệm nhiều kho ngữ liệu nhiều lĩnh vực khác kho ngữ liệu lớn Định hướng nghiên cứu tương lai: Tiến hành so sánh phương pháp, kỹ thuật luận văn chọn so với phương pháp khác hiệu Tiến hành thử nghiệm nhiều kho ngữ liệu lớn nhiều lĩnh vực khác nhau, đưa đánh giá cụ thể Cải thiện, cải tiến để triển khai hệ thống áp dụng thực tế 27 TÀI LIỆU THAM KHẢO [1] Đặng Đại Thọ, Huỳnh Công Pháp (2013), “Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa”, Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng – Số 12 (73), Quyển II [2] Ngô Anh Vũ (2015), “Nghiên cứu giải pháp hợp liệu để xây dựng từ điển đa ngữ”, Luận văn Thạc Sĩ, Đại học Đà Nẵng [3] Đặng Đại Thọ (2014), “Xây dựng hệ thống mở rộng kho ngữ liệu dịch tự động”, Đề tài khoa học công nghệ - ĐHĐN, Mã số: Đ2013-07-06-BS [4] Đào Ngọc Tú (2012), “Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt, Luận văn Thạc Sĩ, Học viện Công nghệ Bưu Viễn thơng [5] Trần Thị Kiều (2015), “Nghiên cứu xây dựng hệ thống hỗ trợ tư vấn việc làm”, Luận văn Thạc Sĩ, Đại học Đà Nẵng [6] Enikö Héja (2010), “Dictionary Building based on Parallel Corpora and Word Alignment”, Research Institute for Linguistics, HAS, Dept of Language Technology [7] Huynh C-P (2016), “Solutions of Creating Large Data Resources in Natural Language Processing”, ACIIDS_2016_submission [8] Huynh C-P (2010) Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia PhD thesis-National Polytechnic Institute of Grenoble, 228 p [9] Adam Kilgarriff (2012), “Using corpora [and the web] as data sources for dictionaries” [10] Huynh C-P (2011),”New approach for collecting high quality parallel corpora from multilingual Websites”, iiWAS11 Conference Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services [11] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2nd International Conference on Language and Automata Theory and Applications LATA 2008, Mar 2008, Tarragona, Spain [12] J Han and M Kamber, Data mining: concepts and techniques San Francisco: Morgan Kaufmann Publishers, 2006 [13] Chih-Hao Tsai, “MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm” 28 [14] http://tech.fpt.com.vn/en/expert-opinion/vietnamese-word-segmentation-part-iind498054.html Truy cập ngày 15/12/2016 [15] http://www.statmt.org/moses/giza/GIZA++.html Truy cập ngày 15/12/2016 [16] http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer Truy cập ngày 15/12/2016 ...ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ... dựng sở liệu từ điển phương pháp trích rút từ kho ngữ liệu:  Nghiên cứu từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển; kho ngữ liệu, loại kho ngữ liệu  Tìm giải pháp xây dựng. ..  Nghiên cứu tổng quan từ điển, sở liệu từ điển, cấu trúc định dạng chuẩn liệu từ điển  Tìm giải pháp xây dựng sở liệu từ điển cách trích rút từ kho ngữ liệu  Xây dựng công cụ xây dựng sở liệu

Ngày đăng: 24/12/2021, 10:30

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Đặng Đại Thọ, Huỳnh Công Pháp (2013), “Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa”, Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng – Số 12 (73), Quyển II

Sách, tạp chí

Tiêu đề:	Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa"”
Tác giả:	Đặng Đại Thọ, Huỳnh Công Pháp
Năm:	2013

[2] Ngô Anh Vũ (2015), “Nghiên cứu giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ”, Luận văn Thạc Sĩ, Đại học Đà Nẵng

Sách, tạp chí

Tiêu đề:	Nghiên cứu giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ
Tác giả:	Ngô Anh Vũ
Năm:	2015

[3] Đặng Đại Thọ (2014), “Xây dựng hệ thống mở rộng kho ngữ liệu dịch tự động”, Đề tài khoa học và công nghệ - ĐHĐN, Mã số: Đ2013-07-06-BS

Sách, tạp chí

Tiêu đề:	Xây dựng hệ thống mở rộng kho ngữ liệu dịch tự động
Tác giả:	Đặng Đại Thọ
Năm:	2014

[5] Trần Thị Kiều (2015), “Nghiên cứu xây dựng hệ thống hỗ trợ tư vấn việc làm”, Luận văn Thạc Sĩ, Đại học Đà Nẵng

Sách, tạp chí

Tiêu đề:	Nghiên cứu xây dựng hệ thống hỗ trợ tư vấn việc làm
Tác giả:	Trần Thị Kiều
Năm:	2015

[6] Enikử Hộja (2010), “Dictionary Building based on Parallel Corpora and Word Alignment”, Research Institute for Linguistics, HAS, Dept. of Language Technology

Sách, tạp chí

Tiêu đề:	Dictionary Building based on Parallel Corpora and Word Alignment
Tác giả:	Enikử Hộja
Năm:	2010

[7] Huynh C-P (2016), “Solutions of Creating Large Data Resources in Natural Language Processing”, ACIIDS_2016_submission

Sách, tạp chí

Tiêu đề:	Solutions of Creating Large Data Resources in Natural Language Processing
Tác giả:	Huynh C-P
Năm:	2016

[8] Huynh C-P. (2010) Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia. PhD thesis-National Polytechnic Institute of Grenoble, 228 p

Sách, tạp chí

Tiêu đề:	Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia

[9] Adam Kilgarriff (2012), “Using corpora [and the web] as data sources for dictionaries”

Sách, tạp chí

Tiêu đề:	Using corpora [and the web] as data sources for dictionaries
Tác giả:	Adam Kilgarriff
Năm:	2012

[11] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2nd International Conference on Language and Automata Theory and Applications - LATA 2008, Mar 2008, Tarragona, Spain

Sách, tạp chí

Tiêu đề:	A Hybrid Approach to Word Segmentation of Vietnamese Texts

[13] Chih-Hao Tsai, “MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”

Sách, tạp chí

Tiêu đề:	MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm

[4] Đào Ngọc Tú (2012), “Nghiên cứu về dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt, Luận văn Thạc Sĩ, Học viện Công nghệ Bưu chính Viễn thông

Khác

[10] Huynh C-P (2011),”New approach for collecting high quality parallel corpora from multilingual Websites”, iiWAS11 Conference. Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services

Khác

[12] J. Han and M. Kamber, Data mining: concepts and techniques. San Francisco: Morgan Kaufmann Publishers, 2006

Khác