Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 134 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
134
Dung lượng
2,28 MB
Nội dung
LUẬN VĂN TỐT NGHIỆP HỆ THỐNG TÌM KIẾM THƠNG TIN XUYÊN NGÔN NGỮ VIỆT – ANH – HOA Giáo viên hướng dẫn : Ts Hồ Quốc Bảo & Ts Đinh Điền Sinh viên thực : Nguyễn Thị Hồng Nhung Nguyễn Thi Tuyết Mai Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa MỤC LỤC MỤC LỤC MỞ ĐẦU Chương 1: TỔNG QUAN 1.1 Giới thiệu mơ hình tìm kiếm thơng tin (Information Retrieval): 1.2 Hệ thống tìm kiếm thơng tin xun ngôn ngữ (CLIR): .9 1.2.1 Khái niệm: 1.2.2 Các vấn đề CLIR: 10 1.3 Các hướng tiếp cận: 11 1.3.1 Dịch máy (Machine Translation for Text Translation): 11 1.3.2 Dựa từ điển đa ngữ (Multilingual Thesauri): 14 1.3.3 Dựa ngữ liệu (Corpus-based techniques): 22 1.4 Một số cơng trình nghiên cứu ngồi nước: 30 1.4.1 Ở Việt Nam: 30 1.4.2 Trên giới: 31 1.5 Kết luận: 32 Chương 2: CƠ SỞ LÝ THUYẾT 35 2.1 Giới thiệu MRD (Machine Readable Dictionary) .35 2.1.1 Sơ lược lịch sử phát triển MRD giới: 35 2.1.2 Vai trò cấu trúc MRD: 39 2.1.3 Khai thác tài nguyên từ điển: .41 2.1.4 Xây dựng từ điển tự động: 42 2.1.5 Cấu trúc vĩ mô vi mô từ điển MRD: 43 2.1.6 Một số từ điển MRD: 43 2.2 Các phương pháp tách từ: 51 2.2.1 Mơ hình WFST: 51 2.2.2 Mơ hình MMSEG: 57 2.3 Các phương pháp khử nhập nhằng: 64 2.3.1 Giới thiệu: 64 2.3.2 Khử nhập nhằng: 65 2.4 Kết luận: 70 Chương 3: PHÂN TÍCH THIẾT KẾ 72 3.1 Tổng quan hệ thống: 72 3.1.1 Phát biểu toán: 72 3.1.2 Mơ hình hệ thống: 72 3.1.3 Phát sinh quản lý: 73 3.2 Phân tích – thiết kế hệ thống: 76 3.2.1 Mơ hình Usecase: 76 3.2.2 Đặc tả usecase: .77 3.2.3 Sơ đồ tuần tự: 78 3.2.4 Thiết kế lớp: 81 3.2.5 Thiết kế giao diện: 94 GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa 3.3 Xây dựng hệ thống: 97 3.3.1 Tổ chức MRD: .97 3.3.2 Phương pháp tìm kiếm dựa MRD: 106 3.3.3 Tìm kiếm tài liệu cơng cụ tìm kiếm: .110 CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM 112 4.1 Cài đặt: .112 4.1.1 Tiền xử lý: 112 4.1.2 Cấu trúc liệu: 112 4.1.3 Dịch từ từ điển: 113 4.1.4 Khử nhập nhằng : 113 4.1.5 Tìm kiếm: .116 4.2 Thử nghiệm: 117 4.2.1 Module dịch khử nhập nhằng: 117 4.2.2 Chương trình demo web: 117 4.3 Đánh giá : 119 4.3.1 Module dịch khử nhập nhằng: 119 4.3.2 Chương trình tìm kiểm Web: 120 Chương 5: KẾT LUẬN HƯỚNG PHÁT TRIỂN 122 5.1 Kết luận: 122 5.2 Huớng phát triển: .122 5.2.1 Đối với từ điển ngữ liệu: 122 5.2.2 Đối với IR Engine: .123 5.2.3 Mở rộng ngơn ngữ tìm kiếm cho hệ thống: 124 PHỤ LỤC 125 TÀI LIỆU THAM KHẢO 132 GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa MỞ ĐẦU Với phát triển nhanh chóng cơng nghệ tin học, khối lượng thơng tin lưu trữ máy tính ngày nhiều Vì cần có hệ thống tìm kiếm thơng tin (Information Retrieval) cho phép người dùng tìm kiếm cách xác nhanh thơng tin mà họ cần kho tư liệu khổng lồ Hơn nữa, xu tồn cầu hóa nay, nhiều tổ chức, công ty quốc tế hình thành, lại xuất nhu cầu việc tìm kiếm thơng tin tìm kiếm thơng tin đa ngữ để người dùng khai thác cách hiệu kho tài liệu đa ngữ mà họ có Một ví dụ cụ thể kho tư liệu đa ngữ Internet Các trang Web nhiều ngôn ngữ khác xuất ngày nhiều, cơng cụ tìm kiếm đơn ngữ (search engine) trả tài liệu viết ngôn ngữ với ngôn ngữ câu truy vấn (query) Do vấn đề đặt liệu xây dựng hệ tìm kiếm thơng tin mà thông tin trả tất tài liệu ngôn ngữ khác kho tư liệu có liên quan đến câu truy vấn (khơng phụ thuộc vào ngơn ngữ câu truy vấn) Đây toán đặt cho việc nghiên cứu hệ tìm kiếm đa ngữ/ xuyên ngữ (multilanguage IR/ cross language IR) Mục tiêu hệ thống tìm kiếm xuyên ngữ cung cấp công cụ cho người dùng để mơ tả nhu cầu tìm kiếm thơng tin ngơn ngữ mà diễn đạt giỏi (thường tiếng mẹ đẻ), hệ thống phải trả tất tài liệu tất ngơn ngữ có kho tư liệu tìm kiếm có liên quan đến nhu cầu thơng tin người dùng Trên nhu cầu chung hầu hết ngôn ngữ tiếng Việt ngoại lệ Khác với ngôn ngữ khác, tiếng Việt có nhiều đặc điểm riêng biệt khó xử lý máy tính, nên đề tài nghiên cứu hay chương trình ứng dụng liên quan đến hệ thống tìm kiếm tiếng Việt cịn Mà nhu cầu tìm kiếm tài liệu kho tàng kiến thức giới người Việt lớn Với mong muốn phát triển nhiều hệ thống tìm kiếm xun ngơn ngữ tiếng Việt, chúng tơi xây dựng “Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Anh – Hoa” cho phép người dùng nhập câu truy vấn tiếng Việt trả tài liệu có liên quan tiếng Việt, tiếng Anh tiếng Hoa Trong luận văn lựa chọn tiếng Anh tiếng Hoa hai đại diện tiêu biểu cho hai loại hình ngơn ngữ biến hình đơn lập Từ cho thấy hệ thống tìm kiếm thơng tin xun ngữ thực thi hai loại hình ngơn ngữ khác Bố cục luận văn gồm chương sau: • Chương – TỔNG QUAN : giới thiệu tổng quan hệ thống tìm kiếm (IR), hệ thống tìm kiếm thơng tin xuyên ngôn ngữ (CLIR), hướng tiếp cận vấn đề cần giải hệ thống • Chương – CƠ SỞ LÝ THUYẾT: trình bày sở lý thuyết phương pháp nghiên cứu luận văn • Chương – PHÂN TÍCH VÀ THIẾT KẾ: phân tích thiết kế hệ thống • Chương – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình • Chương – KẾT LUẬN HƯỚNG PHÁT TRIỂN: trình bày kết đạt được, đánh giá hệ thống hướng phát triển tương lai • Phần TÀI LIỆU THAM KHẢO PHỤ LỤC: trình bày thơng tin có liên quan sử dụng luận văn GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Chương 1: TỔNG QUAN Trong chương này, chúng tơi trình bày khái qt hệ thống tìm kiếm (Information Retrieval), hệ thống tìm kiếm thơng tin xuyên ngôn ngữ (Cross-Language Information Retrieval) số khảo sát tình hình nghiên cứu ngồi nước Cuối chương rút kết luận chung lựa chọn hướng tiếp cận cho hệ thống Nội dung trình bày bao gồm: Giới thiệu mơ hình tìm kiếm thơng tin Hệ thống tìm kiếm thơng tin xun ngơn ngữ Một số cơng trình nghiên cứu ngồi nước Kết luận 1.1 Giới thiệu mơ hình tìm kiếm thơng tin (Information Retrieval): Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval CLIR) có liên hệ mật thiết với hệ thống tìm kiếm thơng tin (Information Retrieval IR) có nhiều đặc trưng hệ thống (IR) Qui trình hệ thống tìm kiếm thơng tin sau: • Người dùng muốn xem tài liệu liên quan đến chủ đề • Người dùng cung cấp mơ tả chủ đề dạng câu truy vấn • Từ câu truy vấn hệ thống lọc cụm từ mục • Những cụm từ mục so khớp với cụm từ mục tài liệu xử lý trước • Những tài liệu có mức độ liên quan cao trả cho người dùng GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa Mục đích IR hiển thị cho người dùng tập thông tin thỏa mãn nhu cầu họ Chúng ta định nghĩa xác cho thơng tin cần thiết “câu truy vấn”(query), thông tin chọn “tài liệu” (documents) Mỗi cách tiếp cận IR bao gồm thành phần chính: kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu), hai phương pháp so sánh cách biểu diễn Mục đích để tự động qui trình kiểm tra tài liệu cách tính toán độ tương quan câu truy vấn tài liệu Qui trình tự động thành cơng trả kết giống với kết người tạo so sánh câu truy vấn với tài liệu Có vấn đề thường xảy hệ thống tìm kiếm từ mà người dùng đưa câu truy vấn thường khác xa từ tập tài liệu chứa thơng tin mà họ tìm kiếm Trường hợp gọi “paraphrase problem” (vấn đề diễn giải) Để giải vấn đề hệ thống tạo hàm biểu diễn xử lý câu truy vấn tài liệu cách khác để đạt đến độ tương thích [0,1] Xử lý người j Không gian câu truy vấn Q Câu truy vấn Hàm biểu diễn câu truy vấn Tài liệu Hàm biểu diễn tài liệu q Biểu diễn Không gian tài liệu D d Biểu diễn Không gian biểu diễn R c Hàm so sánh [0,1] GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Hình 1.1: Mơ hình hệ thống tìm kiếm thơng tin Gọi miền xác định hàm biểu diễn câu truy vấn q Q, tập hợp câu truy vấn có; miền giá trị R, khơng gian thống biểu diễn thông tin Gọi miền xác định hàm biểu diễn tài liệu d D, tập hợp tài liệu; miền giá trị R2 Miền xác định hàm so sánh c R x R miền giá trị [0,1], tập số thực từ đến Trong hệ thống tìm kiếm lí tưởng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, j: Q x D > [0,1] biểu diễn việc xử lý người dùng mối quan hệ thơng tin, tính dựa tiêu chuẩn (ví dụ: giống nội dung hay giống kiểu …) Hình 1.1 minh họa mối quan hệ Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa so khớp xác dựa xếp Mơ hình mô tả cách tiếp cận Trong hệ thống tìm kiếm dựa so khớp xác, miền giá trị c giới hạn từ đến 1, chuyển sang nhị phân để định liệu tài liệu có thỏa biểu thức bool xác định câu truy vấn hay không? Các IR dựa so khớp xác thường cung cấp tài liệu không xếp thỏa câu truy vấn người dùng, hầu hết hệ thống tìm kiếm dùng cách Cách hoạt động chi tiết hệ thống mô tả phần sau Đối với hệ thống IR dựa xếp, tài liệu xếp theo thứ tự giảm dần mức độ liên quan Có loại hệ thống tìm kiếm dựa xếp: “ranked Boolean”, “probabilistic” “similarity based” Trong cách miền giá trị c [0,1], nhiên chúng khác cách tính “giá trị trạng thái tìm kiếm” (“retrieval status value”): • Trong hệ thống dựa “ranked Boolean” giá trị mức độ mà thông tin thỏa mãn biểu thức bool thơng tin cịn lại GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa • Trong hệ thống dựa “probabilistic” , khái niệm khác chút, giá trị xác suất mà thơng tin có liên quan đến câu truy vấn Rất nhiều hệ thống tìm kiếm dựa xác suất thiết kế để chấp nhận câu truy vấn diễn tả ngôn ngữ tự nhiên biểu thức bool • Trong hệ thống tìm kiếm dựa giống nhau, giá trị trạng thái tìm kiếm tính cách tính mức độ giống nội dung thơng tin Trong hệ thống tìm kiếm dựa so khớp xác, việc đánh giá hệ thống chủ yếu dựa việc đánh giá mức độ liên quan Giả sử j giá trị nhị phân cho trước Nói cách khác, ta giả sử tài liệu có khơng có liên quan đến câu truy vấn, độ liên quan tài liệu câu truy vấn người xác định xác Theo giả định này, tính hiệu hệ thống tìm kiếm dựa so khớp xác đánh giá dựa đại lượng thống kê “độ xác” (precision) “độ bao phủ” (recall) Độ xác tỉ lệ tài liệu chọn, tài liệu thực liên quan đến thông tin mà người dùng cần, độ bao phủ tỉ lệ tài liệu có liên quan xếp xác theo độ liên quan hệ thống tìm kiếm Nói cách khác, độ xác trừ tỉ lệ cảnh báo sai, độ bao phủ đo mức độ hồn chỉnh việc tìm kiếm Bảng 1.1 minh họa cho mối quan hệ Selected as Actually is Relevant Not relevant Relevant Found False alarm Not Relevant Missed Pr ecision = Re call = GVHD: TS Hồ Bảo Quốc TS Đinh Điền Found Found + False alarm Found Found + Missed Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa Bảng 1.1: Tính độ hiệu hệ thống tìm kiếm thơng tin Việc đánh giá tính hiệu hệ thống tìm kiếm dựa xếp phức tạp Một cách tính độ hiệu phổ biến cho hệ thống “độ xác trung bình” Nó tính cách chọn tập lớn tài liệu đầu danh sách có giá trị bao phủ Phương pháp thường sử dụng phương pháp tính dựa 5, 7, 11 điểm theo độ bao phủ Độ xác sau tính cho tập Qui trình lặp lại cho câu truy vấn, tương ứng độ xác trung bình cho độ bao phủ Mỗi giá trị trung bình số sau tính tốn ghi nhận đặc trưng hệ thống Độ xác trung bình lớn tốt, việc so sánh thực có ý nghĩa sử dụng tập tài liệu câu truy vấn Tuy nhiên độ xác trung bình làm giảm mức độ thay đổi câu truy vấn có đặc tính khác (ví dụ số lượng tài liệu có liên quan khác nhau) Hơn nữa, tài liệu có liên quan thường tập trung đầu danh sách xếp nên thơng thường độ xác giảm tập tài liệu mở rộng để tăng độ bao phủ 1.2 Hệ thống tìm kiếm thơng tin xun ngơn ngữ (CLIR): 1.2.1 Khái niệm: Hệ thống tìm kiếm thơng tin xun ngơn ngữ (CLIR) hệ thống tìm kiếm (IR) cho phép người dùng nhập câu truy vấn ngơn ngữ để tìm kiếm tài liệu ngôn ngữ khác Đối tượng sử dụng hệ thống tìm kiếm thơng tin xun ngữ (CLIR) là: • Những người có khả đọc tài liệu tiếng nước ngồi, gặp khó khăn tạo câu truy vấn ngơn ngữ • Những người gặp khó khăn đọc/ tìm kiếm tài liệu tiếng nước ngồi lại cần số lượng giới hạn tài liệu tìm kiếm CLIR để sử dụng hệ thống dịch máy (MT), thay phải dịch toàn tập hợp tài liệu GVHD: TS Hồ Bảo Quốc TS Đinh Điền Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Hình 4.3 Màn hình kết 1: Tài liệu tiếng Việt 2: Tài liệu tiếng Anh 3: Tài liệu tiếng Hoa 4.3 Đánh giá : 4.3.1 Module dịch khử nhập nhằng: Chúng thực việc dịch khử nhập nhằng 100 câu tiếng Việt bao gồm 40 câu lĩnh vực tin học 60 câu lĩnh vực khác Kết chuyển ngữ khử nhập nhằng tiếng Anh trình bày bảng 4.1 GVHD: TS Hồ Bảo Quốc TS Đinh Điền 119 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Song ngữ Khử nhập nhằng Đơn ngữ Đúng (câu) Các lĩnh vực khác Tỉ lệ Đúng (câu) Tỉ lệ 36 Lĩnh vực Tin học 90% 31 77,5% 50 83,33% 40 66,67% Bảng 4.1: Kết dịch khử nhập nhằng tiếng Anh Từ kết thống kê bảng 4.1 ta dễ dàng nhận thấy việc khử nhập nhằng dựa ngữ liệu song ngữ cho độ xác cao, đặc biệt lĩnh vực tin học Kết hợp lý ngữ liệu song ngữ dùng để khử nhập nhằng thuộc lĩnh vực tin học Tuy nhiên, kết lĩnh vực khác cao, nguyên nhân lĩnh vực khác nhập nhằng dịch không nhiều, thường dịch từ điển dịch phổ biến nên cho kết dịch xác Kết chuyển ngữ khử nhập nhằng tiếng Hoa: Song ngữ Khử nhập nhằng Đúng (câu) Tỉ lệ 62,5% 39 Các lĩnh vực khác Đúng (câu) 25 Lĩnh vực Tin học Tỉ lệ Đơn ngữ 65% Bảng 4.2: Kết dịch khử nhập nhằng tiếng Hoa Riêng tiếng Hoa, chưa xây dựng ngữ liệu song ngữ nên khử nhập nhằng dựa ngữ liệu đơn ngữ Tuy nhiên, ngữ liệu đơn ngữ mà chương trình sử dụng khơng thuộc lĩnh vực chuyên nên kết khử nhập nhằng chưa cao Trong tương lai, phát triển hồn thiện độ xác qui trình khử nhập nhằng tiếng Hoa 4.3.2 Chương trình tìm kiểm Web: GVHD: TS Hồ Bảo Quốc TS Đinh Điền 120 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa Đối với chương trình tìm kiếm web, độ hiệu cao, chương trình trả tài liệu tiếng Anh tiếng Hoa tương đương với người dùng tìm kiếm trực tiếp tiếng Anh tiếng Hoa Google Đây kết đáng khích lệ Tuy nhiên, tốc độ tìm kiếm chương trình lại phụ thuộc nhiều vào tính ổn định đường truyền mạng Với chất lượng đường mạng tốt thời gian chương trình download tài liệu khoảng 10s, thời gian tối đa để lấy tài liệu 60s Nếu thời gian lấy tài liệu từ Google lớn 60s chương trình khơng kết Khuyết điểm chưa khắc phục GVHD: TS Hồ Bảo Quốc TS Đinh Điền 121 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Chương 5: KẾT LUẬN HƯỚNG PHÁT TRIỂN 5.1 Kết luận: Hệ thống tìm kiếm xuyên ngữ Việt – Anh – Hoa hệ thống tìm kiếm xuyên ngữ Việt Nam Mặc dù số hạn chế hệ thống đạt số thành công định Hệ thống cho thấy việc tìm kiếm xuyên ngữ tiếng Việt khác ngơn ngữ khác hồn tồn thực Ngồi mục đích minh họa cho hai loại hình ngơn ngữ tiêu biểu, việc lựa chọn tiếng Anh tiếng Hoa cho hệ thống mang nhiều ý nghĩa khác Tiếng Anh ngôn ngữ quốc tế phổ biến thông dụng, tiếng Hoa, ngơn ngữ có số lượng người nói nhiều giới; thơng qua hệ thống người dùng tiếp cận với kho thông tin khổng lồ giới Những thành công mà hệ thống đạt nhờ may mắn kế thừa kết từ [16] Việc sử dụng cơng cụ tách từ đạt độ xác đến 98% khởi đầu tốt cho hệ thống Mặt khác điểm hệ thống khử nhập nhằng dịch, mà qui trình địi hỏi phải có ngữ liệu Nếu khơng có kho ngữ liệu chắn việc khử nhập nhằng khơng đạt độ xác cao Và ngữ liệu song ngữ từ [11] lại đóng góp vơ quan trọng cho hệ thống Trong thời gian tới tiếp tục phát triển nâng cao tính hiệu hệ thống 5.2 Huớng phát triển: 5.2.1 Đối với từ điển ngữ liệu: MRD Việt – Anh mà chúng tơi xây dựng có cấu trúc đầy đủ (gồm trường lĩnh vực, tham chiếu đồng nghĩa) nhiên số lượng mục từ hạn chế đặc biệt từ ghép thuật ngữ chuyên ngành Một MRD đầy đủ giúp cho giai đoạn chuyển ngữ đạt độ xác cao Tuy nhiên, việc mở rộng từ điển đòi hỏi thời gian công sức lớn GVHD: TS Hồ Bảo Quốc TS Đinh Điền 122 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa MRD Anh – Hoa có cấu trúc đơn giản Việc bổ sung thêm trường lĩnh vực, đồng nghĩa khả thi dựa vào ngữ liệu song song Ngữ liệu nguồn tài nguyên vô q Những ngữ liệu mà chúng tơi dùng ngữ liệu song ngữ Việt – Anh (về lĩnh vực tin học) ngữ liệu đơn ngữ tiếng Hoa (thu thập từ báo tiếng Hoa) Trong tương lai, cố gắng bổ sung số ngữ liệu lĩnh vực khác để việc khử nhập nhằng đạt hiệu cao 5.2.2 Đối với IR Engine: Trong luận văn sử dụng Google IR Engine Ngoài Google cịn có nhiều cơng cụ mạnh khác có khả tìm kiếm Internet Để tăng tính hiệu việc tìm kiếm, hồn tồn gọi thực thi search engine khác Trên thực tế hệ thống tìm kiếm có IR Engine riêng biệt để làm cơng việc tìm kiếm cụ thể Chẳng hạn, hệ thống tìm kiếm xuyên ngữ mà chúng tơi xây dựng dùng ba IR Engine khác (VIR Engine, EIR Engine CIR Engine) để tìm kiếm thơng tin cần tìm cho ba loại ngơn ngữ Việt – Anh – Hoa Như hướng phát triển tương lai xây dựng IR Engine chuyên biệt cho ngơn ngữ giúp tăng độ xác tìm kiếm thơng tin Lúc hệ thống xây dựng theo mơ hình sau: GVHD: TS Hồ Bảo Quốc TS Đinh Điền 123 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Người dùng Câu truy vấn tiếng Việt Các tài liệu có liên quan đến câu truy vấn ba ngôn ngữ Việt - Anh - Hoa Bộ dịch Các từ điển Bộ khử nhập nhằng Ngữ liệu Câu truy vấn tiếng Anh EIR Engine Câu truy vấn tiếng Hoa CIR Engine VIR Engine Hình 5.1 Mơ hình hệ thống truy xuất xuyên ngữ Việt – Anh – Hoa (dùng ba IR Engine) Trong IR Engine dùng kỹ thuật local feedback để mở rộng câu truy vấn, làm phong phú tài liệu tìm kiếm 5.2.3 Mở rộng ngơn ngữ tìm kiếm cho hệ thống: Với giả thuyết nguồn tài nguyên từ điển ngữ liệu ngôn ngữ khác (chẳng hạn tiếng Pháp) đầy đủ hệ thống chúng tơi hồn tồn tìm kiếm tài liệu có liên quan đến câu truy vấn ngơn ngữ Việc bổ sung ngôn ngữ khác cho hệ thống vấn đề thời gian GVHD: TS Hồ Bảo Quốc TS Đinh Điền 124 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa PHỤ LỤC DANH SÁCH CÁC PHỤ TỐ TIẾNG ANH: HẬU TỐ DẪN XUẤT Stt Hậu tố Nghĩa tiếng Việt Ghi chú, Ví dụ ability khả_năng ~ readability (khả_năng đọc) able có_thể ~ được; readable (có_thể đọc được), khả_~ transferrable (khả_chuyển) có_thể ~ được; interchangeably (có_thể hốn_đổi khả_~ được), transferrably (khả_chuyển) ably al (thuộc về) ~ national (quốc_gia) ance ~ assistance (sự trợ_giúp) ant ~ assistant (trợ_giúp) ate Làm cho ~ fascinate (làm cho chặt) ation ~ decoration (sự-trang_trí) cation ~ application (sự-áp_dụng) 10 ed* (đã / bị) ~ closed-door (cửa bị đóng) 11 ee người/vật interviewee (người phỏng_vấn) 12 en Làm ~ golden (làm vàng) 13 en Làm cho ~ shorten (làm cho ngắn) 14 ence ~ dependence (sự-phụ_thuộc) 15 ent ~ referent (tham_khảo) 16 er* người/máy ~ printer (thợ_in, máy_in) 17 ese tiếng/người ~ Japanese (tiếng_Nhật), Vietnamese 18 ful ~ đầy handful (nắm_tay đầy), cupful 19 hood thời_kỳ ~ childhood (thời_kỳ niên_thiếu) 20 ial (thuộc về) ~ sentential (thuộc câu) 21 ian người ~, ~_viên technician (kỹ_thuật_viên) 22 ibility khả_năng ~ comprehensibility (khả_năng hiểu) 23 ible có_thể ~ được; visible (có_thể nhìn thấy được), khả_~ visible (khả_kiến) có_thể ~ được; visibly (có_thể nhìn thấy được), 24 ibly GVHD: TS Hồ Bảo Quốc TS Đinh Điền 125 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa khả_~ visible (khả_kiến) 25 ic (có tính) ~ graphic (đồ_hoạ) 26 ing* (đang) ~ running car (xe_hơi chạy) 27 ion ~ action (hành_động) 28 ise/ize ~_hóa normalise/-ize (bình_thường_hố) 29 ism chủ_nghĩa ~ socialism (chủ_nghĩa xã_hội) 30 ist người ~, nhà_~ scientist (nhà_khoa_học) 31 ity ~ activity (sự-hoạt_động) 32 ive ~ active (tích_cực) 33 less khơng có ~; bất_~, careless (bất_cẩn, không cẩn_thận) vô_~ 34 let ~ nhỏ booklet (cuốn-sách nhỏ) 35 like giống ~ humanlike (giống người) 36 ly (một cách) ~ strongly (một cách mạnh_mẽ) 37 Ment ~ replacement (sự-thay_thế) 38 ness ~ brightness (sự-chói_sáng) 39 Logy (ngành)_~_học etymology (ngành_từ_nguyên_học) 40 or người/máy_~ editor (người_hiệu_đính), generator (máy_phát) 41 st,nd,rd,t thứ ~ 31st, 32nd, 33rd ,34th (thứ 31,32,32,34) h 42 tion ~ evolution (sự-tiến_triển) 43 Tive ~ talkative (hay nói) 44 Y có ~ cloudy, rocky (có mây, có đá) Lưu ý: • Dấu ~ để đại diện cho thân từ • Các hậu tố đánh dấu * hậu tố bị trùng với hậu tố biến cách TIỀN TỐ DẪN XUẤT Stt Tiền tố Nghĩa tiếng Việt Ghi chú, Ví dụ Anti chống ~, kháng_~ Auto ~ tự_động GVHD: TS Hồ Bảo Quốc TS Đinh Điền antivirus (chống virút), antibody (kháng_thể) autocar (xe_hơi tự_động) 126 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa Bi Centi Co Counter Hai ~, lưỡng_~ Xen-ti_~ đồng_~ trái ngược với ~ 10 11 12 13 De Dis Former Giga Hexa Hyper in, il, im, ir (*) khử_~, giải_~ khử_ cựu_~ gi_ga_~ sáu ~, lục_~ siêu_~ không ~, bất_~, vô_~ 14 15 16 17 18 19 20 21 22 23 24 25 Inter Kilo Macro Mega Meta Micro Mid Milli Mis Mono Multi Nano ~ lẫn nhau, liên_~ kí_lơ_~ ~ vĩ mơ mê_ga_~ siêu ~ vi_~ ~, trung ~ mi_li ~ ~ sai, ~ lầm đơn_~ đa_~ na_nô ~ bicenter (lưỡng_tâm) centimeter (xen_ti_mét) co-author (đồng_tác_giả) counterclockwise (ngược chiều kim đồng_hồ) decode (giải_mã) discharge (khử_tích_điện) former-president (cựu_tổng_thống) gigabyte (gi_ga_byte) hexagon (lục_giác) hypertext (siêu_văn bản) illiterate (không biết chữ), impatient (không kiên_nhẫn), irregular (bất_quy_tắc) interconnection (kết_nối lẫn nhau) kilogram (kí_lơ_gam) macro-economy (kinh_tế vĩ_mơ) megawatt (mê_ga_ốt) metavariable (siêu_biến) micro-instruction (vi_lệnh) midterm (giữa kỳ, trung_hạn) millimeter (mi_li_mét) mismatch (không trùng nhau) monotone (đơn_điệu) multi-media (đa_phương_tiện) nanofarad (na_nô_fara) 26 27 28 29 30 31 32 33 34 Non Oct Over Pent Photo Pico Post Pre Pseudo không ~, phi ~ tám ~, bát_~ quá_~ năm ~, ngũ_~ quang_~ pi_cô_~ hậu_~, sau ~ tiền_~ ~_giả non-profit (không lợi_nhuận) octal (bát_phân) overload (quá_tải) pentagon (ngũ_giác) photo-electronic (quang_điện_tử) picofarad (pi_cô_farad) post-graduate (sau đại_học) pre-process (tiền_xử_lý) pseudo-code (mã_giả) GVHD: TS Hồ Bảo Quốc TS Đinh Điền 127 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Quad Re Self Semi Stereo Sub Super Tele Tera Tri Ultra Un Under Vice bốn ~, tứ ~ ~ lại, tái_~ tự_~ bán_~ ~ ~_con, ~ phụ siêu_~ ~ từ xa, viễn ~ tê_ra_~ ba ~, tam_~ cực_~ khơng ~ ~,hạ ~, ~thấp phó ~ quadruple (bộ bốn) re-calculate (tính_tốn lại) self-educate (tự_học) semi-conductor (bán_dẫn) stereo-image (hình_ảnh_nổi) subprogram (chương_trình_con) super-conductor (siêu_dẫn) tele-meter (đo_lường từ xa) terabyte (tê_ra_byte) triangle (tam_giác), tripod (ba cực) ultraviolet (cực_tím) unhappy (khơng hạnh_phúc) under-estimate (đánh_giá thấp) vice-director (phó_giám_đốc) (*) : “in-” biến thể thành “il-” đứng trước “l”; thành “im-” đứng trước “b”, “m” hay “p” thành “ir-” đứng trước “r” Lưu ý: dấu gạch (“_”) để nối hình vị từ tiếng Việt DANH SÁCH CÁC PHÓ TỪ TIẾNG VIỆT: DANH TỪ CHỈ LOẠI (KHÔNG PHẢI ĐỘNG VẬT ) Stt Loại từ Ví dụ Ghi Ang Văn Bài thơ, diễn văn, tuyên ngôn, tài liệu, tiểu thuyết từ điển, máy, hoa, tranh, thư, tượng, vách, ảnh Bàn, ghế, đầu, thuyền; khuyết điểm, tâm trạng chiếm đa số cho danh từ cụ thể trừu tượng nến, đèn, roi, bút, súng, đàn, tăm vật có hình trụ, dài phịng, nhà 10 Bàn, ghế, thuyền, lẻ loi 11 Dao, thuyền, sông, đa số dùng động vật GVHD: TS Hồ Bảo Quốc TS Đinh Điền 128 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa 12 gió, 13 Sách, tập, vở, tiểu thuyết 14 đố Hoa 15 hịn đạn, bi, núi 16 súng, đại bác 17 Bùa, thư, phiếu, đơn 18 Gió 19 kịch, 20 Q, nợ, 21 Văn hố, độc lập, khoa học, 22 Nhà 23 cờ, núi, 24 ngơi Nhà, đền, mộ, (sao) 25 tượng, truyện, sách 26 Bom, núi, 27 Sách, 28 ảnh, tranh, bảng, bìa 29 tuồng, kịch 30 tồ Nhà, lâu đài 31 gươm, kiếm 32 ruộng, đất 33 sao, vua 34 kịch, tuồng vật đóng thành có dạng trịn có dạng dẹp giống danh từ trừu tượng cơng trình xây dựng có hình trịn (giống trái cây) cơng trình xây dựng DANH TỪ CHỈ LOẠI (NGƯỜI/CON VẬT) Stt Loại từ Ví dụ anh Sinh viên, cán bà chủ nhiệm, vợ bác thợ, phu xe chị Giáo viên, nhà báo bậc vĩ nhân, anh hùng Tí, Tỉu cậu học trị, trai Gián điệp, mẹ mìn GVHD: TS Hồ Bảo Quốc TS Đinh Điền Ghi trọng Khinh 129 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngôn ngữ Việt – Anh – Hoa Trâu, bị, gà dùng cho vật 10 dược sĩ, y tá 11 chàng thi sĩ, văn nhân 12 Liên lạc, tài xế 13 đấng Anh hùng, thánh thần 14 em học sinh, nhi đồng 15 lão quản gia, tri huyện khinh 16 mụ Đàn bà, vợ khinh 17 nàng công chúa, tiên văn chương 18 người Giáo viên, thợ nề 19 tay thầu khốn, nhà bn khinh 20 tên sĩ quan địch, nguỵ binh khinh 21 thằng quỷ sứ, mật thám khinh 22 vị phụ lão, chủ tịch trọng 23 viên sĩ quan, đại uý văn chương trọng 24 DANH TỪ CHỈ ĐƠN VỊ QUY ƯỚC Stt Từ Tiếng Anh Ví dụ Ghi cân pound thịt chai bottle rượu chuyến time tàu, hàng cục clot Đá dãy Row, line Nhà dùng với danh từ tập hợp đàn herd Gà dùng với danh từ tập hợp đoàn herd, người dùng với danh từ tập hợp đoạn section, Văn giấc sleep,slunker ngủ 10 giọt drop nước 11 gói pack thuốc 12 hạt grain, drop cát, gạo 13 hàng Row, line Cây GVHD: TS Hồ Bảo Quốc TS Đinh Điền đơn vị lâm thời đơn vị lâm thời dùng với danh từ tập hợp 130 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa 14 hột grain gạo 15 hịn Ball, piece Đá 16 lít litter rượu 17 lon jar, pot, can gạo 18 miếng piece thịt 19 sợi string, thread dây, 20 Ton sắt, vàng 21 thìa spoon Canh 22 thước metter vải 23 thúng basket gạo 24 thùng barrel, cask rượu 25 tờ sheet giấy 26 trận battle Mưa 27 xâu thread, string Cá GVHD: TS Hồ Bảo Quốc TS Đinh Điền đơn vị lâm thời 131 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa TÀI LIỆU THAM KHẢO [1] Lisa Ballesteros, W.Bruce Croft “Statistical Methods for Cross-Language Information Retrieval ” Computer Science Department – University of Massachusetts [2] Christian Fluhr, Dominique Schmit, Philippe Ortet, Faza Elkateb, Karine Gurtner, Khaled Radwan “Distributed Cross-Lingual Informtion retrieval” DIST/SMTI CEASaclay France [3 ] Mark W Davis and Ted E Dunning, March 1995 Query translation using an evolutionary programming for multi-lingual information retrieval In proceeding the Fourth Annual Conference on Evolutionary Programming [4] Michael L Littman, Susan T Dumais, Thomas K Landauer, “Automatic CrossLanguage Information Retrieval using Latent Semantic Indexing”, Computer Science Department, Brown University [5] Lisa Ballesteros, W Bruce Croft, Resolving Ambiguity for Cross-language Retrieval, 1997 [6] Lisa Ballesteros, W Bruce Croft, Phrase Translation and Query Expansion Techniques for Cross-Language Information Retrieval, 1997 [7 ] Yamabana Kiyoshi, Muraki Kazunori, Doi Shinichi, Kamei Shin-ichiro “A language conversion front-end for Cross-language Information Retrieval ” [8] Atsushi Fuiji and Tetsuya Ishikawa 9.2002 “Japanise/English Cross-Language Information Retrieval: Exploration of Query Translation and Translisteration” [9] J.S.Chang, Y.C.Lin, Y.K.Su (1995) “Automatic Construction of a Chinese Electronic Dictionary” Proceedings of Workshop of ACL-1995, pp.107-120 [10] Hoàng Phê (1998), Từ điển tiếng Việt, Trung tâm từ điển học, NXB Đà Nẵng GVHD: TS Hồ Bảo Quốc TS Đinh Điền 132 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thơng tin xun ngơn ngữ Việt – Anh – Hoa [11] Đinh Điền (2004), “Một số vấn đề việc xây dựng từ điển tiếng Việt điện tử”, Tập san Khoa học Xã hội Nhân văn – ĐH Khoa học Xã hội & Nhân văn TP HCM, 2004 (27), trang 37 – 46 [12] George Miller (2000): Introduction to WordNet, http://www.cogsci.princeto.edu/~vn/.Prenceton [13] Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg 749-756 [14] Tsai, C H (1996), MMSEG: A word identification system for Mandarin Chinese text based on two variations of the maximum matching algorithm, Unpublished manuscript, University of Illinois at Urbana-Champaign [15] Mark W Davis William C.Ogden , 1997 “Implementing Cross-Language Text Retrieval Systems for Large-scale Text Collections and the World Wide Web” Computing Research Laboratory – New Mexico State Univeristy [16] Đinh Điền (2005) “Xây dựng khai thác kho ngữ liệu song ngữ Anh – Việt” Luận án tiến sĩ ngôn ngữ học, Trường đại học Khoa học Xã hội Nhân văn [17] Lê Thuý Ngọc, Đỗ Mỹ Nhung, Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt, Luận văn cử nhân tin học, GVHD: Nguyễn Thị Diễm Tiên GVHD: TS Hồ Bảo Quốc TS Đinh Điền 133 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 ... Thị Tuyết Mai - 0112229 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa tìm kiếm xun ngữ? ?? Trong đó, họ sử dụng từ điển song ngữ Anh- Tây Ban Nha để tìm kiếm tài liệu tiếng Anh tiếng Tây... công cụ tìm kiếm đơn ngữ (search engine) trả tài liệu viết ngôn ngữ với ngơn ngữ câu truy vấn (query) Do vấn đề đặt liệu xây dựng hệ tìm kiếm thơng tin mà thơng tin trả tất tài liệu ngôn ngữ khác... Hệ thống tìm kiếm thơng tin xuyên ngôn ngữ Việt – Anh – Hoa Anh – Hoa” cho phép người dùng nhập câu truy vấn tiếng Việt trả tài liệu có liên quan tiếng Việt, tiếng Anh tiếng Hoa Trong luận văn