Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
735,39 KB
Nội dung
Đồ án tốt nghiệp – CNTT MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề 1.1.1 Tổ chức sở ngữ nghĩa từ vựng 1.1.2 Mơ hình gán nhãn ngữ nghĩa 1.2 Các hƣớng tiếp cận truyền thống 1.2.1 Xây dựng từ điển phân loại dựa từ điển MRD 1.2.2 Sử dụng liên kết từ điển có 1.2.3 Sử dụng ánh xạ từ điển MRD song ngữ CHƢƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Các vấn đề Ngôn Ngữ học 2.1.1 Từ Tiếng Việt 2.1.2 Từ Tiếng Anh 10 2.1.3 Nghĩa từ: 10 2.1.4 Quan hệ đồng âm, đồng nghĩa 17 2.1.5 So sánh từ tiếng Việt từ tiếng Anh hình thái 19 2.1.6 So sánh từ tiếng Việt từ tiếng Anh mặt ngữ pháp 20 2.1.7 So sánh từ tiếng Việt tiếng Anh mặt nhãn ngữ nghĩa 23 2.2 WordNet 25 2.2.1 Mơ hình WordNet 26 2.2.2 Danh từ WordNet 33 2.2.3 Định dạng file sở liệu WordNet 42 2.2.4 Số lƣợng từ, synset WordNet 44 Chƣơng 3: XÂY DỰNG MƠ HÌNH VÀ THỰC NGHIỆM 45 3.1 Phƣơng pháp dịch ttự động WordNet qua tiếng Việt 45 3.1.1 Dịch từ WordNet 45 3.1.2 Dịch từ từ điển tiếng Việt 48 3.1.3 Tổ chức liệu 52 Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT 3.2 Phƣơng pháp làm thủ công 52 3.3 Chƣơng trình thực nghiệm 53 KẾT LUẬN 54 DANH SÁCH HÌNH VẼ Hình 1: Ánh xạ n-1 từ nghĩa từ tiếng Việt synset tiếng Anh Hình 2: Mơ hình diễn giải kí hiệu mơ hình dịch synset WordNet 46 Hình 3: Mơ hình diễn giải kí hiệu mơ hình gán nhãn synset cho từ 49 Hình 4: Mơ hình diễn giải trường hợp 50 Hình 5: Mơ hình q trình tổ chức liệu cho WordNet tiếng Việt 52 Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT LỜI CẢM ƠN Trƣớc hết em xin gửi lời cảm ơn đến thầy Ths Nguyễn Trịnh Đông, ngƣời hƣớng dẫn em nhiều suốt trình tìm hiểu nghiên cứu hồn thành khóa luận từ lý thuyết đến ứng dụng Sự hƣớng dẫn thầy giúp em có thêm đƣợc hiểu biết WordNet ứng dụng từ điển thực tiễn Đồng thời em xin cảm ơn thầy cô khoa Công nghệ thông tin - Trƣờng ĐHDL Hải Phịng, ngƣời nhiệt tình giảng dạy truyền đạt kiến thức cần thiết suốt thời gian em học tập trƣờng để em hồn thành tốt khóa luận Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè tạo điều kiện để em xây dựng thành cơng khóa luận Em xin chân thành cảm ơn ! Hải Phòng, ngày 09 tháng 07 năm 2010 Ngƣời viết báo cáo Trang Nguyễn Thị Thu Trang Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT MỞ ĐẦU Trong năm gần đây, lĩnh vực xử lý ngơn ngữ tự nhiên xử lý ngữ nghĩa chiếm vai trị định tính xác mơ hình xử lý ngơn ngữ tự nhiên Để xử lý ngữ nghĩa phải có sở tri thức ngữ nghĩa từ vựng ngôn ngữ cần xử lý, tiếng Anh có sở tri thức ngữ nghĩa hồn chỉnh Trong hệ thống sở tri thức ngữ nghĩa từ vựng WordNet phổ biến Đây mạng ngữ nghĩa đồ sộ 110.000 synset tiếng Anh Các nhà ngôn ngữ học, tâm lý học tin học bỏ gần 20 năm để xây dựng hệ thống ngày chúng đƣợc nâng cấp số lƣợng chất lƣợng Tuy nhiên với ngôn ngữ khác, hệ thống nhƣ chƣa có nhiều Điển hình tiếng Việt, chƣa có hệ thống sở tri thức ngữ nghĩa từ vựng nhƣ Do vấn đề cấp bách phải xây dựng hệ thống ngữ nghĩa tiếng Việt cho máy tính muốn phát triển ứng dụng xử lý ngôn ngữ tự nhiên WordNet phân biệt danh từ, động từ, tính từ trạng từ, họ làm theo quy tắc ngữ pháp khác Danh từ loại từ phổ biến phổ dụng ngơn ngữ Ðến nay, có nhiều cách phân lớp danh từ tiếng Việt theo tiêu chí khác nhau, nhƣng nhiều cách mang tính chủ quan đƣợc thực số ví dụ cụ thể Tuy nhiên, thực tế, phân giải ngữ nghĩa danh từ tiếng Việt ngữ cảnh bất kì, lại cần đến hệ thống phân lớp hoàn chỉnh cho tất danh từ tiếng Việt theo ý niệm chung tƣ ngƣời Việc xây dựng hệ thống phân lớp nhƣ đƣợc thực thành công lần tiếng Anh qua mạng WordNet, từ đây, mạng tƣơng tự cho tiếng Pháp, Tây Ban Nha, Ðức, Hoa, Nhật, đƣợc hình thành sở mạng Việc xây dựng mạng từ vựng tƣơng tự WordNet có nhiều ý nghĩa Nó cho việc phát triển ứng dụng xử lý ngôn ngữ tiếng Việt, cho nghiên cứu ngôn ngữ học tiếng Việt Do vậy, báo cáo này, em trình bày phƣơng pháp xây dựng từ điển danh từ Tiếng Việt dựa theo từ điển WordNet Đồ án đƣợc chia thành phần nhƣ sau: Chƣơng 1: Tìm hiểu đề tài phương pháp tiếp cận Chƣơng 2: Tìm hiểu tiếng Việt WordNet áp dụng việc xây dựng từ điển danh từ tiếng Việt Chƣơng 3: Xây dựng mơ hình tổ chức liệu cho WordNet tiếng Việt thực nghiệm Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT CHƢƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề Vấn đề xử lý ngôn ngữ tự nhiên, xử lý ngữ nghĩa chiếm vai trò quan trọng ứng dụng xử lý ngôn ngữ tự nhiên Để xây dựng đƣợc từ điển Tiếng Việt cho máy tính đáp ứng đƣợc nhu cầu cấp thiết đƣợc nhiều nhà nghiên cứu quan tâm Hiện giới, WordNet hệ thống sở tri thức khổng lồ ngôn ngữ học từ vựng tiếng Anh, đƣợc coi nguồn tài nguyên quan trọng có sẵn cho nhà nghiên cứu ngơn ngữ học, tính tốn, phân tích văn bản, nhiều lĩnh vực liên quan Cũng từ đây, sở liệu tri thức ứng dụng việc xây dựng từ điển tiếng Pháp, Tây Ban Nha, Ðức, Hoa, Nhật…, theo cấu trúc lƣu trữ từ vựng WordNet Để áp dụng WordNet xây dựng từ điển danh từ Tiếng Việt cần giải vấn đề sau: Nắm đƣợc cấu trúc sở tri thức từ vựng WordNet Xây dựng mô hình tổ chức liệu cho từ điển tiếng Việt dựa WordNet sau đƣợc gọi WordNet tiếng Việt 1.1.1 Tổ chức sở ngữ nghĩa từ vựng Để xử lý ngôn ngữ tự nhiên máy tính, cần có sở ngữ nghĩa từ vựng ngơn ngữ Thơng thƣờng sở ngữ nghĩa từ vựng từ điển phân loại từ hay nhóm từ, tức từ đƣợc gắn hay nhiều nghĩa Đặc biệt có nhiều sở tri thức cịn đƣa mối quan hệ ngữ nghĩa nhãn ngữ nghĩa Các mối quan hệ quan hệ tồn thể, phận, thừa kế Có số mơ hình sở tri thức ngữ nghĩa từ vựng lại trọng vào số lĩnh vực hẹp hay phạm vi nhỏ Nhƣng sở tri thức ngữ nghĩa từ vựng thành phần thiếu đƣợc với hệ thống xử lý ngôn ngữ tự nhiên đời WordNet Hệ thống mạng ngữ nghĩa WordNet: Hệ sở tri thức ngữ nghĩa từ vựng đƣợc bắt đầu phát triển vào năm 1993 Bao gồm 152059 cụm từ đƣợc phân bố vào 115.424 synsets 44 chủ đề Quan trọng hệ thống xây dựng mạng lƣới mối quan hệ ý niệm với Đây xem mạng ngữ nghĩa đầy đủ hoàn thiện Hiện sử dụng sở tri thức ngữ nghĩa từ vựng giới thực, ngƣời ta thƣờng sử dụng WordNet Trong đề tài em tập trung vào tìm hiểu cấu trúc sở lƣu trữ tri thức WordNet từ ứng dụng vào việc xây dựng từ điển danh từ tiếng Việt Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT 1.1.2 Mơ hình gán nhãn ngữ nghĩa Sau chọn đƣợc quy tắc phân chia mạng ngữ nghĩa, phải tìm mơ hình để gán nhãn (cụm ) từ tiếng Việt vào mạng ngữ nghĩa WordNet Chúng ta đặc tả tốn nhƣ sau : V : tập hợp từ tiếng Việt : tập hợp synnet WordNet Synnet WordNet đƣợc xem hình vị hóa ý niệm Hay nói rõ synnet nhóm từ có chung ý niệm WordNet : ánh sạ từ V→ Với v ,v V Nghĩa từ tiếng Việt Tập từ đồng nghĩa (synset) WordNet Hình 1: Ánh xạ n-1 từ nghĩa từ tiếng Việt synset tiếng Anh Giả thiết, có tiên đề sau: Ánh xạ từ V→ ánh xạ 1-n Một số nghĩa từ tiếng Việt chung synset WordNet Tuy nhiên, synset WordNet ánh xạ thành nghĩa tiếng Việt Do tốn đƣợc quy tìm ánh xạ 1.2 Các hƣớng tiếp cận truyền thống Trên giới có nhiều cách tiếp cận để giải cho ngôn ngữ cụ thể Mỗi phƣơng án đƣợc đề xuất xuất phát từ nguồn tài ngun có ngơn ngữ Với ngơn ngữ phổ biến, có nhiều hệ thống phân loại từ vựng, hệ thống WordNet ngôn ngữ đƣợc xây dựng theo cách tiếp cận sử dụng từ điển phân loại có xây dựng ánh xạ tƣơng ứng Tuy nhiên Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT với ngơn ngữ phổ biến, chƣa có từ điển phân loại, mơ hình khả thi đƣợc đề xuất xây dựng từ điển phân loại dựa từ điển đơn ngữ,… dĩ nhiên, độ xác 1.2.1 Xây dựng từ điển phân loại dựa từ điển MRD Phƣơng pháp sử dụng từ điển đơn ngữ để rút trích liên kết từ nghĩa Các mô hình dạng phân tích phần giải thích từ đơn từ điển đơn nghĩa để tìm thuật ngữ Dựa vào phân loại thuật ngữ xác định đƣợc phân loại từ Hƣớng tiếp cận áp dụng cho ngơn ngữ, hầu nhƣ ngơn ngữ có từ điển đơn ngữ ngơn ngữ mình.Tuy nhiên phƣơng pháp khơng cho kết xác cần phải giải vấn đề từ điển đơn ngữ nhƣ phân loại thiếu phân loại không hợp lý có kĩ thuật khử nhập nhằng phân loại 1.2.2 Sử dụng liên kết từ điển có Các phƣơng pháp thuộc tiếp cận dạng sử dụng cho ngôn ngữ có từ điển đƣợc phân loại Khi sử dụng từ điển dạng kết hợp với phân loại khác để tạo lên cấu trúc hồn chỉnh đa ngơn ngữ Tuy nhiên, áp dụng phƣơng pháp để tìm ánh xạ hai ngơn ngữ khác kết thu đƣợc độ xác khơng cao, khơng khả quan nhiều 1.2.3 Sử dụng ánh xạ từ điển MRD song ngữ Phƣơng pháp tìm cách liên kết từ tiếng Anh tƣơng ứng từ điển song ngữ với synset tƣơng ứng WordNet Hƣớng tiếp cận thu đƣợc kết tốt sử dụng quan hệ Synset nhƣ đồng nghĩa, phản nghĩa bao hàm Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT CHƢƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Các vấn đề Ngôn Ngữ học So với ngôn ngữ khác, nay, tiếng Việt nhiều quan điểm khác vấn đề ngơn ngữ học Có nhiều trƣờng phái thiên vấn đề cho máy tính dễ xử lý có nhiều trƣờng phái lại khó áp dụng máy tính để xử lý 2.1.1 Từ Tiếng Việt 2.1.1.1 Hình vị Trong tiếng Việt đơn vị đƣợc gọi tiếng.Về mặt ngữ âm ngữ nghĩa, ngữ pháp có giá trị quan trọng Hình vị đơn vị ngơn ngữ nhỏ có nghĩa và/hoặc có giá trị (chức năng) mặt ngữ pháp Về giá trị ngữ âm Đứng mặt ngữ âm hình vị thƣờng trùng với âm tiết Xét mặt ngữ âm, âm tiết đơn vị ngữ âm dễ nhận diện, đơn vị phát âm tự nhiên ứng với căng lên trùng xuống dây thanh, đƣợc phân cách khoảng ngắt Về bình diện chữ viết Trong chữ quốc ngữ tức chữ Việt nay, âm tiết đƣợc ghi thành chữ, nên mặt chữ viết, âm tiết dễ đƣợc nhận Mỗi âm tiết tiếng Việt có Về giá trị ngữ nghĩa Đứng mặt ngữ nghĩa hình vị đơn vị nhỏ có nghĩa Đơn vị ngữ âm bậc thấp hơn, âm vị, khơng thể có nghĩa, mà có giá trị khu biệt nghĩa Chẳng hạn, âm vị /-a-/và âm vị /-t-/ riêng lẻ tự khơng có nghĩa gì, có giá trị khu biệt nghĩa: ta-ma-xa-na ; ta-tu-ti-to điệu có giá trị nhƣ âm vị tự khơng có nghĩa nhƣng đƣợc kết hợp lại thành tiếng hoàn chỉnh , thành âm tiết nhƣ ta hay tạ, má hay ma thành đơn vị nhỏ có nghĩa Trong tiếng Việt, có loại hình vị khác nhƣ sau: Loại hình vị độc lập, nhƣ: đất, nước, nhà, xe, máy; làm, ăn, ngủ, nhìn, học; xấu, tốt, , cũ loại hình vị tự có nghĩa dùng để gọi tên vật, tƣợng, tính chất đƣợc dùng để tạo từ , từ tiếng, đơn vị bậc trực tiếp cao Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT Loại hình vị không độc lập, nhƣ thủy, thổ, hỏa, sơn; thực, khán, thính, tọa ; mỹ, lạc hí, nộ Đây loại hình vị, tự có nghĩa nhƣng khơng dùng để gọi tên vật, tƣợng, khơng có khả vận dụng tự để tạo thành câu dƣợc Chúng ta khơng vào nƣớc mà nói rằng: thủy, mà nói : nước; khơng thể nói uống thủy mà nói: uống nước Nhƣng loại tiếng đƣợc dùng để cấu tạo đơn vị bặc trực tiếp cao hơn, tức từ, nhƣ thực phẩm, mỹ nghệ; tàu thủy, lính thủy Và từ hai tiếng Loại hình vị khơng có nghĩa tự thân, nhƣ long, lanh (long lanh), bâng, khuâng (bâng khuâng), lẽ (lặng lẽ), dàng (dẽ dàng)… …tuy khơng tự có nghĩa, nhƣng có tác dụng tạo nghĩa khu biệt tạo nghĩa cho đơn vị bậc trực tiếp cao hơn, tức từ, nhƣ long lanh, bâng khuâng, lặng lẽ, dễ dàng Đây từ hai tiếng Về giá trị ngữ pháp Ngữ pháp bao gồm quy tắc cấu tạo từ, cấu tạo câu Hình vị đơn vị ngữ pháp đƣợc dùng để cấu tạo từ Có số trƣờng hợp cấu tạo từ sau đây: Cấu tạo từ tiếng Đây trƣờng hợp hình vị độc lập đƣợc dùng làm từ Chẳng hạn: nước hình vị đƣợc dùng làm từ Có thể dùng từ tiếng để cấu tạo câu Ví dụ: nói câu tơi uống nước hay nói nước Cấu tạo từ hai tiếng hay nhiều tiếng Đó trƣờng hợp có kết hợp hai thành tố, mà hai thành tố hai hình vị độc lập, khơng độc lập, hay khơng có nghĩa tự thân kết hợp với nhau, có gán bó tƣơng dối chặt chẽ mặt nội dung hình thức Chẳng hạn: Nhà nước, xóm làng, quàn áo; thợ sơn, hoa hồng, cá thu; quốc gia, giang sơn, huynh đệ; tàu thủy,bình thủy, lính thủy; dễ dàng, gọn nhẹ, lẹ làng, long lanh, lai rai, lơ thơ; bồ hóng, bù nhìn, cà phê; chợ búa, tre pheo, khách khứa Cũng có trƣờng hợp hai tiến kết hợp với thành từ Ví du: hợp tác xã, câu lạc bộ, cộng sản chủ nghĩa, chủ nghĩa xã hội 2.1.1.2 Từ Từ đơn vị sẵn có ngơn ngữ Từ đơn vị nhỏ nhất, cấu tạo ổn định, mang nghĩa hoàn chỉnh, đƣợc dùng để cấu thành nên câu Từ làm tên gọi vật (danh từ), hoạt động (động từ), trạng thái, tính chất (tính từ) Từ cơng cụ biểu thị khái niệm ngƣời thực Trong ngôn ngữ học, từ đối tƣợng nghiên cứu nhiều cấp độ khác nhau, nhƣ cấu tạo từ, hình thái hoc, ngữ âm học, phong cách học, cú pháp học Nguyễn Thị Thu Trang – Lớp CT1001 Đồ án tốt nghiệp – CNTT “Từ tiếng Việt đƣợc cấu tạo hình vị tiếng Việt‟‟ Từ tiếng Việt bao gồm; từ đơn, từ ghép, từ láy từ ngẫu hợp Ngồi quan niệm từ tiếng Việt nhƣ trên, họ gán tƣ cách từ cho số đơn vị tiếng Việt cịn tranh cãi tƣ cách từ dựa theo từ vựng hóa tiếng Anh, Chẳng hạn: nhà_tranh (line), xe_đạp (bicycle), máy tính (computer), đường_thẳng (line) từ ;cịn nhà gạch (brick house), khơng từ Giống nhƣ cách trình bày WordNet, luận văn, em dùng thêm kí hiệu dấu gạch liền dƣới (underline “_”) để nối hình vị từ tiếng Việt Ví dụ: học_sinh, máy_tính, hiển_thị , đo_lường từ xa, 2.1.2 Từ Tiếng Anh Tiếng Anh thuộc loại ngơn ngữ biến hình (inflextion), từ tiếng Anh dễ dàng xác định thơng qua dấu khoảng cách Từ tiếng Anh có nhiều cách biến đổi nhƣ sau: Biến cách: Có loại biến cách nhƣ sau: Số nhiều (danh từ) (thêm-s) Ngơi thứ ba số (động từ) (thêm-s) Sở hữu cách (tính từ) (thêm –„s) Hiện phân từ (thêm-ing) Quá khứ (thêm-ed) Quá khứ phân từ (thêm-ed) So sánh (thêm-er) So sánh (thêm-est) Đặc điểm cách biến đổi biến đổi khơng đƣợc nối tầng áp dụng cho tất từ Quan trọng hơn, cách biến đổi không làm thay đổi từ loại từ gốc Dẫn xuất : Có dang cách biến đổi dạng biến đổi tiền tố hậu tố: Tiền tố :không làm thay đổi từ loại từ Hậu tố : thƣờng làm thay đổi từ loại từ 2.1.3 Nghĩa từ: Theo[5] ngơn ngữ có hai mặt: mặt biểu (âm thanh) mặt đƣợc biểu (nội dung) Nghĩa từ thuộc mặt thứ hai Nguyễn Thị Thu Trang – Lớp CT1001 10 Đồ án tốt nghiệp – CNTT có tay nắm cửa” hay “tay nắm cửa nhà phần nhà” (Lyons, 1977) Winston (1987) đƣa ví dụ tƣơng tự xem xét mối quan hệ phận-tồn thể Ví dụ: “nhánh phận cây” “cây phần rừng” nhƣng khơng nói “nhánh phận rừng”, quan hệ nhánh cây/rừng khơng giống nhƣ quan hệ cây/ rừng Nói rõ hơn, sử dụng quan hệ IS_PART_OF để quan hệ IS_ATTACHED_TO (thành phần), nhƣng quan hệ IS_PART_OF quan hệ có tính bắc cầu, cịn quan hệ IS_ATTACHED_TO khơng có tính chất Lấy lại ví dụ Lyons trên, nói “căn nhà có tay nắm cửa” hợp lý tay nắm arcos quan hệ IS_ATTACHED_TO với nhà Trong WordNet có loại meronym: Wm # p→ wh : wm component wh Wm # m→ wh : wm member wh Wm # s→ wh : wm stuff wh đƣợc làm từ Một meronym meronym # p (IS_A_COMPONENT_OF) đƣợc sử dụng nhiều 2.2.3 Định dạng file sở liệu WordNet Định dạng file index Mỗi file index bắt đầu với nhiều dịng có chứa thơng báo quyền, số phiên thỏa thuận cấp phép Những dòng tất bắt đầu với hai không gian số dịng để họ khơng can thiệp với thuật tốn tìm kiếm nhị phân đƣợc sử dụng để tìm kiếm mục file index Tất dòng khác có định dạng sau Trong lĩnh vực mơ tả, số luôn đề cập đến số nguyên thập phân trừ trƣờng hợp đƣợc xác định Lemma pos synset_cnt p_cnt [ptr_symbol ] sense_cnt tagsense_cnt synset_offset [synset_offset ] Trong đó: - Lemma: Trƣờng hợp thấp văn ASCII từ xếp có - thứ tự Cách xếp đƣợc hình thành cách từ riêng lẻ kết hợp kí tự gạch dƣới (_) Pos: thể loại cú pháp: n cho tệp tin danh từ, v cho tệp tin động từ, a cho tệp tin tính từ, r cho tệp tin trạng từ Tất trƣờng lại giác quan bổ đề Pos Nguyễn Thị Thu Trang – Lớp CT1001 42 Đồ án tốt nghiệp – CNTT - Synset_cnt :số synset mà lemma nhập số lƣợng nghĩa từ WordNet Số giác quan cách thức số ý nghĩa đƣợc - giao thứ tự synset_offset s file index P-cnt:số lƣợng trỏ khác mà lemma có tất synsets có chứa Ptr_symbol: khoảng trống tách loại danh sách khác trỏ P_cnt mà lemma có tất synset chứa Nếu tất giác quan lemma khơng có trỏ, trƣờng bỏ - P_cnt Sense_cnt: Tƣơng tự nhƣ sense_cnt Điều không cần thiết, - nhƣng lĩnh vực đƣợc bảo tồn lý tƣơng thích Tagsense_cnt: Số lƣợng nghĩa lemma đƣợc xếp hạng theo tần - số chúng xuất văn ngữ nghĩa Synset_offset: Byte offset file liệu Pos synset chứa lemma Mỗi synset_offset danh sách tƣơng ứng với ý nghĩa khác bổ đề WordNet Synset_offset chữ số, điền số nguyên thập phân, số khơng, đƣợc sử dụng với hàm fseek (trong C) để đọc synset từ tập tin liệu Khi đƣợc thông qua để đọc synset với thể loại cú pháp, cấu trúc liệu phân tích cú pháp có chứa synset đƣợc trả lại Định dạng file liệu Mỗi file liệu bắt đầu với nhiều dịng có chứa thông báo quyền, số phiên thỏa thuận cấp phép Những dòng tất bắt đầu với hai khơng gian số dịng Tất dịng khác có định dạng sau Integer trƣờng chiều dài cố định, số không đầy synset_offset lex_filenum ss_type w_cnt word lex_id [word lex_id ] p_cnt [ptr ] [frames ] | gloss Trong đó: - synset_offset : Hiện byte offset tập tin đƣợc đại diện 8chữ số nguyên thập phân lex_filenum : Hai chữ số nguyên tập phân tƣơng ứng với tên file có chứa synset ngƣời nghiên cứu từ ngữ học ss_type : loại mã synset: n Danh từ v Động từ a Tính từ s Tính từ vệ tinh r Trạng từ Nguyễn Thị Thu Trang – Lớp CT1001 43 Đồ án tốt nghiệp – CNTT w_cnt :Hai chữ số nguyên thập lục phân số từ synset word :Hình thức từ nhƣ nhập synset ngƣời nghiên cứu từ ngữ học, với khoảng trống thay dấu gạch dƣới (_) - lex_id:số nguyên thập lục phân, đƣợc phụ thêm vào lemma, số lex_id thƣờng bắt đầu số (giá trị mặc định) - p_cnt : Ba chữ số nguyên thập phân số lƣợng trỏ từ synset để synsets khác Nếu p_cnt 000 synset khơng có trỏ - ptr : pointer_symbol synset_offset pos source/target pointer_symbol: trỏ, trỏ từ synset đến synset khác synset_offset: Hiện byte offset tập tin đƣợc đại diện 8chữ số nguyên thập phân pos: loại mã synset source/target: Một giá trị 0000 pointer_symbol có nghĩa đại diện cho mối quan hệ ngữ nghĩa nguồn synset đích synset báo synset_offset - frames: data.verb f_cnt + f_num w_num [ + f_num w_num ] f_cnt: hai số nguyên thập phân, liệt kê số chung chung frames f_num hai chữ số nguyên thập phân hình số khung w_num số nguyên hệ thập lục phân hai chữ số từ synset mà khung áp dụng - Gloss: Mỗi synset chứa Gloss Một Gloss đƣợc đại diện nhƣ dọc (|), chuỗi văn tiếp tục cuối dịng Các Gloss chứa định nghĩa, ví dụ nhiều câu, hai - 2.2.4 Số lƣợng từ, synset WordNet Bảng 2-7: Số lượng từ, synset WordNet 2.0 Từ loại Số từ Số synset Tổng số mục từ Danh từ 114648 79689 141690 Động từ 11306 13508 24632 Tính từ 21436 18563 31015 Phó từ 4669 3664 5808 152059 115424 203145 Tổng cộng Nguyễn Thị Thu Trang – Lớp CT1001 44 Đồ án tốt nghiệp – CNTT Chƣơng 3: XÂY DỰNG MƠ HÌNH VÀ THỰC NGHIỆM Hiện để giải vấn đề có sở lƣu trữ từ vựng giống WordNet Chúng ta cần giải vấn đề dịch từ tiếng Anh synset tiếng Việt để tạo nên WordNet tiếng Việt tảng tận dụng tất tài nguyên (từ điển) có tiếng Việt, có hai cách để tiếp cận vấn đề Cách thứ nhất: cách thức rút trích (bán) tự động mối liên hệ ngữ nghĩa WordNet tiếng Anh thông qua số từ điển song ngữ xây dựng mạng từ vựng tiếng Việt phần danh từ Cách thứ hai: Xây dựng hệ thống ngữ nghĩa đƣợc thực đội ngũ nhà ngôn ngữ học, tâm lý học tin học 3.1 Phƣơng pháp dịch tự động WordNet qua tiếng Việt (Tham khảo phƣơng pháp Nguyễn văn Toàn ĐH KH-TN ĐHQG Tp.HCM) 3.1.1 Dịch từ WordNet Gọi S: synset cần dịch Ei : tiếng Anh thứ i tong synset (n ≥ 1) Vijk: từ thứ j dòng nghĩa thứ k từ Ei tƣ điển Anh Việt Do đó, 0≤ i≤ n : với n số lƣợng từ tiếng Anh synset 0≤ j≤ h : với hi số lƣợng dòng nghĩa từ Ei từ điển AnhViệt 0≤ k≤ mij với mij số lƣợng từ dòng nghĩa thứ j từ Ei từ điển Anh-Việt Vi: tập hợp nghĩa tiếng Việt Ei Vij:tập hợp nghĩa tiếng Việt Eij Nguyễn Thị Thu Trang – Lớp CT1001 45 Đồ án tốt nghiệp – CNTT V111, V112,…, V11m11 E1 V121, V122,…, V12m12 E2 V1h11, V1h12, , V1h1m1m Synset SE En Vn11, Vn12,…, Vn1mn1 Vn21, Vn22,…, Vn2mn2 Vnhn1, Vnhn2, , Vnhnm1m Hình 2: Mơ hình diễn giải kí hiệu mơ hình dịch synset WordNet Với mơ hình này, vấn đề chọn nghĩa Vij1,Vij2,…nào cho synset SE Để giải vấn đề cần giải trƣờng hợp sau: a)Trƣờng hợp Trƣờng hợp này, synset SE có từ tiếng Anh từ tiếng Anh có dịng tiếng Việt Do đó, synset SE đƣợc biểu thị tiếng Việt từ tiếng Việt Đặc tả Nếu n=1 nij =1 synset S có từ biểu thị V1 b)Trƣờng hợp Trƣờng hợp này, synset SE có từ tiếng Anh từ tiếng Việt có nhiều dịng nghĩa tiếng Việt ta gọi Vi Vấn đề đƣợc đặt chọn dòng nghĩa Vi tƣơng ứng Đây hai trƣờng hợp phổ biến bốn trƣờng hợp (một trƣờng hợp phổ biến trƣờng hợp thứ có cách xử lý tƣơng tự) Phƣơng án để chọn mơ hình chọn đƣợc nghĩa tiếng Việt cho synset: mơ hình hệ thống dựa lớp ngữ nghĩa Đặc tả Nếu n=1 nij ≥ synset SE có tiếng Việt biểu thị đƣợc chọn từ tập ứng viên Vi, việc lựa chọn vào xác suất hình vị Vi lớp từ Nguyễn Thị Thu Trang – Lớp CT1001 46 Đồ án tốt nghiệp – CNTT Gọi Ei từ tiếng Anh cần dịch Wordnet Xác suất cách dịch qua tiếng Việt đƣợc đặt tên P (C/ Ei).Do đó, cách dịch tốt V* với V*(Ei) = agr max P (V/Ei) (1) CЄT(E) Với T(X) tập hợp cách dịch cảu từ thứ X từ điển Anh Việt P(V| Ei) = P (V|g) (2) Vói g= g(Ei) lớp ngữ nghĩa chứa Ei Xác suất P (V|g) đƣợc ƣớc lƣợng cách sử dụng thuật toán EM (Estimation Maximization) Bƣớc 1: P(V| Ei) = , m | T(E)|, VЄT(E) m P Vk Ei I V Bƣớc 2: P (V|g)= Vk I E i (3) g E , k ,i P Vk E i I E i g (4) E , k ,i Với Vk = cách dịch thứ k Ei T(Ei) I(x)=1 x ngƣợc lại Bƣớc 3: P‟(V| Ei) = P (V|g) (5) Với g=g(Ei) lớp chứa Ei Bƣớc 4: P(V| Ei) = P ' (V | E i ) P ' (V | E i ) (6) D T ( Ei ) Lặp lại bƣớc P(V| Ei) hội tụ Để tránh vấn đề phân tán liệu Chúng ta tính lại cơng thức EM nhƣ sau: Bƣớc 2: I ( Ei g ) I (u u k , j ) P(u k , j Ei ) E , k ,i , j m Pu(u|g)= I ( Ei g ) P(u k , j E k ) E , k ,i , j m (4a) Với uk,j=unigram thứ j cách dịch thứ k T(Ei) M= số kí tự cách dịch thứ k T(Ei) I ( Ei g ) I (b bk , j ) P(bk , j Ei ) E , k ,i , j m Pb(b|g)= I ( Ei g ) P(bk , j Ei ) E , k ,i , j m Nguyễn Thị Thu Trang – Lớp CT1001 (4b) 47 Đồ án tốt nghiệp – CNTT Với bi,j=bigram chồng lên cách dịch thứ I T(Ek) Bƣớc 3: P‟(V|Ei)=P(V|g) = P‟(V|Ei)=P(V|g) = m Pu (u k g ) k m m Pu (u k g ) m Pb (bk g ) k 2m k 2(m 1) (unigram) (5a) (bigram) (5b) Với uk unigram, bk bigram chồng lên V m số kí tự Vd c)Trƣờng hợp Trƣờng hợp này, synset S có nhiều từ tiếng Anh Các từ tiếng Anh có nhiều nghĩa tiếng Việt (thuộc nhiều dịng nghĩa khác nhau), đó, lấy phần giao {V111, V112, }, {V121, V122, }… để biểu thị cho synset SE Đặc tả Nếu n>1 n V i n j1 i Ø synset SE đƣợc biểu thị tập: , Vi j , j ni V i ni j1 i , Vi j , j d)Trƣờng hợp 4: Trƣờng hợp này, synset S có nhiều từ tiếng Anh Các từ tiếng Anh có nhiều nghĩa tiếng Việt (thuộc nhiều dòng nghĩa khác nhau) Tuy nhiên, khơng giống trƣờng hợp 3, dịng nghĩa từ tiếng Anh không giao nên đƣa trƣờng hợp trƣờng hợp Đặc tả Nếu n>1 n ni V i j1 i , Vi j , Ø synset SE đƣợc biểu thị tập: j 3.1.2 Dịch từ từ điển tiếng Việt Gọi V: từ tiếng Việt cần gán nhãn synset Eij: nghĩa tiếng Anh thứ j dòng nghĩa thứ i từ điển Việt-Anh Sijk: synset thứ k từ Eij WordNet Trong 0≤i≤n: với n số lƣợng dịng nghĩa từ V từ điển Việt-Anh 0≤j≤mi: với mi số lƣợng từ dòng nghĩa thứ i từ V từ điển Việt-Anh 0≤k≤hij: với hij số lƣợng synset mà từ Eij thuộc Nguyễn Thị Thu Trang – Lớp CT1001 48 Đồ án tốt nghiệp – CNTT Ei: tập hợp từ Eij ( j, 0≤j≤mi) Sij: tập hợp synset Sijk ( k, 0≤k≤hij) E1 ,E12, E1m1 E1 S111, S112,…, S11h11 E1 S121, S122,…, S12h12 E1m1 S1m11, S1m12, , S1m1h1m En1 Sn11, Sn12,…, Sn1hn1 En2 Sn21, Sn22,…, Sn2hn2 Enmn Snmn1, Vnmn2, , Vnmnhnm E21,E22, E2m2 Từ V En1,En2, Enmn Hình 3: Mơ hình diễn giải kí hiệu mơ hình gán nhãn synset cho từ tiếng Việt Với mơ hình này, vấn đề chọn nhãn synset Sijk cho từ V Dĩ nhiên, từ V có nhiều nghĩa khác nhau, tƣơng ứng với nghĩa tập Ei, Ej…do đó, chọn nhãn synset cho từ V chọn nhiều synset Hơn nữa, nghĩa từ V tƣơng ứng với nghĩa tập E i (0≤i≤n) tập rời rạc nên việc chon synset cho từ V khơng phụ thuộc vào dịng nghĩa khác từ V Do đó, tốn trở thành toàn làm để gán nhãn synset cho tập Ei (0≤i≤n) Để giải vấn đề cần giải trƣờng hợp sau: a)Trƣờng hợp Trong trƣờng hợp này, dòng nghĩa tiếng Anh có từ từ thuộc synset, lấy synset làm nhãn synset cho tập Ei Đặc tả Nếu ni=1 hij=1 (tức |{Sij1,Sij2,…}|=1) synset {E11,E12,…} Sij1 b)Trƣờng hợp Nguyễn Thị Thu Trang – Lớp CT1001 49 Đồ án tốt nghiệp – CNTT Với trƣờng hợp này, dòng nghĩa tiếng Anh có từ từ thuộc nhiều synset, vào nghĩa tiếng Việt synset để chọn nhãn synset cho {E11,E12,…} Đặc tả Nếu ni=1 hij >1 (tức |{Sij1,Sij2,…}|>1) synset {E11,E12,…} đƣợc lựa chọn cách sử dụng thêm từ điển Anh-Việt S111 V E11 S112 S11 n111 E1111 V11111, V11112,…, V1111n1111 E1112 V11121, V11122,…, V1112n1112 E111 n111 V111 n111 1, V111 n1112,., V111 n111n1112 E11 n111 E11 n112 E11 n11 n111 Hình 4: Mơ hình diễn giải trường hợp c)Trƣờng hợp Trƣờng hợp dịng nghĩa tiếng Anh có nhiều từ Các từ có nghĩa (thuộc nhiều synset khác nhau), đó, lấy phần giao { S111, S112,…}, { S121, S122,…}…để gán nhãn ngữ nghĩa cho tập Ei Đặc tả Nếu ni> mi { S1j1, S1j2,…} Ø synset {E11,E12,…} j mi { S1j1, S1j2,…} j d)Trƣờng hợp Trƣờng hợp này, dịng nghĩa tiếng Anh có nhiều từ Các từ có nhiều nghĩa (thuộc nhiều synset khác nhau), nhiên, khác với trƣờng hợp tập synset khơng giao Do đó, vào cấu trúc WordNet để chọn nhãn ngữ nghĩa thích hợp cho tập Ei Đặc tả Nguyễn Thị Thu Trang – Lớp CT1001 50 Đồ án tốt nghiệp – CNTT Nếu ni> ni { S1j1, S1j2,…} Ø synset {E11,E12,…} đƣợc chọn j lựa qua mối liên hệ { S111, S112,…}, { S121, S122,…}… Ở sử dụng tiêu chuẩn: Tiêu chuẩn Anh em Tiêu chuẩn đƣợc áp dụng tập synset Sij có synset anh em với (có synset cha (hypernymy)) Khi đo synset {E11,E12,…} đƣợc chọn synset Anh em Tức là: SV= {Sijk/ Sijk Sij ( j : j jk nij ): S p : (S p is _hyper Si ))} Kí hiệu: P is_hyper S: P cấp cha S: Tiêu chuẩn cha Tiêu chuẩn đƣợc áp dụng tập synset Sij có synset cha synset lại (chỉ cần tập synset cịn lại có synset synset cha nói trên) Khi synset {E11,E12,…} đƣợc chọn synset Anh em Tức là: SV={Sijk/ S p Sih (h [1 nij]), Sijk Sij ( j : nij ,j h): ( S p is _hyper j Sijk)} Kí hiệu: P is_hyper S: P cấp cha S: Tiêu chuẩn ông cháu Tiêu chuẩn đƣợc áp dụng tập synset Sij có synset cấp synset cịn lại (chỉ cần tập synset cịn lại có synset cấp dƣới synset cấp nói trên) Khi synset {E11,E12,…} đƣợc chọn synset cấp dƣới Tức là: SV=={Sijk/ S g Sih (h [1 nij]), Sijk Sij ( j : j nij ,j h) : (S g is _dist_hyper Sijk)} Kí hiệu: P is_dist_hyper S: P cấp S: Nguyễn Thị Thu Trang – Lớp CT1001 51 Đồ án tốt nghiệp – CNTT 3.1.3 Tổ chức liệu Sau xác định đƣợc từ (cụm) từ tiếng Việt tƣơng ứng cho synset, công việc tổ chức sở tri thức WordNet tiếng Việt có hiệu hợp chuẩn Để thuận tiện cho vấn đề chuẩn hóa, trao đổi sở tri thức WordNet ngôn ngữ khác nhau, sử dụng cách tổ chức WordNet tiếng Anh để lƣu WordNet tiếng Việt sau dịch xong: Bắt đầu Noun.dat (tiếng Anh) Thay từ tiếng Anh từ tiếng Việt Noun1.dat (tiếng Việt) Tính lại Offset cho synset Ghi lại Offset vào file Noun.dat (tiếng Việt) Noun.idx (tiếng Việt) Tạo Index cho từ tiếng Việt Kết thúc Hình 5: Mơ hình q trình tổ chức liệu cho WordNet tiếng Việt 3.2 Phƣơng pháp làm thủ công WordNet hệ thống từ vựng khổng lồ, hệ thống từ điển mã nguồn đóng nên việc sử dụng lại file data khó khăn Do thời gian làm đồ án có hạn, chƣơng trình thực nghiệm nên em xây dựng số từ demo để khẳng định phƣơng pháp xây dựng từ điển dựa sở lƣu trữ từ vựng Wordnet Phƣơng pháp cho kết từ điển có cấu trúc đáng tin cậy nhƣng đắt tiền, nhiều thời gian cơng sức Cịn phƣơng pháp tự động dịch nhanh nhƣng độ xác khơng cao, nảy sinh nhiều vấn đề ngơn ngữ mà máy tính khơng thể giải đƣợc Do vậy, để có từ điển có độ xác cao, đơn giản, dễ thực em chọn phƣơng pháp thứ hai để xây dựng từ điển danh từ tiếng Việt dựa theo WordNet Nguyễn Thị Thu Trang – Lớp CT1001 52 Đồ án tốt nghiệp – CNTT Trƣớc tiên, dịch synset tiếng Việt Trong công đoạn này, giải bốn trƣờng hợp : synset có từ từ tiếng Anh có nghĩa tiếng Việt, synset có từ từ tiếng Anh có nhiều nghĩa tiếng Việt, synset có nhiều từ tập nghĩa tiếng Việt từ tiếng Anh synset không giao Sử dụng mơ hình phân lớp ngữ nghĩa (semantic class-base translation model) để khử nhập nhằng phát sinh Ở công đoạn thứ hai, gán nhãn synset cho từ tiếng Việt từ điển tiếng Việt Trong công đoạn này, giải bốn trƣờng hợp : từ tiếng Việt có nghĩa tiếng Anh nghĩa tiếng Anh thuộc synset, từ tiếng Việt có nghĩa tiếng Anh nghĩa tiếng Anh thuộc nhiều synset, từ tiếng Việt có nhiều nghĩa tiếng Anh tập nhãn synset nghĩa tiếng Anh có giao nhau, từ tiếng Việt có nhiều nghĩa tiếng Anh tập nhãn synset nghĩa tiếng Anh không giao Cuối cùng, để mô kết mơ hình trên, Em cài đặt chƣơng trình để minh họa cho mơ hình WordNet phần danh từ tiếng Việt 3.3 Chƣơng trình thực nghiệm Nguyễn Thị Thu Trang – Lớp CT1001 53 Đồ án tốt nghiệp – CNTT KẾT LUẬN Qua trình tìm hiểu, nghiên cứu hoàn thành đề tài, em đƣợc hiểu biết thêm ngữ pháp tiếng Việt sở lƣu trữ từ vựng WordNet Dựa vào công cụ hỗ trợ em xây dựng đƣợc từ điển cho phần danh từ tiếng Việt dựa theo WordNet Sau khoảng thời gian tìm hiểu nghiên cứu đề tài em gặp phải số vấn đề: Với Tiếng Việt, để tiến hành xử lý ngữ nghĩa máy tính, cần phải có sở tri thức ngữ nghĩa từ vựng Tiếng Việt lớn mà thời gian có hạn nên việc xây dựng hoàn thiện sở liệu ngữ nghĩa cho phần danh từ Với WordNet, WordNet hệ thống mã nguồn đóng nên việc sử dụng lại sở liệu khó khăn Dựa vào mơ hình xây dựng cơng cụ hỗ trợ để xây dựng từ điển danh từ tiếng Việt dựa theo sở lƣu trữ từ vựng WordNet Từ mơ hình có khả áp dụng cho từ loại khác nhƣ tính từ, động từ, trạng từ để hoàn thiện cho từ điển Tiếng Việt theo WordNet Em hi vọng, tƣơng lai gần, hoàn thành việc xây dựng hệ sở tri thức ngữ nghĩa từ vựng Tiếng Việt tƣơng đối hoàn chỉnh Đây tiền đề để đẩy mạnh công việc xử lý Tiếng Việt máy tính Nguyễn Thị Thu Trang – Lớp CT1001 54 Đồ án tốt nghiệp – CNTT Tài liệu tham khảo [1] Diệp Quang Ban Hoàng Văn Thung, Ngữ Pháp tiếng Việt Tập NXB Giáo Dục [2] Diệp Quang Ban Hoàng Văn Thung, Ngữ Pháp tiếng Việt Tập NXB Giáo Dục [3] Nguyễn Thiện Giáp (chủ biên), Đoàn Thiện Thuật, Nguyễn Minh Thuyết, Dẫn luận ngôn ngữ học NXB Giáo Dục [4] Đinh Điền (2004), Luận án Tiến Sĩ ngữ văn chuyên ngành Ngôn Ngữ học so sánh ĐH XH&NV Tp.HCM [5]Mai Ngọc Chừ, Vũ Đức Nghiệu, Hồng Trọng Phiến (1997) Cơ sở ngơn ngữ học tiếng Việt.NXB Giáo dục [6] Đỗ Hữu Châu, Từ vựng ngữ nghĩa tiếng Việt NXB GD (1997) [7] http://wordnet.princeton.edu/ [8] http://en.wikipedia.org/wiki/WordNet [9] http://www.cl.ut.ee/yllitised/viderorav.html [10] George Miller, Richard Beckwith, Christiane Fellbaum, Dereck Gross, and Katherine Miller (Revised August 1993)- Introduction to WordNet : an on-line lexical database [11] Xavier Farreres, German Rigau, Horacio Rodriguez, Using WordNet buiding WordNets [12] Vũ Xuân Lƣơng Nguyễn Thị Minh Huyền, Nghiên cứu xây dựng từ điển Tiếng Việt cho Máy tính (Buiding a Vietnamese Computational Lexicon) [13] J.Daude, L.Padro & G.Rigau (1999) Mapping WordNets Using Structural Information [14] Jonh Lyons (1971), Nhập môn ngôn ngữ học lý thuyết (Bản dịch năm 1977) NXB GD Hà Nội [15] Hoàng Phê , Từ điển tiếng Việt.Hội ngôn ngữ học, NXB Đà nẵng [16] J Daudé, L Padró, G Rigau, Mapping WordNets using structural information, Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics [17] Automatic WordNet Mapping Using Word Sense Disambiguation Nguyễn Thị Thu Trang – Lớp CT1001 55 Đồ án tốt nghiệp – CNTT Nguyễn Thị Thu Trang – Lớp CT1001 56 ... Chƣơng 1: Tìm hiểu đề tài phương pháp tiếp cận Chƣơng 2: Tìm hiểu tiếng Việt WordNet áp dụng việc xây dựng từ điển danh từ tiếng Việt Chƣơng 3: Xây dựng mô hình tổ chức liệu cho WordNet tiếng Việt. .. chiếu nhãn từ loại từ gốc tiếng Anh tiếng Việt Từ pháp tiếng Anh Từ pháp tiếng Việt Danh từ (NN):table, person,, Danh từ riêng (NP): John, Hanoi, Danh từ (NN):attention, help,… Danh từ (N): bàn,... tri thức ứng dụng việc xây dựng từ điển tiếng Pháp, Tây Ban Nha, Ðức, Hoa, Nhật…, theo cấu trúc lƣu trữ từ vựng WordNet Để áp dụng WordNet xây dựng từ điển danh từ Tiếng Việt cần giải vấn đề sau: