ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM KHOÁ LUẬN TỐT NGHIỆP XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TIẾNG VIỆT CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN Giảng viên[.]
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM KHOÁ LUẬN TỐT NGHIỆP XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TIẾNG VIỆT CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN Giảng viên hƣớng dẫn: Th.S HUỲNH NGỌC TÍN Sinh viên thực hiện: TRẦN CÔNG DANH NGUYỄN NGỌC KHÁNH LINH Lớp : CNPM01 Khố : TP Hồ Chí Minh, tháng năm 2011 06520068 06520252 LỜI MỞ ĐẦU Ngày với phát triển internet liệu ngành công nghệ thông tin ngày gia tăng Nhu cầu quản lý, chia sẻ, tìm kiếm thơng tin ngành đƣợc đặt đáp ứng phần nhờ cơng cụ tìm kiếm Một số cơng cụ tìm kiếm tiếng nhƣ Google hay Yahoo cho phép ngƣời dùng tìm kiếm liệu có liên quan cách nhập từ khóa tìm tài liệu có chứa từ khóa Với phƣơng pháp tìm nhƣ kết tìm kiếm đơi chẳng liên quan đến mà ngƣời dùng muốn tìm, cơng cụ tìm kiếm khơng hiểu đƣợc ý nghĩa cần tìm Việc tìm kiếm thơng tin từ khóa việc trả lời câu hỏi khơng thể cơng cụ tìm kiếm Muốn cho máy tính ngƣời hiểu đƣợc ngữ nghĩa từ hay câu cần có ontology hỗ trợ bên dƣới cho công cụ Ontology giống nhƣ sở liệu lĩnh vực cụ thể, mơ tả thứ lĩnh vực bao gồm định nghĩa thuật ngữ, tính chất đối t ƣợng quan hệ chúng Nó giúp cho máy tính “hiểu” đƣợc ngữ nghĩa giống nhƣ ngƣời, chia sẻ thông tin qua hệ thống khác Với nguồn liệu lớn ngành công nghệ thông tin phát triển trang web ngữ nghĩa (semantic web) việc xây dựng ontology cho lĩnh vực công nghệ thông tin nhu cầu cần thiết Đặc biệt ngơn ngữ tiếng Việt, chúng em chọn đề tài “Xây dựng làm giàu ontology tiếng Việt chuyên ngành công nghệ thông tin”, báo cáo đƣợc chia thành phần gồm: Chƣơng 1: Tổng quan: Chƣơng cho thấy tổng quan đề tài, có giới thiệu đề tài, giới hạn mục tiêu phạm vi đề tài, cho biết đƣợc nhìn tổng quan phƣơng pháp thực đề tài kết dự kiến thu đƣợc GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh Chƣơng 2: Cơ sở lý thuyết: Phần giải thích rõ ontology cho thấy tình hình nghiên cứu ontology qua phần khảo sát nghiên cứu có liên quan Chƣơng 3: Xây dựng làm giàu ontology tiếng Việt chuyên ngành công nghệ thông tin (ITVO): Phần nêu chi tiết trình xây dựng ontology đề xuất phƣơng pháp làm giàu Chƣơng 4: Hiện thực hệ thống đánh giá: Phần nêu chi tiết q trình xây dựng cơng cụ làm giàu ontology, thực nghiệm đánh giá công cụ Chƣơng 5: Kết luận hƣớng phát triển: Chƣơng tổng kết lại kết đạt đƣợc hạn chế đề tài, nêu hƣớng phát triển tƣơng lai Ngoài ra, phần cuối báo cáo nêu tài liệu tham khảo phụ lục GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh LỜI CẢM ƠN Đầu tiên, chúng em xin gởi lời cảm ơn đến Thầy, Cô khoa Công nghệ phần mềm trƣờng Đại học Công nghệ thông tin tận tình dạy dỗ, dìu dắt chúng em suốt bốn năm đại học Chúng em cảm ơn Thầy Huỳnh Ngọc Tín, ngƣời đƣa gợi ý đề tài tận tình hƣớng dẫn, giúp đỡ, động viên chúng em hồn thành luận văn Chúng tơi cảm ơn bạn Nguyễn Thanh Hoàng Huỳnh Minh Đức giúp đỡ, đóng góp ý kiến cho chúng tơi q trình cài đặt, thử nghiệm chƣơng trình Cuối cùng, chúng cảm ơn Ba, Mẹ ngƣời thân khích lệ, động viên chúng thời gian học tập, nghiên cứu để có đƣợc thành nhƣ ngày Mặc dù cố gắng nhiều nhƣng chắn chúng em tránh khỏi sai sót, kính mong nhận đƣợc đóng góp quý thầy cô bạn Tháng năm 2011 Sinh viên Trần Công Danh - Nguyễn Ngọc Khánh Linh GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN Ngày…… tháng……năm 2011 Ký tên GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Ngày…… tháng……năm 2011 Ký tên GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh MỤC LỤC CHƢƠNG 1: TỔNG QUAN 1.1 Mở đầu 1.2 Đặt vấn đề 1.3 Mục tiêu phạm vi đề tài .2 1.4 Phƣơng pháp công cụ 1.5 Kết dự kiến 1.6 Tổng kết chƣơng CHƢƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Mở đầu 2.2 Tổng quan ontology 2.2.1 Định nghĩa 2.2.2 Vì phải xây dựng ontology? .5 2.2.3 Thành phần ontology 2.2.4 Làm để xây dựng ontology? 2.3 Khảo sát nghiên cứu có liên quan 18 2.3.1 Các nghiên cứu giới 18 2.3.2 Các nghiên cứu nƣớc 20 2.4 Tổng kết chƣơng 22 CHƢƠNG 3: XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TIẾNG VIỆT CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN (ITVO) .23 3.1 Xây dựng ontology tiếng việt chuyên ngành công nghệ thông tin (ITVO) 23 3.1.1 Công cụ sử dụng .23 3.1.2 Quá trình xây dựng ontology 25 GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 3.2 Phƣơng pháp làm giàu ontology tiếng Việt chuyên ngành công nghệ thông tin 42 3.2.1 Giới thiệu 42 3.2.2 Khảo sát phƣơng pháp làm giàu ontology 44 3.2.3 Phƣơng pháp thực 46 3.3 Tổng kết chƣơng 53 CHƢƠNG 4: HIỆN THỰC HỆ THỐNG VÀ ĐÁNH GIÁ 54 4.1 Mở đầu 54 4.2 Kiến trúc chƣơng trình làm giàu ontology 54 4.3 Các bƣớc chạy chƣơng trình .60 4.4 Thực nghiệm đánh giá 65 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 67 5.1 Kết luận 67 5.2 Hƣớng phát triển 67 Tài liệu tham khảo .69 Phụ lục A: Hƣớng dẫn sử dụng Protégé 73 Phụ lục B: Danh sách hƣ từ .85 GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh DANH MỤC HÌNH Hình Cấu trúc lớp phân cấp 10 Hình Ràng buộc thuộc tính 12 Hình Hình minh họa tầng ngôn ngữ dùng ontology 14 Hình Giao diện protégé 3.4.4 24 Hình Các lớp ontology ITVO 28 Hình Các thuộc tính ontology ITVO 32 Hình Các quan hệ ontology ITVO 33 Hình Mơ hình phƣơng pháp làm giàu ontology 47 Hình Kiến trúc chƣơng trình làm giàu ontology ITVO 55 Hình 10: Màn hình giới thiệu 60 Hình 11: Màn hình thu thập tài liệu 61 Hình 12: Màn hình kết thu thập 62 Hình 13: Màn hình kết phân lớp 63 Hình 14: Màn hình kết rút trích 64 Hình 15: Màn hình cập nhật thành cơng 65 GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh CHƢƠNG 1: TỔNG QUAN 1.1 Mở đầu Chƣơng cho thấy tổng quan đề tài để trả lời cho vấn đề cần xây dựng đề tài này, mục tiêu đề tài để phục vụ giải vấn đề Từ chúng em giới hạn lại phạm vi yêu cầu cho đề tài Cuối phần dự kiến kết đạt đƣợc sau thực đề tài 1.2 Đặt vấn đề Ngày internet nguồn kiến thức vô tận mang lại nhiều lợi ích cho ngƣời Sự phát triển mạnh mẽ kéo theo việc kiến thức ngành công nghệ thông tin tăng lên nhanh chóng làm cho việc tra cứu kiến thức cần thiết trở nên khó khăn Với cơng cụ tìm kiếm nhƣ Google, Yahoo… giúp ngƣời dùng tìm đƣợc tài liệu có chứa từ khóa Từ ngƣời dùng phải tốn thời gian công sức vào tài liệu để tìm đƣợc thơng tin cần mà có khơng tìm thấy tìm thấy thơng tin sai lệch Vấn đề đặt để có đƣợc cơng cụ tìm kiếm theo ngữ nghĩa, hiểu đƣợc trả lời câu hỏi ngƣời dùng ngôn ngữ tự nhiên cách thân thiện Đặc biệt tìm kiếm tiếng Việt, nhu cầu mà hầu nhƣ cơng cụ hỗ trợ kết hạn chế [1] Dùng Ontology giải pháp biểu diễn tri thức chia sẻ thông tin mà hệ thống ngƣời hiểu đƣợc Ontology chứa đặc tả rõ ràng khái niệm lĩnh vực quan hệ khái niệm [2] Nó đƣợc dụng trí tuệ nhân tạo, cơng nghệ Web ngữ nghĩa (Semantic Web), hệ thống kỹ thuật, kỹ thuật phần mềm, sinh tin học kiến trúc thơng tin nhƣ hình thức biểu diễn tri thức giới số lĩnh vực cụ thể [3, 4, 5] Cùng với nhu cầu nêu trên, giáo viên hƣớng dẫn gợi ý đƣa đề tài: “Xây dựng làm giàu ontology tiếng Việt chuyên ngành Công nghệ thông GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 79 Hình : hộp thoại lƣu ontology Thơng thƣờng tên project giống với tên file OWL Tạo lớp: Tại giao diện Protégé ta chọn tab OWL Classes, mặc định ontology tạo có lớp cha Thing Để tạo lớp ta chọn nút Create subclass tạo lớp tên Class_1 nhƣ hình, ta đổi tên textbox bên phải GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 80 Hình: tạo lớp ontology Để tạo lớp lớp Class_1 ta chọn làm tƣơng tự, nhấp chuột phải lên chọn Create subclass Để tạo lớp ngang hàng với lớp ta chọn chọn nút Create Sibling Class , nhấp chuột phải chọn Create Sibling Class Để tạo cấu trúc gồn nhiều lớp có lớp cha Class_1 ta nhấp phải vào chọn Create subclasses, sau hộp thoại xuất để ta nhập vào cấu trúc lớp với lớp dòng lớp thụt vào so với lớp cha Ví dụ ta nhập: A C D B GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Công Danh & Nguyễn Ngọc Khánh Linh 81 Ta tạo cấu trúc Class_1 nhƣ sau: Hình: Tạo nhiều lớp ontology Xóa lớp ta chọn Delete Class Nếu xóa lớp cha tất lớp bị xóa Ta tạo ràng buộc cho lớp dùng nút có sẵn nhƣ Create new expression , Create restriction Add Named Class để thêm lớp cha cho lớp chọn Hoặc xóa ràng buộc thêm dùng Delete selected row Tạo thuộc tính quan hệ: Tại giao diện Protégé ta chọn tab Properties Trong ta chọn tab Object để thêm chỉnh sửa quan hệ ontology, chọn tab Datatype để thêm chỉnh sửa thuộc tính ontology GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 82 Hình : Tạo quan hệ Để tạo quan hệ ta chọn nút Create object property , đổi tên quan hệ textbox bên tay phải nhƣ tạo lớp Đối với quan hệ ta ý đến Domain Range đƣợc chỉnh sửa thêm bên phải Và số tính chất quan hệ nhƣ: Functional, InverseFunctional, Symmetric, Transitive, ta thêm vào quan hệ nghịch đảo quan hệ cách thêm textbox Inverse Để tạo thuộc tính ta chọn tab Datatype chọn nút Create Datatype property theo hình dƣới GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 83 Hình : Tạo thuộc tính Đối với thuộc tính ta thay đổi Domain Range cho bên phải hình Domain xác định thuộc lớp nào, Range xác định loại liệu Ngồi ra, ta thêm vào vài ràng buộc đơn giản cho nhƣ giới hạn số giá trị đƣợc cho phép cho thuộc tính Tạo cá thể Để tạo cá thể ta chọn tab Individuals, chọn lớp muốn tạo cá thể chọn nút Create instance ta tạo đƣợc cá thể nhƣ hình dƣới Các chức khác tƣơng tự nhƣ GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 84 Hình: Tạo cá thể GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 85 Phụ lục B: Danh sách hƣ từ định thật chúng loạt luật mực áà lại nhất thế a lô chúng tao sinh tâm mà có tề cô thiết nên nhƣng ai chà có dà chừng cỡ chừng theo nhiều hồ anh mà nhƣ nhƣ chơi GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 86 nhƣ khơng cóc khơ nhƣ hẳn coi nhƣ thể nhiên nhƣ tuồng nhƣ cịn nhƣng tháo thơi ba cơng nhiên thơi nhƣng mà bạn cụ thể việc nhƣ nhiên nhƣợc không bạn mày tơi thực bao gồm thuộc thƣơng ôi GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 87 cực tiếp đến bất tiếp bất chấp nhƣ tiếp tục với hay tớ tỏ cuối kê tị te cuối tồ bất nhƣợc bất q ối tơi tối ƣ ối bảy trái chầy ối trời GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Công Danh & Nguyễn Ngọc Khánh Linh 88 chừ đằng sau đằng trƣớc phải phải lâu trời đất lâu trời nhiêu đâu trong lúc bên trừ bên dƣới để trƣớc bên phải nhƣ trƣớc bên trái dễ thƣờng trƣớc bên phƣơng chi trƣớc trƣớc trƣớc lúc bị trƣớc trƣớc tiên biết chừng từ GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 89 độ tự đồng thời đỗi chừng dù đủ tức tức khắc dù tức sá tức dù tang nhƣng đƣợc thật dƣới thể tình trời ƣ bốn gồm hai xá hầu hết nhiên chốc Hay đâu dƣng nhiên không họ GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 90 nhiên phết ƣ hoàn tồn trị thảy hồi thể ứừ trọi khoảng chi cần khoảng chừng đỗi cắt không mực vả lại vài làm lẫn cha lên riêng vạn liên tiếp vân vân liên tục lúc hẳn lúc rón vào lúc lúc trƣớc GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 91 rốt luôn mà chẳng mà nên mặc kệ sẵn sàng mãi mặt khác mặt mày phía sau mi sáu veo sau chị ví mƣời sau chƣng năm ví dụ số ví nè số chín nên GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Công Danh & Nguyễn Ngọc Khánh Linh 92 anh st vơ hình trung chị nhƣ vơ kể vơ luận thị vơ vàn tơi tám với cho ngày chi vừa lúc vừa tao cho từ tức khắc lự cho ngày xƣa tất nghĩa GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh 93 lị thái mày chí chƣa ngơi than thành ngƣơi xuống chúng thảo ý thật chúng mày đán GVHD: Th.S Huỳnh Ngọc Tín SVTH: Trần Cơng Danh & Nguyễn Ngọc Khánh Linh