Nội dung khóa luận bao gồm 9 chương:Chương 1: Mở đầuChương 2: Tổng quan OntologyChương 3: Các hướng tiếp cận trong việc xây dựng OntologyChương 4: Quy trình rút trích Ontology từ dữ liệu webChương 5: FrameworkChương 6: Kết luận và hướng phát triển
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN LỚP CỬ NHÂN TÀI NĂNG NGUYỄN HOÀN – HOÀNG XUÂN THẢO NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG RÚT TRÍCH ONTOLOGY TỪ WEB KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN CNTT TP.HCM, 2010 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN LỚP CỬ NHÂN TÀI NĂNG NGUYỄN HOÀN 0612109 HOÀNG XUÂN THẢO 0612416 NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG RÚT TRÍCH ONTOLOGY TỪ WEB KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN TS.TRẦN MINH TRIẾT NIÊN KHÓA 2006– 2010 4 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… Khóa luận đáp ứng yêu cầu của LV cử nhân tin học. TpHCM, ngày …… tháng …… năm 2010 Giáo viên hướng dẫn 5 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… ……………………………………………………………………………… Khóa luận đáp ứng yêu cầu của LV cử nhân tin học. TpHCM, ngày …… tháng …… năm 2010 Giáo viên phn bin 6 LỜI CÁM ƠN Nhóm sinh viên xin chân thành cm ơn Khoa Công Ngh Thông Tin, trường Đại Học Khoa Học Tự Nhiên, Tp.HCM đã tạo điều kin tốt cho nhóm sinh viên thực hi n đề tài này. Nhóm sinh viên xin chân thành cm ơn Thầy Trần Minh Triết, là người đã tận tì nh hướng dẫn, chỉ bo nhóm sinh viên trong suốt thời gian thực hin đề tài. Nhóm sinh viên cũng xin gửi lời cm ơn sâu sắc đến quý Thầy Cô trong Khoa đ ã tận tình ging dạy, trang bị cho nhóm sinh viên những kiến thức quí báu trong nhữ ng năm học vừa qua. Nhóm sinh viên xin gửi lòng biết ơn sâu sắc đến Ba, Mẹ, các anh chị và bạn bè đ ã ủng hộ, giúp đỡ và động viên nhóm sinh viên trong những lúc khó khăn cũng như trong suốt thời gian học tập và nghiên cứu. Mặc dù nhóm sinh viên đã cố gắng hoàn thành luận văn trong phạm vi và kh nă ng cho phép, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong sự c m thông và tận tình chỉ bo của quý Thầy Cô và các bạn. Nhóm thực hin Nguyễn Hoàn &Hoàng Xuân ThoĐỀ CƯƠNG CHI TIẾT Tên Đề Tài: Nghiên cứu và phát triển h thống rút trích ontology từ web Giáo viên hướng dẫn:TS.Trần Minh Triết Thời gian thực hiện: từ ngày //2009 đến ngày //2010 Sinh viên thực hin: Nguyễn Hoàn (0612109) – Hoàng Xuân Tho(0612416) Loại đề tài: 7 Nội Dung Đề Tài (mô t chi tiết nội dung đề tài, yêu cầu, phương pháp thực hi n, kết qu đạt được, …): Kế Hoạch Thực Hin: 12/01/2009-26/02/2009:Tìm hiểu công ngh XNA. 27/02/2009-15/03/2009: Mô t các đặc trưng chính của Product Line game sẽ x ây dựng. 15/03/2009-20/03/2009:Nêu và phân tích các vấn đề sẽ phát sinh trong quá trìn h xây dựng. 21/03/2009-10/04/2009: Đưa ra các gii pháp cho các vấn đề và lựa chọn gii pháp thích hợp. 11/04/2009-01/05/2009: Xây dựng ứng dụng game. 02/05/2009-30/06/2009:Xây dựng các công cụ hỗ trợ cho vic chuẩn hóa tài ng uyên và biên tập bn đồ vùng chiến sự. 01/07/2009-07/07/2009:Ci tiến ứng dụng game và các công cụ. Xác nhận của GVHD N g à y t h á n g n ă m 2 0 1 0 SV Thực hin MỤC LỤC NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 1 NHẬN XÉT CỦA GIÁO VIÊN PHN BIN 2 LỜI CÁM ƠN 3 ĐỀ CƯƠNG CHI TIẾT 4 8 MỤC LỤC 6 DANH MỤC CÁC HÌNH 10 DANH MỤC CÁC BNG 11 TÓM TẮT KHÓA LUẬN 12 Chương 1 Mở đầu 1 1.1. 1 1.2. 1 1.3. Mục tiêu đề tài 1 1.4. Nội dung luận văn 1 Chương 2 Ontology 2 2.1. Giới thiu 2 2.2. Định nghĩa 2 2.3. Phân loại 3 2.4. Ngôn ngữ biểu diễn ontology 4 2.5. Ứng dụng 6 2.5.1. Tìm Kiếm Thông Tin và Qun Lý Tri Thức 6 2.5.2. Thương mại Đin tử 8 2.5.3. Web ngữ nghĩa 10 2.6. Kết luận: 15 Chương 3 Các hướng tiếp cận trong vic xây dựng ontology 17 3.1. Các nguồn dữ liu dùng để xây dựng ontology 17 3.2. Xây dựng ontology 18 3.3. Phương pháp dựa trên vic xử lý ngôn ngữ tự nhiên 18 9 3.4. Phương pháp dựa vào thống kê 20 3.5. Phương pháp máy học 23 3.6. Phương pháp kết hợp 25 Chương 4 Phương pháp rút trích ontology từ WWW 27 4.1. Mở đầu 27 4.2. Một sốgi định 28 4.3. Quy trình 6 bước rút trích ontology từ WWW 29 4.4. Chuẩn bị 31 4.5. Biến đổi 32 4.6. Gom cụm 35 4.7. Nhận din 36 4.8. Liên kết 37 4.9. Tinh chỉnh 38 4.10. Kết luận 38 Chương 5 Áp dụng quy trình rút trích ontology từ WWW cho môi trường Websi te tiếng Vit 39 5.1. Chuẩn bị 39 5.1.1. Tổng quan 39 5.1.2. Ti các trang web về lưu trữ ngoại tuyến 40 5.1.3. Loại bỏ trang web không hợp l 41 5.1.4. Chuẩn hoá các trang web 42 5.1.5. Lưu trữ các trang web vào h qun trị cơ sở dữ liu 43 5.2. Biến đổi 45 10 5.2.1. Tổng quan 45 5.2.2. Gom nhóm các trang web dựa trên đường dẫn gốc 46 5.2.3. Loại trừ các thành phần lặp giữa 2 trang web 48 5.2.4. Loại trừ các phần trùng nhau giữa các trang web trong cùng một nhóm. 51 5.3. Gom cụm 52 5.3.1. Tổng quan 52 5.3.2. Lựa chọn các từ khoá 53 5.3.3. Tính tần số xuất hin của từ khoá 54 5.3.4. Gom cụm các trang web dựa trên độ tương đồng giữa các vector đặc trưng 55 5.4. Nhận din 55 5.4.1. Tổng quan 55 5.4.2. Nhận din đặc trưng cụm và xử lý phần tử ngoại lai 56 5.5. Liên kết 57 5.5.1. Tổng quan 57 5.5.2. Xây dựng đồ thị mối quan h giữa các khái nim 57 5.5.3. Tinh chỉnh các mối quan h 58 5.6. Tinh chỉnh 59 Chương 6 Kết luận 61 6.1. Các kết qu đạt được 61 6.2. Hướng phát triển của đề tài 61 DANH MỤC CÁC HÌNH Hình 21 Đồ thị của một phần ontology WordNet [14] 4 [...]... dữ liệu dùng để xây dựng ontology Các hệ thống xây dựng ontology có thể sử dụng dữ liệu từ nhiều nguồn khác nha u để xây dựng nên ontology, có thể được phân chia thành các loại sau đây []: Dữ liệu có cấu trúc: Hệ thống xây dựng lên các ontology dựa vào các dữ liệu có cấu trúc như từ database schema [], từ những ontology đã có sẵn [], từ những cơ sở tri thức [] và từ các mạng từ vựng như WordNet... cũng như các cách biểu diễn ontology và ứng dụng c ụ thể của những ontology vào các lĩnh vực khác nhau Chương 3: Các hướng tiếp cận trong việc xây dựng Ontology Trình bày các nguồn dữ liệu được sử dụng trong việc xây dựng ontology cũng n hư tổng quan các phương pháp xây dựng nên ontology Nội dung chương còn để cậ 16 p đến tổng quát các phương pháp cụ thể để xây dựng ontology của các công trình ng... lúc cả từ A lẫn từ B, và n là tổng số lượng câu Đặtx=ab/n, nhóm tác giả định nghĩa ra đ ộ đo mức độ quan trọng của cặp từ A và B như sau: 35 Bằng cách giữ nguyên một từ trong cặp từ, ta thu được một danh sách các cặp từ cùng xuất hiện với từ được cố định và danh sách này được sắp xếp thứ tự theo độ đ o quan trọng của nó với từ được cố định, từ đó có thể rút ra các quan hệ giữa các từ đó với từ được... 4: Quy trình rút trích Ontology từ dữ liệu web Chương 5: Framework Chương 6: Kết luận và hướng phát triển Chương 2 Ontology NộidungChương 2 giới thiệu ontology cũng như cách phân loại ontology và các ứng dụng của nó: Giới thiệu Ontology Định nghĩa Phân loại Ontology Ứng dụng 2.1 Giới thiệu Ontology trở thành một lĩnh vực nghiên cứu phổ biến có mặt trong nhiều lĩnh vực từ xử lý ngôn ngữ tự... nh ư ontology đã và đang được ứng dụng trong nhiều lĩnh vực khác Vì nhu cầu tăng ca o của các ứng dụng có sử dụng ontology, nên xuất hiện ngày càng nhiều các nghiên 30 cứu liên quan đến việc xây dựng ontology được đề cập cụ thể hơn ở chương tiếp th e o Các hướng tiếp cận trong việc xây dựng ontology Nội dung Chương 3 đề cập đến các hướng tiếp cận khác nhau để rút trích ontology Rút trích ontology. .. chính từng chương như sau: Chương 1: Mở đầu Trình bày sơ lược khái niệm ontology, vai trò của ontology trong các lĩnh vực kh ác nhau, và các hướng tiếp cận khác nhau để xây dựng ra các ontology Chương 2: Tổng quan Ontology Trình bày sơ lược nguồn gốc của khái niệm ontology cũng như các định nghĩa k hác nhau về ontology của các nhóm tác giả Ngoài ra, nội dung chương còn đề cập đ ến các loại ontology. .. từ điển, các văn bản HTML và XML Dữ liệu không có cấu trúc: đây là nguồn dữ liệu khó rút trích tri thức nhất Các hệ thống xây dựng ontology phải thực hiện các công đoạn xử lý ngôn ngữ tự nhiên trên các văn bản này để khám phá ra các khái niệm và các quan hệ Dữ liệu dạng này bao gồm các văn bản viết trên ngôn ngữ tự nhiên hoặc các văn bản lấy từ web 2.8 Xây dựng ontology 31 Rút trích ontology. .. là một trong những thao tác trên ontology Việc rút trích nhắ m đến việc lấy ra những yếu tố (các khái niệm) từ các nguồn khác nhau, và tạo thàn h ontology Việc xây dựng một ontology một cách thủ công là một việc tốn nhiều th ời gian và công sức Vì vậy nhu cầu cần những phương pháp xây dựng ontology tự động hoặc bán tự động xuất hiện, và các phương pháp rút trích ontology được đưa ra để đáp ứng... quan Ontology Chương 3: Các hướng tiếp cận trong việc xây dựng Ontology Chương 4: Quy trình rút trích Ontology từ dữ liệu web Chương 5: Framework Chương 6: Kết luận và hướng phát triển 12 Chương 1 Mở đầu Nội dung Chương 1 trình bày sơ lược khái niệm ontology cũng như nhu cầu cần thiết phải có ontology Đồng thời Chương 1 cũng nêu lên mục tiêu, nội dung và ý nghĩa của đề tài 1.1 Giới thiệu ontology. .. Ora đề xuất ra Web ngữ nghĩa (Semantic Web) [] Web ngữ nghĩa đượ c định nghĩa như là sự mở rộng của Web hiện tại mà trong đó thông tin được địn h nghĩa rõ ràng, giúp cho máy tính và con người cộng tác làm việc tốt hơn Web ngữ nghĩa cho phép diễn tả ngữ nghĩa của dữ liệu một cách tường minh để máy t ính có thể hiểu được Một trong những nền tảng xây dựng lên Web ngữ nghĩa đó chính là ontology N hư đã . của ontology, chúng ta có thể phân ontology thành n hững loại như sau []: Domain ontology diễn t tri thức của một domain cụ thể nào đó (ví dụ: ontology về y khoa: MeSH [], GALEN [] hay ontology. Chương 2 Ontology NộidungChương 2 giới thiệu ontology cũng như cách phân loại ontology và các ứng dụng của nó: Giới thiệu Ontology Định nghĩa Phân loại Ontology Ứng. ƠN Nhóm sinh viên xin chân thành cm ơn Khoa Công Ngh Thông Tin, trường Đại Học Khoa Học Tự Nhiên, Tp.HCM đã tạo điều kin tốt cho nhóm sinh viên thực hi n đề tài này. Nhóm sinh viên xin