BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NGỌC PHÚ ỨNG DỤNG WEB NGỮ NGHĨA VÀ KHAI PHÁ DỮ LIỆU XÂY DỰNG HỆ THỐNG TRA CỨU, THỐNG KÊ CÁC CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC Chun ngành : Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS HUỲNH CÔNG PHÁP Phản biện 1: TS HUỲNH HỮU HƢNG Phản biện 2: GS.TS NGUYỄN THANH THỦY Luận văn bảo vệ Hội đồng chấm luận văn tốt nghiệp Thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 16 tháng 11 năm 2013 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Ngày công nghệ thông tin phát triển mạnh mẽ tồn giới Cơng nghệ thơng tin mang lại cho giới mặt mới, đồng thời cơng nghệ thơng tin đóng góp lớn lĩnh vực kinh tế, xã hội giới Trong dịch vụ web mang lại cho người nhiều tiện ích Các dịch vụ giúp liên lạc với nhanh chóng,và đỡ tốn nhiều Hiện dịch vụ web phát triển mạnh mẽ, nhiều cá nhân tổ chức tham gia vào trình Điều làm cho số lượng người dùng lượng thông tin web tăng lên vượt bậc theo ngày Tuy nhiên với lượng thông tin khổng lồ web việc tìm kiếm tri thức cơng trình nghiên cứu khoa học khó khăn Chúng ta thường xuyên gặp phải vấn đề việc nhiều thông tin trả từ việc tìm kiếm từ khố Và việc muốn có thơng tin cần tìm, phải lướt qua nhiều trang web, tài liệu khơng liên qua đến vấn đề ta cần tìm kiếm Do tốn thời gian nhiều thời gian công sức việc suy luận, rút trích, tổng hợp thơng tin để có tri thức cần Hoặc phải tốn thời gian để lướt qua nhiều liên kết không liên quan ta tìm kiếm cơng trình nghiên cứu khoa học theo cách tìm thơng thường Vì việc làm để máy tính thực công việc suy luận, rút trích thơng tin từ nguồn thơng tin khổng lồ đưa cho tri thức cần thiết nhằm khai thác thông tin web hiệu Hiện nay, Việt Nam, cơng trình nghiên cứu khoa học nhiều quan tâm Việc tìm kiếm cơng trình nghiên cứu khoa học tăng lên nhiều Tuy nhiên ngồi trang tìm kiếm theo từ khố thơng dụng Google, hay yahoo, trang web tìm kiếm thơng tin cơng trình nghiên cứu khoa học nói chưa có Khi dùng trang web tìm kiếm google ta nhập từ khố "Cơng trình nghiên cứu khoa học" ta nhận kết nhiều liên kết có chứa cụm từ "Cơng trình nghiên cứu khoa học" Với nhiều liên kết việc tìm cơng trình nghiên cứu khoa học hay tìm theo tuỳ biến khó khăn để có thơng tin cơng trình nghiên cứu khoa học cần tìm Nếu có trang tin khác có thơng tin cơng trình nghiên cứu khoa học chủ yếu thông tin lưu trữ dạng text, thơng tin khơng tổ chức thơng minh để tìm kiếm cách dễ dàng Web ngữ nghĩa đời nhằm giải vấn đề Theo đó, Web ngữ nghĩa hệ thống thông tin định nghĩa cách rõ ràng nhằm mục đích giúp máy tính hiểu ngữ nghĩa, từ đưa thông tin sát với nhu cầu người dùng Ví dụ tìm kiếm "Tên cơng trình nghiên cứu khoa học năm 2010 ĐHĐN" thay kết nhiều liên kết chứa từ khố ta có tên cơng trình nghiên cứu khoa học đại học Đà nẵng năm 2011 Nhận thấy web ngữ nghĩa khai phá liệu web giải vấn đề chưa làm nên định chọn đề tài "Nghiên cứu Web ngữ nghĩa khai phá liệu web xây dựng hệ thống tra cứu, thống kê cơng trình nghiên cứu khoa học" làm luận văn tốt nghiệp Mục tiêu nhiệm vụ Tìm hiểu web ngữ nghĩa khai phá liệu, tìm hiểu hệ thống h trợ tìm kiếm tra cứu cơng trình nghiên cứu khoa học Từ đề xuất hệ thống đáp ứng nhu cầu tìm kiếm, tra cứu, thống kê CTNCKH Hướng đến xây dựng ontology đầy đủ CTNCKH, từ xây dựng hồn ch nh hệ thống ưu việt hệ thống Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài gồm: - Các vấn đề liên quan đến web ngữ nghĩa khai thác liệu - Xử lí ngơn ngữ tự nhiên - Thơng tin cơng trình nghiên cứu khoa học trang web báo khoa học Phạm vi nghiên cứu sau: - Các cơng trình nghiên cứu khoa học nước - Chương trình dạng trang web sử dụng sở liệu Phƣơng pháp nghiên cứu Phương pháp lí thuyết: - Tìm hiểu web ngữ nghĩa khai thác liệu - Tìm hiểu xử lí ngơn ngữ tự nhiên - Tìm hiểu q trình xây dựng cơng cụ Search Engine - Ứng dụng Web ngữu nghĩa để xây dựng website - Phương pháp xây dựng website tìm kiếm hồn ch nh - Phương pháp quy trình xây dựng cơng cụ tìm kiếm - Khai thác liệu cơng trình nghiên cứu khoa học tạo sở Phương pháp thực nghiệm - Xây dựng ontology - Xây dựng sở liệu - Xây dựng kho liệu huấn luyện - Triển khai thực tế Internet Ý nghĩa khoa học thực tiễn đề tài - Đóng góp cơng cụ Search Engine theo công nghệ web ngữ nghĩa cơng trình nghiên cứu khoa học - Một sở liệu cơng trình nghiên cứu khoa học - Phương pháp xây dựng ontology cơng trình nghiên cứu khoa học Bố cục luận văn Ngoài phần mở đầu, kết luận, tài liệu tham khảo nội dung luận văn chia thành ba chương sau: Chƣơng Tổng quan đề tài Chƣơng Đề xuất hệ thống tra cứu thống kê cơng trình nghiên cứu khoa học Chƣơng Xây dựng hệ thống 5 CHƢƠNG TỔNG QUAN ĐỀ TÀI 1.1 WEB NGỮ NGHĨA 1.1.1 Web ngữ nghĩa gì? Theo định nghĩa Tim Berners-Lee web ngữ nghĩa mở rộng web tại, thông tin định nghĩa cách rõ ràng cho người máy hiểu làm việc với Theo định nghĩa tổ chức W3C: “Web ngữ nghĩa cách nhìn cách tổ chức liệu: ý tưởng việc liệu Web định nghĩa liên kết theo cách mà sử dụng máy tính với mục đích khơng ch cho việc hiển thị mà cịn tự động hố, tích hợp sử dụng lại liệu qua ứng dụng khác nhau”.[1] Web ngữ nghĩa khác với Trí tuệ nhân tạo đâu: trí tuệ nhân tạo làm cho máy tính thơng minh hơn, cịn web ngữ nghĩa làm cho ứng dụng thông minh Vấn đề web thiếu ngữ nghĩa, trang web liên kết với siêu liên kết, thơng tin rời rạc, ứng dụng khơng có khả hiểu nội dung trang web Nên từ việc tìm kiếm thơng tin web chủ yếu dựa vào từ khóa Từ thơng tin tìm kiếm có độ xác thấp, kết trả khơng xác, nhiều kết mang tính phổ biến, người dùng phải tốn nhiều thời gian cơng sức để xử lý kết tìm kiếm Vậy mong muốn thể hệ web mới, theo tơi mong muốn việc tìm kiếm tương lai khơng phụ thuộc vào từ khóa mà ứng dụng tìm kiếm phải hiểu ngữ nghĩa liệu trả về, có phù hợ với u cầu tìm kiếm hay khơng, đưa cho kết tốt nhất, phù hợp Và Web ngữ nghĩa mang lại điều nào? 1.1.2 Kiến trúc web ngữ nghĩa Năm 2001, Tim Berners-Lee nhóm tác giả cơng bố cơng trình web ngữ nghĩa Dưới mơ hình kiến trúc web ngữ nghĩa công bố năm 2001 Hình 1.1: Mơ hình kiến trúc web ngữ nghĩa hồn thiện năm 2006[17] Sau mơ hình kiến trúc web ngữ nghĩa có thay đổi qua năm 2005, 2006 Tuy có thay đổi, khơng nhiều chủ yếu kiến trúc web ngữ nghĩa có bảy tầng, tầng bên làm sở cho tầng bên Hiện web tầng thứ hai hai mơ hình kiến trúc trênRDF Khung mô tả tài nguyên (RDF) ngôn ngữ siêu liệu để biểu diễn liệu Web cung cấp mơ hình để mơ tả tạo mối quan hệ tài nguyên RDF định nghĩa nguồn tài nguyên (resource) đối tượng có khả xác định URI Các nguồn tài nguyên có thuộc tính kèm Các thuộc tính (predicate/property) xác định kiểu thuộc tính kiểu thuộc tính có giá trị tương ứng Kiểu thuộc tính biểu diễn mối quan hệ giá trị kết hợp với tài nguyên 1.1.3 Ontology Một định nghĩa chung cho ontology là: Ontology đặc tả hình thức khái niệm hóa lĩnh vực ứng dụng cụ thể Định nghĩa nhấn mạnh hai điểm chính: khái niệm hóa (conceptualisation) hình thức cho phép suy diễn máy tính; ontology thực tế thiết kế cho miền ứng dụng cụ thể Các ontology bao gồm khái niệm (các lớp classes), quan hệ (các thuộc tính - properties), thể (instances) tiên đề (axioms) 1.1.4 Các cơng trình nghiên cứu web ngữ nghĩa Ở Việt Nam, cơng trình nghiên cứu web ngữ nghĩa cơng trình nghiên cứu xây dựng khai thác thơng tin web có ngữ nghĩa (VN-KIM) khoa công nghệ thông tin trường ĐH Bách khoa TPHCM Chức VN-KIM rút trích thích tự động lớp danh hiệu thực thể có tên xuất trang báo điện tử tiếng Việt VN-KIM bao gồm khối sau: Cơ sở tri thức nhân vật, tổ chức, núi non, sơng ngịi, địa điểm phổ biến Việt Nam Khối rút trích thơng tin tự động từ trang báo điện tử tiếng Việt Khối truy hồi thông tin trang Web thực thể có tên Việt Nam Trên giới, cơng trình nghiên cứu web ngữ nghĩa như: Chuẩn hóa ngôn ngữ liệu, siêu liệu web Chuẩn hóa ngơn ngữ ontology ngơn ngữ truy vấn luật cho web ngữ nghĩa tổ chức W3C thực 8 Xây dựng ontology mở nhằm phục vụ cộng đồng Hiện có nhiều ontology chia sẻ: UNSPSC (www.unspsc.org) chương trình phát triển liên hợp quốc phối hợp với tổ chức Dun&Bradstreet phát triển nhằm cung cấp thuật ngữ sản phẩm dịch vụ thương mại Hay dự án KIM Bugaria xây dựng ontology lĩnh vực xã hội lấy thông tin từ báo Còn nhiều dự án khác xây dựng ontology lĩnh vực 1.1.5 Hƣớng nghiên cứu tƣơng lai Nghiên cứu xây dựng, hoàn thiện ontology lĩnh vực: ontology thành phần để xây dựng ứng dụng Nên việc xây dựng hồn thiện ontology góp phần quan trọng việc hoàn thiện ứng dụng web ngữ nghĩa Một số hướng nghiên cứu liên quan việc xây dựng hồn thiện ontology tích hợp ontology, ánh xạ ontology, tái sử dụng ontology, phát triển ontology hạt nhân chuẩn, Tích hợp thêm ý niệm thời gian vào ontology Nghiên cứu vấn đề đa ngôn ngữ web ngữ nghĩa: thách thức lớn giới có nhiều ngơn ngữ, theo văn hóa quốc gia khác Nên việc xây dựng ontology đồng khó vấn đề đặt phát triển công cụ cho phép người dùng tạo ontoly riêng họ Đưa ánh xạ có tính liên thơng ngơn ngữ khác Phát triển ứng dụng web ngữ nghĩa 1.2 KHAI PHÁ DỮ LIỆU Khai phá liệu định nghĩa trình chắt lọc hay khám phá tri thức từ lượng lớn liệu Thuật ngữ Data Mining ám ch việc tìm tập nhỏ có giá trị từ lượng lớn liệu thơ Có phân biệt khái niệm "Khai phá liệu" với khái niệm