Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
2,67 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LÊ ANH TIẾN TÊN ĐỀ TÀI LUẬN VĂN XÂY DỰNG KHO DỮ LIỆU LIÊN KẾT MỞ VỀ ĐỊA ĐIỂM DU LỊCH VIỆT NAM LUẬN VĂN THẠC SĨ KHOA HỌC HỆ THỐNG THÔNG TIN Hà Nội – Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LÊ ANH TIẾN TÊN ĐỀ TÀI LUẬN VĂN XÂY DỰNG KHO DỮ LIỆU LIÊN KẾT MỞ VỀ ĐỊA ĐIỂM DU LỊCH VIỆT NAM Chuyên ngành : Hệ thống thông tin LUẬN VĂN THẠC SĨ KHOA HỌC HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Cao Tuấn Dũng Hà Nội – Năm 2018 Lời cảm ơn Đầu tiên, xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội, đặc biệt thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin Truyền Thông Đồng thời xin gửi lời cảm ơn đặc biệt đến PGS.TS Cao Tuấn Dũng Các thầy cô người dẫn tận tình, cho tơi kinh nghiệm q báu để hồn thành luận văn Tơi xin gửi lời cảm ơn tới gia đình Sự sát cánh động viên tinh thần từ gia đình ln động lực để tơi tiến lên phía trước Lời cam đoan Tôi – Lê Anh Tiến - cam kết luận văn cơng trình nghiên cứu thân hướng dẫn PGS.TS Cao Tuấn Dũng Các kết nêu luân vặn trung thực, khơng phải chép cơng trình cơng bố khác Tất trích dẫn tham chiếu rõ ràng Hà Nội, ngày 15 tháng 10 năm 2018 Tác giả luận văn Lê Anh Tiến Xác nhận người hướng dẫn MỤC LỤC MỤC LỤC PHẦN MỞ ĐẦU DANH MỤC HÌNH DANH MỤC BẢNG BẢNG TỪ VIẾT TẮT 10 Chương 1.1 CƠ SỞ LÝ THUYẾT VÀ NGHIÊN CỨU LIÊN QUAN 11 Cơ sở lý thuyết 11 1.1.1 Tổng quan web ngữ nghĩa 11 1.1.2 Dữ liệu liên kết mở (Linked Open Data) 12 1.1.3 RDF RDF schema 14 1.1.4 Ontology ngôn ngữ OWL 18 1.1.5 Ngôn ngữ truy vấn SPARQL 19 1.1.6 Mạng nơ-ron 21 1.2 Các nghiên cứu liên quan 25 1.2.1 DBpedia 25 1.2.2 Tourpedia 26 Chương HỆ THỐNG NGỮ NGHĨA VỀ ĐỊA ĐIỂM DU LỊCH VIỆT NAM 28 2.1 Giới thiệu hệ thống ngữ nghĩa du lịch Việt Nam 28 2.2 Phân loại địa điểm du lịch Việt Nam dựa học máy 32 2.2.1 Học máy có giám sát 33 2.2.2 Phương pháp Bag-of-Words 36 2.2.3 Quá trình triển khai 37 2.2.4 Đánh giá phân lớp 44 Chương XÂY DỰNG KHO DỮ LIỆU LIÊN KẾT MỞ ĐỊA ĐIỂM VIỆT NAM 47 3.1 Cơ sở liệu liên kết mở du lịch Việt Nam 47 3.2 Quá trình xây dựng nguồn liệu liên kết mở 50 3.2.1 Đặt đường dẫn URI 50 3.2.2 Cung cấp thông tin RDF 51 3.2.3 Tạo đường dẫn kết nối 52 3.2.4 Biểu diễn liệu liên kết 53 3.2.5 3.3 Kiểm tra chất lượng nguồn liệu mở 53 Nâng cao chất lượng nguồn liệu liên kết mở du lịch việt nam 53 3.3.1 Liên kết nguồn liệu liên kết mở 54 3.3.2 Xây dựng trang thông tin liệu liên kết mở du lịch Việt Nam 56 Chương ĐÁNH GIÁ KHO DỮ LIỆU NGỮ NGHĨA VỀ DU LỊCH VIỆT NAM 61 4.1 Kiểm tra liệu liên kết du lịch Việt Nam 61 4.2 Đánh giá kho liệu liên kết mở 62 4.2.1 Phương thức đánh giá liệu liên kết Tim Berners-Lee 62 4.2.2 Đánh giá liệu liên kết mở VTIO 63 KẾT LUẬN 66 TÀI LIỆU THAM KHẢO 67 PHẦN MỞ ĐẦU Kể từ giới thiệu đến nay, công nghệ Web ngữ nghĩa có bước phát triển vượt bậc Các kho liệu lưu trữ liệu có liên kết tăng lên nhanh chóng, tạo nên mạng liệu mà kết nối hợp với dễ dàng ng d ng web ngữ nghĩa ứng d ng nhiều lĩnh vực đời sống từ di sản văn hoá y tế du lịch ngành công nghiệp phát triển vượt bậc nhờ xuất nhiều website cung cấp thông tin, hệ thống gợi ý, tra cứu ví d Expedia hay Yelp Tuy vậy, liệu du lịch chủ yếu lưu trữ trang thông tin dạng văn Điều tạo nên vô số tr ng lặp nhập nh ng dẫn đến việc dư thừa liệu khiến việc tìm kiếm thơng tin trở nên khó khăn thiếu tính thống Mặc khác có nhiều nghiên cứu r ng web ngữ nghĩa áp d ng hiểu vào lĩnh vực Do đó, tơi muốn tập trung nghiên cứu khái niệm ứng d ng web ngữ nghĩa để áp d ng cho tốn thực tiễn Việt Nam Mặc d liệu có ngữ nghĩa lưu trữ dạng đồ thị có ưu điểm vượt trội so với liệu quan hệ, đến nay, Việt Nam, số lượng ứng d ng sử d ng web ngữ nghĩa chưa nhiều Dữ liệu địa điểm Việt Nam có xuất vài kho liệu giới chưa đầy đủ cập nhật Chính vậy, tơi thấy cần thiết để xây dựng kho liệu liên kết mở tiêu chuẩn du lịch Việt Nam đảm bảo tính xác cao phép kho liệu liên kết mở khác giới kết nối, truy xuất thơng tin qua phủ rộng nước, tiết kiệm thời gian công sức cho người biên tập Cấu trúc luận văn gồm chương với nội dung sau: Chương trình bày kiến thức sở web ngữ nghĩa, liệu liên kết mở, RDF nghiên cứu liên quan lĩnh vực Chương giới thiệu sơ qua nghiên cứu trước thân bao gồm trình bày sơ lược hệ thống ngữ nghĩa du lịch Việt Nam có vai trị tạo liệu ngữ nghĩa địa điểm Việt Nam với thông tin thu thập từ nguồn khác mạng Trong hệ thống ngữ nghĩa du lịch Việt Nam có module quan trọng module tự động gán nhãn địa điểm du lịch Việt Nam để tăng độ xác liệu, vậy, luận văn tơi tìm hiểu thử nghiệm phương pháp khác để phân loại địa điểm để so sánh với phương pháp sử d ng hệ thống Chương trình bày mơ hình liệu ngữ nghĩa địa điểm du lịch Việt Nam quy trình xây dựng kho liệu ngữ nghĩa mở Chương đề cập tới số công việc cải tiến mà tiến hành dành cho kho liệu liên kết ngữ nghĩa du lịch Viêt Nam để dần đưa trở thành nguồn liệu mở có khả liên kết với nguồn liệu giới Chương đưa đánh giá dành cho kho liệu dựa phương thức đánh giá giới DANH MỤC HÌNH Hình 1-1 Mơ hình tầng mạng ngữ nghĩa 11 Hình 1-2 Một phần lod-cloud 13 Hình 1-3 Ví d cấu trúc mệnh đề RDF .15 Hình 1-4.Ví d đồ thị RDF .17 Hình 1-5 Ví d owl:DatatypeProperty 19 Hình 1-6 Ví d câu truy vấn SPARQL .20 Hình 1-7 Ví d kết trả SPARQL 21 Hình 1-8 Mơ hình Noron 22 Hình 1-9 Mạng nơ ron truyền thẳng 23 Hình 1-10 Multi Layer Perceptron 24 Hình 1-11 Ví d trang DBpedia 26 Hình 1-12 Mơ hình tài nguyên Tourpedia .27 Hình 2-1 Mơ hình hệ thống liệu ngữ nghĩa du lịch Việt Nam 30 Hình 2-2 Mơ hình bước học máy .34 Hình 2-3 Mơ hình trực quan category mức ontology VTIO 35 Hình 2-4 Ví d bảng tính BoW 36 Hình 2-5 Ví d DOM 38 Hình 2-6 Quá trình huấn luyện .43 Hình 3-1 Mơ hình Ontology VTIO 49 Hình 3-2 Ví d nút địa điểm khách sạn VTIO 50 Hình 3-3 Các trường owl:sameAs thông tin Hà Nội 56 Hình 3-4 Chuyển từ RDF sang RDFa+HTML 57 Hình 3-5 Trang thơng tin du lịch VTIO 59 Hình 3-6 Kết truy vấn SPARQL .60 Hình 4-1 Kết đánh giá RDF VTIO 62 Hình 4-2 Dữ liệu lưu trữ dạng file PDF trực tuyến 63 Hình 4-3 Truy vấn kho liệu VTIO .64 Hình 4-4 Một nút VTIO 64 Hình 4-5 Một nút VTIO (2) .65 biểu diễn b ng từ vựng hệ thống tự định nghĩa Trong luận văn này, nghiên cứu tiến hành số cải tiến liệu ngữ nghĩa du lịch Việt Nam để nâng cao chất lượng chuẩn hóa tập liệu thành nguồn liệu liên kết mở thực 3.3.1 Liên kết nguồn liệu liên kết mở 3.3.1.1 Một số từ vựng ontology phổ biến Có nhiều ontology tiếng giới mà cơng bố Mỗi ontology có từ vựng riêng ứng với thuộc tính mà muốn đặc tả Để sử d ng VTIO kho liệu liên kết mở, số từ vựng từ ontology tiếng tìm sử d ng để tăng tính liên kết VTIO với ontology giúp cho máy tính truy vấn dễ dàng Đây số ontology sử d ng kho liệu liên kết du lịch Việt Nam Dbpedia-owl Tập liệu từ ontology tạo trực tiếp từ liệu Wikipedia, coi ontology tiếng phổ biến DBpedia bao gồm nhiều liệu hỗ trợ nhiều ngôn ngữ khác Acco Đây ontology chỗ với từ vựng miêu tả phòng khách sạn, khách sạn, địa điểm cắm trại loại chỗ khác c ng đặc tính chúng Geo Đây từ vựng ontology chuyên d ng để biểu diễn tọa độ địa điểm giới dạng kinh độ vĩ độ Vcard Đây từ vựng ontology chuyên d ng để biểu diễn thông tin liên hệ ví d số điện thoại, fax… 54 Những từ vựng sử d ng ontology VTIO để biểu diễn số trường đặc tính địa điểm kho liệu, ví d như: Trường liệu Kiểu địa điểm Thành phố Dịch v Kinh độ Vĩ độ Số điện thoại Link bổ sung Property rdfs :type uri : http://purl.org/acco/ dbpedia –owl :Location uri : http://dbpedia.org/resource/ acco :featur geo :lat geo :long vcard :hasTelephone Dbpedia-owl :wikiPageExternalLink Bảng 3-2 Một số từ vựng ngồi VTIO 3.3.1.1 Truy vấn SPARQL tìm đường dẫn tương đương Trong ngôn ngữ owl, từ vựng owl:sameAs sử d ng để kết nối nội dung giống từ hai hay nhiều tập liệu khác nhau, nội dung có đặc tính khác có quan hệ đến nội dung khác 55 Hình 3-3 Các trường owl:sameAs thơng tin Hà Nội 3.3.2 Xây dựng trang thông tin liệu liên kết mở du lịch Việt Nam 3.3.2.1 Biểu diễn liệu RDFa Dữ liệu du lịch VTIO biểu diễn dạng chuẩn file RDF/XML Khi tập tin RDF đăng tải trực tuyến lên máy chủ, kể thơng tin từ tập liệu liên kết truy vấn sử d ng ngôn ngữ SPARQL tức máy tính đọc xử lý ontology khơng hiển trị trình duyệt cho người d ng theo dõi Chính vậy, tổ chức W3C đề xuất chuẩn RDFa cách để hiển thị liệu RDF Điểm đặc biệt chuẩn RDFa cho phép liệu RDF nhúng bên văn HTML, điều hữu d ng cơng bố nội dung RDF trình duyệt bị giới hạn việc hiển thị liệu HTML, ví d số hệ quản trị trang thông tin không cho phép đăng tải nội dung thông tin định dạng khác Như cách biểu diễn khác RDF, RDFa phương thức lý tưởng ph hợp để đăng tải liệu liên kết Để tạo liệu kết hợp RDFa+HTML từ tập tin RDF, sử d ng tập API từ tảng Parrot, dịch v văn OWL RIF Các nhà phát triển Parrot 56 có nói: “The Semantic Web contains a number of knowledge artifacts, including OWL ontologies, RIF rule sets and RDF datasets Effective exchange and management of these artifacts demands the use of metadata and prompt availability of accurate reference documentation In this article, we analyze the current practices in metadata usage for OWL ontologies, and we propose a vocabulary for annotating RIF rules We also introduce a software tool Parrot that exploits these annotations and produces reference documentation for combinations of ontologies and rules.” Đây ví d phần liệu định dạng RDFa tạo từ kho liệu ngữ nghĩa VTIO: Hình 3-4 Chuyển từ RDF sang RDFa+HTML Để kiểm tra xem nội dung RDFa có tạo theo chuẩn hay khơng ta sử d ng cơng c W3C RDFa validator để kiểm tra liệu RDFa nhúng văn HTML Ta đưa đầu vào đường dẫn http://vtio.tech/ để kiểm tra chuẩn RDFa tên miền Kết cho thấy nội dung RDFa kiểm tra thành công với thông báo “Congratulations, your RDFa source is valid” liệu thông tin du lịch hiển thị dạng Turtle, chuẩn hiển thị liệu liên kết RDF, dưới: @prefix dct: @prefix foaf: 57 @prefix owl: @prefix parrot: @prefix rdfs: @prefix xhv: a owl:Ontology a owl:Class; rdfs:subClassOf a owl:Class; rdfs:subClassOf … a owl:Class Để xem lại báo cáo dịch v kiểm tra, truy cập đường dẫn sau: https://www.w3.org/2012/pyRdfa/extract?uri=http%3A%2F%2Fvtio.tech&rdfa_lite =false&vocab_expansion=false&embedded_rdf=true&validate=yes&space_preserv e=true&vocab_cache_report=false&vocab_cache_bypass=false 3.3.2.1 Trang thông tin liệu liên kết du lịch VTIO Sau chuyển đổi sang chuẩn RDFa+HTML đề cập trên, liệu liên kết du lịch Việt Nam VTIO hiển thị dạng giao diện người d ng tất trình duyệt hành Hiện kho liệu liên kết mở lưu trữ máy chủ với tên miền vtio.tech, đường dẫn URI đối tượng bên LOD đặt header với tên miền vtio.tech để dễ dàng theo dõi tìm kiếm Mỗi nút liệu liên kết biểu diễn dạng block với tiêu đề URI triple, bên block thuộc tính triple giá trị Khi người d ng click vào đường link URI trang web đưa người d ng đến với đối tượng tương ứng với URI Máy tính hồn tồn sử d ng truy vấn SPARQL để truy vấn thông tin kho liệu liên kết mở theo đường dẫn hiển thị trình duyệt 58 Hình 3-5 Trang thơng tin du lịch VTIO Ta kiểm tra truy vấn SPARQL trực tiếp trang web Nếu truy vấn thành cơng, điều chứng tỏ liệu liên kết mở sẵn sàng sử d ng máy tính theo dõi xử lý Để kiểm tra, ta sử d ng cơng c trình duyệt firefox để thực truy vấn SPARQL lên trang web chứa thông tin VTIO Ví d ta thực câu truy vấn liệt kê tất triple ontology VTIO với cú pháp: SELECT * WHERE { ?subject ?predicate ?object } 59 Kết đưa 3081 triple lưu trữ đường dẫn http://vtio.tech c ng với bảng hiển thị thông tin subject, predicate object triple Hình 3-6 Kết truy vấn SPARQL Ngồi liệu hiển thị dạng RDFa, người d ng tải liệu dạng tệp tin RDF để tải sử d ng ngoại tuyến Ví d người d ng truy cập đường dẫn http://vtio.tech/hanoi/hanoi.rdf để tải liệu liên kết dạng tệp tin RDF với liệu du lịch Hà Nội 60 Chương ĐÁNH GIÁ KHO DỮ LIỆU NGỮ NGHĨA VỀ DU LỊCH VIỆT NAM 4.1 Kiểm tra liệu liên kết du lịch Việt Nam Sau tạo tệp tin RDF, cần kiểm tra xem tập liệu liên kết có tuân theo quy định theo chuẩn RDF/XML định nghĩa W3C hay khơng Để kiểm tra tính hồn chỉnh ontology, W3C cung cấp công c để người d ng trực tiếp kiểm tra kho liệu liên kết W3C RDF Validation Service: Đây dịch v kiểm tra RDF phát triển bảo trì Jeremy Carroll từ HP-Labs Bristol Dịch v quét tệp tin RDF để kiểm tra xem theo chuẩn chưa liệt kê tất triple có tệp tin RDF Để kiểm tra ta đưa đầu vào file RDF lưu trữ đường dẫn: http://vtio.tech/quangnam/quangnam.rdf để kiểm tra Kết cho thấy công c kiểm tra xác thực liệu RDF chuẩn liệt kê bảng triple có tệp tin RDF đăng lên với giá trị id, subject, predicate object triple 61 Hình 4-1 Kết đánh giá RDF VTIO Kết cho thấy tập tin lưu trữ liệu du lịch Quảng Nam chứa 19821 triple đọc thành cơng, báo cáo lưu đường dẫn sau: https://www.w3.org/RDF/Validator/rdfval?URI=http%3A%2F%2Fvtio.tech%2Fqu angnam%2Fquangnam.rdf&PARSE=Parse+URI%3A+&TRIPLES_AND_GRAPH =PRINT_TRIPLES&FORMAT=PNG_EMBED 4.2 Đánh giá kho liệu liên kết mở 4.2.1 Phương thức đánh giá liệu liên kết Tim Berners-Lee Vào năm 2010, để khuyến khích người, đặc biệt quan quản lý liệu phủ, theo đường liệu liên kết Tim Berners-Lee, cha đẻ khái niệm web ngữ nghĩa đưa hệ thống để đánh giá nguồn liệu liên kết Đánh giá hệ thống liên kết mở xét sau: sao: Dữ liệu liên kết từ vựng nào, kho liệu đánh giá không chứa từ vựng mà mơ tả nơi mà người d ng truy cập hiểu xác 62 sao: Dữ liệu biểu diễn dạng miễn cung cấp mạng người d ng đọc Ví d hình dưới: Hình 4-2 Dữ liệu lưu trữ dạng file PDF trực tuyến sao: Dữ liệu biểu diễn dạng cấu trúc thông d ng mà máy tính đọc xử lý Ở không giới hạn cấu trúc sử d ng, người d ng sử d ng chuẩn RDFS, OWL, RIF chuẩn khác W3C Ví d thông tin ảnh lưu dạng file Excel sao: Dữ liệu biểu diễn dạng cấu trúc thông d ng mà không thuộc quyền sở hữu tổ chức nào, hay nói cấu trúc sử d ng mở Ví d ta sử d ng chuẩn CSV để biểu diễn thay dạng excel sao: Sử d ng URI để trỏ đến đối tượng để người trỏ đến tài nguyên kho liệu sao: Kho liệu trỏ đến nguồn liệu liên kết khác 4.2.2 Đánh giá liệu liên kết mở VTIO Hệ thống đánh giá Tim Berner-Lee tạo cảm hứng cho nhiều tổ chức nâng cấp kho liệu theo đường liên kết ngữ nghĩa Kho liệu liên kết mở du lịch Việt Nam hướng tới điều Dựa đánh giá đề cập VTIO đạt yêu cầu kho liệu liên kết mở 63 Thứ nhất, liệu VTIO đưa lên trực tuyến với tên miền vtio.tech, người d ng hồn tồn xem thông tin địa điểm Việt Nam địa Thứ hai, với việc biểu diễn liệu dạng RDF/XML RDFa liệu liên kết địa điểm du lịch Việt Nam hoàn toàn truy cập truy vấn máy tính thơng qua cú pháp SPARQL Hình 4-3 Truy vấn kho liệu VTIO Thứ ba, nút địa điểm LOD đặt tên theo đường dẫn URI người d ng lẫn máy tính dễ dàng trỏ đến để truy cập vào thơng tin địa điểm Ví d như: http://vtio.tech/quangnam#hoi-an-glory-spa-538-cua-dai-hoi-an-quang-nam-hoteladdress http://vtio.tech#Resort http://vtio.tech/quangnam#three-star Hình 4-4 Một nút VTIO Cuối c ng, việc biểu diễn liệu thu thập tổng hợp từ hệ thống ViSIS địa điểm du lịch Việt Nam, kho liệu liên kết mở VTIO cịn có biểu 64 diễn liên kết trỏ đến kho liệu liên kết mở khác qua đường dẫn URI từ vựng Ví d hình với nút: http://vtio.tech/quangnam#palm- garden-thien-duong-nghi-duong-lac-long-quan-hoi-an-quang-nam-resort có thuộc tính địa điểm định nghĩa từ vựng ontology DBpedia dbpedia-owl:location trỏ đến đường dẫn nút kho liệu DBpedia http://dbpedia.org/resource/Quangnam Với việc định nghĩa vậy, từ kho liệu VTIO máy tính người d ng chuyển sang kho luệ DBpedia để nắm nhiều thơng tin địa điểm theo dõi Hình 4-5 Một nút VTIO (2) Tổng kết lại, thấy kho liệu VTIO ph hợp với chuẩn theo cách thức đánh giá Tim Bernee-Lee chứng minh r ng kho liệu liên kết mở ngữ nghĩa địa điểm du lịch Việt Nam theo chuẩn ph hợp để ứng d ng nghiên cứu khác truy cập đến sử d ng kho liệu khác liên kết đến 65 KẾT LUẬN Trong q trình thực luận văn tơi nghiên cứu vấn đề sau: Nghiên cứu mô hình liệu liên kết mở ứng d ng lĩnh vực địa điểm Qua tìm hiểu quy trình xây dựng nguồn liệu liên kết mở Tìm hiểu cơng c xử lý ngôn ngữ tiếng Việt, tách câu, tách từ, phân loại từ… c ng với số thuật tốn, mơ hình phân loại Thử nghiệm phân loại liệu địa điểm Việt Nam sử d ng mô hình học máy mạng nơ-ron Sử d ng mức khái niệm Ontology VTIO cung cấp tri thức địa điểm để nghiên cứu xây dựng kho liệu liên kết mở địa điểm du lịch Việt Nam Sau tiến hành nâng cao chất lượng kho liệu liên kết mở để đảm bảo tính xác chuẩn hóa cao cho phép kho liệu liên kết mở khác giới kết nối, truy xuất thơng tin qua phủ rộng nước, tiết kiệm thời gian công sức cho người biên tập Nghiên cứu giúp tơi có kiến thức sâu web ngữ nghĩa ứng d ng thực tế Dữ liệu du lịch Việt Nam tiếp t c cập nhật bổ sung vào kho liệu liên kết mở VTIO để ph c v cho cơng đồng Ngồi ra, tơi tiếp t c nghiên cứu cải tiến phương pháp phân loại địa điểm để có mơ hình ph hợp xác giúp tăng độ xác cho kho liệu Trong thời gian tới, tiếp t c thu thập liệu để xây dựng tập từ điển từ vựng chủ đề phong cách địa điểm để đạt độ xác cao khâu làm giàu ngữ nghĩa cho địa điểm mà c thể xác định tự động gán nhãn chủ đề phong cách cho địa điểm Việt Nam sau mở rộng địa điểm khác giới 66 TÀI LIỆU THAM KHẢO [1] Le Anh Tien, Cao Tuan Dung, “Toward a linked open data repository about vietnamese tourism”, FAIR‟11, 2018 [2] Tuan-Dung Cao, Anh-Tien Le, “a semi-automatic method for building semantic data repository applied for Vietnamese tourism datasets”, ACCN 2016, Conference Proceedings p25-29 [3] Tim Berners-lee, James Hendler, Ora lassila, „The Semantic Web‟‟, Scientific American: Feature Article, May 2001 [4] Jens Lehmann, Robert Isele, Max Jakob, Anja Jentzsch, Dimitris Kontokostas, Pablo N Mendes, Sebastian Hellmann, Mohamed Morsey, Patrick van Kleef, Sören Auer Christian Bizer, “DBpedia - A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia”, Semantic web journal, vol 6, no 2, pp 167-195, 2015 [5] Stefano Cresci, Andrea D‟Errico, Davide Gazz´e, Angelica Lo Duca, Andrea Marchetti, Maurizio Tesconi, “Towards a DBpedia of Tourism: the case of Tourpedia”, ISWC-PD'14 Proceedings, p129-132 [6] Graham Klyne, Jeremy J Carroll, “Resource Description Framework (RDF): Concepts and Abstract Syntax” [7] Bizer, Christian, Heath, Tom and Berners-Lee, “Linked Data - the story so far”, International Journal on Semantic Web and Information Systems, 2009, p1-22 [8] Ujjwalkarn, “an Intuitive Explanation of Convolutional Neural Networks”, 11 August 2016 [9] Tuan-Dung Cao, Quang-Minh Nguyen, “Semantic approach to travel information search and itinerary recommendation”, International Journal of Web Information Systems, Vol Issue: 3, pp.256-277 67 [10] Stephen Robertson, “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal of Documentation, Vol 28 No (1972), pp 11‐ 21 [11] Philippe Le Hégaret, Lauren Wood, Jonathan Robie, “What is the Document Object Model?” W3C [12] Le-Hong, P., T M H Nguyen, A Roussanaly, and T V Ho, "A hybrid approach to word segmentation of Vietnamese texts", Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, Springer, LNCS 5196, pp 240 249, 2008 [13] ontologies.sti innsbruck.at/acco/ns.html [14] W3C RDF Validation Service, https://www.w3.org/RDF/Validator/ [15] Parrot, a RIF and OWL documentation service, ontorule-project.eu/parrot [16] RDFa 1.1 Validator, https://www.w3.org/2012/pyRdfa/Validator.html [17] RDFaDev - Semantic Web Standards, https://www.w3.org/2001/sw/wiki/RDFaDev 68 ... 44 Chương XÂY DỰNG KHO DỮ LIỆU LIÊN KẾT MỞ ĐỊA ĐIỂM VIỆT NAM 47 3.1 Cơ sở liệu liên kết mở du lịch Việt Nam 47 3.2 Quá trình xây dựng nguồn liệu liên kết mở 50 3.2.1 Đặt... Liên kết nguồn liệu liên kết mở 54 3.3.2 Xây dựng trang thông tin liệu liên kết mở du lịch Việt Nam 56 Chương ĐÁNH GIÁ KHO DỮ LIỆU NGỮ NGHĨA VỀ DU LỊCH VIỆT NAM 61 4.1 Kiểm tra liệu liên. .. quảng cáo du lịch Việt Nam cho giới góp phần bổ xung nguồn liệu liên kết giới 27 Chương HỆ THỐNG NGỮ NGHĨA VỀ ĐỊA ĐIỂM DU LỊCH VIỆT NAM Để xây dựng kho liệu liên kết mở du lịch Việt Nam, điều