1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận án Tiến sĩ: Kỹ thuật nâng cấp Ontology khí hậu Việt Nam dựa trên nguồn tài nguyên Web

38 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 0,94 MB

Nội dung

Luận án trình bày việc xây dựng một Ontology miền xuất phát; Mô hình học sâu suốt đời làm giàu thể hiện Ontology miền; Mô hình sinh Taxonomy cho Ontology miền; Mô hình tìm kiếm ngữ nghĩa dựa trên Ontology miền.

MỞ ĐẦU Tính cấp thiết luận án Ontology (được số nhà nghiên cứu người Việt gọi “bản thể học” “bản thể luận”1) thành phần tri thức tảng tri thức khác cần dựa tham chiếu đến Một khu vực ứng dụng ontology vô rộng lớn cơng cụ tìm kiếm (search engine) chia sẻ tri thức (knowledge sharing), đó, ontology hỗ trợ đắc lực hoạt động tìm kiếm có cấu trúc, so sánh tùy chỉnh cao Hiện chưa có ontology tiếng Việt cho miền tài ngun mơi trường (trong bao gồm miền khí hậu Việt Nam), song vài ontology tiếng Việt cho miền ứng dụng khác xây dựng, điển hình ontology VN-KIM, thành phần ontology tiếng Việt hệ thống BioCasster ontology miền dầu khíViệt Nam Hiện giới có số ontology có liên quan đến miền tài ngun mơi trường, ví dụ như: SWEET ontology2(NASA’s Semantic Web for Earth and Environment Terminology) hệ thống khái niệm môi trường trái đất; EnvO ontology3 (The Environment ontology) ontology cho miền môi trường Weather ontology cho miền thời tiết Các khái niệm liên quan đến xây dựng ontology thủ công, bán tự động tự động, bao gồm: Kỹ thuật ontology (ontology engineering) việc xây dựng ontology sử dụng kỹ thuật web ngữ nghĩa thơng qua lấp đầy sở tri thức (A-Box) với thể ontology Học ontology (ontology learning)là cách tiếp cận bán tự động xây dựng ontologybằng việc phát bổ sung khái niệm quan hệ từ kho văn dựa việc sử dụng kỹ thuật khai phá văn (text mining) hoặc/và học máy (machine learning) Học ontology xu hướng có tính Do thuật ngữ “bản thể học” “bản thể luận” thuật ngữ có nguồn gốc vay mượn từ ngơn ngữ khác mà không gợi nghĩa nhiều thuật ngữ “ontology” luận án sử dụng nguyên gốc “ontology” https://sweet.jpl.nasa.gov/ http://www.environmentontology.org/ đại đầy thách thức nghiên cứu xây dựng ontology Làm giàu thể ontology (ontology population) cách tiếp cận xây dựng ontology việc phát thể lớp thể quan hệ lưu trữ vào sở tri thức (A-Box) ontology [Buitelaar et al., 2005] Nâng cấp, làm giàu ontology (ontology enrichment) bao gồm công việc học ontology làm giàu thể ontology từ ontology khởi tạo ban đầu Với việc chưa có ontology cho miền tài nguyên môi trường ontology sử dụng hiệu tốn tìm kiếm thơng tin, xử lý ngôn ngữ, biểu diễn tri thức, tính chất thách thức cao chủ đề nghiên cứu xây dựng ontology, làm giàu ontology cần phương pháp bán tụ động dựa kỹ thuật xử lý ngôn ngữ, kỹ thuật thống kê kỹ thuật logic tạo động lực nghiên cứu luận án “Kỹ thuật nâng cấp ontology khí hậu việt nam dựa nguồn tài nguyên Web” Bố cục luận án gồm phần mở đầu năm chương nội dung, phần kết luận danh mục tài liệu tham khảo Khái quát ontology, kỹ thuật làm giàu ontology CHƯƠNG GIỚI THIỆU CHUNG VỀ KỸ THUẬT LÀM GIÀU ONTOLOGY MIỀN Xây dựng ontology xuất phát cho miền tài nguyên môi trường Kỹ thuật làm giàu thể ontology miền Kỹ thuật sinh taxonomy cho ontology miền Ứng dụng ontology cho số toán lớn CHƯƠNG XÂY DỰNG MỘT ONTOLOGY MIỀN XUẤT PHÁT CHƯƠNG MỘT MƠ HÌNH HỌC SÂU SUỐT ĐỜI LÀM GIÀU THỂ HIỆN ONTOLOGY MIỀN CHƯƠNG MỘT MƠ HÌNH SINH TAXONOMY CHO ONTOLOGY MIỀN CHƯƠNG MỘT MƠ HÌNH TÌM KIẾM NGỮ NGHĨA DỰA TRÊN ONTOLOGY MIỀN Hình 0.1 Phân bố chủ đề chương luận án CHƯƠNG GIỚI THIỆU CHUNG VỀ KỸ THUẬT LÀM GIÀU ONTOLOGY MIỀN 1.1 GIỚI THIỆU CHUNG VỀ ONTOLOGY Trong nỗ lực đưa định nghĩa phổ quát ontology, R Arp cộng [1] cho ontology sản phẩm trình diễn người tạo ra, với thành phần đặc thù bảng phân loại biểu diễn tường minh tổ hợp kiểu, lớp định nghĩa số quan hệ chúng Ontology triết học xây dựng nhằm mục đích cung cấp phân loại rõ ràng toàn diện tất thực thể lĩnh vực sống Ontology miền (domain ontology), gọi ontology cụ thể (material ontology), trình diễn thực thể quan hệ chúng miền thực tiễn cụ thể chẳng hạn y tế, địa lý, sinh học, luật học nhằm mục đích hỗ trợ trực tiếp nghiên cứu lĩnh vực cụ thể đề cập Ontology mức cao (top-level ontology), gọi ontology hình thức (formal ontology), trình diễn ontology miền có tính tiêu chuẩn với kiến trúc phổ quát dùng chung cộng đồng, giúp kết nối ontology khác miền số miền liên quan Ontology ứng dụng (application ontology) tạo nhằm mục đích thực số tốn ứng dụng cụ thể Học ontology Ontology cấu trúc thức để biểu diễn khái niệm quan hệ khái niệm chia sẻ Chính xác hơn, định nghĩa khái niệm, quan hệ, thuộc tính phân cấp diện miền Tuy nhiên, việc xây dựng ontology lớn cách thủ cơng nhiệm vụ khó khăn việc xây dựng ontology cho tất miền khơng khả thi [2] Do đó, thay xây dựng ontology cách thủ công, xu hướng nghiên cứu chuyển sang học ontology bán tự động tự động Hình 1.1 Học ontology từ văn bản: công việc kỹ thuật đảo ngược[3] Học ontology q trình ngược lại mơ hình miền xây dựng lại từ văn đầu vào cách khai thác cấu trúc thức lưu tâm trí tác giả Tồn q trình xây dựng lại mơ hình miền minh họa hình 1.1 Hình 1.2 tóm tắt bước khác cần thiết để thực xây dựng ontology từ văn phi cấu trúc Hình 1.2 Các tầng học ontology[3] 1.2 CÁC KỸ THUẬT LÀM GIÀU ONTOLOGY MIỀN Các kỹ thuật làm giàu ontology miền chia làm nhóm (hình 1.3): - Nhóm dựa thống kê: bao gồm kỹ thuật dựa học máy, khai phá liệu tìm kiếm thơng tin - Nhóm dựa xử lý ngôn ngữ: bao gồm kỹ thuật xử lý ngơn ngữ tự nhiên - Nhóm dựa logic (Inductive Logic Programming - ILP): bao gồm kỹ thuật logic mơ tả, … Hình 1.3 Các phương pháp học ontology [3] Kỹ thuật làm giàu ontology miền dựa xử lý ngôn ngữ Các kỹ thuật dựa xử lý ngôn ngữ kỹ thuật dựa vào đặc tính ngơn ngữ đóng vai trị quan trọng pha trình học ontology Các kỹ thuật dựa xử lý ngôn ngữ phần lớn sử dụng trình tiền xử lý liệu vài công việc học ontology khác trích xuất thuật ngữ, khái niệm quan hệ Như vậy, kỹ thuật dựa xử lý ngơn ngữ chia thành nhóm: - Nhóm kỹ thuật phục vụ tiền xử lý liệu, bao gồm: gán nhãn từ loại (part of speech tagging), phân tích cú pháp (parsing) xác định biến thể từ loại (lemmatization) - Nhóm kỹ thuật phục vụ trích xuất thuật ngữ, khái niệm quan hệ, bao gồm: phân tích phụ thuộc (dependency analysis), phân tích cú pháp từ vựng (lexico-syntactic analysis), phân loại thuật ngữ, phân tích khái niệm hình thức (FCA), khai phá luật kết hợp phân cụm phân cấp (ARM) Kỹ thuật làm giàu ontology miền dựa thống kê Các kỹ thuật dựa thống kê dựa thống kê kho văn mà không quan tâm đến ngữ nghĩa chúng Phần lớn kỹ thuật thống kê sử dụng nhiều đến phương pháp xác suất thường sử dụng cấp độ trình học ontology sau tiền xử lý mặt ngôn ngữ Các kỹ thuật ngày phần lớn sử dụng cho việc trích xuất thuật ngữ, trích xuất khái niệm trích xuất quan hệ Các kỹ thuật thống kê bao gồm giá trị C/NC (C/NC value), phân tích tương phản (contrastive analysis), phân cụm (clustering), phân tích tương quan (co-occurrence analysis), xếp gộp thuật ngữ (term subsumption) phân cụm phân cấp (ARM) Kỹ thuật làm giàu ontology miền dựa logic ILP môn học học máy xuất phát từ giả thuyết dựa kiến thức tảng tập hợp ví dụ sử dụng lập trình logic Trong lĩnh nghiên cứu ontology, ILP sử dụng giai đoạn cuối tầng, mức học ontology tiên đề tổng quát thu nhận từ tiên đề lược đồ (tiên đề với ví dụ tích cực tiêu cực kiến thức tảng) 1.3 ĐÁNH GIÁ KỸ THUẬT LÀM GIÀU ONTOLOGY MIỀN Đánh giá chất lượng việc xây dựng ontology khía cạnh cơng nghệ web thơng minh quan trọng cho phép nhà nghiên cứu nhà chun mơn đánh giá tính đắn mức từ loại, độ bao phủ mức khái niệm, tính phù hợp mức phân loại tính đầy đủ mức phi phân loại ontology xây dựng Đánh giá kỹ thuật làm giàu ontology chia làm nhóm: (1) Đánh giá dựa chuẩn vàng; (2) Đánh giá dựa khả ứng dụng; (3) Đánh giá hướng liệu (4) Đánh giá người CHƯƠNG XÂY DỰNG MỘT ONTOLOGY MIỀN XUẤT PHÁT 2.1 BÀI TOÁN XÂY DỰNG ONTOLOGY Natalya F.Noy [4] bước để xây dựng ontology, bao gồm: Bước 1: Xác định miền cần xây dựng ontology phạm vi việc xây dựng ontology Bước 2: Rà sốt, phân tích ontology xây dựng có liên quan đến miền cần xây dựng ontology, qua xem xét việc tái sử dụng tích hợp ontology có Bước 3: Phân tích, trích xuất từ nguồn liệu, qua xác định khái niệm, thuật ngữ quan trọng ontology cần xây dựng Bước 4: Xác định khái niệm phân cấp khái niệm ontology cần xây dựng Bước 5: Định nghĩa thuộc tính khái niệm Bước 6: Định nghĩa miền giá trị thuộc tính khái niệm Bước 7: Tạo thể khái niệm quan hệ thể khái niệm 2.2 SỰ CẦN THIẾT XÂY DỰNG ONTOLOGY MIỀN XUẤT PHÁT Natalya F.Noy[4] lý sau để xây dựng ontology: Thứ nhất, việc chia sẻ ‘hiểu’ cấu trúc thông tin người tác tử phần mềm mục tiêu lớn phát triển ontology Ví dụ, có nhiều Website chứa đựng thông tin hay dịch vụ y tế Nếu Website chia sẻ xuất sở sử dụng thuật ngữ ontology máy tính trích chọn tích hợp thơng tin từ nguồn này, trả lời cho truy vấn người dùng làm input cho ứng dụng khác Thứ hai, việc xây dựng ontology cho phép khả sử dụng lại tri thức miền Thứ ba, việc xây dựng ontology tạo giả thiết tri thức miền rõ ràng Thứ tư, việc xây dựng ontology cho phép tách biệt tri thức miền với tri thức thi hành Thứ năm, phân tích tri thức miền hồn tồn thi hành biết định nghĩa khái niệm ontology xây dựng Trong ngành tài nguyên môi trường, có hai tốn lớn cần giải tích hợp liệu tìm kiếm ngữ nghĩa Có nhiều phương pháp, kỹ thuật để giải hai toán trên, phương pháp dựa ontology sử dụng rộng rãi mang lại hiệu cao Vì vậy, xây dựng ontology cho lĩnh vực tài ngun mơi trường có vai trị quan trọng việc giải tốn lớn ngành Ngồi ra, ontology xây dựng đầu vào quan trọng nghiên cứu sâu kỹ thuật nâng cấp, làm giàu ontology dựa phương pháp xử lý ngôn ngữ tự nhiên, phương pháp dựa thống kê phương pháp dựa logic 2.3 XÂY DỰNG ONTOLOGY MIỀN XUẤT PHÁT CHO MIỀN TÀI NGUN VÀ MƠI TRƯỜNG 2.3.1 Quy trình xây dựng ontology miền xuất phát cho miền tài nguyên môi trường Trên sở phân tích quy trình xây dựng ontology sử dụng giới yếu tố đặc thù tiếng Việt chuyên ngành tài nguyên môi trường, luận án đề xuất quy trình xây dựng ontology tài ngun mơi trường bao gồm 07 bước sau: Hình 2.1 Quy trình xây dựng ontology cho lĩnh vực tài nguyên môi trường 2.3.2 Phương pháp xây dựng ontology miền xuất phát cho miền tài nguyên môi trường Trên sở nghiên cứu phương pháp, quy trình, giải pháp xây dựng ontology có giới, luận án đề xuất phương pháp khả thi, cụ thể cho việc xây dựng ontology cho lĩnh vực tài nguyên môi trường bao gồm 03 pha sau: Hình 2.2 Phương pháp xây dựng ontology cho lĩnh vực tài nguyên môi trường Phương pháp xây dựng ontology cho lĩnh vực tài ngun mơi trường (hình 2.2) bao gồm 03 pha sau: - Pha 1: Tích hợp ontology có liên quan đến ngành tài ngun mơi trường (trong thử nghiệm với 02 lĩnh vực đo đạc đồ khí tượng thủy văn) Mục đích bước nhằm tái sử dụng ontology xây dựng giới Việt Nam có liên quan đến ngành tài ngun mơi trường - Pha 2: Việt hóa ontology Với ontology khởi tạo xây dựng pha tích hợp từ ontology có giới, khái niệm đa phần tiếng Anh, nên cần phải chuyển khái niệm sang tiếng Việt - Pha 3: Nâng cấp ontology Ontology xây dựng từ pha pha 10 CHƯƠNG MỘT MÔ HÌNH SINH TAXONOMY CHO ONTOLOGY MIỀN 4.1 GIỚI THIỆU CHUNG VỀ SINH TAXONOMY 4.1.1 Khái niệm sinh taxonomy Taxonomy nguồn ngữ nghĩa giúp phân loại bổ sung ngữ nghĩa cho liệu Sinh taxonomy đề cập đến trình tạo chủ đề khái niệm quan hệ chúng từ kho văn đầu vào Công việc sinh taxonomy liệt kê chủ đề danh mục từ kho văn liên kết chủ đề với văn có liên quan 4.1.2 Sinh taxonomy công việc liên quan Các công việc liên quan đến sinh taxonomy bao gồm: (i) trích xuất từ khóa mối liên quan đến sinh văn bản; (ii) phân loại từ việc từ đơn (single word) hay bigram (n-gram với n=2) phân loại thành một vài chủ đề định nghĩa trước (thay phân loại văn bản); (iii) phân cụm từ (liên quan đến phân lớp từ) từ phân cụm theo ngữ nghĩa vào cụm; (iv) định tuyến chủ đề (topic routing) nhiệm vụ ngược lại với phân loại văn bản, chủ đề đưa làm đầu vào đầu danh sách văn thuộc chủ đề 4.2 CÁC PHƯƠNG PHÁP SINH TAXONOMY Sinh taxonomy từ kho văn bản, chia thành nhóm phương pháp: (i) phương pháp dựa mục; (ii) phương pháp dựa phân cụm; (iii) phương pháp dựa kết hợp (iv) phương pháp dựa phân tích liên kết 4.2.1 Sinh taxonomy dựa mục Hình 4.11 minh họa trình sinh taxonomy dựa lập mục văn Đầu vào trình sinh taxonomy kho văn Nó lập mục thành danh sách từ, số số chúng chọn làm taxonomy văn có liên quan xếp theo taxonomy Các từ chọn danh mục chủ đề nhóm văn cho 24 Hình 4.1 Q trình sinh taxonomy dựa lập mục văn bản[7] 4.2.2 Sinh taxonomy dựa phân cụm Phần trình bày trình sinh taxonomy dựa phương pháp phân cụm văn (hình 4.2) Đầu vào kho văn văn kho văn nhóm lại thành nhóm nhỏ Mỗi cụm đặt tên theo quy trình cụm đặt tên tạo thơng qua q trình phân cụm văn cụm đặt tên kết đầu trình sinh taxonomy Hình 4.2 Phương pháp sinh taxonomy dựa phân cụm[7] 4.2.3 Sinh taxonomy dựa luật kết hợp Hình 4.3 mơ tả phương pháp sinh taxonomy dựa kết hợp từ Đầu vào kho văn văn riêng lẻ kho văn lập mục thành tập hợp từ Các luật kết hợp trích xuất từ tập từ Một vài luật kết hợp lọc từ phần có điều kiện đưa danh sách taxonomy 25 Hình 4.3 Phương pháp dựa luật kết hợp[7] 4.2.4 Sinh taxomony dựa phân tích kết nối Trong mục 4.2.1, 4.2.2 4.2.3 trình bày ba phương pháp sinh taxonomy dựa lập mục, dựa phân cụm dựa luật kết hợp Chúng ta định nghĩa kết nối văn kho văn mạng việc chọn lựa văn đóng vai trị trung tâm trọng mạng Hình 4.14 rõ, taxonomy sinh cách lập mục văn chọn gọi văn trung tâm Phần trình bày chi tiết phương pháp sinh taxonomy hình 4.4 Hình 4.4 Phương pháp dựa phân tích kết nối[7] 4.3 MƠ HÌNH SINH TAXONOMY CHO ONTOLOGY MIỀN TÀI NGUN VÀ MƠI TRƯỜNG Mơ hình sinh taxonomy cho ontology miền tài nguyên môi trường bao gồm cơng việc chính: (i) Trích chọn thuật ngữ, khái niệm từ kho liệu văn pháp luật tài nguyên môi trường 26 Kết công việc (i) danh sách thuật ngữ, khái niệm trích xuất từ kho văn pháp luật tài nguyên mơi trường (ii) Trích chọn quan hệ thuật ngữ từ kho liệu văn pháp luật tài nguyên môi trường, chia làm ba pha bao gồm: - Tiền xử lý liệu; - Sinh véc tơ đặc trưng; - Nhận dạng quan hệ Mơ hình trích chọn quan hệ gồm pha: (i) Tiền xử lý liệu; (ii) sinh véc tơ đặc trưng (iii) nhận dạng quan hệ, mơ tả hình 4.5: Kho văn Pháp điển Các quan hệ Nhận dạng quan hệ Tiền xử lý liệu Sinh véc tơ đặc trưng Tách câu Sinh véc tơ đặc trưng Tìm câu chứa R Sinh biểu diễn quan hệ R Câu chứa R Phân tích cú pháp Bộ phân lớp SVM Véc tơ đặc trưng biểu diễn R Hình 4.5 Mơ hình trích chọn quan hệ dựa phân tích cú pháp Kết thực nghiệm với liệu đầu vào pháp điển cho chủ đề đất đai sau (hình 4.6): 27 Hình 4.6 Ví dụ taxonomy sinh với liệu đầu vào pháp điển cho chủ đề đất đai 28 CHƯƠNG MỘT MƠ HÌNH TÌM KIẾM NGỮ NGHĨA DỰA TRÊN ONTOLOGY MIỀN 5.1 GIỚI THIỆU CHUNG VỀ TÌM KIẾM NGỮ NGHĨA Mơ hình kiến trúc máy tìm kiếm ngữ nghĩa mơ tả hình 4.2 Các dịch vụ tìm kiếm 2.Phân lớp câu hỏi Nhập truy vấn Kết trả 3.Biển đổi dạng câu hỏi Semantic Web/Ontology Trích chọn thơng tin Mạng ngữ nghĩa 5.Tìm kiếm Hình 5.1 Kiến trúc máy tìm kiếm ngữ nghĩa Có thể thấy khác biệt cấu trúc máy tìm kiếm ngữ nghĩa so với máy tìm kiếm thơng thường nằm phần kiến trúc bên trong, cụ thể hai thành phần: phân tích câu hỏi tập liệu tìm kiếm 5.2 MƠ HÌNH TÌM KIẾM NGỮ NGHĨA DỰA TRÊN ONTOLOGY MIỀN Trên sở mơ hình kiến trúc chung cho hệ thống tìm kiếm ngữ nghĩa nội dung khảo sát, phân tích hệ thống CSDLQg TNMT, nhóm tác giả đề xuất mơ hình tìm kiếm ngữ nghĩa dựa ontology cho CSDLQg TNMT sau: 29 Hình 5.2 Mơ hình kiến trúc đề xuất cho hệ thống tìm kiếm ngữ nghĩa CSDLQg TNMT 5.3 XÂY DỰNG PHẦN MỀM TÌM KIẾM NGỮ NGHĨA DỰA TRÊN ONTOLOGY CHO CSDLQG VỀ TNMT Ontology Ontology sử dụng cho thử nghiệm hệ thống tìm kiếm ngữ nghĩa dựa ontology cho CSDLQg TNMT xây dựng theo phương pháp đề xuất chương cho miền tài nguyên môi trường bao gồm khái niệm chung miền tài nguyên môi trường tích hợp 02 ontology xây dựng cho hai lĩnh vực đo đạc đồ khí tượng thủy văn Tổng số khái niệm ontology tích hợp khoảng 111.150 khái niệm Cơ sở liệu Dữ liệu sử dụng cho hệ thống tìm kiếm ngữ nghĩa dựa ontology cho CSDLQg TNMT bao gồm liệu dạng văn bản, liệu dạng bảng, liệu không gian lưu trữ hệ thống sở liệu thuộc hệ thống Cơ sở liệu quốc gia tài nguyên môi trường Hệ thống sở liệu quốc 30 gia tài nguyên môi trường xây dựng dự án Chính phủ xây dựng CSDLQg TNMT Bộ Tài ngun Mơi trường chủ trì thực Kết thử nghiệm Sau trình triển khai, cài đặt chạy thử nghiệm, đồng thời thực việc so sánh với Phần mềm triển khai cho CSDLQg TNMT (NRESearch), đưa số đánh giá sau: - Phần mềm tìm kiếm ngữ nghĩa (VnNRESS) thiết kế, lập trình triển khai bảo đảm yêu cầu chức năng, phi chức xác định Thuyết minh đề tài - So sánh với Phần mềm tìm kiếm triển khai cho hệ thống CSDLQg TNMT (nredb.ciren.vn), phần mềm tìm kiếm ngữ nghĩa Đề tài cho kết tốt hơn, tập trung số vấn đề sau: + Gợi ý từ khóa tìm kiếm: thực việc gợi ý theo từ điển từ tiếng Việt, phần mềm NRESearch việc gợi ý từ khóa tìm kiếm chưa Ngồi ra, phần mềm VnNRESS có chức gợi ý từ khóa trường hợp người dùng gõ tiếng Việt không dấu + Xử lý tiếng Việt không dấu: phần mềm VnNRESS thực việc bỏ dấu tiếng Việt cho hầu hết từ tiếng Việt không dấu mà người dùng nhập vào, phần mềm NRESearch chưa có chức + Vấn đề tách từ xác định từ khóa: Đối với phần mềm NRESearch đơn giản việc tách chuỗi tìm kiếm người dùng nhập vào theo khoảng trắng (theo từ đơn) Trong đó, phần mềm VnNRESS thực việc tách theo từ có nghĩa từ điển, tách theo từ khóa lồng (ví dụ: “thành phố hồ chí minh” hiểu từ khóa “thành phố hồ chí minh”, “thành phố” “hồ chí minh”) Với việc tách thành chuỗi từ khóa có nghĩa trên, kết tìm kiếm phù hợp với yêu cầu cần tìm kiếm người dùng + Vấn đề loại bỏ từ dừng: Với từ điển từ dừng kế thừa từ cơng trình nghiên cứu trước đó, việc loại bỏ từ dừng (các từ có nghĩa) giúp cho kết tìm kiếm phù hợp lọc bớt kết khơng có có nghĩa + Vấn đề xếp kết tìm kiếm: Qua trình thử nghiệm với loạt 31 từ khóa tìm kiếm, phần mềm VnNRESS xếp thứ tự ưu tiên hiển thị kết tìm kiếm phù hợp với phần mềm NRESearch + Vấn đề xử lý toán tử tìm kiếm: Phần mềm VnNRESS hỗ trợ hầu hết tốn tử tìm kiếm cho độ xác phần mềm NRESearch + Vấn đề độ xác kết tìm kiếm: Qua thử nghiệm trên, phần mềm VnNRESS đưa danh sách kết phù hợp với yêu cầu tìm kiếm nội dung tìm kiếm người dùng Qua lọc, loại nhiều kết tìm kiếm khơng phù hợp hiển thị phần mềm NRESearch - Ngoài ra, phần mềm VnNRESS bổ sung số chức sau: + Hỗ trợ gợi ý nội dung tìm kiếm khác, phù hợp so với nội dung tìm kiếm người dùng nhập + Có chức nhận dạng thực thể dạng tên nội dung tìm kiếm người dùng qua việc sử dụng thông tin địa danh thơng tin đơn vị hành chính: tỉnh, huyện, xã + Hỗ trợ việc chuẩn xác hóa xác định từ khóa thơng qua mối liên quan giữ từ (ví dụ: tên địa danh thường liền với nhau; thông tin tỉnh/huyện/xã thường liền với nhau, …) + Hỗ trợ việc xác định thông tin địa danh, đưa câu trả lời xác tên, vị trí địa lý, vị trí đồ địa danh xuất câu tìm kiếm người dùng + Hỗ trợ việc tìm kiếm theo từ đồng nghĩa, từ liên quan (các khái niệm mức trên, mức ontology) - Về chất lượng phần mềm VnNRESS: Phần mềm Trung tâm Kiểm định sản phẩm CNTT Cục Công nghệ thông tin liệu tài nguyên môi trường kiểm thử, kiểm tra kỹ bảo đảm chức hoạt động xác, ổn định đạt yêu cầu chất lượng Về thời gian tìm kiếm: So sánh với phần mềm NRESearch, nhiều thời gian việc phân tích câu hỏi người dùng, xác định danh mục từ 32 khóa phù hợp (trên sở từ điển 110.000 từ thông tin địa danh, hành chính) thời gian thực tìm kiếm chấp nhận bảo đảm yêu cầu 33 KẾTLUẬN I Những kết luận án Luận án tham gia vào dòng nghiên cứu học ontology giới đạt ba đóng góp đề xuất quy trình xây dựng ontology cho miền tài ngun mơi trường hai mơ hình học ontology phục vụ cho nâng cấp, làm giàu ontology Thứ nhất, quy trình xây dựng ontology đề xuất bao gồm bảy bước giải pháp chia làm ba giai đoạn cho việc xây dựng ontology cho miền tài ngun mơi trường (trong có chứa miền khí hậu Việt Nam) Quy trình giải pháp vừa tổng hợp kết nghiên cứu luận án vừa cung cấp phương án thực thi kết nghiên cứu vào thực tiễn [NNVu2] [NNVu6] Thứ hai, Mơ hình học ontology sử dụng phương pháp kết hợp học máy Maximum Entropy Beam Search nhận dạng thực thể miền [NNVu1] cho kết tốt khơng với tốn nhận dạng thực thể thơng thường mà cịn nhận dạng thực thể lồng Thứ 3, Mơ hình học sâu suốt đời mức ký tự kết hợp phương pháp học sâu trường điều kiện ngẫu nhiên với đặc trưng tiền tố (đặc trưng học suốt đời) để nhận dạng thực thể qua áp dụng trích xuất khái niệm, quan hệ, thể từ văn miền phục vụ nâng cấp, mở rộng ontology cần xây dựng cho miền [NNVu4][NNVu5] Ngoài ra, phương diện ứng dụng, luận án đề xuất hai mơ hình kiến trúc hệ thống tìm kiếm ngữ nghĩa dựa ontology hệ thống hỏi đáp dựa ontology tiến hành xây dựng hệ thống thử nghiệm Hệ thống tìm kiếm ngữ nghĩa dựa ontology cho CSDLQg tài nguyên môi trường Hệ thống hỏi đáp pháp luật dựa ontology ngành tài nguyên môi trường triển khai vận hành, mang lại nhiều hiệu quản lý nghiệp vụ cho Bộ Tài nguyên Môi trường [NNVu3] Đồng thời, nhằm minh chứng cho tiềm ứng dụng thực tiễn mơ hình đề xuất, luận án thực thi thực nghiệm để kiểm chứng tính hữu dụng thuật tốn mơ hình luận án đề xuất Kết thực nghiệm cho 34 thấy kết nghiên cứu từ luận án có tiềm ứng dụng thực tiễn cao II Hạn chế luận án Trong trình triển khai mơ hình, số nghiên cứu luận án chưa tiến hành cách công phu, thấu rút kết luận bổ ích, cụ thể là: Một là, miền ứng dụng áp dụng để xây dựng ontology miền cho miền tài nguyên môi trường Miền tài nguyên môi trường miền có phạm vi rộng bao gồm lĩnh vực, hệ thống khái niệm phức tạp tồn nhiều khái niệm dạng tiếng Anh cịn có nhiều cách hiểu khác nhau, có số khái niệm, thuật ngữ hiểu sở tham khảo từ điển thuật ngữ chuyên ngành số chuyên gia miền nên có vài khái niệm chưa phản ánh xác 100% chuyển sang tiếng Việt Hai là, sản phẩm luận án ontology miền tài ngun mơi trường, cần phải có thêm thời gian để chuyên gia lĩnh vực ngành tài nguyên môi trường, chỉnh sửa, cập nhật để nâng cao chất lượng độ tin cậy ontology miền Ba là, điều quan trọng nhất, luận án chưa tiến hành phân tích đủ sâu kỹ thuật nâng cấp, làm giàu ontology kỹ thuật đề xuất luận án tập trung chủ yếu vào số kỹ thuật dựa xử lý ngôn ngữ tự nhiên thống kê, kỹ thuật nâng cấp ontology dựa logic chưa thực III Định hướng nghiên cứu Trong thời gian tiếp theo, nghiên cứu sinh tiếp tục nghiên cứu hướng giải cho hạn chế tồn luận án tiếp tục triển khai đề xuất để hoàn thiện kỹ thuật nâng cấp, làm giàu ontology Một là, nghiên cứu, tìm kiếm, chọn lựa thêm ontology miền tài nguyên môi trường cho lĩnh vực: đất đai; tài ngun nước; tài ngun khống sản, địa chất; mơi trường; khí tượng thủy văn; biến đổi khí hậu; đo đạc đồ; quản lý tổng hợp tài nguyên bảo vệ môi trường biển hải đảo viễn thám có chất lượng cao giới để tích hợp, nâng cấp với ontology có 35 Hai là,nghiên cứu kỹ thuật nâng cấp ontology dựa logic để có cải tiến, thử nghiệm áp dụng cho tốn xây dựng hồn thiện ontology cho miền tài nguyên môi trường Ba là, tiếp tục hướng nghiên cứu sử dụng ontology miền tài nguyên môi trường nhằm nâng cao hiệu tốn như: tìm kiếm thơng tin, hỏi đáp tự động, khai phá văn bản, …phục vụ công tác nghiệp vụ công tác quản lý Bộ Tài nguyên Mơi trường 36 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN [NNVu1] Cam-Van Thi Nguyen, Thai-Son Pham, Thi-Hong Vuong, Ngoc Vu Nguyen, Mai-Vu Tran (2016) DSKTLAB-NER: Nested Named Entity Recognition in Vietnamese Text VLSP 2016 [NNVu2] Nguyễn Ngọc Vũ (2017) Xây dựng ontology tài nguyên môi trường phục vụ tích hợp liệu tìm kiếm ngữ nghĩa Tạp chí Tài ngun Mơi trường, 30-32 (2017) [NNVu3] Ngoc-Vu Nguyen, Thi-Lan Nguyen, Cam-Van Nguyen Thi, Mai-Vu Tran, Quang-Thuy Ha (2019) A Character-Level Deep Lifelong Learning Model for Named Entity Recognition in Vietnamese Text ACIIDS (1) 2019: 90-102 (Scopus, DBLP) [NNVu4] Ngoc-Vu Nguyen, Hong-Son Bui, Quang-Thuy Ha (2019) Ontology-Based Semantic Search for National Database of Natural Resources and Environment INISCOM 2019: 155-164 (Scopus, DBLP) [NNVu5] Ngoc-Vu Nguyen, Thi-Lan Nguyen, Cam-Van Nguyen Thi, Mai-Vu Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2019) Improving Named Entity Recognition in Vietnamese Texts by a Character-Level Deep Lifelong Learning Model Vietnam J Computer Science 6(4): 471487 (2019) (Scopus, DBLP) [NNVu6] Ngoc-Vu Nguyen, Hai-Chau Nguyen, Quang-Thuy Ha Developing a Domain Ontology for Natural Resources and Environment The 6th NAFOSTED Conference on Information and Computer Science (NICS), in press (Scopus, DBLP) 37 TÀI LIỆU THAM KHẢO [1] R Arp, B Smith and A D Spear, Building Ontologies with Basic Formal Ontology, The MIT Press, 2015 [2] J Cullen and A Bryman, "The knowledge acquisition bottleneck: time for reassessment?," Expert Systems, vol Vol No 3, pp 216-225, 1988 [3] M N Asim, M Wasim, M U G Khan, W Mahmood and H M Abbasi, "A survey of ontology learning techniques and applications," Database, vol 2018, p bay101, 2018 [4] Natalya F Noy, Ontology Development 101: A Guide to Creating Your First Ontology, Stanford University, 2001 [5] S Hochreiter and J Schmidhuber, "Long Short-Term Memory," Neural Computation, vol 9, no 8, pp 1735-1780, 1997 [6] M Schuster and K K Paliwal, "Bidirectional recurrent neural networks," IEEE Trans Signal Processing, vol 45, no 11, pp 2673-2681, 1997 [7] T Jo, "Taxonomy Generation," in Text Mining, 2018, pp 319-340 38 ... dựng ontology, làm giàu ontology cần phương pháp bán tụ động dựa kỹ thuật xử lý ngôn ngữ, kỹ thuật thống kê kỹ thuật logic tạo động lực nghiên cứu luận án ? ?Kỹ thuật nâng cấp ontology khí hậu việt. .. ontology khí hậu việt nam dựa nguồn tài nguyên Web? ?? Bố cục luận án gồm phần mở đầu năm chương nội dung, phần kết luận danh mục tài liệu tham khảo Khái quát ontology, kỹ thuật làm giàu ontology CHƯƠNG... CHUNG VỀ KỸ THUẬT LÀM GIÀU ONTOLOGY MIỀN Xây dựng ontology xuất phát cho miền tài nguyên môi trường Kỹ thuật làm giàu thể ontology miền Kỹ thuật sinh taxonomy cho ontology miền Ứng dụng ontology

Ngày đăng: 16/09/2021, 15:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN