Phương pháp tìm cặp không đồng nghĩa tự động áp dụng cho bài toán đối sánh ontology

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THƯỜNG PHƯƠNG PHÁP TÌM CẶP KHƠNG ĐỒNG NGHĨA TỰ ĐỘNG ÁP DỤNG CHO BÀI TOÁN ĐỐI SÁNH ONTOLOGY Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thơng tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Phạm Hồng Thái LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới TS Phạm Hồng Thái, người tận tình dạy, hướng dẫn giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn sâu sắc tới Ths Trần Mai Vũ đóng góp ý kiến q báu giúp tơi hồn thành tốt luận văn Với kiến thức có cơng trình tìm hiểu nghiên cứu lĩnh vực khai phá liệu thầy giúp hiểu rõ nhiều vấn đề trình thực đề tài Tôi xin cảm ơn Thầy, Cô giáo Khoa Cơng nghệ thơng tin, Phịng Đào tạo Trường Đại học Công nghệ - ĐHQGHN giảng dạy truyền thụ cho kiến thức quý báu suốt thời gian học tập nghiên cứu trường Tơi xin tỏ lịng biết ơn động viên giúp đỡ gia đình bạn bè, người quan tâm sát cánh bên nguồn động viên khích lệ, tạo cho tơi có điều kiện tốt suốt trình học tập Tuy cố gắng thời gian trình độ có hạn nên chắn luận văn cịn thiếu sót hạn chế định Kính mong nhận góp ý Thầy Cơ bạn để luận văn hồn thiện Tôi xin chân thành cảm ơn! Hà nội, tháng 12 năm 2014 Đặng Thị Thường LỜI CAM ĐOAN Tơi xin cam đoan luận văn cơng trình nghiên cứu riêng Tất tài liệu tham khảo rõ trích dẫn danh mục tài liệu tham khảo Các kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả Đặng Thị Thường MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC KÍ TỰ VIẾT TẮT DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU Chương GIỚI THIỆU VỀ ONTOLOGY VÀ KHÁI QUÁT BÀI TOÁN ĐỐI SÁNH 1.1 Giới thiệu Ontology 1.2 Giới thiệu số Ontology ứng dụng thực tế 10 1.2.1 Ontology cho hệ thống Du lịch 10 1.2.2 Ontology cho khái niệm y sinh 10 1.2.3 Ontology quan hệ từ vựng thực thể 10 1.3 Định nghĩa toán đối sánh 11 1.3.1 Định Nghĩa[15] 11 1.3.2 Ví dụ tốn đối sánh 12 1.4 Lược đồ bước giải toán đối sánh 13 1.5 Phương pháp đánh giá .15 1.5.1 Kịch đánh giá 15 1.5.2 Biện pháp đánh giá 16 Chương MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI BÀI TOÁN ĐỐI SÁNH ONTOLOGY 18 2.1 Hướng tiếp cận dựa mức đối tượng (element-level) 18 2.1.1 Phương pháp dựa phân tích chuỗi (String-based method) 19 2.1.2 Phương pháp dựa ngôn ngữ 22 2.2 Hướng tiếp cận dựa mức cấu trúc (structure-level) 24 2.2.1 Kỹ thuật dựa (Taxonomy-based techniques) .24 2.2.2 Kỹ thuật dựa đồ thị .24 2.3 Giới thiệu số hệ thống đối sánh ontology có 25 2.3.1 H-Match .25 2.3.2 S-Match 26 2.3.3 Cupid 27 Chương MƠ HÌNH GIẢI QUYẾT BÀI TOÁN ĐỐI SÁNH ONTOLOGY DỰA TRÊN PHƯƠNG PHÁP PHÂN LỚP 28 3.1 Mô hình giải tốn .28 3.1.1 Miền liệu .30 3.1.2 Phương pháp phát liệu âm sử dụng đồ thị khoảng cách .32 3.2 Thuật toán k-NN (Nearest Neighbour) 33 3.3 Thuật toán SVM (Support Vector Machines) 34 3.3.1 Giới thiệu 34 3.3.2 Thuật toán SVM 35 3.4 Phương pháp hồi qui logistic .36 3.5 Độ đo đánh giá mơ hình phân lớp .37 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 39 4.1 Môi trường thực nghiệm thành phần cài đặt 39 4.1.1 Môi trường thực nghiệm 39 4.1.2 Thành phần cài đặt .39 4.2 Dữ liệu thực nghiệm 40 4.3 Tập đặc trưng phương pháp đánh giá mơ hình đề xuất 42 4.3.1 Tập đặc trưng .42 4.3.2 Phương pháp đánh giá mơ hình đề xuất .43 4.4 Thực nghiệm đánh giá hiệu thay đổi tham số thành phần tìm liệu âm tự động 43 4.5 Thực nghiệm đánh giá hiệu mơ hình phương pháp khác 44 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 DANH MỤC KÍ TỰ VIẾT TẮT Dữ Liệu Description logics GUI Graphical User Interface API Application Program Interface CLI Command Line Interface OM Ontology Matching OWL Web Ontology Language TFIDF Term frequency inverse document frequency XML Extensible markup Language DANH MỤC BẢNG Bảng 1.1 Bảng kết đối sánh 12 Bảng 4.1 Môi trường thực nghiệm 39 Bảng 4.2 Các gói chức cài đặt 39 Bảng 4.3 Các thư viện nguồn mở rộng 39 Bảng 4.4 Thống kê số lượng thuật ngữ HPO MP 40 Bảng 4.5 Đánh giá sử dụng kiểm thử chéo 44 Bảng 4.6 Kết thực nghiệm so sánh tìm liệu tự động thủ cơng 45 DANH MỤC HÌNH Hình 1.1 Ví dụ Ontology .9 Hình 1.2 Đối sánh Ontology .11 Hình 1.3 Ví dụ đối sánh ontology 12 Hình 1.4 Bước thiết lập tốn đối sánh ontology 13 Hình 2.1 Quá trình đối sánh H-Match .25 Hình 2.2 Kiến trúc S-Match 26 Hình 2.3 Cấu trúc Cupid .27 Hình 3.1 Mơ hình đối sánh Ontology 29 Hình 3.2 Những thuật ngữ hai Ontology 32 Hình 3.3 Phương pháp sinh cặp khơng đồng nghĩa 33 Hình 3.4 Phân lớp nhị phân sử dụng k- NN 34 Hình 3.5 Phân lớp nhị phân sử dụng SVM 35 Hình 3.6 Biểu diễn siêu phẳng lề cực đại cho phân lớp SVM nhị phân 36 Hình 4.1 Định dạng thuật ngữ file Obo .40 Hình 4.2 Định dạng file Obo chứa cặp thuật ngữ đồng nghĩa HPO .41 MỞ ĐẦU Đối sánh ontology (Ontology matching) toán quan trọng lĩnh vực khai phá web nói chung lĩnh vực web ngữ nghĩa nói riêng Kết khả quan việc giải toán hỗ trợ tốt cho việc mở rộng hệ thống ontology sẵn có Bài toán nhận nhiều quan tâm cộng đồng nghiên cứu, hội nghị lớn Web ngữ nghĩa như: WWW, ISWC, SemWeb.Pro,… xuất phiên trình bày tốn đối sánh ontology Bên cạnh đấy, có nhiều ứng dụng hay kho liệu lớn áp dụng toán như: Freebase, Yago, SMatch, H-Match, Cupid … Mặc dù nhận nhiều quan tâm cộng đồng nghiên cứu ứng dụng, toán đối sánh ontology toán mở với nhiều thách thức đặt Một thách thức lớn việc áp dụng phương pháp tự động để giảm chi phí q trình đối sánh Từ vấn đề nêu trên, cho thấy việc tìm phương pháp tìm cặp đồng nghĩa áp dụng cho tốn đối sánh ontology có đầy đủ sở khoa học thực tiễn Nội dung đề tài tập trung vào phương pháp đối sánh ontology dựa vào độ tương tự hai xâu nói chung phương pháp đối sánh ontology sử dụng phương pháp học máy nói riêng Bên cạnh đấy, luận văn lựa chọn miền liệu cụ thể đưa tìm hiểu, đánh giá đặc trưng miền liệu lựa chọn Dựa phương pháp đặc trưng tìm hiểu được, luận văn xây dựng mơ hình giải tốn áp dụng cho miền liệu Phần cuối đề tài kết thực nghiệm mơ hình ý kiến đánh giá Nội dung luận văn gồm chương: Chương 1: Giới thiệu Ontology toán đối sánh Chương 2: Một số hướng tiếp cận giải toán đối sánh ontology Chương 3: Mơ hình giải tốn đối sánh onology dựa toán phân lớp thống kê Chương 4: Thực nghiệm đánh giá Chương GIỚI THIỆU VỀ ONTOLOGY VÀ KHÁI QUÁT BÀI TOÁN ĐỐI SÁNH 1.1 Giới thiệu Ontology Ngày nay, thuật ngữ “Ontology” trở nên phổ biến nhiều miền lĩnh vực đời sống Trong lĩnh vực ngành trí tuệ nhân tạo, Ontology mơ tả khái niệm quan hệ khái niệm nhằm mục đích thể góc nhìn giới Trong miền ứng dụng khác khoa học, Ontology bao gồm tập từ vựng hay tài nguyên miền lĩnh vực cụ thể, nhờ nhà nghiên cứu lưu trữ, quản lí trao đổi tri thức cho theo cách tiện lợi [4] Hiện tồn nhiều khái niệm ontology, có nhiều khái niệm mâu thuẫn với khái niệm, luận văn giới thiệu định nghĩa mang tính khái quát sử dụng phổ biến Kincho H Law đưa sau: “Ontology biểu tập khái niệm (đối tượng), miền cụ thể mối quan hệ khái niệm này” [14] Hình 1.1 Ví dụ Ontology Một Ontology có bốn thành phần chính: cá thể (individuals), lớp (classes), thuộc tính (attributes) mối quan hệ (relationships) Với cấu trúc này, Ontology sử dụng rộng rãi mơ hình phân lớp thơng tin việc phát triển thông tin Web 35 Ý tưởng thuật tốn: Là chuyển tập mẫu từ khơng gian biểu diễn Rn sang khơng gian Rd có số chiều lớn Trong khơng gian Rd, tìm siêu phẳng tối ưu để phân hoạch tập mẫu dựa phân lớp chúng, có nghĩa tìm miền phân bố lớp không gian Rn để từ xác định phân lớp mẫu cần nhận dạng 3.3.2 Thuật tốn SVM Tính chất bật SVM đồng thời cực tiểu lỗi phân lớp cực đại khoảng cách lề lớp Giả sử có số điểm liệu thuộc hai lớp, mục tiêu xác định xem liệu thêm vào thuộc lớp đồng thời coi điểm liệu thêm vào vector p chiều ta muốn biết liệu có tách điểm siêu phẳng p-1 chiều hay khơng (được gọi phân loại tuyến tính) Xem liệu đầu vào hai tập vector n chiều, SVM xây dựng siêu phẳng riêng biệt khơng gian n chiều cho tối đa hóa biên lề hai tập liệu Để tính lề, hai siêu phẳng song song xây dựng, nằm phía siêu phẳng phân biệt chúng đẩy phía hai tập liệu Thực tế, phân biệt tốt thu siêu phẳng có khoảng cách lớn đến điểm lân cận hai lớp, lề tốt sai số tổng qt hóa phận phân lớp tốt Trong hình 3.5 H2 siêu phẳng tốt Hình 3.5 Phân lớp nhị phân sử dụng SVM Với phân lớp nhị phân Cho tập liệu học gồm n liệu gán nhãn D={(x1, y1), (x1, y1), …, (xn, yn)} với yi  {-1, 1} số nguyên xác định lớp xi Khi xi văn biểu diễn dạng vector thực gồm d chiều Bộ phân lớp tuyến tính (mơ hình phân lớp) xác định thơng qua siêu phẳng có dạng: 36 f(x) = w.x - b = Trong đó: w vector pháp tuyến siêu phẳng b đóng vai trị tham số mơ hình Bộ phân lớp nhị phân : h: Rd  { 0, 1} xác định thơng qua dấu f(x) h(x) Để tìm siêu phẳng phân cách có lề lớn nhất, xây dựng vector hỗ trợ siêu phẳng song song với siêu phẳng phân cách gần vector hỗ trợ nhất, hàm: w.x – b = w.x – b = -1 Khoảng cách siêu phẳng cần phải cực tiểu hóa ||w|| để đảm bảo với i ta có: w.x – b > cho lớp thứ w.x – b 0.5) tương tự đặc trưng bigram tính: (similarity) = với g1, g2 bigram chuỗi  Tất ký tự xâu ngắn bao gồm xâu dài với thứ tự Trong giai đoạn ước lượng, cặp không qua trình lọc giá trị tương tự gán Mặc dù tiến trình lọc cắt giảm số lượng mẫu training nhiên chi phí cho việc thực training cao Số lượng mẫu huấn luyện cặp khơng đồng nghĩa cao nhiều so với cặp đồng nghĩa thấy vài nghiên cứu sơ 3.5 Độ đo đánh giá mơ hình phân lớp Sau xây dựng mơ hình giải tốn phân lớp, đưa câu hỏi làm để đánh giá hiệu mơ hình phân lớp sử dụng độ đo để đánh giá làm để ước lượng tính đáng tin cậy Như giới thiệu 38 có nhiều độ đo sử dụng để đánh giá hiệu mơ hình phân lớp, số độ đo hiệu việc đánh giá phân lớp nhị phân độ xác P , độ hồi tưởng R độ đo F Ma trận nhầm lẫn [2]: với giá trị thực: P dương, N âm giá trị qua phân lớp: T đúng, F sai  TP số ví dụ dương thuật toán xác định dương (T)  TN số ví dụ âm thuật toán xác định âm (T)  FP số ví dụ dương mà thuật tốn xác định sai giá trị thành âm (F)  FN số ví dụ âm mà thuật tốn xác định sai giá trị thành dương (F) Lớp dự báo Lớp thực Lớp = P Lớp = N Lớp = P TP FP Lớp = N FN TN Với độ xác xác định số ví dụ dương chia cho tổng tất giá trị dự báo dương sau: P TP (1) TP  FN Độ hồi tưởng ρ xác định theo công thức sau: R TP (2) TP  FP Độ hồi tưởng tỉ số số ví dụ phân lớp dương tổng số ví dụ dương thực tế Nghĩa phần trăm số ví dụ dương mà phân lớp xác định Ngoài hai độ đo trên, độ đo F sử dụng để đánh giá kết phân lớp, gồm có độ đo F tính theo cơng thức sau: F  2PR (3) R  P Với giá trị R P xác định theo hai công thức (1) (2) 39 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm thành phần cài đặt 4.1.1 Môi trường thực nghiệm Bộ xử lý Intel® Core™ i5-3317U CPU @ 1.7GHz RAM 4.00 GB Hệ điều hành Microsoft Windows 64bit Công cụ lập trình Java JDK & Eclipse 4.4.1 & Maven 3.2.3 Bảng 4.1 Môi trường thực nghiệm 4.1.2 Thành phần cài đặt Dựa mơ hình đề xuất luận văn xây dựng thành phần thực nghiệm dựa ngơn ngữ lập trình Java Danh sách thành phần thư viện nguồn mở sử dụng mô tả bảng Package Chức edu.ontology Module xử lý ontology edu.findneg Module tìm liệu âm edu.knn Module phân lớp liệu phương pháp kNN edu.liblinear Module phân lớp liệu hồi quy logic SVM edu.distance Module độ đo khoảng cách edu.experiments Module thực thực nghiệm Bảng 4.2 Các gói chức cài đặt Thư viện Chức Địa OBO-Edit Phân tích cấu trúc Ontology dạng OBO Simmetrics Các độ đo khoảng cách Euclidean, https://github.com/Simmetrics/si Cosine,… mmetrics Liblinear Thư viện phương pháp phân lớp hồi http://liblinear.bwaldvogel.de/ quy logic SVM http://oboedit.org/ Bảng 4.3 Các thư viện nguồn mở rộng 40 4.2 Dữ liệu thực nghiệm  Các ontology Trong thực nghiệm để đánh giá mơ hình đề xuất luận văn sử dụng miền liệu ontology thực thể kiểu hình, cụ thể ontology HPO (Human phenotype ontology) MP (Mammalian phenotype) Dưới số kết thống kê ontology HPO MP Số lượng thuật ngữ kiểu hình 900 800 Số lượng thuật ngữ đồng nghĩa 15.800 23.700 Độ sâu 15 15 Số lớn nút cha 34 Số nút trung bình 3 Bảng 4.4 Thống kê số lượng thuật ngữ HPO MP Qua số liệu thống kê ta thấy ontology tương quan mặt cấu trúc Các thuật ngữ lưu dạng file obo biểu theo thuật ngữ [Term] với thông tin liên quan lưu trữ “tag” id, name (tên đầy đủ), is_a (trỏ đến mức cha thuật ngữ),… Để truy xuất xử lý file ontology luận văn sử dụng công cụ Obo Edit (http://oboedit.org/) phát triển nhóm nghiên cứu y sinh đại học Berkeley, Mỹ [Term] id: HP:0000188 name: Short upper lip alt_id: HP:0200087 def: "`Decreased width` (PATO:0000599) of the `upper lip` (FMA:59817)." [HPO:probinson] xref: UMLS:C1848977 "Short upper lip" is_a: HP:0000177 ! Abnormality of upper lip Hình 4.1 Định dạng thuật ngữ file Obo 41  Dữ liệu cặp thuật ngữ đồng nghĩa (dữ liệu dương) Để xây dựng tập liệu huấn luyện, luận văn sử dụng tập cặp thuật ngữ đồng nghĩa ontology HPO MP cung cấp người phát triển ontology HPO tạo Tập liệu gồm 2511 cặp thuật ngữ đồng nghĩa (08/10/2014) cung cấp địa chỉ: http://compbio.charite.de/hudson/job/hpheo/ws/hp-mp/mp_hp-align-equiv.obo File lưu trữ định dạng Obo có cấu trúc sau: Hình 4.2 Định dạng file Obo chứa cặp thuật ngữ đồng nghĩa HPO  Dữ liệu cặp thuật ngữ không đồng nghĩa (dữ liệu âm) Để đánh giá xác hiệu mơ hình đề xuất, luận văn sử dụng thêm liệu cặp thuật ngữ không đồng nghĩa Tập cặp liệu khơng đồng nghĩa cung cấp nhóm sinh viên NCKH phát triển [1] Tập liệu sinh tự động dựa số luật heuristic (dựa kinh nghiệm) gồm 17000 cặp thuật ngữ xem không đồng nghĩa (Tập liệu TBQ 2014)[1]  Dữ liệu chưa gán nhãn Mơ hình đề xuất thực việc tìm cặp thuật ngữ khơng đồng nghĩa tự động từ cặp thuật ngữ chưa có nhãn (chưa biết đồng nghĩa hay không) Để xây dựng tập liệu chưa có nhãn luận văn tiến hành ghép cặp thuật ngữ ontology với (hơn 87 triệu cặp) lấy ngẫu nhiên 100.000 cặp chưa gán nhãn, cặp không trùng với hai tập liệu dương âm 42 4.3 Tập đặc trưng phương pháp đánh giá mơ hình đề xuất 4.3.1 Tập đặc trưng Sử dụng số đặc trưng để mô tả tốt đặc điểm cặp chuỗi Các đặc trưng nắm bắt tương tự nhiều biến thể (ví dụ chữ viết, cú pháp từ bổ nghĩa) trích giai đoạn học mơ hình Các đặc trưng sử dụng mơ hình phân lớp dựa đặc trưng khảo sát tài liệu [1] gồm có: Tên rút gọn (Acronym): Xác điịnh đặc trưng mà suy luận chuỗi tên rút gọn chuỗi khác Đầu tiên tách thuật ngữ lấy chữ đầu từ thuật ngữ sau so sánh tên rút gọn thuật ngữ với nhau, ví dụ tên rút gọn thuật ngữ “Interleukin-2” “IL-2” Nếu tên rút gọn thuật ngữ mà giống giá trị đặc trưng “acronym:true”, ngược lại sai “acronym:false” Độ dài chuỗi (Length): Độ dài chuỗi ảnh hưởng tới việc đối sánh chuỗi ký tự Chuỗi dài độ so khớp nhiều nhiễu Có hai đặc trưng với độ dài chuỗi: “length:long” với chuỗi có độ dài lớn (tokens), “length:short” với chuỗi lại Cụm từ đồng nghĩa (Synonym phrases): Mỗi thuật ngữ thường có số cụm từ đồng nghĩa liệt kê thông qua tag “synonym” So sánh cặp từ đồng nghĩa hai thuật ngữ giúp nâng cao đặc trưng ngữ nghĩa Giá trị đặc trưng nhiều (lớn 2) “syns:high”, bình thường “syns:medium”, khơng có “syns:none” Xâu chung (CommonToken): Ngoài đặc trưng miêu tả sử dụng đặc trưng xâu chung Đầu tiên tách thuật ngữ kí tự trắng vài kí tự xác định trước (‘,’, ’/’, ‘-‘…) Duyệt qua cặp thuật ngữ, đưa từ giống thuật ngữ vào tập token phổ biến, ví dụ ta có token phổ biến “GATA”, “binding” , “5” từ cặp thuật ngữ “GATA binding protein 5” “GATA binding factor 5” Xâu khác (DifferenceToken): Tương tự với Xâu chung sử dụng khác đối xứng hai biểu thể đặc trưng, ta đưa từ khác cặp thuật ngữ đưa vào tập token khác biệt, ví dụ “protein” “factor” token khác biệt “GATA binding protein 5” “GATA binding factor 5” SoftTFIDF[21]: Một lợi ích sử dụng học máy kết hợp thông tin từ độ đo tương tự khác Độ đo định nghĩa với TF (term frequency) tần suất xuất từ tập thuật ngữ IDF(inverse document frequency) tần suất xuất thuật ngữ có chứa từ Nếu giá 43 trị softTFIDF lớn ngưỡng đưa giá trị đặc trưng cao “high” ngược lại thấp “low” 4.3.2 Phương pháp đánh giá mô hình đề xuất Các thực nghiệm để đánh giá mơ hình đề xuất đánh giá thơng qua phương pháp kiểm thử chéo 10 folds (10 folds cross validation) Phương pháp phương pháp thường sử dụng việc kiểm thử mơ hình thống kê, cách thức thực việc đánh giá thực nghiệm mơ hình đề xuất sau:  Dữ liệu mô tả mục 4.2: o Dữ liệu cặp đồng nghĩa (dữ liệu dương): 2511 cặp (ĐN) o Dữ liệu không đồng nghĩa (dữ liệu âm): 17.000 cặp (KĐN) o Dữ liệu cặp chưa gán nhãn: 100.000 cặp (CGN)  Cách thực hiện: Chia liệu dương thành 10 phần, thực 10 lần lần lấy phần (2250 ĐN – 15.300 KĐN) làm liệu huấn luyện kiểm tra với phần lại (251 ĐN – 1.700 KĐN) o Bước 1: Ghép 15300 KĐN vào 100.000 liệu CGN = 115.300 liệu CGN o Bước 2: Sử dụng 2250 ĐN để tìm tự động liệu KĐN từ 115.300 CGN o Bước 3: Dùng 2250 ĐN liệu KĐN tìm làm tập học o Bước 4: Sinh mơ hình phân lớp từ liệu học kiểm tra với phần liệu lại (sử dụng P, R, F làm độ đo đánh giá) 4.4 Thực nghiệm đánh giá hiệu thay đổi tham số thành phần tìm liệu âm tự động Như mô tả chương mục tiêu mơ hình đề xuất tìm cặp thuật ngữ không đồng nghĩa (dữ liệu âm) cách tự động để đưa vào tập liệu huấn luyện mơ hình phân lớp Trong mơ hình đề xuất xuất số tham số đưa trình thực nghiệm, để tìm tham số tối ưu cần thực thử nghiệm thay đổi thử giá trị tham số Các tham số mô tả đây:  T ngưỡng khoảng cách Lớp: T thử nghiệm với giá trị [0.2, 0.3, 0.4] Khoảng cách sử dụng độ đo Euclidean  Ngưỡng D xác định từ Lớp liệu âm: Ngưỡng D thử nghiệm với giá trị 5, 10, 15 44 Để đánh giá kết thay đổi tham số thực nghiệm luận văn sử dụng kiểm thử chéo 10 folds (10 folds cross validation) đánh giá thông qua độ đo P (chính xác), R (hồi tưởng), F mô tả mục 3.5 Phương pháp phân lớp sử dụng kNN với k=3 Kết thực nghiệm thể bảng ĐỒNG NGHĨA T D P R F 0.2 68.15% 58.14% 62.75% 0.3 73.24% 63.15% 67.82% 0.4 73.59% 61.27% 66.87% 0.2 10 82.13% 68.24% 74.54% 0.3 10 85.06% 71.39% 77.63% 0.4 10 84.89% 70.17% 76.83% 0.2 15 87.68% 52.88% 65.97% 0.3 15 87.14% 54.24% 66.86% 0.4 15 89.35% 49.16% 63.42% Bảng 4.5 Đánh giá sử dụng kiểm thử chéo Nhận xét:  Chúng ta thấy D tăng độ xác lớn, nhiên độ hồi tưởng lại thấp số lượng ghép nhầm cao  Tham số T quy đinh ngưỡng khoảng cách lớp cho kết không đồng  Kết tốt T = 0.3 D = 10 4.5 Thực nghiệm đánh giá hiệu mơ hình phương pháp khác Trong thực nghiệm tiến hành đánh giá việc tìm liệu âm (các cặp khơng đồng nghĩa) tự động thơng qua mơ hình đề xuất việc tìm cặp liệu âm số luật heuristic (luật kinh nghiệm) nhóm sinh viên NCKH [1] (Tập TBQ) Bên cạnh chúng tơi tiến hành so sánh kết thông qua việc sử dụng phương pháp phân lớp khác 45 Cách thức thực thực nghiệm tập liệu TBQ tương tự cách mô tả mục 4.3.2, khác bước thay dùng liệu âm tìm để đưa vào liệu học sử dụng 15.300 cặp KĐN làm liệu âm Đồng nghĩa Thứ tự Tập liệu âm Giải thuật P R F TBQ 2014 KNN 81.16% 68.13% 74.08% TBQ 2014 SVM 81.07% 68.72% 74.40% TBQ 2014 83.74% 70.25% 76.41% Tìm tự động (T=0.3;D=10) KNN 85.06% 71.39% 77.63% Tìm tự động (T=0.3;D=10) SVM 84.36% 71.84% 77.60% Tìm tự động (T=0.3;D=10) 87.29% 71.65% 78.70% LR LR Bảng 4.6 Kết thực nghiệm so sánh tìm liệu tự động thủ cơng Nhận xét:  Phương pháp tìm tự động liệu âm dựa mơ hình đề xuất cho kết tốt phương pháp tìm luật kinh nghiệm độ đo P, R, F  Mơ hình học sử dụng phương pháp phân lớp cho kết tốt cách thức tìm kiếm liệu âm 46 KẾT LUẬN Các kết Trong trình tìm hiểu thực đề tài, luận văn đạt số kết sau:  Tìm hiểu tốn Đối sánh ontology (Ontology Matching) đưa giải pháp giải toán đối sánh sử dụng hướng tiếp cận dựa học máy việc áp dụng toán phân lớp việc tìm cặp đồng nghĩa hai Ontology  Trong toán phân lớp áp dụng miền thực thể kiểu hình người HPO MPO động vật có vú nhiên việc thiếu liệu cặp không đồng nghĩa luận văn đưa mơ hình tìm liệu không đồng nghĩa tự động sử dụng phương pháp xây dựng đồ thị khoảng cách theo độ sâu giúp giảm chi phí cơng sức  Qua trình thực thực nghiệm cho kết khả quan phương pháp đề xuất đạt kết cao 78.7% độ đo F 47 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Trần Thắng Bình, Ngơ Mạnh Quyền, Chu Thị Phương Thảo (2014), Tích hợp Ontology y sinh sử dụng phương pháp học tương tự hai chuỗi, Cơng [2] trình dự thi giải thưởng “ Sinh viên nghiên cứu khoa học năm 2014”, ĐHCN – ĐHQGHN Phan Xuân Hiếu, Hà Quang Thuy, Doan S., Giáo trình khai phá liệu web [3] (2009) Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012), Giáo trình Khai [4] Phá Dữ Liệu Web, Nhà Xuất Đại Học Quốc Gia Hà Nội, Tr 227- 266 Nguyễn Minh Tuấn (2012), Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt lĩnh vực y tế, Khóa luận tốt nghiệp đại học qui, ĐHCNĐHQGHN Tiếng Anh [5] Castano, S., Ferrara, A., Montanelli, S., (2005), Dynamic knowledge discovery in open, distributed and multi-ontology systems: techniques and applications In: Taniar, D., Rahayu, J (eds.) Web Se-mantics and Ontology, pp 226–258 Idea Group, Hershey, Chap page 207 [6] Castano S., Ferrara A., Montanelli S., (2006), Matching ontologies in open networked systems: tech-niques and applications J Data Semant.V , 25–63, (page 207) [7] Cohen W., Ravikumar, P., Fienberg, S., (2003b), A comparison of string metrics for matching names and records In: Proc International Workshop on Data Cleaning and Object Consolidation at the 9th International Conference on Knowledge Discovery and Data Mining (KDD), Washington, DC, USA, (pp 88, 96) [8] Collier N, Tran MV, Ha QT, Oellrich A, Dietrich RS, Learing to Recognize Phenotype Candidates in the auto Immune Literature Using SVM Re-ranking [9] Cortes C., Vapnik V., “ Support vector networks” Machine Learning, Volume 20(3), pages 273-297 [10] Do, Hong-Hai and Rahm, Erhard, (2002) COMA - a system for flexible combination of schema matching approaches In Bernstein et al (2002), pages 610-621 48 [11] Giunchiglia F., Shvaiko P., Yatskevich M., (2004), S-Match: an algorithm and an implementation of semantic matching In: Proc 1st European Semantic Web Symposium (ESWS), Hersounisous,Greece Lecture Notes in Computer Science, vol 3053, pages 61- 75,101,214 [12] Giunchiglia F., Shvaiko P., (2003), Semantic matching Knowl Eng Rev 18 (3), 265–280, (pages 75,145,213) [13] Jerome Euzenat and Pavel Shavaik (2007), Ontology Matching, Springer 2007 [14] Kincho H Law, “Ontology (2007), Basic Definitions and a Brief Introduction”, TN-2007-03 NEESit – Workshops 2007 [15] Klein, Michel, (2001) Combining and relating ontologies an analysis of problems and solutions In Gomez-Perez, Asuncion, Gruninger, Michael, Stuckenschmidt, Heiner, and Uschold, Michael, editors Proceedings of Workshop on [16] [17] [18] [19] [20] [21] [22] [23] Ontologies and Information Sharing at IJCAI-01, Seattle, WA, USA Madhavan J., Bernstein P., Rahm E (2001): Generic schema matching with Cupid In: Proc 27th In-ternational Conference on Very Large Data Bases (VLDB), Rome, Italy, pp 48–58, (pages 128, 210) Marc Ehrig (2007) Ontology Alignment Bridging the Semantic Gap, Springer Mungall CJ., Gkoutos GV., Smith CL., Haendel MA., Lewis SE., Ashburner M (2010) Integrating phenotype ontologies across multiple species Oellrich A., Gkoutos GV., Hoehndorf R., Dietrich RS., (2011) Quantitative comparison of mapping methods between Human and Mammalian Phenotype Ontology Porter MF., (1997) An algorithm for suffix stripping In Readings in information retrieval, Karen Sparck Jones and Peter Willett (Eds.) Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, pages 313-316 Rahm, Erhard and Bernstein, Philip A., (2001), A survey of approaches to automatic schema matching VLDB Journal: Very Large Data Bases, 10(4) pages 334-350 Robinson PN, and Kohler S., Bauer S., Seelow D., Horn D., Mundlos S The Human Phenotype Ontology: A Tool for Annotating and Analyzing Human Hereditary Disease The American Journal of Human Genetics 83 pages 610– 615 Shvaiko P., Giunchiglia F., Yatskevich M.,(2009): Semantic matching with SMatch In: De Virgilio, R., Giunchiglia, F., Tanca, L (eds.) Semantic Web Information Management, pp 183–202 Springer, Berlin pages 214 49 [24] Smith CL and Goldsmith CAW and Eppig, JT (2004) “The Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing phenotypic information” Genome Biology, 6: R7 [25] Smith TF And Waterman MS (1981) “Identification of common molecular subsequences” J Mol Biol, 147(1), pages 195-197 [26] Tsuruoka Y., et al (2007), “Learning string similarity measures for gene/protein name dictionary look – up using logistic regression” Bioinformatics 23(20), pages 2768 – 2774

Định dạng
Số trang	50
Dung lượng	1,53 MB