Bước 4. Từ tập các từ đặc trưng do công cụ đề xuất, các chuyên gia có thể kiểm tra, chọn lọc lại các đặc trưng chính xác và loại bỏ các đặc trưng chưa đúng.
Bước 5. Để nâng cao tốc độ xử lý và độ chính xác khi phân loại, sẽ tiến hành loại bỏ các từ dừng, từ ngắt, từ vô nghĩa. Ở bước này, để có thể loại bỏ các từ vô nghĩa thì ta cần phải tách được các từ trong 1 câu tiếng Việt. Để giải quyết vấn đề này, công cụ JVNTextPro28 được sử dụng để thực hiện tách từ tiếng Việt.
Bước 6. Xây dựng công cụ phân lớp các từ vào các nhóm/lớp tương ứng sử dụng thuật toán học máy.
Bước 7. Sau đó các chuyên gia sẽ kiểm tra lại kết quả phân lớp trước khi cập nhật vào CSDL để làm giàu cho ontology.
3.2.6.3. Kết quả
Ontology dầu khí Anh – Việt được xây dựng và công cụ hỗ trợ học ontology cũng được xây dựng.
1) Ontology dầu khí này cho phép tra cứu một khái niệm và trả về nghĩa, kiểu từ loại, từ đồng nghĩa, hình ảnh, video, và đồ thị quan hệ với các khái niệm khác cùng khoảng cách giữa các khái niệm. Người sử dụng có thể quản lý các mối quan hệ, màu sắc trong đồ thị quan hệ, kéo thả, phóng to, thu nhỏ đồ thị, chỉnh sửa khái niệm và thông tin mô tả của nó, tạo các cấu trúc (lớp), thêm/xóa các khái niệm vào/ra khỏi một lớp để tạo tập dữ liệu huấn luyện.
2) Số lượng khái niệm Tiếng Anh tải về từ ontology Wordnet là 147.249 khái niệm. Số lượng khái niệm tiếng Anh chọn lọc từ Từ điển Anh – Việt là 11.139 khái niệm. Số lượng khái niệm giao nhau giữa từ điển và wordnet là 2.334 khái niệm. Có 6.382 quan hệ giữa các khái niệm được kế thừa từ Wordnet.
Công cụ phần mềm hỗ trợ cho việc học ontology
Công cụ này hỗ trợ ba chức năng chính.
1) Hỗ trợ đặc trưng hóa: Tự động trích chọn đặc trưng từ các lớp dữ liệu mẫu, trình bày các đặc trưng dưới dạng danh sách có thứ tự theo trọng số từ cao đến thấp để hỗ trợ chuyên gia cho việc chọn lựa các đặc trưng. Nó cũng trình bày danh sách các đặc trưng sẵn có trong ontology để chỉnh sửa nếu cần.
2) Xây dựng mô hình: từ tập dữ liệu huấn luyện được định nghĩa bới chuyên gia, công cụ này sẽ tự động xây dựng mô hình.
3) Phân lớp/gán nhãn: phần mềm sử dụng thuật toán học máy để phân lớp các khái niệm dựa vào mô hình ở trên. Dữ liệu chưa gán nhãn có thể được đưa vào công cụ bằng hai cách: từ file văn bản hoặc từ cơ sở dữ liệu. Các kết quả sau khi phân lớp sẽ được trình bày, kiểm tra trước khi cập nhật vào ontology.
3.2.6.4. Nhận xét
Đối sánh từ vựng, tri thức chuyên gia, khái niệm đồng nghĩa Tiếng Việt, và thuật toán học máy đã được sử dụng để xây dựng ontology dầu khí Anh – Việt với 11.139 khái niệm và các mô tả của nó cùng với 6.382 quan hệ kế thừa từ ontology Wordnet. Ontology dầu khí Anh – Việt này hữu ích cho các cán bộ
nhân viên ngành dầu khí trong việc nghiên cứu, tra cứu, biên dịch, đào tạo, học ontology, và mở rộng trong hiện tại và tương lai. Nó cũng có thể được dùng để học ontology với Wikipedia Tiếng Việt để mở rộng thêm các khái niệm Tiếng Việt bằng cách sử dụng mô hình học với dữ liệu dương và dữ liệu chưa gán nhãn.
3.3. KẾT LUẬN CHƯƠNG 3
Chương này của luận án đã trình bày hai mô hình học Ontology. Mô hình học ontology đầu tiên sử dụng kỹ thuật đối sánh từ, khái niệm dựa trên độ đo Google. Mô hình học ontology thứ hai sử dụng thuật toán học máy với dữ liệu dương và dữ liệu chưa gán nhãn kết hợp với độ đo Google và độ đo Cosine để nâng cao hiệu quả của việc học ontology. Hai ví dụ cụ thể để áp dụng mô hình học ontology thứ hai vào miền dữ liệu dầu khí, sử dụng từ điển dầu khí tiếng Việt, ontology Wordnet, và Wikipedia Tiếng Việt cũng được đưa ra.
Chương tiếp theo của luận án đề cập tới một khung hợp nhất niềm tin dựa trên tranh luận thu nhận ý kiến chuyên gia miền.
CHƯƠNG 4. KHUNG HỢP NHẤT NIỀM TIN THU NHẬN Ý KIẾN CHUYÊN GIA MIỀN
Khai thác ý kiến chuyên gia miền là một hoạt động được quan tâm trong xây dựng ontology. Về cùng một đối tượng trong ontology, các chuyên gia đồng thuận hoặc không đồng thuận ý kiến. Vì vậy, cần thiết phải xây dựng mô hình thu thập ý kiến chuyên gia để thu nhận được tư vấn hiệu quả nhất xây dựng ontology.
Chương này của luận án đề nghị một khung hợp nhất niềm tin dựa trên tranh luận thu nhận tư vấn của chuyên gia tham gia xây dựng ontology miền. Một phần nghiên cứu trong chương này được công bố trong [VNTrinh3].
4.1. THU NHẬN Ý KIẾN CHUYÊN GIA TRONG XÂY DỰNG ONTOLOGY ONTOLOGY
4.1.1. Vai trò của chuyên gia trong xây dựng ontology
Hình 4.1. Thủ tục xây dựng một ontology cơ sở miền [38]
Các chuyên gia miền đóng vai trò rất quan trọng trong quá trình phát triển ontology [38], [39]. S-H. Hsieh và cộng sự [38] đề nghị một thủ tục xây dựng một ontology cơ sở miền dựa trên các sách cẩm nang miền và khai thác tư vấn,
đánh giá của các chuyên gia miền. Sách cẩm nang miền gồm ba phần nội dung là mục lục, các định nghĩa thuật ngữ và chỉ mục. Thủ tục xây dựng ontology cơ sở gồm các bước Xây dựng từ vựng, Sinh quan hệ thứ bậc và không thứ bậc, Hiệu chỉnh khái niệm mức trên, Áp dụng các luật có trọng số, Lọc (lọc - chính xác hóa thuật ngữ và lọc thể hiện) và chuyên gia hiệu chỉnh lại quan hệ thuật ngữ để có được ontology cơ sở miền. Thủ tục này được thực hiện lặp để từng bước nâng cấp các các phiên bản Ontology cơ sở miền. Hình 4.1 chỉ dẫn quá trình thực hiện thủ tục và Bảng 4.1 cung cấp thêm thông tin về phương thức thực hiện các pha mà chủ yếu theo phương thức thủ công và bán tự động. Pha hiệu chỉnh lại quan hệ ngữ nghĩa thực hiện theo phương thức thủ công.
Bảng 4.1. Phương thức thi hành các pha xây dựng ontology cơ sở miền [38]
Pha Kiểu Mô tả
Phát triển từ vựng Bán tự động
Các thuật ngữ này đầu tiên được thu thập và số hóa (quét và OCR) từ một cuốn sổ tay theo cấu trúc của Mục lục (Table of Contents: TOC)
Tạo quan hệ thứ bậc và không thứ bậc
Tự động Các quan hệ thứ bậc của các thuật ngữ được khởi tạo
Hiệu chỉnh các khái niệm mức trên
Thủ công Các chuyên gia xem xét các khái niệm và quan hệ mức trên giữa các khái niệm được trích xuất từ cẩm nang Áp dụng quy tắc đánh trọng số (ví dụ: Lọc và Lọc thuật ngữ) Bán tự động Các quy tắc dánh trọng số được áp dụng để tự động xác định liệu các thuật ngữ chính được trích xuất từ sổ tay là các khái niệm hay các thể hiện và các chuyên gia miền sẽ xem xét các kết quả.
Đánh giá và sàng lọc
Thủ công Các chuyên gia xem xét ontology cơ sở và tinh chỉnh các quan hệ giữa các khái niệm.
4.1.2. Mô hình tranh luận trong xây dựng ontology
thành một chủ đề nghiên cứu cốt lõi trong trí tuệ nhân tạo, đặc biệt trong khu vực trí tuệ nhóm (collective intelligent). Các mô hình tranh luận thiết lập sự đồng thuận nhóm là chủ đề nghiên cứu nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu [12], [13], [14], [31], [59], [60], [61], [65], [66]. Một hội nghị khoa học về lý thuyết và ứng dụng mô hình tranh luận (Theorie and Applications of Formal Argumentation: TAFA) đã được tổ chức gần như thường niên từ năm 2013 tới nay [9].
Công trình của M. D. Phan [64] (được công bố vào năm 1995) được thừa nhận như một nghiên cứu khởi thủy về khung tranh luận. Một số nội dung cơ bản nhất trong công trình nghiên cứu này được trình bày tại mục con 4.2.3. Gần đây, M. D. Phan và cộng sự tập trung tới chủ đề tranh luận có cấu trúc [65], [66]. Khung tranh luận do M. D. Phan [64] đã được áp dụng phát hiện các điểm không nhất quán, chẳng hạn [59], [60]. M. O. Moguillansky và cộng sự [59], [60] đề nghị một phiên bản khái quát hóa khung tranh luận của M. D. Phan [64] là khung tranh luận tổng quát (Generalized Argumentation Framework: GenAF) dựa trên logic mô tả (description logic) nhằm thích ứng được các ngôn ngữ biểu diễn khác nhau. Thông qua khung tranh luận trừu tượng áp dụng tới logic mô tả ALC (ALC-GenAF), các suy luận được triển khai để phát hiện lỗi và chỉnh sửa (ontology debugging and repairing) ontology nhằm giải quyết vấn đề không nhất quán trong các ontology. Do các tham số được thiết lập trừu tượng dựa trên logic mô tả ALC-GenAF cho nên GenAF được đánh giá là có khả năng làm việc trên nhiều ngôn ngữ khác nhau.
Với mục tiêu xây dựng một ontology miền cụ thể, áp dụng khung tranh luận của M. D. Phan [64], luận án này đề nghị một mô hình hợp nhất niềm tin dựa trên tranh luận huy động chuyên gia tham gia xây dựng ontology miền theo phương thức bán tự động như trình bày ở mục tiếp theo.
4.2. CƠ SỞ NIỀM TIN PHÂN TẦNG, HỢP NHẤT NIỀM TIN VÀ KHUNG TRANH LUẬN
4.2.1. Cơ sở niềm tin phân tầng
Cho ℒ là một ngôn ngữ mệnh đề (propositional language) được xây dựng trên một tập hữu hạn các biến logic P và một tập các phép toán logic ¬, ∧, ∨ và
→ (Luận án không xem xét toán tử logic “tương đương ” [30]). Ngôn ngữ mệnh đề ℒ, có hai giá trị logic là: ┬ (giá trị logic đúng) và ⊥ (giá trị logic sai).
Công thức logic mệnh đề (propositional logic formula, gọi ngắn gọn là
công thức) được xây dựng từ tập các biến logic P và các phép toán logic theo quy tắc sau đây:
- Các giá trị logic ┬ và ⊥ là các công thức (nguyên tố), - Các biến logic pP là các công thức (nguyên tố),
- Nếu A và B là các công thức thì ¬A, A∧B, A∨B và A→B là các công thức.
Theo quy ước, sử dụng các chữ cái Hy Lạp thường (ví dụ, , , v.v.) chỉ dẫn các công thức), các chữ cái Hy Lạp in hoa (ví dụ, , , v.v.) chỉ dẫn các tập công thức. Một cơ sở niềm tin (belief base) là một tập hữu hạn các công thức. Cho Φ là một tập các công thức, ψ là một công thức, nói “ψ là hệ quả của Φ” (ký hiệu là “Φ ⊢ ψ”) khi ψ là một hệ quả logic (logical consequence hoặc entailment) của Φ [30]. Một cơ sở niềm tin Φ được gọi là cơ sở niềm tin nhất quán (consistent belief base) khi và chỉ khi Φ ⊢┬, trong trường hợp ngược lại Φ là một cơ sở niềm tin không nhất quán (inconsistent belief base). Luận án chỉ xem xét các cơ sở niềm tin nhất quán.
Một cơ sở niềm tin phân tầng (stratified belief base) là một cặp (K, ≥) bao gồm một tập các công thức K và một quan hệ thứ tự toàn bộ (total pre-odrder) ≥ trên K. Cơ sở niềm tin phân tầng (K, ≥) cũng được trình bày dưới dạng một chuỗi (K, ≥) = ( L1, ..., Ln), trong đó mỗi Li là tập khác rỗng các công thức và gọi là một tầng. Cho ∈ Li và ψ ∈ Lj, ≥ ψ khi và chỉ khi i ≤ j, với mọi i, j = 1. . n. Như vậy, mỗi công thức trong tầng Li được “ưu tiên” hơn công thức bất kỳ trong tầng Lj. Tập niềm tin (belief set) của các cơ sở niềm tin (phân tầng) là một tập bội (multi-set) các cơ sở niềm tin (phân tầng).
Hai cơ sơ niềm tin phân tầng (K, ≥) = (L1,...,Ln) và (K', ≥') = (L'1,...,L'n)
được gọi là tương đương logic (ký hiệu là (K, ≥) ≡ (K', ≥'))) nếu m = n và Li ≡ L' i
với mọi i = 1,....,n. Hơn nữa các tập niềm tin B = {(L1, ≥1),..., (Ln, ≥n)} và B' = {(L'1, ≥'
1),..., (L'n, ≥'
n)} là tương đương, ký hiệu là B ≡ B' khi và và chỉ khi (Li, ≥i) ≡ (L'δ(i), ≥'δ(i)), ∀i= 1,....,n với δ là một hoán vị của 1,...,n.
4.2.2. Hợp nhất niềm tin
Thừa kế kết quả nghiên cứu của S. Konieczny và R. P. Pérez [45], luận án tập trung vào các mô hình hợp nhất các cơ sở niềm tin khi xem xét một tập tiên đề (axiom) mô tả họ các toán tử hợp nhất niềm tin (belief merging operator) với các ràng buộc toàn vẹn (integrity constraint). Các tiên đề ((IC) axioms) này được phát biểu như sau:
Định nghĩa 4.1. [45] (Toán tử hợp nhất niềm tin) Cho B, B1, B2 là các tập niềm tin, K1, K2 là các cơ sở niềm tin nhất quán, và μ, μ1, μ2 là các công thức từ ℒ. ∆ là một toán tử hợp nhất IC (IC merging operator) khi và chỉ khi nó thỏa mãn các tiên đề sau (∆μ: toán tử hợp nhất niềm tin theo ràng buộc toàn vẹn μ):
(IC0) ∆μ(B) ⊢ μ. (IC0) đảm bảo rằng các kết quả việc hợp nhất niềm tin sẽ thỏa mãn các ràng buộc toàn vẹn.
(IC1) Nếu μ ⊥ thì ∆μ(B) ⊥. (IC1) đảm bảo rằng nếu các ràng buộc toàn vẹn là nhất quán thì kết quả của việc hợp nhất niềm tin cũng sẽ phải nhất quán. (IC2) Nếu ∧B ∧ μ ⊥, thì ∆μ(B) ≡ ∧B ∧ μ. (IC2) nói rằng nếu phép hợp của các cơ sở niềm tin và các ràng buộc tạo thành một tập niềm tin nhất quán thì kết quả của việc hợp nhất niềm tin đơn giản chính là kết quả của phép hợp này.
(IC3) Nếu B1 ≡ B2 và μ1 ≡ μ2, thì ∆μ1(B1) ≡ ∆μ2(B2). (IC3) đảm bảo nguyên tắc không phụ thuộc cú pháp, tức là nếu chúng ta có hai tập các cơ sở niềm tin mà mỗi cơ sở niềm tin của tập này tương đương với một cơ sở niềm tin của tập kia và hai tập ràng buộc toàn vẹn cũng tương đương nhau thì các các kết quả của việc hợp nhất niềm tin với ràng buộc toàn vẹn cũng tương đương nhau.
(IC4) Nếu K1 ⊢ μ và K2 ⊢ μ, thì ∆μ({K1, K2}) ∧ K1 ⊥ khi và chỉ khi ∆μ({K1, K2}) ∧ K2 ⊥. (IC4) đảm bảo tính công bằng, đòi hỏi khi hợp nhất hai cơ sở niềm tin, các toán tử hợp nhất niềm tin phải đối xử đối với các cơ sở niềm tin này như nhau.
(IC5) ∆μ(B1) ∧ ∆μ(B2) ⊢ ∆μ(B1 ⊔ B2). (IC5) thể hiện yêu cầu sau đây: nếu hai nhóm cùng đồng ý về một số lựa chọn thì những lựa chọn này cũng vẫn sẽ được chọn nếu chúng ta nhóm hai nhóm này thành một.
(IC6) Nếu ∆μ(B1) ∧ ∆μ(B2) ⊥ thì ∆μ(B1⊔ B2) ⊢ ∆μ(B1) ∧ ∆μ(B2). (IC5) cùng với (IC6) phát biểu rằng nếu chúng ta có thể chia một tập các cơ sở niềm tin thành hai tập con rồi thực hiện hợp nhất các tập con đó và tìm được các mô hình chung cho các kết quả hợp nhất thì các mô hình này cũng chính là các mô hình của kết quả của việc hợp nhất niềm tin trong nhóm lớn ban đầu.
(IC7) ∆μ1(B) ∧ μ2⊢ ∆μ1∧μ2 (B).
(IC8) Nếu ∆μ1(B) ∧ μ2 ⊥, thì ∆μ1∧μ2 (B) ⊢ ∆μ1(B) ∧ μ2. (IC7) và (IC8) phát biểu về mối quan hệ giữa các ràng buộc nhất quán và kết quả của toán tử hợp nhất niềm tin.
Với mục đích khảo sát các tính chất của họ các toán tử hợp nhất niềm tin cần được xem xét, luận án sử dụng các điều chỉnh các tiên đề (IC2) và (IC3) của T.H. Tran và cộng sự [75] như trình bày sau đây.
Cho tập các niềm tin B = {(Ki, ≽i)|i = 1..n}, B′ = {(K′i, ≽′i)|i = 1..n} và các công thức μ và μ′.
(IC2’) Đặt ∧B = ∧n
i=1Ki, nếu ∧B ∧ μ ⊥, thì ∆μ(B) ≡ ∧B ∧ μ
(IC3’) nếu μ ≡ μ' và ∃δ là một hoán vị của {1, . . . , n} sao cho (Ki,≽i) ≡ (Kδ(i), ≽'δ(i)), ∀i ∈ {1, . . . , n}, thì ∆μ(B) ≡ ∆μ′(B′)
4.2.3. Khung tranh luận
Luận án sử dụng khung tranh luận tổng quát được Phan M. D đề xuất vào năm 1995 [64].
Định nghĩa 4.2. [64]. Một khung tranh luận được định nghĩa là cặp AF = <Arg, R>, trong đó
• Arg là một tập công thức trong một ngôn ngữ logic mệnh đề; phần từ của Arg được gọi là luận cứ (argument).
• Một quan hệ hai ngôi R trên Arg (R ⊆ ArgArg) được gọi là một quan hệ tấn công (attack relationship) giữa các luận cứ.
Định nghĩa 4.3. [64] Cho X, Y ∈ Arg, chúng ta nói: • X tấn công Y khi và chỉ khi R(X, Y),
Định nghĩa 4.4. [64] Cho trước một tập các luận cứ Arg và S ⊆ Arg. Nói rằng S là không xung đột (conflict-free) khi và chỉ khi ∄X, Y ∈ S thỏa R(X, Y).
Định nghĩa 4.5. [64]
(1) Một luận cứ X ∈ Arg được gọi là chấp nhận được hầu khắp (acceptable w.r.t.) một tập luận cứ S khi và chỉ khi ∀Y ∈ Arg: nếu R(Y, X), thì ∃Z ∈ S và R(Z, Y).
(2) Một tập luận cứ không xung đột S được gọi là thu nạp được (admissible) khi và chỉ khi ∀X ∈ S: X là chấp nhận được hầu khắp S.
Định nghĩa 4.6. [64] Ánh xạ FAF : 2Arg→2Arg được gọi là hàm đặc trưng
(characteristic function) trên Arg nếu ánh xạ đó thỏa mãn điều kiện: ∀S ⊆ Arg: FAF (S) = {A|A chấp nhận được hầu khắp trên S}.
Hệ quả 4.1. FAF là tập đơn điệu hầu khắp theo phép bao tập (set inclusion).
Định nghĩa 4.7. [64] Cho một khung tranh luận AF và một tập luận cứ thu nạp được S:
• S được gọi là một mở rộng hoàn chỉnh (complete extension) của AF nếu mọi luận cứ chấp nhận được hầu khắp trên S thuộc về S (tính đóng của S).
• S được gọi là là một mở rộng nền tảng (grounded extension) của AF nếu nó là phần tử nhỏ nhất (set inclusion) dựa vào mở rộng hoàn chỉnh của AF. • S được gọi là là một mở rộng ưu tiên (preferred extension) của AF nếu nó là