Gene Ontology

Một phần của tài liệu tìm hiểu về logic mô tả el và cài đặt ví dụ minh họa (Trang 38 - 74)

Gene Ontology(GO) là định nghĩa các sản phẩm gene trong sinh học theo các thuật ngữ của chúng kết hợp với các quy trình sinh học, các thành phần cấu thành tế bào và hoạt động của các phân tử trong một hình thái độc lập (Gene OntologyTM Consortium[10] ).

Ví dụ3.5 Định nghĩa cho một GO trong cơ sở tri thức y học Term

id: GO : 0000019

name: regulation of mitotic recombination namespace: process

def: “ Any process that modulates the frequency, rate or extent of DNA recombination during mitosis.” [GO : curator]

is_a: GO : 0000018

relationship: part_of GO:0006312

Định nghĩa khái niệm này sẽ được mô tả là

GO_0000019 GO_0000018 ⊓∃part_of.GO_0006312 Trong Logic mô tả EL

• Đối với ngữ nghĩa mô tả điểm cố định lớn nhất được mô tả như sau GO_0000019≡ GO_0000018 ⊓∃part_of.GO_0006312

• Đối với mô tả ngữ nghĩa sẽ là

GO_0000019≡ GO_0000019’⊓ GO_0000018⊓∃part_of.GO_0006312 3.5.3 Các kết quả thực nghiệm trên Gene Ontology

Có trên 17736 khái niệm GO trong Gene Ontology • Có 933 khái niệm GO là các khái niệm nguyên thủy • 16803 khái niệm GO là các định nghĩa khái niệm • Đồ thị mô tả EL có 16803 nút và 11275 cạnh

Phần này sẽ trình bày kết quả của thực nghiệm sử dụng thuật toán ELgfp và ELdesc với GO. Cả 2 cùng được thực thi trong ngôn ngữ Common LISP2 vì nó có cấu trúc tổ chức dữ liệu phù hợp với đồ thị mô tả EL. Cú pháp của LISP cho các định nghĩa khái niệm EL đối với Gene Ontology là

(EXIST part_of GO_0006312))) Có 3 kết quả thực nghiệm

1. Thuật toán bao hàm cho ELgfp đầu vào là T (ELgfp + T ) 2. Thuật toán bao hàm cho ELdesc đầu vào là T (ELdesc + T ) 3. Thuật toán bao hàm cho ELgfp đầu vào là T (ELgfp + T )

Với cấu hình máy tính PC là 1.7GHz, Pentium-4 và Ram 512M chạy HDH Linux RedHat, với số lượng các khái niệm khác nhau thời gian cho mỗi thí nghiệm là khác nhau.

Hình sau mô tả thời gian yêu cầu cho mỗi thí nghiệm với số định nghĩa khái niệm khác nhau.

Hình 3.3 Kết quả thực nghiệm của bài toán bao hàm trên Gene Ontology

Xét thí nghiệm 3 mỗi lần ta thêm vào 200 định nghĩa, thời gian thực hiện sẽ tăng khác nhau:

• Lần một ta thay đổi từ 400 định nghĩa lên 600 định nghĩa thời gian tăng thêm 21.82giây

• Lần hai ta thay đổi từ 800 định nghĩa lên 1000 định nghĩa thời gian sẽ tăng thêm 30.79giây

• Lần ba thay đổi từ 1800 định nghĩa lên 2000 định nghĩa thì thời gian cho tính toán cần phải tăng thêm 53.88 giây.

Từ đó ta thấy thời gian có khuynh hướng tăng nhanh hơn với số lượng của định nghĩa( hay kích thước đầu vào), khuynh hướng của cả ba thí nghiệm chứng tỏ rằng thời gian gia tăng theo đa thức là số lượng định nghĩa. Thí nghiệm 3 cho kết quả tốt nhất, do nó cần ít thời gian hơn so với các thí nghiệm còn lại.

3.6 Tổng kết chương

Trong chương 3 đã giới thiệu các bài toán bao hàm trong Logic mô tả EL, tương ứng với mỗi bài toán ta đều có các thủ tục quyết định trên nó để thời gian tính toán trên mỗi bài toán bao hàm đó chỉ tốn thời gian là đa thức. Cụ thể:

Với bài toán bao hàm khái niệm ngữ nghĩa điểm cố định lớn nhất (ELgfp) thời gian tính toán trên nó là bậc ba theo kích thước đầu vào TBox. Thuật toán dựa trên

phép mô phỏng các TBox đã ở dạng chuẩn hóa, sau đó biên dịch một EL-TBox đã ở dạng chuẩn hóa sang một đồ thị mô tả-EL, tiếp đó chúng ta sử dụng thuật toán ELgfp- EfficientSimilarity trên đồ thị mô tả-EL. Khi đó thời gian tính toán cho thủ tục sẽ là bậc ba theo kích thước đầu vào của TBox T.

Với bài toán bao hàm khái niệm có TBox tổng quát (hay TBox chứa các tiên đề thuật ngữ-GCIs) thì thuật toán quyết định trên nó cũng chỉ mất khoảng thời gian bậc ba theo kích thước đầu vào của TBox T. Quá trình thực hiện thuật toán là chuyển TBox tổng quát T sang một TBox tổng quát ở dạng chuẩn hóa các GCIs, sau đó biểu diễn mối quan hệ tương quan giữa các tập hợp mà tên các khái niệm và tên các vai trò là không giao nhau, từ đó ta chuyển chúng sang các mệnh đề chuẩn Horn và áp dụng thuật toán linear-time Horn SAT. Khi đó các bài toán bao hàm ELgci sẽ được quyết định trong thời gian bậc ba theo kích thước đầu vào của EL-TBox T.

Cuối cùng là bài toán bao hàm khái niệm với ngữ nghĩa mô tả ELdesc cũng được quyết định trong thời gian đa thức. Thuật toán áp dụng cho bài toán bao hàm ELdesc là chuẩn hóa một EL-TBox và tương ứng với một đồ thị mô tả-EL của TBox T đó ta miêu tả quan hệ mô phỏng đồng bộ các khái niệm, sau đó chuyển sang các mệnh đề chuẩn Horn. Sau cùng là áp dụng thuật toán linear-time Horn SAT cho các mệnh đề chuẩn Horn. Khi đó thời gian tính toán sẽ là bậc 2 theo kích thước của đồ thị mô tả-EL và sẽ là bậc bốn theo kích thước đầu vào của TBox T.

Chương 4 Phân tích thiết kế chương trình ứng dụng

4.1. Đặc tả yêu cầu

Nội dung phần này sẽ tập trung vào việc đặc tả các yêu cầu của tác nhân tham gia hệ thống, các hình thức tương tác diễn ra trong hệ thống từ đó nêu các chức năng hệ thống cần đáp ứng.

4.1.1. Tác nhân và yêu cầu của tác nhân

Vì hệ thống là chuẩn hóa cơ sở tri thức nên chỉ có một tác nhân là người dùng tác động vào hệ thống.

- Hệ thống cần cung cấp chức năng hiển thị nội dung cơ sở tri thức ban đầu, bao gồm hiển thị nội dung của TBox và ABox.

- Hệ thống cần cung cấp chức năng chuẩn hóa tri thức, bao gồm hai bước khử phép bao hàm và chuẩn hóa TBox.

- Hệ thống cần cung cấp chức năng hiển thị nội dung TBox đã được chuẩn hóa và hiển thị cây đồ thị mô tả của TBox đã ở dạng chuẩn hóa.

4.1.2. Đặc tả chức năng của hệ thống

Dựa trên những yêu cầu của tác nhân đối với hệ thống, hệ thống cần cung cấp hai nhóm chức năng chính là nhóm chức năng hiển thị và nhóm chức năng chuẩn hóa. Dưới đây là mô hình phân cấp chức năng chung của hệ thống:

Hình 4.1. Sơ đồ phân cấp chức năng của hệ thống

4.1.2.1. Chức năng hiển thị

Nhúm chức năng này cú nhiệm vụ lấy nội dung cơ sở tri thức, bao gồm nội dung của TBox và ABox để hiển thị kết quả ra màn hình cho người sử dụng.

a) Hiển thị nội dung cơ sở tri thức ban đầu

Cơ sở tri thức ban đầu được lưu trữ trong hai file TBox và ABox. Cơng việc thu thập cơ sở tri thức này ta coi như đã thực hiện được từ một hệ thu thập cơ sở tri thức cú sẵn. Nhiệm vụ của hệ thống là sẽ đọc nội dung của cơ sở tri thức này và hiển thị ra cho người sử dụng cỏc nội dung sau:

• Nội dung TBox

- Các khái niệm nguyân thủy

Hệ thống chuẩn hóa cơ sở tri thức

Hiển thị

Hiển thị cơ sở tri thức ban đầu Hiển thị cơ sở tri thức đã chuẩn hóa

Chuẩn hóa

Khử phép bao hàm

Chuẩn hóa TBox Hiển thị cây đồ thị

- Các vai trò nguyên thủy

- Các khái niệm phức, các mô tả của các khái niệm phức • Nội dung ABox

- Các cỏ thể

- Cỏc khẳng định của cỏc cỏ thể

b) Hiển thị nội dung cơ sở tri thức sau khi đã được chuẩn hoá

Cơ sở tri thức ban đầu sau khi được triển khai qua hai bước: khử phép bao hàm và chuẩn hóa TBox, sẽ thu được kết quả chuẩn hỉa cuối cùng. Kết quả chuẩn hỉa này sẽ được hệ thống hiển thị cho người sử dụng thơng qua chức năng hiển thị cơ sở tri thức đã chuẩn hỉa. Cụng việc hiển thị lúc này chỉ bao gồm chức năng hiển thị nội dung TBox với:

- Các khái niệm nguyân thủy cú được sau khi chuẩn hỉa - Các quan hệ nguyân thủy

- Các khái niệm phức, với mơ tả của cỏc khỏi niệm phức đã được chuẩn hỉa.

c) Hiển thị nội dung TBox đã chuẩn hóa dưới dạng đồ thị cây

Sau khi chuẩn hóa cơ sở tri thức ta có TBox đã ở dạng chuẩn hóa, công việc lúc này là hiển thị nội dung của TBox dưới dạng cây đồ thị.

- Các định nghĩa khái niệm, sẽ tương ứng là các nút trên cây đồ thị.

- Các khái niệm nguyân thủy cú được sau khi chuẩn hỉa, tương ứng là các nhãn nằm trên các nút của cây

- Các vai trò nguyân thủy tương ứng sẽ là các cạnh trên cây đồ thị, trong đồ thị dạng cây thì các vai trò nguyên thủy sẽ là nút con của các định nghĩa khái niệm mà chứa nó.

4.1.2.2. Chức năng chuẩn hóa

Cơng việc chuẩn hỉa cơ sở tri thức phải thông qua hai bước. Thứ nhất là khử phép bao hàm, thứ hai chuẩn hóa TBox.

a) Khử phép bao hàm

Bước đầu tiên cần thực hiện trong quá trình chuẩn hỉa tri thức là khử phép bao hàm, tức là thay cỏc định nghĩa cú chứa phép bao hàm A C bằng cỏc định nghĩa dạng đẳng thức A C.

Khi thực hiện chức năng này, hệ thống phải cho người sử dụng thấy được: - Trong cơ sở tri thức ban đầu, cỏc mĩ tả khỏi niệm phức nào chứa phộp bao hàm.

- Mĩ tả khỏi niệm mới được xây dựng như thế nào, thơng qua việc chỉ ra cỏc khái niệm nguyân thủy mới được thờm vào, và cỏc mĩ tả khái niệm phức mới thu được.

Thuật toán sử dụng ở đõy là: Hệ thống sẽ duyệt cỏc mĩ tả phức của cơ sở tri thức. Nếu gặp luật nào cú chứa phép bao hàm, ta sẽ thờm vào TBox một khái niệm

nguyân thủy mới, thay phộp bao hàm bằng phộp tương đương, và thay vế phải của luật cũ bằng khái niệm nguyân thủy mới giao với vế phải ban đầu. Tiếp tục duyệt cho đến khi nđo khụng cũn phộp bao hàm trong tập định nghĩa của TBox thì dừng.

Như vậy, sau khi khử phộp bao hàm ta sẽ phải bổ xung vào TBox cỏc khỏi niệm nguyân thủy mới, và thay thế một số định nghĩa cũ bằng định nghĩa mới.

b) Chuẩn hóa TBox

Bước thứ hai trong quá trình chuẩn hỉa cơ sở tri thức là chuẩn hóa Tbox. Bên vế phải của các định nghĩa khái niệm, giữ nguyên các khái niệm nằm tại lượng từ tồn tại, nếu tại lượng từ tồn tại là khái niệm nguyên thủy thì ta định nghĩa một khái niệm mới thay cho khái niệm nguyên thủy đó, cuối cùng là thay thế các định nghĩa khái niệm không nằm tại lượng từ tồn tại bằng các khái niệm nguyên thủy tương ứng với định nghĩa khái niệm đó.

Ví dụ : Nam ≡ ConNguoi ⊓ GiongDuc Cha ≡ Nam ⊓ ∃Cocon.ConNguoi

Ong ≡ Cha ⊓ ∃Cocon.ChaMe

Trong định nghĩa khái niệm Cha, có ConNguoi là một khái niệm nguyên thủy nằm tại lượng từ tồn tại, áp dụng luật chuẩn hóa NF1 ta sẽ thay khái niệm nguyên thủy đó bằng một định nghĩa khái niệm, ở đây ta dựng luôn định nghĩa khái niệm mới thay là ConNguoi thay cho khái niệm nguyên thủy ConNguoi. Khái niệm Nam là một định nghĩa khái niệm nên nó sẽ được thay bằng định nghĩa khái niệm tương ứng của Nam là ConNguoi GiongDuc.⊓

Trong định nghĩa khái niệm Ong, khái niệm ChaMe là định nghĩa khái niệm nằm tại lượng từ tồn tại nên giữ nguyên, khái niệm Cha không phải là một khái niệm nguyên thủy nên khái niệm Cha sẽ được thay thế bằng các khái niệm nguyên thủy tương ứng với khái niệm Cha là ConNguoi GiongDuc ∃Cocon.ConNguoi

Sau khi chuẩn hóa ta sẽ có kết quả là: Nam ≡ ConNguoi ⊓ GiongDuc

Cha ≡ ConNguoi ⊓ GiongDuc ⊓ ∃Cocon.ConNguoi

Ong ≡ ConNguoi ⊓ GiongDuc ⊓ ∃Cocon.Nguoi ⊓ ∃Cocon.ChaMe.

Thuật toán: Duyệt cỏc mĩ tả phức của cơ sở tri thức. Thực hiện vòng lặp đệ

quy thay thế cỏc khỏi niệm tờn xuất hiện bờn vế phải bằng mơ tả phức mà nỉ định nghĩa cho đến khi bờn vế phải của cỏc định nghĩa khơng cũn khỏi niệm tờn nào.

4.2. Phân tích hệ thống

Nội dung của phần này là phân tích cỏc trường hợp sử dụng của tỏc nhõn. Những trường hợp sử dụng được rơt ra từ những đặc tả yâu cầu tác nhõn và chức năng hệ thống trong phần trước.

Hình 4.2. Trường hợp sử dụng của người sử dụng

Trường hợp sử dụng hiển thị nội dung cơ sở tri thức ban đầu

Luồng sự kiện: Người sử dụng yêu cầu hiển thị nội dung của cơ sở tri thức bao

gồm nội dung của TBox và ABox. Yêu cầu được gửi tới khối hiển thị nội dung cơ sở tri thức đầu. Khối này sẽ thu thập thông tin từ cơ sở tri thức có được và gửi phản hồi về cho người sử dụng. Thông tin này bao gồm:

- Các khái niệm: khái niệm nguyên thủy và khái niệm phức. - Các quan hệ nguyên thủy

- Các cá thể và các khẳng định của các cá thể.

Khi nhận được thông tin về TBox và ABox, người sử dụng có thể gửi yêu cầu để thu được mô tả phức của khái niệm phức được chọn, hoặc có thể yêu cầu thực hiện truy vấn thu về các cá thể thuộc lớp đối tượng được chọn. Khối hiển thị sẽ nhận các yêu cầu này, thực hiện truy vấn vào cơ sở tri thức và trả lại kết quả cho người sử dụng.

Thông tin đầu vào:

- Yâu cầu hiển thị

- Tờn khái niệm cần đưa ra định nghĩa - Tờn lớp đối tượng cần thực hiện truy vấn

Hiển thị cơ sở tri thức ban đầu

Khử phép bao hàm Chuẩn hóa TBox

Hiển thị cơ sở tri thức đã chuẩn hóa

Hiển thị cây đồ thị

Thông tin trả về:

- Nội dung TBox và ABox - Định nghĩa của khỏi niệm

- Cỏc cỏ thể thuộc lớp đối tượng truy vấn.

Hình 4.3. Biểu đồ người sử dụng yêu cầu hiển thị nội dung cơ sở tri thức ban đầu

Trường hợp sử dụng khử phép bao hàm trong TBox

Luồng sự kiện: Người sử dụng yâu cầu tiến hành khử phộp bao hàm xuất hiện

trong cỏc luật của TBox ban đầu. Khối chức năng này sẽ lấy thĩng tin từ cơ sở tri thức, thu lại tập cỏc luật trong TBox. Sau đó sẽ xét những luật cú chứa phộp bao hàm, thực hiện thuật toán khử phộp bao hàm, tiến hành cập nhật tập luật mới vào cơ sở tri thức, cuối cùng trả lại kết quả cho người sử dụng.

Thông tin đầu vào:

- Nội dung TBox bao gồm cỏc khỏi niệm, cỏc quan hệ, và cỏc định nghĩa khái niệm.

Thông tin trả về:

- Các luật cú chứa phép bao hàm của tập luật cũ.

- Kết quả khử phép bao hàm của cỏc luật cú chứa phộp bao hàm.

Yêu cầu hiện mô tả khái niệm Phản hồi kết quả

Người sử dụng Hiển thị cơ sở

tri thức cũ

Yêu cầu hiển thị

TBox và ABox Thu thập

thông tin

Thu thập thông tin Phản hồi kết quả

Yêu cầu truy vấn

theo lớp đối tượng Thu thập thông tin Phản hồi kết quả

- TBox thu được sau khi khử phép bao hàm

Hình 4.4. Biểu đồ người sử dụng yêu cầu khử phép bao hàm trong cơ sở tri thức.

Trường hợp sử dụng chuẩn hóa TBox

Hình 4.5. Biểu đồ người sử dụng yêu cầu khai triển TBox.

Luồng sự kiện: Người sử dụng yâu cầu triển khai cỏc luật trong TBox, thay

cỏc ký hiệu tân ở vế phải của cỏc luật bằng mĩ tả phức mà nỉ mĩ tả cho, cho đến khi bờn vế phải khụng cũn xuất hiện cỏc ký hiệu tờn nào. Khối chức năng này sẽ lấy thĩng tin từ cơ sở tri thức, thu về tập luận của TBox, sử dụng thuật toán triển khai TBox để thay thế dần cỏc ký hiệu tờn bờn vế phải. Cuối cùng kết quả được cập nhật và cơ sở tri thức và trả về cho người sử dụng.

Thông tin đầu vào:

- TBox đã được khử phép bao hàm

Một phần của tài liệu tìm hiểu về logic mô tả el và cài đặt ví dụ minh họa (Trang 38 - 74)

Tải bản đầy đủ (DOC)

(74 trang)
w