Liệt kê các khái niệm quan trọng của lĩnh vực

Một phần của tài liệu Tìm hiểu và xây dựng ca kiểm thử phần mềm ứng dụng ontology (Trang 48 - 52)

2. Phương pháp xây dựng ontology kiểm thử bán tự động

2.2.1. Liệt kê các khái niệm quan trọng của lĩnh vực

a) Cấu trúc của tài liệu nguồn – từ điển:

Từ điển thường đề cập đến những thứ quan trọng nhất trong lĩnh vực, đồng thời từ điển là 1 dạng tài liệu bán cấu trúc, bao gồm các khái niệm và giải nghĩa của chúng. Đôi khi mối quan hệ giữa các khái niệm cũng được định nghĩa rõ ràng. Từ điển thường gồm các mục, mỗi mục gồm hai phần: khái niệm và giải nghĩa. Ngoài ra còn có dẫn giải đến các khái niệm tương tự, cũng như các liên hệ với các khái niệm khác. Và các

49

khái niệm khác, các vấn đề, các mối liên hệ còn được nhắc đến bên trong giải nghĩa của khái niệm.

Hình 22. Ví dụ về cấu trúc của từ điển

b) Tìm các khía cạnh quan trọng

Phương pháp ONTO6 gợi ý để tìm những khía cạnh quan trọng của lĩnh vực, hãy phân tích sự xuất hiện của các khái niệm trong tài liệu đầu vào, sau đó đặt ra 1 định mức để xác định những khía cạnh quan trọng nhất.

Với ví dụ trong hình trên, tác giả nhận thấy:

- Những từ quan trọng nhất của “Khái niệm” thường ở phía bên phải, thường là từ cuối cùng của Khái niệm.

- Những từ quan trọng nhất của “Định nghĩa” thường ở đầu của định nghĩa.

Qua đó, tác giả xây dựng 1 phương pháp để tìm ra những từ quan trọng nhất. Tác giả định nghĩa khái niệm trọng số cho các từ, và trọng số của một khái niệm là tổng trọng số của các từ trong khái niệm đó. Theo 2 nhận xét trên, thì từ càng ở gần danh giới giữa Khái niệm và Định nghĩa thì càng quan trọng. Do đó, tác giả đánh số vị trí của các từ trong Khái niệm từ phải sang trái (bắt đầu từ 0), và các từ trong Định nghĩa từ Trái

50

sang phải (bắt đầu từ 0). Như vậy mỗi từ sẽ có 1 vị trí, gọi là word_index, và trọng số của từ sẽ được tính bằng công thức: 2-work_index

Trước khi thực hiện tính trọng số của các từ, tác giả thực hiện một số thao tác chuẩn hoá:

- Xoá bỏ những từ viết tắt Khái Niệm - Bỏ qua tất cả các dấu câu

- Chuyển chữ hoa thành chữ thường (nếu như không phải là từ viết tắt) - Bỏ qua tất cả các stop-words (là các từ nối, không mang ý nghĩ: the, is, a,...) Sau khi thực hiện, tác giả thu được kết quả cho khoảng 40 từ quan trọng

51

Hình 23. Danh sách từ và trọng số

52

ONTO6 đề xuất đặt ra ngưỡng và sử dụng 1 số lượng nhỏ các từ quan trọng. Sau khi phân tích đồ thị trọng số, tác giả lựa chọn ra 9 từ quan trọng nhất, đó là: testing, test, tool, software, process, analysis, capability, coverage, technique.

Một phần của tài liệu Tìm hiểu và xây dựng ca kiểm thử phần mềm ứng dụng ontology (Trang 48 - 52)