Phân tích đối sánh lược đồ XML trong ứng dụng

MỤC LỤC

Cài đUt ti`n trình đ i sánh

Chỉ cần đưa vào lược đồ thông qua ứng dụng, ta có thể lấy ra các thông tin về lược đồ như các synset của các nút trong lược đồ. Trong gói thư viện náy bao gồm nhiều lớp khác nhau, mỡi lớp cung cấp một chức năng khác nhau. AsymmetricRelationship Các quan hệ không đối xứng Relationship Chứa quan hệ giữa 2 tập từ đồng.

Relationship getDeepest() Trả về quan hệ sâu nhất trong danh sách Relationship getShallowest() Trả về quan hệ gần nhất trong danh sách. FileBackedDictionary Truy nhập các đối tượng text files MapBackedDictionary Thể hiện dưới dạng bản đồ. Chương trình được xây dựng với các lớp chính sau đây dùng để xử lý đối sánh lược đồ XML.

WordList.java Lớp duyệt trong cơ sở dữ liệu từ vựng WordNet lấy ra tập các từ đồng nghĩa. TreeSchema.java Lớp xây dựng lược đồ XML theo hình cây đồ thị lsimObject.java Lớp chứa sự tương đồng giữa 2 nút trong lược XML. HirstOnge.java Lớp đối sánh lược đồ XML có xét đến sự tương đồng kiểu dữ liệu AnaPath.java Lớp đo độ tương đồng giữa 2 đường dẫn.

MaTable.java Lớp sử lý đưa ra dạng bảng độ tương đồng giữa các nút trong đồ thị lược đồ. SimilerNode.java Lớp đo độ tương đồng cấu trúc DoanFrame.java Lớp xử lý giao diện của chương trình Doan.java Lớp chính thực thi chương trình. Chương trình bao gồm các lớp dùng để phân tích lược đồ XML và tính toán được sự tương thích ngữ nghĩa giữa 2 lược đồ nguồn và đích.

Giao diện chính của chương trình bao gồm các nút trên Menu dùng để thực hiện các công việc cần thiết trong việc đối sánh lược đồ. + Reject: đối sánh cấu trúc hiển thị dạng đường dẫn sau khi đã loại bỏ những giá trị nhỏ hơn ngưỡng. Trong chương này ta đã xây dựng một chương trình đối sánh để kiểm tra những thuật toán đã trình bầy trong chương 2.

Đồng thời ta cũng đưa ra những lý thuyết để có thể giải quyết bài toán này như: cách khai thác từ điển WordNet bằng cách sử dụng thư viện JWNL, phân tích lược đồ bằng cách sử dụng thư viện Xsom. Muốn vậy ta phải tìm hiểu các gói của thư viện, các chức năng một số lớp trong các gói đó, cuối cùng ta xây dựng bản phân tích và thiết kế hệ thống của chương trình.

Hình 3.1: BiVu đ  Use case tdng thV c%a h  th ng
Hình 3.1: BiVu đ Use case tdng thV c%a h th ng

So sánh và đánh giá

^ Sau khi đối sánh thuật ngữ có xét tính tương thích kiểu dữ liệu, ta sẽ tính toán đưa ra độ tương đồng nút để cho ra kết quả cuối cùng trong quá trình đối sánh 2 lược đồ đã nạp vào. Có rất nhiều thuật toán chúng ta có thể khai thác từ điển Wordnet để đưa ra độ tương đồng về mặt ngôn ngữ giữa các từ như thuật toán của Gabr, ELKB, WN Edges, Hirst. Mặt khác Hirst&Onge công bố cách mà họ khai thác wordnet như thế nào,đồng thời cách cài đặt khá đơn giản, cón các thuật toán khác họ không công bó cách má họ đã khai thác wordnet, công thức tính toán phức tạp.

Tuy ta quan tâm nhiều hơn đến độ tương đồng về mặt cấu trúc giữa hai từ nhưng kết quả của giải thuật Hirst&Onge cũng ảnh hưởng rất lớn đến kết quả chương trình của ta. Một trong các kỹ thuật này là tính toán precision và recall (là các phép đo bắt nguồn từ lĩnh vực truy lục thông tin, được sử dụng trong lĩnh vực đối sánh lược đồ nhằm đo chất lượng đối sánh). Ta phân biệt ba tập: tập các đối sánh chính xác được phát hiện bởi con người, ký hiệu là A, tập các ánh xạ tạo ra bởi hệ thống đối sánh tự động, ký hiệu là C.

Ta giả thiết rằng A là hoàn hảo, tức là không có ánh xạ chính xác ngữ nghĩa nào tồn tại bên ngoài tập này và không có ánh xạ không chính xác ngữ nghĩa nào có trong tập này. $% # : cũng bắt nguồn từ lĩnh vực truy lục thông tin, nó kết hợp precision và recall với độ quan trọng bằng nhau, là biến thể chung nhất của một hàm kết hợp tổng quát hơn FOmeasure(α) mà tham số hóa độ quan trọng của cả precision và recall. & # : là một phép đo kết hợp để đo chất lượng ánh xạ, cụ thể hơn là xem xét các nỗ lực cần thiết để hủy bỏ các đối sánh sai và thêm vào các đối sánh còn thiếu.

Tiến hành kiểm tra, và đánh giá phép đo với tập lược đồ mẫu ta thấy độ tương đồng nút của hai lược đồ có độ chính xác khá cao, nhưng đồng thời cũng có nhiều đối sánh không chínhxác. Dựa trên các kết quả này và các giải thuật trong một số tài liệu tham khảo cho bước đối sánh cấu trúc, em đã cài đặt đưa ra được kết quả đối sánh cuối cùng và đánh giá độ chính xác dựa trên các tiêu chí thông dụng. Từ kết quả của bước trên em tính được độ tương đồng của hai lược đồ bằng cách cài đặt giải thuật đo độ tương đồng dựa trên một ý tưởng đã được công bố cho nguồn dữ liệu DTD.

Chưa cài đặt cụ thể giải thuật phân cụm lược đồ XML để kiểm tra kết quả mà chỉ dựa vào các kết quả đã được công bố để chứng minh tính đúng đắn. Mặc dù đã cố gắng hoàn thiện nhưng do thời gian có hạn nên em mới chỉ xây dựng được một hệ thống với giao diện đơn giản và mới thực hiện được với một số lược đồ XML để kiểm nghiệm độ chính xác của kết quả đối sánh, chưa được đầy đủ như những công cụ khác đã được thực tế thừa nhận. WordNet là một từ điển đa lĩnh vực nên cần xây dựng một từ điển chuyên ngành dựa vào WordNet để áp dụng vào các lĩnh vực khác nhau, khi đó sẽ giảm được thời gian chạy chương trình.

Hình 4.2: Đ i sánh có xét tính tương thích kiVu d* li u
Hình 4.2: Đ i sánh có xét tính tương thích kiVu d* li u