Hình 4.10: các node tương đồng của hai lược đồ

Một phần của tài liệu Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML (Trang 70 - 73)

Như vậy ta tính được:

Precision: Precision =20/27 *100=74.07% Recall: Recall = 20/31 *100=64.52% FOmeasure: FOmeasure=2*(0.7407*0.6452)/(0.7407+0.6452)*100=68.97% Overall: Overall = 0.6452*(2O1/0.7407)*100=87.16%

Ta có biểu đồ so sánh giữa hệ thống đối sánh của ta với các hệ thống khác

0 10 20 30 40 50 60 70 80 90

Precision Recall F9measure Overall

Gi:i thu5t s;a đ<i Cupid

SF

Độ tương đồng của 2 lược đồ:

shema_sim = 0.067

Tiến hành đo với tập lược đồ mẫu ta có bảng kết quả sau

Source University2 Library1. Library2 University 1 Target Source 0.3584 0.5232 0.3492 0.3376 0.2984 University2 0.1724 0.1651 0.5214 0.2982 Library1 0.4281 0.1238 0.1247 Library2 0.1478 0.3141 University1 0.28917 Target

Bảng thể hiện độ tương đồng của các cặp lược đồ trong tập mẫu

0 0.2 0.4 0.6 0.8 1 1.2 0 2 4 6 8 Source University2 Library1 Library2 University1 Target 4.3 K`t chương

Qua việc đo và hệu chỉnh giải thuật Hirst&Onge ta nhận thấy sự cài đặt của chương trình theo thuật toán Hirst&Onge là khá chính xác. Tiến hành thư nghiêm trên khoảng 30 cặp từ cho ta kêt quả(bảng trên). Đối sánh với kết quả trong “TestCollection” ta thấy độ chính xác khoảng 80%.

Tiến hành kiểm tra, và đánh giá phép đo với tập lược đồ mẫu ta thấy độ tương đồng nút của hai lược đồ có độ chính xác khá cao, nhưng đồng thời cũng có nhiều đối sánh không chínhxác.

KoT LUpN * Những nội dung đã thực hiện:

Cài đặt thành công các giải thuật sửa đổi nhằm nâng cao kết quả đối sánh và đưa ra độ tương đồng giữa các nút của hai lược đồ. Cụ thể hơn, đã cài đặt và kiểm thử cẩn thận giải thuật Hirst&St^Onge, đo độ chính xác đối sánh thuật ngữ dựa trên tập mẫu chuẩn.

Cài đặt và kiểm tra việc hiệu chỉnh kết quả đối sánh thuật ngữ dựa trên tính tương thích kiểu dữ liệu. Bảng tương thích kiểu ở đây được đưa ra dựa trên một số tài liệu tham khảo và có hiệu chỉnh cho phù hợp bài toán.

Dựa trên các kết quả này và các giải thuật trong một số tài liệu tham khảo cho bước đối sánh cấu trúc, em đã cài đặt đưa ra được kết quả đối sánh cuối cùng và đánh giá độ chính xác dựa trên các tiêu chí thông dụng.

Từ kết quả của bước trên em tính được độ tương đồng của hai lược đồ bằng cách cài đặt giải thuật đo độ tương đồng dựa trên một ý tưởng đã được công bố cho nguồn dữ liệu DTD. Việc áp dụng ý tưởng này cho lược đồ XML cũng đã được mô tả. Kết quả của bước này nhằm phục vụ cho bài toán “Phân Cụm Lược Đồ XML”.

* Những nội dung chưa thực hiện:

Chưa cài đặt cụ thể giải thuật phân cụm lược đồ XML để kiểm tra kết quả mà chỉ dựa vào các kết quả đã được công bố để chứng minh tính đúng đắn.

* Hạn chế và hướng phát triển của chương trình:

Mặc dù đã cố gắng hoàn thiện nhưng do thời gian có hạn nên em mới chỉ xây dựng được một hệ thống với giao diện đơn giản và mới thực hiện được với một số lược đồ XML để kiểm nghiệm độ chính xác của kết quả đối sánh, chưa được đầy đủ như những công cụ khác đã được thực tế thừa nhận.

Thời gian chạy chương trình do chính sách tìm kiếm vét cạn của thuật toán Hirst & Onge là khá lâu. WordNet là một từ điển đa lĩnh vực nên cần xây dựng một từ điển chuyên ngành dựa vào WordNet để áp dụng vào các lĩnh vực khác nhau, khi đó sẽ giảm được thời gian chạy chương trình. Các lược đồ càng khác nhau về mặt cấu trúc thì càng mất nhiều thời gian chạy chương trình để tính toán kết quả.

Tài liệu tham khảo

[1]Aida Boukottaya &Christine Vanoirbeek: “Schema Matching for Transforming Structured Documents”

[2]David Carmel, Nadav Efraty, Gad M. Landau, Yoelle S. Maarek, Yosi Mass: “ An Extension of the Vector Space Model for Querying XML Documents via XML Fragments“ [3] Huynh Quyet Thang, Vo Sy Nam: “XML Schema Automatic Matching Solution”. [4]Mong Li Lee, Liang Huai Yang, Wynne Hsu, Xia Yang: “XClust O Clustering XML Schemas for Effective Integration”

[5] Nguyễn Kim Phượng & Trương Kiều Giang trường ĐHKHTN( luận văn tốt nghiệp) “XML_ung_dung”, 2005

[6] “TestCollection“

[7] Tô Nhân Hùng K47ĐHXD( Đồ án tốt nghiệp): “Nghiên cứu và xây dựng công cụ đối sánh tự động lược đồ XML”.

[8] Võ sỹ Nam: Luận văn Thạc Sỹ khoa học – Đối sánh tự động lược đồ XML (2006)

Các website tham khảo:

[1]http://www.w3.org/TR/REC^xml/ [2] http://www.w3.org/TR/xmlschema^0/ [3] http://www.w3.org/TR/xmlschema^2/ [4] http://nlp.stanford.edu/nlp/javadoc/jwnl^docs/overview^summary.html [5] http://sourceforge.net/forum/forum.php?forum_id=106153 [6] http://java.sun.com/docs/books/tutorial/

Một phần của tài liệu Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML (Trang 70 - 73)

Tải bản đầy đủ (PDF)

(73 trang)