Kết quả của Schema Step

II. PJK烏O"X影"XÉ"P浦K"FWPI<

4 Hiện thự c Đánh giá

3.2 Kết quả của Schema Step

3.2.2 Clusering Step

Bước này là bước quan trọng nhất trong tồn bộ q trình: bước này chịu trách nhiệm tìm ra độ giống nhau giữa các tập dữ liệu và đưa ra biện pháp kết hợp (union) chúng lại với nhau. Biện pháp kết hợp chúng sẽ bao gồm hai thông tin: Các tập dữ liệu nào có thể được kết hợp (union) lại với nhau - đây là bài toán gom cụm và các thuộc tính nào là tương đương với nhau giữa các tập dữ liệu. Để có được hai thơng tin trên, tôi đề ra phương pháp như sau. Phương pháp của bước này là sử dụng giải thuật phân cụm phân cấp và độ đo độ giống nhau của dữ liệu, trong luận văn chỉ bao gồm Set Unionability để tìm ra cách để kết hợp (union) các tập dữ liệu với nhau. Phương pháp này được xây dựng trên ý tưởng: các tập dữ liệu càng giống nhau thì sẽ có "khoảng cách"gần nhau, các tập dữ liệu càng khác nhau sẽ có "khoảng cách"xa nhau, vì vậy, vấn đề ở đây sẽ là tìm một độ đo khoảng cách hợp lý. Vấn đề này đã được giải quyết một phần trong [7].

Trong luận văn chỉ sử dụng độ đo độ giống nhau là Set Unionability vì đây là nghiên cứu sơ khởi cho các nghiên cứu về sau. Trong các nghiên cứu về sau, các độ đo khác có thể được dùng để thay thế và bổ sung (Semantic Unionability, Natural Language Unionability, Ensemble Unionability).

Giải thuật phân cụm phân cấp được chọn để làm giải thuật gom cụm trong phương pháp vì tính đơn giản, dễ hiểu của nó cũng như sự phù hợp của giải thuật này với bài toán data union: Kết quả của giải thuật phân cụm phân cấp có thể biểu dữ dưới dạng một cây phân cấp (dendrogram), dựa trên cây phân cấp này, chúng ta có thể sử dụng mơ hình cây phân cấp (dendrogram) này làm thứ tự dùng để union các tập dữ liệu với nhau. Giải thuật phân cụm phân cấp có nhược điểm là sẽ không hoạt động tốt với một lượng lớn dữ liệu. Tuy nhiên, trong ngữ cảnh datastore của cổng dữ liệu mở, giải thuật phân cụm chỉ hoạt động với lượng lớn các tập dữ liệu ở lần đầu chạy giải thuật. Với các lần chạy giải thuật sau, các tập dữ liệu kết quả của lần chạy dữ liệu trước đó có thể được sử dụng thay cho toàn bộ tập dữ liệu cũ. Vì vậy, giải thuật phân cụm phân cấp sẽ khơng có ảnh hưởng quá lớn với các hệ thống khi sử dụng lâu dài.

đo tương tự Similarity Measurement