1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Áp dụng Argumentation vào so trùng các lược đồ khái niệm trong tìm kiếm thông tin trên thư viện điện tử

72 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Áp dụng Argumentation vào so trùng các lược đồ khái niệm trong tìm kiếm thông tin trên thư viện điện tử
Tác giả Nguyễn Xuân Nam
Người hướng dẫn PGS. TS. Quản Thành Thơ
Trường học Trường Đại học Bách Khoa, ĐHQG Tp. HCM
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Tp. HCM
Định dạng
Số trang 72
Dung lượng 1,34 MB

Cấu trúc

  • Chương 1: GIỚI THIỆU VẤN ĐỀ (12)
    • 1.1 Giới thiệu đề tài (12)
    • 1.2 Mục tiêu và phạm vi nghiên cứu của đề tài (14)
    • 1.3 Ý nghĩa của đề tài (14)
      • 1.3.1 Ý nghĩa khoa học (14)
      • 1.3.2 Ý nghĩa thực tiễn (14)
  • Chương 2: CƠ SỞ LÝ THUYẾT (16)
    • 2.1 Thƣ viện điện tử và giao thức truy xuất thông tin Z39.50 (16)
    • 2.2 Lý thuyết về so trùng lƣợc đồ (17)
    • 2.3 Lý thuyết về argumentation (18)
      • 2.3.1 Lý thuyết về abstract argumentation (18)
      • 2.3.2 Lý thuyết về logic argumentation (20)
      • 2.3.3 Áp dụng lý thuyết argumentation vào hòa giải xung đột (21)
    • 2.4 Các độ đo sự chính xác (22)
  • Chương 3: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN (23)
    • 3.1 Các hệ thống truy hồi thông tin thƣ viện điện tử (23)
    • 3.2 Các nghiên cứu về so trùng lƣợc đồ khái niệm (24)
    • 3.3 Các nghiên cứu về argumentation (26)
  • Chương 4: HƯỚNG TIẾP CẬN ĐỀ TÀI VÀ GIẢI PHÁP (28)
    • 4.1 Giới thiệu vấn đề (28)
    • 4.2 Mô hình đề xuất (28)
      • 4.2.1 Kiến trúc tổng quan hệ thống (29)
      • 4.2.2 Framework hòa giải xung đột (30)
    • 4.3 Thực hiện giải pháp (38)
      • 4.3.1 Thu thập dữ liệu từ các thƣ viện điện tử trên internet (38)
      • 4.3.2 Hiện thực các thuật toán so trùng lƣợc đồ khái niệm (40)
      • 4.3.3 Hiện thực phương pháp argumentation (48)
  • Chương 5: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ (53)
    • 5.1 Tập dữ liệu (53)
    • 5.2 Kết quả thực nghiệm (54)
      • 5.2.1 Kết quả thực nghiệm các thuật toán so trùng lƣợc đồ (54)
      • 5.2.2 Kết quả thực nghiệm trên giải pháp đề xuất (54)
  • Chương 6: TỔNG KẾT (59)
    • 6.1 Những công việc đã thực hiện (59)
    • 6.2 Đóng góp của đề tài (59)
    • 6.3 Hướng phát triển tiếp theo (59)
  • Tài liệu tham khảo (61)
  • Phụ lục (65)

Nội dung

HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA --- NGUYỄN XUÂN NAM ÁP DỤNG ARGUMENTATION VÀO SO TRÙNG CÁC LƯỢC ĐỒ KHÁI NIỆM TRONG TÌM KIẾM THÔNG TIN TRÊN THƯ VIỆN ĐIỆN TỬ Chuyên ngành: KHOA HỌ

GIỚI THIỆU VẤN ĐỀ

Giới thiệu đề tài

Trong thời đại bùng nổ internet nhu cầu tìm kiếm thông tin của con người ngày càng tăng cao Đặc biệt, trong lĩnh vực nghiên cứu việc tìm kiếm các thông tin học thuật là rất quan trọng Những thông tin này có thể được lưu trữ rải rác trên các các website và chúng ta có thể tìm kiếm chúng khá dễ dàng thông qua các công cụ tìm kiếm như Yahoo, Google hoặc có thể được lưu trữ một cách có hệ thống trên các thƣ viện điện tử

Trên các thư viện điện tử, thông tin được lưu trữ dưới dạng kỹ thuật số và mỗi thƣ viện lại có kiến trúc và cách hiện thực khác nhau Do đó, để có thể truy cập và tìm kiếm thông tin người dùng cần có kiến thức riêng biệt cho từng thư viện điện tử khác nhau Đây thực sự là một sự trở ngại cho việc phát triển của hệ thống thƣ viện điện tử Do đó các giao thức chuẩn (ví dụ nhƣ Z39.50) đƣợc đề xuất để có giải quyết vấn đề trên

Thông qua các giao thức nhƣ Z39.50 các hệ thống máy tính có thể truy vấn thông tin từ các thƣ viện điện tử Các thông tin của thƣ viện điện tử đƣợc tổ chức trong lƣợc đồ cơ sở dữ liệu, nó mô tả các khái niệm học thuật và mối quan hệ của chúng được lưu trữ trong thư viện điện tử

Trong thực tế, mặc dù mỗi thƣ viện điện tử có một lƣợc đồ riêng nhƣng có những khái niệm tương đồng được định danh khác nhau trong những thư viện khác nhau

Trong Hình1-1 là một ví dụ minh họa, thông tin tác giả Authors đƣợc trình bày khác nhau ở các lƣợc đồ khác nhau Khái niệm Authors xuất hiện ở một lƣợc đồ, nhƣng ở một lƣợc đồ khác định nghĩa Other Authors và một lƣợc đồ khác lại chia nó làm hai khái niệm phụ Conference Name và Personal Name

Hình 1-1 Các ánh xạ của cùng một khái niệm trên các lƣợc đồ khác nhau

Con người có thể dễ dàng nhận ra sự giống nhau của những thuộc tính như vậy

Tuy nhiên, đối với hệ thống tự động tìm kiếm thông tin từ nhiều thƣ viện điện tử khác nhau, việc không thống nhất từ khóa làm nảy sinh một vấn đề nghiêm trọng

Một hướng nghiên cứu nổi tiếng để giải quyết vần đề này là so trùng lược đồ

(schema matching) Đã có những thuật toán khác nhau thực hiện tự động việc so trùng lƣợc đồ

Nhƣng hầu hết các thuật toán đều dựa trên dự đoán để giải quyết việc đồng nhất từ khóa, do đó khi áp dụng trên những bộ dữ liệu khác nhau sẽ cho ra kết quả khác nhau hoặc thậm chí là mâu thuẫn với nhau [27] Ví dụ, trong Hình 1-1, một thuật toán so trùng Authors với Other Authors (ánh xạ c1), và một thuật toán khác chỉ ra rằng có thể so trùng Authors với cả 2 khái niệm Personal Name và Conference

Name (ánh xạ c2 và c4) Để có đƣợc kết quả chính xác từ các thuật toán so trùng lƣợc đồ khái niệm, trên thực tế, các nhà chuyên gia sẽ phải điều chỉnh các kết quả ánh xạ Nhƣng đối với sự gia tăng về quy mô dữ liệu và kết quả ánh xạ, quá trình này sẽ không còn khả thi Để giải quyết vấn đề này, chúng tôi trình bày một phương pháp dựa trên hòa giải xung đột (conflict reconciliation), trong đó các quyết định so trùng các khái niệm đƣợc phát biểu nhƣ là các lập luận (arguments) Dựa trên các lập luận, chúng tôi có thể phát hiện ra những xung đột (conflicts) và lựa chọn lập luận hợp lý hơn để giải quyết các xung đột

Mục tiêu và phạm vi nghiên cứu của đề tài

Đề tài nghiên cứu ứng dụng phương pháp argumentation để giải quyết bài toán so trùng lược đồ khái niệm của các thư viện điện tử, nhằm mục đích xây dựng một ứng dụng minh họa cho hệ thống truy xuất thông tin từ nhiều thư viện điện tử trên internet Do sự khác biệt về kiến trúc và cách hiện thực của các thư viện điện tử, phương pháp argumentation đóng vai trò quan trọng trong việc giải quyết xung đột kết quả, từ đó giúp truy xuất thông tin học thuật từ nhiều nguồn hiệu quả hơn.

Ý nghĩa của đề tài

Phương pháp lập luận là một khía cạnh quan trọng để giải quyết xung đột trong lập luận Việc sử dụng một thuật toán so trùng lược đồ đơn lẻ thường dẫn đến kết quả không đầy đủ hoặc có sai sót Mặt khác, sử dụng nhiều thuật toán so trùng lược đồ khác nhau có thể dẫn đến kết quả khác nhau hoặc thậm chí mâu thuẫn do sự không đồng nhất về kiến thức.

Những phương pháp tiếp cận trước đó [18] cần có sự tham gia của các chuyên gia để điều chỉnh các ánh xạ kết quả cho chính xác Thêm vào đó sự gia tăng về quy mô dữ liệu làm cho quá trình giải quyết xung đột bằng tay sẽ không còn khả thi Đó là lý do đề tài áp dụng phương pháp argumentation vào hòa giải xung đột trong quá trình so trùng lƣợc đồ khái niệm một cách tự động, mặc dù phải trả giá bằng việc độ chính xác bị giảm tuy nhiên kết quả cho thấy F-measure vẫn cao

So với việc sử dụng từng thuật toán so trùng lược đồ khái niệm riêng lẻ Hướng tiếp cận của luận văn tuy đơn giản nhƣng khả thi để hỗ trợ cho quá trình tích hợp thông tin, giúp hệ thống tìm kiếm thông tin trên thƣ viện điện tử hoạt động một cách dễ dàng và cho kết quả chính xác

Trong nghiên cứu khoa học việc tìm kiếm các tài liệu học thuật là hết sức quan trọng Nó ảnh hưởng lớn đến thời gian, công sức cũng như kết quả của quá trình

4 nghiên cứu Việc tìm kiếm thông tin chính xác giúp cho các nhà nghiên cứu có định hướng và tiết kiệm thời gian tìm kiếm

Phương pháp argumentation hỗ trợ giải quyết xung đột bằng cách đưa ra các luận điểm phản biện, thúc đẩy việc tích hợp thông tin từ nhiều nguồn Điều này giúp tăng độ chính xác khi tìm kiếm thông tin từ các thư viện điện tử.

CƠ SỞ LÝ THUYẾT

Thƣ viện điện tử và giao thức truy xuất thông tin Z39.50

Thƣ viện điện tử (Electronic library) hay còn đƣợc gọi là thƣ viện số (Digital library) là một thư viện chứa các bộ sưu tập được lưu trữ dưới dạng số hóa và nó cho phép các hệ thống máy tính có thể truy cập và truy xuất thông tin

Thƣ viện điện tử không phải là sự thay thế cho thƣ viện truyền thống mà thƣ viện điện tử là một hình thức phát triển của thƣ viện truyền thống

Một số ƣu điểm của thƣ viện điện tử:

 Khả năng lưu trữ một khối lượng lớn các tài nguyên thông tin khác nhau

 Khả năng truy cập thông tin một cách đồng thời

 Cung cấp khả năng truy xuất, quản lý các tài nguyên thông tin phân tán

 Đáp ứng nhu cầu truy cập của người dùng liên tục 24/7

 Quản lý tài nguyên thông tin đa ngôn ngữ

Tuy nhiên, thư viện điện tử cũng tồn tại một số hạn chế, điển hình là vấn đề bản quyền Do tài liệu số dễ sao chép, lưu trữ, đặc biệt trong môi trường mở như Internet, các thông tin giá trị dễ bị tấn công, đánh cắp bất hợp pháp Vì vậy, thư viện điện tử cần áp dụng nhiều biện pháp bảo mật để hạn chế các cuộc tấn công, xâm phạm từ bên ngoài nhằm bảo vệ quyền tác giả và quyền sao chép hợp pháp tác phẩm.

Z39.50 là một tiêu chuẩn truy xuất thông tin đƣợc đƣa ra bởi tố chức Chuẩn Thông Tin Quốc Gia – viện Tiêu Chuẩn Quốc Gia Mĩ (NISO/ANSI) vào năm 1988

Z39.50 đƣợc thiết kế để hỗ trợ cho việc tìm kiếm và truy xuất thông tin trong môi

6 trường mạng phân tán (như full text documents, bibliographic data, images, multimedia)

Giao thức này cho phép một người dùng sử dụng một chương trình máy tính (client) để gửi yêu cầu tìm kiếm thông đến nhiều máy chủ dữ liệu (server) khác nhau mà không cần phải biết cách tìm kiếm trên từng máy chủ dữ liệu đó Sau đó các client sẽ xử lý các kết quả từ các server này và hiển thị chúng với người dùng.

Lý thuyết về so trùng lƣợc đồ

So trùng lƣợc đồ (schema matching) đã đƣợc công nhận là một trong những hoạt động quan trọng nhất theo yêu cầu của quá trình tích hợp dữ liệu Nhiều kỹ thuật và các công cụ [4] đã đƣợc đề xuất để làm điều đó bằng cách trực tiếp so trùng từng cặp Tuy nhiên, nhƣ kết quả đầu ra vốn đã không chắc chắn, vẫn còn rất nhiều sai lệch và không thích hợp về những ràng buộc nhất quán các phương pháp so trùng lược đồ Tóm lại, một mạng lưới so trùng lược đồ bao gồm một tập hợp các lược đồ và một tập hợp các phương pháp so trùng được tạo ra giữa chúng Công việc chính là phát hiện ràng buộc vi phạm trong mạng và từng bước giải quyết những hành vi vi phạm Định nghĩa một mạng so trùng nhƣ là một bộ (S, Gs, , C), với S là tập các lƣợc đồ, Gs là đồ thị tích hợp tương ứng là tập các ràng buộc, C là tập các dự tuyển tương ứng

 Tập các lƣợc đồ: Một lƣợc đồ S = {a1, a 2 , a 3 , …, an} là một tập hữu hạn các thuộc tính Tập hợp các lƣợc đồ S = {S1,S 2 ,…,Sn} đƣợc xây dựng từ những thuộc tính duy nhất

Ví dụ Si Sj=∅ với 1 i, j n và i

 Đồ thị tích hợp Gs: Đại diện cho lƣợc đồ đƣợc so trùng trong mạng

Ví dụ: Các đỉnh trong V(Gs) là các nhãn trong lƣợc đồ từ tập S và nếu có sự tương quan giữa hai lược đồ sẽ có cạnh nối giữa hai đỉnh

Tập dự tuyển tương ứng C là tập bao gồm tất cả các dự tuyển từ các cạnh của mỗi cặp tương ứng trên đồ thị Gs Nghĩa là, với mỗi cặp cạnh trên đồ thị Gs, tập C sẽ bao gồm cả hai cạnh đó.

 Tập các ràng buộc : Cho * + là một tập hữu hạn các ràng buộc

Ràng buộc nhằm chọn ra tương quan liên quan đến sự mong đợi mà người dùng trên một so trùng hợp lệ Một ví dụ phổ biến là ràng buộc 1-1, nó ngăn cản tình huống mà một thuộc tính tương ứng với nhiều hơn một thuộc tính đơn khác

Một kết quả so trùng lƣợc đồ D là hợp lệ nếu nó thỏa mãn các ràng buộc trong

Ví dụ 1 Cho hai lƣợc đồ S1, S 2 với S 1 ={a 1 , a 2 , a 3 }, S 2 ={b 1 , b 2 }

Giả sử D={{a1, b2},{a2, b1}} là một so trùng cho Gs Hình 2-1 minh họa cho mạng so trùng lƣợc đồ Gs

Hình 2-1 Minh họa cho mạng so trùng lƣợc đồ

Lý thuyết về argumentation

Argumentation là quá trình tạo ra và đánh giá các đối số Trong đó, bao gồm hai tác vụ quan trọng lập luận trừu tượng (abstract argumentation) và lập luận logic

2.3.1 Lý thuyết về abstract argumentation

Lập luận trừu tƣợng giả định sự sẵn có của lập luận và các tấn công nhƣ các đối tƣợng trừu tƣợng Đƣợc đề xuất trong [32], framework tranh luận là một khái niệm cơ bản trong lập luận trừu tƣợng Định nghĩa 1: Khung tranh luận (Argumentation Framework)

Một khung tranh luận là một cặp trong đó A là tập hợp các lập luận R A×A là mối quan hệ tấn công

Ví dụ 2 Hình 2-2 mô tả một khung tranh luận trừu tƣợng Trong framework này:

Mỗi a ∈ A là một lập luận Một cặp {a, b} ∈ R có nghĩa là a tấn công b, hoặc b bị tấn công bởi a Đối số a đƣợc gọi là phản biện cho b

Hình 2-2 Một khung tranh luận trừu tƣợng đơn giản Định nghĩa 2: Lập luận tấn công (attacked arguments) và lập luận bảo vệ

Cho một tập hợp của các lập luận S A và một lập luận a ∈ A, S tấn công a nếu ∃b∈S : {b, a} ∈ R

S bảo vệ a nếu ∀b∈S : {b, a} ∈ R→S tấn công b

 S = {a, c} bảo vệ c Định nghĩa3: Tập lập luận xung đột tự do (conflict-free argument sets)

Cho một tập lập luận S A, S là xung đột tự do nếu ∄ a, b ∈ S : {a, b} ∈ R

Ví dụ 4 Trong Hình 2-2, {a}, {b} và {c} là tập hợp xung đột tự do Biểu diễn

Attack(S) và Defend(S) tương ứng là tập lập luận tấn công và bảo vệ bởi S Các xung đột tự do của tập S đƣợc ký hiệu là CFree(S), trong đó là true nếu S là xung đột tự do và là false trong các trường hợp khác

Lập luận trừu tƣợng nhằm mục đích phân biệt giữa lập luận đƣợc chấp nhận và bị từ chối thông qua ngữ nghĩa chấp nhận (acceptability semantics) trong [32] Về

9 cơ bản, ngữ nghĩa chấp nhận định nghĩa sự mở rộng (extensions), trong đó có các tập con của A thỏa mãn các ràng buộc dựa trên lập luận tấn công, lập luận bảo vệ và xung đột tự do Định nghĩa 4: Khả năng chấp nhận ngữ nghĩa (acceptability semantics)

Một tập các lập luận S A là:

 admissible nếu CFree(S) = true và S Defend(S)

 complete nếu CFree(S) = true và S = Defend(S)

 preferred nếu S là một completeextensions tối đa

 stable nếu CFree(S) = true và {a | a ∈ S} Attack(S)

 semi-stable nếu S là một completeextensions mà S ∪Attack(S) là tối đa

 grounded nếu S là phần completeextensions tối thiểu

Từ sau [32], đã có các công trình tập trung vào phát triển ngữ nghĩa mới [7, 30], kiểm tra mối quan hệ giữa ngữ nghĩa hoặc định lƣợng lập luận và tấn công bằng trọng số [30] và sở thích của người dùng [12] Kết quả đáng chú ý là các định lý trên hệ thống phân cấp của ngữ nghĩa chấp nhận trong [30] và các khái niệm về trạng thái chấp nhận (acceptance status) trong [8] Định nghĩa 5: Trạng thái chấp nhận (acceptance status)

Với một lập luận a, trạng thái chấp nhận của a đối với một ngữ nghĩa chấp nhận ρ với đƣợc định nghĩa nhƣ sau:

Với Extρ là tập hợp các phần mở rộng liên quan đến ngữ nghĩa chấp nhận ρ

2.3.2 Lý thuyết về logic argumentation

Lập luận trừu tƣợng tính đến không phải là cấu trúc của các lập luận cũng không phải là cơ chế của các cuộc tấn công mà là framework tranh luận Vì vậy, việc áp dụng lý luận vào lĩnh vực khác đòi hỏi thực hiện một framework tranh luận Cho đến nay, lập luận logic (logical argumentation) trong [32] là đề xuất nổi bật nhất

Lập luận logic dựa trên logic cổ điển, xác định cấu trúc và cơ chế của những lời tranh luận Do đó, định nghĩa 6 như sau: Lập luận (argument) là quá trình diễn giải logic nhằm xác định cả cấu trúc của lập luận và các cơ chế của các cuộc tấn công.

Cho một tập hợp hữu hạn cố định Δ của công thức, một lập luận là một cặp

 Φ là tập tối thiểu thỏa mãn α

Vớ dụ 5 , là cỏc lập luận Chỳng ta gọi a = < Φ, α > một lập luận cho α Với α là tuyên bố của a ký hiệu là Claim(a), trong khi Φ là hỗ trợ a, ký hiệu là Support(a) Theo nhƣ trong [32], cơ chế của tấn công bao gồm defeating, rebutting và undercutting Định nghĩa 7: Defeater

< Ψ, β> là một defeater của nếu ∃ 1, , n∈ Φ: β ⊢ ơ ( i) Định nghĩa 8: Rebuttal

< Ψ, β> là một rebuttal của < Φ, α> nếu β ≡ ơ α

Vớ dụ 6 là rebuttal (một defeater) cho

Vớ dụ 7 là một undercut (một defeater) cho

2.3.3 Áp dụng lý thuyết argumentation vào hòa giải xung đột Định nghĩa 10: Cho C là một tập các mối tương quan trong quá trình so trùng lƣợc đồ Chúng tôi định nghĩa:

 Tập các nguyên tố At= * ∈ +

 Tập các mệnh đề Cl=* * + ∈ +

11 Định nghĩa 11: Assertion là một mệnh đề chỉ có một biến

Ví dụ 8 Công thức là một assertion không chấp nhập mối tương quan c Định nghĩa 12: Rule là một mệnh đề có nhiều hơn một biến

Ví dụ 9 Công thức là một rule không chấp nhận đồng thời cả và

Định nghĩa 13: (Xung đột trực tiếp) Hai công thức và là xung đột trực tiếp nếu nó có logic trái ngƣợc nhau

Ví dụ 10 Công thức và là xung đột trực tiếp Định nghĩa 14: (Xung đột gián tiếp) Hai công thức và là xung đột gián tiếp nếu nó có logic nhất quán nhƣng trở nên trái ngƣợc nhau khi liên quan tới công thức

Ví dụ 11 và là xung đột gián tiếp khi liên quan tới

Các độ đo sự chính xác

Để so sánh độ chính xác của các phương pháp trong đề tài chúng tôi sử dụng độ đo F-measure F-measure đƣợc tính nhƣ trong công thức (1)

(1) Với Precision và Recall đƣợc tính nhƣ công thức (2) và (3)

CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Các hệ thống truy hồi thông tin thƣ viện điện tử

Để tìm kiếm một thông tin học thuật trên internet, ngoài các thông tin chung từ các công cụ tìm kiếm nhƣ Google, một nguồn cung cấp chính cho các nhà nghiên cứu là các thƣ viện điện tử Dựa trên hệ thống máy tính, các thƣ viện điện tử hỗ trợ người dùng tìm kiếm thông tin một cách hiệu quả

Công trình của JeromeDL (http://www.jeromedl.org) cung cấp một kiến trúc hoàn chỉnh cho phát triển thư viện điện tử tích hợp ngữ nghĩa, bao gồm các thành phần như truy hồi thông tin, web ngữ nghĩa, cơ sở tri thức và xử lý ngôn ngữ tự nhiên Ngược lại, CDS Invenio (http://invenio.info/) hỗ trợ các định dạng dữ liệu chuẩn và được lưu trữ trên cơ sở dữ liệu lớn của CERN, cho phép tìm kiếm nâng cao trên siêu dữ liệu.

Trong một nghiên cứu khác [28] giới thiệu một phương pháp truy hồi thông tin dựa trên chủ đề trong thƣ viện điện tử, trong đó tập trung vào việc phát triển cơ sở tri thức dựa trên chủ đề và liên kết chúng với các thông tin và tài liệu trong thƣ viện điện tử Sử dụng các kỹ thuật gom cụm trong truy hồi thông tin để tổ chức các loại tài liệu tốt hơn Cinque và các cộng sự đã tiến hành truy hồi thông tin thƣ viện điện tử dựa trên ontology [11] Trong [6] là một công trình nổi bật về phát triển một ứng dụng truy vấn các thƣ viện điện tử Điểm chính của hệ thống này là sử dụng hệ

13 thống KAON2 trong việc xây dựng các ontology, từ đó hỗ trợ truy vấn SPARQL dựa trên ngữ nghĩa

Trong công trình nghiên cứu trước đây của thầy Quản Thành Thơ và các cộng sự [36] hỗ trợ chức năng tìm kiếm nâng cao trên một hệ thống đƣợc gọi là SSWeb sử dụng ontology đƣợc gọi là Scholarly Trong đó, nhóm tác giả phát triển một cơ chế hỗ trợ ánh xạ từ nhiều lƣợc đồ, do đó cho phép lƣợc đồ của các nguồn phân tán thống nhất với lƣợc đồ trung tâm (central schema) của hệ thống

Với sự phát triển của World Wide Web, tìm kiếm thông tin đã phát triển nhƣ một ngành kinh doanh quan trọng trên toàn cầu Trong [23] đã chỉ ra rằng nếu các thư viện điện tử không được chia sẻ và kết nối tốt, người dùng sẽ bị hạn chế trong việc tìm kiếm thông tin khoa học khi sử dụng các công cụ tìm kiếm nhƣ Google, Yahoo hay Microsoft Từ đó đặt ra vấn đề về tổ chức thông tin trong các thƣ viện điện tử theo tiêu chuẩn nhằm cải thiện quá trình tìm kiếm

Trong dự án ICDL [19], giải quyết việc chọn lựa và xử lý sách từ các nước khác nhau, phải trình bày bằng nhiều ngôn ngữ cùng một lúc và giải quyết các vấn đề khác biệt văn hóa Các tác giả đề xuất một phương pháp tổ chức chỉ mục và tìm kiếm trên một số thƣ viện tại các quốc gia khác nhau Cách tiếp cận này cố gắng tìm mô hình chung cho các tài liệu từ nhiều nguồn và nhiều ngôn ngữ khác nhau

Trong các công cụ của ANTAEUS [21], đề cập đến vấn đề tìm kiếm từ các nguồn thông tin tổng hợp từ các thƣ viện điện tử khác nhau Để làm điều này các tác giả đã phát triển một danh mục từ một số thƣ viện điện tử học thuật nhƣ Elsevier ScienceDirect, PudMed và Web of Knowledge, để hỗ trợ cho quá trình tìm kiếm.

Các nghiên cứu về so trùng lƣợc đồ khái niệm

Các nghiên cứu về so trùng lƣợc đồ đã đƣợc thực hiện hơn 25 năm [13] Có rất nhiều kỹ thuật và công cụ thực hiện so trùng lƣợc đồ [4, 14] Sau đây là một số các cách thức cơ bản:

 Element-level matching: Các chỉ số tín nhiệm đƣợc tính toán dựa trên các đặc điểm của một phần tử (nhƣ tên, mô tả, kiểu dữ liệu, phạm vi giá trị, thời hạn, mối quan hệ,…) đƣợc khai thác bằng cách so trùng ngôn ngữ, các kỹ thuật truy hồi thông tin, so trùng dựa trên các nguyên tắc và ràng buộc Thông tin phụ trợ

14 cũng đƣợc sử dụng chẳng hạn nhƣ từ điển, từ viết tắt, đồng âm và các nguồn từ điển liên quan khác

 Structure-level matching: Các phần tử là tương tự nhau nếu các lân cận của nó là tương tự và cùng nhau tạo thành một nhóm có cấu trúc giống nhau Các nhóm cấu trúc biến đổi từ hệ thống phân cấp hoặc nhƣ cây phân cấp thành các thành phần kết nối với nhau hoặc đồ thị Chỉ số tín nhiệm đƣợc lan truyền thông qua các nhóm lƣợc đồ

Ghép dựa trên trường hợp: Các phần tử lược đồ được coi là tương tự nếu các biểu hiện của chúng giống nhau Các kỹ thuật so trùng dựa trên lược đồ (dựa trên phần tử và cấu trúc) cũng có thể được sử dụng để so trùng các biểu hiện Sự giống nhau giữa các phần tử được tính toán dựa trên thống kê, siêu dữ liệu hoặc lớp huấn luyện.

 Combining techniques: Kết hợp trực tiếp một số kỹ thuật cùng một lúc (so trùng lai) để so trùng các phần tử dựa trên nhiều tiêu chí (ví dụ nhƣ tên, loại), hoặc kết hợp một cách thuận tiện (so trùng tổng hợp) nhiều kết quả so trùng khác nhau Chỉ số tín nhiệm đƣợc tính toán đồng thời hoặc tuần tự và sau đó tổng hợp thành kết quả tương ứng cuối cùng

Các kỹ thuật nhƣ trên đƣợc phát triển nhƣ là thành phần cốt lõi trong một loạt các hệ thống so trùng lƣợc đồ và ontology Công cụ trong [37] cung cấp cả so trùng dựa trên cấu trúc và dựa trên phần tử theo nhiều tiêu chí, trong các hình thức so trùng lai hoặc so trùng kết hợp Hầu hết đều hỗ trợ nhiều loại lƣợc đồ (nhƣ XML, OWL, RDF và các định dạng quan hệ) Hơn nữa, tất cả các hệ thống này cũng cho phép người dùng cung cấp thông tin phản hồi để xác nhận kết quả so trùng, các kiến thức biết trước hoặc điều chỉnh các thông số

Sau đó có nhiều công cụ so trùng tiên tiến nhƣ Bmatch [14], Cupid [24], COMA++ [1], ASMOV [20], AgreementMaker [26], AMC [31] và OntoBuilder

[38]… tiếp tục thực hiện các kỹ thuật khác Hầu hết các hệ thống tập trung vào các loại lƣợc đồ bán cấu trúc (ví dụ nhƣ XML, OWL, và RDF) vì tất cả đƣợc chuẩn hóa nhƣ trong [22] (xCBL, OAGI, UBL, RosettaNet, PIDX, OpenTrans, Duns &

Bradstreet, NIEM, CIDX,…) và sử dụng định dạng XSD

15 Đặc biệt trong "Bipartite Matching", bước lựa chọn để đảm bảo các ánh xạ 1:1, có những phương pháp đầy hứa hẹn bên cạnh SMP, cụ thể là Maximum Weighted Bipartite Graph (MWBG) [16] Nhƣ thí nghiệm thực nghiệm trong [26], DOM mang lại kết quả tốt hơn so với SMP Tuy nhiên, giả định của họ là hai lƣợc đồ có cùng kích thước và các mối tương quan không trực tiếp không có sự liên hệ về chỉ số tín nhiệm Bên cạnh đó, nó chỉ thử nghiệm với một công cụ so trùng.

Các nghiên cứu về argumentation

Có nhiều nhà nghiên cứu, nghiên cứu về công việc có sự hợp tác mà trong đó có nhiều người tham gia và có thể xảy ra xung đột Để giải quyết xung đột các bên tham gia phải đàm phán với nhau để đạt thỏa thuận mà hai bên chấp nhận Một khối cơ chế hỗ trợ riêng cho quá trình đàm phán này, bao gồm phương pháp game- theoretical, phương pháp dựa trên heuristic, và phương pháp dựa trên argumentation

[42] Phương pháp tiếp cận dựa trên lập luận trong [43] không chỉ giải thích cho mỗi quyết định của lập luận mà còn là một ngôn ngữ giao tiếp giữa các bên tham gia

Phép biện luận đã được triển khai thành công trong nhiều ứng dụng thực tiễn Trong hệ thống thương mại điện tử, phép biện luận giúp giải quyết xung đột giữa các nhà phân phối trong mạng dịch vụ web và tài nguyên quy mô lớn, cải thiện khả năng tự động hóa của quy trình kinh doanh Trong lập kế hoạch cộng tác và hợp tác, phép biện luận kết hợp với các kỹ thuật khác (như học máy) hỗ trợ người tham gia cộng tác giải quyết vấn đề bằng cách xác định chính sách của mỗi bên Trên nền tảng mạng xã hội, phép biện luận có thể được trích xuất từ ngôn ngữ tự nhiên để xác định các thỏa thuận giữa các thành viên xã hội Trong nghiên cứu này, chúng tôi áp dụng phép biện luận vào lĩnh vực tích hợp dữ liệu.

Từ quan điểm trên, có hai hướng chính trong nghiên cứu lý luận: lập luận trừu tượng (abstract argumentation) và lập luận logic (logical argumentation) Phân loại này có thể đƣợc tìm thấy trong [34], cùng với thảo luận về sự phát triển của nghiên cứu lý luận Tóm lại, lập luận trừu tƣợng đã đƣợc đề xuất trong [32] Trong bài báo

16 đó, tác giả đã sử dụng một khung tranh luận (argumentation framework) để mô tả một hệ thống lập luận và các tấn công (attacks), thực sự đƣợc coi là đối tƣợng trừu tƣợng, do đó tên lập luận trừu tƣợng Ngữ nghĩa chấp nhận lập luận (acceptability semantics of arguments) đã đƣợc nghiên cứu trong [32, 7, 33] Để làm cho lập luận trừu tƣợng áp dụng nhiều hơn, có những nỗ lực để cung cấp cho các định nghĩa cụ thể để lập luận và các tấn công Đề nghị nổi bật nhất là lập luận logic [5], dựa trên logic mệnh đề Đặc biệt, một lập luận là một cặp hỗ trợ (support) và tuyên bố

(claim), trong khi các tấn công đƣợc xác định trên những mâu thuẫn luận lý giữa hỗ trợ và tuyên bố của các lập luận

HƯỚNG TIẾP CẬN ĐỀ TÀI VÀ GIẢI PHÁP

Giới thiệu vấn đề

Do đặc điểm dữ liệu được lưu trữ khác nhau tại các thư viện điện tử khác nhau

Nên khi chuẩn giao thức (nhƣ Z39.50) truy xuất thông tin từ những thƣ viện điện tử khác nhau sẽ cố gắng trả về các kết quả có lược đồ tương tự nhau Điều này làm nảy sinh vấn đề cùng một thuộc tính nhƣng lại có ngữ nghĩa khác nhau

Do đó cần tập tung vào hiện thực các thuật toán so trùng lƣợc đồ cơ sở dữ liệu và phương pháp argumentation để hòa giải xung đột kết quả từ các thuật toán trên

Các cách giải quyết xung đột hiện hữu tại nhiều nền tảng đa số vẫn được thực hiện theo hướng bán tự động, có sự can thiệp của con người để hỗ trợ xử lý Đối với bài toán này, chúng tôi đề xuất sử dụng các ngưỡng chấp nhận ánh xạ đối với các thuật toán so trùng nhằm hỗ trợ cho quá trình tự động hóa.

Mô hình đề xuất

Hệ thống RDLSearch dựa trên kỹ thuật hòa giải xung đột cho phép tìm kiếm thông tin trong nhiều thư viện điện tử Cấu trúc của RDLSearch bao gồm các thành phần của công cụ tìm kiếm thông thường như thu thập thông tin, truy xuất thông tin và dữ liệu được đánh chỉ mục Đặc biệt, hệ thống này được tích hợp thêm một thành phần hòa giải xung đột, giúp giải quyết các mâu thuẫn trong quá trình tìm kiếm thông tin.

Thành phần này đƣợc sử dụng để xử lý các cuộc xung đột có thể xảy ra khi ánh xạ các lƣợc đồ giữa nhiều thƣ viện điện tử

4.2.1 Kiến trúc tổng quan hệ thống

Chức năng chính của thành phần thu thập dữ liệu là để thu thập thông tin học thuật từ nhiều thư viện kỹ thuật số trên internet Thông thường, mỗi thư viện điện tử cung cấp một giao diện người dùng web (GUI) cho người sử dụng bình thường để tìm kiếm thông tin một cách thuận tiện Bên cạnh đó, thông tin từ các thƣ viện kỹ thuật số cũng có thể đƣợc lấy tự động thông qua giao thức Z39.50

Thành phần thu thập dữ liệu có thể lấy thông tin của một thƣ viện kỹ thuật số nhất định Có hai loại thông tin đƣợc thu thập: lược đồ thông tin tổ chức trong các thƣ viện điện tử (schema) và các mô tả tài liệu (document decriptions) chứa thuộc tính quan trọng của tài liệu (nhƣ tác giả, tiêu đề, thông tin xuất bản )

Hình 4-1 Kiến trúc hệ thống RDLSearch Để lưu trữ và đánh chỉ số cho lược đồ và mô tả tài liệu được thu thập từ các thư viện điện tử, hệ thống RDLSearch sử dụng lược đồ trung tâm (central schema) và cơ sở dữ liệu trung tâm (central database) Lƣợc đồ trung tâm đƣợc định nghĩa là một lƣợc đồ "chuẩn" trong hệ thống Khi RDLSearch lấy thông tin từ một thƣ viện điện tử mới, lƣợc đồ mới đó sẽ đƣợc trích xuất và ánh xạ vào lƣợc đồ trung tâm

Dựa trên các thuộc tính đƣợc định nghĩa trong lƣợc đồ trung tâm, thông tin mô tả tài liệu sẽ được lập chỉ mục và lưu trữ trong cơ sở dữ liệu trung tâm

19 Ngoài ra, RDLSearch thu thập thông tin từ nhiều thƣ viện điện tử qua internet, do đó một bảng ánh xạ lược đồ (schema mapping table) được xây dựng để lưu trữ tất cả các ánh xạ giữa lƣợc đồ của các thƣ viện điện tử thu thập đƣợc và lƣợc đồ trung tâm Khi RDLSearch kết nối với một thƣ viện điện tử mới, các ánh xạ giữa lƣợc đồ trung tâm và lƣợc đồ của thƣ viện điện tử mới sẽ đƣợc tạo ra và thêm vào bảng lƣợc đồ ánh xạ Và các framework hòa giải sẽ chịu trách nhiệm tạo ra nội dung của bảng lƣợc đồ ánh xạ và xử lý xung đột

Dựa trên chỉ mục cơ sở dữ liệu trung tâm, thành phần truy hồi sẽ thực hiện bước truy hồi mô tả (descriptor retrieval) để lấy tài liệu có mô tả phù hợp với các truy vấn được gửi từ người dùng thông qua bước xử lý truy vấn (query processing) Nếu các văn bản đầy đủ của các tài liệu đƣợc truy hồi có sẵn bởi chính sách của các thƣ viện điện tử, bước truy hồi văn bản đầy đủ (full text retrieval) sẽ lấy tài liệu đầy đủ các văn bản tương ứng, hiển thị các kết quả thu thập được cho người sử dụng (result producing)

4.2.2 Framework hòa giải xung đột

Framework hòa giải xung đột (conflict reconciliation framework) là một framework sử dụng một số thuật toán để thực hiện so trùng lƣợc đồ từ nhiều lƣợc đồ cơ sở dữ liệu Framework này cũng có thể có thể xử lý những xung đột từ các kết quả của các thuật toán

Nhƣ minh họa trong Hình 4-2, framework này gồm hai giai đoạn: xác thực đơn lẻ và hòa giải xung đột, trong đó thực hiện các nhiệm vụ sau đây

 Xác thực đơn lẻ: Trong giai đoạn đầu tiên này, chúng ta thực hiện so trùng đơn lẻ, trong đó bao gồm một số thuật toán so trùng Các ánh xạ kết quả của các thuật toán so trùng sẽ đƣợc tích hợp với nhau trong bảng lƣợc đồ ánh xạ Sau đó, thành phần xây dựng lập luận sẽ chuyển đổi các ánh xạ được lưu trữ thành một biểu diễn toán học là lập luận để xử lý tiếp Những lập luận sẽ được lưu trữ trong tập lập luận

 Hòa giải xung đột: Giai đoạn này hòa giải những ánh xạ xung đột, trong đó bao gồm các nhiệm vụ sau:

20 o Phát hiện xung đột: Ánh xạ đã đƣợc chuyển đổi thành lập luận trong giai đoạn đầu tiên, xử lý các lập luận để phát hiện xung đột giữa chúng o Đánh giá lập luận: Khi xung đột giữa các lập luận đƣợc phát hiện, các lập luận liên quan sẽ đƣợc đánh giá để xác định độ mạnh (strength) của nó o Xử lý xung đột: Căn cứ vào mức độ đánh giá các lập luận, sẽ đƣa ra giải pháp Việc xử lý này sẽ dựa trên kết quả đánh giá lập luận trước đó Ánh xạ sẽ đƣợc giữ lại hoặc bị loại bỏ để giải quyết xung đột

Hình 4-2 Framework xử lý xung đột

Lưu ý rằng, giai đoạn hòa giải xung đột sẽ được thực hiện trong nhiều lần Sau khi xung đột đƣợc giải quyết, các lập luận đƣợc cập nhật lại cho phù hợp Toàn bộ quá trình của giai đoạn này sẽ đƣợc lặp lại cho đến khi không còn xung đột

Trong bước này, một số thuật toán so trùng sẽ được sử dụng để tạo ra ánh xạ giữa các lƣợc đồ cơ sở dữ liệu Tận dụng một khối nghiên cứu lớn [2, 35] trong việc sử dụng các thuật toán so trùng để làm tiền đề cho những bước xử lý tiếp theo

Trong luận văn chúng tôi hiện thực ba thuật toán so trùng: so trùng lƣợc đồ dựa trên phần tử, so trùng lƣợc đồ dựa trên thể hiện của dữ liệu và thuật toán kết hợp Tuy

21 nhiên, framework hòa giải xung đột có thể đƣợc mở rộng với thuật toán so trùng mới bất kỳ Đặc điểm chung của những thuật toán so trùng là nó đánh giá ánh xạ bằng một số điểm, có thể dễ dàng chuẩn hóa thống nhất trên tất cả các thuật toán Nếu một thuật toán A đánh giá một ánh xạ m bởi một số điểm S lớn hơn ngƣỡng trên T, chúng ta nói rằng A chấp thuận m Nếu S thấp hơn ngưỡng dưới T, chúng ta nói rằng A không chấp thuận m T có thể đƣợc xác định bằng thực nghiệm Thông thường, nếu một thuật toán tạo ra một ánh xạ giữa các thuộc tính của lược đồ, có nghĩa các thuật toán chấp nhận ánh xạ đó

Hình 4-3 minh họa tình trạng này, trong đó một số ánh xạ giữa ba lƣợc đồ S1, S2 và S3 đƣợc tạo ra bởi ba thuật toán đƣợc gọi là TT1, TT2 và TT3 Bảng 1 thể hiện bảng ánh xạ lược đồ tương ứng ghi lại thông tin của các ánh xạ Giả định rằng ngoài việc chấp nhận ánh xạ c 1 , c 2 và c 3 , TT1 cũng không chấp nhận c 4

Hình 4-3 Ánh xạ giữa các lƣợc đồ

Thực hiện giải pháp

Để hiện thực hệ thống RDLSearch như mô hình đề xuất trong phẩn 4.2 các bước cần phải thực hiện bao gồm:

Hình 4-7 Các bước chính để hiện thực các công việc của luận văn

Để thu thập dữ liệu từ nhiều nguồn thư viện điện tử, chúng tôi sử dụng phần mềm được phát triển từ đề tài "Nghiên cứu và phát triển công cụ tìm kiếm thông tin (crawler/spider) khai thác dữ liệu ở các thư viện số" Đồng thời, chúng tôi cũng mở rộng thêm một số chức năng cho chương trình ArgSM.

(https://code.google.com/p/argsm/) để hiện thực các thuật toán so trùng lƣợc đồ và phương pháp argumentation hòa giải xung đột kết quả các thuật toán

4.3.1 Thu thập dữ liệu từ các thƣ viện điện tử trên internet

Dữ liệu đƣợc crawl về từ nhiều thƣ viện điện tử trên internet với những từ khóa khác nhau Bảng 4-3 thể hiện những thƣ viện điện tử mà luận văn sử dụng để thu thập dữ liệu

Một số từ khóa sử dụng trong quá trình crawl: Computer auditing, Computer science, Database security, Artificial intelligence…

Số lƣợng dữ liệu sau khi crawl là 25,389 record

28 Từ dữ liệu được crawl về thực hiện các bước xử lý nhằm chuẩn bị dữ liệu cho quá trình so trùng lƣợc đồ Dữ liệu đƣợc crawl về dạng chuỗi sẽ đƣợc rút trích thông tin các thuộc tính chứa trong mỗi record

Bảng 4-3 Các thƣ viện điện tử luận văn sử dụng

STT Digital Library Name Host

1 Bond University Robina, Gold Coast, Australia (Aleph) library.bond.edu.au

2 California State Library (Aleph) catalog.library.ca.gov

3 CAVAL Consortium Australia (Aleph) carm.caval.edu.au

4 Central Virginia Community College Lynchburg, VA (Aleph) vccslinc.vccs.edu

5 City University of New York (Aleph) apps.appl.cuny.edu

6 Kaubisch Memorial Public Library Fostoria, OH (SirsiDynix) lsuces.louislibraries.org 7 Lebanon Valley College Annville, PA (SirsiDynix) lsulaw.louislibraries.org

8 Princeton University (VOYAGER) aquinas.sccky.edu

9 Yale University (VOYAGER) libcat.amnh.org

10 Academica Sinica Taiwan (INNOPAC) library.acaweb.org

11 Academy of Natural Sciences Philadelphia (INNOPAC) catalog.asl.edu 12 Alameda County Library Fremont (INNOPAC) vera.cals.lib.ar.us 13 Albert Einstein College of Medicine of Yeshiva University (INNOPAC) libsys.arlingtonva.us 14 Appalachian College Association (INNOPAC) 205.247.101.11 15 Appalachian School of Law Grundy (INNOPAC) 192.245.61.175 16 West Valley College Saratoga (INNOPAC) catalog.libraryvisit.org 17 West Vancouver Memorial Library West Vancouver (INNOPAC) 61.175.198.139

Sau khi nhóm các thuộc tính dữ liệu, chúng sẽ được tổng hợp thành các mẫu (pattern) Mỗi mẫu được xem như lược đồ cơ sở dữ liệu tham gia vào quá trình so trùng lược đồ ở bước tiếp theo Danh sách các mẫu và các thuộc tính trong từng mẫu được thể hiện ở Bảng PL-1 phụ lục.

29 Ngoài ra, dữ liệu sẽ được lưu trữ xuống cơ sở dữ liệu theo dạng thuộc tính và nội dung lưu trữ của thuộc tính để thuận tiện cho việc thực hiện các bước tiếp theo

Một record bao gồm thuộc tính và nội dung của thuộc tính được lưu trữ như Bảng

Bảng 4-4 Lưu trữ record trong cơ sở dữ liệu

The abdominal aortic aneurysm : genetics, pathophysiology, and molecular biology / edited by M David Tilson and Charles D Boyd

Published New York, N.Y : New York Academy of Sciences, 1996

Series Annals of the New York Academy of Sciences v 800

LocalCallNo INTERNET LINK ISBN 1573310506 (cloth : alk paper) 1573310514 (pbk : alk paper)

Conference sponsored by the New York Academy of Sciences and held Mar 7-9, 1996 in New York City Includes bibliographical references and index Einstein: available online via Wiley Online Library See Reference staff for assistance

Aortic Aneurysm, Abdominal physiopathology Congresses Aortic Aneurysm, Abdominal genetics Congresses Electronic books

Otherauthors Tilson, M David Boyd, Charles D

Otherauthors1 Wiley Online Library (Online Service) ControlNo 35521590

Location http://elibrary.einstein.yu.edu/login?url=http://onlinelibrary.wiley.com/doi/10.1 111/nyas.1996.800.issue-1/issuetoc

Note EINSTEIN: Annals of the New York Academy of Sciences

4.3.2 Hiện thực các thuật toán so trùng lƣợc đồ khái niệm Để hiện thực bài toán tìm kiếm thông tin trên thƣ viện điện tử, chúng tôi xây dựng lƣợc đồ trung tâm (central schema) cho bảng dữ liệu trung tâm (central record) Ngoài ra, trong 70 pattern nhƣ trong Bảng PL-1 chúng tôi chọn ra 10 pattern để hiện thực quá trình so trùng lƣợc đồ nhƣ trong Bảng 4-5 Việc lựa chọn pattern thử nghiệm này dựa trên loại thƣ viện của pattern và số lƣợng record của

30 pattern đó Điều đó có nghĩa là 10 pattern đƣợc chọn có số lƣợng record cao của từng loại thƣ viện

Bảng 4-5 Danh sách 10 pattern đƣợc chọn

Pattern GroupAtt Digital Library Name

Title, Published, Description, Series, Local Call No, ISBN, Notes, Subjects, Other authors, Other authors1, Control No., Access, Location, Note

Bond University Robina, Gold Coast, Australia (Aleph)

Title, Published, Description, Series, LC Call No., Dewey No., ISBN, Notes, Subjects, Other authors, Other authors1, Series Entry, Control No., Access,

Location, Note Yale University (VOYAGER)

Author, Title, Published, Description, LC Call No., Dewey No., ISBN, Notes, Subjects, Control No

Kaubisch Memorial Public Library Fostoria, OH (SirsiDynix)

Author, Title, Edition, Published, Description, LC Call No., Dewey No., ISBN, Notes, Subjects, Control No

Title, Published, Description, Series, Local Call No, ISBN, Notes, Subjects, Other authors, Other authors1, Other authors2, Control No., Access, Location, Note,

Alameda County Library Fremont (INNOPAC)

Author, Title, Published, Description, Series, LC Call No., Dewey No., ISBN, Notes, Subjects, Control No

Albert Einstein College of Medicine of Yeshiva University (INNOPAC)

Author, Title, Description, ISBN, Found In, Notes, Subjects, Other authors, Control No., Access, Location

Title, Published, LC Call No., Local Call No, ISSN, Notes, Subjects, Other authors, Control No.,

Access, Location Yale University (VOYAGER)

Uniform Title, Title, Published, Description, Notes, Subjects, Other authors, Control No Yale University (VOYAGER)

Title, Published, Description, LC Call No., ISBN, Notes, Availability, Subjects, Other authors, Other authors1, Series Entry, Control No., Access, Location

Albert Einstein College of Medicine of Yeshiva University (INNOPAC)

Mỗi pattern sẽ đƣợc xem nhƣ một lƣợc đồ và quá trình so trùng lƣợc đồ sẽ đƣợc thực hiện với 5 bộ ba lƣợc đồ Một bộ bao gồm lƣợc đồ trung tâm và 2 pattern trong số 10 pattern đƣợc chọn

Dựa trên cách thức tiếp cận của các phương pháp so trùng lược đồ khái niệm nhƣ đã trình bày ở phần 3.2, trong đề tài này chúng tôi hiện thực ba thuật toán so trùng lƣợc đồ bao gồm:

 So trùng lƣợc đồ dựa trên phần tử

 So trùng lƣợc đồ dựa trên thể hiện dữ liệu

Để dễ trình bày, ta viết tắt các thuật toán so trùng như sau: TT1 (so trùng dựa trên phần tử), TT2 (so trùng dựa trên thể hiện dữ liệu) và TT3 (thuật toán kết hợp).

So trùng dựa trên phần tử: Đây là thuật toán đƣợc hiện thực nhằm tìm ra những ánh xạ giữa hai thuộc tính tương tự nhau dựa vào tên thuộc tính đó trong lược đồ cơ sở dữ liệu Để hiện thực thuật toán này chúng tôi sử dụng kỹ thuật so trùng chuỗi Đầu vào của thuật toán này là ba lƣợc đồ, trong đó chứa đựng thông tin các thuộc tính trong lược đồ Những thuộc tính của hai lược đồ sẽ có giá trị tương quan là 1 nếu hoàn toàn trùng khớp khi so trùng chuỗi Tương tự, giá trị tương quan sẽ là 0.5 nếu hai thuộc tính có một phần so trùng chuỗi giống nhau

32 Các bước của thuật toán:

Bảng 4-6 Kết quả so trùng pattern 1 và lƣợc đồ trung tâm của TT1

Object1 Object2 Attribute1 Attribute2 Value

33 Thuật toán này có thể chỉ ra những ánh xạ giữa những thuộc tính giống nhau ở hai lƣợc đồ, tuy nhiên nó cũng đƣa ra những ánh xạ nhầm lẫn do sự khác nhau về ngữ nghĩa nội dung của thuộc tính trong các lƣợc đồ Bảng 4-6 trình bày kết quả so trùng lƣợc đồ của TT1 pattern 1 và lƣợc đồ trung tâm

So trùng dựa trên thể hiện: Ở thuật toán này chúng tôi quan tâm đến ngữ nghĩa của các thuộc tính trong lược đồ cơ sở dữ liệu, mà ở đây cụ thể là nội dung được lưu trữ của từng thuộc tính

Một kỹ thuật quan trọng được sử dụng trong quá trình hiện thực hóa thuật toán này là mô hình vector tf*idf Nội dung của cùng một thuộc tính trong pattern được xem như một văn bản, và vector tf*idf của văn bản đó sẽ là đại diện cho thuộc tính trong pattern Công thức để tính tf*idf được trình bày trong tài liệu tham khảo [25].

 N: là tổng số tài liệu trong bộ sưu tập

 n(t): là số tài liệu có chứa thuật ngữ t

 idf(t): nghịch đảo tần số xuất hiện của thuật ngữ t

 tf(t, d): tần số xuất hiện của thuật ngữ t trong tài liệu d

 : số lần xuất hiện nhiều nhất của một thuật ngữ bất kỳ trong tài liệu d

KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

Tập dữ liệu

Bảng 5-1 Đặc điểm tập dữ liệu

STT Pattern Số lượng thuộc tính

Để tạo bảng thống kê và dễ trình bày các phần sau, lược đồ trung tâm được ký hiệu là pattern 0 Như Bảng 5-1, mỗi pattern chứa một số lượng thuộc tính Các thuật toán so trùng gồm so trùng dựa trên phần tử (TT1), so trùng dựa trên thể hiện (TT2) và thuật toán kết hợp (TT3) Mỗi bộ 3 lược đồ trong quá trình so trùng lược đồ được ký hiệu là: lược đồ 1_lược đồ 2_lược đồ 3 (ví dụ: 0_1_29 là bộ ba lược đồ central, pattern1 và pattern 29).

Kết quả thực nghiệm

5.2.1 Kết quả thực nghiệm các thuật toán so trùng lƣợc đồ

Chúng tôi tiến hành thực hiện so trùng từng bộ 3 lƣợc đồ nhƣ đã trình bày ở phần trước Kết quả được liệt kê trong Bảng 5-2

Bảng 5-2 Kết quả thực nghiệm các thuật toán so trùng lƣợc đồ

Kết quả trả về của các thuật toán so trùng TT1, TT2 và TT3 lần lƣợt là 187, 172 và 254 tổng cộng 613 kết quả Tổng hợp các kết quả của cả ba thuật toán chúng tôi thu đƣợc 254 ánh xạ đƣợc đánh giá với số điểm khác nhau bởi các thuật toán

5.2.2 Kết quả thực nghiệm trên giải pháp đề xuất

Chúng tôi tiến hành thực nghiệm nhằm so sánh độ chính xác của từng thuật toán so trùng lược đồ riêng biệt và khi áp dụng phương pháp argumentation Chúng tôi thực hiện việc thay đổi các thông số có ảnh hưởng tới kết quả:

 Đối với từng thuật toán riêng biệt: thay đổi ngƣỡng chấp nhận ánh xạ từng thuật toán và

 Áp dụng phương pháp argumentation : thay đổi ngưỡng chấp nhận ánh xạ từng thuật toán và thông số ,  của thuật toán 3 Để đảm bảo kết quả đáng tin cậy chúng tôi đã tiến hành chạy với sự thay đổi của từng tham số nhƣ sau:

 Ngƣỡng chấp nhận thuật toán 1: =0.25 hoặc =0.75

 Ngƣỡng chấp nhận thuật toán 2: [0, 1) độ tăng 0.1

 Ngƣỡng chấp nhận thuật toán 3: o [0, 1) độ tăng 0.1

44 o  [0.1, 0.9] và  [0.1, 0.9] độ tăng 0.1 sao cho +=1 Để so sánh kết quả của các phương pháp chúng tôi chọn ra kết quả tốt nhất của từng phương pháp với ngưỡng chấp nhận ánh xạ tương ứng Chúng tôi tiến hành đánh giá kết quả với độ đo Precision, Recall và F-measure bằng cách xây dựng một bảng chân trị các kết quả ánh xạ Trong bảng chân trị chúng tôi có 254 ánh xạ trong đó 162 ánh xạ đƣợc chấp nhận, sau đó chúng tôi sẽ tính toán kết quả Precision, Recall và F-measure của từng phương pháp

Bảng 5-3 Kết quả thực nghiệm thuật toán 1

STT T1 Approve True Positive Precision Recall F-measure

Bảng 5-4 Kết quả thực nghiệm thuật toán 2

STT T2 Approve True Positive Precision Recall F-Measure

Bảng 5-5 Kết quả thực nghiệm thuật toán 3

STT T3 Approve True Positive Precision Recall F-Measure

Bảng 5-6 Kết quả thực nghiệm argumentation

STT T3 Approve True Positive Precision Recall F-Measure

Từ Bảng 5-3 đến 5-6, ba đồ thị (Hình 5-1 đến Hình 5-3) được tạo ra để trực quan hóa và đánh giá hiệu suất của các phương pháp về độ chính xác (Precision), độ thu hồi (Recall) và độ F (F-measure).

Hình 5-1 Kết quả so sánh Precision của các phương pháp

Độ chính xác của phương pháp argumentation thấp hơn so với các phương pháp khác theo phép đo Precision Khi tăng ngưỡng chấp nhận, độ chính xác của TT1, TT2 và TT3 đều gia tăng Điều này lý giải bởi việc số lượng các ánh xạ được chấp nhận giảm đáng kể, làm số lượng ánh xạ True Positive gần với số lượng ánh xạ được Approve Độ đo Recall trong Hình 5-2 cũng làm rõ thêm về điểm này.

Hình 5-2 Kết quả so sánh Recall của các phương pháp

47 Với độ đo Recall có thể nhận thấy phương pháp argumentation cho kết quả tốt và ổn định hơn so với các phương pháp khác Ngoài ra kết quả còn chỉ ra sự ảnh hưởng rõ rệt của các ngưỡng chấp nhận ánh xạ lên trên kết quả của ba thuật toán so trùng lƣợc đồ Hình 5-3 với độ đo F-measure sẽ cho cho một cái nhìn tổng quan hơn về kết quả của các phương pháp

Hình 5-3 Kết quả so sánh F-measure của các phương pháp

Từ kết quả thực nghiệm với độ đo F-measure có thể thấy phương pháp argumentation cho kết quả tốt hơn hẳn so với thuật toán 1 và thuật toán 2 Trong một vài trường hợp thuật toán 3 cho kết quả tốt hơn argumentation tuy nhiên nhìn chung khi áp dụng argumentation cho kết quả tốt và ổn định hơn

Kết quả tốt nhất khi chạy thực nghiệm phương pháp argumentation là với =0.3,

=0.7, =0.25, =0.2 và =0.3 Khi đó ta có 157 true positive trong tổng số 197 ánh xạ đƣợc chấp nhận và giá trị Precision =0.796954315, Recall=0.969135802 và F-measure=0.874652.

TỔNG KẾT

Những công việc đã thực hiện

Để xây dựng cơ sở lý thuyết vững chắc cho đề tài, cần nghiên cứu phương pháp lập luận, thuật toán so trùng lược đồ khái niệm, hệ thống truy xuất thông tin thư viện điện tử.

Thu thập dữ liệu từ các thƣ viện điện tử trên internet Xử lý dữ liệu đƣợc thu thập làm tiền đề cho các công việc tiếp theo

Hiện thực ba thuật toán so trùng lƣợc đồ: dựa trên phần tử, dựa trên thể hiện, phương pháp kết hợp và chạy các thuật toán với bộ dữ liệu đã qua xử lý, ghi lại kết quả vào bảng lƣợc đồ ánh xạ

Hiện thực phương pháp argumentation để hòa giải xung đột từ kết quả của ba thuật toán so trùng Áp dụng phương pháp argumentation đối với từng những ngƣỡng chấp nhận ánh xạ khác nhau của từng thuật toán, từ đó tiến hành so sánh khi áp dụng argumentation so với trường hợp chạy từng thuật toán riêng lẻ.

Đóng góp của đề tài

Đề xuất và thực hiện phương pháp giải quyết bài toán xung đột dựa trên hòa giải với argumentation, áp dụng vào hòa giải xung đột từ kết quả của các thuật toán so trùng lƣợc đồ, hỗ trợ cho việc tích hợp thông tin trong quá trình tìm kiếm thông tin từ nhiều nguồn thƣ viện điện tử.

Hướng phát triển tiếp theo

Các thuật toán so trùng lƣợc đồ đƣợc hiện thực trong đề tài có độ chính xác chƣa cao do đó ảnh hưởng tới độ chính xác kết quả ánh xạ lược đồ Ngoài ra, trong đề tài này chúng tôi chỉ thực hiện thử nghiệm trên dữ liệu tiếng anh, trong khi dữ liệu được lưu trữ trong các thư viện điện tử bằng nhiều ngôn ngữ khác nhau

Thêm vào đó trong quá trình xử lý xung đột đôi khi gặp phải trường hợp xung đột mà ở đó điểm số chấp nhận và không chấp nhận ánh xạ có giá trị bằng nhau

49 Cần phải có một cơ chế để giải quyết vấn đề này vì nó ảnh hưởng trực tiếp tới độ chính xác kết quả ánh xạ lƣợc đồ cuối cùng

Ngày đăng: 24/09/2024, 05:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w