Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
373,04 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG BÙI VĂN CÔNG SÁNH LƯỢC ĐỒ CHO KHÁM PHÁ DỊCH VỤ WEB Chuyên Ngành: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ Hà Nội - 2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ Phản biện 1: …………………………………………………… Phản biện 2: ………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Dịch vụ Web thành phần ứng dụng sử dụng giao thức mở HyperText Transfer Protocol (HTTP), Extensible Markup Language (XML) Simple Object Access Protocol (SOAP) [2] Chúng thiết kế để hỗ trợ khả tương tác máy tính với mạng Cho đến nay, nhiều cơng ty cung cấp dịch vụ Web tới khách hàng Ví dụ dịch vụ web APIs Google cho phép nhà phát triển phần mềm truy vấn trực tiếp hàng tỉ trang web từ chương trình máy tính cá nhân họ Nhà phát triển sử dụng ngơn ngữ lập trình mà họ ưa thích ví dụ Java, Perl, Visual Studio.Net để phát triển ứng dụng truy cập tới dịch vụ web Google Số lượng dịch vụ Web tăng trưởng với tốc độ bùng nổ, điều đặt thách thức lớn độ xác, tính hiệu tự động truy xuất dịch vụ cho người dùng Khám phá dịch vụ trình đánh giá truy vấn cho dịch vụ trả tập hợp dịch vụ tương thích Mục đích khám phá dịch vụ để tìm dịch vụ Web thích hợp với tập hợp yêu cầu người dùng Luận văn tập trung vào kỹ thuật sánh lược đồ, nghiên cứu kỹ thuật sánh lược đồ cho khám phá dịch vụ web, tập trung vào vấn đề mơ hình hóa thao tác sánh dịch vụ Web lược đồ vấn đề liên quan Qua áp dụng kỹ thuật nghiên cứu, tiến hành cài đặt, thử nghiệm để đưa đánh giá, so sánh từ kết đạt Ngoài phần mở đầu, phần kết luận phụ lục, nội dung luận văn trình bày ba chương Chương 1: Dịch vụ web khám phá dịch vụ web Phần trình bày lý đời dịch vụ web; số khái niệm dịch vụ web; kiến trúc; cách biểu diễn dịch vụ web; giai đoạn vòng đời dịch vụ web Chương 2: Kỹ thuật sánh lược đồ cho khám phá dịch vụ web Chương tập trung nghiên cứu kỹ thuật sánh lược đồ cho khám phá dịch vụ web; tập trung vào vấn đề mơ hình hóa thao tác sánh dịch vụ web lược đồ vấn đề liên quan; tiêu chí để phân loại kỹ thuật khám phá dịch vụ web; số thuật toán khám phá Chương 3: Thực nghiệm kết Chương mô tả chi tiết công cụ, liệu, phương pháp, kỹ thuật lựa chọn thực nghiệm tồn q trình tiến hành thực nghiệm Kết thực nghiệm phân tích, so sánh đánh giá CHƯƠNG 1: DỊCH VỤ WEB VÀ KHÁM PHÁ DỊCH VỤ WEB 1.1 Dịch vụ web Một kiến trúc dịch vụ Web gồm có chuẩn chính: SOAP (Simple Object Access Protocol), WSDL (Web Service Description Language) UDDI (Universal Description, Discovery, and Integration) Giao tác UDDI sử dụng SOAP để nói chuyện với UDDI server, sau ứng dụng SOAP yêu cầu dịch vụ Web Các thơng điệp SOAP gửi xác HTTP TCP/IP 1.1.1 Các thành phần dịch vụ web: XML, WSDL, UDDI, SOAP 1.1.1.1 Thành phần XML (eXtensible Markup Language) Là chuẩn mở W3C đưa cho cách thức mơ tả liệu, sử dụng để định nghĩa thành phần liệu trang web cho tài liệu B2B Về hình thức, XML hồn tồn có cấu trúc thẻ giống ngôn ngữ HTML HTML định nghĩa thành phần hiển thị XML lại định nghĩa thành phần chứa Với XML, thẻ lập trình viên tự tạo trang web chọn định dạng thơng điệp chuẩn tính phổ biến hiệu mã nguồn mở Mỗi tài liệu XML bao gồm prolog, số phần tử (element) epilog (tùy chọn) Prolog bao gồm khai báo XML tham chiếu đến tài liệu bên Các phần tử XML có số thuộc tính giống HTML Các thuộc tính cung cấp thêm thông tin phần tử, thông tin phần liệu Một thuộc tính cặp tên – giá trị bên thẻ mở phần tử: 1.1.1.2 Thành phần WSDL (Web Service Description Language) WSDL định nghĩa cách mô tả dịch vụ Web theo cú pháp tổng quát XML, bao gồm thông tin: + Tên dịch vụ + Giao thức kiểu mã hóa sử dụng gọi hàm dịch vụ Web + Loại thông tin: thao tác, tham số, kiểu liệu (có thể giao diện dịch vụ Web cộng với tên cho giao diện này) 1.1.1.3 Thành phần UDDI (Universal Description, Discovery, and Integration) Cấu trúc UDDI : Trang trắng - White pages: chứa thông tin liên hệ định dạng yếu dịch vụ Web, chẳng hạn tên giao dịch, địa chỉ, thông tin nhận dạng… Những thông tin cho phép đối tượng khác xác định dịch vụ Trang vàng - Yellow pages: chứa thông tin mô tả dịch vụ Web theo loại khác Những thông tin cho phép đối tượng thấy dịch vụ Web theo loại với Trang xanh - Green pages: chứa thông tin kỹ thuật mô tả hành vi chức dịch vụ Web Loại dịch vụ - tModel: chứa thông tin loại dịch vụ sử dụng 1.1.1.4 Thành phần SOAP (Simple Object Access Protocol) Cấu trúc thông điệp theo dạng SOAP Thông điệp theo định dạng SOAP văn XML bình thường bao gồm phần tử sau: Phần tử gốc - envelop: phần tử bao trùm nội dung thông điệp, khai báo văn XML thông điệp SOAP Phần tử đầu trang – header: chứa thông tin tiêu đề cho trang, phần tử không bắt buộc khai báo văn Header cịn mang liệu chứng thực, ký số, thông tin mã hóa hay cài đặt cho giao dịch khác Phần tử khai báo nội dung thơng điệp – body: chứa thông tin yêu cầu thông tin phản hồi Phần tử đưa thông tin lỗi – fault: cung cấp thông tin lỗi xảy qúa trình xử lý thơng điệp 1.2 Khám phá dịch vụ web Để thành cơng với dịch vụ Web cần phải quan tâm đến nhiều vấn đề, bao gồm việc triển khai, giám sát tích hợp hệ thống Giám sát (monitoring) Xác định đường liệu (Data routing) Triển khai (Deployment) Quản lý (Management) Cấu hình quản lý phiên (Configuration and version management) Bảo mật (Security) Các phương pháp khám phá dịch vụ web Việc tìm kiếm thao tác dịch vụ web tương tự kết nối lỏng lẻo liên quan tới ba vấn đề sánh khác: sánh tài liệu văn bản, sánh lược đồ, sánh thành phần phần mềm Sánh tài liệu văn bản: Việc sánh phân loại tài liệu vấn đề lớn việc trích rút thơng tin Sánh lược đồ: Cơ sở liệu chung xem xét vấn đề tự động hóa việc sánh lược đồ [17] Sánh thành phần phần mềm: Việc sánh thành phần phần mềm xem việc quan trọng việc tái sử dụng phần mềm [9] 1.3 Kết luận chương Dịch vụ Web tích hợp với nhiều hệ thống ứng dụng tất lĩnh vực khả phát triển giảm độ phức tạp hệ thống, đặc biệt dịch vụ B2B Với dịch vụ Web, doanh nghiệp, khách hàng đối tác kinh doanh dễ dàng hoạt động gắn kết với Việc xây dựng dịch vụ Web cần phải quan tâm đến nhiều yếu tố: kiến trúc, chức tiến trình nghiệp vụ hệ thống, ngơn ngữ sử dụng… Do đó, với dịch vụ Web, việc giao tiếp truyền nhận liệu trở nên dễ dàng hiệu hơn, đồng thời đem lại chi phí thấp tăng cường khả giao tiếp thời gian thực, kết nối với người khắp giới Bản chất tảng công nghệ kiến trúc hướng dịch vụ phát triển dịch vụ Web có tương lai khả quan CHƯƠNG 2: KỸ THUẬT SÁNH LƯỢC ĐỒ CHO KHÁM PHÁ DỊCH VỤ WEB 2.1 Khảo sát đặc trưng dịch vụ web Có giai đoạn để xây dựng dịch vụ Web xây dựng, triển khai, tiến hành quản lý Giai đoạn xây dựng: bao gồm phát triển chạy thử ứng dụng dịch vụ Web, xây dựng chức định nghĩa dịch vụ Giai đoạn triển khai: công bố định nghĩa dịch vụ, xây dựng WSDL triển khai mã thực thi dịch vụ Web Giai đoạn tiến hành: tìm kiếm gọi thực thi dịch vụ Web người dùng muốn sử dụng dịch vụ Quản lý: quản lý quản trị dịch vụ, trì ổn định dịch vụ, cập nhật thơng tin mới, sửa lỗi xảy Qui trình xây dựng dịch vụ Web bao gồm bước sau: a Định nghĩa xây dựng chức năng, dịch vụ mà dịch vụ cung cấp (sử dụng ngôn ngữ Java chẳng hạn) b Tạo WSDL cho dịch vụ c Xây dựng SOAP server d Đăng ký WSDL với UDDI registry phép client tìm thấy truy xuất e Client nhận file WSDL từ xây dựng SOAP client để kết nối với SOAP server f Xây dựng ứng dụng phía client (như sử dụng Java) sau gọi thực dịch vụ thơng qua việc kết nối tới SOAP server Lựa chọn ngơn ngữ, xây dựng tiến trình nghiệp vụ, bắt đầu tạo nên dịch vụ Web cung cấp dịch vụ Internet 2.2 Kỹ thuật sánh lược đồ Các phương thức sánh lược đồ đề xuất [20] Phương thức nỗ lực để xác định tương tự ngữ nghĩa yếu tố hai lược đồ Bởi công việc khảo sát cần bắt đầu với kỹ thuật tương tự ngữ nghĩa mà sử dụng để sánh hai lược đồ 2.2.1 Định nghĩa kỹ thuật sánh lược đồ Kỹ thuật sánh lược đồ hình thức hóa sau: “Cho hai lược đồ, S1 S2, tìm kiếm thành phần tốt lược đồ S1 lược đồ S2 Việc khám phá tất thơng tin sẵn có lược đồ, nguồn thể liệu nguồn từ vựng” 2.2.2 Biểu đồ truyền thống Sánh lược đồ truyền thống xây dựng dựa ý tưởng mà có hai lược đồ cần phải sánh với Khi số lượng lớn việc sánh thực cặp với Vấn đề sánh lược đồ truyền thống cho phép độ tương tự tương ứng thành phần hai lược đồ input Định nghĩa 1: Một ánh xạ tập ánh xạ thành phần, số chúng định thành phần cụ thể lược đồ input tương ứng Công thức xây dựng sau: cho hai lược đồ S1 S2 ánh xạ viết sau M T M , M , , M k , biến nhị phân Ví dụ: Gi1 Gi2 , Mi đại diện cho ánh xạ cho Gi1 S1 , Gi2 S Gi j 2.2.3 Biểu đồ Holistic Việc sánh lược đồ việc khám phá ngữ nghĩa tương ứng thuộc tính lược đồ khác dựa tảng việc tìm kiếm trao đổi liệu thơng qua nguồn thông tin Cách tiếp cận Holistic tạo lược đồ thực tế Việc xây dựng dựa “nội dung ngang hàng với nhau” lược đồ Dựa nội dung thông tin, việc sánh Holistic có nhiều lợi ích chẳng hạn độ 10 o Sánh lược đồ: Là sở liệu chung xem xét vấn đề tự động hóa việc sánh lược đồ [12,13], thơng qua xác định ngữ nghĩa lược đồ đề xuất thao tác sánh dựa chúng o Sánh thành phần phần mềm: việc sánh thành phần phần mềm xem việc quan trọng việc tái sử dụng phần mềm [9] 2.3.2 Thao tác sánh dịch vụ web 2.3.2.1 Mơ hình hóa lược đồ Dựa hai định nghĩa: Định nghĩa 1: dịch vụ Web ba ws = (TpSet, MsgSet, OpSet), TpSet tập kiểu liệu; MsgSet tập tin biến đổi thành kiểu liệu định nghĩa TpSet; OpSet = {opI(inputi,outputi) | i = 1,2,…,n} tập thao tác, inputi outputi tham số (thông điệp) cho việc trao đổi liệu thao tác dịch vụ Web Định nghĩa 2: Mỗi thao tác dịch vụ Web hàm MIMO (multi-inputmulti-output – nhiều liệu vào nhiều liệu ra) có dạng f : s1s2 , , si t1 , t2 , , t j lược đồ XML Gọi f si t j kiểu liệu tương ứng với đặc tả phụ thuộc si / t j thuộc tính phụ thuộc 2.3.2.2 Hiệu chỉnh khoảng cách Bao gồm thao tác hiệu chỉnh sau: - Thay đổi: Để thay đổi nhãn nút thành nút khác - Xóa: Để xóa nút (tất nút nút xóa b trở thành nút nút cha a) - Chèn: Để chèn nút ( Một chuỗi liên tiếp nút con, anh, chị, em nút a trở thành nút nút b) Một số ràng buộc để khoảng cách metric là: (i) (a b) 0; (aa) = (ii) (a b)= (ba); 11 (iii) (a c) ≤ (ab) + (bc) i S Việc mở rộng chuỗi S sau ( S ) i 1 ( Si ) Công thức khoảng cách T1 xác định sau: (T1 , T2 ) ( S ) | S T2 chuỗi thao tác hiệu chỉnh T1 thành T2 Việc định nghĩa tạo khoảng cách metric Ánh xạ Cho T1 T2 hai với N1 N2 nút tương ứng, việc đánh thứ tự T[20] có nghĩa nút thứ i T thứ tự đưa Các thao tác hiệu chỉnh đưa ánh xạ đồ thị đặc biệt mà thao tác hiệu chỉnh áp dụng nút hai Việc định nghĩa (M, T1 , T2 ) ánh xạ từ T1 đến T2 M tập hợp cặp số nguyên (i,j) thỏa mãn: (1)1≤ i ≤ N1, 1≤ j ≤ N2; (2)Đối với cặp (i1, j1) (i2, j2) M Nếu: (a) i1 = i2 j1=j2 (b) T1 i1 bên trái T1 i2 T2 j1 bên trái T2 j2 (thứ tự nút anh, chị, em bảo toàn ) (c) T1 i1 cha T1 i2 T2 [j1] cha T2 [j2] (tính chất tổ tiên bảo tồn) Việc sử dụng M thay tập (M, T1 , T2 ) khơng có nhầm lẫn ta sử dụng M thay cho Cho M ánh xạ từ T1 T2 cho I J tập nút T1 T2 tương ứng không thuộc đường thẳng M Từ đó, định nghĩa hàm chi phí M sau: (M) (T[i] T [j]) (T [i] ) (T [j]) (2.1) (i , j )M iI jJ 12 2.3.2.3 Mơ hình chi phí cho lược đồ Định nghĩa sau: weight n / W T1 ,T2 , if = insert n weight n / W T1 ,T2 , if = delete n cost wd node1, node2 , if relabels sd node , node node to node 2 (2.2) Trong bao gồm thao tác sửa đổi cây, weight(n) trọng số node n, wd(node1, node2) sd(node1, node2) cho biết chênh lệch trọng số ngữ nghĩa node1 node2 trọng số wd sd, thỏa mãn W(T1,T2) định nghĩa sau: W(T1,T2) = weight(T1) + weight(T2) weight(Ti) tổng trọng số tất node Ti(i=1,2), wd(node1,node2) định nghĩa sau: wd node1 , node2 Trong weight(node1 ) - weight(node ) (2.3) W(T1 ,T2 ) node2 T2 2.3.2.4 Chuyển đổi lược đồ XML Định nghĩa 4: Tên tên node node thường chuỗi từ móc xích với nhau, với chữ từ chữ in hoa (ví dụ, Việt Nam) Một tập từ coi nhóm từ Sử dụng (n) để biểu diễn nhóm từ node n Định nghĩa 5: Hai nhóm từ (n1 ) (n2 ) coi giống chúng có từ Hai node coi khác chúng có nhóm từ khác Nhóm từ phản ánh ngữ nghĩa node Định nghĩa 6: Coi cấp độ (n) cấp node n lược đồ T Trọng số node n định nghĩa với hàm trọng số: Trọng số (n) = 2độ sâu lược đồ (T) – mức (n)với nT 13 Trọng số tất node rơi vào khoảng [2,2độ sâu lược đồ (T)] Mỗi trọng số phản ánh tầm quan trọng node lược đồ T Các thao tác hiệu chỉnh, bao gồm thao tác sau: - Split (phân chia): Luật áp dụng cho dãy node - merge (kết hợp): Luật áp dụng cho node liên kết Sau trình kết hợp, node liên kết thay tất node tùy chọn nó, ví dụ thay tất node - delete (xóa): luật áp dụng cho node đa dạng 2.3.2.5 Xác định tính tương tự thao tác dịch vụ web Việc xác định tính tương tự thao tác dịch vụ Web thực chất việc mô tả cấu trúc dịch vụ Web thông qua việc xác định giải vấn đề tìm kiếm: Cấu trúc dịch vụ Web: Đối với dịch vụ web có file WSDL liên kết để mô tả chức giao diện Một dịch vụ web công bố việc đăng ký file WSDL mơ tả UDDI 2.3.3 Giải thuật phân cụm thao tác dịch vụ Web Kỹ thuật sánh lược đồ phân cụm - Một kỹ thuật nhằm nâng cao hiệu cho việc sánh lược đồ cách sử dụng giải thuật phân cụm Giải thuật phân cụm chia lược đồ thành cụm Việc sánh lược đồ phân cụm thực cách thêm bước bước phân cụm hệ thống sánh lược đồ Theo nguyên tắc hiệu hệ thống tính tốn nâng cao theo hai cách Trong thời gian chạy hệ thống tính tốn với số lượng lớn phép tính tốn hiệu hệ thống cải thiện cách: Tiền tính tốn, trường hợp giai đoạn q trình tính tốn thực trước Các kết lưu trữ tái sử dụng thời gian chạy 14 Việc tỉa phép tính tốn trường hợp thời gian chạy kỹ thuật khác sử dụng để tái sử dụng nhằm tối ưu số lượng phép toán thực Hai thuộc tính quan trọng việc nâng cao hiệu hệ thống Ánh xạ - bảo tồn khơng ánh xạ - khơng bảo tồn, tương tự - bảo tồn khơng tương tự - bảo toàn Định nghĩa 1: Hệ thống sánh lược đồ S2 ánh xạ - tiền xử lý nhằm nâng cao hiệu cho hệ thống S1 với vấn đề sánh lược đồ P, Cả S1 S2 tạo tập ánh xạ lược đồ A1=A2 Định nghĩa 2: Hệ thống sánh lược đồ S2 ánh xạ - bảo toàn nhằm nâng cao cho hiệu cho hệ thống S1 với vấn đề sánh lược đồ P, cho với ánh xạ lược đồ T A1 A2 giá trị hàm mục tiêu, tức hai hệ thống S1 S2 tính tốn S1 T , S2 T , Cải thiện hiệu dựa tiền tính tốn bao gồm kỹ thuật: Kỹ thuật gán nhãn nút; Lập mục; Chuỗi so sánh với q-gram; Thuật toán Heuristic 2.3.3.2 Chọn thuật toán phân cụm Tổng quan thuật toán phân cụm Phân cụm xếp khơng có giám sát yếu tố vào nhóm yếu tố Các yếu tố cụm chia sẻ số thuộc tính chung thành phần từ cụm khác không Trong phân cụm đối sánh lược đồ, thuộc tính chung chia sẻ thành phần cụm tiềm thành phần để cung cấp giá trị ánh xạ lược đồ Tất thuật toán phân cụm chia thành hai nhóm: • Thuật tốn phân cấp • Thuật toán phân vùng Giải thuật phân cấp 15 Một khoảng cách (tương tự) ngưỡng trước tiên phải lựa chọn Ngưỡng khoảng cách tối đa cho phép yếu tố phân cụm Đối với ngưỡng khoảng cách nhỏ phần tử thuộc cụm khác Tăng khoảng cách ngưỡng số yếu tố thuộc cụm Thuật toán phân vùng Khơng giống thuật tốn phân cấp, thuật toán phân vùng, tạo tập hợp cụm Một tập hợp điểm cần phải nhóm lại Trọng tâm sử dụng điểm xung quanh cụm hình thành Cụm hình thành cách định tất điểm đến trọng tâm gần So với thuật toán phân cấp, thuật toán phân vùng hiệu chúng tạo cụm lần chạy thiết lập yếu tố Tuy nhiên, vấn đề thuật toán cần phải biết trước số cụm, để ước tính cách xác nơi để hình thành cụm 2.4 Kết luận chương Trong chương mô tả giải pháp để xác định ngữ nghĩa dựa giá trị tối ưu việc sánh lược đồ XML cách sử dụng mơ hình tốn học Giải pháp xác định giá trị tối ưu việc sánh hai lược đồ XML với giả định vấn đề sánh với vấn đề tối ưu tồn cục chia nhỏ thành vấn đề đơn giản sánh phận với phận, nút với nút từ với từ 16 CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Nền tảng phân cụm Trong phần trình bày ba pha q trình phân cụm bao gồm: tiền xử lý, tính tốn độ tương tự, phân cụm - Tiền xử lý: Pha xem xét biểu diễn không đồng lược đồ XML chuỗi Bao gồm hai bước phân tích cú pháp xây dựng chuỗi priifer - Tính tốn độ tương tự: Pha xem xét tính tốn độ tương tự cặp lược đồ XML theo cách có thứ tự để xây dựng nên ma trận độ tương tự mà sau ma trận sử dụng giải thuật phân cụm Để thực điều cần sử dụng hai sánh: sánh ngôn ngữ sánh cấu trúc Bộ sánh ngôn ngữ: Bước xác định giá trị khởi tạo độ tương tự nút lược đồ cây, dựa thuộc tính ngữ nghĩa nút, thử nghiệm, sử dụng thuộc tính tên thuộc tính kiểu liệu Để xác định độ tương tự hai thẻ, sim(t1, t2), ta sử dụng độ tương tự hai chuỗi tính cơng thức sau: simedit (t1 , t )= max t1 , t editDistance t1 , t max t1 , t (3.1) Trong editDistance t1 , t số lượng nhỏ cần thiết thao tác chèn xóa để chuyển đổi chuỗi thành chuỗi khác simtri t1 , t2 Trong tri t1 tri t1 tri t2 tri t1 tri t2 (3.2) tập trigram t1 Bộ sánh cấu trúc: Bộ sánh ngôn ngữ xem xét thông tin nhãn bỏ thông tin cấu trúc Điều định việc sánh bội cấu trúc khác gán nhãn 17 - Phân cụm: Giải thuật thực phần mềm gCluto, cho phép thực phân cụm lược đồ XML Trước tiên, giải thuật tính tốn độ tương tự để đạt ma trận độ tương tự ma trận input cho gCluto, sau đó, giải thuật phân cụm phân cấp lựa chọn tham số điều chỉnh 3.2 Kết thử nghiệm Tập liệu: Trong thử nghiệm sử dụng tập liệu khác với đặc điểm mô tả bảng 3.1 Các tập liệu thu thập từ nguồn http://uisacad2.uis.edu/dstar/data/clusteringdata.html Bảng 3.1: Bộ tóm tắt liệu sử dụng để đánh giá chức phân cụm theo tiêu chí khác STT Tên tập liệu cacmcisi classic Kích cỡ liệu 4658 7089 Các tham số sử dụng phần thực nghiệm: bao gồm phương pháp agglomerative (agglo) hai tham số I1 UPGMA agglo Phương pháp mong muốn đạt k-phân cụm tính tốn cách sử dụng biểu đồ agglomerative với mục tiêu đạt giá trị tối ưu địa phương cực tiểu cực đại với hàm điều kiện phân cụm lựa chọn cách sử dụng tham số -crfun Phương pháp đạt cách dừng q trình tích tụ số cụm cịn lại k - Cơng cụ thực nghiệm: Công cụ dùng làm thực nghiệm luận văn gCULUTO (Graphical CLustering Toolkit - http://www.cs.umn.edu/~cluto/gcluto.) Đây công cụ khai phá liệu phổ biến phát triển Matt Rasmussen, Mark Newman, George Karypis đại học Minnesota Phần mềm cho phép phân cụm liệu, trực quan hóa liệu Phần mềm gCluto cho phép lựa chọn tham số phân cụm nhằm đạt kết tối ưu cho tiêu chí cần đạt người 18 dùng phù hợp với yêu cầu liệu tốn Với u cầu liệu đầu vào có định dạng tập tin sau: matrix file (*.mat) - chứa ma trận dày đặc, ma trận thưa, đồ thị tương tự biểu diễn cho liệu phân cụm row lables (*.rlabel) - chứa nhãn hàng ma trận liệu column labels (*.clabel) - chứa nhãn cột ma trận liệu class labels (*.rclass) – chứa nhãn lớp hàng ma trận liệu Chất lượng cụm đánh giá cách tính tốn giá trị trung bình độ tương tự cụm bên cụm theo công thức IntraSim = k i=1 n i IntraSim Ci n (3.3) Chỉ số đánh giá chất lượng tổng thể phân cấp cách sử dụng tập nhỏ nút Nó tính tốn theo cơng thức sau cho Sr số nút có kích cỡ nr entropy nút dược xác định công thức: q nri nri E Sr log n log q i 1 nr r , (3.4) Trong q số lượng lớp tập liệu nri số lượng tài liệu lớp thứ i mà định tới nút thứ r Mà entropy toàn xác định công thức sau: t E T E S r , r 1 t (3.6) Trong t số nút T Chỉ số entropy thấp giá trị tốt Trước tiên, hai tập liệu đưa vào thử nghiệm ma trận độ tương tự mô tả theo định dạng trình bày phần 19 Thực nghiệm lần 1: Bảng 3.2: Bảng thống kê kích cỡ tập liệu giá trị trung bình ISim Entropy hàm I1 số cụm tương ứng Thực nghiệm tập liệu {cacmcisi, cacmcisi.mat.clabel, cacmcisi.mat.rclass} với hàm điều kiện I1 với số cụm khác nhằm tìm biến động số Số Giá trị trung bình số Giá trị trung bình số Kích cỡ tập cụm ISim số cụm Entropy số cụm liệu 0.027 0.515 4658 0.14575 0.29475 4658 0.312667 0.208 4658 0.351625 0.17075 4658 10 0.3405 0.1373 4658 12 0.3045 0.155167 4658 14 0.315429 0.146286 4658 16 0.321063 0.135 4658 18 0.299722 0.121611 4658 20 0.326 0.10945 4658 Bảng 3.4: Bảng thống kê kích cỡ tập liệu giá trị trung bình ISim Entropy hàm UPGMA số cụm tương ứng Thực nghiệm tập liệu {cacmcisi, cacmcisi.mat.clabel, cacmcisi.mat.rclass} với hàm điều kiện UPGMA với số cụm khác Số Giá trị trung bình Giá trị trung bình số Kích cỡ tập cụm số ISim số cụm Entropy số cụm liệu 0.5065 0.4485 4658 0.64875 0.2245 4658 0.5275 0.350833 4658 0.447375 0.369875 4658 10 0.4167 0.4182 4658 12 0.443083 0.403083 4658 14 0.401786 0.415143 4658 16 0.357063 0.406563 4658 18 0.327278 0.4085 4658 20 0.30915 0.40385 4658 Thực nghiệm lần 2: 20 Thực nghiệm phương pháp với tập liệu {classic, classic.mat.clabel, classic.mat.rclass} số cụm cố định 10 hai hàm điều kiện nhằm tìm khác biệt hai hàm so sánh, rút chất lượng hàm: Bảng 3.5: Bảng thống kê giá trị lớn ISim Entropy với hàm điều kiện I1 Đối với hàm điều kiện I1 Số cụm Giá trị max ISim Giá trị max Entropy Đánh giá 10 0.717 0.485 Bảng 3.6: Bảng thống kê giá trị lớn ISim Entropy với hàm điều kiện UPGMA Đối với hàm điều kiện UPGMA Số cụm Giá trị max ISim Giá trị max Entropy 10 1.000 0.626 Đánh giá Thực nghiệm lần 3: Thực nghiệm tập liệu {cacmcisi, cacmcisi.mat.clabel, cacmcisi.mat.rclass} {classic, classic.mat.clabel, classic.mat.rclass} với phương pháp Agglomerative số cụm 10 hàm điều kiện cố định I1 Nhằm tìm ảnh hưởng kích cỡ liệu tới số Bảng 3.7: Bảng thống kê giá trị lớn ISim Entropy với hàm điều kiện I1 tập liệu cacmcisi Đối với tập liệu: {cacmcisi, cacmcisi.mat.clabel, cacmcisi.mat.rclass} Số cụm Giá trị max ISim Giá trị max Entropy Đánh giá 10 1.000 0.598 Bảng 3.8: Bảng thống kê giá trị lớn ISim Entropy với hàm điều kiện I1 tập liệu classic Đối với tập liệu: {classic, classic.mat.clabel, classic.mat.rclass} Số cụm Giá trị max ISim Giá trị max Entropy Đánh giá 10 0.717 0.485 Từ kết thực nghiệm kết luận sau: Kết luận 21 - Từ Bảng 3.2, Bảng 3.4 cho thấy giá trị trung bình số ISim tập liệu cacmcisi thử nghiệm với hàm I1 là: 0.3405 thử nghiệm với hàm UPGMA là: 0.4167 - Từ bảng Bảng 3.2, Bảng 3.4 cho thấy giá trị trung bình số ISim tập liệu classic thử nghiệm hàm I1 UPGMA tương ứng là: 0.1829 0.2412 - Từ bảng Bảng 3.2, Bảng 3.4 cho thấy giá trị trung bình số Entropy tập liệu cacmcisi thử nghiệm với hàm I1 là: 0.1373 thử nghiệm với hàm UPGMA là: 0.4182 - Kết luận1: hàm UPGMA cho chất lượng số ISim tốt hàm I1 - Kết luận 2: hàm I1 cho chất lượng số Entropy tốt hàm UPGMA - Điều do: Sự khác biệt I1 UPGMA I1 tạo độ tương tự tốt độ tương tự cụm để gộp chúng lại với Si Sj có kích cỡ ni nj tương ứng, μi μj giá trị trung bình độ tương tự tài liệu Si Sj tương ứng, tức là: μi=CitCi μj=CtjCj , ξij giá trị trung bình độ tương tự tài liệu Si tài liệu Sj tức ij Dit D j ni n j Việc gộp hàm UPGMA định dựa ξij Mặt khác, I1 gộp cặp cụm hàm tối ưu tổng thể Thay đổi giá trị tổng thể hàm điều kiện sau gộp hai cụm Si Sj để đạt cụm Sr cho công thức: (3.6) Công thức (3.6) cho thấy giá trị nhỏ μi μj cho giá trị I1 lớn hơn, mà tạo kết nối lỏng cụm để dễ dàng 22 việc gộp Ví dụ, ta xem xét cụm S1, S2, S3, S2 chặt, tức giá trị μ2 cao lớp với S1, S3 lỏng (tức giá trị μ3 thấp) lớp khác S2 S3 có kích cỡ tương tự nhau, với giá trị I1 xác định (2ξij – μi – μj), sau (2ξ13 – μ1 – μ3) lớn (2ξ12 – μ1 – μ2) μ3 nhỏ μ2 , chí, S2 tiến gần tới S1 so với S3, tức (ξ12ξ13) Như kết quả, hai lớp đóng chặt khác biệt nhất, I1 gộp cụm từ lớp với giai đoạn trước Kết luận Từ Bảng 3.2, Bảng 3.4 ta thấy số ISim tỷ lệ nghịch Entropy tỷ lệ thuận với kích cỡ liệu cụm sau phân cụm, nữa, ISim Entropy tỷ lệ nghịch với Mặt khác, từ đồ thị cho thấy giá trị số ISim bắt đầu tăng từ k=2,4 k=6 số ISim đạt giá trị cao nhất, k=6 trở lên số ISim có giá trị ổn định không thay đổi nhiều Kết luận Từ bảng Bảng 3.2, Bảng 3.4 cho thấy giá trị trung bình số ISim 0.3405 thử nghiệm tập liệu cacmcisi với kích cỡ 4658 giá trị trung bình số ISim 0.1829 thử nghiệm tập liệu classic với kích cỡ 7089 Như kết luận số ISim tỷ lệ nghịch với kích cỡ tập liệu Từ Bảng 3.2, Bảng 3.4 cho thấy giá trị trung bình số Entropy 0.1373 thử nghiệm tập liệu cacmcisi với kích cỡ 4658 giá trị trung bình số Entropy 0.1523 thử nghiệm tập liệu classic với kích cỡ 7089 Như kết luận số Entropy tỷ lệ thuận với kích cỡ tập liệu 23 KẾT LUẬN Những nội dung thực được: Dịch vụ web khám phá dịch vụ web: Đã trình bày lý đời dịch vụ web; số khái niệm dịch vụ web; kiến trúc; cách biểu diễn dịch vụ web, tìm hiểu sâu cách miêu tả dịch vụ web dựa thành phần WSDL, UDDI, SOAP; giai đoạn vòng đời dịch vụ web: miêu tả dịch vụ, quảng cáo dịch vụ, lựa chọn dịch vụ, hợp dịch vụ, thực thi dịch vụ, đặc biệt thấy tầm quan trọng việc khám phá dịch vụ Kỹ thuật sánh lược đồ cho khám phá dịch vụ web: Trình bày kỹ thuật sánh lược đồ: biểu đồ truyền thống, biểu đồ Holistic, kiến trúc hệ thống sánh, đồng thời nghiên cứu kỹ thuật sánh lược đồ cho khám phá dịch vụ web thơng qua mơ hình hóa thao tác sánh dịch vụ Web lược đồ cây, hiệu chỉnh khoảng cách cây, mơ hình chi phí cho lược đồ cây, chuyển đổi lược đồ XML Đồng thời xác định tương tự thao tác dịch vụ web Cài đặt thử nghiệm: Tập trung vào việc đánh giá hai cách tiếp cận khám phá dịch vụ web dựa lược đồ phù hợp kết hợp sánh dựa lược đồ dựa mức khám phá dịch vụ web Qua đưa đánh giá, so sánh kết đạt hai cách tiếp cận thông qua mô hình chúng Hạn chế: Luận văn dừng việc nghiên cứu đánh giá cách tiếp cận khác việc khám phá dịch vụ web, chưa có demo cụ thể cho thấy kết Hướng phát triển: Nghiên cứu kỹ thuật khác cho khám phá dịch vụ web so sánh đánh giá 24 Xây dựng demo hoàn chỉnh để thấy kết việc sử dụng kỹ thuật sánh lược đồ cho khám phá dịch vụ web đồng thời so sánh với kỹ thuật sánh khác Nghiên cứu quan hệ trình khám phá lựa chọn dịch vụ ... đời dịch vụ web: miêu tả dịch vụ, quảng cáo dịch vụ, lựa chọn dịch vụ, hợp dịch vụ, thực thi dịch vụ, đặc biệt thấy tầm quan trọng việc khám phá dịch vụ Kỹ thuật sánh lược đồ cho khám phá dịch. .. vụ web; kiến trúc; cách biểu diễn dịch vụ web; giai đoạn vòng đời dịch vụ web 2 Chương 2: Kỹ thuật sánh lược đồ cho khám phá dịch vụ web Chương tập trung nghiên cứu kỹ thuật sánh lược đồ cho. .. thực được: Dịch vụ web khám phá dịch vụ web: Đã trình bày lý đời dịch vụ web; số khái niệm dịch vụ web; kiến trúc; cách biểu diễn dịch vụ web, tìm hiểu sâu cách miêu tả dịch vụ web dựa thành