1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số phương pháo phân lớp dữ liệu và ứng dụng phân lớp dịch vụ web (tt)

21 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 357,34 KB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Phùng Thị Anh MỘT SỐ PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG PHÂN LỚP DỊCH VỤ WEB Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ Hà Nội, Năm 2014 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Ngƣời hƣớng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ Phản biện 1: ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… Phản biện 2: ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: .giờ .ngày .tháng .năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Dịch vụ Web đột phá quan trọng phát triển mạnh mẽ ngành công nghiệp Công nghệ thông tin, dịch vụ Web cho phép tương tác tốt Web lại không phụ thuộc vào tảng ngôn ngữ tự nhiên, phù hợp cho việc truy cập từ môi trường không đồng Với tăng trưởng mạnh mẽ số lượng dịch vụ web mạng, việc tìm kiếm khối lượng liệu khổng lồ ngày trở nên phức tạp Trước đây, việc phân loại thường thực thủ công theo cách định cho dịch vụ vào thể loại phân loại (hay gọi gán nhãn) theo quy tắc đặt Tuy nhiên, cách có nhiều bất cập khối lượng dịch vụ trở nên khổng lồ, kéo theo quy tắc phân loại gia tăng, có nhiều người tham gia trì chia sẻ dịch vụ kho liệu chung Vì vậy, việc cần thiết có chế tự động phân loại dịch vụ web trở nên quan trọng Cơ chế tự động hỗ trợ nhà xuất dịch vụ web (web services publisher) phân loại dịch vụ mà cung cấp cịn người dùng cần đặt truy vấn, trình phân loại tự động xác định loại phù hợp Kết nhà cung cấp dịch vụ người người tiêu dùng khai thác dịch vụ web tốt Nội dung tập trung vào vấn đề sau: Tìm hiểu thuật tốn phân lớp liệu khai phá liệu Nghiên cứu, xây dựng tập liệu mẫu dịch vụ web để thử nghiệm thuật toán phân lớp Thử nghiệm thuật toán phân lớp phần mềm khai phá liệu để từ đánh giá, so sánh kết thuật toán phân lớp cho dịch vụ web 2 CHƢƠNG 1: CỞ SỞ LÝ THUYẾT VỀ PHÂN LỚP DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP DỊCH VỤ WEB Chương trình bày sở lý thuyết đề tài bao gồm lý thuyết khai phá liệu, phân lớp liệu, thuật toán phân lớp liệu; lý thuyết khai phá liệu web nói chung khái niệm, đặc điểm, cấu trúc dịch vụ Web 1.1 Giới thiệu Khai phá liệu 1.1.1 Tại lại cần khai phá liệu Với bùng nổ thông tin thập kỷ gần lượng thơng tin ngày trở nên khổng lồ Làm để khai thác “kho” thơng tin câu hỏi cần thiết đặt Khai phá liệu (Data Mining) đời hướng giải hữu hiệu câu hỏi Có nhiều định nghĩa Data Mining công nghệ tri thức giúp khai thác thơng tin hữu ích từ khó liệu tích trữ suốt q trình hoạt động cơng ty, tổ chức 1.2 Khái niệm Khai phá liệu (Data Mining) trình chắt lọc hay khai phá tri thức từ lượng liệu lớn Theo Frawley, Piatetski-Shapiro Matheus [7] Khai phá bước trình phát triển tri thức sở liệu thi hành thuật tốn khai phá liệu để tìm mẫu từ liệu 3 Hình 1.1 Các bƣớc trình phát triển tri thức cở liệu Khai phá liệu bước thứ bước trình phát triển tri thức cở liệu 1.1.3 Một số kỹ thuật khai phá liệu Các kỹ thuật khai phá liệu bao gồm: Phân lớp (phân loại) liệu (Classification) Phân nhóm/ phân cụm liệu (Clustering) Phân tích luật kết hợp (Asociation Rules) Hồi quy (Regression) Tổng hợp hóa (Summarization) 1.2 Các thuật tốn phân lớp điển hình 1.2.1 Support Vector Machine (SVM) Support Vector Machine (SVM) lần đề xuất Vapnik năm 1960 để phân loại liệu từ thu hút quan tâm cao cộng đồng nghiên cứu máy học 4 SVM phương pháp có tính tổng quát cao nên áp dụng cho nhiều loại toán nhận dạng phân loại Ý tưởng SVM: Là chuyển tập mẫu từ khơng gian biểu diễn Rn chúng sang không gian Rd có số chiều lớn Trong khơng gian Rd, tìm siêu phẳng tối ưu để phân hoạch tập mẫu dựa phân lớp chúng, có nghĩa tìm miền phân bố lớp khơng gian Rn để từ xác định phân lớp mẫu cần nhận dạng Ta hiểu, siêu phẳng mặt hình học f(x) không gian N chiều, với x RN Các ƣu điểm SVM – SVM hiệu để giải tốn liệu có số chiều lớn (ảnh liệu biểu diễn gene,protein, tế bào) – SVM giải vấn đề overfitting tốt (dữ liệu có nhiễu tách dời nhóm liệu huấn luyện ít) – Là phương pháp phân lớp nhanh – Có hiệu suất tổng hợp tốt hiệu suất tính tốn cao Các ứng dụng SVM: – Nhận dạng: tiếng nói, ảnh, chữ viết tay (hơn mạng nơron) – Phân loại văn bản, khai mỏ liệu văn – Phân tích liệu theo thời gian – Phân tích liệu gien, nhận dạng bệnh, cơng nghệ bào chế thuốc – Phân tích liệu marketing – V v 1.2.2 Thuật toán Bayes Thuật toán Bayes thuật tốn phân lớp điển hình học máy khai phá liệu Đây thuật toán sử dụng rộng rãi phân lớp văn Trong học máy, Bayes coi thuật toán học máy chuẩn (base line) để so sách với thuật toán khác Ý tưởng thuật tốn tính xác suất hậu nghiệm kiện c xuất sau kiện x có trogn khơng gian ngữ cảnh t thông qua tổng hợp xác suất tiên nghiệm kiện c xuất kiện x có tất điều kiện T thuộc khơng gian t: p(c|x,t) = p(c|x,T)p(T|x) (với T in t) Định lý Bayes Gọi X = mẫu, thành phần biểu diễn giá trị tạo tập n thuộc tính Theo phương pháp Bayesian, X xem “bằng chứng” hay “dấu hiệu” (“evidence”) H giả thuyết đó, chẳng hạn liệu X thuộc lớp cụ thể C Với toán phân lớp, mục tiêu xác định P(H|X), xác suất mà giả định H xảy với dấu hiệu cho trước Nói cách khác, tìm xác suất để mẫu X thuộc lớp C biết thuộc tính mơ tả mẫu X Theo định lý Bayes, xác suất mà muốn tính P(H|X) biểu diễn qua xác suất P(H), P(X|H) P(X) sau: Và xác suất thiết lập từ tập liệu cho trước 1.2.3 Luật kết hợp Luật Kết hợp tìm mẫu phổ biến, kết hợp, tương quan hay cấu trúc nhân tập đối tượng sở liệu giao tác, sở liệu quan hệ kho thông tin khác để đưa liên kết phần tử liệu Định nghĩa Luật kết hợp Cho tập I = {I1, I2, , Im} tập thuộc tính riêng biệt, thuộc tính gọi mục Gọi D Cơ sở liệu chứa n giao dịch, ghi T giao dịch chứa tập mục, X I T gán nhãn với định danh Ta nói rằng, giao dịch T D hỗ trợ tập X I chứa tất mục X Một tập X gọi tập mục k phần tử (k-itemset) lực lược X k (tức |X|=k) Định nghĩa 1: Độ hỗ trợ X, ký hiệu support(X), tỉ lệ phần trăm giao dịch hỗ trợ X tổng giao dịch D, nghĩa là: Định nghĩa 2: Một luật kết hợp có dạng R:X=>Y, X,Y tập mục, X,Y X Y = I – X gọi tiên đề – Y gọi hệ luật Hai thông số quan trọng luật kết hợp độ hỗ trợ (support) độ tin cậy (confidence) Định nghĩa 3: Độ hỗ trợ (support) luật kết hợp X=>Y tỉ lệ phần trăm số lượng giao dịch chứa X Y (X Y) với tổng số giao dịch có sở liệu Đơn vị tính % Support = Tổng số lượng giao dịch hỗ trợ X Y/Tổng số giao dịch Định nghĩa 4: Độ tin cậy (confidence) tỉ lệ phần trăm số lượng giao dịch chứa X Y (X Y) với số giao dịch có chứa X Đơn vị tính % Confidence = Tổng số lượng giao dịch hỗ trợ X Y / Tổng số giao dịch hỗ trợ X Một số thuật toán khai phá luật kết hợp – Thuật toán Apriori – Thuật toán Apriori-TID – Thuật toán Apriori-Hybrid – Thuật toán Count Distribution (CD) – Thuật toán Data Distribution (DD) – Thuật toán Candidate Distribution – Thuật toán khai phá luật kết hợp phân tán nhanh(FDM) – Thuật toán khai phá phân tán luật kết hợp(DMAR) – Thuật toán lai tạp Apriori - Decision Tabble (Decision Tabble) 1.3 Dịch vụ Web 1.3.1 Khái niệm Dịch vụ Web hệ thống phần mềm thiết kế để hỗ trợ khả tương tác ứng dụng máy tính khác thơng qua mạng Internet 7 1.3.2 Các đặc điểm Dịch vụ Web – Cho phép ứng dụng máy chủ máy khách tương tác với thông qua môi trường mạng Internet mà không yêu cầu chúng phải chạy hệ điều hành, không cần yêu cầu tương thích hai hệ điều hành – Cơng nghệ xây dựng dịch vụ Web không thiết phải cơng nghệ mà kết hợp dựa mã nguồn mở công nghệ tiêu chuẩn sẵn có XML, SOAP, WSDL, UDDI… – Dịch vụ Web gồm nhiều mơ đun độc lập, mô đun thực c hức ứng dụng, số lượng mô đun tùy thuộc vào hoạt động khách hàng chủ thể, mô đun công khai mạng internet thực thi máy chủ – dịch vụ Web tất lĩnh vực sống như: hệ thống tìm kiếm thơng tin thư viện; hệ thống bán hàng qua mạng; đặt mua vé tàu xe; cập nhật thông tin thị trường, tiền tệ… 1.3.3 Kiến trúc dịch vụ Web Dịch vụ Web gồm có chuẩn chính: SOAP (Simple Object Access Protocol), WSDL (Web Service Description Language) UDDI (Universal Description, Discovery, and Integration) Hình mơ tả chồng giao thức dịch vụ Web, UDDI sử dụng để đăng ký khám phá dịch vụ Web miêu tả cụ thể WSDL WEBSERVICES UDDI (Discovery) WSDL (Description) SOAP (Remote sevice call) HTTP (Transport application protocol) TCP/IP (Transport protocol) Hình 1.4:Chồng giao thức dịch vụ Web 1.3.4 Các thành phần Dịch vụ Web XML – eXtensible Markup Language WSDL – Web Service Description Language Universal Description, Discovery, and Integration (UDDI) SOAP – Simple Object Access Protocol 1.4 Kết luận Chương khái quát lý thuyết liên quan đến việc thực đề tài bao gồm khái niệm, kỹ thuật khai phá liệu; Lý thuyết thuật toán phân lớp điển hình lựa chọn để thực luận văn Nội dung chương nhằm mục đích cung cấp nhìn tổng quan sở để thực việc giải toán áp dụng thuật toán phân lớp để phân lớp dịch vụ Web Chương Chương 9 CHƢƠNG 2: ÁP DỤNG CÁC THUẬT TOÁN PHÂN LỚP CHO BÀI TOÁN PHÂN LỚP DỊCH VỤ WEB Như trình bày phần mở đầu, mục đích luận văn tìm hiểu, nghiên cứu thuật tốn phân lớp, từ áp dụng thuật toán phân lớp cho toán phân lớp dịch vụ Web Ở Chương mô tả phương pháp khai phá liệu nói chung thuật toán phân lớp đặc trưng (cụ thể thuật toán: SVM, Bayes Luật hết hợp) Chương mô tả chi tiết chế thực thuật toán phân lớp cho toán cụ thể phân lớp dịch vụ Web 2.1 Bài toán phân lớp dịch vụ Web 2.1.1 Đặt vấn đề Ngày nay, ứng dụng dựa dịch vụ web lập trình giao diện/ứng dụng ngày phổ biến Các ứng dụng phải có tính năng: không phụ thuộc vào môi trường không phụ thuộc vào việc thực thi Điều tạo nên khả xây dựng dịch vụ web tự động kết hợp thứ có yêu cầu Phân loại, xếp dịch vụ web hướng nghiên cứu khác dịch vụ web Mỗi dịch vụ web có file WSDL – ngơn ngữ định miêu tả dịch vụ web – định nghĩa miêu tả thông tin dịch vụ web tên dịch vụ web, hoạt động đầu vào/đầu Bài toán phân loại dịch vụ web thực chất tốn phân tích khai phá văn để phân loại tài liệu WSDL (Web Service Description Language Từ phân tích mức độ phụ thuộc nội dung WSDL thể loại dịch vụ Web 2.1.2 Framework khai phá WSDL Đầu tiên, có nhìn tổng quát khai phá liệu truyền thống: khai phá text khai phá web So sánh khai phá liệu, khai phá text tập trung vào trích xuất thơng tin mà sử dụng mục đích cụ thể, khơng thể rõ nội dung Khai phá web tập trung vào phân tích thuộc tính cấu trúc web ví dụ nội dung page khác link tới trang Hiện nay, file tự miêu tả XML, ngôn ngữ đánh dấu mở rộng hỗ trợ nhiều việc truyền tải thông tin WSDL dựa cấu trúc XML chuẩn W3C nghĩa phải chứa cấu trúc lớp dịch vụ web, hoạt động, danh sách đầu vào đầu ra, cho phép dễ dàng phân tích Thực tế, ý tưởng dựa phần tử chứa kiến trúc lớp 10 2.1.3 Kiến trúc hệ thống phân lớp dịch vụ Web Chúng ta cần xây dựng hệ thống phân lớp dịch vụ web Mỗi dịch vụ web đưa vào, ta trích xuất tương ứng với file tách chúng thành token, từ khóa token mơt tả hoạt động/dịch vụ web, tên hoạt động danh sách tham số chứa tên biến đầu vào đầu Sau đó, ánh xạ tất chúng thành vector, phụ thuộc vào thuật toán khác sử dụng phân lớp để miêu tả nhóm lưu trữ kết cho việc sử dụng sau TRÌNH PHÂN LỚP DỊCH VỤ WEB Trình quản lý phân lớp dịch vụ web Phân tích cú pháp WSD L WSDL Sinh luật phân lớp Lớp B Kho chứa mục WSDL Định nghĩa Lớp A Trình phân lớp Lớp N Hoạt động Hình 2.1: Kiến trúc hệ thống phân lớp dịch vụ Web 2.2 Áp dụng thuật toán phân lớp cho toán phân lớp dịch vụ Web 2.2.1 Phân lớp dịch vụ Web dựa SVM Quá trình phân lớp dịch vụ Web SVM dựa vào cấu trúc WSDL trang Web việc biểu diễn dạng văn sử dụng mô hình khơng gian vector SVM xem dịch vụ Web vector f(d1, d2, d3…,dn) biểu diễn văn Áp dụng cơng thức phương trình siêu phẳng là: F(x1, x2, …,xn) = C + wixi 11 Thay văn tương ứng với dịch vụ Web vào phương trình siêu phẳng này: F(d1, d2, …,dn) = C + wixi Với I = 1,…,n Nếu f(d) >=0 dịch vụ Web thuộc lớp +1 Nếu f(d) P( nếu: ) với Do tìm thấy lớp mà tối đa hóa xác suất P( |X) Lớp P( |X) lớn gọi giả thuyết hậu nghiệm lớn Theo định lý Bayes: Do P(X) giống cho lớp, nên cần tối đa hóa P(X| )P( Nếu lớp xác suất tiền nghiệm, P( , không biết, thường giả thiết cho tất lớp, P( = P( ) = … = P( ), cần tối đa hóa P(X| ) thay tối đa hóa cho P(X| )P( ) Chú ý lớp xác suất tiền nghiệm thiết lập bởi: Với tập liệu cho trước có nhiều thuộc tính, tốn chi phí để tính P(X| ) Để giảm bớt chi phí tính toán lượng giá P(X| ) P( ), giả thiết độc lập lớp điều kiện tạo Nó giả định giá trị thuộc tính điều kiện độc lập với Xét mặt tốn học, điều có nghĩa là: Các xác suất huấn luyện Nhớ lại rằng, Nếu mẫu có giá trị Nếu Gaussian ) dễ dàng thiết lập từ tập tham chiếu đến giá trị thuộc tính thuộc tính rời rạc, P( cho mẫu X |C) ước lượng tần số liên quan cho thuộc tính thứ k lớp C thuộc tính liên tục, P( |C) ước lượng thông qua hàm mật độ 13 Chương luận văn thử nghiệm hai thuật toán Bayes BayesNet Navie Bayes để phân lớp dịch vụ web Từ đưa đánh giá, nhận xét chi tiết cho hai thuật tốn nói riêng so sánh với thuật tốn khác nói chung 2.2 Phân lớp dịch vụ Web dựa Luật kết hợp Một cách tiếp cận khác cho toán phân lớp dịch vụ web khai phá liệu phân lớp tài liệu WSDL (webservice description language) dựa thuật toán luật kết hợp Ứng dụng để phân tích mức độ độc lập nội dung WSDL mục dịch vụ web Một phân loại học máy sử dụng để suy diễn dãy lớp lựa chọn thành tiền xử lý mô tả dịch vụ web (preprocessed web service description) Trong phần nghiên cứu này, khai thác phụ thuộc loại dịch vụ Web giao diện mơ tả WSDL [11a] cho việc phân lớp dịch vụ web Luật kết hợp sử dụng để xây dựng phân lớp dịch vụ web để tự động phân lớp dịch vụ web Đây xác định mục dịch vụ web, cho tập hợp loại xác định trước Mục tiêu nghiên cứu là: – Xây dựng hệ thống phân lớp sử dụng luật kết hợp áp dụng mục dịch vụ web, hoạt động văn định nghĩa thông số ý kiến viết nhà phát triển – Phân tích tầm quan trọng thuật ngữ cho việc phân loại riêng biệt mục với tần suất mức độ xuất tài liệu khác – Phân tích hệ thống có cung cấp phương pháp tốt phương pháp truyền thống hay không Phân loại dịch vụ web việc xác định thể loại dịch vụ Web, từ số mục xác định trước Trình phân loại tự động thực sở thông tin cung cấp tài liệu WSDL Có hai giai đoạn q trình phân loại [9b] hình vẽ: 14 Hình 2.2: Các giai đoạn phân lớp dịch vụ Web Quá trình phân lớp sử dụng trình phân loại tài liệu giám sát suy luận chuỗi thể loại ứng cử viên cho q trình tiền xử lý mơ tả dịch vụ Web Thực nghiệm luật kết hợp thuật toán phân loại liệu dịch vụ Web thực công cụ WEKA thuật toán cải tiến thuật toán Apriori Decision Table Với tập liệu mẫu xây dựng cách trích xuất thơng tin từ file mơ tả WSDL dịch vụ Web công bố trang Xmethods.com Chi tiết tập liệu kết thực nghiệm trình bày Chương 2.3 Kết luận Chương mô tả chi tiết toán phân lớp dịch vụ Web, áp dụng thuật tốn phân lớp điển hình SVM, Bayes, Luật kết hợp cho toán phân lớp dịch vụ Web Nội dung chương tập trung vào phân tích chế hoạt động phân lớp thuật tốn phân lớp cho dịch vụ Web 15 CHƢƠNG 3: THỬ NGHIỆM, ĐÁNH GIÁ Chương luận văn mơ tả q trình thiết kế, xây dựng tập liệu mẫu dịch vụ Web với tham số độc lập trích xuất từ file WSDL thực việc thử nghiệm phân lớp dịch vụ Web theo phương pháp phân tích Chương phần mềm Weka 3.1 Phát biểu toán Bài toán phân lớp dịch vụ web toán xây dựng tập liệu huấn luyện dịch vụ web, từ áp dụng thuật toán phân lớp liệu, phân lớp cho dịch vụ web đưa vào Để thực thử nghiệm đánh giá thuật tốn phân lớp mơ tả chương cho việc phân lớp dịch vụ web, cần liệu đầu vào dịch vụ Web Vì vậy, yêu cầu trước tiên cần đặt cần xây dựng tập liệu mẫu (hay gọi tập liệu huấn luyện) Tập liệu đảm bảo phải đưa tham số đặc trưng dịch vụ Web đồng cho tất dịch vụ web Yêu cầu để thực thử nghiệm, đánh giá lựa chọn công cụ thử nghiệm phù hợp, cung cấp đa dạng công cụ khai phá liệu cho phép thay đổi liệu, thay đổi thuật toán, phương pháp đánh giá Như giới thiệu phần trước luận văn, công cụ lựa chọn để thử nghiệm đánh giá phần mềm khai phá liệu Weka Chi tiết phần mềm giới thiệu mục sau 3.2 Thiết kế Mô tả liệu Tập liệu sử dụng ví dụ tập trung vào thông số file WSDL dịch vụ Web Các dịch vụ Web dịch vụ Web công bố trang: Xmethods.net, SALCentral.com, service-repository.com Mỗi dịch vụ Web công bố trang có kèm theo file mơ tả WSDL Bằng cách phân tích chiết xuất liệu từ file WSDL thành thuộc tính độc lập, luận văn xây dựng thành công tập liệu mẫu Các thuộc tính biến độc lập trích xuất từ file WSDL bao gồm: Các thuộc tính biến độc lập tập liệu là: 16 Mã Tham số Compliance Mô tả Đơn vị Mức độ mà tài liệu WSDL đặc tả theo WSDL % Best Practices Mức độ mà dịch vụ Web theo WS-I Basic Profile % Documentation Tổng số tài liệu hướng dẫn Class Loại dịch vụ web Do mục đích sử dụng phần mềm khai phá liệu Weka để thử nghiệm, nên tập liệu mẫu thiết kế theo định dạng mà phần mềm Weka đọc Cụ thể sau: Định dạng file: * afff Nội dung file liệu gồm phần: Phần 1: Định nghĩa mối quan hệ liệu thuộc tính liệu Phần khai báo liệu xây dựng dạng gì, có thuộc tính kiểu liệu thuộc tính Khai báo mối quan hệ liệu cú pháp: @relation Loại_Dữ_Liệu Khai báo thuộc tính theo cú pháp @attribute Tên_Thuộc_Tính Kiểu_dữ_liệu Phần 2: liệu cho thuộc tính Phần khóa @data 17 Mối liệu tương ứng với dòng,dữ liệu cho tham số cách dấu “,”, liệu dạng text nằm dấu ‘’ 3.3 Giới thiệu phần mềm Weka Như mô tả Chương thuật toán phân lớp áp dụng cho tập liệu mẫu dịch vụ Web thử nghiệm phần mềm Weka Weka công cụ phần mềm viết java phục vụ lĩnh vực học máy khai phá liệu Được phát triển nhà khoa học thuộc đại học Waikato, Newzeland với phiên phát hành vào năm 1994 Đến năm 1997 Weka xây dựng lại java hoàn thiện 100% Java vào năm 1999 Đây phần mềm mã nguồn mở tích hợp thuật toán máy học khai thác liệu với giao diện trực quan, dễ sử dụng chạy hệ điều hành 3.4 Thử nghiệm phân loại dịch vụ Web 3.4.1 Tiền xử lý liệu - Khởi động Weka mở chế độ làm việc Explorer - Tại Tab Preprocess chọn nút Open file => chọn đến file WebServices.arff 3.4.1 Phân lớp dịch vụ web áp dụng SVM Phần sử dụng Weka để phân lớp dịch vụ web thuật toán SMO – thuật toán SVM 3.3 Phân lớp dịch vụ web áp dụng Bayes Phần sử dụng Weka để phân lớp dịch vụ web hai thuật toán BayesNet Navie Bayes 3.4.3 Phân lớp dịch vụ web áp dụng Luật kết hợp Phần sử dụng Weka để phân lớp dịch vụ web thuật toán Decision Table– thuật toán lai tạp thuật toán Apriori 3.5 Nhận xét, đánh giá 3.5.1 Kết thực nghiệm dạng bảng 3.5.1 Kết thực nghiệm dạng biểu đồ 3.6 Kết luận Chương thực công việc gồm (1) xây dựng tập liệu mẫu tham số dịch vụ Web phát hành online, (2) thử nghiệm thuật toán phân lớp 18 tìm hiểu tập liệu mẫu, (3) đánh giá, so sánh thuật toán phân lớp sử dụng, giải yêu cầu đặt ban đầu luận văn 19 KẾT LUẬN Luận văn thực đầy đủ mục đích ban đầu đặt nghiên cứu, tìm hiểu phương pháp phân lớp liệu lĩnh vực khai phá liệu, từ áp dụng để phân loại cho Dịch vụ web dựa vào ba phương pháp đề xuất Máy véc tơ hỗ trợ, Bayes, Luật kết hợp Cụ thể nội dung luận văn thực cơng việc sau: Trình bày chi tiết kỹ thuật phân lớp liệu khai phá liệu, cụ thể ba kỹ thuật Máy véc tơ hỗ trợ, Bayes Luật kết hợp; Thực xây dựng tập liệu phù hợp Dịch vụ web để thử nghiệm phân lớp phần mềm khai phai phá liệu Weka thuật toán ba phương pháp Máy véc tơ hỗ trợ, Bayes, Luật kết hợp; Từ kết thử nghiệm, đưa đánh giá, so sánh rõ ràng cho thuật toán ứng dụng Trong đó, BayesNet thể thuật tốn phân loại tối ưu nhất, có độ xác tin cậy cao nhất, tỉ lệ sai số mức nhỏ so với thuật tốn cịn lại Đứng sau BayesNet thuật tốn Decision Table, sau SMO (một thuật toán SVM) cuối Navie Bayes Do hạn chế thời gian kiến thức nên luận văn chưa nghiên cứu sâu chế trình phân lớp thuật toán Cơ sở liệu đưa vào thực nghiệm cịn Hướng nghiên cứu đề tài nghiên cứu xây dựng tập liệu mẫu nhiều số lượng, đa dạng tham số nhiều loại liệu khác Dịch vụ web ... toán phân lớp cho toán cụ thể phân lớp dịch vụ Web 2.1 Bài toán phân lớp dịch vụ Web 2.1.1 Đặt vấn đề Ngày nay, ứng dụng dựa dịch vụ web lập trình giao diện /ứng dụng ngày phổ biến Các ứng dụng. .. >=0 dịch vụ Web thuộc lớp +1 Nếu f(d)

Ngày đăng: 19/03/2021, 17:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w