Số lượng của các dịch vụ web trên mạng tăng trưởng mạnh mẽ , việc tìm kiếm trên khối lượng dữ liệu khổng lồ này ngày càng trở nên phức tạp Trước đây, việc phân loại thường được thực hiện thủ công theo cách chỉ định cho một dịch vụ vào một thể loại nào đó đã được phân loại (hay còn gọi là được gán nhãn) theo các quy tắc đã được đặt ra. Cách này có nhiều bất cập khi khối lượng dịch vụ trở nên khổng lồ, kéo theo các quy tắc phân loại cũng gia tăng, có nhiều người tham gia duy trì hoặc chia sẻ dịch vụ trong một kho dữ liệu chung. => việc cần thiết có một cơ chế tự động phân loại các dịch vụ web trở nên quan trọng.
Trang 1NGHIÊN CỨU CÁC PHƯƠNG PHÁP
PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG
PHÂN LỚP DỊCH VỤ WEB
Người hướng dẫn khoa học: PGS.TS Trần Đình Quế
Thực hiện: Phùng Thị Anh
Đề cương luận văn thạc sĩ kỹ thuật Chuyên ngành: Khoa học máy tính
Trang 2Lý do chọn đề tài
- Số lượng của các dịch vụ web trên mạng tăng trưởng mạnh
mẽ , việc tìm kiếm trên khối lượng dữ liệu khổng lồ này ngày càng trở nên phức tạp
- Trước đây, việc phân loại thường được thực hiện thủ công theo cách chỉ định cho một dịch vụ vào một thể loại nào đó đã được phân loại (hay còn gọi là được gán nhãn) theo các quy tắc đã được đặt ra Cách này có nhiều bất cập khi khối lượng dịch vụ trở nên khổng lồ, kéo theo các quy tắc phân loại cũng gia tăng, có nhiều người tham gia duy trì hoặc chia sẻ dịch vụ trong một kho dữ liệu chung
- => việc cần thiết có một cơ chế tự động phân loại các dịch vụ
Trang 3Mục đích nghiên cứu
• Nghiên cứu các thuật toán phân lớp theo hướng khai phá văn bản để phân loại các tài liệu WSDL (Web Service Description Language) => phân tích mức độ phụ thuộc giữa các nội dung của WSDL và các thể loại của dịch vụ Web:
– SVM
– Bayes
– Luật kết hợp
• Nghiên cứu phần mềm khai phá dữ liệu để thử nghiệm, đánh giá các phương pháp: WEKA
Trang 4Nội dung đề tài
Bố cục: 3 phần:
- Phần Mở đầu: Nêu lý do chọn đề tài và đối tượng, phạm vi, phương pháp nghiên cứu
- Phần nội dung: Gồm 3 Chương
+ Chương 1: Trình bày cơ sở lý thuyết của đề tài + Chương 2: Nghiên cứu các thuật toán phân lớp và áp dụng trong bài toán phân loại dịch vụ Web
+ Chương 3: Thử nghiệm, đánh giá
- Phần Kết luận: Tóm tắt lại kết quả của luận văn và đề xuất hướng nghiên cứu
Trang 5Chương 1
• Cơ sở lý thuyết về khai phá dữ liệu, phân lớp dữ liệu
– Các khái niệm cơ bản về khai phá dữ liệu
– Phát biểu bài toán phân lớp dữ liệu
• Cơ sở lý thuyết về các thuật toán phân lớp dữ liệu điển hình
- SVM
- Bayes
- Luật kết hợp
• Cơ sở lý thuyết về dịch vụ Web (khái niệm, mô tả, cấu trúc,
…)
• Các nội dung về sự cần thiết của việc khai phá dịch vụ Web
Trang 6Chương 2
• Khảo sát các công trình đã đăng tải liên quan đến phân lớp dịch vụ Web nêu những vấn đề còn tồn tại, chỉ ra những vấn
đề mà bài toán phân lớp dịch vụ Web cần quan tâm
• Diễn giải cơ sở lý thuyết, lý luận, giả thiết khoa học và phương pháp nghiên cứu sử dụng;
• Tổng hợp, thu thập, phân tích, đánh giá các số liệu trên cơ sở
lý thuyết, giả thiết khoa học để giải quyết bài toán phân lớp dịch vụ Web
• Chi tiết:
- Phân lớp dịch vụ web dựa trên SVM
- Phân lớp dịch vụ web dựa trên Bayes
Trang 7Chương 3
• Trình bày về phần mềm khai phá dữ liệu dự kiến sử dụng để thử nghiệm phân lớp các dịch vụ web:
– WEKA
• Mô tả về các tập dữ liệu mẫu (Nếu sử dụng nguồn dữ liệu
mẫu có sẵn thì có dẫn liệu cụ thể)
• Trình bày kết quả thử nghiệm
• Đối chiếu so sánh kết quả thử nghiệm với các kết quả nghiên cứu khác thông qua các tài liệu tham khảo (nếu có)
• Đánh giá những khó khăn, thuận lợi, ưu điểm, nhược điểm của phương pháp nghiên cưú
• Đánh giá tính khả thi và đề xuất hướng triển khai
Trang 8Kết luận
• Kết quả và những đóng góp của luận văn,
và đưa ra hướng nghiên cứu mới (nếu
có).
Trang 9THANK YOU!