NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG PHÂN LỚP DỊCH VỤ WEB

Số lượng của các dịch vụ web trên mạng tăng trưởng mạnh mẽ , việc tìm kiếm trên khối lượng dữ liệu khổng lồ này ngày càng trở nên phức tạp Trước đây, việc phân loại thường được thực hiện thủ công theo cách chỉ định cho một dịch vụ vào một thể loại nào đó đã được phân loại (hay còn gọi là được gán nhãn) theo các quy tắc đã được đặt ra. Cách này có nhiều bất cập khi khối lượng dịch vụ trở nên khổng lồ, kéo theo các quy tắc phân loại cũng gia tăng, có nhiều người tham gia duy trì hoặc chia sẻ dịch vụ trong một kho dữ liệu chung. => việc cần thiết có một cơ chế tự động phân loại các dịch vụ web trở nên quan trọng.

Trang 1

NGHIÊN CỨU CÁC PHƯƠNG PHÁP

PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG

PHÂN LỚP DỊCH VỤ WEB

Người hướng dẫn khoa học: PGS.TS Trần Đình Quế

Thực hiện: Phùng Thị Anh

Đề cương luận văn thạc sĩ kỹ thuật Chuyên ngành: Khoa học máy tính

Trang 2

Lý do chọn đề tài

- Số lượng của các dịch vụ web trên mạng tăng trưởng mạnh

mẽ , việc tìm kiếm trên khối lượng dữ liệu khổng lồ này ngày càng trở nên phức tạp

- Trước đây, việc phân loại thường được thực hiện thủ công theo cách chỉ định cho một dịch vụ vào một thể loại nào đó đã được phân loại (hay còn gọi là được gán nhãn) theo các quy tắc đã được đặt ra Cách này có nhiều bất cập khi khối lượng dịch vụ trở nên khổng lồ, kéo theo các quy tắc phân loại cũng gia tăng, có nhiều người tham gia duy trì hoặc chia sẻ dịch vụ trong một kho dữ liệu chung

- => việc cần thiết có một cơ chế tự động phân loại các dịch vụ

Trang 3

Mục đích nghiên cứu

• Nghiên cứu các thuật toán phân lớp theo hướng khai phá văn bản để phân loại các tài liệu WSDL (Web Service Description Language) => phân tích mức độ phụ thuộc giữa các nội dung của WSDL và các thể loại của dịch vụ Web:

– SVM

– Bayes

– Luật kết hợp

• Nghiên cứu phần mềm khai phá dữ liệu để thử nghiệm, đánh giá các phương pháp: WEKA

Trang 4

Nội dung đề tài

Bố cục: 3 phần:

- Phần Mở đầu: Nêu lý do chọn đề tài và đối tượng, phạm vi, phương pháp nghiên cứu

- Phần nội dung: Gồm 3 Chương

+ Chương 1: Trình bày cơ sở lý thuyết của đề tài + Chương 2: Nghiên cứu các thuật toán phân lớp và áp dụng trong bài toán phân loại dịch vụ Web

+ Chương 3: Thử nghiệm, đánh giá

- Phần Kết luận: Tóm tắt lại kết quả của luận văn và đề xuất hướng nghiên cứu

Trang 5

Chương 1

• Cơ sở lý thuyết về khai phá dữ liệu, phân lớp dữ liệu

– Các khái niệm cơ bản về khai phá dữ liệu

– Phát biểu bài toán phân lớp dữ liệu

• Cơ sở lý thuyết về các thuật toán phân lớp dữ liệu điển hình

- SVM

- Bayes

- Luật kết hợp

• Cơ sở lý thuyết về dịch vụ Web (khái niệm, mô tả, cấu trúc,

…)

• Các nội dung về sự cần thiết của việc khai phá dịch vụ Web

Trang 6

Chương 2

• Khảo sát các công trình đã đăng tải liên quan đến phân lớp dịch vụ Web nêu những vấn đề còn tồn tại, chỉ ra những vấn

đề mà bài toán phân lớp dịch vụ Web cần quan tâm

• Diễn giải cơ sở lý thuyết, lý luận, giả thiết khoa học và phương pháp nghiên cứu sử dụng;

• Tổng hợp, thu thập, phân tích, đánh giá các số liệu trên cơ sở

lý thuyết, giả thiết khoa học để giải quyết bài toán phân lớp dịch vụ Web

• Chi tiết:

- Phân lớp dịch vụ web dựa trên SVM

- Phân lớp dịch vụ web dựa trên Bayes

Trang 7

Chương 3

• Trình bày về phần mềm khai phá dữ liệu dự kiến sử dụng để thử nghiệm phân lớp các dịch vụ web:

– WEKA

• Mô tả về các tập dữ liệu mẫu (Nếu sử dụng nguồn dữ liệu

mẫu có sẵn thì có dẫn liệu cụ thể)

• Trình bày kết quả thử nghiệm

• Đối chiếu so sánh kết quả thử nghiệm với các kết quả nghiên cứu khác thông qua các tài liệu tham khảo (nếu có)

• Đánh giá những khó khăn, thuận lợi, ưu điểm, nhược điểm của phương pháp nghiên cưú

• Đánh giá tính khả thi và đề xuất hướng triển khai

Trang 8

Kết luận

• Kết quả và những đóng góp của luận văn,

và đưa ra hướng nghiên cứu mới (nếu

có).

Trang 9

THANK YOU!

Định dạng
Số trang	9
Dung lượng	2,14 MB