Ứng dụng của khai phá dữ liệu

Một phần của tài liệu Xây dựng hệ thống dự đoán hiệu suất đào tạo tại trường trung cấp chuyên nghiệp luận văn thạc sĩ (Trang 39 - 43)

2.3.1 Ứng dụng của Khai phá dữ liệu

KPDL tuy là một lĩnh vực mới nhưng thu hút ựược rất nhiều sự quan tâm của các nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó. Chúng ta có thể liệt kê ra ựây một số ứng dụng ựiển hình:

- Phân tắch dữ liệu và hỗ trợ ra quyết ựịnh (data analysis & decision support)

- điều trị y học (medical treatment): mối liên hệ giữa triệu chứng, chẩn ựoán và phương pháp ựiều trị (chế ựộ dinh dưỡng, thuốc men, phẩu thuật, Ầ).

- Text mining & Web mining: phân lớp văn bản và các trang web, tóm tắt văn bản, .v.v.

- Tin-sinh (bio-informatics): tìm kiếm, ựối sánh các hệ gene và thông tin di truyền, mối liên hệ giữa một số hệ gene và một số bệnh di truyền, .v.v.

- Tài chắnh và thị trường chứng khoán (finance & stock market): phân tắch tình hình tài chắnh và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, .v.v.

- Bảo hiểm (insurance) - .v.v.

2.3.2 Phân loại các hệ Khai phá dữ liệu

KPDL là một công nghệ tri thức liên quan ựến nhiều lĩnh vực nghiên cứu khác nhau như CSDL, kỹ thuật máy học (machine learning), giải thuật, trực quan hóa (visualization), .v.v. Chúng ta có thể phân loại các hệ thống KPDL dựa trên các tiêu chắ khác nhau.

- Phân loại dựa trên kiểu dữ liệu ựược khai phá: CSDL quan hệ (relational database), kho dữ liệu (data warehouse), CSDL giao dịch (transactional database), CSDL hướng ựối tượng, CSDL không gian (spatial database), CSDL ựa phương tiện (multimedia database), CSDL Text và WWW, .v.v.

- Phân loại dựa trên dạng tri thức ựược khám phá: tóm tắt và mô tả (summarization & description), luật kết hợp (association rules), phân lớp (classification), phân cụm (clustering), khai phá chuỗi (sequential mining), .v.v.

- Phân loại dựa trên kỹ thuật ựược áp dụng: hướng CSDL (databaseoriented), phân tắch trực tuyến (OnLine Analytical Processing Ờ OLAP), machine learning (cây quyết ựịnh, mạng nơ ron nhân tạo, k- min, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô, tập mờ, .v.v.), trực quan hóa (visualization), .v.v.

- Phân loại dựa trên lĩnh vực ựược áp dụng: kinh doanh bán lẻ (retail), truyền thông (telecommunication), tin-sinh (bio-informatics), y học (medical treatment), tài chắnh & thị trường chứng khoán (finance & stock market), Web mining, .v.v.

2.4 Những vấn ựề ựược chú trọng trong Khai phá dữ liệu

KPDL là một lĩnh vực mới, do ựó ựang còn rất nhiều vấn ựề chưa ựuợc nghiên cứu một cách trọn vẹn. Sau ựây là một số hướng nghiên cứu ựã và ựang thu hút ựược sự chú ý của các nhà tin học.

- OLAM (OnLine Analytical Mining) - Sự tắch hợp giữa CSDL, kho dữ liệu, và PDL. Hiện nay một số hệ quản trị CSDL như Oracle, MS SQL Server, DB2 ựã tắch hợp tắnh năng xây dựng kho dữ liệu và phân tắch trực tuyến (OLAP).

- Những tắnh năng này ựược hỗ trợ dưới dạng những công cụ ựi kèm và người dùng phải trả tiền thêm nếu cần sử dụng những tắnh năng ựó. Những nhà nghiên cứu trong lĩnh vực CSDL không muốn dừng lại ở ựó mà họ muốn có một sự tắch hợp giữa CSDL, kho dữ liệu và KPDL [8]. - Khám phá ựược nhiều dạng tri thức khác nhau từ nhiều kiểu dữ liệu [8]

[10].

- Tắnh hiệu quả, tắnh chắnh xác, ựộ phức tạp tắnh toán, khả năng mở rộng và tắch hợp, xử lý nhiễu và dữ liệu không ựầy ựủ, tắnh hữu dụng (ý nghĩa) của tri thức [8].

- Vấn ựề song song hóa và phân tán quá trình KPDL [13].

- Ngôn ngữ truy vấn trong KPDL (Data Mining Query Language Ờ DMQL): cung cấp cho người sử dụng một ngôn ngữ hỏi thuật tiện tương tự như SQL ựối với CSDL quan hệ [8].

- Biểu diễn và trực quan hóa tri thức khai phá ựược sao cho gần gũi với người sử dụng (human-readable expression). Tri thức có thể biểu diễn ựa chiều, ựa tầng ựể người dùng sử dụng tri thức hiệu quả hơn [8].

Chương 3:

KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT đỊNH

Một phần của tài liệu Xây dựng hệ thống dự đoán hiệu suất đào tạo tại trường trung cấp chuyên nghiệp luận văn thạc sĩ (Trang 39 - 43)