Bài toán khai phá dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (Trang 25 - 26)

CHƯƠNG 1 : GIỚI THIỆU

1.2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.2.4. Bài toán khai phá dữ liệu

Khai phá dữ liệu trong những năm gần đây là một bài toán nhận được rất nhiều sự quan tâm trong các lĩnh vực phát triển dựa trên nền tảng công nghệ thông tin. Sự phát triển của các hệ thống lữu trữ dữ liệu đã tạo lên những bộ cơ sở dữ liệu khổng lồ, nhưng trong cả khối tài sản dữ liệu đó thì khơng hẳn tất cả đều tốt mà chỉ có những tri thức được khai phá ra mới thực sự đem lại giá trị. Chính vì thế bài tốn khai phá dữ liệu ngày càng phát triển trên nhiều lĩnh vực khác nhau, mục đích chung là khai thác ra những giá trị phát triển cho con người.

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.

Bài tốn khai phá dữ liệu là một lĩnh vực khoa học áp dụng các thuật tốn học máy cho phép chúng ta có thể khám phá ra các tri thức trong một khối dữ liệu lớn có nhiều thơng tin.

- Dữ liệu (Data): Là những gì xung quanh chúng ta như dữ liệu dạng văn bản, dạng số, hình ảnh, âm thanh,…

- Thông tin (Information): Là dữ liệu đã được loại bỏ các phần dư thừa, không cần thiết. Thông tin mô tả các đặc trưng, thuộc tính của dữ liệu với chi phí nhỏ nhất.

- Tri thức (Knowledge):

o Là sự tích hợp các thơng tin bao gồm cả quan hệ, là sự đúng đắn đã được kiểm nghiệm, là sự khám phá, sự hiểu biết,... o Tri thức có thể được xem như dữ liệu ở mức cao của q trình

trừu tượng hóa và khái qt hố.

Tùy vào từng bài tốn khác nhau mà ta có thể áp dụng các thuật toán khác nhau để khai phá và mục đích chung sau khi khai phá dữ liệu là có thể tìm ra các tri thức hiệu quả: tri thức đó có thể là kết quả dự báo, kết quả biểu diễn dưới dạng số, dạng luật (rule), đồ thị (graph), dạng cây (tree),…

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(75 trang)