CHƯƠNG 1 : TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU
1.4. PHƯƠNG PHÁP NGHIÊN CỨU
1.4.1. Khái quát về khai phá dữ liệu
Trong cuộc sống ngày càng hiện đại, lượng thông tin mà con người thu thập được ngày càng trở nên khổng lồ. Theo quá trình phát triển của xã hội, kiến thức ngày càng được mở rộng, các dữ liệu trong thời đại cơng nghệ liên tục được số hóa và kết nối với nhau. Không thể phủ nhận sự cần thiết và quan trọng của dữ liệu trong việc phát triển cuộc sống của con người. Tuy nhiên, sự bùng nổ dữ liệu khiến con người gặp khó khăn trong q trình tìm hiểu, phân loại, lựa chọn, khai thác và sử dụng chúng. Để hỗ trợ những quá trình này, kỹ thuật Khai phá dữ liệu (Data Mining) ra đời.
Khai phá dữ liệu (KPDL) là một khái niệm ra đời vào cuối những năm 80 của thế kỉ XX. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thơng tin có giá trị tiềm ẩn trong một tập dữ liệu lớn (các kho dữ liệu). Về bản chất, KPDL liên quan đến
việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu.4
Một cách tổng quát thì KPDL là một tiến trình sử dụng các cơng cụ phân tích
dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ khác nhau nhằm phát hiện ra các mối quan hệ giữa các dữ kiện, đối tượng bên trong cơ sở dữ liệu (CSDL), kết quả của việc khai phá là xác định các mẫu, các mơ hình đang tồn tại bên trong,
nhưng chúng lẫn khuất trong các CSDL. Để từ đó rút trích ra các mẫu, các mơ hình hay các thông tin và tri thức tồn tại bên trong các CSDL.5
Quá trình xử lý KPDL bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết. Sau đó xác định các dữ liệu có liên quan dùng để xây dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lí chúng thành dạng mà các giải thuật KPDL có thể hiểu được. Tiếp theo là lựa chọn thuật tốn KPDL thích hợp và thực hiện KPDL để tìm được các mẫu.
1-1 Quá trình khai phá dữ liệu
Hiện nay, kỹ thuật KPDL phát triển mạnh mẽ với nhiều hình thức như: Luật kết hợp, Dự báo, Sự phân loại, Các mẫu tuần tự, Các cây quyết định, Các tổ hợp…
Với tầm quan trọng của dữ liệu và thông tin trong xã hội hiện đại, kỹ thuật KPDL ngày càng được ứng dụng rộng rãi ở nhiều lĩnh vực như: Sinh học, Thương mại điện tử, Thiên văn học, Quảng cáo, Marketing, Quản lý quan hệ khách hàng, Viễn thông, Thể thao, Đầu tư… Một số nghiên cứu dựa trên kỹ thuật KPDL đã được tiến hành có thể kể đến là: Phân tích tình hình tài chính của một cơng ty dựa trên báo cáo tài chính, Dựa vào dữ liệu thị trường chứng khốn để dự đốn giá cổ phiếu, Phân tích các cuộc điện thoại để dự đốn hành vi của khách hàng, Phân tích mặt hàng để dự đốn nhu cầu người dùng đưa ra hướng phát triển đúng cho sản xuất...
(x, y) = (x1, x2, x3..., xk, y)
1-2 Minh họa cây quyết định