- Cây quyết định: Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tƣợng tới các kết luận về giá trị mục tiêu của sự vật/hiện tƣợng. Mỗi một nút trong tƣơng ứng với một
biến, đƣờng nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trƣớc các giá trị của các biến đƣợc biểu diễn bởi đƣờng đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.
Học bằng cây quyết định cũng là một phƣơng pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể đƣợc học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính . Quá trình này đƣợc lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách đƣợc nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại.
Cây quyết định cũng là một phƣơng tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện.
Cây quyết định có thể đƣợc mô tả nhƣ là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trƣớc.
- Luật kết hợp: Luật kết hợp là một hƣớng quan trọng trong khai phá dữ liệu. Luật kết hợp giúp chúng ta tìm đƣợc các mối liên hệ giữa các mục dữ liệu (items) của CSDL. Luật kết hợp là dạng khá đơn giản nhƣng lại mang khá nhiều ý nghĩa. Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trong quá trình ra quyết định. Tìm các luật kết hợp “quý hiếm” và mang nhiều thông tin từ CSDL tác nghiệp là một trong những hƣớng tiếp cận chính của lĩnh vực khai phá dữ liệu.
- Mô hình dữ liệu đa chiều: Mô hình dữ liệu đa chiều (Multi Dimensional Data Model – MDDM) là một mô hình mà trong đó dữ liệu đƣợc thể hiện thông
theo không gian n-chiều. Mô hình này phù hợp đối với các tính toán số học và thống kê: tổng hợp và phân tổ dữ liệu theo cách khác nhau, các phân tích dữ liệu theo phƣơng pháp hồi quy phi tham số. Ngoài ra, mô hình dữ liệu đa chiều còn đƣợc sử dụng để phát hiện các luật kết hợp giữa các chỉ tiêu dạng if X then Y với độ tin cậy là c%.
- Khoảng cách ngắn nhất: Đây là phƣơng pháp xem các mẫu tin nhƣ là những điểm trong không gian dữ liệu đa chiều. Áp dụng ý tƣởng này có thể xác định khoảng cách giữa hai mẫu tin trong không gian dữ liệu nhƣ sau: các mẫu tin có liên hệ với nhau thì rất gần nhau. Các mẫu tin ở xa nhau thì có ít điểm chung. Cơ sở dữ liệu mẫu chứa cá thuộc tính nhƣ tuổi, thu nhập và tín dụng. Ba thuộc tính mẫu này thành lập nên không gian dữ liệu ba chiều và có thể phân tích các khoảng cách giữa các mẫu tin trong không gian này.
- K-Láng giềng gần nhất: Khi đã thông dịch các mẫu tin thành các điểm trong một không gian dữ liệu nhiều chiều, chúng ta có thể định nghĩa khái niệm của “láng giềng”:
Các mẫu tin ở gần nhau là láng giềng của nhau
Giả sử ta muốn dự đoán thái độ của một tập khách hàng từ một cơ sở dữ liệu với những mẫu tin mô tả những khách hàng này. Giả thuyết cơ sở đòi hỏi để làm một dự án là những khách hàng cùng loại sẽ có cùng thái độ. Trong thuật ngữ ẩn dụ của không gian dữ liệu đa chiều, một kiểu chỉ là một vùng trong không gian dữ liệu này. Mặt khác, các mẫu tin cùng kiểu sẽ gần nhau trong không gian dữ liệu: chúng sẽ là láng giềng của nhau. Dựa vào hiểu biết này, để phát triển một thuật toán mạnh nhƣng rất đơn giản - thuật toán k-láng giềng gần nhất. Chữ k trong k-láng giềng gần nhất đại diện cho số láng giềng điều tra.
K-láng giềng gần nhất đơn giản thật sự không là một kỹ thuật học mà là một phƣơng pháp tìm kiếm thuần túy bởi vì tập dữ liệu bản thân nó đƣợc dùng chỉ để tham khảo. Nó không thể tạo ra một lý thuyết trong lĩnh vực datamining mà giúp
hiểu cấu trúc tốt hơn. Các thuật toán data mining không nên có độ phức tạp tính toán lớn hơn n*log(n) (trong đó n là số các mẫu tin).
- Phân cụm: Gom cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chƣa đƣợc gán nhãn. Mục đích của gom cụm dữ liệu là tim những mẫu đại diện hoặc gom dữ liệu tƣơng tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm. Các điểm dữ liệu nằm trong các cụm khác nhau có độ tƣơng tự thấp hơn các điểm dữ liệu nằm trong một cụm.
Các yêu cầu cơ bản của phân tích cụm trong KPDL:
+ Có khả năng làm việc hiệu quả với lƣợng dữ liệu lớn: Phân tích cụm trên một mẫu của dữ liệu lớn có thể dẫn đến các kết quả thiên lệch. Cần phải có các thuật toán phân cụm trên CSDL lớn.
+ Có khả năng xử lý các dạng dữ liệu khác nhau: Nhiều thuật toán đƣợc thiết kế để xử lý dữ liệu bằng số. Tuy nhiên, các ứng dụng có thể yêu cầu phân tích cụm các dạng dữ liệu khác, nhƣ dữ liệu nhị phân, phân loại, trật tự hay sự trộn lẫn của các kiểu dữ liệu.
+ Có khả năng khám phá ra các cụm với các dạng bất kỳ: Nhiều thuật toán phân cụm dựa trên các số đo khoảng cách Euclide hay Manhattan. Các thuật toán dựa trên các số đo khoảng cách có xu hƣớng tìm các cụm hình cầu với kích thƣớc và mật độ tƣơng tự nhau. Tuy nhiên, một cụm (cluster) có thể có hình dạng bất kỳ. Do đó cần phát triển các thuật toán để tìm các cluster hình dạng bất kỳ.
+ Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham số đầu vào: Nhiều thuật toán phân cụm đòi hỏi ngƣời dùng nhập các tham số trong phân tích cụm. Các kết quả phân cụm có thể bị ảnh hƣởng vào các tham số đầu vào. Các tham số thƣờng khó xác định, đặc biệt đối với các tập dữ liệu chứa các đối tƣợng dữ liệu nhiều chiều.
+ Có khả năng làm việc với dữ liệu nhiễu.
+ Làm việc tốt trên CSDL có số chiều cao.
+ Chấp nhận các ràng buộc do ngƣời dùng chỉ định + Có thể hiểu và sử dụng đƣợc các kết quả gom cụm
CHƢƠNG 2: PHƢƠNG PHÁP PHÁT HIỆN BẤT THƢỜNG DỰA TRÊN KỸ THUẬT KHAI PHÁ DỮ LIỆU