Ứng dụng Khai phá dữ liệu trong Phân loại khách hàng sử dụng Cây quyết định

MỤC LỤC

Trình tự thực hiện trong quá trình khai phá dữ liệu

Thuật ngữ khai phá dữ liệu còn đƣợc một số mà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu (Knowledge discovery in database) (theo Fayyad Smyth và Piatestky-Shapiro 1989). Một số lỗi thường mắc phải trong khi gom dữ liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ, vô nghĩa (ví dụ như: con người có chiều cao = 4 mét điều này là vô lý), do vậy ở giai đoạn thứ ba này nhằm xử lý các dữ liệu nhƣ trên (dữ liệu vô nghĩa, dữ liệu không có khả năng kết nối).

Hình 1.2 : Quá trình khai phá dữ liệu
Hình 1.2 : Quá trình khai phá dữ liệu

Chức năng của hệ thống khai phá dữ liệu (Data Mining Functions) Khai phá dữ liệu có hai chức năng chính là mô tả (description) và dự đoán

Thuật toán thường dùng để trích mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hoá dữ liệu tuần tự. Đây là giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu dữ liệu đƣợc chiết xuất ra bởi phần mềm khai phá dữ liệu.

Các kỹ thuật khai phá dữ liệu

Một số kỹ thuật khai phá trong nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hoá(Visualization),. - Kỹ thuật khai phá dữ liệu nhằm thực hiện chức năng dự đoán: có nhiệm vụ đƣa ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp (Classification), hồi quy (Regression), cây quyết định (Decision tree), thống kê (statictics), mạng nơron (Neural network), luật kết hợp,.

Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm, sao cho các đối tượng thuộc cùng một cụm là tương đồng với nhau. Bước 1: Tìm ra tất cả các tập mục phổ biến, một tập mục phổ biến được xác định thông qua độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người.

Tuy nhiên, phương pháp mạng nơron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm. Tri thức đƣợc rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng.

MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU HIỆN ĐẠI 1. Phương pháp hồi quy (Regression)

Phương pháp mẫu tuần tự (Sequential Pattern mining)

Là việc xác định những mẫu mà sự xuất hiện của chúng trong CSDL thỏa mãn ngƣỡng tối thiểu. Luật tuần tự đƣợc sinh ra từ mẫu tuần tự, biểu diễn mối quan hệ giữa hai loại sự kiện này sẽ xảy ra sau loạt sự kiện kia.

MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG 1. Phân lớp(Classification)

Luật kết hợp (AssociationRules)

12 - Bước 1: Tìm tất cả các tập mục phổ biến, một văn bản phổ biến được xác định quađộhỗ trợ và thỏa mãn độ hỗ trợ cực tiểu. - Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãnđộ hỗ trợ cực tiểu và độ tin cậy cực tiểu.

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC KHÁCH HÀNG

ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG QUY TRÌNH TÍN DỤNG

CÂY QUYẾT ĐỊNH (DECISION TREE)

    Các vấn đề đặc thù trong khi học hay phân lớp dữ liệu bằng cây quyết định gồm: Xác định độ sâu để phát triển cây quyết định, xử lý với những thuộc tính liên tục, chọn phép đo lựa chọn thuộc tính thích hợp, sử dụng tập dữ liệu đào tạo với những giá trị thuộc tính bị thiếu, sử dụng các thuộc tính với những chi phí khác nhau, và cải thiện hiệu năng tính toán. Có thể hiểu “quá vừa” là hiện tƣợng cây quyết định chứa một số đặc trƣng riêng của tập dữ liệu đào tạo, nếu lấy chính tập dữ liệu đào tạo để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao, trong khi đối với những dữ liệu tương lai khác nếu sử dụng cây đó lại không đạt được độ chính xác như vậy. Mặc dù phương pháp thứ nhất có vẻ trực tiếp hơn, nhưng với phương pháp thứ hai thì cây quyết định đƣợc sinh cho phép quá vừa và sau đó sẽ thực hiện thao tác cắt tỉa, điều này sẽ đơn giản hơn nhiều so với việc ƣớc lƣợng thời điểm dừng phát triển cây.

    Điều đó có nghĩa là nếu thuộc tính liên tục A trong tập dữ liệu đào tạo có n giá trị phân biệt thì cần thực hiện n-1 lần kiểm tra value(A) ≤ θi với i = 1.n-1 để tìm ra ngƣỡng θbest tốt nhất tương ứng với thuộc tính đó. Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi sang mô hình dạng quy tắc (hay còn gọi là mô hình dạng luật IF..THEN..) đây là ƣu điểm nổi bật của kỹ thuật này, cho dù hình dáng cây quyết định có thể lớn và phức tạp do những tập dữ liệu lớn nhưng việc đi theo bất cứ đường nào trên cây đều dễ dàng theo nghĩa phổ biến và rừ ràng. Nhƣ chúng ta đã biết, cây quyết định có thể chứa nhiều định dạng, nhƣng trong thực tế, các thuật toán sử dụng để tạo ra cây quyết định thường tạo ra những cây với số phân nhánh thấp và các test đơn giản tại từng node.

    Những thuộc tính rời rạc đã từng gây ra những vấn đề với mạng neural và các kỹ thuật thống kê lại thực sự dễ dàng thao tác với các điều kiện phân chia (splitting criteria) trên cây quyết định, mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính đƣợc chọn để phát triển tại node đó. Tại từng node, cần tính một độ đo (hoặc tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác xắp xếp lại tập dữ liệu theo thứ tự giá trị ủa thuộc tính đó, sau đó mới có thể chọn một thuộc tính phát triển và tương ứng là một phân chia tốt nhất.

    THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH DỰA VÀO ENTROPY

      Tiêu chí để đánh giá tìm điểm chia là rất quan trọng, chúng đƣợc xem là một tiêu chuẩn “heuristic” để phân chia dữ liệu. Ý tưởng chính trong việc đưa ra các tiêu chí trên là làm sao cho các tập con đƣợc phân chia càng trở nên “trong suốt” (tất cả các bộ thuộc về cùng một nhãn) càng tốt. Ý nghĩa của đại lƣợng Entropy trong lĩnh vực lý thuyết công nghệ thông tin: Entropy của tập U chỉ ra số lƣợng bít cần thiết để mã hóa lớp của một phần tử đƣợc lấy ra ngẫu nhiên từ tập U.

      Lƣợng thông tin thu thêm (Information Gain - IG) là lƣợng Entropy còn lại khi tập các đối tƣợng trong DT đƣợc phân hoạch theo một thuộc tính điều kiện c nào đó. Giá trị IG(U, c) đƣợc sử dụng làm độ đo lựa chọn thuộc tính phân chia dữ liệu tại mỗi nút trong thuật toán xây dựng cây quyết định ID3. Ý nghĩa của đại lƣợng IG trong lĩnh vực lý thuyết công nghệ thông tin: IG của tập S chỉ ra số lƣợng bít giảm đối với việc mã hóa lớp của một phần tử c đƣợc lấy ra ngẫu nhiên từ tập U.

      - Tạo mới một cây con (sub-tree) của nút hiện tại cho mỗi giá trị có thể của thuộc tính kiểm tra và tập dữ liệu đầu vào sẽ đƣợc tách ra thành các tập con tương ứng với các cây con vừa tạo. Vì thế thuộc tính “Độ ẩm” đƣợc chọn làm nhãn cho nút gốc, ba nhánh đƣợc tạo ra lần lƣợt với tên là: “Cao”, “Trung bình”, “Thấp”. Tương tự để tìm điểm chia tốt nhất tại thuật toán này, phải tính toán chỉ số IG của các thuộc tính “Quang cảnh”, “Gió”, “Nhiệt độ”.

      Ta thấy chỉ số IG của ba thuộc tính “Quang cảnh”, “Gió”, “Nhiệt độ” là nhƣ nhau ta có thể chọn bất kỳ thuộc tính nào để phân chia.

      Bảng 2.1 .Bảng chơi Tennis
      Bảng 2.1 .Bảng chơi Tennis

      XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐÁNH GIÁ

        Ở đây ta sẽ sử dụng và so sánh hiệu quả của 2 mô hình phân lớp của cây quyết định (Decision tree) là J48 và SimpleCART và mô hình MultilayerPerceptron của mạng Neuron (Neural network). Chú ý: Việc lựa chọn thuật toán nào để có một model tốt phụ thuộc rất nhiều yếu tố, trong đó cấu trúc của dataset có ý nghĩa quan trọng đến việc lựa chọn thuật toán. Ví dụ thuật toán cây hồi qui phân loại (CART – Classification And Regression Tree) và J48 cho kết quả tốt trên các dữ liệu kiểu số (Numerical Data), trong khi đó thuật toán ID3 cho kết quả tốt đối với dữ liệu định danh (nominal Data).

        Trong khuôn khổ bài khóa luận này chúng tôi sử dụng tập dữ liệu chovay.csv bao gồm 11 thuộc tính trong đó có 10 thuộc tính quyết định và 1 thuộc tính quyết định. Qua thời gian học tập tại trường em đã thu được những kiến thức.Cùng với sự giúp đỡ nhiệt tình của các thầy cô và các bạn. Em đã hoàn thành khóa luận tốt nghiệp với đề tài “Khai phá dữ liệu với cây quyết định và ứng dụng trong phân loại khách hàng”.

        Mặc dù vẫn còn mắc nhiều khuyết điểm, em rất mong đƣợc sự giúp đỡ, quan tâm và chỉ bảo tận tình của các thầy cô giáo và các bạn để đề tài đƣợc thành công hơn. Một lần nữa em xin chân thành cảm ơn các thầy cô giáo và các bạn đã nhiệt tình giúp đỡ em trong thời gian qua.

        Hình 3.3. Nạp dữ liệu
        Hình 3.3. Nạp dữ liệu