Phƣơng Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Một phần của tài liệu Khám phá tri thức trong dữ liệu không gian dựa trên mật độ (Trang 66)

III – ÁP DỤNG THỰC TIỄ N:

5- Phƣơng Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Chọn phƣơng pháp khai phá phù hợp là bƣớc 5 trong phƣơng pháp khai phá của chúng ta.

Trong mục này, chúng ta thảo luận về các phƣơng pháp đƣa ra kết quả chính xác cho việc dự đoán khuấy động và những công việc cần xem xét khi chúng ta ứng dụng những phƣơng pháp này.

a) Chọn Phương Pháp Khai Phá

Có nhiều loại phƣơng pháp để khai phá dữ liệu khác có thể sử dụng để ứng dụng vào việc dự đoán khuấy động, sau đây là một vài phƣơng pháp cho mô hình dự đoán. Phân lọai theo thứ tự các thuật toán có giá trị thƣờng sử dụng:

o Phƣơng pháp Cây thƣ mục

o Phƣơng pháp RBF ( Radial Basis Function )

o Phƣơng pháp Mạng Nơron

o Phƣơng pháp Hồi qui-logic và đa thức

 Phƣơng pháp Cây thƣ mục:

Phƣơng pháp cây thƣ mục cho dữ liệu đầu ra thành một cấu trúc hình cây, cấu trúc này đề ra sự trình bày rõ ràng cho nhân viên tiếp thị và giúp cho việc quản lý dữ liệu khuấy động dễ nhận diện hơn. Khi sử dụng mô hình cây chúng ta có thể sử dụng dữ liệu ban đầu chƣa đƣợc chuẩn hóa hay tiêu chuẩn hóa. Mô

hình cây có những quy tắc về dữ liệu nhập vào trƣớc khi đƣa ra những kết quả mong muốn.

 Phƣơng pháp RBF

Mạng RBF đƣợc bổ sung theo hƣớng mạng lƣới dùng để quản lý chuỗi thuật toán. RBF họat động bằng cách thêm vào số lƣợng lớn những hàm đơn giản. Trong khi mở rộng mô hình, những hàm cần đƣợc điều chỉnh để phù hợp với kết quả dự đoán.

 Phƣơng pháp Mạng Nơron

Làm việc bằng cách nhập dữ liệu vào và chuyển đổi chúng thành một hay nhiều dữ liệu kết quả. Trong suốt những giai đoạn chuyển đổi này, quá trình mà mạng lƣới đƣợc hình thành nó không ngừng đƣợc cải tiến và điều chỉnh khi phát hiện ra lỗi và ghi lại những lỗi này. Mặc dù vậy mạng Nơron không đƣa ra qui định nào để có thể hình thành nên một kết quả dễ coi và đặc biệt nó đòi hỏi những dữ liệu nhập vào phải chính xác.

 Phƣơng pháp Hồi qui

Phân tích hồi qui là phƣơng pháp phân tích dữ liệu truyền thống nhằm chuyên hóa một chức năng để diễn tả mối quan hệ giữa số lƣợng dữ liệu nhập vào và kết quả chúng ta muốn dự đoán. Thông thƣờng, phƣơng pháp này dùng dữ liệu số, khi sử dụng mạng Nơron và mô hình RBF, đây là bƣớc chuẩn bị khá đặc biệt và cần thiết.

Có nhiều phƣơng pháp hồi qui khác nhau. những phƣơng pháp này khác nhau về chức năng của chúng nhằm phù hợp với dữ liệu một trong những phƣơng pháp thƣờng dùng là

o Hồi quy đa thức: là phần mở rộng của hồi qui tuyến tính sử dụng

một hàm tinh tế hơn để phù hợp với dữ liệu.

o Hồi qui logic: Trái ngƣợc với những phƣơng pháp hồi qui khác bởi

vì dữ liệu ra của hồi qui logic là 1 hoặc 0 (hệ nhị phân) . để thu đƣợc một kết quả hồi qui logic từ mạng Nơron sử dụng toàn bộ lớp dự liệu không ẩn. Bằng cách di chuyển những lớp dữ liệu ẩn đi trong mạng Nơron, mạng lƣới chứa khối lƣợng phù hợp giữa đầu vào và đầu ra.

 Phƣơng pháp tổng hợp:

Khi sử dụng mô hình dự đoán, những mô hình này đƣợc phát triển dựa vào thông tin toàn bộ khách hàng hay chỉ dựa vào vài mảng đặc biệt. Những mô hình khác nhau có thể đƣợc nối kết tuần tự hay theo cấu trúc song song nhằm đạt đƣợc kết quả tốt hơn. Vài ví dụ về cách liên kết:

o Xây dựng mô hình dự đoán nhờ sự phân chia thành mảng. Phân

loại khách hàng khi sử dụng số lƣợng mảng nhƣ dữ liệu đầu vào hay đơn thuần xây dựng mô hình dựa vào mảng khách hàng nào đó.

o Điều hành những kết quả khác nhau và sử dụng những kết quả này

nhƣ là phiếu. Những mẫu dự đoán khác nhau này giúp ta đạt đƣợc một sản phẩm cho kết quả chính xác cao nhất.

o Xây dựng những mô hình khác nhau dựa vào những phần khác

nhau của các cột dữ liệu

b) Ứng Dụng Phương Pháp Khai Phá

Chúng ta đã trình bày mô hình dự đoán phụ thuộc vào phƣơng pháp và dữ liệu sử dụng. Vì vậy, trong trƣờng hợp này nhiều phƣơng pháp khai phá đã đƣợc dùng thử để so sánh kết quả từng mẫu và chọn mẫu tốt nhất. Mẫu tiến triển hơn đƣợc đƣa ra trong hình 18 dƣới đây:

Chọn dữ liệu thông thƣờng có rất nhiều dữ liệu ứng cử cho mô hình. Để xác định những dữ liệu có liên quan, thích đáng nhất chúng ta có thể sử dụng

thông tin thống kê. Thông tin này về cơ bản cho chúng ta một danh sách sự phân bổ của các dữ liệu so sánh với tổng thể đƣợc gọi là dữ liệu thống kê

Cây thƣ mục:

Nên sử dụng lỗi sai chọn lựa khối lƣợng dữ liệu nếu không có nhiều ngƣời khuấy động trong các cột dữ liệu. Ở đây sử dụng cột dữ liệu khách hàng có tỉ lệ khuấy động 2%. Khi giải thuật cây cố gắng phân loại ngƣời khuấy động, nó có thể kiên trì phân loại tất cả những ngƣời khuấy động, điều này dẫn tới tỉ lệ sai sót 2% trong toàn bộ mô hình cây, lỗi này không coi trọng trong thuật toán.

Chú ý:

IM cho dữ liệu có chức năng xác định khối lượng không chính xác ngăn chặn không cho giải thuật kiên trì phân loại tất cả những người khuấy động, chúng ta gán 10 là lỗi về khối lượng, điều này nghĩa là nếu giải thuật cứ kiên trì phân loại tất cả những người khuấy động thì tỉ lệ sai sót sẽ là 20% chứ không phải là 2%.Chúng ta có thể điều chỉnh giá trị của lỗi về khối lượng sau khi xem kết quả cây.

Chiều sâu cực đại của cây thƣ mục cũng có thể tạo thành một tập hợp. Trong trƣờng hợp này nó đƣợc giới hạn tới 10. Có thể có một vấn đề nảy sinh nếu cây có quá nhiều nút lá. Nói cách khác, cho dù cây có tỉ lệ lỗi ít hơn nhƣng nếu nó có chiều sâu lớn hơn thì cây này thông thƣờng sẽ không tiếp tục thực hiện với những cột dữ liệu khác và cho ra kết quả rất khó nhìn.

Xén bớt là bƣớc để cải thiện, khi thực hiện bƣớc này ta nhập chung vài nút lá và nhánh với mục đích cải thiện khả năng trình bày và độ dễ hiểu của cây.

Chú ý:

IM có thuật toán tự động xén bớt và dừng lại ở những giới hạn như kích thước ở những nút lá, chiều sâu cây và độ chính xác cũng cho phép người sử dụng tự cắt xén. Ở đây, cây được cắt xén bởi IM một cách tự động và một vài phép cắt xén nhân tạo được thực hiện nếu cành không có ý nghĩa trong viển cảnh tiếp thị.

RBF ( Radial Basis Function ):

Trong trƣờng hợp này, chúng ta sử dụng dữ liệu biến chủ yếu trong cây thƣ mục. Tuy nhiên để đáp ứng những đặc tính của mạng Nơron chúng ta nên xử dụng tất cả dữ liệu cho phép trong lần chạy thử đầu tiên. Sau đó những dữ liệu và biến tối ƣu sẽ đƣợc tìm ra. Đƣa ra tỉ lệ khuấy động ít hơn 5% và không có hàm nhƣ lỗi về khối lƣợng trong RBF, chúng ta sử dụng dữ liệu phân tầng (tỉ lệ ngƣời khuấy động tăng lên tới 20%). Nếu chúng ta sử dụng tỉ lệ cân bằng thì tỉ lệ khuấy động là 50% trong chuỗi. Khả năng trình bày của mô hình cao hơn.

Chú ý: IM (IM For Data)

o Chúng ta có thể đặt những thông số đầu vào và đầu ra mẫu đến

50 và 10 tƣơng ứng cho lần chạy đầu tiên

o Phƣơng pháp RBF có thể sử dụng cho việc phân loại thay vì đƣa ra kết quả dự đoán. Việc này đƣợc thực hiện bằng cách lựa chọn dữ liệu biến phân loại thành bảng giống nhƣ những khu vực dự đoán.

Để kiểm tra chéo trong suốt quá trình hình thành mô hình. Trƣờng hợp này, chúng ta sử dụng tỉ lệ 4:1 cho dữ liệu tập hợp và dữ liệu kiểm tra.

Mạng Nơron (phần dự đoán)

Trƣờng hợp này, chúng ta sử dụng dữ liệu biến chủ yếu trong cây thƣ mục. Nhƣ đã nêu ra trong phần RBF, tất cả các dữ liệu biến có thể đƣợc dùng thử cho lần chạy đầu tiên phục vụ đặc điểm mạng Nơron. Bằng cách điều chỉnh những đơn vị ẩn đi và những tùy chọn khác nhƣ động lƣợng, chúng ta có thể nhận đƣợc kết quả tối ƣu. Trƣờng hợp này, chúng ta chỉ điều chỉnh những đơn vị ẩn đi trong dự đoán Nơron chúng ta cũng sử dụng mẫu xếp tầng (tỉ lệ ngƣời khuấy động tăng 20%), (bởi vì không có hàm để sữa lỗi sai chọn khối lƣợng dữ liệu trong dự đoán Nơron).

So sánh những mô hình sử dụng biến số có lợi

Một phép so sánh giữa những mô hình với những biến số có lợi. Những biểu đồ thang có thể là:

o Quản lý danh sách khách hàng sắp xếp theo thang điểm dự đoán khuấy động và chia thành từng đoạn (ví dụ 10 đoạn)

o Tính toán tỉ lệ ngƣời khuấy động thật sự trong mỗi đoạn

o Phác họa phần trăm những ngƣời khuấy động tiềm ẩn thực tế trong mỗi

đoạn.

o So sánh tính toán của mỗi mô hình với mô hình ngẫu nhiên

Một mô hình ngẫu nhiên, nghĩa là một khách hàng đƣợc chọn ngẫu nhiên từ mỗi đoạn, theo lý thuyết 10% số ngƣời khuấy động sẽ nằm trong mỗi đoạn nếu có 10 đoạn. Tất nhiên mô hình tốt nhất đƣợc cho là mô hình giả định có thể sắp xếp tất cả những ngƣời khuấy động vào đoạn đầu tiên hay đoạn nào đó có ý nghĩa đối với mục đích tiếp thị.

Ý tƣởng ƣớc lƣợng mô hình so sánh với bảng dự đoán những ngƣời khuấy động phát sinh trong mỗi mô hình tiêu chuẩn mà chúng ta đã có. Ví dụ nhƣ nếu chúng ta biết một khách hàng mà hợp đồng sắp hết sẽ có nhiều khả năng ngừng cộng tác với Công ty. Do đó, thời hạn hết hiệu lực của hợp đồng cũng có thể là tiêu chuẩn chúng ta sử dụng sắp xếp danh sách những ngƣời khuấy động và lấy kết quả này so sánh với danh sách mô hình khai phá dữ liệu. Nếu chúng ta không có dữ liệu biến nhƣ thời hạn hết hiệu hợp đồng, một danh sách những ngƣời khuấy động chọn ngẫu nhiên cũng có thể đƣợc dùng để so sánh

Một phần của tài liệu Khám phá tri thức trong dữ liệu không gian dựa trên mật độ (Trang 66)

Tải bản đầy đủ (PDF)

(85 trang)