Phƣơng Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ (Trang 66 - 71)

III – ÁP DỤNG THỰC TIỄ N:

5- Phƣơng Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Chọn phƣơng pháp khai phá phù hợp là bƣớc 5 trong phƣơng pháp khai phá của chúng ta.

Trong mục này, chúng ta thảo luận về các phƣơng pháp đƣa ra kết quả chính xác cho việc dự đoán khuấy động và những công việc cần xem xét khi chúng ta ứng dụng những phƣơng pháp này.

a) Chọn Phương Pháp Khai Phá

Có nhiều loại phƣơng pháp để khai phá dữ liệu khác có thể sử dụng để ứng dụng vào việc dự đoán khuấy động, sau đây là một vài phƣơng pháp cho mơ hình dự đốn. Phân lọai theo thứ tự các thuật tốn có giá trị thƣờng sử dụng:

o Phƣơng pháp Cây thƣ mục

o Phƣơng pháp RBF ( Radial Basis Function )

o Phƣơng pháp Mạng Nơron

o Phƣơng pháp Hồi qui-logic và đa thức

 Phƣơng pháp Cây thƣ mục:

Phƣơng pháp cây thƣ mục cho dữ liệu đầu ra thành một cấu trúc hình cây, cấu trúc này đề ra sự trình bày rõ ràng cho nhân viên tiếp thị và giúp cho việc quản lý dữ liệu khuấy động dễ nhận diện hơn. Khi sử dụng mơ hình cây chúng ta có thể sử dụng dữ liệu ban đầu chƣa đƣợc chuẩn hóa hay tiêu chuẩn hóa. Mơ

hình cây có những quy tắc về dữ liệu nhập vào trƣớc khi đƣa ra những kết quả mong muốn.

 Phƣơng pháp RBF

Mạng RBF đƣợc bổ sung theo hƣớng mạng lƣới dùng để quản lý chuỗi thuật toán. RBF họat động bằng cách thêm vào số lƣợng lớn những hàm đơn giản. Trong khi mở rộng mơ hình, những hàm cần đƣợc điều chỉnh để phù hợp với kết quả dự đoán.

 Phƣơng pháp Mạng Nơron

Làm việc bằng cách nhập dữ liệu vào và chuyển đổi chúng thành một hay nhiều dữ liệu kết quả. Trong suốt những giai đoạn chuyển đổi này, q trình mà mạng lƣới đƣợc hình thành nó khơng ngừng đƣợc cải tiến và điều chỉnh khi phát hiện ra lỗi và ghi lại những lỗi này. Mặc dù vậy mạng Nơron không đƣa ra qui định nào để có thể hình thành nên một kết quả dễ coi và đặc biệt nó địi hỏi những dữ liệu nhập vào phải chính xác.

 Phƣơng pháp Hồi qui

Phân tích hồi qui là phƣơng pháp phân tích dữ liệu truyền thống nhằm chuyên hóa một chức năng để diễn tả mối quan hệ giữa số lƣợng dữ liệu nhập vào và kết quả chúng ta muốn dự đốn. Thơng thƣờng, phƣơng pháp này dùng dữ liệu số, khi sử dụng mạng Nơron và mô hình RBF, đây là bƣớc chuẩn bị khá đặc biệt và cần thiết.

Có nhiều phƣơng pháp hồi qui khác nhau. những phƣơng pháp này khác nhau về chức năng của chúng nhằm phù hợp với dữ liệu một trong những phƣơng pháp thƣờng dùng là

o Hồi quy đa thức: là phần mở rộng của hồi qui tuyến tính sử dụng

một hàm tinh tế hơn để phù hợp với dữ liệu.

o Hồi qui logic: Trái ngƣợc với những phƣơng pháp hồi qui khác bởi

vì dữ liệu ra của hồi qui logic là 1 hoặc 0 (hệ nhị phân) . để thu đƣợc một kết quả hồi qui logic từ mạng Nơron sử dụng tồn bộ lớp dự liệu khơng ẩn. Bằng cách di chuyển những lớp dữ liệu ẩn đi trong mạng Nơron, mạng lƣới chứa khối lƣợng phù hợp giữa đầu vào và đầu ra.

 Phƣơng pháp tổng hợp:

Khi sử dụng mơ hình dự đốn, những mơ hình này đƣợc phát triển dựa vào thơng tin tồn bộ khách hàng hay chỉ dựa vào vài mảng đặc biệt. Những mơ hình khác nhau có thể đƣợc nối kết tuần tự hay theo cấu trúc song song nhằm đạt đƣợc kết quả tốt hơn. Vài ví dụ về cách liên kết:

o Xây dựng mơ hình dự đốn nhờ sự phân chia thành mảng. Phân

loại khách hàng khi sử dụng số lƣợng mảng nhƣ dữ liệu đầu vào hay đơn thuần xây dựng mơ hình dựa vào mảng khách hàng nào đó.

o Điều hành những kết quả khác nhau và sử dụng những kết quả này

nhƣ là phiếu. Những mẫu dự đoán khác nhau này giúp ta đạt đƣợc một sản phẩm cho kết quả chính xác cao nhất.

o Xây dựng những mơ hình khác nhau dựa vào những phần khác

nhau của các cột dữ liệu

b) Ứng Dụng Phương Pháp Khai Phá

Chúng ta đã trình bày mơ hình dự đốn phụ thuộc vào phƣơng pháp và dữ liệu sử dụng. Vì vậy, trong trƣờng hợp này nhiều phƣơng pháp khai phá đã đƣợc dùng thử để so sánh kết quả từng mẫu và chọn mẫu tốt nhất. Mẫu tiến triển hơn đƣợc đƣa ra trong hình 18 dƣới đây:

Chọn dữ liệu thơng thƣờng có rất nhiều dữ liệu ứng cử cho mơ hình. Để xác định những dữ liệu có liên quan, thích đáng nhất chúng ta có thể sử dụng

thông tin thống kê. Thông tin này về cơ bản cho chúng ta một danh sách sự phân bổ của các dữ liệu so sánh với tổng thể đƣợc gọi là dữ liệu thống kê

Cây thƣ mục:

Nên sử dụng lỗi sai chọn lựa khối lƣợng dữ liệu nếu khơng có nhiều ngƣời khuấy động trong các cột dữ liệu. Ở đây sử dụng cột dữ liệu khách hàng có tỉ lệ khuấy động 2%. Khi giải thuật cây cố gắng phân loại ngƣời khuấy động, nó có thể kiên trì phân loại tất cả những ngƣời khuấy động, điều này dẫn tới tỉ lệ sai sót 2% trong tồn bộ mơ hình cây, lỗi này khơng coi trọng trong thuật tốn.

Chú ý:

IM cho dữ liệu có chức năng xác định khối lượng khơng chính xác ngăn chặn không cho giải thuật kiên trì phân loại tất cả những người khuấy động, chúng ta gán 10 là lỗi về khối lượng, điều này nghĩa là nếu giải thuật cứ kiên trì phân loại tất cả những người khuấy động thì tỉ lệ sai sót sẽ là 20% chứ khơng phải là 2%.Chúng ta có thể điều chỉnh giá trị của lỗi về khối lượng sau khi xem kết quả cây.

Chiều sâu cực đại của cây thƣ mục cũng có thể tạo thành một tập hợp. Trong trƣờng hợp này nó đƣợc giới hạn tới 10. Có thể có một vấn đề nảy sinh nếu cây có quá nhiều nút lá. Nói cách khác, cho dù cây có tỉ lệ lỗi ít hơn nhƣng nếu nó có chiều sâu lớn hơn thì cây này thơng thƣờng sẽ khơng tiếp tục thực hiện với những cột dữ liệu khác và cho ra kết quả rất khó nhìn.

Xén bớt là bƣớc để cải thiện, khi thực hiện bƣớc này ta nhập chung vài nút lá và nhánh với mục đích cải thiện khả năng trình bày và độ dễ hiểu của cây.

Chú ý:

IM có thuật tốn tự động xén bớt và dừng lại ở những giới hạn như kích thước ở những nút lá, chiều sâu cây và độ chính xác cũng cho phép người sử dụng tự cắt xén. Ở đây, cây được cắt xén bởi IM một cách tự động và một vài phép cắt xén nhân tạo được thực hiện nếu cành khơng có ý nghĩa trong viển cảnh tiếp thị.

RBF ( Radial Basis Function ):

Trong trƣờng hợp này, chúng ta sử dụng dữ liệu biến chủ yếu trong cây thƣ mục. Tuy nhiên để đáp ứng những đặc tính của mạng Nơron chúng ta nên xử dụng tất cả dữ liệu cho phép trong lần chạy thử đầu tiên. Sau đó những dữ liệu và biến tối ƣu sẽ đƣợc tìm ra. Đƣa ra tỉ lệ khuấy động ít hơn 5% và khơng có hàm nhƣ lỗi về khối lƣợng trong RBF, chúng ta sử dụng dữ liệu phân tầng (tỉ lệ ngƣời khuấy động tăng lên tới 20%). Nếu chúng ta sử dụng tỉ lệ cân bằng thì tỉ lệ khuấy động là 50% trong chuỗi. Khả năng trình bày của mơ hình cao hơn.

Chú ý: IM (IM For Data)

o Chúng ta có thể đặt những thơng số đầu vào và đầu ra mẫu đến

50 và 10 tƣơng ứng cho lần chạy đầu tiên

o Phƣơng pháp RBF có thể sử dụng cho việc phân loại thay vì đƣa ra kết quả dự đốn. Việc này đƣợc thực hiện bằng cách lựa chọn dữ liệu biến phân loại thành bảng giống nhƣ những khu vực dự đoán.

Để kiểm tra chéo trong suốt q trình hình thành mơ hình. Trƣờng hợp này, chúng ta sử dụng tỉ lệ 4:1 cho dữ liệu tập hợp và dữ liệu kiểm tra.

Mạng Nơron (phần dự đoán)

Trƣờng hợp này, chúng ta sử dụng dữ liệu biến chủ yếu trong cây thƣ mục. Nhƣ đã nêu ra trong phần RBF, tất cả các dữ liệu biến có thể đƣợc dùng thử cho lần chạy đầu tiên phục vụ đặc điểm mạng Nơron. Bằng cách điều chỉnh những đơn vị ẩn đi và những tùy chọn khác nhƣ động lƣợng, chúng ta có thể nhận đƣợc kết quả tối ƣu. Trƣờng hợp này, chúng ta chỉ điều chỉnh những đơn vị ẩn đi trong dự đoán Nơron chúng ta cũng sử dụng mẫu xếp tầng (tỉ lệ ngƣời khuấy động tăng 20%), (bởi vì khơng có hàm để sữa lỗi sai chọn khối lƣợng dữ liệu trong dự đoán Nơron).

So sánh những mơ hình sử dụng biến số có lợi

Một phép so sánh giữa những mơ hình với những biến số có lợi. Những biểu đồ thang có thể là:

o Quản lý danh sách khách hàng sắp xếp theo thang điểm dự đoán khuấy động và chia thành từng đoạn (ví dụ 10 đoạn)

o Tính tốn tỉ lệ ngƣời khuấy động thật sự trong mỗi đoạn

o Phác họa phần trăm những ngƣời khuấy động tiềm ẩn thực tế trong mỗi

đoạn.

o So sánh tính tốn của mỗi mơ hình với mơ hình ngẫu nhiên

Một mơ hình ngẫu nhiên, nghĩa là một khách hàng đƣợc chọn ngẫu nhiên từ mỗi đoạn, theo lý thuyết 10% số ngƣời khuấy động sẽ nằm trong mỗi đoạn nếu có 10 đoạn. Tất nhiên mơ hình tốt nhất đƣợc cho là mơ hình giả định có thể sắp xếp tất cả những ngƣời khuấy động vào đoạn đầu tiên hay đoạn nào đó có ý nghĩa đối với mục đích tiếp thị.

Ý tƣởng ƣớc lƣợng mơ hình so sánh với bảng dự đốn những ngƣời khuấy động phát sinh trong mỗi mơ hình tiêu chuẩn mà chúng ta đã có. Ví dụ nhƣ nếu chúng ta biết một khách hàng mà hợp đồng sắp hết sẽ có nhiều khả năng ngừng cộng tác với Cơng ty. Do đó, thời hạn hết hiệu lực của hợp đồng cũng có thể là tiêu chuẩn chúng ta sử dụng sắp xếp danh sách những ngƣời khuấy động và lấy kết quả này so sánh với danh sách mơ hình khai phá dữ liệu. Nếu chúng ta khơng có dữ liệu biến nhƣ thời hạn hết hiệu hợp đồng, một danh sách những ngƣời khuấy động chọn ngẫu nhiên cũng có thể đƣợc dùng để so sánh

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ (Trang 66 - 71)

Tải bản đầy đủ (PDF)

(85 trang)