Thiết lập các lớp mẫu thời gian

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 54 - 57)

CHƯƠNG 3. CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU TRỰC QUAN

3.4. Những cách tiếp cận phân tích

3.4.4. Thiết lập các lớp mẫu thời gian

Chúng ta có định nghĩa về hai phạm trù mẫu thời gian tuyệt đối và mẫu thời gian kề nhau. Thời gian tuyệt đối tham chiếu đến số lƣợng thời gian thực tế bị mất trên bất kỳ sự kiện nào hoặc giữa tập các sự kiện. Giá trị thời gian tuyệt đối tham chiếu làm tới số lượng thời gian trôi qua của thế giới thực. Thời gian kề nhau dường nhƣ chỉ liên quan đến thứ tự các sự kiện. Với thời gian này, số lƣợng thời gian không được xem xét mà chuyển qua xem xét thứ tự tương đối giữa các sự kiện.

Những đặc trƣng này của mẫu thời gian có thể sử dụng để định nghĩa và phát hiện

ra những mẫu sự kiện – chu trình bên trong một tập dữ liệu. Một sự kiện – chu trình có thể đƣợc định nghĩa là sự kết hợp đặc biệt giữa hai đối tƣợng xuất hiện với một tần số nhất định.

Mô hình mô tả thời gian tuyệt đối và thời gian kề nhau:[6]

KẾT LUẬN: Các phương pháp khai phá dữ liệu trực quan áp dụng trên các tập dữ liệu phức tạp và lớn. Trong các phương pháp này chủ yếu tập trung tìm ra các đặc tính cấu trúc, các đặc tính chung của dữ liệu, từ đó có thể quan sát để phân tích dữ liệu.

Thời gian tuyệt đối Thời gian kề nhau

Mẫu thời gian

CHƯƠNG 4. CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG.

Trong chương trước chúng ta đã thấy được phương pháp khai phá dữ liệu trực quan là công nghệ rất mạnh. Khai phá dữ liệu trực quan giúp cho người sử dụng dễ dàng thực hiện hơn việc khai phá dữ liệu dù họ không hiểu rõ lắm về phạm vi của thông tin vì không cần phải đƣa ra nhiều giả thuyết khi bắt đầu.

Trong phần này chúng ta sẽ tìm hiểu các công cụ khai phá dữ liệu khác của công nghệ khai phá dữ liệu.

4.1. PHƯƠNG PHÁP THỐNG KÊ.

4.1.1. Phương pháp thống kê.

Trong phương pháp này, ta sử dụng những thông tin được thống kê để suy luận và miêu tả xa hơn trong phân tích dữ liệu. Những thông tin đƣợc thống kê là sự lựa chọn phân tích trong khoa học, y học, và thậm chí trong kinh doanh, buôn bán trong để tìm ra và định liệu có phải có sự khác nhau tồn tại giữa các nhóm. Trong hệ thống hỗ trợ quyết định thì việc dùng phương pháp thống kê là rất phổ biến[6].

Những thông tin đƣợc thống kê theo tính toán toán học đáp ứng nhu cầu sử dụng dữ liệu định lƣợng, ta cũng có thể sử dụng các thông tin này ở dạng định tính nếu định dạng lại dữ liệu theo một khuôn dạng cho trước để phân tích. Thống kê kiểm tra có thể sử dụng để so sánh những giá trị giữa nhiều nhóm làm mẫu trong tập dữ liệu. Trong những trường hợp đơn giản nhất, thống kê dùng để mô tả tổng quan những đặc trƣng của nhóm lấy mẫu. Thống kê mô tả bao gồm những đo đạc trung bình nhƣ giá trị bình quân (giá trị giữa), chuẩn độ lệch, sắp xếp. Trong phần tiếp theo ta nói về việc đánh giá sự khác nhau trong nhóm và hồi quy nhóm.

Sử lý các nhóm khác biệt

Trong rất nhiều các trường hợp phức tạp, các phương thức thống kê có thể đƣợc dùng trong nội dung của các giả thuyết kiểm định mà ta dùng để dự đoán sự khác biệt giữa các nhóm trước khi việc phân tích bắt đầu.

Kiểm định giả thuyết.

Trong công việc thống kê, các giả thuyết mô tả sự khác biệt giữa các nhóm đã đƣợc kiểm định chống lại các giả thuyết rỗng. Các giả thuyết rỗng ý chỉ không

có các sự khác biệt thực giữa các nhóm. Vì vậy, chúng ta sử dụng kiểm định thống kê để tìm ra sự khác biệt giữa các nhóm.

Trong tham số kiểm định thống kê như kiểm định t, sự phân tích phương sai và phân tích nhiều biến ngẫu nhiên (Thống kê F), sự định giá sự khác nhau giữa các nhóm đƣợc tạo ra với việc đƣa các độ sai ngẫu nhiên vào trong tính toán. Sau khi tính toán và quan sát dựa vào công thức sau ta đƣa ra kết luận logic của thống kê[6].

Tuy nhiên, để có đƣợc kết quả tốt thì ta cần tính đến độ lớn của hiệu ứng thống kê. Chúng ta cần một tỷ lệ lớn bao nhiêu để cho kết luận là đáng tin cậy. Câu trả lời là phụ thuộc vào số các nhân tố. Có ba nhân tố quan trọng nhất là là mức xác suất mà ta chọn làm tiêu chuẩn, số lƣợng quan sát trong mẫu và số lƣợng các nhóm so sánh. Mức tiêu chuẩn cho ý nghĩa thống kê , đƣợc tham chiếu tới nhƣ mức alpha, thông thường chọn là 0.05 hoặc 0.10. Nếu những kết quả của kiểm định là quan trọng thì chọn mức 0.05. Việc thay đổi số lƣợng quan sát và số lƣợng nhóm cũng làm thay đổi kết quả của kết luận.

Phân tích hồi quy có dự đoán trước.

Trong trường hợp ta muốn giá trị thu được trong một khoảng dự đoán cho trước, cách tiếp cận này gọi là phân tích hồi quy dự đoán. Trong cách tiếp cận này người ta dùng phương pháp hồi quy tuyến tính, cách tốt nhất để đạt đến mục đích mà ta muốn. Kết quả của cách tiếp cận này có hai thành phần quan trọng. Thứ nhất, hàm toán học tuyến tính cho sự mô tả phù hợp tốt nhất cho tập dữ liệu ta có. Thứ hai, cùng với sự tuyến tính này cũng có một sự đo đạc tương quan để ta có thể đưa dữ liệu đến gần hàm này. Hơn thế, các số đo có thể cho thấy sự mâu thuẫn của các quan sát trong mẫu.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu (Trang 54 - 57)

Tải bản đầy đủ (PDF)

(126 trang)