Tập tất cả các đối tượng cùng loại mà các nhà thống kê quan tâm nghiên cứu được gọi là tổng thể. Tổng thể thường bao gồm một số lượng lớn, có khi rất lớn các đối tượng. Nghiên cứu toàn bộ đối tượng trong tổng thể là việc làm khó khăn hoặc không thể thực hiện được, chưa kể là có khi không có nghĩa. Vì vậy người ta thường dùng phương pháp chọn mẫu, tức là từ một tổng thể có N đối tượng (N được gọi là kích thước của tổng thể) rút ra n đối tượng (n
được gọi là kích thước mẫu), tiến hành nghiên cứu trên mẫu đó rồi căn cứ vào kết quả thu được mà suy rộng ra cho tổng thể. Các kết quả suy rộng này không thể tránh khỏi những sai lệch. Độ lớn của các sai lệch phụ thuộc vào hai yếu tố cơ bản là phương pháp chọn mẫu và kích thước mẫu. Vì vậy, vấn đề quan trọng là làm sao đảm bảo cho mẫu phải phản ánh đúng đắn cấu trúc của tổng thể, tức là mẫu phải mang tính đại diện để cho sai lệch do chọn mẫu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
càng nhỏ càng tốt. Kích thước mẫu càng lớn, thì tính đại diện của mẫu càng cao, tuy nhiên khi đó chi phí cũng sẽ càng lớn.
Trong thực hành, tùy vào tình huống cụ thể, người ta có thể áp dụng những phương pháp chọn mẫu khác nhau. Mỗi phương pháp đều có ưu điểm và nhược điểm riêng.
- Chọn mẫu ngẫu nhiên đơn giản (Simple Random Sampling): Đây là cách chọn mẫu đơn giản nhất. Để chọn mẫu cỡ n, ta chọn ngẫu nhiên n đối tượng từ quần thể gồm N đối tượng, sao cho xác suất mỗi mẫu cỡ n được chọn là như nhau và bằng n
N
C
1 .
Để có được mẫu ngẫu nhiên từ tổng thể người ta sử dụng bảng số ngẫu nhiên hoặc chương trình tạo số ngẫu nhiên. Các đối tượng có số thứ tự trùng với các số nguyên ngẫu nhiên khác nhau tạo được sẽ là những đối tượng mẫu.
- Chọn mẫu ngẫu nhiên phân vùng (Stratified Random Sampling): Trước
hết ta phân chia quần thể gồm N đối tượng thành L quần thể con cỡ N1, N2,…,
NL, (N1 + N2 +… + NL = N). Mỗi quần thể con được gọi là một vùng. Từ quần thể con thứ i chọn ra ni đối tượng. Mẫu ngẫu nhiên thu được là hợp của n1 +
n2 +… + nL = n đối tượngchọn được từ các quần thể con.
- Chọn mẫu có hệ thống (Systematic Sampling): Tạo một số nguyên ngẫu nhiên k. Đánh số thứ tự (một cách ngẫu nhiên) các đối tượng trong quần thể. Trong số k đối tượng đầu tiên theo danh sách, chọn ngẫu nhiên một đối tượng đưa vào mẫu. Tiếp đó, kể từ vị trí của đối tượng đã chọn, cứ cách k đối tượng trong danh sách lại chọn một đối tượng đưa vào mẫu, cho đến khi không thực hiện được nữa. Ví dụ, giả sử quần thể chọn mẫu gồm 100 đối tượng, k = 5 và đối tượng được chọn vào mẫu trong số 5 đối tượng đầu tiên là 2. Khi đó mẫu được chọn theo cách chọn có hệ thống sẽ bao gồm các đối tượng số 2, 7, 12,…, 92 và 97.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Sau khi đã chọn được mẫu, vấn đề cần giải quyết là, dựa trên các số liệu mẫu, làm sao có được những suy luận đúng đắn cho cả tổng thể với một xác suất cao. Muốn vậy phải dựa vào các phương pháp toán học, cụ thể là các phương pháp của Lý thuyết xác suất. Lý thuyết xác suất, với những quy luật lý thuyết, soi sáng cho các quy luật thống kê, làm cho thống kê toán học từ chỗ chỉ có tính chất mô tả trở nên có khả năng phân tích, dự đoán với cơ sở khoa học vững chắc.
Như đã nói trong chương 1, những năm gần đây, cùng với sự phát triển vượt bậc của công nghệ thông tin, truyền thông, khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin không ngừng được nâng cao. Theo đó, các CSDL mà chúng ta lưu trữ được trong mọi lĩnh vực thường có kích thước rất lớn. Nhằm khai thác hiệu quả những thông tin, tri thức hữu ích, tiềm ẩn trong các CSDL lớn, các nhà khoa học đã phát triển những kỹ thuật khai phá dữ liệu. Nhận thấy những lợi thế của phương pháp chọn mẫu trong nghiên cứu các quần thể kích thước lớn, một số tác giả trên thế giới cũng đã nghiên cứu sử dụng phương pháp này trong khai phá dữ liệu. Chẳng hạn, Hannu Toivonen [10] đã sử dụng kỹ thuật chọn mẫu trong khai phá luật kết hợp, S.D. Lee và cộng sự [13] đã sử dụng kỹ thuật chọn mẫu vào việc bảo trì các luật kết hợp đã khám phá được.
Để chọn mẫu khai phá dữ liệu, người ta thường sử dụng phương pháp chọn mẫu ngẫu nhiên đơn giản, vì những lý do sau đây:
- Dễ mô phỏng và cài đặt trên máy tính. Việc chọn mẫu ngẫu nhiên đơn giản có thể mô phỏng và thực hiện bằng cách sử dụng các thuật toán tạo số ngẫu nhiên;
- Ước lượng tỷ lệ dựa trên mẫu ngẫu nhiên đơn giản là ước lượng không chệch;
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Không cần có bất kỳ một thông tin tiên nghiệm nào về quần thể.