Lấy mẫu dữ liệu:

1. Tầm quan trọng của kỹ thuật lấy mẫu dữ liệu:

Trong khai phá dữ liệu, lấy mẫu có thể được sử dụng như một kỹ thuật để giảm lượng dữ liệu được trình bày cho thuật toán khai phá dữ liệu. Các chiến lược khác để giảm dữ liệu bao gồm giảm kích thước, nén dữ liệu và phân loại dữ liệu. Để lấy mẫu, mục đích là rút ra từ một cơ sở dữ liệu một mẫu ngẫu nhiên, có các đặc điểm giống như cơ sở dữ liệu gốc. Chương này xem xét các phương pháp lấy mẫu có sẵn theo truyền thống từ khu vực thống kê, cách các phương pháp này đã được điều chỉnh phù hợp với lấy mẫu cơ sở dữ liệu nói chung và lấy mẫu cơ sở dữ liệu để khai thác dữ liệu nói riêng.

Có một số vấn đề chính cần được xem xét trước khi có được một mẫu ngẫu nhiên phù hợp cho một nhiệm vụ khai thác dữ liệu. Điều cần

thiết là phải hiểu điểm mạnh và điểm yếu của từng phương pháp lấy mẫu. Cũng cần phải hiểu phương pháp lấy mẫu nào phù hợp hơn với loại dữ liệu được xử lý và thuật toán khai thác dữ liệu sẽ được sử dụng. Đối với mục đích nghiên cứu, chúng tôi cần xem xét nhiều phương pháp lấy mẫu được sử dụng bởi các nhà thống kê và cố gắng điều chỉnh chúng để lấy mẫu để khai thác dữ liệu.

2. Một số quy trình lấy mẫu:

a. Lấy mẫu ngẫu nhiên (Random sampling):

Trong lấy mẫu ngẫu nhiên, các trường hợp được chọn thống nhất từ bộ dữ liệu. Nói cách khác, trong một tập dữ liệu có kích thước n, tất cả các trường hợp có xác suất 1/ n bằng nhau được chọn. Lưu ý rằng các phân phối xác suất khác cũng có thể được sử dụng để lấy mẫu dữ liệu và phân phối có thể khác với thống nhất. Đơn giản, dễ thực hiện nếu đã có một khung chọn mẫu hoàn chỉnh. Tuy nhiên, mức phân bố mẫu trên thị trường có thể bị vi phạm nếu tổng thể có kích thước lớn và kích thước mẫu nhỏ.

Vì nhược điểm nêu trên, phương pháp này không khả thi khi tổng thể có kích thước lớn. Người ta thường sử dụng nó để chọn phần tử cho các phương pháp lấy mẫu khác như chọn điểm xuất phát cho phương pháp lấy mẫu hệ thống.

b. Lấy mẫu phân tầng (Stratiﬁed sampling):

Là 1 biến thể của chọn mẫu ngẫu nhiên, trong đó ta chia bộ dữ liệu thành 2 hay nhiều tầng (nhóm) quan trọng và có ý nghĩa, dựa vào 1 hay 1 số thuộc tính. Sau đó, một số lượng phiên bản sẽ được chọn từ mỗi lần lấy mẫu ngẫu nhiên. Kỹ thuật này đặc biệt hữu ích khi tập dữ liệu không có phân phối thống nhất cho các giá trị thuộc tính lớp (nghĩa là mất cân bằng lớp). Ví dụ, hãy xem xét một bộ gồm 10 nữ và 5 nam. Một mẫu gồm 5 nữ và 5 nam có thể được chọn bằng cách sử dụng lấy mẫu phân tầng từ bộ này. Trên mạng xã hội, một lượng lớn thông tin được thể hiện dưới dạng mạng. Các mạng này có thể được lấy mẫu bằng

nút và cạnh này có thể được chọn bằng các phương pháp lấy mẫu đã nói ở trên. Chúng ta cũng có thể lấy mẫu các mạng này bằng cách bắt đầu với một tập hợp nhỏ các nút (nút giống) và mẫu (a) các thành phần được kết nối mà chúng thuộc về; (b) tập hợp các nút (và các cạnh) được kết nối trực tiếp với chúng; hoặc (c) tập hợp các nút và cạnh nằm trong khoảng cách n quãng đường từ chúng.

Việc lấy mẫu được cộng đồng thống kê đánh giá cao, họ quan sát rằng, một quy trình tính toán mạnh mẽ hoạt động trên một mẫu con của dữ liệu trên thực tế có thể cung cấp độ chính xác cao hơn so với việc sử dụng toàn bộ cơ sở dữ liệu. Trong thực tế, khi lượng dữ liệu tăng lên, tốc độ tăng độ chính xác sẽ chậm lại, hình thành đường cong quen thuộc. Việc lấy mẫu có hiệu quả hay không phụ thuộc vào tốc độ tăng chậm.

Rời rạc hóa dữ liệu: