Các kỹ thuật tiền xử lý dữ liệu

Một phần của tài liệu Kỹ thuật mã hóa và nén tín hiệu âm thanh ứng dụng trong truyền hình số (Trang 27 - 31)

2.3.2.1Làm sạch dữ liệu – Data cleaning

Làm sạch dữ liệu đôi khi được so sánh với xóa dữ liệu, khi mà dữ liệu cũ hoặc vô dụng sẽ được xóa khỏi tập hợp dữ liệu. Mặc dù làm sạch dữ liệu có thể bao gồm việc xóa dữ liệu cũ, không đầy đủ hoặc trùng lặp nhưng việc làm sạch dữ liệu là khác nhau với xóa dữ liệu. Xóa dữ liệu thường tập trung vào xóa không gian cho dữ liệu mới, trong khi làm sạch dữ liệu tập trung vào việc tối đa hóa độ chính xác của dữ liệu trong

27

một hệ thống. Phân tích một tập hợp dữ liệu có thể chỉ ra các bộ kết hợp với nhau dẫn đến sự trung lặp như thế nào, trong trường hợp này làm sạch dữ liệu có thể được sử dụng để giải quyết vấn đề.

Kỹ thuật này được thực hiện thông qua việc bổ sung các giá trị thiếu (missing values), loại bỏ các dữ liệu nhiễu (noisy data), xác định và loại bỏ các giá trị lệch quá xa so với mong đợi, giải quyết vấn đề không nhất quán trong dữ liệu.

 Nếu người dùng thấy dữ liệu là không “sạch”, họ sẽ không mấy tin tưởng vào kết quả khai phá trên dữ liệu đó.

 Dữ liệu không “sạch” có thể gây ra những nhiễu loạn cho các thủ tục khai phá dữ liệu và dẫn tới những kết quả không đáng tin cậy.

 Dù trong hầu hết các thủ tục khai phá dữ liệu đều cài đặt những cơ chế nhằm xử lý các vấn đề về thiếu giá trị hay nhiễu nhưng chúng không phải lúc nào cũng đáng tin cậy

Bước làm sạch dữ liệu là bước tiền xử lý cực kỳ quan trọng.

2.3.2.2Tích hợp dữ liệu – Data Intergration

Tích hợp dữ liệu chủ yếu hỗ trợ việc xử lý phân tích các bộ dữ liệu lớn bằng cách sắp xếp, kết hợp và trình bày dữ liệu mỗi thiết lập từ các phòng ban tổ chức và các nguồn bên ngoài để thực hiện mục tiêu tích hợp.

Tích hợp dữ liệu thường được thực hiện trong kho dữ liệu (DW) thông qua phần mềm chuyên dùng để lưu trữ kho dữ liệu lớn từ các nguồn lực nội bộ và bên ngoài. Dữ liệu được chiết xuất, hợp nhất và được trình bày như một mẫu thống nhất. Ví dụ, bộ dữ liệu hoàn chỉnh của người dùng có thể bao gồm chiết xuất và kết hợp dữ liệu từ tiếp thị, bán hàng và các hoạt động khác, kết hợp các nguồn này để tạo thành một báo cáo đầy đủ.

28

2.3.2.3Biến đổi dữ liệu – Data Transformation

Biến đổi dữ liệu: quá trình biến đổi hay kết hợp dữ liệu vào những dạng thích hợp cho quá trình khai phá dữ liệu

 Làm trơn dữ liệu (smoothing): bao gồm các phương pháp như binning (bin means, bin medians, bin boundaries), hồi quy, kỹ thuật gom cụm, kỹ thuật rời rạc hóa dữ liệu

 Kết hợp dữ liệu (aggregation): bao gồm các tác vụ kết hợp/tóm tắt dữ liệu, chuyển dữ liệu ở mức chi tiết này sang dữ liệu ở mức kém chi tiết hơn

 Tổng quát hoá (generalization): chuyển đổi dữ liệu cấp thấp/ nguyên tố/thô sang các khái niệm ở mức cao hơn thông qua các phân cấp ý niệm

 Chuẩn hoá (normalization): bao gồm chuẩn hóa min-max, z-score, chuẩn hóa sang thang thập phân

 Chuẩn hóa Min-max

- Giá trị cũ: v [minA, maxA]

- Giá trị mới: v’  [new_minA, new_maxA] - Ví dụ: chuẩn hóa điểm số từ 0-4.0 sang 0-10.0. - Công thức: A A A A A A new new new v

v ( _max _min ) _min

min max min '     

29 A A dev d s mean v v _ tan ' 

 Chuẩn hóa thang thập phân

j v v

10

' với j là số nguyên nhỏ nhất sao cho max(|v’|)<1

 Xây dựng thuộc tính/đặc tính (attribute/feature construction)

2.3.2.4Rút gọn dữ liệu

Tập hợp dữ liệu quá lớn sẽ làm tiến trình khai phá trở nên chậm chạp, do vậy dẫn tới nhu cầu giảm kích thước tập dữ liệu mà không ảnh hưởng đến kết quả khai phá.

Kỹ thuật rút gọn dữ liệu cho phép biểu diễn tập dữ liệu dưới dạng rút gọn tức là nhỏ hơn rất nhiều về mặt kích thước/ dung lượng nhưng vẫn cho kết quả khai phá/phân tích chính xác. Các chiến lược bao gồm:

 Gộp nhóm dữ liệu: xây dựng một data cube.

 Lựa chọn tập thuộc tính: loại bỏ các thuộc tính không thích hợp thông qua phân tích tương quan.

 Giảm số chiều dữ liệu: giảm số lượng các biến ngẫu nhiên hoặc thuộc tính. Ví dụ sử dụng các lược đồ mã hóa với chiều dài mã tối thiểu hoặc sử dụng biến đổi wavelet.

 Giảm biểu diễn số lớn: thay dữ liệu đã có bằng các cách biểu diễn thay thế gọn hơn như là sử dụng biểu diễn cụm (cluster) hoặc mô hình tham số (parametric model)

 Sử dụng lược đồ phân cấp khái niệm: khái niệm mức thấp được thay thế thế bằng các khái niệm mức cao hơn.

30

Một phần của tài liệu Kỹ thuật mã hóa và nén tín hiệu âm thanh ứng dụng trong truyền hình số (Trang 27 - 31)