Xữ lý dữ liệu khuyết:

Một phần của tài liệu LUẬN VĂN: NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM CHO DỮ LIỆU GENE MICROARRAY pdf (Trang 27 - 28)

Những giá trị khuyết xảy ra vì một vài lý do khác nhau, bao gồm: độ phân giải không đủ, hỏng hình ảnh, hay đơn giản là bẩn hoặc những vết sước trên mặt kính. Chúng cũng có thể là do lỗi hệ thống của những phương pháp robot tạo ra chúng.

Trong khóa luận này tôi sẽ trình bày 2 phương pháp xử lý dữ liệu khuyết phổ biến

K người hàng xóm gần nhất (K nearest neighbor-KNN) Trung bình hàng (Row average)

K người hàng xóm gần nhất (K nearest neighbor-KNN)

Giải thuật:

o Phương pháp dựa trên KNN chọn những gene với mô tả giống với gene mà ta quan tâm để xử lý giá trị khuyết. Nếu ta xét gene A có 1 giá trị khuyết trong thí nghiệm 1 phương pháp này sẽ tìm k gene mà có biểu diễn giá trị trong thí nghiệm 1 với mô tả giống với gene A nhất trong những thí nghiệm từ 2 đến N với N là tổng số thí nghiệm. Giá trị trung bình từ k gene gần nhất trong thí nghiệm 1 sau đó được sử dụng để tính giá trị khuyết cho gene A ở thí nghiệm 1.

o Trong phương pháp này công thức để tính khoảng cách giữa các gene sử dụng khoảng cách Euclidean sẽ mang lại tính chính xác nhất. Có điều cần lưu ý việc sử dụng khoảng cách Euclidean thường nhậy cảm với “điểm kỳ dị”. Tuy

nhiên người ta cũng tìm được cách khắc phục phần trội này là sử dụng dịch chuyển dữ liệu sang không gian log.[10]

Trung bình hàng

Trung bình hàng giả sử rằng mô tả của gene trong 1 thí nghiệm là giống với mô tả của nó trong các thí nghiệm khác vì vậy xét trương hợp khi gene A có dữ liệu bị khuyết ở thí nghiệm một thì giá trị bị khuyết này sẽ được thay bằng giá trị trung bình của các biểu diễn giá trị của gene A trong các thí nghiệm từ 2 đến N. Tuy nhiên việc giả sử này thường không đúng vì vậy phương pháp tính trung bình hành thường không mang lại hiệu quả hay tính đúng đắn như phương pháp KNN.[11]

Một phần của tài liệu LUẬN VĂN: NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM CHO DỮ LIỆU GENE MICROARRAY pdf (Trang 27 - 28)