Thị thể hiện giá trị Z-score

Một phần của tài liệu (LUẬN văn THẠC sĩ) xử lý ảnh và ứng dụng điều khiển quá trình lên men trong công nghệ sản xuất chè đen (Trang 25 - 28)

Điểm z có thể được tính bằng công thức sau. z = (X - μ) / σ (2.9) trong đó: z = Z-Score, X = Giá trị của phần tử μ = Trung bình tổng thể σ = Độ lệch chuẩn tổng thể

* Z-score sử dụn để chuẩn hóa dữ liệu khi các thuộc tín có độ lớn khác nhau 2.1.3. Correlation coefficients

Tƣơng quan(Correlation) đề cập đến mối quan hệ thống kê giữa hai thực thể. Nói cách khác, đó là cách hai biến di chuyển trong mối quan hệ với nhau. Tƣơng quan cũng có thể đƣợc sử dụng cho các tập dữ liệu khác nhau.

Các mối tƣơng quan:

- Tƣơn quan t uận: Tƣơng quan thuận sẽ là 1. Điều này có nghĩa là hai biến chuyển động lên hoặc xuống theo cùng một hƣớng với nhau.

- Tƣơn quan n ịch: Tƣơng quan nghịch là -1. Điều này có nghĩa là hai biến chuyển động ngƣợc chiều nhau.

- Tƣơn quan bằng không hoặc không: Tƣơng quan bằng không có nghĩa là không có mối quan hệ giữa hai biến. Nói cách khác, khi một biến di chuyển theo một hƣớng, biến kia di chuyển theo một hƣớng khác không liên quan.

Các loại hệ số tƣơng quan:

- Trong khi mối tƣơng quan nghiên cứu cách hai thực thể liên quan với nhau, hệ số tƣơng quan đo lƣờng sức mạnh của mối quan hệ giữa hai biến. Trong thống kê, có ba loại hệ số tƣơng quan. Chúng nhƣ sau:

- Tƣơng quan Pearson: Tƣơng quan Pearson là phép đo đƣợc sử dụng phổ biến nhất cho mối quan hệ tuyến tính giữa hai biến. Mối tƣơng quan giữa hai tập dữ liệu này càng mạnh thì nó sẽ càng gần với +1 hoặc -1.

- Tƣơng quan Spearman: Loại tƣơng quan này đƣợc sử dụng để xác định mối quan hệ đơn điệu hoặc liên kết giữa hai tập dữ liệu. Không giống nhƣ hệ số tƣơng quan Pearson, hệ số này dựa trên các giá trị đƣợc xếp hạng cho từng tập dữ liệu và sử dụng các biến lệch hoặc thứ tự thay vì các biến đƣợc phân phối bình thƣờng.

- Tƣơng quan Kendall: Loại tƣơng quan này đo lƣờng mức độ phụ thuộc giữa hai tập dữ liệu.

Biết các biến sẽ hữu ích trong việc xác định loại hệ số tƣơng quan nào sẽ sử dụng. Sử dụng đúng phƣơng trình tƣơng quan sẽ giúp hiểu rõ hơn về mối quan hệ giữa các tập dữ liệu mà bạn đang phân tích.

Cách tính hệ số tƣơng quan Pearson áp dụng cho một mẫu hay còn gọi là hệ số tƣơng quan mẫu rxy = ∑ ̅ ̅ √∑ ̅ √∑ ̅ (2.10) Hay (2.11)

Trong đó: rxy là hệ số tƣơng quan mẫu

xi, yi mẫu thứ i tƣơng ứng

trung bình của mẫu, tƣơng tự cho y

2.2. Phân loại mẫu đào tạo và kiểm tra SPXY

Thuật toán Kennard-Stone (KS) và SPXY là các thuật toán tách mẫu phổ biến trong lĩnh vực đo lƣờng hóa học. Không giống nhƣ tách ngẫu nhiên, hai phƣơng pháp này dựa trên cái gọi là "khoảng cách tối thiểu tối đa", có nghĩa là kết quả tách của KS và SPXY là xác định thay vì ngẫu nhiên.

Hai phƣơng pháp có thể chọn mẫu đồng nhất từ nhóm n mẫu. Thuật toán KS đƣợc thực hiện dựa trên sự giống nhau của các biến độc lập (x) giữa tập hợp con và tập hợp ban đầu, trong khi SPXY kết hợp các biến độc lập và phụ thuộc (y) . Chúng rất giống nhau, đều chọn các mẫu tập hợp con theo khoảng cách tối thiểu tối đa.

2.2.1. Kennard-Stone

Giả sử chúng ta sẽ chọn k mẫu để tạo một tập hợp con từ n mẫu. Các n mẫu đƣợc thể hiện bởi ma trận X. Với m là số biến của mỗi mẫu

X = [ ]

Các bƣớc tách KS đƣợc trình bày dƣới đây:

1) Tính ma trận khoảng cách của n mẫu dƣới dạng ma trận tƣơng tự. Khoảng cách Euclid thƣờng đƣợc áp dụng ở đây. Ma trận khoảng cách D đƣợc ký hiệu nhƣ bên dƣới. D = [ ]

Ở đây dij là khoảng cách giữa mẫu thứ i và mẫu thứ j . Vì thế D là một ma trận đối

2) Thêm 2 mẫu có khoảng cách dài nhất vào tập hợp con S. Bây giờ ta phải xem xét với vấn đề khoảng cách tối thiểu tối đa. Có 2 mẫu trong S (đƣợc đặt tên tƣơng ứng là a và b ) và bây giờ còn lại n-2 mẫu.

3) Chọn một mẫu c từ các mẫu còn lại, tính khoảng cách của c đến ab

tƣơng ứng (thực sự không phải tính toán lại, vì tất cả các khoảng cách đã đƣợc tính ở bƣớc 1).

4) Nếu khoảng cách giữa cb ngắn hơn khoảng cách giữa ca thì ta gọi

khoảng cách là "khoảng cách nhỏ nhất của mẫu c ".

5) Lặp lại bƣớc 3 và bƣớc 4 ở trên, sau đó ta có thể nhận đƣợc tất cả các

khoảng cách tối thiểu của các n-2 mẫu.

6) Từ n-2 khoảng cách tối thiểu, khoảng cách tối đa (khoảng cách tối thiểu tối

đa) đƣợc chọn làm mẫu mới của S, đƣợc hiển thị trong hình bên dƣới.

7) Lặp lại các bƣớc trên cho đến khi k mẫu đƣợc thêm vào S.

a b

Một phần của tài liệu (LUẬN văn THẠC sĩ) xử lý ảnh và ứng dụng điều khiển quá trình lên men trong công nghệ sản xuất chè đen (Trang 25 - 28)

Tải bản đầy đủ (PDF)

(68 trang)