SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA BIẾN SỐ TRONG LĨNH VỰC SINH HỌC PGS TS Chế Đình Lý (tháng 4/2020) 1 KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN SỐ Dữ liệu đa biến số trong bất kỳ lĩnh vực sinh học nào[.]
SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA BIẾN SỐ TRONG LĨNH VỰC SINH HỌC PGS.TS.Chế Đình Lý (tháng 4/2020) KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN SỐ Dữ liệu đa biến số lĩnh vực sinh học thường liệu thu thập nhiều đối tượng (đơn vị, lặp lại) đơn vị, thu thập nhiều biến số Các tập liệu đa biến trước thường xử lý đơn giản phương pháp thống kê đơn biến: 1- Thống kê mơ tả, trình bày độ lớn biến số (trung bình, trung vị ) ; mức độ phân tán biến thiên liệu (độ lệch chuẩn; phương sai; phạm vi ) 2- Thống kê suy diễn: từ mẫu suy kết luận chung cho điều tra khảo sát (kiểm định t, z) 3- So sánh nhiều mẫu (dùng kiểm định F) 4- Lập mơ hình hồi qui từ liệu thực nghiệm, giữ 2, hay nhiều biến số… 5- Mô liệu thu thập theo mốc thời gian cách (time series) Các phương pháp xử lý liệu đơn biến không đáp ứng nhu cầu đánh giá, tìm kiếm tri thức nghiên cứu Vì vậy, ngày nhà nghiên cứu sinh học khai khác sử dụng phương pháp xử lý liệu đa biến để khám phá nhiều thông tin nhằm phục vụ cho nghiên cứu khoa học như: - Loài vi sinh vật thường xuất hồn cảnh mơi trường nào? - Các genotype thực vật hay động vật tương thích, thích nghi với kiểu mơi trường nào? - Loại men phù hợp với loại thực phẩm nào? - Bệnh đường ruột thường sinh vùng địa lý, kinh tế xã hội nào… Nói chung, nghiên cứu đối tượng liên ngành, nhà nghiên cứu sử dụng công cụ xử lý đơn biến mà phải sử dụng công cụ phân tích khám phá liệu đa biến Một cơng cụ biplot CẤU TRÚC DỮ LIỆU ĐA BIẾN PHÙ HỢP ĐỂ SỬ DỤNG PHÂN TÍCH BẰNG BIPLOT Dữ liệu đa biến phù hợp sử dụng đồ thị biplot để phân tích khám phá đa dạng, thường có cấu trúc chung: 1) Các cột biến số thu thập từ đối tượng (lặp lại); biến số bao gồm mẫu thông tin nhiều lĩnh vực liên ngành: kinh tế, xã hội, mơi trường 2) Các dịng mẫu đo đạc hay thu thập Dưới ví dụ cấu trúc liệu đa biến ngành sinh học, môi trường… Dữ liệu nghiên cứu chất lượng môi trường nước theo vùng kinh tế xã hội Ma trận liệu kinh tế xã hội Mẫu Số nhà nướ máy c Số dân cư Ma trận liệu chất lượng nước Trại chăn ni Ơ 1 2 3 4 5 pH COD Coliform Dữ liệu điều tra đa dạng sinh học nước theo vùng kinh tế xã hội ƠTC Lồi Loài Loài Loài Loài pH Độ sâu (m) C/N Loại đất Độ ẩm 01 0 0 02 0 0 3 03 0 0 04 0 4 0 05 3 0 06 2 07 2 3 08 0 0 09 0 0 10 5 0 11 0 0 0 12 0 0 Dữ liệu genotype xuất loại môi trường Genotypes E1 E2 E3 E4 E5 E6 E7 E8 E9 G1 4.46 4.15 2.85 3.08 5.94 4.45 4.35 4.04 2.67 G2 4.42 4.77 2.91 3.51 5.70 5.15 4.96 4.39 2.94 G3 4.67 4.58 3.10 3.46 6.07 5.03 4.73 3.90 2.62 G4 4.73 4.75 3.38 3.90 6.22 5.34 4.23 4.89 3.45 G5 4.39 4.60 3.51 3.85 5.77 5.42 5.15 4.10 2.83 G6 5.18 4.48 2.99 3.77 6.58 5.05 3.99 4.27 2.78 G7 3.38 4.18 2.74 3.16 5.34 4.27 4.16 4.06 2.03 G8 4.85 4.66 4.43 3.95 5.54 5.83 4.17 5.06 3.57 G9 5.04 4.74 3.51 3.44 5.96 4.86 4.98 4.51 2.86 G10 5.20 4.66 3.60 3.76 5.94 5.35 3.90 4.45 3.30 G11 4.29 4.53 2.76 3.42 6.14 5.25 4.86 4.14 3.15 G12 3.15 3.04 2.39 2.35 4.23 4.26 3.38 4.07 2.10 G13 4.10 3.88 2.30 3.72 4.56 5.15 2.60 4.96 2.89 G14 3.34 3.85 2.42 2.78 4.63 5.09 3.28 3.92 2.56 G15 4.38 4.70 3.66 3.59 6.19 5.14 3.93 4.21 2.93 G16 4.94 4.70 2.95 3.90 6.06 5.33 4.30 4.30 3.03 G17 3.79 4.97 3.38 3.35 4.77 5.30 4.32 4.86 3.38 G18 4.24 4.65 3.61 3.91 6.64 4.83 5.01 4.36 3.11 KHÁI NIỆM VÀ Ý NGHĨA CỦA BIPLOT 3.1 Khái niệm biplot Biplot đồ thị biểu diễn đồ họa liệu đa biến, phần tử ma trận liệu biểu diễn theo điểm đánh dấu (marker) vectơ (mũi tên( liên kết với hàng cột ma trận Biplot có loại thơng tin: điểm đánh dấu biểu thị đối tượng nghiên cứu (điểm quan trắc, genotype (chủng vi sinh); Mũi tên biểu thị biến số (thuộc tính hay đặc trưng đối tượng) hai trục PCA PCA Score Plot of Chi phí, , "Niacin" Loading Plot of Chi phí, , "Niacin" Chi phí 0.50 "Thiamine" Chất đạm Second Component Second Component Điểm đánh dấu = đối ctượng -1 0.25 0.00 "Niacin" -0.25 Chất sắt -2 "Riboflavin" -0.50 -3 -3 -2 -1 First Component 0.0 0.1 0.2 0.3 0.4 0.5 First Component Biplot thể xấp xỉ hai chiều thứ nguyên (dimension) vào ma trận vẽ hiệu ứng hàng hiệu ứng cột nhau, mô tả mối quan hệ biến quan sát khác đồng thời hiển thị mối quan hệ đối tượng với tư cách đơn vị nhóm đơn vị biến số nghiên cứu Biểu diễn đồ họa ma trận cho phép kiểm tra mối quan hệ, xu hướng, cụm, tương quan gần phương sai có liệu Biplots cung cấp trực quan hóa hai biến số, thơng thường, không thiết, hai chiều thứ nguyên Dữ liệu X biểu thị (1) ma trận với n hàng đại diện cho đối tượng (mẫu) cột biểu thị p biến số (biến định lượng) (2) bảng hai chiều có hàng cột đại diện cho biến phân loại Biểu tượng vẽ thường điểm đánh dấu (thường cho mẫu phân biệt hình dạng / màu sắc) đường (thường cho biến thể vectơ mũi tên) 3.2 Ý nghĩa biplot Biplot cung cấp công cụ hữu ích để phân tích liệu cho phép đánh giá trực quan cấu trúc ma trận liệu đa biến Nó đặc biệt trình bày phương pháp phân tích thành phần chính, biplot hiển thị khoảng cách đơn vị phân cụm đối tượng hiển thị phương sai tương quan biến Biplot cho phép thông tin đối tượng (mẫu) biến số ma trận liệu hiển thị đồ họa Các mẫu (đơn vị, lặp lại) hiển thị dạng điểm biến số hiển thị dạng vectơ, trục tuyến tính quỹ đạo phi tuyến Biplot mở rộng ý tưởng biểu đồ phân tán đơn giản (scatter plot) gồm hai biến cho trường hợp có nhiều biến, với mục tiêu trực quan hóa lượng thơng tin tối đa có liệu Dữ liệu nghiên cứu thường trình bày dạng bảng hình chữ nhật biplot lấy tên từ thực tế trực quan hóa hàng cột bảng không gian chung Biplot biểu diễn đồ họa liệu đa biến, yếu tố liệu ma trận biểu diễn theo dấu chấm vectơ liên kết với hàng cột ma trận (Salinas et al., 2013) Các bước chuẩn bị Biplot Thu thập liệu đa biến cho đơn vị khác (ví dụ: Giống, Hộ gia đình, v.v.) Chạy PCA phần mềm thống kê giá trị thực tế biến số khác tạo thành phần chính, tức biến có biến lượng có ý nghĩa, giá trị eigen hệ số tải cho biến Hai PC thể phương sai (biến lượng) lớn nhất, dùng cho biplot NHỮNG CƠ SỞ KHOA HỌC ĐỂ NHẬN THỨC THỂ HIỆN CỦA BIPLOT 4.1 Biểu thị hình học đại lượng phương sai Về mặt hình học, biến lượng hay phương sai diễn tả đường thẳng điểm liệu phân tán chung quanh trị trung bình Ví dụ: Nhiệt độ đo lần liệu 17°, 19°, 23°, 18° 20° Biến lượng chung quanh trung bình bé biểu thị hình học tương ứng là: 17 18 19 20 23 Nếu số đo nhiệt độ 4°, 12°, 23°, 18°, 27°, biến lượng biến số lớn 12 18 23 27 Các thuật ngữ sau tương đương: Việt ngữ: Biến lượng = phương sai = lượng biến thiên Anh ngữ: Variance = variability = inertia 4.3 Bản đồ biến số, đồ điểm đánh dấu (đối tượng) Bản đồ biplot tích hợp hai đồ: đồ biến số đồ điểm đánh dấu, Ví dụ, xem xét trường hợp nghiên cứu nơi khác lồi cá dọc theo sơng từ suối cửa sông Sáu biến số đo 30 địa điểm khác nhau: Nhiệt độ, độ sâu, lượng xả thải, tốc độ dòng chảy, độ độ mặn điểm đánh dấu địa điểm S1, S2, S3, … S30 Từ có song đơi: 30 lần lặp lại thể biến số ngược lại biến số chứa 30 liệu 30 địa điểm Nói cách khác , tùy thuộc vào quan điểm nhìn, người ta xem xét tập liệu 30 địa điểm không gian chiều (siêu không gian biến số môi trường) hay điểm liệu không gian 30 chiều (siêu không gian 30 lần lặp lại (đối tượng)) Khi phân tích đa biến bắt đầu, nhà phân tích phải định đồ nhân tố lập cho biến hay cho đối tương lặp lại Thực tế có hai đồ nhân tố trả lời hai câu hỏi khác nhau: Những liên hệ biến gì? => đồ biến số Những liên hệ hay tương đồng địa điểm => đồ đối tương (lặp lại) Bản đồ nhân tố biến đặt song song với đồ đối tượng lặp lại Tốt trình bày hai đồ kích thước Từ song hành đó, suy diễn tương ứng đối tương lặp lại biến số Các đối tượng lặp lại hay biến số gần với gốc toạ độ khơng nói lên đặc tính khơng có ý nghĩa việc diễn đạt thơng tin 4.2 Các nguyên tắc dẫn đọc biplot nghiên cứu đa biến Các biến số đối tượng (lặp lại,ô mẫu, con, doanh nghiệp) - Một biến thông số thay đổi đo hay khảo sát nhiều lần; - Sự lặp lại đối tượng số đo lặp lại biến; - Thường quy ước CSDL phân tích, biến cột, lặp lại nên dịng Ghi chú: lặp lại ô mẩu, cây, con… Các quy tắc đọc đồ biplot Để đọc thơng tin thị Biplot, ta cần thực phương pháp xử lý đặc biệt áp dụng cho (1) hàng và/hoặc cột, xác định trọng tâm (centroid) chuẩn hóa liệu, (2) chia tỷ lệ thành phần chia tỷ lệ đối xứng PCA1 PCA2 Một đồ nhân tố khơng có chia thang độ trục trình bày mặt gần gủi địa lý điểm đồ Ngồi ra, để đọc biplot để kết xuất thơng tin hữu ích cho nghiên cứu, ta cần ý số quy tắc sau: Quy tắc 1: Bản đồ điểm đánh dấu (đối tượng) đồ biến số phải kích thước Một điểm quan trọng việc xây dựng biểu đồ thực tế cho biplots trục tọa độ dọc ngang vật lý phải có tỷ lệ vật lý Không tuân thủ tỷ lệ khiến đánh giá sản phẩm bên trong biểu đồ Không kéo đồ thị, làm thay đổi lích thức trục đồ biplot! Quy tắc 2: loại data ta sử dụng xử lý Có hai trường hợp liệu, tùy hoàn cảnh nghiên cứu: 1) Theo qui ước chung bảng hai chiều để xử lý PCA hay FA có cột biến số (chỉ thị, thuộc tính) dòng mẫu (đối tượng, đơn vị) mà ta đo đạc, thu thập 2) Dữ liệu nghiên cứu quan hệ sinh vật môi trường, bào gồm hai ma trận: Ma trận G (Genotype) chứa thông tin sinh vật ma trận E (Environment) Ma trận liệu (đối tượng) (hoàn cảnh Ma trận liệu biến số NC (Sinh vật lý ) Ơ mẫu Ô mẫu Độ dài Bề ngang 1 2 3 4 5 Chủng Trọng Số cá thể loại lượng m3 Số mọc đuôi… Các mẫu (đối tượng, đơn vị, kiểu gen) hiển thị dạng điểm biến số (chỉ thị, thuộc tính, mơi trường) dạng vectơ; Quy tắc 3: Góc vec tơ (mũi tên biến số) Xem xét góc hình thành vectơ đồ thị vectơ biến số hai vectơ (chỉ thị, thuộc tính, mơi trường) có góc nhỏ chúng liên kết chặt chẽ có tương quan ố co 3a: Góc hai vec tơ góc nhọn, mũi tên sát thí biến cố có tương quan thuận 3b: hai vec tơ trực giao khơng có tương quan 3c: hai vec tơ đối (góc tù lớn, hai biến có tương quan nghịch Quy tắc 4: Sự tương đồng điểm đánh dấu (đối tương) biến số: điểm đánh dâu (marker) (đối tượng, đơn vị, kiểu gen) thể độ lệch chuẩn so với mức trung bình biến số (chỉ thị, thuộc tính, mơi trường); 4a: Các điểm đánh dấu gần biến số có tương đồng biến số 4b: Các điểm đánh dấu đối diện đồ nhân tố có giá trị biến số đối nghịch 4c: Các địa điểm xuất hướng trực giao với địa điểm khác, khơng có biến tương quan Quy tắc 5: gốc tọa độ vec tơ biến số gốc tọa độ đại diện cho giá trị trung bình cho biến số (chỉ thị, thuộc tính, mơi trường);, tức đại diện cho kiểu mẫu (đối tượng, đơn vị, kiểu gen) có giá trị trung bình mơi trường Điểm đánh dấu (đối tượng, đơn vị, kiểu gen) trung bình có giá trị ma trận liệu có tính trọng tâm hay nói cách khác, liệu chuẩn hóa ; Quy tắc 6: Hình chiếu điểm đánh dấu đối tượng, đơn vị, kiểu gen) lên vec tơ biến số hình chiếu điểm mẫu (đối tượng, đơn vị, kiểu gen) vectơ biến số (chỉ thị, thuộc tính, mơi trường) lớn, đối tượng (đơn vị, kiểu gen) lệch khỏi mức trung bình biến số (chỉ thị, thuộc tính, mơi trường); Ví dụ 1: nơi trú ẩn lồi cá Tập liệu bao gồm biến số nơi trú ẩn khảo sát từ thượng nguồn Ma trận liệu biến số mơi trường Ơ mẫu Temperature Discharge Salinity Depth Current Transparency S1 S2 S3 … S30 Các đồ nhân tố cho phép thực phân tích tương tứng Trong ví dụ điểm đồ có vị trí tương đối diễn đạt tương đồng hay tương quan biến số Bản đồ biến số Trong đồ nhân tố cột, biến số diễn đạt tổng quát vec tơ xuất phát từ trung tâm đồ thị Áp dụng quy tắc 3: Các biến số gần ((e.g Discharge and Temperature) có tương quan thuận với nhau.(Quy tắc 3) Các biến số đối diện (e.g Current velocity and Salinity) có tương quan nghịch (một biến có giá trị cao , biến có giá trị thấp) Các biến trực giao khơng có tương quan thận lẫn tương quan nghịch độc lập lẫn nhau, (e.g Depth and Temperature) Bản đồ điểm đánh dấu (đối tượng, lặp lại) Áp dụng quy tắc 4a: Các địa điểm gần với vùng đồ tương đồng biến đo địa điểm (Vd địa điểm S1, S29, S24 có giá trị tương đồng Temperature and Discharge) Áp dụng quy tắc 4b Các địa điểm đối diện đồ nhân tố có giá trị biến số đối nghịch (vd Các giá trị cao Temperature and Discharge địa điểm S1 hay S29 có giá trị thấp địa điểm S10 hay S14); Áp dụng quy tắc 4c Các địa điểm xuất hướng trực giao với địa điểm khác, khơng có biến tương quan (vd Địa điểm S11, S3, S8 khơng có đặc trưng chung với địa điểm S14, S2 hay S10) Trình bày khái quát Dữ liệu thật phản ảnh thay đổi nơi dọc sông: Các điểm nằm thượng nguồn, vùng núi, có dịng chảy cao, nước trong, nhiệt độ thấp xả thải Tạo thành nơi đặc trưng suối nhỏ vùng núi Ngược lại, điểm nằm phía biển, cửa sơng, có độ mặn cao, nhiệt độ cao xả thải lớn Các hồ sâu tìm thấy dọc theo sơng độ sâu khơng có liên hệ với biến số khác 4.5 Ví dụ 2: Dữ liệu khảo sát lồi xuất vào thời điểm khác rừng ngập mặn Ma trận liệu biến số loài cá xuất tháng quan trắc Thời điểm SP1 SP2 SP3 … … … … … SP18 Sp19 SP20 T1 T2 … T12 Trong vùng rừng ngập mặn ven bờ, loài cá lấy mẫu hàng tháng Phân tích nhấn mạnh vào thay đổi loài di cư vào khu vực (Nghiên cứu động thái quần xã) Bản đồ biến số (các loài bắt được) chứng tỏ Sp3, Sp4, Sp5 bắt từ February đến May; Sp15, Sp16 and Sp18 chung từ August đến October Sp9 đến Sp14 bắt chủ yếu từ November đến January Phân tích tồn theo cách tổng hợp hiệu quả, Sự thay đổi quần xã cá đặc trưng ba mùa phân biệt (bản đồ lặp lại: September đến November, January, and February 4.6 Ví dụ 3: Dữ liệu khảo sát loại thực phẩm với thành phần khác Có 10 loại thực phẩm Khảo sát thông số sau: T T Tên thực phẩm "Ham" "Pork Chops" "Beef Rib Roast" "Beef Chuck Roast" "Halibut" "Beef Liver" Chi phí 28 25 25 18 18 15 Chất đạm 29 29 29 32 33 30 Chất sắt 21 22 22 22 55 "Thiamine "Riboflavin "Niacin " " " 38 11 29 59 12 36 30 10 29 4 74 18 198 105 10 "Eggs" "Dry Beans" "Bacon" "Peanut Butter" 10 19 16 12 22 30 16 12 43 Xử lý phương pháp phân tích thành phần PCA: Principal Component Analysis: Chi phí, Chất đạm, Chất sắt, "Thiamine", "Riboflavin", "Niacin" Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative 2.9567 0.493 0.493 Variable Chi phí Chất đạm Chất sắt "Thiamine" "Riboflavin" "Niacin" 1.6511 0.275 0.768 PC1 0.367 0.464 0.439 0.261 0.437 0.445 0.7997 0.133 0.901 0.4553 0.076 0.977 0.1178 0.020 0.997 0.0194 0.003 1.000 PC2 0.564 0.306 -0.317 0.437 -0.480 -0.257 Score Plot of Chi phí, , "Niacin" Loading Plot of Chi phí, , "Niacin" Chi phí 0.50 "Thiamine" Chất đạm Second Component Second Component -1 0.25 0.00 "Niacin" -0.25 Chất sắt -2 "Riboflavin" -0.50 -3 -3 -2 -1 0.0 0.1 0.2 0.3 0.4 0.5 First Component First Component Biplot of Chi phí, , "Niacin" Second Component 9 10 -1 9 9 Chi phí "Thiamine" Chất đạm "Niacin" Chất sắt "Riboflavin" 9 -2 -3 -3 -2 -1 First Component Qua kết hiển thị biplot, cho thấy: - Nhóm sản phẩm 1, 2, 3, 4, 5: có giá trị Thiamin chi phí cao - Nhóm sản phẩm 7, 8, 9, 10 phía ngược lại với giá trị Thiamin chi phí thấp - Nhóm chất sắt, Riboflavine Niacin khác biệt với sản phẩm khác - Hai biến Thiamine giá trị chi phí có liên hệ (góc nhọn) - Nhóm chất sắt, Niacin có tương quan (góc nhọn) - Có thể thấy Sản phẩm có giá trị bất thường, sản phẩm cịn lại hình thành hai nhóm nhóm A (1,2,3,4,5) có chi phí cao; nhóm B (7,8,9,10) ngược lại có chi phí thấp hơn./ PHỤ LỤC Phụ lục I Biểu thị hình học liệu đa biến Phụ lục Các phương pháp phân tích khám phá (exploratory research) cho kết xuất biplot Phụ lục Các quy tắc diễn đạt biplot SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA BIẾN SỐ TRONG LĨNH VỰC SINH HỌC 1 KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN SỐ CẤU TRÚC DỮ LIỆU ĐA BIẾN PHÙ HỢP ĐỂ SỬ DỤNG PHÂN TÍCH BẰNG BIPLOT KHÁI NIỆM VÀ Ý NGHĨA CỦA BIPLOT .3 3.1 Khái niệm biplot 3.2 Ý nghĩa biplot NHỮNG CƠ SỞ KHOA HỌC ĐỂ NHẬN THỨC THỂ HIỆN CỦA BIPLOT 4.1 Biểu thị hình học đại lượng phương sai 4.2 Các nguyên tắc dẫn đọc biplot nghiên cứu đa biến .4 4.3 Bản đồ biến số, đồ mẫu lặp lại 4.4 Ví dụ 1: Áp dụng phân tích biplot cho liệu điểm quan trắc biến số môi trường 4.5 Ví dụ 2: Dữ liệu khảo sát loài xuất vào thời điểm khác rừng ngập mặn .9 4.6 Ví dụ 3: Dữ liệu khảo sát loại thực phẩm với thành phần khác nhau9 PHỤ LỤC 11 Phụ lục I Biểu thị hình học liệu đa biến 11 Phụ lục Các phương pháp phân tích khám phá (exploratory research) cho kết xuất biplot 12 Phụ lục Các quy tắc diễn đạt biplot 13 ... phá (exploratory research) cho kết xuất biplot Phụ lục Các quy tắc diễn đạt biplot SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA BIẾN SỐ TRONG LĨNH VỰC SINH HỌC 1 KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN... ĐỂ SỬ DỤNG PHÂN TÍCH BẰNG BIPLOT KHÁI NIỆM VÀ Ý NGHĨA CỦA BIPLOT .3 3.1 Khái niệm biplot 3.2 Ý nghĩa biplot NHỮNG CƠ SỞ KHOA HỌC ĐỂ NHẬN THỨC THỂ HIỆN CỦA BIPLOT. .. NGHĨA CỦA BIPLOT 3.1 Khái niệm biplot Biplot đồ thị biểu diễn đồ họa liệu đa biến, phần tử ma trận liệu biểu diễn theo điểm đánh dấu (marker) vectơ (mũi tên( liên kết với hàng cột ma trận Biplot