1. Trang chủ
  2. » Giáo án - Bài giảng

Ứng dụng phương pháp phân tích PCA và LDA cho các tham số Hansen để dự đoán độ tan của bitumen trong các loại dung môi khác nhau

12 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Bài viết Ứng dụng phương pháp phân tích PCA và LDA cho các tham số Hansen để dự đoán độ tan của bitumen trong các loại dung môi khác nhau nhằm mục đích loại bỏ các hiện tượng đa cộng tuyến giữa các biến số cũng như đảm bảo tính đồng nhất phương sai của dữ liệu trước khi tiến hành phân tích LDA (Linear Discriminant Analysis). Sau khi tiền xử lý, dữ liệu được tiến hành phân tích LDA để xác định mô hình dự đoán và phân loại nhằm phục vụ cho bài toán xác định độ tan của bitumen. Mời các bạn cùng tham khảo bài viết!

Tạp chí Khoa học Cơng nghệ Thực phẩm 22 (3) (2022) 34-45 ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH PCA VÀ LDA CHO CÁC THAM SỐ HANSEN ĐỂ DỰ ĐOÁN ĐỘ TAN CỦA BITUMEN TRONG CÁC LOẠI DUNG MÔI KHÁC NHAU Nguyễn Tuệ Anh, Ngô Thanh An* Trường Đại học Công nghiệp Thực phẩm TP.HCM *Email: ngothanhan@gmail.com Ngày nhận bài: 04/5/2022; Ngày chấp nhận đăng: 15/7/2022 TÓM TẮT Phương pháp PCA (Principle Component Analysis) sử dụng để tiền xử lý liệu tham số độ tan Hansen bitumen 48 loại dung môi khác nhau, nhằm mục đích loại bỏ tượng đa cộng tuyến biến số đảm bảo tính đồng phương sai liệu trước tiến hành phân tích LDA (Linear Discriminant Analysis) Sau tiền xử lý, liệu tiến hành phân tích LDA để xác định mơ hình dự đốn phân loại nhằm phục vụ cho toán xác định độ tan bitumen Để đánh giá hiệu dự đốn mơ hình, hai phương pháp: phân chia liệu ngẫu nhiên xác thực chéo sử dụng Kết cho thấy, sử dụng phương pháp phân chia liệu ngẫu nhiên (tỷ lệ 70:30), đại lượng độ xác, độ lặp độ nhạy thay đổi lần thực thi chương trình, khi, xác thực chéo, đại lượng không bị thay đổi Khi xác thực chéo với tham số CV (số lần xác thực chéo) 8, độ xác, độ lặp độ nhạy mơ hình 75, 80,2 68,75% Ngoài ra, kết phân tích LDA cho nguồn liệu thơ (chưa qua tiền xử lý), liệu quy tâm chuẩn hóa, liệu qua xử lý PCA xác thực chéo CV cho kết đánh giá hiệu mô hình giống Từ khóa: PCA, LDA, tham số độ tan Hansen, độ tan, bitumen MỞ ĐẦU Đánh giá độ tan chất tan loại dung mơi khác ln tốn cấp thiết quan trọng lĩnh vực công nghiệp hóa học, đặc biệt ngành liên quan đến dược phẩm, dung môi hữu cơ, sơn, v.v… [1-4] Ở phạm vi công nghiệp, để lựa chọn loại dung môi phù hợp tương ứng với chất tan xác định, nhà nghiên cứu thường phải tiến hành số lượng lớn thí nghiệm thử – sai, sau đó từ số liệu thu nhận sẽ có khuyến nghị sử dụng loại dung mơi thích hợp cho vừa giúp hòa tan tốt chất tan, đồng thời phải đáp ứng tiêu chí mơi trường, an toàn hóa chất, v.v…[5, 6] Trong lĩnh vực học thuật, nhà khoa học gần thường sử dụng tham số độ tan Hansen để làm sở cho việc đánh giá lựa chọn dung môi thích hợp tương ứng với loại chất tan đó [7-11] Tuy nhiên, để có thể xác định tham số này, đòi hỏi phải tiến hành thực nghiệm nhiều mẫu dung môi khác Bên cạnh đó, việc lựa chọn dung môi dự đốn độ tan chất tan dung mơi cịn phải cứ liệu sẵn có Dữ liệu sẵn có phong phú kết dự đốn sẽ xác Về bản, nhà nghiên cứu phải xây dựng sở liệu tham số Hansen chỉ riêng dung môi Sau đó, có sẵn tham số Hansen chất tan việc đánh giá độ tan chúng dung môi thông qua đại lượng khoảng cách tương tự HSP sẽ trở nên dễ dàng HĨA HỌC - CƠNG NGHỆ THỰC PHẨM 34 Ứng dụng phương pháp phân tích PCA LDA cho tham số Hansen để dự đoán… Trong số chất tan có nhiều ứng dụng thực tế, bitumen đối tượng thường nhà sản xuất công nghiệp quan tâm Bitumen sản xuất từ trình chưng cất dầu thơ, với thành phần phức tạp bao gồm nhiều loại hydrocacbon có kích thước phân tử, với độ phân cực khác Thành phần khối lượng chủ yếu bitumen bao gồm 80-88% cacbon, 8-11% hydrogen lượng nhỏ kim loại vanadi niken [12] Đây loại vật liệu nhựa nhiệt dẻo có chi phí thấp sử dụng rộng rãi với vai trị chất kết dính ứng dụng thường thấy đời sống công nghiệp, ví dụ đường cơng trình giao thơng, vật liệu chống thấm ván ốp công nghiệp xây dựng [13] Đặc tính chung bitumen ứng dụng cơng nghiệp kể có liên quan mật thiết đến tính lưu biến Do vậy, nhiều năm qua nhà khoa học bắt đầu quan tâm đến việc sử dụng loại bitumen biến tính polymer Lý việc nhằm cải thiện đặc tính lưu biến, đồng thời làm cho nhạy cảm với nhiệt độ Độ cứng chất kết dính cần phải trì hợp lý nhiệt độ bề mặt cơng trình cao vào tháng mùa hè, phải có độ mềm dẻo hợp lý nhiệt độ thấp mùa đông Một lý khác để biến tính với polyme để tăng độ bền chúng Độ bền bitume sẽ cải thiện nhiều chọn loại polymer thích hợp Nhiều loại polyme khác thử nghiệm để làm chất điều chỉnh cho bitume, nhiên, chỉ số số đó có khả sử dụng thương mại [14, 15] Cho đến nay, có cơng cụ để dự đốn khả tương thích polymer bitume, việc phát triển bitumen biến tính polymer phần lớn phải thực sở “thử sai” Việc hiểu rõ chất thực đặc tính hịa tan bitumen loại dung môi khác sẽ nhu cầu đòi hỏi cấp thiết lĩnh vực học thuật, công nghiệp Tác giả Redelius vào năm 2004 cơng bố nghiên cứu thuật tốn để xác định thông số HSP bitumen dựa vào số liệu độ tan bitumen 48 dung môi khác [16] Trong đó, nghiên cứu [17], Rios cộng sử dụng phần mềm Microsoft Excel để xác định thông số HSP Phương pháp dễ sử dụng cho kết tương tự với phần mềm chuyên biệt HSPiP với phần mềm khác Thật ra, mặt chất, công trình mà nhà khoa học tiến hành liên quan đến toán phân loại dự đốn kết phân tích khai thác liệu, mà cụ thể liệu đa biến Thực tế, có nhiều phương pháp phân loại liệu có thể áp dụng lĩnh vực hóa học này, ví dụ phương pháp phân tích thành phần (PCA), phương pháp phân tích phân biệt tuyến tính (LDA), phương pháp phân tích phân cụm (HCA), phương pháp K-means v.v…Tùy thuộc vào đặc tính từng liệu, yêu cầu xử lý, người ta có thể lựa chọn phương pháp thích hợp Trong số phương pháp phân tích liệu liệt kê trên, có hai phương pháp thường sử dụng, đó phương pháp PCA LDA Nếu phương pháp PCA có mục đích phân loại liệu biến số độc lập mà khơng có thêm biến phụ thuộc, LDA có mục đích phân loại liệu biến độc lập, bên cạnh đó còn có thêm biến phụ thuộc kèm Người ta thường gọi PCA phương pháp phân loại không giám sát, LDA phương pháp phân loại có giám sát Ngồi ra, PCA cịn phương pháp hay sử dụng để loại bỏ tượng đa cộng tuyến (multicolinearity) thường xảy biến tập liệu Xuất phát từ thực tế khảo sát độ tan chất tan có thành phần phức tạp bitumen, liệu ln bao gồm biến số độc lập chứa đựng thông tin lượng tương tác phân tán, lượng tương tác lưỡng cực lượng tương tác hydro Ngoài biến độc lập vậy, liệu ln đính kèm theo biến phụ thuộc để mô tả khả tan không tan bitumen dung môi Với đặc trưng thế, chỉ có phương pháp phân tích phân biệt LDA đáp ứng khả phân loại liệu Tuy nhiên, tất mọi liệu đưa vào để phân tích LDA Trước phân tích, liệu cần phải thỏa mãn số giả thiết thống kê liệu phải có phân bố chuẩn (phân bố Gaussian), phải có đồng phương sai (homoscedasticity), phải khơng có tượng đa cộng tuyến, 35 HĨA HỌC - CƠNG NGHỆ THỰC PHẨM Nguyễn Tuệ Anh, Ngơ Thanh An v.v [18, 19] Trong khuôn khổ nghiên cứu này, phương pháp PCA sẽ sử dụng trước tiên để giúp tiền xử lý liệu tham số độ tan Hansen trình bày sổ tay Hansen solubility parameters - A user’s handbook [20] Kế tiếp, giá trị thu sau PCA (các giá trị score) đưa vào phân tích LDA DỮ LIỆU VÀ PHƯƠNG PHÁP 2.1 Dữ liệu tham số độ tan Hansen của các dung môi hữu Dữ liệu để phân tích LDA tham khảo bảng 9.3 - trang 162 sổ tay Hansen [20] Bảng Tham số Hansen số dung môi sử dụng để xác định độ tan bitumen STT Dung môi D P H Khả tan Benzophenone 19,6 8,6 5,7 2-Butanol 15,8 5,7 14,5 2-Butyl octanol 16,1 3,6 9,3 Caprolactone 19,7 15 7,4 Butyraldehyde 15,6 10,1 6,2 1-Chloro pentane 16 6,9 1,9 Chloroform 17,8 3,1 5,7 Cyclohexanol 17,4 4,1 13,5 Cyclohexanone 17,8 6,3 5,1 10 Cyclohexylamine 17,2 3,1 6,5 … 2.2 Các tham số độ tan Hansen Lý thuyết tham số độ tan Hansen công bố Charles M.Hansen từ năm 1967 [21-23], với ý tưởng chất tan dung môi phải có cùng tính chất với có khả tan lẫn vào Cùng tính chất với hiểu phân tử loại liên kết với phân tử loại khác lại có cùng kiểu liên kết thân phân tử cùng loại liên kết với Theo lý thuyết đề xuất Hansen, xem xét độ tan chất tan dung môi, mỗi phân tử bất kỳ có tham số HSP đặc trưng riêng mình, cụ thể bao gồm đại lượng sau: (1) tham số tương tác phân tán (D), (2) tham số tương tác lưỡng cực (P), (3) tham số tương tác hydro (H) Về mặt hình thức, chúng ta có thể xem mỗi phân tử sẽ biểu diễn điểm tọa độ không gian chiều HSP (D,P,H) Mỗi tham số có thể tính dựa thơng số liên quan đến đặc trưng phân tử nhiệt hóa hơi, chiết suất, moment lưỡng cực, số điện môi [20] Từ tham số thành phần vậy, có thể tính tham số độ tan Hansen thông qua biểu thức:  =  D2 +  P2 +  H2 Nếu chỉ dừng lại tính tốn tham số độ tan Hansen chúng ta chỉ biết vị trí tọa độ phân tử khơng gian HSP mà thơi Trong đó, q trình hòa tan chất tan vào dung môi trình phức tạp mà đó phải xét đến tương tác HĨA HỌC - CƠNG NGHỆ THỰC PHẨM 36 Ứng dụng phương pháp phân tích PCA LDA cho tham số Hansen để dự đoán… chất tan với nó, thân dung mơi với nhau, dung môi với chất tan Nguyên tắc chất tan sẽ tan dung môi, đó chúng phải có cùng chất, chúng phải “tương tự” Để đặc trưng cho mức độ tương tự này, người ta thường sử dụng đại lượng khoảng cách HSP hai phân tử, Ra hay cịn gọi bán kính tương tác Hình mô tả đại lượng Ra Hình Khoảng cách tương tự HSP Ra sẽ thước đo mức độ giống hai phân tử Ra nhỏ, hai phân tử (chất tan dung môi) có nhiều khả tương thích với Cơng thức thơng dụng thường sử dụng để tính Ra là: ( Ra2 =   D1 −  D2 ) + ( P1 −  P2 ) + ( H1 −  H2 ) Trong thực tế, để tính tốn giá trị Ra khơng dễ dàng, muốn xác định cách trực tiếp tham số độ tan Hansen chất tan phức tạp, bất kỳ bất khả thi Trong đó, tham số Hansen dung môi thường sẽ xác định dễ dàng, đầy đủ hơn, đồng thời số liệu sẽ trình bày dạng số liệu bảng tra Nhằm khắc phục tình trạng thực tế này, nhà nghiên cứu phải tiến hành thực nghiệm để khảo sát độ tan chất tan nghiên cứu loại dung môi sẵn có (sẵn có, có nghĩa xác định đầy đủ tham số Hansen thành phần) Với chất tan cho trước, đầu tiên, người ta sẽ hòa tan vào dung môi sẵn có thứ sau đó quan sát đo lường độ tan chất tan dung môi Nếu chất tan tan hồn tồn dung mơi sẽ gán nhãn số cho nó, còn khơng tan dung mơi sẽ gán nhãn Quá trình lặp lại tùy theo số lượng dung môi sẵn có, sau đó ghi nhận số liệu tan không tan (tương ứng với nhãn 0) Sau hoàn thành khảo sát này, chúng ta sẽ xây dựng mặt cong không gian qua tọa độ dung môi có khả hòa tan tốt chất tan Một có đầy đủ thông tin mặt cong không gian có dung mơi bất kỳ đó với tham số Hansen có sẵn, người ta có thể dựa vào vị trị tọa độ dung môi đó không gian HSP vừa xây dựng để đánh giá xem liệu nó có phải dung mơi thích hợp để hòa tan chất tan hay không Ở đây, cần phải nhấn mạnh mặt cong mà chúng ta thu chỉ tương ứng với loại chất tan mà ta khảo sát Mặt cong chỉ qua điểm tọa độ dung môi tan tốt chất tan mà Nếu điểm tọa độ dung môi xem xét nằm mặt cong thu dung mơi đó sẽ hòa tan tốt chất tan Điều có thể lí giải dựa vào việc định nghĩa tương đồng dung môi chất tan 2.3 Phương pháp PCA (Principal Component Analysis) Trong số kỹ thuật phân tích đa biến, PCA sử dụng thường xuyên điểm khởi đầu q trình khai thác liệu Nó nhằm mục đích giảm thiểu kích thước liệu, giúp thực việc phân loại liệu, giúp tìm kiếm mối tương quan (nếu có) biến số PCA coi phương pháp tìm hệ sở trực chuẩn đóng vai trò phép xoay, cho hệ sở này, phương sai theo số chiều đó nhỏ, ta bỏ qua, ta chỉ cần giữ lại chiều/thành phần khác quan trọng 37 HĨA HỌC - CƠNG NGHỆ THỰC PHẨM Nguyễn Tuệ Anh, Ngô Thanh An Một ứng dụng hữu ích khác PCA nữa, đó giúp giảm tượng đa cộng tuyến biến [24] Hiện tượng đa cộng tuyến tượng thường gặp phép phân tích hồi quy, mà biến độc lập có mối tương quan mạnh với Nếu mơ hình hồi quy xảy tượng đa cộng tuyến sẽ làm cho nhiều chỉ số bị sai lệch, dẫn đến kết việc phân tích định lượng khơng cịn mang lại nhiều ý nghĩa [25] 2.4 Phương pháp LDA (Linear Discriminant Analysis) Việc xác định sản phẩm chất hóa học đó phạm vi mong đợi thường thực cách phân tách liệu thành lớp khác Các lớp khác phân loại dựa vào tên nhãn nó Dữ liệu để phân tích LDA nghiên cứu khả tan bitumen với hai nhãn (tan) (không tan) 48 loại dung môi khác Trong Bảng trình bày trên, tham số Hansen biến độc lập mô tả đặc tính bitumen tương tác phân tán (D), tương tác lưỡng cực (P) tương tác hydro (H), khả tan biến phụ thuộc, nhãn gán cho nhóm Phương pháp LDA sử dụng nhãn để giảm kích thước, đồng thời thiết kế để tối đa hóa khoảng cách lớp [18, 19] Về mặt nguyên tắc, để thực LDA, khoảng cách nhóm liệu sẽ tối đa hóa thông qua việc tối đa khoảng cách hai kỳ vọng hai nhóm đồng thời tối thiểu độ lệch nội nhóm liệu Về mặt nguyên tắc, nhiệm vụ phân tích LDA nói cách đơn giản đó tìm vector chiếu w cho giá trị J(w) đạt cực đại, với J(x) phát biểu thông qua phương trình đây: J (x ) = (~1 − ~2 )2 = d (~s1 + ~s2 ) (~s1 + ~s2 ) (1) ~ ~ Trong đó, w: vector chiếu sử dụng để chiếu x lên y 1  kỳ vọng nhóm ~ ~ liệu s1 s2 độ lệch mỡi nhóm, d khoảng cách lớp 2.5 Trình tự thực hiện phân tích LDA Việc phân tích LDA thực thơng qua sử dụng ngơn ngữ lập trình python – version 3.9.6 dành cho Windows Trình tự phân tích bao gồm bước sau: - Nhập liệu - Thiết lập tham số cho phân tích LDA - Đánh giá mơ hình thu 2.6 Đánh giá mô hình Để đánh giá hiệu mơ hình phân loại liệu thu được, nay, có nhiều phương pháp sử dụng phương pháp phân chia liệu ngẫu nhiên, phương pháp xác thực chéo Phương pháp phân chia liệu ngẫu nhiên tiến hành cách phân chia liệu cách ngẫu nhiên theo tỷ lệ phần trăm xác định Trong phần liệu phân tách với tỷ lệ lớn sẽ sử dụng để huấn luyện xây dựng mơ hình, phần nhỏ lại sẽ dùng để kiểm tra hiệu mơ hình Đối với kích thước liệu phù hợp, trình phân chia liệu huấn luyện kiểm tra thực theo tỷ lệ 70:30 Điều đó có nghĩa sẽ dành 70% liệu cho huấn luyện, lại 30% dành cho kiểm tra mơ hình Đây tỷ HĨA HỌC - CƠNG NGHỆ THỰC PHẨM 38 Ứng dụng phương pháp phân tích PCA LDA cho tham số Hansen để dự đốn… lệ thường sử dụng phân tích liệu, vậy, nghiên cứu này, tỷ lệ 70:30 sẽ lựa chọn để phân chia liệu phục vụ cho q trình phân tích LDA Mặt khác, phương pháp xác thực chéo k lần bắt đầu cách phân tách từ đầu hai liệu đó sẽ dành cho thử nghiệm, lại sẽ dùng cho việc xác thực Bộ liệu dành cho thử nghiệm lại phân tách thành k đoạn nhỏ, sau đó, đoạn nhỏ lại dành riêng cho việc kiểm tra cho (k-1) đoạn cịn lại Q trình sẽ lặp lại tất k đoạn nhỏ đó dùng để kiểm tra cho phần liệu lại Có thể thấy xác thực chéo, tập liệu sẽ không phân chia thành tập liệu huấn luyện thử nghiệm chỉ lần Thay vào đó, người ta sẽ liên tục phân vùng tập liệu thành nhóm nhỏ sau đó tính trung bình hiệu suất mỡi nhóm KẾT QUẢ VÀ THẢO LUẬN 3.1 Kiểm định giả thiết thống kê để thực hiện LDA Để tiến hành phân tích LDA, liệu cần phải thỏa mãn số giả thiết sau: thứ nhất, biến số phải tuân theo phân bố chuẩn; thứ hai, biến số phải có phương sai đồng nhất; thứ ba, không tồn tượng đa cộng tuyến biến [18, 19] Bảng Các thông số kiểm định thống kê cho liệu ban đầu ( = 0,01) p-value (phân bố Gaussian) cho từng biến VIF Biến phân tán, D 0,149 4,52 Biến tương tác lưỡng cực, P 0,199 3,81 Biến tương tác hydro, H 0,355 3,83 p-value (kiểm định Levene) cho ba biến số 0,0012 Các giá trị p-value lớn giá trị , thấy liệu tuân theo phân bố chuẩn Các giá trị VIF (Variance Inflation Factor) biến số lớn 2, điều cho thấy có tồn tượng đa cộng biến liệu [26] Giá trị p-value kiểm định Levene nhỏ giá trị , cho thấy tính đồng phương sai liệu khơng thỏa mãn 3.2 Phân tích PCA Biểu đồ Scree từ Hình cho thấy độ tích lũy thành phần 100% Mặt khác, liệu ban đầu chỉ có đặc trưng (P, D H) Do vậy, sau tiến hành phân tích PCA, sẽ giữ lại thành phần Hình Biểu đồ Scree phân tích PCA cho tham số Hansen 39 HÓA HỌC - CƠNG NGHỆ THỰC PHẨM Nguyễn Tuệ Anh, Ngơ Thanh An Sau tiền xử lý PCA, liệu score thu sẽ dùng để đánh giá lại thông số kiểm định thống kê nhằm kiểm tra đáp ứng giả thiết cho q trình phân tích LDA Bảng Các thông số kiểm định thống kê cho liệu sau phân tích PCA ( = 0,01) p-value (phân bố Gaussian) cho từng biến VIF Biến phân tán, D 0,913 Biến tương tác lưỡng cực, P 0,019 Biến tương tác hydro, H 0,496 p-value (kiểm định Levene) cho ba biến số 0,0183 Số liệu từ Bảng cho thấy giá trị p-value phân bố Gaussian kiểm định Levene lớn giá trị , điều đó có nghĩa liệu tham số Hansen sau xử lý PCA tuân theo phân bố chuẩn có đồng phương sai ba biến số D, P H Giá trị VIF thu nhỏ dấu hiệu cho thấy khơng cịn tồn hiệu ứng đa cộng tuyến xảy biến sau xử lý PCA Như vây, có thể thấy rằng, sau qua xử lý PCA, liệu đáp ứng giả thiết phân bố Gaussian, đồng phương sai không có tượng đa cộng tuyến Dữ liệu hoàn toàn phù hợp để dùng cho phân tích LDA 3.3 Phân tích LDA Dữ liệu đầu sau phân tích PCA cho tham số Hansen sẽ đưa vào phân tích LDA Số phần tử (n) sử dụng để khai báo tham số đầu vào LDA phải tuân thủ điều kiện: n = min[số biến số độc lập, (số nhãn biến phụ thuộc) - 1] Trong nghiên cứu này, chỉ có biến độc lập D, P, H nhãn (0 1) biến phụ thuộc, vậy, số phần tử n sẽ Mô hình phân loại liệu thu sau phân tích LDA sẽ đánh giá thơng qua hai phương pháp, bao gồm phương pháp phân chia liệu ngẫu nhiên phương pháp xác thực chéo 3.3.1 Đánh giá mô hình thông qua phương pháp phân chia liệu Sau thực phân tích LDA, ma trận lỡi sẽ sử dụng để đánh giá chất lượng trình phân loại liệu Bên cạnh đó, đại lượng độ xác, độ lặp, recall sử dụng để đánh giá đầy đủ mức độ hiệu mơ hình dự đốn LDA Ma trận lỗi thể có điểm liệu thực sự thuộc vào lớp, dự đốn rơi vào lớp Thực ra, ma trận lỡi bảng đặc biệt (ma trận vuông) dùng để minh họa hiệu thuật toán tốn phân loại Hình ma trận lỡi thu qua lần thực thi chương trình Dựa vào kết Hình (a), chúng ta sẽ thấy hàng cột một, với giá trị nhãn (true value) 0, mơ hình dự đốn (predicted value) với số lượng tổng số 10 mẫu (tức đạt tỷ lệ đúng 90% cho nhãn 0) Tại hàng cột hai, có mẫu bị dự đoán sai Tại hàng hai cột hai, mơ hình dự đốn đúng tổng số mẫu, có nghĩa đúng 60% Tại hàng hai cột một, nhãn có giá trị bị dự đoán sai với số lượng tổng số mẫu Như thấy giá trị hàng thứ i, cột thứ j số lượng điểm liệu lẽ phải thuộc vào lớp i lại dự đoán thuộc vào lớp j Các phần tử đường chéo ma trận số điểm phân loại đúng mỗi lớp liệu Một mơ hình tốt sẽ cho ma trận lỡi có phần tử đường chéo có giá trị lớn, phần tử cịn lại phải có giá trị nhỏ HĨA HỌC - CƠNG NGHỆ THỰC PHẨM 40 Ứng dụng phương pháp phân tích PCA LDA cho tham số Hansen để dự đoán… (a) (b) (c) (d) Hình Ma trận lỗi thu thực thi chương trình lần (a), (b), (c) (d) Kết từ Hình cho thấy ma trận lỡi hồn tồn khác cho mỡi lần thực việc phân tích Sở dĩ có điều tập liệu phân chia cách ngẫu nhiên thành hai tập bao gồm: tập liệu dành cho huấn luyện mơ hình (tỷ lệ 70%) tập liệu dành cho kiểm tra mơ hình (30%) Chính phân chia ngẫu nhiên vậy, nên kết kiểm tra tính xác thuật tốn thơng qua ma trận lỗi sẽ không bị trùng lặp Thông qua ma trận lỡi, độ xác, độ lặp độ nhạy mơ hình sẽ hồn tồn xác định Các thơng số trình bày Bảng Bảng Các thông số đánh giá hiệu mô hình Lần thực chương trình Độ xác (accuracy) Độ lặp (precision) Độ nhạy (recall) 0,8 0,75 0,6 0,8 0,86 0,75 0,8 0,83 0,71 1,0 1,0 1,0 41 HĨA HỌC - CƠNG NGHỆ THỰC PHẨM Nguyễn Tuệ Anh, Ngô Thanh An Kết Bảng cho thấy không ổn định thông số đánh giá hiệu mơ hình thực việc phân chia liệu ngẫu nhiên Đây nhược điểm lớn phương pháp kiểm tra mơ hình Nhược điểm cịn trở nên nghiêm trọng tập liệu nhỏ, từ đó dẫn đến phương sai sẽ cao Ngoài ra, phân chia ngẫu nhiên, kết hồn tồn khác lần thử nghiệm khác Điều xảy số phạm vi định, mẫu dễ phân loại sẽ đưa vào tập kiểm tra, phân vùng khác, tập kiểm tra lại nhận mẫu khó phân loại 3.3.2 Đánh giá mô hình thông qua phương pháp xác thực chéo Hình Sự phụ thuộc thơng số đánh giá hiệu mơ hình tham số CV Kết xác thực chéo sử dụng tham số CV (số lần xác thực chéo) thay đổi từ đến 20 trình bày Hình Trong khoảng CV từ 5-10, thấy đại lượng độ xác, độ nhạy độ lặp đạt giá trị cao Do vậy, đại lượng CV = sẽ thích hợp cho phân tích LDA với liệu loại Bảng Các thơng số đánh giá hiệu mơ hình sử dụng CV = Lần thực chương trình Độ xác (accuracy) Độ lặp (precision) Độ nhạy (recall) 75 80,2 68,75 75 80,2 68,75 75 80,2 68,75 Bảng thể kết phân tích LDA với CV = lần khác cho thấy đại lượng dùng để đánh giá hiệu mơ hình khơng đổi Đối chiếu với kết thu phân chia liệu ngẫu nhiên, xác thực chéo, thấy tập liệu sẽ không phân chia thành tập liệu huấn luyện thử nghiệm chỉ lần Thay vào đó, người ta sẽ liên tục phân vùng tập liệu thành nhóm nhỏ sau đó tính trung bình hiệu suất mỡi nhóm Bằng cách này, sẽ giúp giảm tác động tính ngẫu nhiên phân vùng lên kết 3.3.3 So sánh kết phân tích LDA liệu ban đầu liệu qua xử lý PCA Cả ba nguồn liệu, bao gồm liệu ban đầu, liệu ban đầu quy tâm chuẩn hóa, liệu sau xử lý PCA đưa vào phân tích LDA, kết hợp với phương pháp xác thực chéo có CV = HĨA HỌC - CƠNG NGHỆ THỰC PHẨM 42 Ứng dụng phương pháp phân tích PCA LDA cho tham số Hansen để dự đoán… Bảng Kết phân tích LDA cho liệu đầu vào khác Loại liệu Độ xác (accuracy) Độ lặp (precision) Độ nhạy (recall) Dữ liệu ban đầu 75 80,2 68,75 Dữ liệu ban đầu quy tâm chuẩn hóa 75 80,2 68,75 Dữ liệu qua xử lý PCA 75 80,2 68,75 Qua Bảng 6, nhận thấy rõ ràng rằng, liệu thơ ban đầu có vi phạm giả thiết thống kê để tiến hành LDA, kết thu từ phân tích LDA cho liệu thơ liệu qua xử lý PCA cho kết Bên cạnh đó, việc tiền xử lý liệu phương pháp quy tâm chuẩn hóa liệu khơng làm biến đổi đại lượng độ xác, độ lặp độ nhạy mơ hình Điều lí giải phương pháp LDA không bị ảnh hưởng nhiều liệu ban đầu không đáp ứng số giả thiết liệt kê phần 3.1 [27] Hơn nữa, < VIF < tượng đa cộng tuyến thấp chấp nhận [26] KẾT LUẬN Phương pháp tiền xử lý liệu PCA giúp liệu đầu vào LDA đáp ứng giả thiết thống kê bao gồm phân bố chuẩn, đồng phương sai tượng đa cộng tuyến Kết phân tích LDA với tham số độ tan Hansen dung môi khác nhau, kết hợp với liệu khả tan bitumen dung mơi cho thấy khả dự đốn mơ hình chấp nhận Phương pháp đánh giá hiệu mô hình cách phân chia ngẫu nhiên liệu theo tỷ lệ 70:30 khơng có tính ổn định khó xử dụng, đó, phương pháp xác thực chéo đem đến giá trị độ xác, độ lặp độ nhạy ổn định thực thi chương trình có giá trị 75, 80,2 68,75% TÀI LIỆU THAM KHẢO Blumenroth D., Zumbühl S., Scherrer C., Müller W - Sensitivity of modern oil paints to solvents Effects on synthetic organic pigments In: Issues in contemporary oil paint, Cham: Springer (2014) 351–362 La Nasa J., Lee J., Degano I., Burnstock A., van den Berg K.J., Ormsby B., Bonaduce I - The role of the polymeric network in the water sensitivity of modern oil paints, Scientific Reports (2019) 1-12 Banti D., La Nasa J., Tenorio L., Modugno F., van den Berg J., Lee J., Ormsby B., Burnstock A., Bonaduce I - A molecular study of modern oil paintings: investigating the role of dicarboxylic acids in the water sensitivity of modern oil paints, RSC Adv (2018) 6001-6012 Hancock B.C., Peter York P., Rowe R.C - The use of solubility parameters in pharmaceutical dosage form design, Int J Pharm 148 (1997) 1-21 Lee J., Park S.A., Ryu S.U., Chung D., Park T., Son S.Y - Green-solvent-processable organic semiconductors and future directions for advanced organic electronics, Journal of Materials Chemistry A (2020) 21455-21473 43 HÓA HỌC - CƠNG NGHỆ THỰC PHẨM Nguyễn Tuệ Anh, Ngơ Thanh An Cunningham M.F., Campbell J.D., Fu Z., Bohling J., Leroux J.G., Mabee W., Robert T - Future green chemistry and sustainability needs in polymeric coatings, Green Chemistry 21 (2019) 4919-4926 Guenthner A.J., Lamison K.R., Lubin L.M., Haddad T.S., Mabry J.M - Hansen solubility parameters for octahedral oligomeric silsesquioxanes, Industrial & Engineering Chemistry Research 51 (2012) 12282-12293 Batista M.M., Reginaldo Guirardello R., Krähenbühl M.A - Determination of the Hansen solubility parameters of vegetable oils, biodiesel, diesel, and biodiesel-diesel blends, J Am Oil Chem Soc 92 (2015) 95-109 Negera D., Yohannes T - Hansen solubility parameters and green solvents for organic photovoltaics, Int J Adv Sci Res Eng (2018) 128-129 10 Benazzouz A., Moity L., Pierlot C., Sergent M., Molinier V., Aubry M J - Selection of a greener set of solvents evenly spread in the Hansen space by space-filling design, Industrial & Engineering Chemistry Research 52 (2013) 16585-16597 11 Park W J., Kim Y M., Im I S., Go S K., Nho S N., Lee B K - Development of correlations between deasphalted oil yield and Hansen solubility parameters of heavy oil SARA fractions for solvent deasphalting extraction, Journal of Industrial and Engineering Chemistry 107 (2022) 456-465 12 Porto M., Caputo P., Loise V., Eskandarsefat S., Teltayev B., & Oliviero Rossi, C Bitumen and bitumen modification: A review on latest advances, Applied Sciences (2019) 742-776 13 Redelius P., Soenen H - Relation between bitumen chemistry and performance, Fuel 140 (2015) 34-43 14 Zhu J., Birgisson B., Kringos N - Polymer modification of bitumen: Advances and challenges European Polymer Journal 54 (2014) 18-38 15 Navarro F J., Partal P., García-Morales M., Martín-Alfonso M J., Martinez-Boza F., Gallegos C., Diogo A C - Bitumen modification with reactive and non-reactive (virgin and recycled) polymers: a comparative analysis, Journal of Industrial and Engineering Chemistry 15 (2009) 458-464 16 Redelius, P - Bitumen solubility model using Hansen solubility parameter, Energy & Fuels 18 (2004) 1087-1092 17 Díaz de los Ríos M., Hernández Ramos E - Determination of the Hansen solubility parameters and the Hansen sphere radius with the aid of the solver add-in of Microsoft Excel, SN Applied Sciences (2020) 1-7 18 Xanthopoulos P., Pardalos P.M., Trafalis T.B - Linear discriminant analysis, In Robust data mining (2013) 27-33 19 Tharwat A., Gaber T., Ibrahim A., Hassanien A.E - Linear discriminant analysis: A detailed tutorial, AI Communications 30 (2017) 169-190 20 Hansen C.M - Hansen solubility parameters - A user’s handbook, CRC Press, 2nd Ed, (2007) 21 Hansen C.M - The three dimensional solubility parameter - key to paint component af finities I, J Paint Technol 39 (1967) 104-117 22 Hansen C.M - The three dimensional solubility parameter - key to paint component af finities II, J Paint Technol 39 (1967) 505-510 HĨA HỌC - CƠNG NGHỆ THỰC PHẨM 44 Ứng dụng phương pháp phân tích PCA LDA cho tham số Hansen để dự đoán… 23 Hansen C.M., Skaarup K - The three dimensional solubility parameter - key to paint component affinities III, J Paint Technol 39 (1967) 511-514 24 Lafi S Q., Kaneene J B - An explanation of the use of principal-components analysis to detect and correct for multicollinearity, Preventive Veterinary Medicine 13 (1992) 261-275 25 Næs T., Mevik B H - Understanding the collinearity problem in regression and discriminant analysis, Journal of Chemometrics: A Journal of the Chemometrics Society 15 (2001) 413-426 26 Shrestha N - Detecting multicollinearity in regression analysis American Journal of Applied Mathematics and Statistics (2020) 39-42 27 Bükưztürk Ş., Çokluk-Bưkeoğlu Ö - Discriminant function analysis: Concept and application, Egitim Arastirmalari - Eurasian Journal of Educational Research 33 (2008) 73-92 ABSTRACT APPLICATION OF PCA AND LDA METHODS FOR HANSEN PARAMETERS IN PREDICTION OF BITUMEN SOLUBILITY IN DIFFERENT SOLVENTS Nguyen Tue Anh, Ngo Thanh An* Ho Chi Minh City University of Food Industry *Email: ngothanhan@gmail.com PCA method (Principle Component Analysis) was used to preprocess Hansen solubility parameters of bitumen in 48 different solvents, aiming to eliminate multicollinearities between variables as well as to ensure the homoscedasticity of the data After preprocessing, the data were analyzed by LDA (Linear Discriminant Analysis) to determine a classification model for the predicting solubility of bitumen Both methods: random split data and cross-validation were used to evaluate the predictive efficiency of the model The results showed that, when using the random split data method (ratio 70:30), quantities such as accuracy, precision and recall were changed between program executions, while, in the case of cross-validation, these quantities were not When cross-validating with the CV parameter (number of crossvalidations) equaled to 8, the model’s accuracy, precision and recall of the model were 75, 80.2 and 68.75%, respectively In addition, the results of LDA analysis for raw data sources, centered and normalized data, and PCA-processed data, when cross-validated at the CV of 8, presented that the evaluation performance of the model was all the same Keywords: PCA, LDA, Hansen parameters, solubility, bitumen 45 HĨA HỌC - CƠNG NGHỆ THỰC PHẨM ... đưa vào phân tích LDA DỮ LIỆU VÀ PHƯƠNG PHÁP 2.1 Dữ liệu tham số độ tan Hansen của các dung mơi hữu Dữ liệu để phân tích LDA tham khảo bảng 9.3 - trang 162 sổ tay Hansen [20] Bảng Tham. .. THỰC PHẨM 36 Ứng dụng phương pháp phân tích PCA LDA cho tham số Hansen để dự đoán… chất tan với nó, thân dung mơi với nhau, dung môi với chất tan Nguyên tắc chất tan sẽ tan dung môi, đó chúng... tồn phù hợp để dùng cho phân tích LDA 3.3 Phân tích LDA Dữ liệu đầu sau phân tích PCA cho tham số Hansen sẽ đưa vào phân tích LDA Số phần tử (n) sử dụng để khai báo tham số đầu vào LDA phải tuân

Ngày đăng: 22/02/2023, 21:22

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w