Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp và ứng dụng trong hỗ trợ chẩn đoán bệnh.
Tổngquan
Raquyếtđịnhluônđóngmộtvaitròquantrọngtrongcáchệthốngthôngtinnhằm mục đích giúp người sử dụng ra quyết định chính xác, kịp thời và hiệu quả Nó được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau Một trong những lĩnh vực ứng dụng hệ hỗ trợ ra quyết định từ rất sớm đó là y học, tiêu biểu nhất là hệ chuyên gia MYCINđãđượcgiớithiệuvàonăm1975[1].MYCINđãsửdụngtrithứccủachuyên gia y học để chẩn đoán bệnh và đưa ra khuyến nghị điều trị cho các bệnh nhân viêm não tủy cấp và nhiễm trùngmáu.
Chẩnđoánbệnhđượchiểulàquátrìnhraquyếtđịnhnhằmxácđịnhbệnhhoặccăn nguyên tạo ra các triệu chứng của người bệnh Chẩn đoán bệnh trong y học hiện đại làviệchỏibệnh,khaitháctiềnsửbệnh,thămkhámthựcthể,khicầnthiếtthìchỉđịnh làm xét nghiệm cận lâm sàng, thăm dò chức năng để chẩn đoán và chỉ định phương pháp điều trị phù hợp đã được công nhận Chẩn đoán bệnh trong y học cổ truyền là tổnghợpcủacáckiếnthức,kỹnăngvàthựchànhdựatrênlýthuyết,niềmtinvàkinh nghiệm bản địa của các nền văn hóa khác nhau, dù có thể giải thích hay không, được sử dụng để chẩn đoán bệnh cả về thể chất lẫn tinh thần[2].
Trong những năm gần đây, đội ngũ lươngy,bác sĩ thường sử dụng kết hợp giữa phác đồ điều trị trong y học cổ truyền với kết quả khám, xét nghiệm trong y học hiện đại nhằm nâng cao chất lượng chẩn đoán bệnh Điều này đã thúc đẩy mạnh mẽ công tác nghiên cứu y học và áp dụng công nghệ thông tin vào trong quá trình khám và chẩn đoán bệnh nhằm mục đích hỗ trợ đội ngũ lươngy,bác sĩ tại bệnh viện ở các địa phương.
Gầnđây,hướngnghiêncứusuydiễndựatrênđồthịtrithứcmờ(FKG)vớiưuđiểm cho phép thực hiện suy diễn trong những trường hợp dữ liệu thu thập chưa đầy đủ hoặc thiếu tri thức trong kho dữ liệu đã nhận được nhiều sự quan tâm và chú ý của các nhà nghiên cứu trong và ngoài nước FKG lần đầu được giới thiệu vào năm 2020 trong mô hình M-CFIS-FKG [3] Nó đã giải quyết hạn chế của đồ thị tri thức (KG) khi giải quyết bài toán chẩn đoán bệnh dựa trên bộ dữ liệu có tính chất chu kỳ, thông tin đầu vào không chắc chắn FKG sử dụng các nhãn ngôn ngữ cho các thuộc tính trongtậpdữliệuhuấnluyện.Đầutiên,đồthịtrithứcmờđượcxâydựngsaugiaiđoạn tiền xử lý (hay gọi là biểu diễn đồ thị tri thức mờ) Sau đó, quá trình suy diễn xấp xỉ được áp dụng để tìm nhãn đầu ra của các bản ghi mới trong tập dữ liệu kiểm tra Đồ thị tri thức mờ suy diễn dựa trên tập luật IF-THEN (hay gọi là cơ sở luật mờ), trong đó tác động của nhãn ngôn ngữ có khả năng tạo ra nhãn đầu ra tươngứng.
Hơn nữa, mô hình M-CFIS-FKG cũng đã vượt qua được hạn chế của mô hìnhdựa trên hệ suy diễn mờ phức dạng Mamdani (chẳng hạn M-CFIS-R) trong việc tìmnhãn đầu ra của các mẫu mới chưa có trong cơ sở luật mờ bằng cách áp dụng thuật toán FISA sử dụng cơ chế suy diễn xấp xỉ Lấy ví dụ trong bài toán chẩn đoán dấu hiệu tiền sản giật, việc bác sĩ đưa ra quyết định kết luận chẩn đoán bệnh (hay nhãn đầura) là“Bình thường”, “Tiền sản giật”,hay“Tiền sản giật nặng”phụ thuộc vào nhãn ngônngữ“Cao”,“Bìnhthường”hay“Thấp”củathuộctínhđầuvào“Huyếtáp”,và nhãnngônngữ“Cao”hay“Bìnhthường”củathuộctínhđầuvào“LDH”(axitlacticdehydroge nase),với độ chính xác khoảng 90% Trong trường hợp này, một luật mờ được biểu diễn như sau:IF “Huyết áp”là“Cao”và“LDH”là “Cao”THEN “Tiềnsản giật nặng”, với độ tin cậy là 90% Bằng cách tíchlũytừng sự kiện đơn lẻ (hoặc cặp đơn trong đồ thị tri thức mờ), kết quả sẽ xác định được nhãn đầu ra của bản ghi mới.
Tuy nhiên,mô hình M-CFIS-FKG chỉ sử dụng các cặp đơn(single pairs)trong quátrìnhsuydiễnnênvẫnchưaxửlývấnđềtrườnghợpthôngtincủatậpdữliệuđầu vào chưa đầy đủ Hơn nữa, trong một số trường hợp cực đoan, các phương pháps u y diễnmờhiệnnaychưagiảiquyếtđượcbàitoánphânloại,hỗtrợraquyếtđịnhkhibộ dữ liệu đầu vào lớn hoặc cơ sở luật mờ quá nhỏ (chẳng hạn bài toán chẩn đoán bệnh trong lĩnh vực y tế) Đây là động cơ chính của luận án đã được tập trung nghiên cứu pháttriểnmôhìnhmớinhằmgiảiquyếtbàitoánhỗtrợraquyếtđịnhtrongtrườnghợp cực đoan hiệu quả hơn, đáp ứng yêu cầu thực tế đặtra.
Trongphạmvinghiêncứucủaluậnántiếnsĩnày,haicâuhỏinghiêncứuthựcsự cầnthiếtvàcấpbáchđượctậptrungnghiêncứunhằmgiúpcáchệhỗtrợraquyếtđịnh hoạt động hiệu quả hơn, đáp ứng được yêu cầu thực tế, cụ thểlà:
Làm thế nào để nghiên cứu phát triển đề xuấtmôhình ra quyết định dựatrên đồthị tri thứcmờdạng cặp trong trường hợp thông tin của tập dữ liệuđầu vào chưa đầy đủ? Trường hợp tập dữ liệu đầu vào chưa đầy đủ được hiểu làtậpdữliệuđượcthuthậpcònthiếuthôngtin,cónghĩalàlượngthôngtinđầu vào phục vụ cho việc sinh luật cònít.
Lấyvídụtrongchẩnđoándấuhiệutiềnsảngiậtcủacácsảnphụ,bácsĩthường theo dõi các dữ liệu liên quan đến các triệu chứng (được minh họa trong Hình 1), chẳng hạn: phù nề chân tay, huyết áp cao, men gan cao, giảm tiểu cầu, dư thừa protein niệu đạo, đau đầu dữ dội, đau bụng trên, buồn nôn, hụt hơi, v.v nhằm đưa ra kết luận chẩn đoán bệnh một cách chính xác Tuy nhiên, dữ liệu triệuchứngvềsảnphụđượcthuthậpthườngchưađầyđủ.Bêncạnhđó,thựctế số lượng phác đồ thường hữu hạn nên việc chẩn đoán và điều trị bệnh thường phảiquaquátrìnhthửsaivớimộtliệuphápđiềutrịnhấtđịnhchomộttậptriệu chứngcủasảnphụ.Ngaycảkhiđãcómôhìnhhóaquanhệgiữa vàthìviệclựachọncặpliênkếtnàovớiquanhệrasao,chẳnghạn:
+ + + v.v là tương đối phức tạp Nó không thể mô hình hóa bằng đồ thị tri thức (KG) thườngvàđồthịtrithứcmờ(FKG)cặpđơn.Dođó,làmthếnàođểnghiêncứu pháttriểnđềxuấtmôhìnhhỗtrợraquyếtđịnhdựatrênđồthịtrithứcmờdạng cặp là một yêu cầu có tính cấp thiết và thời sự, có tính khoa học và có ý nghĩa thực tiễn.
Hình 1.Hình ảnh minh họa các triệu chứng liên quan đến tiền sản giật.
Làm thế nào để nghiên cứu phát triển đề xuấtmôhình ra quyết định dựatrên đồthị tri thứcmờdạng cặp trong các trường hợp cực đoan với các tậpdữliệu lớn hoặc tập dữ liệu huấn luyện quá nhỏ, thiếu tri thức? Một trong nhữngtháchthứckhilàmviệcvớiđồthịtrithức(KG),ngoàivấnđềvềdữliệu lớn (5V), là việc xử lý ra quyết định một cách chính xác và hợp lý khi lượng thông tin đầu vào phục vụ cho việc sinh luật hạn chế hoặc cơ sở tri thức quá nhỏ.
Chẳnghạn,Hình2minhhọatrườnghợpcựcđoantrongbàitoánraquyếtđịnh, chẳnghạntậpdữliệuđầuvàolớnnếuápdụngcácphươngpháptruyềnthống với tỷ lệ chia bộ dữ liệu 70% để huấn luyện và 30% để kiểm tra thì thời gian huấn luyện mô hình chậm, dẫn đến hệ thống chạy chậm; hoặctập huấnluyện quánhỏ(dưới10%)sovớitậpdữliệukiểmtra(trên90%),thậmchíhệthống mới hoàn toàn chưa có cơ sở luật mờ (cơ sở tri thức chưa đầy đủ) thì dẫn đến độ chính xác thấp, không đáp ứng được yêu cầu đầu ra của các bài toán hỗ trợ ra quyết định trong thực tế.
Hình 2.Hình ảnh minh họa dữ liệu trường hợp cực đoan.
Các công trình nghiên cứu cóliênquan
Trong thời gian qua, có nhiềukỹthuật thông minh đã được áp dụng nhằm nghiên cứu đề xuất các mô hình ra quyết định trong hỗ trợ ra quyết định nói chung và hỗ trợ chẩn đoán bệnh nói riêng đã được công bố trên các tạp chí khoa học uy tín Dướiđây là các công trình tiêu biểu đã được công bố liên quan đề tài nghiên cứu của luận án tiến sĩnày.
Các mô hình ra quyết định trong hệ hỗ trợ chẩn đoán bệnh dựa vào đồ thị tri thức(KG) Chẳng hạn, Bernard và cộng sự [4] đã đề xuất mô hình biểu diễn tri thức vàcơ chế suy diễn nhằm lựa chọn ra phác đồ điều trị và loại thuốc tốt nhất để điều trịtrong y học cổ truyền tại Châu Phi Yong Zhang và cộng sự [5] đã giới thiệu khung đồ thị tri thức cho chăm sóc sức khỏe bằng cách kết hợp cơ sở tri thức được tích hợp trong hệ thống chẩn đoán với kiến thức chuyên môn của bác sĩ chuyên khoa Ravi và cộng sự [6] cũng đã sử dụng đồ thị tri thức ngữ nghĩa để đề xuất khung mô tả tri thức cho hệhỗtrợraquyếtđịnhhỗtrợchẩnđoánbệnhtạicácphòngkhám.Ngoàira,đồthịtri thức cũng được áp dụng để phát triển mô hình hỗ trợ ra quyết định trong nhiều lĩnh vựckhácnhưgiaothông,sảnxuất,chứngkhoán,dựbáo,hệkhuyếnnghị,v.v.[7-23] Tuy nhiên, đồ thị tri thức gặp phải khó khăn trong việc biểu diễn tri thức và suy diễn xấpxỉdựatrêncáctậpdữliệuđầu vàocótínhchukỳvớithôngtinchưađầyđủhoặc chưa rõràng. Để vượt qua được thách thức này, các nhóm nghiên cứu đã tiếp cận giải quyết vấn đề bằng cách kết hợp các kỹ thuật suy diễn mờ và đồ thị tri thức Một số kỹ thuậtsuy diễn mờ tiêu biểu được giới thiệu nhằm giải quyết bài toán phân loại, hỗ trợ ra quyết định như hệ suy diễn mờ (FIS) [24-30], hệ suy diễn mờ phức (CFIS) [31-33], và hệ suy diễn mờ phức dạng Mamdani (M-CFIS) [34-35] Chẳng hạn,kỹthuật FIS được sử dụng để học ngôn ngữ với sự hỗ trợ của máy tính, phân loại chất lượng dựa trên cácđặctínhhìnhảnh,vàpháthiệnungthưphổi[25-27].KỹthuậtCFISđượcápdụng để chẩn đoán ung thư trực tràng [33], vàkỹthuật M-CFIS được sử dụng cho các bài toán ra quyết định đa thuộc tính trong lĩnh vực y tế [34] Bên cạnh những ưu điểm, cáckỹthuật suy diễn mờ cũng còn những hạn chế cần nghiên cứu giải quyết Ví dụ điểnhìnhlàmôhìnhM-CFIS-R[35]đãsửdụngcơchếkhớpcácmẫutrongtậpkiểm tra với từng luật trong cơ sở luật mờ làm tăng thời gian tính toán Ngoài ra, cáckỹthuật suy diễn mờ FIS hay M-CFIS không thể sinh ra nhãn đầu ra nếu dữ liệu thử nghiệmchưacósẵntrongcơsởluậtmờ.Điềunàyxảyrakhiápdụngvàocáchệthống hỗ trợ ra quyết định, ở đó cơ sở luật mờ tại thời điểm hệ thống mới đưa vào sử dụng còn rất nhỏ, cần phải bổ sung các luật mới.
Với lý do đã phân tích ở trên, đồ thị tri thức mờ (FKG) đã được nghiên cứu phát triển đề xuất lần đầu tiên thông qua mô hình M-CFIS-FKG [3] Mô hình M-CFIS-
FKGđãkhắcphụcđượchạnchếcủamôhìnhM-CFIS-R[35].Tuynhiên,FKGđược đềxuấttrongmôhìnhM-CFIS-FKGchỉsửdụngkỹthuậtsuydiễnxấpxỉdựavàocác cặpđơnlẻnênkhiápdụngvàocácbàitoánthựctếtronglĩnhvựcytếchưahiệuquả, đặcbiệttrêncáctậpdữ liệuđầuvàovớithôngtinchưađầyđủ.Hơnnữa,khiápdụng các mô hình suy diễn mờ truyền thống (FIS, CFIS, M-CFIS) cho các bài toán hỗ trợ raquyếtđịnhtrongtrườnghợpcựcđoan(chẳnghạn,cáctậpdữliệuđầuvàolớnhoặc cơ sở luật mờ quá nhỏ) thì các mô hình hỗ trợ ra quyết định dựa vào các hệ suy diễn mờ truyền thống chưa giải quyết được Thách thức lớn nhất đối với hiệu năng của hệ thống hỗ trợ ra quyết định trong trường hợp cực đoan là thời gian tính toán quáchậm khi xử lý tập dữ liệu đầu vào lớn; hoặc độ chính xác thấp với cơ sở luật mờ quá nhỏ Đây chính là động cơ để nghiên cứu phát triển các mô hình đồ thị tri thức mờ dạng cặp nhằm giải quyết hiệu quả các bài toán hỗ trợ ra quyết định trong hai bài toán cụ thể như sau:
Thứ nhất, nghiên cứu, giải quyết bài toán hỗ trợ ra quyết định trong trường hợp suydiễndựavàotậpdữliệucóthôngtinchưađầyđủvớimụctiêu nhằmcảithiệnđộ chính xác so với M-CFIS-FKG [3] và đặc biệt tiết kiệm về thời gian tính toán so với phương pháp FIS [24] và M-CFIS-R [35] Kết quả nghiên cứu phát triển mô hình FKG-Pairs nhằm giải quyết bài toán này được trình bày chi tiết tại chương2.
Thứhai,nghiên cứu,giảiquyếtbàitoánhỗtrợraquyếtđịnhtrongtrườnghợpcực đoan với mục đích chính là cải thiện hiệu năng của hệ thống về mặt độ chính xác so vớicácmôhìnhtincậyvàmớinhấthiệnnay(FISvàFKG-Pairs).Kếtquảnghiêncứu pháttriểnmôhìnhFKG-Extremenhằmgiảiquyếtbàitoánnàyđượctrìnhbàychitiết tại chương3.
Mục tiêu, đối tượng và phạm vinghiêncứu
Mụctiêuchínhcủaluậnánlànghiêncứupháttriểnmôhìnhđồthịtrithứcmờdạng cặp và ứng dụng cho các hệ hỗ trợ ra quyết định một cách hiệu quả Mục tiêu cụ thể như sau:
- Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp (FKG-Pairs) hỗ trợ ra quyết định trong trường hợp thông tin trong bộ dữ liệu đầu vào thu thập chưa đầyđủ.
- Nghiên cứu phát triển mô hình đồ thị tri thức mờ dạng cặp hỗ trợ ra quyết định trongtrườnghợpcựcđoan(FKG-Extreme)nhằmcảithiệnhiệunăngcủahệthốngvề mặt độ chính xác so với các mô hình tin cậy và mới nhất hiệnnay. Đối tượng và phạm vi nghiên cứu:
- Đốitượngnghiêncứu:Luậnántậptrungnghiêncứupháttriểnmôhìnhđồthịtri thức mờ dạng cặp có khả năng phân loại, hỗ trợ ra quyết định trong nhiều lĩnh vực khácnhau.Trongquyểnluậnánnày,dữliệutriệuchứngtronglĩnhvựcytếđượclựa chọn để mô phỏng các mô hình lý thuyết đã được nghiên cứu, đềxuất.
+ Về nội dung: Hệ hỗ trợ ra quyết định dựa trên nhiềukỹthuật thông minh nhằm giảiquyếtcáclớpbàitoánvềtốiưuhóa,đánhgiávàphânloại.Trongphạmvinghiên cứu của luận án, các mô hình đề xuất dựa trên đồ thị tri thức mờ dạng cặp tập trung giảiquyếthaicâuhỏinghiêncứucholớpbàitoánphânloạinhằmcảithiệnhiệunăng của hệ thống hỗ trợ ra quyết định về mặt độ chính xác trong trường hợp cựcđoan.
+ Về dữ liệu: Các bộ dữ liệu trong kho học máy chuẩn UCI được sử dụng để mô phỏngcácmôhìnhlýthuyếttrongphầnthựcnghiệmnhằmchứngminhtínhđúngđắn và hiệu suất của hệ thống về mặt thời gian tính toán và độ chính xác Hơn nữa, để kiểm chứng khả năng ứng dụng các mô hình lý thuyết vào trong thực tiễn, các bộ dữ liệu triệu chứng trong lĩnh vực y tế (cụ thể là các dữ liệu về bệnh tiền sản giật và dữ liệu về bệnh thận mạn) cũng đã được sửdụng.
Phương phápnghiêncứu
Trongkhuônkhổphạmvinghiêncứucủađềtài,đểhoànthànhcácmụctiêuđãđề ra,mộtsốphươngphápnghiêncứudướiđâyđãđượcsửdụngđểthựchiệnhoànthành luận án tiến sĩ này, cụ thểlà:
- Phươngpháptiếpcậntheokỹthuậtmờ,suydiễnmờ,cũngnhưphươngpháphọc máy tiếp cận theo suy diễn mờ trong nghiên cứu phát triển mô hình hỗ trợ ra quyết định.
- Phương pháp khảo sát được áp dụng để thu thập, tổng hợp và phân tích các công trình nghiên cứu đã được công bố trên một số nguồn cơ sở dữ liệu học thuật chính thống(chẳnghạn:IEEE,ScienceDirect,GoogleScholar,v.v.)cóliênquanđếnđềtài nhằm xác định khoảng trống và đưa ra các câu hỏi nghiêncứu.
- Phương pháp so sánh được sử dụng nhằm so sánh, đánh giá mô hình đề xuất so với các mô hình truyền thốngkhác.
- Phương pháp kiểm chứng được áp dụng để mô phỏng phương pháp đề xuất dựa trên các bộ dữ liệu trong kho dữ liệu học máy chuẩn UCI hoặc các bộ dữ liệu triệu chứng trong y học.
- Cáckỹthuật,côngcụphầnmềmđượcsửdụngđểcàiđặtthựcnghiệmchủyếu được mô phỏng trên các công cụ phần mềm Matlab, Microsoft Excel, Python và Kivy.
Những đóng góp mới của luận án
Luận án có hai đóng góp mới cho khoa học về mặt lý thuyết và một đóng góp về mặt ứng dụng Các đóng góp mới của luận án có thể được tóm tắt một cách ngắngọn như sau: Thứ nhất, luận án đã có đóng góp về mặt lý thuyết khi mô hình hỗ trợ ra quyếtđịnhdựatrênđồthịtrithứcmờdạngcặpFKG-Pairsđượcđềxuấtđểgiảiquyết bài toán ra quyết định trong trường hợp tập dữ liệu đầu vào chưa đầy đủ, với hai giai đoạn chính là biểu diễn FKG-Pairs và suy diễn xấp xỉ dựa trên FKG-Pairs Thứ hai, luận án cũng đã đề xuất mô hình ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trongtrườnghợpcựcđoanFKG-
Extremevớicáctậpdữliệuđầuvàolớnhoặccơsở trithứcquánhỏ.Ngoàira,cácmôhìnhlýthuyếtđãđượcnghiêncứu,càiđặtdựatrên các dữ liệu triệu chứng thu thập trong thực tế để mô phỏng bài toán chẩn đoán bệnh trong lĩnh vực y tế.
Mô hình hỗ trợ ra quyết định dựa trên đồ thị tri thức mờ dạng cặp(FKG-Pairs) được trình bày tại chương 2.
Mô hình hỗ trợ ra quyết định dựa trên đồ thị tri thức mờ dạng cặp trongtrường hợp cực đoan (FKG-Extrme) được trình bày tại chương3.
Ứng dụng hỗ trợ chẩn đoán bệnh trong y học được trình bày tại cuối mỗi chương 2 và chương3.
Cấu trúc củaluậnán
Luận án gồm ba chương được mô tả như trong Hình 3 Ngoài các nội dung phần mở đầu, kết luận, danh mục các công trình đã công bố của luận án và tài liệu tham khảo, phần còn lại của luận án tiến sĩ này được bố cục như sau:
- Chương1giớithiệucơsởlýthuyếtvàthựcnghiệmnhằmmụctiêugiảiquyếthai câu hỏi nghiên cứu nêu tại mục 1 của chươngnày.
- Chương 2 trình bày mô hình đồ thị tri thức mờ dạng cặp FKG-Pairs trong hỗ trợ ra quyết định nhằm giải quyết lớp các bài toán phân loại trong trường hợp tập dữliệu đầu vào thu thập thông tin chưa đầyđủ.
- Chương3đềxuấtmôhìnhđồthịtrithứcmờdạngcặptrongtrườnghợpcựcđoan FKG- Extreme nhằm xử lý lớp bài toán phân loại, hỗ trợ ra quyết định trong trường hợp tập dữ liệu đầu vào lớn hoặc cơ sở tri thức quánhỏ.
Nội dung trình bày tại các chương 2 và 3 được xem như là các kết quả nghiên cứu chính của luận án Trước khi trình bày chi tiết về các kết quả nghiên cứu chính và đóng góp mới cho khoa học của luận án, các cơ sở lý thuyết nền tảng và các bộ dữ liệu thực nghiệm được giới thiệu để làm cơ sở nghiên cứu phát triển đề xuất mô hình lý thuyết và mô phỏng ứng dụng trong hỗ trợ chẩn đoán bệnh.
Hình 3.Cấu trúc của luận án.
CƠ SỞLÝ THUYẾT
Tậpmờ
Cho cỏc tập mờAvàBđược mụ tả bởi cỏc hàm thuộcà ặ (x)vàà B (x) Cỏc phộp toỏn hợp, phép toán giao và phép toán phủ định [36] được đưa ra lần lượt trong các công thức (1.1), (1.2) và (1.3) có hàm thuộc như sau: àặ∪B(x)=Max[àặ(x),àB(x)] (1.1) àặ∩B(x)=Min[àặ(x),àB(x)] (1.2) àặ̅(x)= 1−àặ(x) (1.3)
Trong tập mờ, các phép toán hợp, giao và phủ định tương ứng với các phép toán (OR, AND và NOT) trong logic. Định nghĩa 1.1.[36] Một tập mờ (FS)Atrong không gian nềnXlà một tập có dạng:
A ={〈x,àặ(x)〉|∀x∈X,àặ(x)∈ [0,1]}, (1.4) ở đúàặ(x)được gọi là độ thuộc củaxtrongA. Định nghĩa 1.2.[37] Một tập mờ trực cảm (IFS)Alà một tập không rỗng trong không gianXcó dạng:
A={(x,àặ(x),U ặ(x))|x∈X}, (1.5) ởđúàặ(x)∈[0,1]làđộthuộccủatừngphầntửx∈X,U ặ(x)∈[0,1]làđộkhụngthuộcvàthỏa mónđiềukiệnràngbuộc:(0≤àặ(x)+U ặ(x)≤1),∀x∈X.Độdodự đượckýhiệulàqặ(x)chỉratớnhkhụngxỏcđịnhvàđượcxỏcđịnhlà: qặ(x)=1−(àặ(x)+U ặ(x)),∀x∈X (1.6) Định nghĩa 1.3.[38] Một tập mờ viễn cảnh (PFS)Alà một tập không rỗng trong không gianXcó dạng:
A={(x,àặ(x),5ặ(x),U ặ(x))|x∈X}, (1.7) ởđúàặ(x)∈[0,1]l àđộtớchcực(positivedegree)củatừngphầntửx ∈X,5ặ(x)∈[0,1]làđột runglập(neutraldegree), U ặ (x)∈[0,1]làđộtiờucực(negativedegree),vàthỏamónđiềukiệnr àngbuộc:(àặ(x)+5ặ(x)+U ặ(x)≤1),∀x∈X. Độtừchối(refusaldegree)củatừngphầntửx∈XđượckýhiệulàÊặ(x)vàđượcxỏcđịnhlà : Êặ(x)=1−(àặ(x)+5ặ(x)+U ặ(x)) (1.8)
Các hệ suydiễnmờ
Hệsuydiễnmờ(FIS)làmộtkhungtínhtoánphổbiếndựatrênkháiniệmlýthuyết tập mờ, thường được áp dụng khi xây dựng các hệ thống hỗ trợ ra quyết định trong trườnghợpthôngtinđầuvàokhôngrõràng.Sơđồtổngquátcủahệsuydiễnmờtrong
Hình1.1cóthểđượctómtắtgồmbaphầnchính:Bộmờhóa,cơsởtrithức,vàbộgiải mờ Hệ suy diễn mờ có cấu trúc cơ bản nhưsau:
- Giao diện mờ hóa: Có nhiệm vụ chuyển đổi các giá trị đầu vào thành các giá trị ngônngữ.
- Cơsởtrithứcgồmhaiphần:Cơsởdữliệu(địnhnghĩacáchàmthuộccủatậpmờ được sử dụng trong các luật mờ) và bộ luật (gồm các luật mờ cấu trúcIF-THEN).
- Đơn vị thực thi: Thực hiện các hoạt động suy diễn trong cơ sở luậtmờ.
- Giaodiệngiảimờ:Cónhiệmvụchuyểnđổicácgiátrịkếtquảmờcủahệsuydiễn mờ thành các giá trịrõ.
Hình 1.1.Sơ đồ tổng quát của một hệ suy diễn mờ [28]. Để áp dụng hệ suy diễn mờ, một vài điều kiện sau đây cần được thỏa mãn, chẳng hạn:cần thống nhất một thang đánh giá rõ ràng của các tham số trong hệ suy diễn mờ;cần định nghĩa các thuật ngữ ngôn ngữ theo mức độ của các tham số;cần phải nhận biết mỗi thuật ngữ ngôn ngữ để xác định độ thuộc của các giá trị rõ.
Sau khi thỏa mãn các điều kiện nêu trên, quá trình thực hiện của hệ suy diễn mờ được mô tả ngắn gọn thông qua một số bước như sau: Đầu tiên, áp dụng phương pháp mờ hóa để chuyển đổi các giá trị rõ vào trong tập mờ dựa vào các hàm thuộc Sau đó, nhận kết quả các tiên đề bằng cách áp dụng các phép toán mờ (AND, OR, NOT) Tiếp theo, đưa ra các suy diễn về kết quả mờ với đầu ra cụ thể bằng cách áp dụng mô tơ suy diễn Kế tiếp, tổng hợp vào trong một tập mờ duy nhất bằng cách kết hợp tất cả các tập mờ đại diện mọi đầu ra của luật Cuối cùng, áp dụng phương pháp khử mờ để chuyển đổi tập mờ thành các giá trị rõ [28]. Ngoài ra, hệ suy diễn mờ phức được đưa ra với hai dạng tiêu biểu là: Hệ suy diễn mờ phức dạng Mamdani và hệ suy diễn mờ phức dạng Takagi-Sugeno.
Trongcáccôngtrình[34-35],cấutrúctổngquátcủahệsuydiễnmờphứcMamdani (M- CFIS)gồmsáubướcthựchiện,cụthểlà:thiếtlậpmộttậpcácluậtmờphức;
ápdụngphươngphápmờhóavớicácgiátrịđầuvào;thiếtlậpquátrìnhđốtcháy luật;tínhtoánkếtquảdựavàocácluậtmờphức;tínhtoánphânloạikếtquảđầu ratheohàmtổnghợp;ápdụngphươngphápkhửmờđểxácđịnhgiátrịcủakếtquả đầura.
VídụmôtảvềhệsuydiễnmờdạngMamdanicóhaibiếnđầuvàox,yvàmộtbiến đầuraz.Mỗiđầuvàocó haihàmthuộcđầuvào,kýhiệulầnlượtlà{A1,A2},{B1,B2}và ký hiệu đầu ra là{C1,C2} Luật thứksẽ có dạng cấu trúc IF-THEN nhưsau:
Rulek: IF x là A k và y là B k THEN z là C k i j S vớik=¯1¯,¯R¯;i=¯1¯,¯M¯;j=1¯,¯N¯vàl=¯1¯,¯L¯trongđóM,N,Llàsốlư ợnghàmthuộccủahaibiếnđầuvàovàmộtbiếnđầura.Tronghệsuydiễnnày,phươngphápgiảimờthườn gđượcsửdụnglàlấycựcđạivàtínhtoánđiểmtrọngtâm.
1.2.2 Hệ suy diễnmờphức dạngTagaki-Sugeno
Xét theo luật mờ dạng Mamdani ở tiểu mục 1.2.1, nếu ở phần kết luận các tập mờC k được thay bởi một hàm của các biến đầu vào thì sẽ thu được luậtược thay bởi một hàm của các biến ầu vào thì sẽ thu ược luậtđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật được thay bởi một hàm của các biến đầu vào thì sẽ thu được luật mờ Tagaki- Sugeno[39].Nhưvậy,tronghệsuydiễnTagaki- Sugeno,cácluậtđượchìnhthànhcó dạng cấu trúc IF-THEN như sau:
Rulek: IF x là A k và y là B k THEN z k = (x, y)ƒ(x, y) i j vớik=¯1¯,¯R¯;i=¯1¯,¯M¯vàj=1¯,¯N¯trongđóM,Nlàsốlượnghàmthuộccủ ahaibiếnđầuvào.TronghệsuydiễnTagaki-
Đồ thị mờ, cấu trúc đồthịmờ
Định nghĩa 1.5.[40] Một đồ thịG ∗ là một cặp(V,E),ở đóVlà một tập,Elà một quanhệtrênV.CácphầntửthuộcV ượcđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật xemnhưlàcácđỉnhcủađồthịvàcácphần thuộcE ượcđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật xemlàcáccạnh(haymốiquanhệgiữacácđỉnh).Tươngtự,bấtkỳmối quanþtrên một tập con mờƒ(x, y)của một tậpVcó thể được xem như định nghĩa đồ thị có trọng số, hay đồ thị mờ, ở đó cạnh(x,y)∈ V × Vcó trọng sốþ(x,y)∈[ 0 , 1 ]. Địnhnghĩa1.6.[40]Mộtđồthịmờ(FG)G=(ƒ(x, y),þ)trênmộtđồthịG ∗ =(V,E) gồmmộttậpkhôngrỗngVvớihaihàmthuộcƒ(x, y):V→[0,1]vàþ:E→[0,1]saocho: þ(xy)≤ƒ(x, y)(x)∧ƒ(x, y)(y), ∀x,y∈V (1.9) trong đó,∧là phép toánMin. Địnhnghĩa1.7.[42]MộtcấutrúcđồthịG ∗ =(V,E1,E2,…,Ek)gồmmộttậpđỉnhVkhông rỗng và các quan hệE1,E2, … ,Ektrên V rời nhau sao cho mỗiEi,1 ≤ i ≤k,là đối xứng và không phản xạ Nếu(x,y)∈Eivới1 ≤ i ≤ kthì nó được gọi làEi- cạnh và được viết làxy.
Khái niệm về cấu trúc đồ thị mờ (FGS) được Dinesh và cộng sự giới thiệu năm 2011[43-44].Nólàmộtsựkếthợpcủađồthịmờvàcấutrúcđồthị[42].Cấutrúcđồ thịmờsauđóđượccácnhómnghiêncứucủaHarinath[45],Akram[46-48],vàTalebi
[49]tiếptụcnghiêncứu,đềxuấtcácphéptoánvàứngdụngtrongnhiềulĩnhvựckhác nhaunhưvănhọc,khoahọcmôitrường,khoahọcxãhội,địalývàngônngữhọcbên cạnh nhiều lĩnh vực truyền thốngkhác. Địnhnghĩa1.8.[44]G=(ƒ(x, y),þ1,þ2,…,þk)đượcgọilàmộtcấutrúcđồthịmờ
(FGS)củađồthịG ∗ =(V,E1,E2,…,Ek)vớiƒ(x, y),þ 1 ,þ2,…,þklàlầnlượtcáctậpmờcủaV,E 1 ,E2,
…,Eksaochoþi(xy)≤ƒ(x, y)(x)∧ƒ(x, y)(y),∀x,y∈Vvà1≤i≤k.Chúýrằng, nếuxy ∈ supp(þi)thìxyđược gọi làþ i -cạnh củaG,1 ≤ i ≤ k.
Đồ thị tri thức, đồ thị trithứcmờ
Đồ thị tri thức (KG) được Google giới thiệu lần đầu vào năm 2012 [21] Với sự ra xuất hiện của các nguồn dữ liệu mở từ mạng xã hội (như Facebook, Twitter,Instagram,Youtube,v.v.)cũngnhưdữliệuchínhphủmở,nhucầukhaithácthôngtin ngàycàngtăngcaonhằmmụcđíchquảnlýmộtcáchhiệuquảhơn.Điềunàydẫnđến sựthôithúcnghiêncứubiểudiễntrithứcdựatrênđồthịtrithức.Gầnđây,KGđã nhận được sự chú ý của cộng đồng nghiên cứu và được ứng dụng vào nhiều lĩnh vực khácnhaunhưmáytìmkiếm,họcmáy,hệtưvấn,v.v.KGđượccoinhưmộtmôhình mạngbaogồmcácnút(tươngứngvớicácthựcthểhaythuộctính)vàcáccạnh(tương ứngvớimốiquanhệgiữacácthựcthểhaythuộctính).KGcũngđượcứngdụngnhiều trong lĩnh vực y tế [6, 11-12] và một số lĩnh vực khác [4-8, 13, 16] Tuy nhiên, KG cũng có một số hạn chế về phạm vi và kích thước của đồ thị Hiện nay, Neo4j đang nổi lên là một trong những công cụ rất mạnh để lưu trữ và biểu diễn tri thức dựa trên đồ thị (Hình 1.2) Nó phù hợp để giải quyết các bài toán liên quan đến dữ liệu lớn được thu thập từ nhiều nguồn dữ liệu khác nhau và không đồngnhất.
Hình 1.2.Minh họa đồ thị tri thức [21].
MụcđíchchínhcủaKGlànhằmphântíchđượctốiđahóagiátrịcủatrithức,phát hiện và tránh được lỗi, đồng thời có thể suy diễn ra được kết luận mới từ những dữ liệuđãcó.Việclựachọnbiểudiễnthựcthểmớivàmốiquanhệgiữachúngthôngqua mô hình KG có thể thu được nhiều thông tin hữu ích và có thể hỗ trợ nhiều hơn đối vớicácứngdụngthựctế.ChínhvìlýdonàymàKGđượccộngđồngcácnhàkhoa học nghiên cứu, đề xuất và ứng dụng trong nhiều bài toán thực tế, đặc biệt trong các mô hình có suy diễn xấp xỉ KG có thể được xem như “một đồ thị về dữ liệu vớimục đích tổng hợp tri thức” [22] hay “thu nhận và tích hợp thông tin vào trong một đồ thị và áp dụng phương pháp suy diễn để tạo ra tri thức mới” [23] Nó được xem là một kỹ thuật mạnh hỗ trợ xử lý các hệ thống hỗ trợ ra quyết định Nó có thể kết hợp với cáckỹthuậtkhácđểtìmranhãncủacácmẫumới.Tuynhiên,đồthịtrithứcgặpphải khó khăn trong việc biểu diễn tri thức và suy diễn xấp xỉ dựa trên các tập dữ liệu đầu vàocóthôngtinkhôngrõràng(chẳnghạncácdữliệutriệuchứngtrongytếtheobiên độ hoặcpha).
Gần đây, đồ thị tri thức mờ (FKG) đã được đề xuất vào năm 2020 [3] nhằm giải quyết những hạn chế của đồ thị tri thức trong việc biểu diễn tri thức và suy diễn xấp xỉdựatrêncáctậpdữ liệuđầuvàocóthôngtinkhôngrõrànghoặcchưađầyđủbằng cách sử dụng các nhãn ngôn ngữ cho các thuộc tính trong tập huấn luyện kết nối với các nhãn đầu ra FKG được xây dựng với các đỉnh biểu diễn các nhãn ngôn ngữ và cáccạnhđượcbiểudiễnbằngđườngnốigiữacácnhãnngônngữvànhãnđầura.FKG thể hiện sự suy diễn thông qua quy luật tự nhiên ở đó tác động của nhãn ngôn ngữcó khảnăngtạoranhãnđầuratươngứng.Chẳnghạn,sựlựachọn“đichơi”bịảnhhưởng với nhãn ngôn ngữ“High”của thuộc tính“ánh nắng mặt trời”với xác suất là 80% Trong trường hợp này, một luật mờ được biểu diễn như sau: IF trời nắng là“High”THEN đi chơi” với độ tin cậy của luật là 80% Bằng cách tích lũy các sự kiện đơn lẻ (hay các cặp đơn trong FKG), kết quả đầu ra cuối cùng của một mẫu mới được xác định Về mặt hình thức, FKG cũng giống với KG, ở đó các đỉnh biểu diễn nhãn của các thuộc tính, cũng như các nhãn đầu ra; các cạnh biểu diễn mối quan hệ giữa các đỉnh Hình 1.3 là một hình ảnh minh họa đơn giản về đồ thị tri thứcmờ.
Trong [3], FKG sử dụng cặp đơn bằng cách áp dụng thuật toán FISA để tìmnhãn đầu ra của các mẫu mới dựa vào kết quả tính toán trọng số của các cạnh nối giữacác i i
Nhãn đầu ra Đồ thị tri thức mờ (FKG) Suy diễn xấp xỉ nhãncủacácthuộctính(∑A t )vàtrọngsốcủacáccạnhnốitừcácnhãncủacácthuộc tínhđếnnhãnđầura(∑B t )bằngcáchápdụnglầnlượtcáccôngthức(1.10)và(1.11).
Hình 1.3.Minh họa đơn giản về đồ thị tri thức mờ [3].
A t |Xiquan ℎệ với Xjtrong luật t| (1.10) ij |R| trongđót=1,k,1≤i€j≤N,và
|Xiquanℎệvớinℎãnltrongluậtt| (1.11) iS ij |R| trongđót=1,k,1≤i€j≤N,l=1,C.
Sau khi tính toán các bộ trọng sốA, B, thuật toán FISA được áp dụng để tìm nhãn đầu ra tương ứng với từng luật mờ theo các bước như sau:
To án tử Mi n- M ax i i Đầu tiên, các giá trị ngôn ngữ tương ứng với mỗi nhãn trong từng luật trên đồ thị tri thức mờ được tính toán theo công thức (1.12).
Sau đó, với giá trịB t biểu diễn mối quan hệ giữa thuộc tínhaivới nhãn ầuđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật ral.ÝtưởnggánnhãncủathuậttoánFISAdựatrênkháiniệmsuydiễnxấpxỉ,điềuđócó nghĩa là các giá trị ngôn ngữ của từng bản ghi mới trong tập dữ liệu kiểm tra được tínhtoánsuydiễntheotừngthuộctínhtươngứngtrongđồthịFKG,vớimụcđíchtìm ra nhãn tương ứng phù hợp nhất Với mỗi bản ghi thì nhãn tương ứng với từng luật được tính bởi toán tử MAX-MIN trong công thức (1.13) nhưsau:
Cuốicùng,nhãnđầuracuốicùngcủabảnghimớiđượcxácđịnhbởitoántửMAX theo quy tắc trong công thức (1.14) dướiđây:
Nhãn ầuđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật ra=p⟺Dp=MAXS=¯1¯,¯C¯(DS) (1.14)
Với việc áp dụng thuật toán FISA, mô hình M-CFIS-FKG đã cải thiện hiệu năng của hệ thống về thời gian tính toán so với mô hình M-CFIS-R [35].
Như vậy, FKG đã được tích hợp thành công với hệ suy diễn mờ phức dạng Mamdani (M-CFIS) để giải quyết các bài toán ra quyết định với dữ liệu đầu vàobiến thiên (chẳng hạn, dữ liệu thay đổi theo biên độ hoặc theo chukỳthời gian) Mô hình M-CFIS-FKG đã kế thừa từ M-CFIS [34] được giới thiệu vào năm 2019 và mô hình M-CFIS-R [35] được giới thiệu vào năm 2020 Trong các mô hình này (M-CFIS, M- CFIS-R, M- CFIS-FKG), dữ liệu tập kiểm tra được kiểm tra bằng việc khớp từng luật trong cơ sở luật mờ Trong các trường hợp cơ sở luật mờ thiếu luật để khớp với mẫu mới cần kiểm tra, FKG được sử dụng để suy diễn xấp xỉ Tuy nhiên, FKG được đề xuất trong mô hình M-CFIS-FKG chỉ sử dụng các cặp thuộc tính đơn lẻ nên không thể giải quyết hiệu quả bài toán ra quyết định trong các trường hợp tập dữ liệu có thông tin thuộc tính đầu vào chưa đầy đủ hoặc cơ sở luật mờ còn thiếu trithức.
Kỹthuật Q-learning trong họctăngcường
Học tăng cường thuộc lớp phương pháp học máy, nhưng có sự khác biệt với các phươngpháphọccógiámsátvàhọckhônggiámsát[50].Sựkhácnhaugiữahọctăng cường với các phương pháp học khác được hiểu như sau:
Học có giám sát là học từ một tập huấn luyện bao gồm các mẫu đã được gán nhãnbởicácchuyêngiavàxácđịnhtrướcmộthànhđộngtốtđểthựchiện,trong khi học tăng cường vẫn chưa xác định được hành động nào là tối ưu nhất cho đến khi quá trình học kếtthúc.
Học không giám sát là quá trình học để phát hiện cấu trúc ẩn trong các tập dữ liệu chưa được gán nhãn, trong khi học tăng cường là nhằm tối đa hóa một tín hiệu phần thưởng thay vì cố gắng phát hiện cấu trúcẩn.
Q-learning là mộtkỹthuật trong học tăng cường được ứng dụng hiệu quả đối với lớpbàitoánhỗtrợraquyếtđịnh.Nóđượcápdụngmộtcáchphổbiếntrongnhiềulĩnh vực khác nhau (đặc biệt trong các bài toán hỗ trợ ra quyết định) [51-58] Chẳng hạn, Q- learningđượcápdụngđểtốiưuhóanguồntàinguyên(vídụphânbổcáctàinguyên nhưbộvixửlýCPU,bộnhớRAM,ổđĩacứngHDD)trongcáctrungtâmdữliệugóp phần giải quyết bài toán điều chỉnh nguồn tài nguyên tự động trong điện toán đám mây [51] Nó cũng được sử dụng để tối ưu hóa thời gian sạc của các cảm biến vàxác định vị trí sạc tiếp theo nhằm duy trì tối đa thời gian sống của mạng cảm biến không dây Điềunàyđã góp phần giải quyết bài toán sạc cảm biến theo nhu cầu trongmạng cảm biến không dây thay vì sạc theo chukỳ[52, 54] Tư tưởng chính của Q-leaning là để đạt được mục tiêu cụ thể dựa trên kinh nghiệm học từ quá khứ Trong [52], khung Q-learning chuẩn bao gồm bốn thành phần: môi trường, một hoặc nhiều tác nhân, không gian trạng thái và không gian hành động như thể hiện trong Hình1.4.
GiátrịQ-valuethểhiệnđộtốtxấpxỉcủahànhđộngcóliênquanđếnmụctiêucủa tác nhân.Một tác nhân lựa chọn các hành động theo chính sách và giá trị Q-value.Saukhithựchiệnmộthànhđộng,tácnhânđiềuchỉnhchínhsáchđếnđạtđượcmục tiêu của nó Giá trị Q-value được cập nhật bằng cách áp dụng phương trình Bellman theo công thức (1.15).
Hình 1.4.Tổng quan các thành phần của Q-learning [52].
Q(St,At)←(1−α)Q)Q(St,At)+α)Q[Rt+ymaxQ(St+1,a)−Q(St,At)] (1.15) a trong đó:Q(St, At)là giá trị Q-value của hành độngAtở một trạng tháiStđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luậtã cho.Rt là phần thưởng nhận được nếu thực hiện hành độngAttrong trạng tháiSt Hơn nữa, max Q(St+1, a)là giá trị Q-value lớn nhất có thể trong trạng thái kế tiếpSt+1được thay bởi một hàm của các biến đầu vào thì sẽ thu được luậtối với a tất cả hành động(a) Các tham sốα)Qvàylần lượt gọi là tốc độ học và hệ số phần thưởng tương lai Giá trị của chúng nằm trong khoảng (0,1).
Phântích ANOVA
Kỹ thuật kiểm định ANOVA là mộtkỹthuật thống kê tham số được sử dụng khi nghiên cứu ảnh hưởng của các biến độc lập đối với biến phụ thuộc trong nghiên cứu hồiquy.KỹthuậtnàyđượcpháttriểnbởiRonaldFishernăm1918[59].Hailoạiphân tích ANOVA được sử dụng phổbiến:
Thứ nhất, phân tích ANOVA một yếu tố (one-way ANOVA) [60] là một loại thử nghiệm thống kê so sánh phương sai chỉ xem xét một yếu tố hoặc một biến độc lập. Phương sai một yếu tố so sánh từ ba nhóm trở lên để xác định xem có sự khác biệt giữachúnghaykhông.Trongmỗinhómnêncóbahoặcnhiềuquansátcácmẫuđược so sánh. Chẳng hạn, phân tích ANOVA một yếu tố có thể được sử dụng để tìm hiểu liệuhiệusuấtkiểmtracókhácnhauhaykhôngdựatrênmứcđộlolắnggiữacácsinh viên(chẳnghạnchiasinhviênbịcăngthẳngthànhbanhómđộclập:thấp,trungbình vàcao).
Thứ hai, phân tích ANOVA hai yếu tố (two-way ANOVA) [61] là một phần mở rộng của phân tích phương sai một yếu tố Nó sẽ có hai biến độc lập ảnh hưởng đến biến phụ thuộc và kiểm tra sự ảnh hưởng của hai biến độc lập đó lên biến phụ thuộc cùngmộtlúc.Chẳnghạn,phântíchANOVAhaiyếutốđượcsửdụngđểtìmhiểuliệu cósựtươngtácgiữagiớitínhvàtrìnhđộhọcvấnđốivớisựlolắngkiểmtragiữacác sinh viên(trong đó giới tính và trình độ học vấn là các biến độc lập, và kiểm tra lo lắng là biến phụthuộc).
Bộ dữ liệu thực nghiệm
Trong quá trình thực nghiệm, sáu bộ dữ liệu lấy từ kho dữ liệu học máy UCI [62-
65] đã được sử dụng Thông tin chi tiết về các bộ dữ liệu và biểu đồ phân bố dữ liệu của từng bộ dữ liệu được hiển thị lần lượt trong Bảng 1.1 và Hình 1.5.
Bảng 1.1.Các bộ dữ liệu thực nghiệm chuẩn UCI [62-65].
TT Tên bộ dữ liệu Số mẫu
Bộ dữ liệu bệnh tiểu đường có hai nhãn đầu ra: Label 0 - Bình thường; Lable 1 - Tiểu đường.
Bộ dữ liệu bệnh ung thu vú có hai nhãn đầu ra: Label 2 - Bình thường; Label 4 - Ung thư.
Bộ dữ liệu bệnh gan có hai nhãn đầu ra: Label 0 - Bình thường; Label 1 - Viêm gan.
Bộ dữ liệu chất lượng rượu có sáu nhãn đầu ra được đánh số từ Label
3 đến 8 theo thang điểm từ 0 đến10 (0 - rất tệ; 10 - rất tuyệt).
Bộ dữ liệu hình ảnh tim thai và cơn co tử cung có mười nhãn đầu ra: Label 1 - Giấc ngủ ngon; Label
2 - Giấc ngủ REM; Label 3 - Chứng mất ngủ; Label 4 - Thường xuyên mất ngủ; Label 5 - Nghi ngờ bị chứng mất ngủ; Label 6 - Tình trạng căng thẳng; Label 7 - Kích thích phế vị; Label 8 - Thường xuyên kích thích phế vị; Label 9 - Trạng thái bệnh lý;Label
Bộ dữ liệu rối loạn nhịp tim có mười ba nhãn đầu ra: Label 1 - Bình thường; Label 2 - Bệnh động mạch vành; Label 3 - Nhồi máucơ tim thành trước; Label 4 - Nhồi máu cơ tim thành dưới; Label 5 - Nhịp xoang nhanh; Label 6 - Nhịp xoang chậm; Label 7 - Ngoại tâm thu thất;Label 8 - Nhịp nhanh thất; Label 9 -Block nhánh trái; Label 10 - Block nhánh phải; Label 14 - Phì đại tâm thất trái; Label 15 - Rung nhĩ hoặc cuồng nhĩ; Label 16 - Khác.
Hình 1.5.Biểu đồ phân bố dữ liệu của sáu bộ dữ liệu chuẩn UCI.
Trongthựcnghiệmvídụsốminhhọavàcàiđặtchươngtrìnhphầnmềmmôphỏng chẩn đoán dấu hiệu tiền sản giật ở phụ nữ thai kỳ, bộ dữ liệu được thu thập tại Bệnh việnPhụsảnTrungươngdựatrênhồsơbệnháncủabệnhnhânđểmôphỏngmôhình đề xuất FKG- Pairs tại chương 2 Bộ dữ liệu về các sản phụ được bác sĩ theo dõi và chỉ định làm xét nghiệm để chẩn đoán liệu sản phụ có bị tiền sản giật hay không? Từ đó bác sĩ có thể đưa ra chỉ định yêu cầu theo dõi chặt chẽ đối với sản phụ trong suốt thời gian còn lại của thaikỳđể hạn chế tối đa biến chứng đối với sản phụ và thainhi Bộ dữ liệu (BN-TienSanGiat) được sử dụng để thực nghiệm mô phỏng phương pháp FKG-Pairs gồm210sản phụ đến khám định kì theo dõi thai nhi với 19 chỉ số kiểm tra,theodõinhưBảng1.2(trongđó,theokếtluậnchẩnđoáncó118sảnphụthaibình thường, 60 sản phụ có dấu hiệu tiền sản giật và 32 sản phụ bị tiền sản giậtnặng).
Bảng 1.2.Các thuộc tính dữ liệu đầu vào bộ dữ liệu bệnh nhân tiền sản giật.
TT Tên thuộc tính Miền giá trị
1 Tuổi của sản phụ 18 - 66 tuổi
2 Nghề nghiệp của sản phụ Công nhân, Dược sĩ, Bác sĩ,
Giáo viên, Kế toán, Nội trợ…
3 Tuổi của thai nhi 15 - 40 tuần
4 Số lần mang thai 0 - 9 lần
5 Chiều cao của sản phụ 1.40 - 1.90 m
6 Cân nặng của sản phụ 45 - 95 kg
13 Chỉ số ACID URIC 150 - 350mol/L
16 Chỉ số PROTEIN toàn phần 64 - 83 g/L
Kết quả Nhãn đầu ra (kết luận chẩn đoán)
0: Bình thường1: Tiền sản giật2: Tiền sản giật nặng
Ngoài ra, để tiến hành mô phỏng bài toán phân loại, hỗ trợ ra quyết định trong trườnghợpcựcđoantheocáchtiếpcậnFKG-Extremetrìnhbàytạichương3,dữliệu từ3652bệnhnhântạiBệnhviệnĐakhoatỉnhĐiệnBiệnđượctổnghợpvới15chỉsố kiểm tra như Bảng 1.3 (trong đó có 2063 bệnh nhân được kết luận chẩn đoán bình thường, còn lại là được chẩn đoán bị bệnh thậnmạn).
Bảng 1.3.Các thuộc tính dữ liệu đầu vào bộ dữ liệu bệnh thận mạn.
TT Tên thuộc tính Miền giá trị
12 Chỉ số Protein toàn phần 29 - 565.31 g/L
Kết quả Nhãn đầu ra (kết luận chẩn đoán) 0: Bình thường
1.7.3 Phương pháp đánh giá thực nghiệm Để đánh giá hiệu năng của phương pháp đề xuất, các độ đo được sử dụng để đánh giá độ chính xác và thời gian tính toán, cụ thể như sau:
- Độ chính xác: là tỷ lệ giữa số mẫu được phân loại đúng trên tổng số mẫu thực hiện, được tính theo công thức(1.16). trong đó: Độ cℎínℎxácTP +TN
TP (True Positive): Dương tínhthật.
TN (True Negative): Âm tínhthật.
FP (False Positive): Dương tínhgiả.
FN (False Negative): Âm tínhgiả.
- Thời gian tính toán: là tổng thời gian thực hiện (đơn vị tính: giây) của hệ thống phânloại.
- Ngoài ra, một số độ đo khác (chẳng hạn Precision, Recall và F1-Score) cũng có thể được sử dụng để đánh giá độ chính xác của phương pháp đề xuất trong các bài toán phân lớp, cụ thể nhưsau: trong đó:
Precision:làtỷlệgiữasốmẫudươngtínhthậtđượcmôhìnhdựbáo(TP) trên tổng số mẫu dương tính thật và dương tính giả(TP + FP).
Recall: là tỷ lệ giữa số mẫu dương tính thật được mô hình dự báo(TP)trên tổng số mẫu dương tính thật và âm tính giả(TP +FN).
F1-Score: là tỷ lệ trung bình hài hòa giữa Precison vàRecall.
Kết luậnChương1
Chương này đã trình bày một số khái niệm về lý thuyết tập mờ và các hệ suy diễn mờ Các kiến thức cơ bản về đồ thị mờ, cấu trúc đồ thị mờ, đồ thị tri thức, đồ thị tri thứcmờ,kỹthuậtQ-learningvàphântíchANOVAlàmcơsởnềntảngđểnghiêncứu pháttriểnđềxuấthaimôhìnhlýthuyếtnhằmgiảiquyếtcácbàitoánphânloại,hỗtrợ raquyếtđịnhđượctrìnhbàychitiếttạicácchươngtiếptheo.Ngoàira,cácbộdữliệu sửdụngtrongcácthựcnghiệmphòngthínghiệm,xâydựngứngdụngmôphỏngthực tế và phương pháp đánh giá thực nghiệm cũng được trình bày tại chươngnày.
Trên cơ sở những kiến thức lý thuyết nền tảng và các bộ dữ liệu đã được nghiên cứu và chuẩn bị sẵn sàng như đã trình bày trong chương này, các kết quả nghiên cứu chính của luận án được trình bày chi tiết trong các chương tiếp theo Cấu trúc các chươngchínhcònlạicụthểnhưsau:MôhìnhđồthịtrithứcmờdạngcặpFKG-Pairs tronghỗtrợraquyếtđịnhđượctrìnhbàytạichương2.Chương3đềxuấtmôhìnhđồ thịtrithứcmờdạngcặpraquyếtđịnhtrongtrườnghợpcựcđoanFKG-Extreme.Các kếtquảcàiđặtmôphỏngứngdụngcácmôhìnhlýthuyếtứngdụngtronghỗtrợchẩn đoán bệnh dựa trên các dữ liệu triệu chứng trong y học được trình bày ở cuối mỗi chương 2 và chương3.
MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP FKG-PAIRS TRONG HỖ TRỢ RAQUYẾTĐỊNH
Phát biểubàitoán
Gần đây, đồ thị tri thức mờ (FKG) đã được đề xuất vào năm 2020 [3] nhằm giải quyết những hạn chế của đồ thị tri thức trong việc biểu diễn tri thức và suy diễn xấp xỉdựatrêncáctậpdữ liệuđầuvàocóthôngtinkhôngrõrànghoặcchưađầyđủbằng cách sử dụng các nhãn ngôn ngữ cho các thuộc tính trong tập huấn luyện kết nối với các nhãn đầu ra Trong các trường hợp cơ sở luật mờ thiếu luật để khớp với mẫumới cần kiểm tra,FKG được sử dụng để suy diễn xấp xỉ và tìm nhãn đầu ra của các mẫu mới, khắc phục được hạn chế của mô hìnhM-CFIS-R [35] Tuy nhiên, FKG đượcđề xuấttrongmôhìnhM-CFIS-FKG[3]chỉsửdụngcáccặpthuộctínhđơnlẻnêngiải quyết chưa hiệu quả bài toán phân lớp dữ liệu trong trường hợp tập dữ liệu đầu vào chưa đầy đủ Để vượt qua hạn chế của các mô hình tương tự mới nhất hiện nay dựa trênhệsuydiễnmờ(chẳnghạnnhưFIS,M-CFIS-R,M-CFIS-FKG),môhìnhđềxuất FKG-Pairs được đề xuất với mục tiêu chính là cải thiện hiệu năng của hệ thống về mặt độ chính xác, nhằm đáp ứng yêu cầu của bài toán trong thựctế.
Cácyêucầucụthểcủabàitoántổngquáttrìnhbàyởphầnnàyđượcphátbiểunhư sau: Đầuvào:Giảsửcócơsởluậtmờđượcđưarasaukhiápdụngmộtcơchếsinhluật(chẳngh ạnFIShoặcM-CFIS)nhưBảng2.1,ởđóa˜1,a˜2,…,a˜N –1,a˜Nlàcácthuộctínhcủatậpdữliệu.
Bảng 2.1.Cơ sở luật mờ.
R1 Higℎ Higℎ … Very Higℎ Higℎ 1
Rn-1 MediuN MediuN … MediuN MediuN 2
Rn Low MediuN … Low Low 3
Một mẫu mới có thể được biểu diễn theo dạng của luật như sau:
IFa˜1là"Low"vàa˜2là"Low”vàa˜3là"Higℎ"vàa˜4là"VeryHigℎ"vàa˜5là
"Low"và…vàa˜m–1là"Higℎ"vàa˜mlà"Low"THENnhãnđầuralàgì? Đầu ra:Nhãn đầu ra của mẫu mới. Để thuận tiện cho việc đọc các nội dung trình bày trong chương này, các ký hiệu đã sử dụng trong chương 2 được đưa ra tại Bảng 2.2. ij… ij…
Bảng 2.2.Danh mục các ký hiệu.
Cácký hiệu Giảithích Thamchiếu n,m, C Số luật, số thuộc tính, số nhãnđầura Bảng2.1
L,M,H Các nhãn ngôn ngữ (chẳng hạn,L1là “Low1”, M2là
“Medium2”, H3là“High3”) Bảng 2.3 a˜ i Thuộctínhthứithcủamỗiluật(i=1, N ) Côngthức(2.1) và (2.2)
Công thức (2.1) trong luật thứ t (Rt).
B˜ t Trọngsốcủacáccạnhnốitừcácđỉnhđếnnhãnđầura Công thức (2.2) trong luật thứ t (Rt).
|R| Sốlượngluật Công thức(2.1)và(2.2) C˜ ij…kS Tổngtrọngsốcủacạnhnốitừcácsiêuđỉnhđếnnhãnđầu Công thức (2.4) k ∗ Giá trị tốt nhất đối với cặpk ∗ đượcxác định bằng cách áp dụng hàm(¥)(k ∗ = 1,k).
Công thức (2.7) Đểgiảiquyếtbàitoánđãđượcphátbiểuởtrên,ýtưởngchínhcủamôhìnhđềxuất đượctrìnhbàytómtắtnhưsau:Xuấtpháttừtậpdữliệuđãsẵnsàngsaukhithựchiện hoàn thành giai đoạn tiền xử lý, mô hình đề xuất biểu diễn đồ thị FKG-Pairs trênt ậ p ra.
D˜ S Giá trị thuộc được tính bằng cách áp dụng toán tử Max-
ℱ(k) Hàm giá trị được tính dựa vào các tham số độ chính xác và thời gian tính toán.
Acc(k) Độ chính xác của phương pháp FKG cặpk(đơn vị tính: Công thức (2.7)
TiNe(k) Thời gian tính toán của phương pháp FKG cặpk(đơn vị Công thức (2.7) tính: giây). α)Q (k) Siêu tham số về độ chính xác(Acc(k)) Công thức (2.8) þ (k) Siêuthamsốvềthờigiantínhtoán(TiNe(k)) Công thức (2.9) k Giá trị cận trên đối với cặpkđược xác định bằng cách áp Công thức (2.3) dụngđiềukiệndừng(k=1, N ). dữ liệu huấn luyện và gán nhãn cho các mẫu mới trên tập dữ liệu kiểm tra Do vậy, mô hình đề xuất được chia thành một số bước như sau:
Đầu tiên, cơ chế sinh luật được áp dụng để thu được cơ sở luật mờ từ tập dữ liệu huấnluyện.
Tiếp theo, đồ thị FKG-Pairs được biểu diễn sau khi tính toán bộ trọng số của các cạnh nối giữa các nhãn của các thuộc tính và trọng số của các cạnh nối từ các siêu đỉnh đến nhãn của đầu ra của các luật trong tập dữ liệu huấnluyện.
Cuối cùng, thuật toán FKG-Pairs được áp dụng để gán nhãn cho các mẫu mới trong tập dữ liệu kiểm tra.
Trong các phần tiếp theo, ba giai đoạn trong mô hình đề xuất và các kết quả thực nghiệm minh họa mô hình lý thuyết với trường hợp cặp đôi (FKG-Pairs2) sẽ được trình bày chi tiết.
MôhìnhFKG-Pairs
Trong phần này, mô hình đề xuất được trình bày để minh họa các giai đoạn từ khi nhận mẫu mới đến khi gán nhãn cho nó Mô hình đề xuất được chia thành ba giai đoạn, bao gồm: giai đoạn tiền xử lý, giai đoạn biểu diễn đồ thị FKG-Pairs, và giai đoạn suy diễn xấp xỉ Mô hình đề xuất FKG-Pairs được minh họa trong Hình 2.1.
Giai đoạn tiền xử lý là một trong ba giai đoạn của mô hình đề xuất Sau khi thu thập dữ liệu, các dữ liệu đầu vào được tiến hành mờ hóa bằng cách sử dụng các biến ngônngữ.Sauđó,mộtcơchếsinhluậtđượcápdụngđểsinhluật(chẳnghạnFIShoặc M- CFIS).KếtquảcủagiaiđoạnnàylàmộtcơsởluậtmờđượchiểnthịnhưBảng2.1 và sẽ được sử dụng để xây dựng đồ thị tri thức mờ dạng cặp ở giai đoạn tiếptheo.
2.2.2 Giai đoạn xây dựng đồ thịFKG-Pairs
Từ cơ sở luật mờ trình bày tại Bảng 2.1, một số bước dưới đây được thực hiện để tính bộ trọng số của các cạnh và biểu diễn đồ thị FKG-Pairs, cụ thể là:
Hình 2.1.Mô hình đề xuất đồ thị tri thức mờ dạng cặp FKG-Pairs. ij… ij… ij… ij…
Từcơsởluậtmờcủatậphuấnluyện,côngthức(2.1)đượcápdụngđểtínhbộtrọngsốcủacáccạnh nốigiữacácđỉnhlànhãncủacácthuộctính(A˜ t )trongluậtt(Rt).
Sau khi tìm được bộ trọng số của các cạnh nối giữa các đỉnh là nhãn của cácthuộctính(A˜ t ),bộtrọngsốcủacáccạnhnốitừsiêuđỉnh(đỉnhkếthợpbởikthuộc tính đầu vào) đến đỉnh nhãn đầu ra trong luật t(R t )được tính toán bằng cách áp dụng công thức (2.2).
, |a˜ j →StrongSuậ tt | ij…kS ij… ,⋯, k+1 |R|
Một câu hỏi đặt ra với phương pháp đề xuất là làm thế nào để giảm thời gian tínhtoánbộtrọngsốcủacáccạnhtrongđồthịFKG-Pairs(A˜ t) ?Đểgiảiquyếtvấnđề này, một điều kiện dừng được đề xuất để tìm giá trị cận trên(k)bằng cách áp dụng công thức (2.3).
Bước 3.Biểu diễn đồ thị tri thức mờ dạng cặpktừ cơ sở luật mờ với các bộ trọng sốA˜ t vàB˜ t ij…k+1 ij…kl Đồthịtrithứcmờdạngcặpđượcxâydựngdựatrêncơsởluậtmờđượcsinhratừtậph u ấn l u yệnđ ố ivớit ừngl uậtRt,t rongđ ót=1,n.Vớimỗis iêuđ ỉ n h cód ạ n g(a˜i→a˜j→⋯
→a˜k),1≤i30kg/m 2 ),tiềnsửgiađình TSG (mẹ hoặc chị em), mẹ trên 35 tuổi, đặc điểm xã hội (điều kiện kinh tế xã hội thấp),tiềnsửmangthainhẹcân,kếtquảthaikỳbấtlợi,khoảngcáchgiữa02lầnmang thai trên 10 năm.
- Nguy cơ thấp (Bình thường):Tiền sử sinh đủ tháng, không biếnchứng.
2.5.5 Kết quả càiđặt a) Môi trường thực nghiệm Để tiến hành thực nghiệm, ngôn ngữ Python 3.10 đã được cài đặt trên máy tính xách tay (ASUS Intel(R) Core (TM) i5-8300U CPU @ 2.30GHz) Tập dữ liệu (BN- TienSanGiat) được sử dụng để thực nghiệm gồm210sản phụ đến khám định kì theo dõithainhivới19chỉsốkiểmtra,theodõinhưBảng2.2(trongđó,theokếtluậnchẩn đoán có 118 sản phụ thai bình thường, 60 sản phụ có dấu hiệu tiền sản giật và 32 sản phụ bị tiền sản giậtnặng). b) Kịch bản thựcnghiệm
Trướckhitiếnhànhhuấnluyệnmôhìnhchẩnđoánbệnhtiềnsảngiậttheocáckịch bản thực nghiệm, một số công việc trong giai đoạn tiền xử lý cần được thực hiện, cụ thể như sau:
Tìmhiểucácthôngtincơbảnvềbệnhtiềnsảngiật(chẳnghạncáctriệuchứng, phân loại bệnh tiền sản giật, nguyên tắc sàng lọc, mức độ nguy cơ,v.v.).
Thu thập và số hóa dữliệu.
Sử dụng ý kiến chuyên gia để xây dựng thang đo đối với từng triệuchứng.
Thống nhất cách sử dụng các biến ngônngữ.
Sử dụng ý kiến chuyên gia để loại bỏ các nhiễu và làm sạch bộ dữliệu.
Thực hiện một số phép toán thống kê cơ bản (chẳng hạn Max, Min, Average, Count,v.v.)trênbộdữliệuđểhiểubiếtvàkiểmchứngđộtincậycủacácthông tin đã thu thậpđược.
Saukhithựchiệncáccôngviệctronggiaiđoạntiềnxửlý,bakịchbảnthựcnghiệm đượcthiếtkếđểtiếnhànhxâydựngmôhìnhchẩnđoánbệnhtiềnsảngiậtdựatrênđồ thị tri thức mờ dạng cặp ba (FKG-Pairs3), cụ thể nhưsau:
Kịch bản 1: chia bộ dữ liệu thành hai phần (tập huấn luyện (70%) và tập kiểm tra (30%)) và sử dụng phương pháp lấy mẫu ngẫu nhiên có hệthống.
Kịch bản 2: chia bộ dữ liệu thành hai phần (tập huấn luyện (10%) và tập kiểm tra (90%)) và sử dụng phương pháp lấy mẫu ngẫu nhiên có hệthống.
Kịchbản3:chiabộdữliệuthànhhaiphần(tậphuấnluyện(5%)vàtậpkiểmtra (95%)) và sử dụng phương pháp lấy mẫu ngẫu nhiên có hệthống. c) Kết quả thựcnghiệm
Sau khi tiến hành thực nghiệm, kết quả về mặt độ chính xác và thời gian tính toán của mô hình hỗ trợ chẩn đoán bệnh tiền sản giật dựa trên phương pháp FKG-Pairs3 theo ba kịch bản được hiển thị lần lượt trong các Hình 2.7 và Hình 2.8.
Hình 2.7.Biểu đồ so sánh độ chính xác của các kịch bản.
Hình 2.8.Biểu đồ so sánh thời gian tính toán của các kịch bản.
KếtquảhiểnthịtrongHình2.7chothấy,độchínhxáccủakịchbản1(vớitậphuấn luyện(70%)vàtậpkiểmtra(30%))caohơnđángkểsovớiđộchínhxáccủahaikịch bản còn lại. Chẳng hạn, độ chính xác của kịch bản 1 cao hơn độ chính xác của kịch bản 2 và 3 lần lượt là15.44%và18.31% Điều này chứng tỏ rằng với cùng phương pháp lấy mẫu, hiệu năng của hệ thống về mặt độ chính xác phụ thuộc vào số lượng mẫu trong tập huấn luyện Số lượng mẫu trong tập huấn luyện càng lớn thì độ chính xác càngcao.
Tuy nhiên, kết quả hiển thị trong Hình 2.8 cũng cho thấy rằng thời gian tính toán của kịch bản 1 cao hơn rất nhiều so với hai kịch bản còn lại Cụ thể là, thời gian tính toán của kịch bản 1 cao hơn khoảng20 lầnso với kịch bản 2 và khoảng gần50 lầnso với kịch bản 3 Điều này chứng tỏ rằng với cùng phương pháp lấy mẫu, phương phápchiabộdữliệusẽgópphầncảithiệnđángkểhiệunăngcủahệthốngvềmặtthời gian tínhtoán.
Kết luậnChương2
Trong chương này, kết quả nghiên cứu phát triển mô hình mới được trình bày để giải quyếtcâu hỏi nghiên cứu thứ nhấtnêu tại mục 1 của phần mở đầu góp phần phân loại các mẫu trong các hệ thống thông tin có dữ liệu đầu vào chưa đầy đủ Từ kết quả phân tích cặp trình bày tại tiểu mục 2.3.2, có thể khẳng định rằng mô hình đề xuấtFKG-PairslàmộtsựmởrộngcủamôhìnhM-CFIS-FKG[3].Đồthịtrithứcmờ dạng cặp là mộtkỹthuật hoàn toàn mới nhằm giải quyết triệt để lớp bài toán phân loại, hỗ trợ ra quyết định dựa trên bộ dữ liệu đầu vào chưa đầy đủ Trong phạm vi luậnántiếnsĩnày,môhìnhFKG-Pairsđượcnghiêncứupháttriểnđềxuấtđểsuydiễn xấpxỉvàtìmnhãncủacácmẫumớitrongbốicảnhbộdữliệuđầuvàocónhiềuthuộc tính và thông tin các mẫu chưa đầyđủ.
Hơn nữa, chương này đã trình bày kết quả cài đặt mô hình đề xuất trên các bộ dữ liệu UCI để so sánh các phương pháp dựa trên mô hình FKG-Pairs với các phương phápkhác.CáckếtquảcàiđặtchothấymôhìnhFKG-Pairscómộtsốưuđiểmchính như sau:phương pháp dựa trên FKG-Pairs có kết quả thực nghiệm trên các bộ dữ liệu trong lĩnh vực y tế cho thấy suy diễn xấp xỉ đạt hiệu năng cao hơn so với các phươngphápkhácvềmặtthờigiantínhtoán;FKG-Pairsphùhợpđểgiảiquyếtvấn đềsuydiễnxấpxỉtrongcáchệthốngmờdựatrêncácbộdữliệucóthôngtinđầuvào chưa đầy đủ;FKG-Pairs có thể suy diễn và tìm nhãn của các mẫu mới chưa có trong cơ sở luật mờ Mô hình đề xuất FKG-Pairs thực sự hiệu quả khi được áp dụng đểgiảiquyếtbàitoánphânloại,hỗtrợraquyếtđịnhtrongcáchệthốngmờsovớicác mô hình tin cậy khác (chẳng hạn phương pháp FIS), cũng như các mô hình mới nhất hiện nay (M-CFIS-
MặcdùmôhìnhFKG-Pairsđãchothấysựưuviệtsovớicácmôhìnhhiệnđạinhất (M-CFIS-R,M-CFIS-FKG) trong việc xử lý các bài toán suy diễn và phân loại khi kho dữ liệu chứa các mẫu thiếu thông tin đầu vào Tuy nhiên, một thách thức lớn đặt ratrongthựctếđólàcáchệthốngthôngtincóbộdữliệuđầuvàochứacácmẫuchưa đầy đủ thông tin và cơ sở luật mờ quá nhỏ so với dữ liệu mới sinh ra, khi đó môhình
FKG-Pairs cũng đã bộc lộ hạn chế, thậm chí không thể giải quyết trong trường hợp thiếu cơ sở luật mờ (đặc biệt là với các hệ thống mới hoàn toàn) Điều này chính là độngcơthúcđẩyviệcnghiêncứucảitiếnmôhìnhFKG-Pairsbằngcáchtiếpcậnmới dựatrênkỹthuậtQ-learningtronghọctăngcườngtiếptụcđượcthựchiệnnhằmvượt quatháchthứccủacácbàitoánsuydiễnvàphânloạitrongthựctếđãđặtra.Môhình đề xuất mới là sự kết hợp FKG-Pairs và Q-learning được trình bày chi tiết trong chương tiếptheo.
Vớinhữngnộidungđãtrìnhbàytrongchương2,cáckếtquảnghiêncứupháttriển mô hình đồ thị tri thức mờ dạng cặp (FKG-Pairs) trong hỗ trợ ra quyết định đã được công bố trong các công trình [CT2], [CT3] và [CT5], cụ thểlà:
[CT2]Cù Kim Long,Trần Mạnh Tuấn, Lê Hoàng Sơn, Lương Thị Hồng Lan,Phạm
Minh Chuẩn, Nguyễn Thọ Thông, Phạm Văn Hải (2021),“Chẩn đoán bệnhtrong y học cổtruyền: Hướng tiếp cận dựa trên đồ thị tri thức mờ dạng cặp”, TạpchíThôngtinvàTruyềnthông,Tập2021,Số2:Cáccôngtrìnhnghiên cứu, phát triển và ứng dụng CNTT-TT (Số đặc biệt VNICT 2021),DOI: https://doi.org/
[CT3]Cu Kim Long, Pham Van Hai, Tran Manh Tuan, Luong Thi Hong Lan,Pham
Minh Chuan, Le Hoang Son (2022),“A Novel Fuzzy Knowledge Graph PairsApproach in Decision Making”, Multimedia Tools and Applications (MTAP), Vol.
81, pp 26505-26534 DOI: https://doi.org/10.1007/s11042- 022-13067- 9(SCIE Q1, 2021 IF = 2.577).
[CT5]PhamVanHai,LongCuKim,HaQuocTrung,PhanHungKhanh(2023),“AFuzzy
Knowledge Graph Pairs-Based Application for Classification in DecisionMaking: Case study of Preeclampsia Signs”, Information , 14(2), 104 DOI:https://doi.org/10.3390/info14020104(SCIE Q2, 2022 IF =4.2).
MÔ HÌNH ĐỒ THỊ TRI THỨC MỜ DẠNG CẶP RA QUYẾT ĐỊNH TRONG TRƯỜNG HỢP CỰCĐOANFKG-EXTREME
Phát biểubàitoán
Như đã trình bày ở trên, bài toán phân loại trong bối cảnh trường hợp cực đoan được nêu ở trường hợp thứ nhất cho thấy việc huấn luyện mô hình dựa trên một tập dữ liệuDB i ở bướcTivới cách chia bộ dữ liệu theo phương pháp hold-out (với tỷ lệ chia
10 - 90% hoặc 5 - 95%) thời gian tính toán có thể chấp nhận ược, nhưng hiệu suất vềđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật mặt ộ chính xác lại khá thấp do có một số lượng lớn các mẫu mới sinh ra chưa cóđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật trong cơ sở luật mờ Vì vậy, mục tiêu cụ thể của mô hình ề xuất FKG-được thay bởi một hàm của các biến đầu vào thì sẽ thu được luật
Extremelàcảithiệnhiệunăngcủahệthốngvềmặtđộchínhxácvàxácđịnhhành động tốt nhất để khuyến nghị áp dụng cho các ứng dụng trong thựctế.
Các yêu cầu cụ thể của bài toán trình bày ở phần này được phát biểu như sau: Đầuvào:Từcáctậpdữliệugốcbanđầu,giảsửrằngsauquátrìnhtiềnxửlýcơsởluậtmờđược đưaranhưBảng3.1saukhiápdụngphươngpháplấymẫuvàcáchchiadữliệu,vàsửdụngmộtc ơchếsinhluật(chẳnghạnFIS).Bảng3.1thểhiệnrằngcónluật{R 1 ,R2,
Bảng 3.1.Cơ sở luật mờ (fuzzy rule base).
R1 Higℎ Higℎ … Very Higℎ Higℎ 3
Rn-1 MediuN MediuN … MediuN MediuN 1
Rn Low MediuN … Low Low 2
THENtươngtựcácluậttrongBảng3.1,ởđós≫n,chẳnghạn:IFa˜1l à"Low"vàa˜2là"Low”và
…vàa˜m–1là"Higℎ"vàa˜mlà"Very Low"THENnhãn đầu ra làgì? Đầu ra:Tìm nhãn đầu ra của các mẫu mới và khuyến nghị hành động tốt nhất
(phương pháp lấy mẫu và cách chia dữ liệu) để áp dụng cho ứng dụng trong thực tế. Để thuận tiện trong khi đọc các nội dung trình bày trong chương này, các ký hiệu đã sử dụng được đưa ra tại Bảng 3.2.
MôhìnhFKG-Extreme
Trongphầnnày,môhìnhvàthuậttoánđềxuấtđượctrìnhbàyvớisự môtảtómtắt như sau: Đầu tiên, các hành động phải được định nghĩa trước Mỗi hành động là sự kết hợp của hai tham số (phương pháp lấy mẫu và cách chia bộ dữ liệu) Có nhiều phương pháp lấy mẫu khác nhau (chẳng hạn phương pháp lấy mẫu thuận tiện, lấy mẫu theo chủ đích, lấy mẫu bông tuyết, lấy mẫu ngẫu nhiên đơn giản, lấy mẫu ngẫu nhiên có hệ thống, lấy mẫu theo cụm, lấy mẫu phân tầng, v.v.) Tuy nhiên, để đảm bảo tính khách quan, các phương pháp lấy mẫu cần thỏa mãn yêu cầu về tính đại diện và tính dự báo nên được lựa chọn.
Bảng 3.2.Danh mục các ký hiệu. tập dữ liệu kiểm traRTect. các tập dữ liệu huấn luyện (RTrain) và tập dữ liệu
ACC_Test(t, ah)vàTIME(t, ah), giá trị của chúng
Các ký hiệu Giải thích Tham chiếu n,N,C Số luật, số thuộc tính, số nhãn đầu ra Bảng 3.1
T, A Số lượng chu kỳ theo thời gian (time steps), số lượng hành động được xác định trước (actions).
L, M, H Các nhãn ngôn ngữ (chẳng hạn, L1là “Low1”, M2là Bảng 3.1
“Medium2”, H3là “High3”). a˜i Thuộctínhthứi th củamỗiluật(i=1,N) Bảng 3.1
|R Train | Số lượng luật của tập dữ liệu huấn luyện (RTrain) Công thức (3.1)
R Reinforce Tập các luật mạnh được lựa chọn từ tập dữ liệu huấn luyện để tăng cường cho cơ sở luật mờ.
R Current Cơ sở luật mờ để xây dựng đồ thị tri thức mờ dạng cặp
R VaS Tập dữ liệu kiểm thử Tiểu mục 3.2.1
R Tect Tập dữ liệu kiểm tra Tiểu mục 3.2.1
ACC_Val(t, ah),TIME_Val(t, ah) Độ chính xác và thời gian tính toán của phương pháp đềxuấtkhithựchiệnhànhđộngaMtạithờiđiểmttrên tập dữ liệu kiểm thửRVaS.
ACC_Test(t, ah),TIME_Test(t, ah) Độ chính xác và thời gian tính toáncủa phương pháp đềxuấtkhithựchiệnhànhđộngaMtạithờiđiểmttrên
8 Tỷ lệ mẫu (%) được trích xuất từ tập dữ liệuDBtcho kiểm thử (RVaS) tại thời điểmt.
Tiểu mục 3.2.2 λ1, λ2, λ3 Trọng số của các tham sốACC_Val(t, ah), Công thức (3.2) thời điểmt.
Tiếp đó, từ tập dữ liệu sẵn có(DB)tại thời điểmtđược tách ra thành hai tập dữ liệu(DBtvàRTect)với tỷ lệ theo hành động đã xác định trước (chẳng hạn 10 - 90% hoặc5-95%),sauđóápdụngcơchếsinhluật(FIS).Tậpdữliệu(DBt)tiếptụcđược tách thành hai tập dữ liệu nhỏ hơn gồm tập dữ liệu huấn luyện (RTrain) và tập dữ liệu kiểm thử (RVal) Sau đó, cơ sở luật mờ(RCurrent)được tăng cường các luật mạnh từ tập dữ liệu huấn luyện bằng cách sử dụng phương pháp tính trọng số của luật nhằm giảm thời gian huấn luyện mô hình Trường hợp tập huấn luyện(RTrain)nhỏ thì tăng cường toàn bộ số luật củaRTrainvàoRCurrent.
Cuối cùng, đồ thị tri thức mờ dạng cặp (FKG-Pairs) được xây dựng dựa trên cơsở luật mờ(RCurrent)và ước lượng độ chính xác, thời gian tính toán trên các tập dữ liệu kiểm thử (RVaS) và tập dữ liệu kiểm tra(RTect).Các giá trị hàm phần thưởng và Q- values được tính toán, sau đó giá trị Q-values được cập nhật vào bảng Q-table Áp dụngtoántửMAXvớicácgiátrịtrongbảngQ-table,hànhđộngtốtnhấtđượckhuyến nghị để áp dụng cho các ứng dụng trong thực tế và để tìm nhãn cho các mẫumới.
Nội dung chi tiết về mô hình và thuật toán đề xuất (FKG-Extreme) được trình bày trong các tiểu mục 3.2.1 và 3.2.2 dưới đây.
3.2.1 Mô hình đề xuấtFKG-Extreme
TiểumụcnàytrìnhbàymôhìnhđềxuấtFKG-ExtremeđượcmôtảtạiHình3.3với một số bước chính nhưsau:
Các ký hiệu Giải thích Tham chiếu được thiết lập trong khoảng (0,1) và thỏa mãn điều kiệnλ1+ λ2+ λ3= 1.
5 Tốc độ học (5(0,1)) Công thức (3.3)
Hệ số phần thưởng trong tương lai ((0,1)) Công thức (3.3) rt Giá trị hàm phần thưởng thực hiện hành độngaMtại Công thức (3.2)Q(t, ah) Giá trị Q-value của hành độngaMtại thời iểmtđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật Công thức (3.3)D[VAL] Giá trị kỳ vọng dựa trên các giá trị Q-values Tiểu mục 3.2.2
Hình 3.3.Mô hình đề xuất FKG-Extreme. i=1
Bước 1:Sau khi thu thập dữ liệu, các phương pháp lấy mẫu và phương pháp chia bộ dữ liệu được lựa chọn Các phương pháp lấy mẫu đảm bảo cả hai yêu cầu về tính đạidiệnvàtínhdựbáođểtríchxuấtracáctập dữliệunhỏtừtậpdữliệugốcchoviệc huấn luyện, kiểm thử và kiểmtra.
Bước 2:Áp dụng cơ chế sinh luật FIS với cả ba tập dữ liệu huấn luyện (RTrain), tập dữ liệu kiểm thử (RVal), và tập dữ liệu kiểm tra(RTect).
Bước 3:Tính toán trọng số của các luật trong tập dữ liệu huấn luyện (R Train ) bằng cách áp dụng công thức (3.1) Sau đó, một tập các luật mạnh(RReinforce), bao gồm các luật có trọng sốA i ≥ |RTrain| AVG(Ai), được bổ sung vào trong cơ sở luật mờ
Trường hợp tập dữ liệu huấn luyện (R Train ) nhỏ, toàn bộ số luật trongR Train sẽ ượcđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật tăng cường cho cơ sở luật, không cần tính trọng số của các luật.
Bước 4:Xây dựng đồ thị tri thức mờ dựa trên cơ sở tri thức(RCurrent)sau khi cập nhật các luật mạnh(RReinforce).
Bước5:Ướclượngđộchínhxácvàthờigiantínhtoáncủamôhìnhđềxuấttrên cáctậpdữliệukiểmthửvàtậpdữliệukiểmtra(ACC_Val(t,a h ),ACC_Test(t,ah),
(TIME_Val(t,ah)vàTIME_Test(t,ah).
Bước 6:Tính toán hàm phần thưởng (rt) dựa vào kết quả tính toán hai tham số độ chính xác và thời gian tính toán trên các tập dữ liệu kiểm thử và tập dữ liệu kiểm tra bằng cách sử dụng công thức (3.2) dưới đây. rt= λ1× ACC_Val(t, ah)+ λ2× ACC_Test(t, ah)
3 ∑ T (TIME_Val(t, ah)+ TIME_Test(t, ah)) t=1 ở đóλ1,λ2,λ3được thay bởi một hàm của các biến đầu vào thì sẽ thu được luậtược thiết lập nằm trong khoảng (0, 1), và thỏa mãn iều được thay bởi một hàm của các biến đầu vào thì sẽ thu được luật kiệnλ1+ λ2+ λ3=1. a
Bước 7:Cập nhật các giá trịQ(t, ah)bằng cách sử dụng công thức (3.3) và lưu chúng vào trong bảng Q-table.
Q(t,ah)=(1 −5)×Q(t,ah)+ 5 ×[rt+× maxQ(t+ 1,a)−Q(t,ah)] (3.3)
Bước 8:Khuyến nghị hành động phù hợp nhất (ah) bằng cách áp dụng toán tử MAX để tìm giá trịMAX(Q(t, a h ))dựa vào các kết quả trong bảng Q-table.
Bước 9:Lưu lại mô hình đề xuất FKG-Extreme và gán nhãn cho các mẫu mới.
Trong tiểu mục này, thuật toán đề xuất mới (gọi làthuật toán FKG-Extreme) được trình bày để cải thiện hiệu suất độ chính xác của hệ thống suy diễn hỗ trợ ra quyếtđịnhtrongtrườnghợpcựcđoan,ởđótậpdữliệuđầuvàochưađầyđủthôngtin và cơ sở luật mờ quá nhỏ Thuật toán FKG-Extreme được mô tả nhưsau. Đầu vào:T(số bước thời gian - time steps);
A(số lượng hành động được định nghĩa trước);
Các tập dữ liệu (mỗi tập dữ liệu(DB)là một tập dữ liệu đầu vào tại mỗi time stept trongđót=¯1¯,¯T¯);
8(tỷ lệ mẫu (%) được trích xuất từ mỗi tập dữ liệu(DB)để thực hiện huấn luyện và kiểm thử mô hình tại mỗi time stept); λ1, λ2, λ3(0,1)(trong đóλ1+ λ2+ λ3 1);5(0,1)(tỷ lệ học);
(0,1)(hệ số thể hiện mức độ quan trọng của giá trị phần thưởng trong tương lai);
D[VAL](giá trị kỳ vọng, xác định dựa trên độ hội tụ của các giá trị Q-values). Đầu ra:Tìm nhãn đầu ra của các mẫu mới và xác định hành động phù hợp nhất để khuyến nghị xây dựng các ứng dụng trong thực tế.
8: Áp dụng một cơ chế sinh luật cho tập dữ liệu tại time step t(DBt);
9: NhậnkhônggianhànhđộngđãđượcđịnhnghĩatrướcAbằngcáchkếthợpgiữa phương pháp lấy mẫu và phương pháp chia bộ dữ liệu Mỗi hành độngah,tập dữ liệu sau khi trích xuất được chia thành hai tập nhỏ để thực hiện huấn luyện (RTrain= 70%×
DBt) và kiểm thử (RVaS= 30%×DBt).
11: Nhận tập dữ liệu huấn luyệnRTrain;RReinforce∅;
13: Cập nhật:R Current R Current +R Train ;14: Else
15: Tính toán trọng số các luậtΔibằng cách áp dụng công thức (3.1), lựa chọn tập các luật mạnh ể làm giàu cơ sở luật mờ(Rđược thay bởi một hàm của các biến đầu vào thì sẽ thu được luật Reinforce), và cập nhậtR Current R Current +R Reinforce ;
16: Xây dựng đồ thị tri thức mờ dạng cặp dựa trênRCurrenttheo thuật toán
Sự khác biệt và ưu điểm của môhìnhFKG-Extreme
Mô hình FKG-Extreme được xem như là sự mở rộng của mô hình FKG-Pairs Nó được đề xuất để giải quyết bài toán suy diễn của các hệ thống mờ trong trường hợp cực đoan, ở đó tập dữ liệu đầu vào chưa đầy đủ hoặc cơ sở luật mờ quá nhỏ hoặc tập dữ liệu đầu vào lớn Trong nội dung chương này, mô hình và thuật toán đề xuất mới được trình bày bằng cách tiếp cận sử dụng đồ thị tri thức mờ dạng cặp (FKG-Pairs) kết hợp vớikỹthuật Q-learning trong học tăng cường nhằm cải thiện độ chính xác củahệthốngsuydiễnmờtrongtrườnghợpcựcđoan.Hơnnữa,môhìnhđềxuấtcũng xác định được phương pháp lấy mẫu và cách chia bộ dữ liệu phù hợp nhất đểkhuyến nghị cho các ứng dụng trong thựctế.
Quakếtquảthựcnghiệmtrìnhbàytạimục3.4,mộtsốưuđiểmcủamôhìnhFKG- Extreme cũng được xác định, cụ thể là:mô hình FKG-Extreme xử lý được một số trường hợp cực đoan trong khi các phương pháp mới nhất hiện nay chưa giải quyết được;mô hình FKG-Extreme cũng châm ngòi cho sự nỗ lực của cộng đồng phát triển ứng dụng vượt qua sự cực đoan của hệ thống hỗ trợ ra quyết định trong các ứng dụng thực tiễn (đặc biệt hiệu quả với các hệ thống mới hoàn toàn hoặc hệ thống dữ liệu lớn nhưng thiếu tri thức);mô hình FKG-Extreme được xem như một nềntảng rất quan trọng cho các nhà nghiên cứu để tích hợp cáckỹthuật học tăng cường vào các hệ thống suy diễn mờ trong tương lai Điều này sẽ góp phần cải thiện hiệu năng củacáchệthốnghỗtrợraquyếtđịnhkhiứngdụngmôhìnhFKG-Extremegiảiquyết các bài toán ra quyết định trong thựctế.
Kết quảthực nghiệm
Phần này trình bày các kết quả thực nghiệm nhằm kiểm chứng mô hình đề xuất (FKG-Extreme)vượttrộicácmôhìnhmớinhấthiệnnay(FIS,FKG-Pairs)vềmặtđộ chính xác trong trường hợp cực đoan Các kịch bản được thiết kế trong trường hợp cực đoan (ở đó cơ sở luật mờ rất nhỏ) để so sánh ba phương pháp dựa trên các mô hình đã nêu bằng cách áp dụng cơ chế sinh luật (FIS) Hơn nữa, phân tích ANOVA hai yếu tố cũng được thực hiện để phân tích độ biến thiên các kết quả của phương pháp dựa trên các tham số độ chính xác và thời gian tính toán Ngoài ra, một số phát hiện mới trong quá trình thực nghiệm cũng được đưara.
Cácthựcnghiệmđượctiếnhànhtrênmộtmáytínhxáchtay(cấuhìnhIntel(R)Core (TM) i5- 7200U CPU @ 2.50GHz, 2.70 GHz) được cài đặt phần mềm MATLAB 2014a Cả ba bộ dữ liệu trong Bảng 3.3 sử dụng trong các thực nghiệm đều đượclấytừkhodữliệuhọcmáyUCI.Biểuđồphânbốdữliệucủababộdữliệunàyđượcminh họa trong các Hình 3.4, 3.5, và 3.6 Mặc dù các thực nghiệm mô phỏng dựa trên các bộ dữ liệu từ kho dữ liệu học máy UCI, nhưng các kịch bản được thiết kế phù hợpđể không làm ảnh hưởng đến chất lượng của thuật toán đềxuất.
Bảng 3.3.Các bộ dữ liệu sử dụng trong thực nghiệm [62-65].
Thứ tự Tên bộ dữ liệu Số mẫu Số thuộc tính Số nhãn
3 Cardiotocography (CTG) 2126 19 10 Để so sánh phương pháp dựa trên mô hình FKG-Extreme với các phương pháptin cậy khác, kịch bản trên các bộ dữ liệu UCI đã được thiết kế, cụ thể là: So sánh các phươngphápbằngcáchápdụngcơchếsinhluậtFIStrongtrườnghợpcựcđoanởđó cơ sở luật mờ nhỏ hơn rất nhiều so với tập dữ liệu kiểm tra (chẳng hạn, tỷ lệ chia bộ dữ liệu thành các tập dữ liệu huấn luyện (3.5%), tập dữ liệu kiểm thử (1.5%), và tập dữ liệu kiểm tra (95%)).
Hình 3.4.Biểu đồ phân bố dữ liệu trên bộ dữ liệu Liver.
Hình 3.5.Biểu đồ phân bố dữ liệu trên bộ dữ liệu Wine.
Hình 3.6.Biểu đồ phân bố dữ liệu trên bộ dữ liệu CTG. Điều này có khác biệt rất lớn so với tỷ lệ chia bộ dữ liệu của các phương pháphọc máy truyền thống (tập dữ liệu huấn luyện (70%) và tập dữ liệu kiểm thử (30%)) Các hànhđộngsửdụngtrongcácthựcnghiệmđượcđịnhnghĩatrướctrongBảng3.4làsự kết hợp giữa hai yếu tố (phương pháp lấy mẫu và cách chia bộ dữ liệu) Hai tiêu chí được sử dụng để so sánh các phương pháp bao gồm độ chính xác và thời gian tínhtoán Mục tiêu của kịch bản thử nghiệm là nhằm kiểm chứng giả thiết:“H0:
Trongtrườnghợpcựcđoan,độchínhxáccủamôhìnhđềxuấtFKG-Extremecaohơnsovớicác mô hình mới nhất (trung bình trên tất cảcác bộ dữ liệu), nhưng thời gian tínhtoánchậmhơn”.Cáckếtquảthựcnghiệmđượctrìnhbàychitiếttrongphầntiếptheo.
Bảng 3.4.Các hành động sử dụng trong các thực nghiệm.
Hành động với phương pháp lấy mẫu ngẫu nhiên đơn giản và tỷ lệ chia bộ dữ liệu 5-95% (tập dữ liệu huấn luyện (3.5%), tập dữ liệu kiểm thử (1.5%), và tập dữ liệu kiểm tra (95%)). a2
Hành động với phương pháp lấy mẫu ngẫu nhiên hệ thống và tỷ lệ chia bộ dữ liệu 5-95% (tập dữ liệu huấn luyện (3.5%), tập dữ liệu kiểm thử (1.5%), và tập dữ liệu kiểm tra (95%)). a3
Hành động với phương pháp lấy mẫu theo cụm và tỷ lệ chia bộ dữ liệu 5-
95% (tập dữ liệu huấn luyện (3.5%), tập dữ liệu kiểm thử (1.5%), và tập dữ liệu kiểm tra (95%)). a4
Hành động với phương pháp lấy mẫu ngẫu nhiên đơn giản và tỷ lệ chia bộ dữ liệu 10-90% (tập dữ liệu huấn luyện (7%), tập dữ liệu kiểm thử (3%), và tập dữ liệu kiểm tra (90%)). a5
Hành động với phương pháp lấy mẫu ngẫu nhiên hệ thống và tỷ lệ chia bộ dữ liệu 10-90% (tập dữ liệu huấn luyện (7%), tập dữ liệu kiểm thử (3%), và tập dữ liệu kiểm tra (90%)). a6
Hành động với phương pháp lấy mẫu theo cụm và tỷ lệ chia bộ dữ liệu 10-
90% (tập dữ liệu huấn luyện (7%), tập dữ liệu kiểm thử (3%), và tập dữ liệu kiểm tra (90%)).
3.4.2 Kết quả so sánh giữa các phươngpháp
Sau khi tiến hành các thực nghiệm mô phỏng dựa trên ba bộ dữ liệu từ kho dữliệu học máy UCI, các kết quả thực nghiệm về mặt độ chính xác trên các bộ dữ liệu được thểhiệntrongcácHình3.7,3.8,và3.9.Từcáckếtquảnày,cóthểnhậnthấyđộchính xác của các hành động là tương tự nhau Điều này chứng tỏ rằng ba phương pháplấy mẫu sử dụng trong các thực nghiệm ít tác động đến hiệu năng của phương pháp dựa trên mô hình đề xuất về mặt độ chính xác.
Bên cạnh đó, các thực nghiệm so sánh về mặt thời gian tính toán giữa các hành động trên cả ba bộ dữ liệu cũng được tiến hành Kết quả chi tiết được đưa ra trong Hình 3.10 Từ dữ liệu hiển thị trong Hình 3.10, dễ dàng nhận thấy rằng hành độnga3cóthờigiantínhtoántốtnhấttrêntấtcảcácbộdữliệu.Chẳnghạn,thờigiantínhtoán trungbìnhtrêntấtcáccácbộdữliệucủahànhđộnga3tốthơnthờigiancủacáchành động khác (cụ thể là: 109.22s(a3)so với 121.07s(a1),122,34s(a2),và trên 200s với các hành động còn lại(a4,a5,a6).Điều này chứng tỏ rằng hành độnga3được thay bởi một hàm của các biến đầu vào thì sẽ thu được luậtược xem làhànhđộngtốtnhấtđểkhuyếnnghịchocácứngdụngtrongthựctếvềmặtthờigian tínhtoán.
Hình 3.7.Độ chính xác của phương pháp đề xuất trên bộ dữ liệu Liver.
Hình 3.8.Độ chính xác của phương pháp đề xuất trên bộ dữ liệuCTG.
Hình 3.9.Độ chính xác của phương pháp đề xuất trên bộ dữ liệuWine.
Hình 3.10.Thời gian tính toán của phương pháp đề xuất theo các hành động trên các bộ dữ liệu (giây). Đểkiểmchứngđộtincậycủaphươngphápđềxuất,cácthựcnghiệmmôphỏngđể sosánhphươngphápđềxuất(FKG-Extreme)vớicácphươngpháppháptincậykhác (cụ thể là, phương pháp FIS và FKG-Pairs) tiếp tục được thực hiện trong trường hợp cực đoan, ở đó tỷ lệ tập dữ liệu huấn luyện (5%) và tập dữ liệu kiểm tra (95%).Hành độnga3(sử dụng phương pháp lấy mẫu theo cụm) được thay bởi một hàm của các biến đầu vào thì sẽ thu được luậtược lựa chọn trong các thực nghiệmmôphỏng.Cáctiêuchísosánhhiệunăngcủacácphươngphápđượcsửdụng bao gồm độ chính xác và thời gian tính toán Các kết quả so sánh hiệu năng của các phương pháp trên ba bộ dữ liệu Liver, CTG, và Wine được hiển thị trong các Bảng 3.5 và3.6.
Hình 3.11.Độ chính xác của phương pháp đề xuất theo các hành động trên các bộ dữ liệu.
Bảng 3.5.Độ chính xác của các phương pháp sử dụng cách lấy mẫu theo cụm (%).
Bảng 3.6.Thời gian tính toán của các phương pháp sử dụng cách lấy mẫu theo cụm (giây).
Hình 3.12.Biểu đồ so sánh độ chính xác giữa các phương pháp.
Từ các kết quả hiển thị trong các Bảng 3.5, 3.6 và Hình 3.12, dễ dàng thấy rằng phương pháp dựa trên mô hình FKG-Extreme có độ chính xác trung bình trên tất cả các bộ dữ liệu tốt hơn rất nhiều so với hai phương pháp còn lại FIS và FKG-Pairs2(lần lượt khoảng 21.57% và 20.66%) Điều này khẳng định rằng mô hình đề xuất đã cải thiện đáng kể hiệu suất về mặt độ chính xác so với mô hình mới nhất hiện nay
(FKG-Pairs) Tuy nhiên, thời gian tính toán trung bình trên cả ba bộ dữ liệu của phương pháp dựa trên mô hình FKG-Extreme hiển thị trong Bảng 3.6 cũng tăng lên đáng kể so với hai phương pháp còn lại (cao hơn xấp xỉ khoảng 2.53 lần so với FIS vàkhoảng6.39lầnsovớiFKG-Pairs).Điềunàyđãchứngminhrằngmôhìnhđềxuất FKG- Extreme thỏa mãn giả thiết trong trường hợp cực đoan hiệu năng của hệ thống đã được cải thiện về mặt độ chính xác, nhưng thời gian tính toán chậmhơn.
Trongphầnnày,phântíchANOVAhai yếutốvớimứcýnghĩa0.05đượcsửdụng đểđánhgiáphươngphápdựatrênmôhìnhFKG-Extremevớisáuhànhđộngvàđểso sánh với các phương pháp có liên quan khác (FIS,FKG-Pairs2).
3.4.3.1 Đánh giá độ chính xác của phương pháp đề xuất dựa trên các hànhđộng
Trong trường hợp này, hai giả thiết thống kê được đưa ra là:
H0: Độ chính xác trung bình của các hành động là nhưnhau.
H1: Độ chính xác trung bình trên các bộ dữ liệu là nhưnhau.
Bằng cách áp dụng phân tích ANOVA hai yếu tố, với mức ý nghĩaα)Q = 0.05, kết quả thống kê được hiển thị trong Bảng 3.7 dưới đây.
Bảng 3.7.Phân tích ANOVA dựa trên độ chính xác của phương pháp đề xuất.
SS df MS F P-value F-crit
Như kết quả hiển thị trong Bảng 3.7, trên dòng Actions, giá trị của tham số F là 1.2766, nhỏ hơn so với giá trị của tham số F-crit (3.3258) Điều này có nghĩa là giả thiết H0được chấp nhận Nói cách khác, độ chính xác trung bình của các hành độnglànhưnhau.Tuynhiên,trêndòngDatasets,giátrịcủathamsốFlà162.7805,lớnhơnsovớigiát rịcủathamsốF-crit(4.1028).Dođó,giảthiếtH1bịtừchối.Điềunàydẫnđến kết luận“Độ chính xác trung bình trên các bộ dữ liệu là khácnhau”.
3.4.3.2 So sánh độ chính xác giữa các phươngpháp ĐểsosánhđộchínhxáccủaphươngphápdựatrênmôhìnhFKG-Extremevớihai phương pháp tin cậy khác (FIS và FKG-Pairs2) trên các bộ dữ liệu được lựa chọn, phân tích ANOVA hai yếu tố được sử dụng với mức ý nghĩaα)Q = 0.05 Hai giả thiết thống kê được đưa ralà:
H0: Độ chính xác trung bình của các phương pháp là nhưnhau.
H1: Độ chính xác trung bình trên các bộ dữ liệu là nhưnhau.
Bằng cách áp dụng phân tích ANOVA hai yếu tố không thay thế, kết quả thống kê được đưa ra như trong Bảng 3.8.
Bảng 3.8.Phân tích ANOVA giữa các phương pháp dựa trên độ chính xác.
SS df MS F P-value F-crit
Ứng dụng FKG-Extreme trong hỗ trợ chẩn đoán bệnhthậnmạn
Thận là cơ quan quan trọng giữ các chức năng chính là lọc máu đào thải chất độc vàsảnsinhhóc-mônchocơthể.Tuynhiên,khithậnbịsuyyếuthìcácchứcnăngnày bị suy giảm dầngâyảnh hưởng đến toàn bộ hoạt động trong cơ thể Khi bệnh phát triển thành mạn tính rất khó chữa trị, chất độc sẽ ngày càng tích tụ nhiều trong cơthể người làm rối loạn chức năng hoạt động của các cơ quan khác dễ khiến bệnh nhân bị tử vong nhanh hơn[76].
Bệnh thận mạn (BTM) là những bất thường về cấu trúc hoặc chức năng thận, kéo dài trên ba tháng và ảnh hưởng lên sức khỏe người bệnh [78] Tiêu chuẩn chẩn đoán BTM dựa vào một trong hai tiêu chuẩn sau [77, 79-80]:
- Triệu chứng tổn thương thận (có biểu hiện 1 hoặcnhiều):
Có albumine nước tiểu (tỷ lệ albumin creatinine nước tiểu > 30mg/g hoặc albumine nước tiểu 24 giờ >30mg/24giờ).
Bất thường về mô bệnh họcthận.
Xét nghiệm hình ảnh học phát hiện thận tiết niệu bấtthường.
- Giảm mức lọc cầu thận (Glomerular filtration rate: GFR) < 60ml/ph/1,73 m2(xếp loại G3a-G5):Với mức lọc cầu thận được đánh giá dựa vào độ thanh lọc creatinine ước tính theo công thức Cockcroft Gault hoặc dựa vào độ lọc cầu thậnước tính(estimatedGFR,eGFR)hoặcdựavàocôngthứcMDRD(ModificationofDietin Renal DiseaseStudy). Ước tính, Việt Nam hiện có khoảng 8 triệu người mắc bệnh thận Do đó, việc tìm ra một giải pháp giúp ngăn ngừa, chẩn đoán và điều trị bệnh thận đang là một vấn đề thu hút sự quan tâm của giới chuyên gia cũng như bệnh nhân Ngoài ra, bệnh thận là bệnh làm tổn thất vô cùng lớn không chỉ về sức khỏe mà còn cả về kinh tế Tại Bệnh viênĐakhoatỉnhĐiệnBiênsốlượngbệnhnhânbịcácbệnhvềthậnngàycàngtăng, riêng bệnh nhân suy thận tăng đột biến, năm 2012 bệnh viện mới chỉ điều trị 7 bệnh nhânthìđếnnăm2016đãtănglên60bệnhnhân,sốlượtchạythậnnăm2012và2016 lần lượt là4.477 và 8.711 lượt (chưa kể các trường hợp tử vong do thể trạng suy kiệt vàcácbiếnchứngkèmtheo)[76].Điềunàychothấy,việcứngdụngcôngnghệthông tin vào dự báo và chẩn đoán sớm được bệnh thận là rất quan trọng, không chỉ góp phần hỗ trợ đội ngũ y bác sĩ trong việc chẩn đoán bệnh, mà còn góp phần giảmthiểu tối đa số lượng bệnh nhân thận tới khám và điều trị tại Bệnh viên Đa khoa tỉnh Điện Biên nói riêng và hệ thống các bệnh viện trong cả nước nói chung.
3.5.2 Phân giai đoạn bệnh thận mạn
Năm 2002, NKF- KDOQI (National Kidney Foundation-Kidney Disease OutcomesQualityInitiatives)phânbệnhthậnmạnthành5giaiđoạndựavàomứcđộ lọc cầu thầu (GFR) [79] như Bảng3.11.
Năm 2012, KDIGO (Kidney Disease Improving Global Outcomes) của Hội Thận họcQuốctế[80],giaiđoạn3đượctáchthànhG3avàG3b,kèmtheobổsungalbumine niệu vào trong bảng phân giai đoạn (chi tiết tại Bảng 3.12) hỗ trợ cho việc đánh giá tiên lượng và tiến triển của BTM Cần lưu ý mức lọc cầu thận (MLCT) chỉ phản ánh chính xác giai đoạn BTM khi chức năng thận ổn định (không thay đổi trong 3 tháng xétnghiệmlặplại)vàsaukhiđãloạibỏcácyếutốlàmnặngthêmtạmthờitìnhtrạng suy thận Tần suất khám bệnh mỗi năm của bệnh được xác định dựa theo nguy cơ bệnh thận tiến triển (chẳng hạn, màu xanh - nguy cơ thấp, ít nhất 01 lần/năm; màu vàng - nguy cơ trung bình, ít nhất 02 lần/năm; màu cam - nguy cơ cao, ít nhất 03 lần/năm; màu đỏ - nguy cơ rất cao, ít nhất 04lần/năm).
Bảng 3.11.Các giai đoạn của bệnh thận mạn.
Giai đoạn Mô tả Mức lọc cầu thận
1 Tổn thương thận với MLCT bình thường hoặc tăng ≥ 90
2 Tổn thương thận với MLCT giảm nhẹ 60-89
5 Bệnh thận mạn giai đoạn cuối