Ứng dụng các thuật toán học máy để đánh giá bộ cơ sở dữ liệu trong phân loại rối loạn phổ tự kỷ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	13
Dung lượng	452,31 KB

Nội dung

Bài viết trình bày kết quả đánh giá bộ cơ sở dữ liệu trong phân loại rối loạn phổ tự kỷ (ASD) trẻ em trên kho dữ liệu UCI. Chúng tôi tiến hành đánh giá bộ dữ liệu với các thuật toán SVM và Random Forest, đồng thời khảo sát thêm các thuật toán Decision Trees, Logistic Regression, K-Nearest-Neighbors, Naïve Bayes, và mạng nơ-ron Multi Layer Perceptron (MLP).

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 10, Số 3, 2020 39-51 ỨNG DỤNG CÁC THUẬT TOÁN HỌC MÁY ĐỂ ĐÁNH GIÁ BỘ CƠ SỞ DỮ LIỆU TRONG PHÂN LOẠI RỐI LOẠN PHỔ TỰ KỶ Phạm Quang Thuậna*, Nguyễn Đình Thuậnb Trung tâm Thơng tin-Thư viện, Trường Cao đẳng Sư phạm Trung ương-Nha Trang, Nha Trang, Việt Nam b Khoa Hệ thống thông tin, Trường Đại học Công nghệ thơng tin, Đại học Quốc gia TP.Hồ Chí Minh, Việt Nam * Tác giả liên hệ: Email: thuanpq@sptwnt.edu.vn a Lịch sử báo Nhận ngày 04 tháng 02 năm 2020 Chỉnh sửa lần ngày 08 tháng năm 2020 | Chỉnh sửa lần ngày 10 tháng năm 2020 Chấp nhận đăng ngày 23 tháng năm 2020 Tóm tắt Bài báo này, chúng tơi trình bày kết đánh giá sở liệu phân loại rối loạn phổ tự kỷ (ASD) trẻ em kho liệu UCI Chúng tiến hành đánh giá liệu với thuật toán SVM Random Forest, đồng thời khảo sát thêm thuật toán Decision Trees, Logistic Regression, K-Nearest-Neighbors, Naïve Bayes, mạng nơ-ron Multi Layer Perceptron (MLP) Kết thử nghiệm bảy thuật toán cho kết phân loại cao phù hợp với nghiên cứu trước Chúng tơi kết luận liệu phân loại rối loạn phổ tự kỷ trẻ em kho liệu UCI đáng tin cậy Từ khóa: Rối loạn phổ tự kỷ; Sàng lọc rối loạn phổ tự kỷ; Thuật toán học máy DOI: http://dx.doi.org/10.37569/DalatUniversity.10.3.649(2020) Loại báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2020 (Các) Tác giả Cấp phép: Bài báo cấp phép theo CC BY-NC 4.0 39 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] APPLICATION OF MACHINE LEARNING ALGORITHMS TO EVALUATE THE UCI DATABASE IN THE CLASSIFICATION OF AUTISM SPECTRUM DISORDERS Pham Quang Thuana*, Nguyen Dinh Thuanb a The Library-Information Center, Nha Trang National College of Pedagogy, Nhatrang, Vietnam The Faculty of Information Systems, Vietnam National University Hochiminh City, University of Information Technology, Hochiminh City, Vietnam * Corresponding author: Email: thuanpq@sptwnt.edu.vn b Article history Received: February 4th, 2020 Received in revised form (1st): March 8th, 2020 | Received in revised form (2nd): May 10th, 2020 Accepted: Septamber 23rd, 2020 Abstract In this article, we present the results of an evaluation of the autism spectrum disorder classification (ASD) of children in the UCI database We evaluated the data set with the SVM and Random Forest algorithms and also investigated the Decision Tree, Logistic Regression, K-Nearest-Neighbors, Naïve Bayes, and Multi-Layer Perceptron (MLP) algorithms All algorithms give high classification results consistent with previous studies We conclude that the data set for classifying children's autism spectrum disorders in the UCI database is reliable Keywords: Autism spectrum disorder; Machine learning algorithms; Screening autism spectrum disorder DOI: http://dx.doi.org/10.37569/DalatUniversity.10.3.649(2020) Article type: (peer-reviewed) Full-length research article Copyright © 2020 The author(s) Licensing: This article is licensed under a CC BY-NC 4.0 40 Phạm Quang Thuận Nguyễn Đình Thuận ĐẶT VẤN ĐỀ “Rối loạn phổ tự kỷ (ASD) dạng khuyết tật phát triển tồn đời, thường xuất ba năm đầu đời ASD rối loạn thần kinh gây ảnh hưởng đến chức hoạt động não ASD xảy cá nhân khơng phân biệt giới tính, chủng tộc điều kiện kinh tế-xã hội Đặc điểm ASD khiếm khuyết tương tác xã hội, giao tiếp ngơn ngữ phi ngơn ngữ, có hành vi, sở thích hoạt động mang tính hạn hẹp lặp lặp lại” (The United Nations, n.d) Ở Việt Nam chưa có số liệu xác, theo ước tính Cục Bảo trợ xã hội-Bộ LĐTB&XH có khoảng 200,000 người bị ASD Song theo cách tính Tổ chức WHO, số tầm khoảng 500,000 thực tế số lượng trẻ chẩn đoán điều trị ngày tăng từ năm 2000 đến Báo cáo Viện Khoa học Giáo dục Việt Nam cho biết, nghiên cứu mơ hình tàn tật trẻ em khoa Phục hồi Chức năng, Bệnh viện Nhi Trung ương giai đoạn 2000-2007 thống kê số lượng trẻ mắc chứng ASD đến khám năm 2007 tăng gấp 50 lần so với thời điểm bảy năm trước đó, xu mắc tăng nhanh từ 122% đến 268% giai đoạn 2004-2007 so với năm 2000 Trên giới, tỷ lệ trẻ phát chẩn đốn ASD tăng cách đáng kể Điển Mỹ, trước tỷ lệ 1/1,000 tăng lên 1/68 từ năm 2012 (Doanh, 2018) Việc chẩn đốn ASD chủ yếu thực thơng qua biểu lâm sàng quan sát trực tiếp vấn vấn người chăm sóc Quy trình chẩn đoán ASD thường phức tạp, chủ quan nhiều thách thức Theo tiêu chuẩn WHO, chẩn đoán cho rối loạn phát triển trẻ cần năm chuyên gia, theo tiêu chuẩn Mỹ sáu chuyên gia, theo dõi trẻ tối thiểu tháng ba mơi trường khác (phịng khám trung tâm, gia đình, cộng đồng) (Nguyễn, 2012) Thực tế để tiến hành chẩn đoán ASD thường nhiều thời gian phụ thuộc trình độ chuyên gia lâm sàng nên nhà khoa học nghĩ đến quy trình chẩn đốn để tăng độ xác tiết kiệm thời gian Q trình chẩn đoán ASD vấn đề phân loại điển hình bác sĩ lâm sàng cố gắng xây dựng mơ hình tự động (phân loại) cách sử dụng học máy để đoán xem trường hợp có phải ASD hay khơng Trình phân loại thường xây dựng từ liệu đầu vào (các trường hợp trước có khơng bị ASD phân loại cơng cụ chẩn đốn), sau đánh giá trường hợp thử nghiệm độc lập (trường hợp mới) để đo lường hiệu việc dự đốn ASD Nhìn chung, q trình chẩn đốn nghiên cứu ASD nhiệm vụ phân loại Nhiều thuật toán học máy nhà khoa học áp dụng sở liệu khác thu kết nghiên cứu khả quan (xem Bảng 1) Trong số thuật toán cho kết dự đoán cao SVM Random forest Tuy nhiên phần lớn liệu có sẵn ASD liên quan đến di truyền Một vài ví dụ số liệu AGRE (Geschwind et al., 2001), Cơ sở liệu quốc gia Hoa Kỳ nghiên cứu ASD NDAR (Hall, Huerta, McAuliffe, & Farber, 2012) AC (Fischbach & Lord, 2010) Các liệu không cơng khai nên khó tiếp cận q trình nghiên cứu Có liệu ASD liên quan đến hành vi dùng để sàng lọc 41 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] ASD Hiện có liệu sàng lọc ASD (trẻ em (Thabtah, 2017c), trẻ vị thành niên (Thabtah, 2017b) người lớn (Thabtah, 2017a)) giáo sư Fadi Fayez Thabtab, Đại học Auckland, New Zealand công bố kho liệu UCI vào tháng 12 năm 2017 liệu hành vi ASD Để đánh giá độ tin cậy liệu nhà khoa học cần thêm nhiều nghiên cứu Trong báo này, tiến hành đánh giá liệu sàng lọc ASD trẻ em Lý chọn liệu để tương thích với liệu dùng để kiểm nghiệm mà thu thập Trung tâm Tư vấn Hỗ trợ Giáo dục Đặc biệt thuộc trường Cao đẳng Sư phạm Trung ương-Nha Trang–đơn vị có chức tổ chức công tác tư vấn hỗ trợ giáo dục trẻ có nhu cầu đặc biệt Các bước thực đánh giá liệu sau: (1) Sử dụng thuật toán Decision Trees, Logistic Regression, KNearest-Neighbors, Nạve Bayes, MLP để xây dựng mơ hình liệu UCI; (2) Kiểm nghiệm mô hình liệu thực tế; (3) Kết luận NỘI DUNG NGHIÊN CỨU 2.1 ASD phương pháp sàng lọc ASD 2.1.1 Giới thiệu ASD ASD rối loạn phát triển lan tỏa gây cản trở kỹ cá nhân xã hội, tạo hành vi lặp lặp lại tác động đến giao tiếp lời nói biểu gián đoạn từ trung bình đến nặng (Pennington, Cullinan, & Southern, 2014) Các triệu chứng ASD dễ thấy dễ nhận biết trẻ từ hai đến ba tuổi Theo Towle Patrich (2016), 68 trẻ có trẻ bị chứng ASD Do đó, phương pháp sàng lọc khác phát triển chuyên gia y tế bác sĩ tâm thần hàng đầu giới nhằm tìm cách xác định đặc điểm ASD giai đoạn nguyên thủy để sẵn sàng cung cấp hình thức can thiệp cần thiết (Robins, Fein, Barton, & Green, 2001) Chẩn đoán ASD thường tiến hành bác sĩ chuyên khoa môi trường lâm sàng sử dụng quy trình chẩn đốn lâm sàng (Clindical Judgment) dựa vào số hành vi quan sát, đo lường Các mơ hình thường dựa ý tưởng nhiều số đánh giá độ xác phân loại cao Các phương pháp sàng lọc ASD thường dựa phương pháp chẩn đoán lâm sàng chúng thường thời gian sàng lọc có q nhiều tiêu chí Điều đòi hỏi cần phương pháp để khắc phục tình trạng Các cơng cụ sàng lọc ASD thường sử dụng quy tắc chuyên gia khoa học tâm thần hành vi xây dựng Chất lượng kết phân loại phụ thuộc đáng kể vào đóng góp chủ quan chuyên gia trình độ diễn giải nhân viên lâm sàng thực đánh giá Vì vậy, chẩn đốn ASD trao cho học máy–nơi định đưa tự động dựa thuật tốn thơng minh Sử dụng học máy kết không bị ảnh hưởng người trình phân loại Tuy nhiên mơ hình học máy không thay bác sĩ lâm sàng mà công cụ hỗ trợ để cải thiện việc định chẩn đoán 42 Phạm Quang Thuận Nguyễn Đình Thuận 2.1.2 Các phương pháp sàng lọc ASD Quy trình chẩn đốn ASD khác tuỳ theo cách tiếp cận, với cơng cụ chẩn đốn khác lại có quy trình khác Thơng thường, q trình chẩn đốn đến sau bước sàng lọc Trẻ sàng lọc để xác định nguy ASD trước tiến hành chẩn đoán chuyên sâu gồm bước: (1) Mơ tả lí mục đích chẩn đốn; (2) Phân tích tiền sử phát triển; (3) Nghiên cứu chẩn đoán tâm lý (sử dụng cơng cụ chẩn đốn); (4) Kết luận đưa lời khuyên (Nguyễn, 2012) Các công cụ sàng lọc hỗ trợ chẩn đoán ASD phổ biến là: Bảng kiểm sàng lọc tự kỷ trẻ nhỏ (Check-list for Autism in Toddlers–CHAT), Bảng kiểm sàng lọc tự kỷ trẻ nhỏ có sửa đổi (Modifier Check-list Autism in Toddlers–M-CHAT 23), Thang chẩn đoán tự kỷ tuổi ấu thơ (Childhood Autism Rating Scale–CARS ), Bảng vấn chẩn đốn tự kỷ có điều chỉnh (The Autism Diagnostic Interview-Revised–ADI-R),Bảng quan sát chẩn đoán tự kỷ (The Autism Diagnostic Observation Schedule– ADOS), Thang đánh giá tự kỷ Gilliam (Gilliam Autism Rating Scale–GARS), AQ (Nguyễn, 2012) 2.2 Ứng dụng học máy phân loại ASD 2.2.1 Mơ hình học máy phân loại ASD Mơ hình học máy phân loại ASD đề xuất Thabtah (2018) thể Hình Hình Mơ hình phân loại ASD sử dụng học máy Nguồn: (Thabtah, 2018) Các yêu cầu cần thiết ứng dụng học máy phân loại ASD là: • Đầu vào: Tập liệu, thơng thường thu thập công cụ sàng lọc ADOS, AQ… 43 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] • Xử lý: Các thuật toán học máy bao gồm thuật tốn trích chọn đặc trưng xử lý áp dụng tập liệu thu thập • Kết quả: Là mơ hình dự đốn dùng để dùng phân loại cho trường hợp thử nghiệm • Đánh giá chuyên gia lâm sàng: Đây người đánh giá kết mơ hình dự đoán học máy để đưa kết định cuối Kết mơ hình học máy giúp chuyên gia lâm sàng rút ngắn thời gian nâng cao hiệu chẩn đoán ASD 2.2.2 Các cơng trình ứng dụng học máy phân loại ASD Để tiến hành chẩn đoán ASD thường tốn nhiều thời gian phụ thuộc trình độ chuyên gia lâm sàng nên nhà khoa học nghĩ đến quy trình chẩn đốn để tăng độ xác tiết kiệm thời gian Với phát triển công nghệ thông tin, nhiều nhà khoa học áp dụng phương pháp học máy để hỗ trợ việc chẩn đốn Các cơng trình tiêu biểu thể Bảng Bảng Các nghiên cứu ứng dụng học máy phân loại ASD Tác giả Phương pháp Bộ liệu Kết phân loại (Wall, Kosmicki, DeLuca, Harstad,& Fusaro, 2012) ADTree Random Tree AGRE AC Gần đạt 100.00% ADTree (100.00%) (Mythili & Shanavas, 2014) ADTree AGRE 87.00% (Bone, Goodwin, Black, Lee, Audhkhasi, & Narayanan, 2014) Random Forest Georgia ADD Network 2008, Georgia ADD Network 2010 86.50% (Ramani & Sivaselvi, 2017) Naïve Bayes, SVM, Random Tree, C4.5, CS-CRT CART (UCLA’s Center for Autism Research and Treatment) Random Tree (88.46%) (Stevens, Atchison, Stevens, Hong, Granpeesheh, Dixon, & Linstead, 2017) K-means SKILIS (Gök, 2019) Bayes network InceRNA (Demirhan, 2018) SVM, KNN, Random forest Tự xây dựng 95.00%, 89.00%,100.00% (Basu, 2018) Autism Screening Adult Data Set Decision Tree, Random Forest, Support Vector Machinees, KNN, Naïve Bayes, Logistcis Regression, Linear Discrimiant SVM (100.00%) (McNamara, Lora, Yang, Flores, & Daly, 2018) Autism Screening Adult Data Set Decision Tree, Random Forest 61.00%,79.00% 44 Phạm Quang Thuận Nguyễn Đình Thuận Từ Bảng thấy, nhà khoa học áp dụng nhiều thuật toán học máy liệu khác cho kết khả quan Tuy nhiên hầu hết nghiên cứu đề sử dụng liệu riêng liên quan đến di truyền tác giả Mythili & Shanavas (2014), Ramani & Sivaselvi (2017), Wall et al (2012)… Các liệu thử nghiệm không cơng khai nên gây khó khăn việc đánh giá so sánh kết Hiện có liệu sàng lọc ASD (trẻ em, trẻ vị thành niên, người lớn) giáo sư Fadi Fayez Thabtab, Đại học Auckland, New Zealand công bố kho liệu UCI vào tháng 12 năm 2017 Trên liệu sàng lọc ASD người lớn (Autism Screening Adult Data Set) có nghiên cứu tiến sĩ Kanad Basu khảo sát thuật toán học máy Decision Trees, Random Forest, Support Vector Machines (SVM), k-Nearest Neighbors(kNN), Naive Bayes Classification, Logistic Regression, Linear Discriminant Analysis (LDA), Multi Layer Perception (MLP) (Basu, 2018) giải toán phân loại ASD với người lớn Nghiên cứu tiến sĩ Basu Kanad giải thuật SVM Random Forest hai giải thuật tốt để phân loại ASD Một nghiên cứu khác Brian McNamara cộng khảo sát hai giải thuật Decision Trees, Random Forest hiệu giải thuật Random Forest phân loại ASD (McNamara et al., 2018) Tuy nhiên nghiên cứu giả Kanad Basu Brian McNamara khảo sát thuật toán học máy liệu sàng lọc ASD người lớn đồng thời khơng có liệu thực tế để kiểm nghiệm từ đánh giá hiệu mơ hình học máy Từ nghiên cứu rằng, thuật toán học máy bật SVM, Random forest, ADTree có hiệu xây dựng mơ hình học máy để hỗ trợ trình phân loại ASD 2.3 Đánh giá sở liệu phân loại ASD 2.3.1 Bộ liệu Bộ liệu huấn luyện: Chúng sử dụng liệu sàng lọc ASD trẻ em (Autistic Spectrum Disorder Screening Data for Children Data Set) công bố liệu UCI Bộ liệu dùng cho nghiên cứu sàng lọc, phân loại, dự đoán chứng ASD trẻ em Bộ liệu có 292 trường hợp với 21 đặc trưng, có 141 trường hợp phân lớp ASD 151 trường hợp không phân lớp bị ASD Hình Hình ảnh 10 trường hợp liệu sàng lọc ASD trẻ em 45 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Bộ liệu kiểm nghiệm: Bộ liệu kiểm định xây dựng với hỗ trợ chuyên gia Trung tâm Tư vấn Hỗ trợ giáo dục đặc biệt, Trường cao đẳng Sư phạm Trung ương-Nha Trang Các bước xây dựng liệu sau: (1) Các chuyên gia sử dụng câu hỏi AQ-10 cho trẻ em ứng dụng ASD Test để đánh giá trường hợp mắc ASD trung tâm; (2) Tiến hành mã hóa liệu Kết chúng tơi thu 18 trường hợp có 10 trường hợp chẩn đoán lâm sàng mắc ASD trường hợp khơng bị ASD (Xem Hình 3) Hình Bộ liệu thực tế trẻ mắc chứng ASD xây dựng chuyên gia Trung tâm Tư vấn Hỗ trợ giáo dục đặc biệt, Trường Cao đẳng Sư phạm Trung ương-Nha Trang 2.3.2 Xây dựng mơ hình dự đốn Các bước xây dựng mơ hình dự đoán sau: Bước 1: Làm liệu Ở bước chúng tơi tiến hành xóa trường hợp có liệu bị thiếu Trong 292 trường hợp liệu có 44 trường hợp có liệu bị thiếu (NA) thuộc tính ethnicity (tơn giáo) relation (người thực kiểm tra) Các giá trị thiếu chủ yếu kiểu liệu phân loại Điều gây khó khăn cho việc tạo giá trị thay khơng thể thay giá trị trung bình trung bình cho biến không kiểu liệu số Sau xóa trường hợp này, tập liệu cịn 248 trường hợp Trong có 126 trường hợp phân loại ASD 122 trường hợp không bị ASD Bước 2: Lựa chọn đặc trưng: Chúng sử dụng phương pháp phương pháp Chi Square (CHI) (Bahassine, Madani, Al-Sarem, & Kissi, 2018; Thabtah, 2018) để đánh giá giá độ liên quan đặc trưng tới kết phân lớp CHI-SQ (Cơng thức 1) tính tốn mối tương quan biến thuộc tính (variable–v) biến mục tiêu (class–l) sử dụng xác suất mong đợi kết quan sát chúng tập liệu huấn luyện (𝑇) 46 Phạm Quang Thuận Nguyễn Đình Thuận 𝑆×(𝐴𝐷−𝐵𝐶)2 𝐶𝐻𝐼 − 𝑆𝑞𝑢𝑎𝑟𝑒(𝑣, 𝑙)= (𝐴+𝐶)×(𝐵+𝐷)×(𝐴+𝐵)×(𝐶+𝐷) (1) Trong đó: 𝐴 tần số cặp (𝑣, 𝑙) 𝑇; 𝐵 tần số biến 𝑣 khơng có lớp 𝑙 𝑇; 𝐶 tần số lớp 𝑙 khơng có biến 𝑣 𝑇; 𝐷 tần số trường hợp khơng có (𝑣, 𝑙) 𝑇; 𝑆 kích thước 𝑇 Kết quả, với phương pháp CHI-SQ thu 10 đặc trưng A1A10 liệu có mối tương quan nhiều đến biến phân lớp Chúng chọn 10 đặc trưng để xây dựng mơ hình Bước 3: Xây dựng mơ hình: Với 10 đặc trưng thu từ q trình lựa chọn đặc trưng, chúng tơi xây dựng mơ hình dự đốn dựa thuật tốn học máy SVM Random Forest Tuy nhiên để chọn mơ hình tốt nhất, chúng tơi tiến hành khảo sát thêm thuật tốn: Decision Trees, Logistic Regression, K-Nearest-Neighbors, Nạve Bayes, mạng nơ ron Multi Layer Perceptron Bộ liệu chia làm phần: 80 % (198 trường hợp) dùng để huấn luyện mơ hình 20 % (50 trường hợp) dùng để xác thực, kiểm thử Để nâng cao chất lượng mơ hình chúng tơi sử dụng kỹ thuật xác thực chéo (Cross-validation) với k = 10 Vì số lượng liệu hạn chế, lấy nhiều liệu tập huấn luyện làm liệu xác thực, phần liệu cịn lại khơng đủ để xây dựng mơ hình Lúc này, tập xác thực phải thật nhỏ để giữ lượng liệu huấn luyện đủ lớn Xác thực chéo cải tiến xác thực với lượng liệu tập xác thực nhỏ chất lượng mơ hình đánh giá nhiều tập xác thực khác Đây phương pháp kiểm tra sử dụng để đánh giá hiệu suất của mơ hình dự đốn (Kohavi, 1995) Để cài đặt thuật toán học máy, chúng tơi sử dụng máy tính Intel ®, Core i5-5200U CPU 2.2 GHz, Ram 8GB sử dụng gói thư viện sklearn keras Python môi trường lập trình PyScripter Kết xây dựng mơ hình thể thông qua thang đánh giá Accuracy, Sensitivity (Recall), Specificity, Precision, F-1, cross_val_score (xem Bảng 2) Bảng Kết xây dựng mơ hình Thang đánh giá STT Thuật toán học máy Accuracy Sensitivity (Recall) Specificity Precision F-1 cross_val_score Decision Trees 0.92 0.96 0.86 0.90 0.91 0.93 Random Forest 0.94 1.00 0.86 0.90 0.92 0.93 SVM 1.00 1.00 1.00 1.00 1.00 1.00 Logistic Regression 1.00 1.00 1.00 1.00 1.00 0.99 K-Nearest-Neighbors 0.92 1.00 0.82 0.88 0.89 0.90 Naïve Bayes 0.72 0.64 0.82 0.82 0.78 0.64 Multi Layer Perceptron 0.96 0.96 0.95 0.96 0.96 1.00 47 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Từ kết thử nghiệm Bảng 2, dựa vào thang đo độ xác phân loại giải thuật SVM, Logistic Regression Multilayer Perceptron, K-Nearest-Neighbors, Random Forest cho kết phân loại ASD cao Các kết phù hợp với nghiên cứu trước thể Bảng 2.3.3 Thử nghiệm sở liệu thực tế Chúng tiến hành thử nghiệm mơ hình bảy thuật tốn liệu thực tế Kết dự đoán thể Bảng Bảng Kết thực nghiệm bảy thuật toán liệu thực tế Thuật toán DecisionTrees RandomForest SVM LogisticRegression KNN NaiveBayes MLP Số lượng trường hợp dự đoán 17 18 18 18 18 15 18 Tỷ lệ (%) 94% 100% 100% 100% 100% 83% 100% Từ Bảng rút nhận xét, thuật toán RandomForest, SVM, LogisticRegression, KNN, MLP cho kết dự đoán tốt liệu thực tế Điều giải thích liệu xây dựng câu hỏi chuyên gia tâm lý phát triển thử nghiệm nên đặc trưng thể độ tin cậy Mặt khác đặc trưng ứng với trường hợp bị ASD không bị ASD liệu rõ ràng Căn vào kết xây dựng mơ hình, kết thực nghiệm nghiên cứu kết nghiên cứu Thabtah (Thabtah, 2018) mơ hình thuật tốn SVM tin cậy Nó dùng để phát triển ứng dụng sàng lọc ASD trẻ em KẾT LUẬN VÀ KIẾN NGHỊ 3.1 Kết luận Chúng tiến hành đánh giá liệu sàng lọc ASD trẻ em với thuật toán SVM Random Forest, đồng thời khảo sát thêm thuật toán Decision Trees, Logistic Regression, K-Nearest-Neighbors, Naïve Bayes, MLP Kết thử nghiệm bảy thuật toán cho kết phân loại cao phù hợp với nghiên cứu trước Chúng tơi đề xuất sử dụng mơ hình thuật tốn SVM để sử dụng phát triển ứng dụng sàng lọc ASD trẻ em Như vậy, khẳng định liệu dùng để xây dựng mơ hình phân loại ASD trẻ em đáng tin cậy Bộ liệu sử dụng để xây dựng mơ hình hỗ trợ sàng lọc ASD Đây hướng nghiên cứu khả quan áp dụng vào thực tiễn tương lai 48 Phạm Quang Thuận Nguyễn Đình Thuận 3.2 Kiến nghị Trên sở kết thu được, hướng phát triển là: (1) Tiếp tục kết hợp với chuyên gia giáo dục đặc biệt thu thập xây dựng liệu sàng lọc ASD trẻ em Việt Nam; (2) Phát triển ứng dụng sàng lọc ASD cho trẻ em Việt Nam Với tỷ lệ trẻ em Việt Nam mắc chứng ASD ngày tăng, ứng dụng sàng lọc giúp cha mẹ người chăm sóc sàng lọc ASD sớm từ có biện pháp can thiệp kịp thời góp phần giảm gánh nặng cho gia đình xã hội TÀI LIỆU THAM KHẢO Bahassine, S., Madani, A., Al-Sarem, M., & Kissi, M (2018) Feature selection using an improved Chi-square for Arabic text classification Journal of King Saud University-Computer and Information Sciences, 32(2), 225-231 https://doi.org/ 10.1016/j.jksuci.2018.05.010 Basu, K (2018) Autism Screening Adult Data Set : A Machine Learning Approach Retrieved from https://github.com/kbasu2016/Autism-Detection-inAdults/blob/master/proposal.pdf Bone, D., Goodwin, M S., Black, M P., Lee, C C., Audhkhasi, K., & Narayanan, S (2014) Applying Machine Learning to Facilitate Autism Diagnostics: Pitfalls and Promises Journal of Autism and Developmental Disorders, 45(5), 11211136 https://doi.org/10.1007/s10803-014-2268-6 Demirhan, A (2018) Performance of machine learning methods in determining the autism spectrum disorder cases Mugla Journal of Science and Technology, 4(1), 79-84 https://doi.org/10.22531/muglajsci.422546 Doanh, Đ (2018) Cần sớm hoàn thiện đưa tài liệu hỗ trợ trẻ em tự kỷ vào sống Retrieved from http://laodongxahoi.net/can-som-hoan-thien-va-dua-tailieu-ve-ho-tro-tre-em-tu-ky-vao-cuoc-song-1310672.html Fischbach, G D., & Lord, C (2010) The simons simplex collection: A resource for identification of autism genetic risk factors Neuron, 68(2), 192-195 https://doi.org/10.1016/j.neuron.2010.10.006 Geschwind, D H., Sowinski, J., Lord, C., Iversen, P., Shestack, J., Jones, … Spence, S J (2001) The autism genetic resource exchange: A resource for the study of autism and related neuropsychiatric conditions The American Journal of Human Genetics, 69(2), 463-466 https://doi.org/10.1086/321292 Gök, M (2019) A novel machine learning model to predict autism spectrum disorders risk gene Neural Computing and Applications, 31(10), 6711-6717 https://doi.org/10.1007/s00521-018-3502-5 Hall, D., Huerta, M F., McAuliffe, M J., & Farber, G K (2012) Sharing heterogeneous data: The national database for autism research Neuroinformatics, 10(4), 331-339 https://doi.org/10.1007/s12021-012-9151-4 49 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Kohavi, R (1995) A study of cross-validation and bootstrap for accuracy estimation and model selection Paper presented at The Fourteenth International Joint Conference on Artificial Intelligence, Quebec, Canada Mythili, M S., & Shanavas, A R M (2014) A study on autism spectrum disorders using classification techniques International Journal of Soft Computing and Engineering, 4(5), 88-91 McNamara, B., Lora, C., Yang, D., Flores, F., & Daly, P (2018) Machine learning classification of adults with autism spectrum disorder Retrieved from http://rstudio-pubs-static.s3.amazonaws.com/383049_1faa93345b324da6a10815 06f371a8dd.html Nguyễn, N T A (2012) Một số vấn đề chuẩn đoán rối loạn phổ tự kỷ Tạp Chí Khoa Học ĐHQGHN, Khoa Học Xã Hội Nhân Văn, 28, 143-147 Pennington, M L., Cullinan, D., & Southern, L B (2014) Defining autism: Variability in state education agency definitions of and evaluations for autism spectrum disorders Autism Research and Treatment, 2014, 1-8 https://doi.org/10 1155/2014/327271 Ramani, R G., & Sivaselvi, K (2017) Autism spectrum disorder identification using data mining techniques International Journal of Pure and Applied Mathematics, 117(16), 427-436 Robins, D L., Fein, D., Barton, M L., & Green, J A (2001) The modified checklist for autism in toddlers: An initial study investigating the early detection of autism and pervasive developmental disorders Journal of Autism and Developmental Disorders, 31(2), 131-144 https://doi.org/10.1023/A:1010738829569 Stevens, E., Atchison, A., Stevens, L., Hong, E., Granpeesheh, D., Dixon, D., & Linstead, E (2017) A cluster analysis of challenging behaviors in autism spectrum disorder Paper presented at The 16th IEEE International Conference on Machine Learning and Applications, Cancun, Mexico https://doi.org/10.1109/ICMLA.2017.00-85 Thabtah, F A (2017a) Autism screening adult data set Retrieved from https://archive.ics.uci.edu/ml/datasets/Autism+Screening+Adult Thabtah, F A (2017b) Autistic spectrum disorder screening data for adolescent data set Retrieved from https://archive.ics.uci.edu/ml/datasets/Autistic+Spectrum+ Disorder+Screening+Data+for+Adolescent+++ Thabtah, F A (2017c) Autistic spectrum disorder screening data for children data set Retrieved from https://archive.ics.uci.edu/ml/datasets/Autistic+Spectrum+Disor der+Screening+Data+for+Children++ Thabtah, F A (2018) Detecting autistic traits using computational intelligence & machine learning techniques Retrived from http://eprints.hud.ac.uk/id/eprint/ 34844/ The United Nations (n.d) World autism awareness day April Retrieved from https: 50 Phạm Quang Thuận Nguyễn Đình Thuận //www.un.org/en/observances/autism-day/background Towle, P O., & Patrick, P A (2016) Autism spectrum disorder screening instruments for very young children: A systematic review Autism Research and Treatment, 2016, 1-29 https://doi.org/10.1155/2016/4624829 Wall, D P., Kosmicki, J., DeLuca, T F., Harstad, E., & Fusaro, V A (2012) Use of machine learning to shorten observation-based screening and diagnosis of autism Translational Psychiatry, 2(4), 1-8 https://doi.org/10.1038/tp.2012.10 51 ... ADOS), Thang đánh giá tự kỷ Gilliam (Gilliam Autism Rating Scale–GARS), AQ (Nguyễn, 2012) 2.2 Ứng dụng học máy phân loại ASD 2.2.1 Mơ hình học máy phân loại ASD Mơ hình học máy phân loại ASD đề... nhà khoa học áp dụng phương pháp học máy để hỗ trợ việc chẩn đốn Các cơng trình tiêu biểu thể Bảng Bảng Các nghiên cứu ứng dụng học máy phân loại ASD Tác giả Phương pháp Bộ liệu Kết phân loại (Wall,... tế để kiểm nghiệm từ đánh giá hiệu mơ hình học máy Từ nghiên cứu rằng, thuật toán học máy bật SVM, Random forest, ADTree có hiệu xây dựng mơ hình học máy để hỗ trợ trình phân loại ASD 2.3 Đánh

Ngày đăng: 16/10/2020, 23:39