Nghiên cứu mô hình Ensembles và áp dụng dự đoán bệnh thận tại Bệnh viện đa khoa Điện Biên

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	490,78 KB

Nội dung

Bài viết dùng mô hình Cây quyết định (Decision Trees) của Máy học để dự đoán bệnh thận tại bệnh viên đa khoa tỉnh Điện Biên. Để cải thiện khả năng dự đoán, Chúng tôi tìm hiểu và cài đặt hai mô hình ensembles thường sử dụng và là những mô hình hiệu quả nhất trong Máy học: Random Forests và Gradient Boosted Trees.

ISSN 2354-0575 NGHIÊN CỨU MƠ HÌNH ENSEMBLES VÀ ÁP DỤNG DỰ ĐOÁN BỆNH THẬN TẠI BỆNH VIỆN ĐA KHOA ĐIỆN BIÊN Nguyễn Văn Hậu1, Nguyễn Thị Hải Năng1, Nguyễn Tiến Tự2, Nguyễn Ngọc Tiến2 Trường Đại học Sư phạm Kỹ thuật Hưng Yên Bệnh viện Đa khoa tỉnh Điện Biên Ngày tòa soạn nhận báo: 20/10/2017 Ngày phản biện đánh giá sửa chữa: 25/11/2017 Ngày báo chấp nhận đăng: 05/12/2017 Tóm tắt: Máy học áp dụng rộng rãi nhiều ứng dụng, bao gồm chẩn đoán y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng khốn, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, dịch tự động, chơi trò chơi cử động rô-bốt (robot locomotion) Hàng năm, cộng đồng nghiên cứu cộng đồng cơng nghiệp có hội thảo chăm sóc sức khỏe sử dụng kiến thức Máy học, Trí tuệ nhân tạo [7] Vic Gundotra, cựu giám đốc Google Microsoft, nhận định vòng năm tới, Máy học trợ thủ đắc lực cho bác sĩ [11] Trong báo chúng tơi dùng mơ hình Cây định (Decision Trees) Máy học để dự đoán bệnh thận bệnh viên đa khoa tỉnh Điện Biên Để cải thiện khả dự đốn, Chúng tơi tìm hiểu cài đặt hai mơ hình ensembles thường sử dụng mơ hình hiệu Máy học: Random Forests Gradient Boosted Trees Từ khóa: Cây định, Random Forests, Gradient Boosted Trees, Mơ hình Ensembles, Máy học Giới thiệu Lịch sử Máy học có từ lâu, thực có nhiều đột phá nhà khoa học máy tính áp dụng kỹ thuật Deep Learning (học nhiều tầng) vào nhiều sản phẩm có tính ứng dụng hiệu thương mại công nghiệp Hiện nay, công ty hàng đầu cơng nghệ có đội ngũ nghiên cứu phát triển sản phẩm Máy học: Google, Facebook, IBM, Intel, Amazon, Microsoft, Apple, v.v Enlitic công ty dùng deep learning, mang lại nhiều thành công cho Máy học, nhằm giúp bác sĩ khám bệnh nhanh xác [8] Mỗi bác sĩ chẩn đoán cho bệnh nhân, họ giải tập liệu phức tạp Mục đích trường hợp đưa định điều trị tối ưu dựa nhiều hình thức thông tin lâm sàng, lịch sử bệnh nhân, triệu chứng, xét nghiệm hình ảnh y khoa Chất lượng số lượng liệu cải thiện nhanh chóng - ước tính phát triển 50 lần thập kỷ này, lên đến 25.000 petabyte toàn giới vào năm 2020 Đội ngũ chuyên gia y tế nhà khoa học liệu hàng đầu giới muốn cải thiện kết dự báo bệnh nhân sử dụng liệu nhằm khai thác thông tin dự liệu Enlitic sử dụng deep learning để tìm tri thức từ hàng tỉ trường hợp lâm sàng Enlitic xây dựng giải pháp đểgiúp bác sĩ tận dụng kiến thức chuyên sâu cộng đồng y tế cho bệnh nhân Jensen Huang, giám đốc điều hành Nvidia – cơng ty cơng nghệ tiếng California, dự đốn vấn đề chăm sóc sức khỏe xe tơ tự hành sớm đảm nhiệm Trí tuệ Nhân tạo [14] Nhiều nhóm nghiên cứu Máy học đầu tư vào lĩnh vực y tế chăm sóc sức khỏe [9, 10] IBM dần thực “ván cược lớn 64 nhất”: Thay nhiều ngày tra cứu hàng mớ hồ sơ bệnh án tài liệu chuyên ngành để đưa kết luận chẩn đoán trị liệu cho ca bệnh với xác suất sai không tránh khỏi, bác sỹ cần nhập liệu bệnh nhân cho Watson, coi cách mạng IBM dùng Máy học, phân tích, so sánh với hàng trăm ngàn tài liệu kho kiến thức khổng lồ đưa gợi ý hướng điều trị xác sau vài giây [12] Cuối cùng, phải kể tới Watson, kỳ vọng mang lại chuyển biến tích cực cho ngành y Việt Nam [13] Hình Sử dụng Máy học cho toán liệu lớn làm đòn bẩy cho cách mạng lĩnh vực thiết yếu điển chăm sóc sức khỏe sứ mệnh tầm nhìn IBM [13] Bài báo nghiên cứu giải thuật Cây định (Decision Trees), giải thuật thông dụng Máy học, áp dụng vào dự đoán bệnh nhân mắc bệnh thận tại bệnh viện Đa khoa tỉnh Điện Biên Chúng chọn Decision Trees có ưu điểm như: - Khơng cần tiền xử lý liệu (normalization, standardization); Khoa học & Công nghệ - Số 16/Tháng 12 - 2017 Journal of Science and Technology ISSN 2354-0575 - Thuật toán làm việc hiệu liệu có scale hồn tồn khác nhau, pha trộn đặc tính nhị phân (binary) liên tục (continuous); - Thuật tốn định dễ dàng hình ảnh hóa dễ hiểu cho người không am hiểu Máy học; - Thuật tốn khơng thay đổi liệu mở rộng Những ưu điểm Cây định phù hợp với tính chất toán: Khi bổ sung thêm bệnh án, thuật tốn khơng cần thay đổi nhiều Quan trọng lý giải mơ hình có khả thuyết phục người chuyên gia Máy học Đây ưu điểm lớn Cây định, so với mơ hình khác Để cải thiện khả dự đốn chúng tơi sử dụng mơ hình Random Forests, phương pháp thường dùng Máy học Phần lại báo có cấu trúc sau Phần giới thiệu mơ hình Cây định (Decision Trees) Phần trình bày mơ hình Ensembles, phần mô tả liệu thu thập Phần trình bày kết Phần cuối kết luận Mơ hình định (Decision Trees) Cây định thuật toán Máy học có giám sát dùng cho tốn phân lớp (classification) hồi qui (regression) Cây định hiệu nhiều lớp tốn Nó sử dụng nhiều phần dễ hiểu với người, phần đưa lời giải thích xác cách thức mơ hình đưa phân loại hay dự đoán trường hợp Chúng ta theo dõi q trình học đưa dự đoán định thơng qua nhánh cây, thực chất chuỗi (rất nhiều) câu lệnh if – then Để biết thêm, người đọc nên tham khảo chương sách Mitchell [1] Hình Ví dụ định cho toán hoa Ailen [3] Cây định cấu trúc dạng cây, nút phía (internal node) biểu thị cho câu hỏi (kiểm tra đặc trưng), nhánh biểu diễn câu trả lời câu hỏi đó, (leaf node) biểu diễn nhãn (class label) Mỗi định (decision) xác định đường từ gốc tới (thông qua thứ tự kiểm tra đặc trưng) Khoa học & Công nghệ - Số 16/Tháng 12 - 2017 Mỗi đường (từ gốc tới lá) thể cho định tương đương với luật phân lớp Hình minh họa việc áp dụng định cho việc phân lớp loài hoa Ailen (setosa, versicolor, virginica) Mỗi nút nhãn (một loài hoa) Mỗi đường từ gốc tới giải thích (luật) cho việc định nhãn Như Journal of Science and Technology 65 ISSN 2354-0575 thấy, định dễ hiểu dễ giải thích, chúng hình ảnh hóa Ý tưởng trình xây dựng định việc tìm câu hỏi (đặc trưng) để câu trả lời cho nhiều thông tin liên quan tới dự đoán Giả sử, câu hỏi yes/no mà kết cho trả lời “yes”, sai câu lời “no” (hoặc ngược lại), câu hỏi tuyệt vời, cho nhiều thơng tin Ngược lại, câu hỏi yes/no mà kết không trả lời “yes”, không trả lời “no”, câu hỏi khơng cho nhiều thông tin Vậy, làm để đo “thơng tin”? Để định lượng thông tin, người ta dùng entropy, giới thiệu nhà toán học Shannon Entropy thường dùng với nghĩa hỗn loạn (hay không chắn) Trong phần này, dùng entropy để đánh giá độ không chắn liên quan tới liệu Mục đích chia thành tập có độ entropy nhỏ dần Có tiêu chí khác để tách hai tập liệu, dựa vào số Gini Để biết thêm, người đọc đọc chương [1] chương [2] Mô hình Ensembles cho định 3.1 Mơ hình Ensembles Tại khơng thể huấn luyện thuật tốn Máy học tập liệu sử dụng dự đoán từ tập liệu để đánh giá thuật toán Máy học? Câu trả lời đơn giản overfitting, tượng thường gặp Máy học thuật toán thực thi tốt tập liệu huấn luyện, lại tập liệu Hãy tưởng tượng thuật toán ghi nhớ quan sát trình huấn luyện bạn đánh giá thuật toán học máy bạn liệu sử dụng để huấn luyện thuật tốn, thuật tốn có điểm số hoàn hảo tập liệu huấn luyện Nhưng thuật tốn dự đốn liệu (unseen data) lại Tóm lại, overfitting xảy thực tốt mơ hình huấn luyện (training set) lại cho dự đốn tập liệu (test sets) Mà mục tiêu Máy học cần tạo mô hình có khả dự đốn tốt cho liệu (unseen data) Một nhược điểm lớn định mơ hình dễ bị rơi vào trạng thái overfitting Chính vậy, hầu hết ứng dụng, phương pháp ensembles thường dùng thay cho việc dùng đơn lẻ mơ hình Cây định Ensembles phương pháp kết hợp nhiều mơ hình Máy học nhằm tạo mơ hình mạnh Có nhiều mơ hình ensembles Máy học, nhiên có hai mơ hình ensembles dùng cho nhiều loại ứng dụng khác dùng Cây định chứng tỏ tính hiệu cao: Random Forests Gradient Boosted Decision Trees 3.2 Random Forests Random Forests dùng để khắc phục trạng 66 thái overfitting, nhược điểm Decision Trees Thuật toán tạo tập Cây định (Decision Tree), có khác Sự đời thuật toán xuất phát từ ý tưởng đưa dự đốn tốt, lại dễ bị overfitting Do vậy, tạo nhiều cây, tất dự đoán tốt bị overfitting overfitiing theo nhiều hướng khác nhau; giảm tổng overfitting cách lấy trung bình tập Điều ý là, Random Forests tận dụng tính hiệu mơ hình Decsision Tree, việc giảm overfitiing tính tốn/chỉ toán học Để xây dựng Random Forests, cần tạo nhiều định Mỗi ngồi nhiệm vụ đảm nhận nhiệm vụ dự đốn, phải khác so Random Forests lấy tên từ việc trích ngẫu nhiên trình xây dựng để đảm bảo khác Có hai cách tạo Random Forests: 1) lựa chọn quan sát để tạo cây; 2) lựa chọn đặc tính q trình tách (split) Trong báo này, sử dụng thư viện Scikit – learn [4] Scikit-learn (viết tắt sklearn) thư viện mã nguồn mở dành cho học máy - ngành trí tuệ nhân tạo, mạnh mẽ thông dụng với cộng đồng Python, thiết kế NumPy SciPy Scikit-learn chứa hầu hết thuật toán machine learning đại Để xây dựng cây, người dùng cần dùng bootstrap mẫu cho tập liệu Số (n_ samples cây) tạo cách ngẫu nhiên Dữ liệu cho lớn liệu ban đầu, số quan sát thiếu, số khác bị lặp lại Sau định tạo từ tập liệu Tuy nhiên, so với thuật tốn định, thuật tốn có biến đổi chút Cụ thể, thay cho việc tìm kiếm nút tốt nhất, thuật toán lựa chọn ngẫu nhiên tập đặc tính, tìm đặc tính tốt trong tập Tổng đặc tính lựa chọn điều chỉnh thông qua tham số max_features Như vậy, việc lựa chọn tập đặc tính lặp lại tách biệt nút, nên nút tạo định dùng tập khác đặc tính, với việc sử dụng bootstrap mẫu tạo cho định khác Một vấn đề đặt việc lựa chọn tham số max_features Nếu thiết lập max_ features = n_features, điều đồng nghĩa với việc nút (để tách) lựa chọn tất thuộc tính tập liệu, cộng thêm với việc khơng lựa chọn ngẫu nhiên đặc tính (mà dựa vào thuật tốn tính độ hỗn loạn giống mơ hình Decision Trees) Nếu thiết lập max_features = 1, phép tách khơng có lựa chọn Do vậy, thiết lập tham số max_ features lớn, Random Forests có nhiều tương đồng, chúng thỏa mãn liệu Khoa học & Công nghệ - Số 16/Tháng 12 - 2017 Journal of Science and Technology ISSN 2354-0575 dễ dàng, việc dùng đặc tính khác biệt Trong thiết lập tham số max_features nhỏ, Random Forestscác tương đồng hơn, có độ sâu đủ lớn thể thỏa mãn liệu Người đọc tham khảo thêm [5,6] Để có dự đốn dùng Random Forests, thuật toán phải quan tâm tới dự đoán rừng Tiếp đó, có chiến lược khác nhau, tùy thuộc vào kiểu dự đốn: - Với tốn regression, tính trung bình kết để đưa dự đoán cuối - Với toán classification, chiến lược “soft voting” áp dụng Trong đưa “soft” prediction, tức xác suất cho kết đưa Xác suất dự đoán tính trung bình tất cây, lớp có xác suất cao 3.3 Gradient Boosted Trees (Gradient Boosting Machines) Mơ hình Gradient Boosted Trees (đơi cịn có tên Stochastic Gradient Boosting hay Gradient Boosting Machines) thuật toán phức tạp hiệu kĩ thuật ensembles Khác với Random Forests, Gradient Boosted Trees tạo cách tuần tự, sau cố gắng khắc phục lỗi trước Sẽ khơng có ngẫu nhiên q trình tạo Gradient Boosted Trees; thay vào đó, kĩ thuật pre-pruning dùng Cây Gradient Boosted Trees thường có độ cao thấp (từ tới 5), điều làm mơ hình chiếm nhớ cho kết nhanh Ý tưởng Gradient Boosted Trees kết hợp nhiều mơ hình đơn giản (weak learners), thấp (shallow trees) Mỗi dự đoán tốt cho phần liệu, sau kết hợp nhiều lại tăng khả dự đốn cho mơ hình Một điểm đáng ý Gradient Boosted Trees thường trội thuật toán Máy học khác thường dùng rộng rãi ứng dụng thực tế Tuy nhiên, việc thiết lập tham số yêu cầu chặt chẽ so với Random Forests Một tham số quan trọng learning_rate, kiểm soát mức độ sửa lỗi Việc tăng learning_rate n_estimators làm tăng độ phức tạp mơ hình, mơ hình có nhiều việc phải làm nhằm sửa lỗi cho tạo Dữ liệu chương trình 4.1 Dữ liệu Dữ liệu thu thập từ bệnh án bệnh viện đa khoa tỉnh Điện Biên Số bệnh nhân làm xét nghiệm chẩn đoán bệnh năm 2015 – 2016 với tổng số lần xét nghiệm 166.823 lượt mẫu đạt tiêu chuẩn 3.648 lần Mặc dù có nhiều thơng tin, chúng tơi lựa chọn 15 đặc tính dạng số, cột cuối đặc tính cần dự đốn: Khoa học & Công nghệ - Số 16/Tháng 12 - 2017 Bảng Dữ liệu thu thập từ bệnh viện đa khoa Điện Biên Số TT Đặc tính age sex wbc ly ne rbc hgb hct 10 11 12 plt na kl prtp 13 14 15 16 al ur cr absence Giải thích Tuổi Gới tính White blood cell (bạch cầu máu) Lymphocytes (bạch cầu Lympho) Newtrophylia (bạch cầu đoạn trung tính) Red blood cell (hồng cầu máu) Hemoglobin (HGB - huyết sắc tố) Hematocrit (Hct – thể tích khối hồng cầu) Platelet (tiểu cầu) Natri máu Kali máu Protein máu toàn phần Albumin Urê máu Creatinin 1: mắc bệnh; 0: khơng mắc bệnh 4.2 Chương trình Trong phần này, chúng tơi cài đặt chương trình, chạy thử tổng hợp kết Chú ý Chương trình cần cho chương trình phía sau (2, 3, 4), Chương trình cần chương trình Chương trình sau hiển thị thơng tin liệu (kích cỡ số hàng, số cột) dòng liệu đầu tiên: from pandas import read_csv import os duongDan = os.getcwd() + ‘\data\\ than_final.csv’ tenCot = [‘age’,’sex’,’WBC’,’LY’, ’NE’,’RBC’,’HGB’,’HCT’,’PLT’,’Na’ ,’KL’, ’Protein’,’Albumin’,’Ure’ ,’Creatinin’,’absence’] duLieu = read_csv(duongDan, names=tenCot) from sklearn import preprocessing print (duLieu.shape) # (3648, 16): Dữ liệu có 3648 hàng 16 cột print (duLieu.head()) # Hiển thị hàng from sklearn import preprocessing maTran= duLieu.values X = maTran[:,:-1] y = maTran[:,-1] dieuChinh = preprocessing MinMaxScaler(feature_range= (0,1)) Journal of Science and Technology 67 ISSN 2354-0575 X_dieuChinh = dieuChinh.fit_ transform(X) Chương trình 1: Kết nối hiển thị thông tin liệu Kết Chương trình cho kích cỡ liệu hàng đầu tiên: (3648, 16) age sex WBC LY NE RBC HGB HCT PLT Na K Protein 78 6.13 14.4 77.7 2.98 88 25.5 98.0 139.80 3.70 71.28 16 7.69 13.6 73.5 3.64 81 25.5 249.0 141.90 3.70 60.77 51 10.13 14.8 82.2 3.74 127 35.6 179.0 138.95 3.42 74.10 79 4.33 25.5 62.6 3.34 101 30.8 260.0 134.35 3.06 73.90 42 3.53 13.0 75.0 1.58 47 13.0 52.0 125.50 6.82 66.50 Albumin Ure Creatinin absence 36.3 2.988 55.43 1 28.2 18.003 566.34 38.9 4.200 94.00 33.7 6.400 476.00 32.6 50.400 2246.00 Sau mơ hình Decision Trees cho tốn dự báo bệnh: from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier tree = DecisionTreeClassifier() X_train, X_test, y_train, y_test = train_test_split(X_dieuChinh, y, test_size=0.33, random_state=0) tree.fit(X_train, y_train) print(“accuracy on training set: %f” % tree.score(X_train, y_train)) print(“accuracy on test set: %f” % tree.score(X_test, y_test)) Chương trình 2: Chương trình dự đốn bệnh Thận bệnh viện đa khoa Điện Biên sử dụng mơ hình Decision Trees Chương trình cho kết quả: accuracy on training set: 1.000000 accuracy on test set: 0.930921 Chương trình cho ta thấy rõ tượng overfitting xảy Độ xác tập huấn luyện (training set) 100%, tập kiểm tra (test set) 93% Chương trình sau tạo Random Forests, trình bày phần trước, nhằm tránh overfitting để tăng độ xác cho dự đốn Trong thư viện sklearn có sử dụng nhiều tham số mơ hình RandomForestClassifier() Tuy nhiên quan tâm tham số: 68 - bootstrap: boolean, optional (default=True), để xác định xem có dùng mẫu bootstrap dựng hay không - max_features: int, float, string or None, optional (default=“auto”), để xác định số đặc tính dùng để chọn phép tách tốt nhất: + ‘auto’, max_features = sqrt(n_ features) + float, max_features = int(n_ features * n_features) - n_estimators: integer, optional (default=10), số Random Forests - criterion: string, optional (default=”gini”), dùng để xác định chất lượng phép tách, có lựa chọn “gini” “entropy” from sklearn.ensemble import RandomForestClassifier for i in (100,500,1000,1500,2000): # tách liệu thành tập: huấn luyện (training) kiểm tra (test) X_train, X_test, y_train, y_test = train_test_split(X_dieuChinh, y, test_size=0.25, random_state=1) # tạo forest If “auto”, then max_ features=sqrt(n_features) forest = RandomForestClassifier(bootstrap=True, n_estimators=i, criterion=’gini’, max_features= ‘auto’) # huấn luyện mơ hình tâp huấn luyện forest.fit(X_train, y_train) print(“accuracy on training set: %f” % forest.score(X_train, y_train)) print(“accuracy on test set: %f” % forest.score(X_test, y_test)) Chương trình 3: Chương trình dự đốn bệnh Thận bệnh viện đa khoa Điện Biên sử dụng mơ hình Random Forests Bảng sau tổng hợp kết Chương trình sau thay đổi hai tham số quan trọng n_ estimators (là số mà mơ hình Random Forests tạo ra) max_features (số đặc tính tham gia vào trình tách nút) Bảng Kết chạy chương trình dùng mơ hình ensembles n_esti‘auto’ mators/ Training| max_fea- Test tures 0.5 0.75 1.0 Training| Training| Training| Test Test Test 100 0.9997 | 0.9616 0.9996 | 0.9616 0.9996 | 0.9509 0.9996 | 0.9510 500 0.9997 | 0.9638 0.9996 | 0.9627 0.9996 | 0.9518 0.9996 | 0.9518 1000 0.9997 | 0.9638 0.9996 | 0.9616 0.9996 | 0.9509 0.9996 | 0.9510 Khoa học & Công nghệ - Số 16/Tháng 12 - 2017 Journal of Science and Technology ISSN 2354-0575 1500 0.9997 | 0.9649 0.9996 | 0.9627 0.9996 | 0.9509 0.9996 | 0.9510 2000 0.9997 | 0.9649 0.9996 | 0.9627 0.9996 | 0.9594 0.9996 | 0.9518 Theo kết Bảng 2, Random Forests cho dự đoán tốt 96.49% số tạo 1500 2000 Chương trình sau cài đặt mơ hình Gradient Boosted Trees cho toán dự báo bệnh thận: from sklearn.ensemble import GradientBoostingClassifier gbrt = GradientBoostingClassifier(n_ estimators = 1000, learning_rate= 0.07, max_features= ‘auto’, random_ state=0, max_depth=4) X_train, X_test, y_train, y_test = train_test_split(X_dieuChinh, y, test_size=0.25, random_state=0) gbrt.fit(X_train, y_train) print(“accuracy on training set: %f” % gbrt.score(X_train, y_train)) print(“accuracy on test set: %f” % gbrt.score(X_test, y_test)) Hình Mức độ quan trọng đặc tính mơ hình Random Forests Chương trình 4: Chương trình dự đốn bệnh Thận bệnh viện đa khoa Điện Biên sử dụng mơ hình Gradient Boosted Trees Chương trình cho kết quả: accuracy on training set: 1.000000 accuracy on test set: 0.963816 Để xem đánh giá mức độ quan trọng đặc tính mơ hình, chúng tơi có dựng đồ thị quan sát Chương trình xây dựng đồ thị (Hình 4) cho mơ hình Gradient Boosted Trees import matplotlib.pyplot as plt plt.plot(gbrt.feature_importances_, ‘o’) plt.xticks(range(X.shape[1]), tenCot, rotation=90) plt.show() Chương trình 5: Chương trình hiển thị mức độ quan trọng đặc tính mơ hình Gradient Boosted Trees Hình Mức độ quan trọng đặc tính mơ hình Decision Trees Khoa học & Cơng nghệ - Số 16/Tháng 12 - 2017 Hình Mức độ quan trọng đặc tính mơ hình Gradient Boosted Trees Quan sát Hình 3, 4, 5, nhận thấy đặc tính Creatinin đánh giá quan trọng mơ hình, đặc biệt quan trọng mơ hình Decision Trees (xấp xỉ 0.8) Ngồi đặc tính Creatinin ra, đặc tính mơ hình Decision Trees khơng có chênh lệch nhiều Trong mơ hình Random Forests có khác biệt hơn; đáng ý đặc tính Ure coi trọng (gần 0.25 so với 0.3 Creatinin) Với mơ hình Gradient Boosted Trees khác, Ure coi trọng sau Creatinin, nhỉnh Protein Albumin không nhiều Kết luận Bài báo tiến hành tìm hiểu mơ hình định (Decision Trees) Cùng với ưu điểm dễ hiểu không cần tiền xử lý liệu, Decision Trees có nhược điểm quan trọng overfitting Để xử lý vấn đề này, chúng tơi tìm hiểu sử dụng mơ hình ensembles Cụ thể chúng tơi tìm hiểu cài đặt hai mơ hình ensembles coi hiệu nhất: Random Forests Gradient Boosted Trees Journal of Science and Technology 69 ISSN 2354-0575 Bài báo có hai đóng góp Thứ nhất, chúng tơi tiến hành thu thập liệu từ bệnh án bệnh viên đa khoa Điện Biên Chúng lọc bỏ bệnh án không đủ liệu cột đặc tính khơng cần thiết Thêm nữa, chúng tơi phải xử lý số thông tin thiếu Cuối liệu gồm 3648 bệnh án với 15 đặc tính độc lập đặc tính dự đốn (bị hay không bị) Thứ hai, cài đặt có kết dự đốn với mơ hình Decision Trees với độ xác 93.09%; với hai mơ hình ensembles cho kết tốt với độ xác tương ứng là: 96.49% 96.38% Cơng việc tới mở rộng kết đạt báo hai công việc Thứ nhất, chúng tơi muốn tìm hiểu thêm mơ hình khác Máy học (machine learning algorithms), ngồi hai mơ hình mà báo bàn tới Cụ thể chúng tơi muốn tìm hiểu so sánh kết với số mơ hình học có giám sát: Decision Trees, K – nearest neighbor, Neuron Network Thứ hai, chúng tơi rà sốt lại trao đổi với bác sĩ chuyên khoa để thực thi thêm bệnh án mới, nhằm kiểm định lại chương trình chúng tơi Một hướng khác chúng tơi muốn áp dụng mơ hình xây dựng vào liệu (ở bệnh viện khác, vùng khác) để có thêm thơng tin tính hiệu mơ hình Sau tìm hiểu so sánh vậy, chúng tơi tin tìm mơ hình thực phù hợp với tốn dự đốn bệnh thận Chúng nhận thức việc chuẩn đốn bệnh cơng việc khó, địi hỏi tính chun mơn cao quan trọng, liên quan tới sức khỏe người Tuy nhiên, nhận thấy với phát triển khoa học máy tính gần đây, đặc biệt ngành Trí tuệ Nhân tạo Máy học, có nhiều ứng dụng quan trọng có hiệu cao Do vậy, chúng tơi tin nghiên cứu mở rộng ứng dụng vào hỗ trợ bệnh nhân bác sĩ Bệnh viện Đa khoa tỉnh Điện Biên Lời cảm ơn Bài báo tài trợ trung tâm Nghiên cứu ứng dụng Khoa học Công nghệ, trường Đại học Sư phạm Kỹ thuật Hưng Yên, mã số UTEHY.T026.P1718.01 Các tác giả cảm ơn bác sĩ bệnh viện đa khoa Điện Biên tận tình giải thích kiến thức chuyên ngành Tài liệu tham khảo [1] Tom M Mitchell, Machine Learning, McGrawHill, 1997, 432 pages, ISBN: 0070428077 [2] Toby Segaran, Programming Collective Intelligence, O’Reilly August, 2007, 362 pages, ISBN10: 0596529325 [3] http://archive.ics.uci.edu/ml/ [4] http://scikit-learn.org/ [5] http://scikit.learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html [6] Andreas C Müller, Sarah Guido, Introduction to Machine Learning with Python: A Guide for Data Scientists, O’Reilly Media; 1st (October 21, 2016) 394 pages, ISBN-10: 1449369413 [7] http://mucmd.org/ [8] http://www.enlitic.com/ [9] http://staging.csml.ucl.ac.uk/clinics/ [10] https://www.data-service-alliance.ch/activities [11].https://www.recode.net/2016/12/5/13837908/machine-learning-doctors-vic-gundotra-recodepodcast [12].http//genk.vn/ibm-va-cuoc-cach-mang-tri-tue-nhan-tao-mang-ten-watson-2016083015295375 3.chn [13].http://genk.vn/tri-tue-nhan-tao-ibm-watson-se-duoc-trien-khai-voi-ngan-hang-benh-vien-vatruyen-hinh-cap-tai-viet-nam-20170420183145415.chn [14] https://www.technologyreview.com/s/607831/nvidia-ceo-software-is-eating-the-world-but-aiis-going-to-eat-software/ STUDY ENSEMBLE METHODS AND PREDICT KIDNEY DISEASE FOR DIEN BIEN GENERAL HOSPITAL Abstract: Machine learning has now been widely applied in the modern life, ranging from medical diagnostics to counterfeit credit cards, stock market analysis, DNA sequencing, speech and writing recognition, auto translate, play games and robot locomotion Every year, the research community and the industrial community have conducted health care seminars using the knowledge of Machine Learning, Artificial Intelligence [7] Vic Gundotra, a former director at Google and Microsoft, said that within next five years, Machine Learning would be a powerful assistant to doctors In this paper, we use Decision Trees model to predict kidney disease for the general hospital Dien Bien In order to improve the accuracy, we study and install two models of ensembles which commonly used and are the most effective models in machine learning: Random Forests and Gradient Boosted Trees Keywords: Decision Trees, Random Forests, Gradient Boosted Trees, Ensemble methods, Machine learning 70 Khoa học & Công nghệ - Số 16/Tháng 12 - 2017 Journal of Science and Technology ... gbrt.score(X_test, y_test)) Hình Mức độ quan trọng đặc tính mơ hình Random Forests Chương trình 4: Chương trình dự đốn bệnh Thận bệnh viện đa khoa Điện Biên sử dụng mơ hình Gradient Boosted Trees... set: %f” % tree.score(X_test, y_test)) Chương trình 2: Chương trình dự đoán bệnh Thận bệnh viện đa khoa Điện Biên sử dụng mơ hình Decision Trees Chương trình cho kết quả: accuracy on training... Chương trình dự đốn bệnh Thận bệnh viện đa khoa Điện Biên sử dụng mơ hình Random Forests Bảng sau tổng hợp kết Chương trình sau thay đổi hai tham số quan trọng n_ estimators (là số mà mơ hình Random

Ngày đăng: 07/05/2021, 13:42