Xây dựng mô hình chẩn đoán bệnh dựa trên phương pháp rừng ngẫu nhiên luận văn thạc sỹ ngành công nghệ thông tin

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC GIAO THƠNG VẬN TẢI PHAN TẠI THIỆN XÂY DỰNG MƠ HÌNH CHẨN ĐOÁN BỆNH DỰA TRÊN PHƢƠNG PHÁP RỪNG NGẪU NHIÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.01 LUẬN VĂN THẠC SỸ KỸ THUẬT HƢỚNG DẪN KHOA HỌC TS BÙI NGỌC DŨNG TP Hồ Chí Minh – 2018 i LỜI CẢM ƠN Lời cảm ơn xin gửi đến TS Bùi Ngọc Dũng – Giảng Viên trường Đại học Giao Thông Vận Tải, cảm ơn thầy truyền đạt kiến thức, kinh nghiệm gợi ý giúp tơi hồn thành luận văn Tơi xin chân thành cảm ơn Ban Giám hiệu, q Thầy Cơ Khoa Công nghệ thông tin, Khoa Sau đại học trường Đại học Giao Thông Vận Tải tạo điều kiện cho thời gian thực luận văn Sau thời gian nghiên cứu tìm hiểu, tơi đạt thu lượm đạt kết định Ngồi cố gắng thân, tơi cịn nhận nhiều quan tâm bảo nhà trường, Khoa Công Nghệ Thông tin, quý Thầy Cơ, gia đình bạn bè, … Trong q trình nghiên cứu, tìm hiểu hồn thành đề tài đồ án tốt nghiệp “Xây dựng mơ hình chẩn đốn bệnh dựa phƣơng pháp rừng ngẫu nhiên”, thu nhận thêm kiến thức em nhận thấy mơ hình chẩn đốn bệnh dựa phương pháp rừng ngẫu nhiên học máy lĩnh vực nghiên cứu rộng lớn, nhiều điều mà cần khám phá ii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Tài liệu nghiên cứu có nguồn gốc rõ ràng, trung thực, thu thập từ nguồn liệu khác nhau.Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, tơi cam đoan toàn phần hay phần nhỏ luận văn chưa công bố hay sử dụng để nhận cấp nơi khác Trong trình nghiên cứu, hỗ trợ cấp lãnh đạo liệu thu thập trình nghiên cứu thực theo quy định Khơng có sản phẩm/nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định Luận văn chưa nộp để nhận cấp trường đại học sở đào tạo khác Hà Nội, ngày 15 tháng 11 năm 2017 Tác giả luận văn Phan Tại Thiện iii DANH MỤC CÁC CHỮ VIẾT TẮT SVM support vector machine WHO World Health Organization AO Agent Orange SE Standard Error iv DANH SÁCH HÌNH VẼ Hình 1.1: Cấu trúc hóa học dẫn chất Hình 1.2: Qui trình xây dựng mơ hình máy vector hỗ trợ SVM hồi qui Hình 1.3 Sự phân bố 93 dẫn chất chalcon dựa mặt phẳng tạo PC phân tích NL- PCA Các chất đánh dấu hình elip nhỏ: liệu gây nhiễu loại bỏ 11 Hình 1.4 Đường hồi quy tuyến tính giá trị thực nghiệm giá trị dự đốn mơ hinh thứ cấp E (a) mơ hình F xây dựng từ tồn 67 dẫn chất chalcon (b) 13 Hình 1.5 Mối quan hệ cấu trúc tác dụng kháng sốt rét dự đoán dẫn chất 2’-hydroxychalcon 17 Hình 2.1 Mơ hình Random Forest 36 Hình 2.2 Phương pháp bootstrap 37 Hình 2.3 Các bước random forest 41 Hình 2.4 Sử dụng OBB ước lượng lỗi 42 Hình 2.5 Mơ hình huấn luyện 45 48 51 52 Hình 3.4: Các đường kính sử dụng để đo độ mịn 53 Hình 3.5 Sử dụng đường cung để đo độ lõm 54 Hình 3.6: Các đoạn sử dụng tính tốn đối xứng 54 Hình 3.7: Trình tự phép đo để tính tốn số chiều Fractal 54 Hình 3.8 Số lượng hai tập hợp liệu lành tính ác tính 57 v Hình 3.9 Phân bố số đặc trưng 58 Hình 3.10 Phương pháp phân lớp rừng ngẫu nhiên 59 Hình 3.11 Độ xác chọn biến 63 Hình 3.12 Mơ hình CART 65 vi DANH SÁCH BẢNG Bảng 1.1 Nhóm thơng số mơ tả lựa chọn từ FSelector dùng để xây dựng mơ hình 10 Bảng 1.2 Kết SVM hồi quy phi tuyến tính mơ hình thứ cấp A-E mơ hình F với tồn sở liệu 12 Bảng 1.3 Cấu trúc dẫn chất 2’-hydroxychalcon giá trị sinh học dự đốn từ mơ hình F 14 Bảng 3.1 Thuộc tính đặc trưng ảnh 55 Bảng 3.2 Thuộc tính liệu mẫu 56 vii MỤC LỤC Lời nói đầu 1 Đặt vấn đề Đối tượng phạm vi nghiên cứu 3 Hướng nghiên cứu đề tài Những nội dung nghiên cứu Chương Tổng quan hệ hỗ trợ định 1.1 Giới thiệu học máy y tế 1.2 Một số hệ thống hỗ trợ định chẩn đoán bệnh 1.3 Một số phương pháp học máy 25 Chương Chẩn đoán bệnh sử dụng rừng ngẫu nhiên 27 2.1 Mơ hình định 27 2.2 Biểu diễn định 28 2.3 Các bước xây dựng định 29 2.4 Cây định so với kỹ thuật khai phá khác 30 2.5 Khai phá liệu trích chọn thuộc tính 32 2.6 Giới thiệu sơ lược thuật toán rừng ngẫu nhiên 35 2.7 Giải thuật rừng ngẫu nhiên 39 2.8 Một số đặc điểm giải thuật Random Forest 41 2.9 Thuật toán di truyền 44 2.10 Phương pháp huấn luyện 44 Chương Ứng dụng phân loại chẩn đoán bệnh 48 48 viii 3.2 Dữ liệu ung thư phổi 49 3.3 Chẩn đoán ung thư phổi phương pháp Rừng ngẫu nhiên 56 3.4 Kết luận hướng phát triển 66 Phương pháp nghiên cứu 67 Ý nghĩa khoa học đề tài 67 Dự kiến kế hoach thực dề tài 67 Tài liệu tham khảo 68 LỜI MỞ ĐẦU Đặt vấn đề: Ứng dụng công nghệ thông tin y học đóng vai trị quan trọng Bên cạnh chẩn đoán cận lâm sàng dựa hình ảnh y tế với phần mềm làm tăng độ nét ảnh tự nhận dạng bất thường ảnh hệ thống chẩn đoán lâm sàng dựa triệu chứng lâm sàng quan tâm đặc biệt Các hệ thống chẩn đoán bệnh áp dụng nhiều quản lý rủi ro công ty bảo hiểm hệ hỗ trợ định Với công ty bảo hiểm, đặc biệt bảo hiểm nhân thọ, việc xác định người mua bảo hiểm có bị bệnh trước mua bảo hiểm đóng vai trị quan trọng Thơng thường nhân viên bảo hiểm yêu cầu người mua bảo hiểm liệt kê nhiều số sức khỏe Các số phân tích để xác định người mua bảo hiểm có khả bị bệnh hay khơng Đối với hệ hỗ trợ định, triệu chứng lâm sàng đưa vào hệ thống Từ triệu chứng lâm sàng, hệ thống phân tích đưa cảnh báo sớm cho người bệnh đưa kết cho bác sĩ để có định Một số kỹ thuật học máy nghiên cứu áp dụng cho việc chẩn đoán bệnh sớm SVM, Logistic Regression, Logistic Model Tree, AdaBoot LogitBoot để dự đốn nhóm bệnh nhân có khả bị nhiễm bệnh cao dựa 20 nghìn mẫu liệu Kỹ thuật học không giám sát phân cụm sử dụng để dự đoán bệnh người dựa lịch sử khám bệnh họ Nhược điểm hệ thống chẩn đốn bệnh liệu không cân (một phân lớp chứa nhiều mẫu lớp khác), số triệu chứng bị dẫn đến độ xác việc chẩn đốn không cao Một số nghiên cứu sử dụng mô hình hợp để kết hợp kỹ thuật với để tăng độ xác Trong khn khổ luận văn sử dụng phương pháp rừng ngẫu nhiên (random forest) để thực phân loại chẩn đoán số 56 3.3 Chẩn đoán ung thƣ phổi phƣơng pháp Rừng ngẫu nhiên 3.3.1 Phân tích liệu Từ tập 569 mẫu, ta tính giá trị đặc trưng trung bình, độ lệch chuẩn, min, max để khảo sát miền liệu Kết giá trị mô tả đặc trưng cho bảng sau: Bảng 3.2 Thuộc tính liệu mẫu Mỗi mẫu liệu tương ứng với mẫu lành tính ác tính, ta ký hiệu mẫu liệu ác tính (B = benign) mẫu lành tính (M = malignant) Ta vẽ biểu đồ gồm hai lớp hình: 57 Hình 3.8 Số lượng hai tập hợp liệu lành tính ác tính Trước hết ta thử quan sát số đặc trưng cách vẽ phân bố chúng hình 3.8, giá trị trung bình bán kính, chu vi, độ gắn kết, độ lõm điểm lõm sử dụng phân loại ung thư Các giá trị lớn tham số tương quan với khối u Các giá trị trung bình kết cấu, độ mịn, tính đối xứng chiều fractang không rõ khác biệt mẫu ung thư mẫu lành tính 58 Hình 3.9 Phân bố số đặc trưng 59 3.3.2 Xây dựng mơ hình Như trình bày chương 2, rừng ngẫu nhiên xây dựng dựa thành phần là: [1] CART, [2] học tồn bộ, hội đồng chun gia, kết hợp mơ hình, [3] tổng hợp bootstrap (bagging) Về chất rừng ngẫu nhiên sử dụng kỹ thuật có tên gọi bagging Kỹ thuật cho phép lựa chọn nhóm nhỏ thuộc tính nút phân lớp để phân chia thành mức Do đó, RF có khả phân chia khơng gian tìm kiếm lớn thành khơng gian tìm kiếm nhỏ hơn, nhờ thuật tốn thực việc phân loại cách nhanh chóng dễ dàng Hình 3.10 mơ tả phương pháp phân lớp rừng ngẫu nhiên Hình 3.10 Phương pháp phân lớp rừng ngẫu nhiên Để xây dựng mơ hình phân loại/dự đốn người bị ung thư, ta chia tập liệu làm hai phần gồm liệu huấn luyện liệu kiểm thử Có nhiều cách chia tập liệu, ta chia 70% liệu cho tập huấn luyện 30% cho liệu kiểm thử Chia ngẫu nhiên liệu huấn luyện 399 mẫu liệu kiểm thử 170 mẫu Với liệu kiểm thử, có 107 mẫu ung thư 63 mẫu lành tính Giải thuật rừng ngẫu nhiên Bước 1: Xây dựng bootstrap sample từ liệu Bước 2: Với bootstrap sample, phát triển phân loại hồi quy không cắt với thay đổi sau: nút, thay chọn cách chia tốt 60 dự đoán, người ta lấy mẫu ngẫu nhiên mtry dự đoán chọn cách chia tốt biến (Bagging coi trường hợp đặc biệt rừng ngẫu nhiên lấy mtry số dự đoán) Bước Dự đoán liệu cách kết hợp dự đốn ntree (các lựa chọn cho phân loại, trung bình cho hồi quy) Ước lượng tỉ lệ sai số tính dựa liệu huấn luyện: - Tại lần lặp bootstrap, đoán liệu không nằm mẫu bootstrap (gọi OOB-out of bag) sử dụng phương pháp phát triển với mẫu bootstrap - Kết hợp dự đoán OOB (trung bình liệu có OOB 36%, kết hợp dự đốn) Tính tỉ lệ lỗi gọi ước lượng OOB tỉ lệ lỗi - Xây dựng mơ hình rừng ngẫu nhiên 399 samples 30 predictor classes: „B‟, „M‟ No pre-processing Resampling: Bootstrapped (25 reps) Summary of sample sizes: 399, 399, 399, 399, 399, 399, … Resampling results across tuning parameters: mtry Accuracy Kappa Accuracy SD Kappa SD 0.985785 0.9115423 0.01246742 0.02637292 16 0.9549592 0.9039178 0.01981854 0.04117202 30 0.9500075 0.8934505 0.02435807 0.05079700 Ở mtry số lượng thuộc tính chọn để chia cắt bước, với mtry độ xác 0.96, ta chọn số biến để chia bước Tham số mơ hình: ta sử dụng số biến bước chia cắt 2, số 500 ta mơ sau: Number of trees: 500 61 No of variables tried at each split: OOB estimate of error rate: 3.51% Confusion matrix: B M B 244 M Class error 0.02400000 141 0.05369128 Trong tập liệu huấn luyện, số lượng ác tính 252 mẫu, số lượng mẫu lành tính 147 Ta có số lượng mẫu ác tính đốn 244, số lượng mẫu lành tính dự đốn 141, số lượng mẫu ác tính đốn sai số lượng mẫu lành tính đốn sai Tỉ lệ lỗi OOB ước lượng 3.5% - Kiểm tra tập liệu kiểm thử Reference Prediction B M B 104 M 60 Accuracy 0.9647 95% CI (0.9248, 0.9869) P- Value (Acc > NIR) < 2e-16 Kappa 0.9243 Mcnemar‟s Test P-Value Sensitivity 0.9524 Specificity 0.9720 Pos Pred Value 0.9524 Neg Pred Value 0.9720 Prevalence 0.3706 62 Detection Rate 0.3529 Detection Prevalence 0.3706 Blanced Accuracy 0.9622 „Positive‟ Class M Tập liệu kiểm thử gồm 170 mẫu, có 107 mẫu ung thư 63 mẫu lành tính số lượng mẫu lành tính dự đốn 104, số lượng mẫu ác tính đốn sai số lượng mẫu lành tính đốn 60, số lượng mẫu lành tính đoán sai Ta thấy rừng ngẫu nhiên đạt độ xác 96.5% tập thử nghiệm với ước lượng OOB Cải tiến: xây dựng mơ hình rừng ngẫu nhiên sử dụng cross-validation Ở phương pháp sử dụng 10 folds lặp lần, ta thu mô hình 399 samples 30 predictor classes: „B‟, „M‟ No pre-processing Resampling: Cross-Validated (10 fold, repeated times) Summary of sample sizes: 359, 359, 359, 359, 359, 360,… Resampling results across tuning parameters: mtry Accuracy Kappa Accuracy SD Kappa SD 0.9614957 0.9165847 0.03222584 0.07033601 0.9657051 0.9260991 0.02916964 0.06327779 0.9640598 0.9229779 0.02768742 0.05934558 0.9640385 0.9229317 0.02693063 0.05769854 0.9640171 0.9229941 0.02775122 0.05926447 10 0.9648504 0.9250166 0.03064653 0.06463650 15 0.9623718 0.9200357 0.02923631 0.06060620 20 0.9632051 0.9215143 0.02848089 0.05950027 30 0.9565171 0.9070637 0.03083827 0.06491765 63 Khác với trường hợp trên, số lượng biến chọn để chia cắt lớp độ xác 0.96, ta chọn số biến để chia bước Tham số mơ hình: tương tự bước một, khác ta sử dụng số biến bước chia cắt 1, số 500 ta mô sau: Number of trees: 500 No of variables tried at each split: OOB estimate of error rate: 3.51% Confusion matrix: B M B 243 M Class error 0.02800000 142 0.0469787 Tỉ lệ lỗi OOB ước lượng 3.5%, tương tự phương pháp Hình sau mơ tả độ xác dự đốn dựa số biến chia bước, Trong số lựa chọn biến từ đến 30, ta thấy độ xác cao số biến chọn để chia Hình 3.11 Độ xác chọn biến 64 Thực dự báo liệu kiểm thử: Reference Prediction B M B 104 M 60 Accuracy 0.9647 95% CI (0.9248, 0.9869) P- Value (Acc > NIR) < 2e-16 Kappa 0.9243 Mcnemar‟s Test P-Value Sensitivity 0.9524 Specificity 0.9720 Pos Pred Value 0.9524 Neg Pred Value 0.9720 Prevalence 0.3706 Detection Rate 0.3529 Detection Prevalence 0.3706 Blanced Accuracy 0.9622 „Positive‟ Class M Với kết dự báo sử dụng số biến bước chia cắt, ta thấy độ xác tương đương hai phương pháp kiểm thử dùng rừng ngẫu nhiên 3.3.3 Lựa chọn đặc trƣng/biến quan trọng Việc lựa chọn đặc trưng quan trọng đặc trưng có ý nghĩa phân loại tốt cơng việc cần thiết khơng bước ước lượng mơ hình mà cịn áp dụng bước mơ tả liệu Với bước một, ta tìm số lượng nhỏ biến đủ để dự đoán tốt đầu Với bước hai, ta tìm biến 65 quan trọng có mối tương quan cao cho việc mơ tả liệu Thuật toán: Bước 1: Loại bỏ biến xếp hạng - Tính điểm rừng ngẫu nhiên quan trọng, loại bỏ biến có độ quan trọng thấp - Xếp hạng m biến lại theo thứ tự giảm dần độ quan trọng Bước 2: Lựa chọn biến - Với công việc mô tả: xây dựng tập hợp mơ hình rừng ngẫu nhiên liên quan đến k biến (với k = đến m) chọn biến liên quan mơ hình làm cho lỗi OOB nhỏ - Với công việc dự đoán: xuất phát từ biến xếp thứ tự bước 1, xây dựng chuỗi mơ hình rừng ngẫu nhiên giảm dần cách gọi kiểm tra biến theo bước Các biến mơ hình cuối chọn Sử dụng mơ hình CART, ta trích số khơng gian đặc trưng để tính biến quan trọng sử dụng tiêu chuẩn entropy Hình 3.12 Mơ hình CART 66 Phương pháp rừng ngẫu nhiên cho độ xác cao so với số thuật toán học giám sát khác Đặc biệt liệu có số chiều lớn số quan sát rừng ngẫu nhiên học nhanh, chịu nhiễu tốt khơng bị tình trạng học vẹt Tuy nhiên, luật định nút rừng ngẫu nhiên dựa vào luật bình chọn số đơng, điều dẫn đến độ xác giải thuật rừng ngẫu nhiên bị giảm phân lớp liệu Hơn nữa, liệu ung thư phổi, có nhiều đặc trưng khơng mang nhiều thơng tin cho việc phân loại, áp dụng rừng ngẫu nhiên lựa chọn số biến có ý nghĩa giúp giảm thời gian tính tốn 3.4 Kết luận hƣớng phát triển Với phát triển liên tục hệ chuyên gia công cụ học máy, ngày nhiều ứng dụng y tế sử dụng mơ hình học máy áp dụng vào thực tế Các hệ hỗ trợ định trong lĩnh vực y tế giúp cho việc chẩn đốn nhanh xác Luận văn trình bày phương pháp rừng ngẫu nhiên áp dụng cho toán phân loại để dự đoán ung thư phổi từ tập liệu đặc tính tế bào u lành tính ác tính Phương pháp rừng ngẫu nhiên xây dựng dựa mơ hình CART Với mơ hình thử nghiệm tập liệu huấn luyện kiểm thử, độ xác thuật tốn đạt 96% Với mơ hình kiểm tra chéo (10 fold), độ xác thuật toán đạt 96% Bên cạnh việc sử dụng tất đặc trưng tập liệu làm cho việc tính tốn lâu hơn, luận văn sử dụng phương pháp entropy để lựa chọn biến quan trọng, giữ lại đặc trưng có giá trị cho việc phân loại Từ 31 đặc trưng tế bào, ta giữ lại đặc trưng để đưa vào huấn luyện, kết đặc trưng đạt độ xác 95% Từ kết phương pháp rừng ngẫu nhiên, tơi kết luận 67 phương pháp đạt kết khả quan việc phân loại liệu ung thư phổi Tôi tin áp dụng vào thực tế, hệ thống giúp cho việc sàng lọc ung thư sớm nhanh Hướng phát triển đề tài thử nghiệm tập liệu ung thư khác cải tiến thuật tốn có để tăng độ xác việc chẩn đoán Phƣơng pháp nghiên cứu - Nghiên cứu lý thuyết kết hợp với cài đặt thực nghiệm Ý nghĩa khoa học đề tài Tìm hiểu phương pháp học máy nói chung rừng ngẫu nhiên nói riêng chẩn đốn bệnh Nghiên cứu phương pháp chẩn đoán bệnh dựa rừng ngẫu nhiên Cài đặt thử nghiệm phương pháp liệu ung thư phổi Dự kiến kế hoạch thực đề tài (06 tháng) Công việc Nghiên cứu phương pháp chẩn đoán bệnh Nghiên cứu hệ thống chẩn đoán bệnh Nghiên cứu mơ hình chẩn đốn bệnh sử dụng định Nghiên cứu mơ hình chẩn đốn bệnh sử dụng rừng ngẫu nhiên Nghiên cứu áp dụng mơ hình định chẩn đoán bệnh Nghiên cứu áp dụng mơ rừng ngẫu nhiên chẩn đốn bệnh Xây dựng giải thuật cho phương pháp rừng ngẫu nhiên T1 T2 T3 T4 T5        T6 68 Công việc Cài đặt giải thuật áp dụng cho phương pháp rừng ngẫu nhiên chẩn đoán bệnh ung thư phổi Viết luận văn T1 T2 T3 T4 T5 T6     Hoàn thiện luận văn Tài liệu tham khảo: [1] Văn Thế Thành, Trần Minh Bảo, Xây dựng hệ hỗ trợ định chẩn đốn bệnh, Tạp chí tin khoa học, Đại học Huế, Tập 74A, Số 5, (2012), 129 [2] Liu, M.; Wilairat, B.; Go, M.L (2001) Antimalarial alkoxylated chalcones : structure – activity relationship analysis J Med Chem., 44: 44434452 [3] Nguyễn Văn Tuấn, chương trình huấn luyện y khoa.net Trainning [4] Nam, N H (2009) "Tối ưu hóa KPCA GA để chọn thuộc tính đặc trưng nhằm tăng hiệu phân lớp thuật toán Random Forest." Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Cơng nghệ 25(2009), 84-93 [5] Tuấn, N V, Phân tích số liệu tạo biểu đồ R-Hướng dẫn thực hành, NXB KHKT, 2007 [6] The Top Ten Algorithms in Data Mining: Chapman & Hall/CRC, 2009 [7] L Breiman, "Random Forests," Machine Learning Journal Paper, vol 45, 2001 [8] Nguyễn Đình Thúc (2001), Lập trình tiến hóa, Nhà xuất giáo dục, Hà Nội [9] Genetic Algorithm: http://www.cs.rutgers.edu/~mlittman/courses/ml04/ [10] Aregawi, M.; Cibulskis, R.; Otten, M.; William, R.; Dye, C (2008) 69 World Malaria Report 2008, World Health Organization, pp 1-215 WHO Press, Geneva [11] Fattorusso, C.; Campiani, G.; Catalanoti, B.; Prsico, M.; Basillico, N.; Parapini, S.; Tarameli, D.; Campadnuolo, C.; Fattorusso, E.; Romano, A.; Scafatti, O.T (2006) Endoperoxide derivatives from manne organism : 1,2dioxans of the plakertin family as novel antimalatial agents J Med Chem., 49:7088-7094 [12] Ivaciuc, O (2007) Applications of support vetor machine in chemistry, Volume 23 In: Lipkowitz, K.B.; Cundari, T.R Reviews in computatinal chemistry, pp 291-400, Wiley-VCH, Weinheim [13] Thai, K.-M.; Ecker, G F (2008) A Binary QSAR Model for Classification of hERG Potassium Channel Blockers Bioorg Med Chem, 16:4107-4119 [14] Nguyễn Văn Tuấn (2007) Phân tích số liệu tạo biểu đồ Rhướng dẫn thực hành, in lần thứ nhất, 1-340, NXB Khoa Học Kỹ Thuật, Hà Nội [15] R (2009): The R project for statistical computing, http://.rproject org/ [16] Karatzoglou, A.; Meyer, D.; Hornik, K (2006) Support Vector Machines in R Journal of Statistical Software, 15(9):1-26 [17] Ivaciuc, O (2007) Applications of support vetor machine in chemistry, Volume 23 In: Lipkowitz, K.B.; Cundari, T.R Reviews in computatinal chemistry, pp 291-400, Wiley-VCH, Weinheim [18] Mayer, D (2009) LIBSVM : support vector machine http://www.csie.ntu.edu.tw/~cjlin/libsvm [19] W, Nick Street t William H, Wolberg O, L, Mangasarian, In IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science 70 and Technology, volume 1905, pages 861-870 [20] L Breiman (2001), "Random Forests", Machine Learning Journal Paper, vol 45

Định dạng
Số trang	79
Dung lượng	2,88 MB