Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu SPECT DATASET

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	11
Dung lượng	539 KB

Nội dung

KHAI PHÁ DỮ LIỆU SPECT DATASET I. II. Giới thiệu - Y học hiện đại tạo ra một lượng lớn dữ liệu hình ảnh vì vậy chỉ có thể sử dụng phần mềm mấy tính chuyên ngành để phân tích và xử lý. Kỹ thuật hình ảnh SPECT, PET, và MRI xuất hiện có thể tạo ra dữ liệu kiểu byte mỗi ngày. Việc phân tích dữ liệu trên máy tính có nhiều lợi thế hơn việc phân tích sữ liệu của con người đó là : giá thaaos hơn, thời gian ngắn hơn, kế quả phân tích được ghi âm tự động, có tính thống nhất, sử dụng các giải phát trước đó nên tương đối rẻ tiền. - Mục tiêu là tạo ra một hệ thống máy tính có thể có thể chuẩn đoán quá trình tưới máu cơ tim Spect heart một cách bán tự động, sử dụng cách tiếp cận mới khám phá thong tin tri thức và thông tin hữu ích từ dữ liệu. Các dữ liệu hình ảnh SPECT HEART, thông tin lâm sàn và giải thích của bác sĩ. - Mục tiêu đầu tiên là có được tập hợp các chuẩn đoán cho các khu vực cơ tâm thất bên trái (LV), và mục tiêu thứ hai là chuẩn đoán một cách tổng thể trong đó mô tả quá trình tưới máu của toàn bộ cơ tim LV. Để đạt được mục tiêu này trước tiên là các chuẩn đoán của bác sĩ chuyên khoa tim, các tính năng hình ảnh của SPECT HEART được định nghĩa bằng cách sử dụng các thuật toán phân tích hình ảnh. Sau đó sử dụng các tính năng để đưa ra quy tắc chuẩn đoán. Hai bộ quy tắc chuẩn đoán sẽ được tạo ra. Một là chuẩn đoán một phần bằng cách sử dụng các tính năng chiết xuất trực tiếp từ hình ảnh, và thứ hai là chuẩn đoán tổng thể (bằng cách sử dụng cách chuẩn đoán một phần như một đầu vào). Một phương pháp chuẩn đoán được sử dụng để tạo ra các thiết lập cho các quy tắc chuẩn đoán một phần và máy cảm ứng học tập các thuật toán CLIP3 được sử dụng để tạo ra các quy tắc chuẩn đoán tổng thể. Các bước tổng thể khám phá tri thức của các CIOs et al: 1. Hiểu biết về vấn đề các miền: thuật ngũ học và ccacs giải pháp hiện tại, xác định mục tiêu y tế và khai thác dữ liệu. 2. Hiểu biết về các dữ liệu: cơ chế thu thập dữ liệu ban đầu, dữ liệu tham dò và xác minh. 3. Chuẩn bị dữ liệu: quyết đinh các thuật toán đầu vào, làm sạch dữ liệu và định dạng cơ sở dữ liệu, tạo ra cơ sở dữ liệu mới ( để sử dụng sau này). Cơ sở dữ liệu này bao gồm các hình ảnh SPECT heart, tông tin lâm sàn của bệnh nhân, và các thuộc tính khác thu được tại bước này. Chuẩn bị dữ liệu là bước tốn nhiều thời gian nhất nhưng là tiêu chuẩn chủ yếu quyết định sự thành công của dự án.

KHAI PHÁ DỮ LIỆU SPECT DATASET I. II. Giới thiệu - Y học hiện đại tạo ra một lượng lớn dữ liệu hình ảnh vì vậy chỉ có thể sử dụng phần mềm mấy tính chuyên ngành để phân tích và xử lý. Kỹ thuật hình ảnh SPECT, PET, và MRI xuất hiện có thể tạo ra dữ liệu kiểu byte mỗi ngày. Việc phân tích dữ liệu trên máy tính có nhiều lợi thế hơn việc phân tích sữ liệu của con người đó là : giá thaaos hơn, thời gian ngắn hơn, kế quả phân tích được ghi âm tự động, có tính thống nhất, sử dụng các giải phát trước đó nên tương đối rẻ tiền. - Mục tiêu là tạo ra một hệ thống máy tính có thể có thể chuẩn đoán quá trình tưới máu cơ tim Spect heart một cách bán tự động, sử dụng cách tiếp cận mới khám phá thong tin tri thức và thông tin hữu ích từ dữ liệu. Các dữ liệu hình ảnh SPECT HEART, thông tin lâm sàn và giải thích của bác sĩ. - Mục tiêu đầu tiên là có được tập hợp các chuẩn đoán cho các khu vực cơ tâm thất bên trái (LV), và mục tiêu thứ hai là chuẩn đoán một cách tổng thể trong đó mô tả quá trình tưới máu của toàn bộ cơ tim LV. Để đạt được mục tiêu này trước tiên là các chuẩn đoán của bác sĩ chuyên khoa tim, các tính năng hình ảnh của SPECT HEART được định nghĩa bằng cách sử dụng các thuật toán phân tích hình ảnh. Sau đó sử dụng các tính năng để đưa ra quy tắc chuẩn đoán. Hai bộ quy tắc chuẩn đoán sẽ được tạo ra. Một là chuẩn đoán một phần bằng cách sử dụng các tính năng chiết xuất trực tiếp từ hình ảnh, và thứ hai là chuẩn đoán tổng thể (bằng cách sử dụng cách chuẩn đoán một phần như một đầu vào). Một phương pháp chuẩn đoán được sử dụng để tạo ra các thiết lập cho các quy tắc chuẩn đoán một phần và máy cảm ứng học tập các thuật toán CLIP3 được sử dụng để tạo ra các quy tắc chuẩn đoán tổng thể. Các bước tổng thể khám phá tri thức của các CIOs et al: 1. Hiểu biết về vấn đề các miền: thuật ngũ học và ccacs giải pháp hiện tại, xác định mục tiêu y tế và khai thác dữ liệu. 2. Hiểu biết về các dữ liệu: cơ chế thu thập dữ liệu ban đầu, dữ liệu tham dò và xác minh. 3. Chuẩn bị dữ liệu: quyết đinh các thuật toán đầu vào, làm sạch dữ liệu và định dạng cơ sở dữ liệu, tạo ra cơ sở dữ liệu mới ( để sử dụng sau này). Cơ sở dữ liệu này bao gồm các hình ảnh SPECT heart, tông tin lâm sàn của bệnh nhân, và các thuộc tính khác thu được tại bước này. Chuẩn bị dữ liệu là bước tốn nhiều thời gian nhất nhưng là tiêu chuẩn chủ yếu quyết định sự thành công của dự án. 4. Khai phá dữ liệu : mục đích của một thuật toán phân tích hình ảnh là tính năng khai thác, quyết định đào tạo và quy trình thử nghiệm và thế hệ các quy tắc chuẩn đoán. 5. Đánh giá kiến thức phát hiện là mô tả và thảo luận kết quả, mô tả các cải thiện có thể dựa vào thuật toán chuẩn đoán. 6. Sử dụng các kiến thức phát hiện sớm trước khi phát hiện ra các kiến thức có thể đưuọc sử dụng cần phải trải qua thử nghiệm lâm sàng, mà không phải là một phần của điều tra này. III. Tìm hiểu về phạm vi sử dụng trong y tế. - Trước tiên cần phải tìm hiểu phạm vi sử dụng trong y tế. Mục đích chủ yếu của hệ thống là cho tim và nghiên cứu sinh tim mạch, nó như công cụ chẩn đoán dựa trên máy tính. 1. Chuẩn đoán SPECT heart - Các SPECT hình ảnh được sử dụng như một công cụ chuẩn đón cho tưới máu cơ tim. Bệnh nhân được đánh dấu bằng việc tiêm phóng xạ. Sau đó, hai nghiên cứu được thực hiện, một trong 10 – 15 phút. Sau khi tiêm trong thời gian đó thời gian Stress là tối đa – nghiên cứu gọi là Stress (hình ảnh Stress), và một là trong 2 -5 giờ sau khi tiêm được gọi là nghiên cứu rest ( hình ảnh rest). Các nghiên cứu được thu thập từ hình ảnh hai chiều, ba chiều. tất cả các hình ảnh đại diện cho tưới máu cơ tim LV đó và tỷ lệ phóng xạ được phân phối trong cơ tim. So sánh nghiên cứu tim mạch lúc Stress và Rest để phát hiện những bất thường trong việc tưới máu LV. - Các thiết bị hiện đại có thể không thể hiện hình ảnh 3D để chuyển đổi một số thực thi để thực hiện chúng. Kết quả là chúng ta có được hình ảnh hai chiều hay ba chiều của bề mặt hình ảnh. Các hình ảnh 2D lưu giữ thông tin cường độ thông tin trong khi các mối quan hệ 3D chặt chẽ khó tái tạo lại. trong trường hợp 3D thì hình ảnh chứa tất cả các thông tin rõ ràng nhưng mật độ thông tin đại diện chỉ gián tiếp bởi mầy sắc và hình dạng bề mặt 3D. Thông thường những hình ảnh SPECT được trình bày bởi một chuyên gia tim mạch ;à ba bộ hình ảnh hai chiều chứa hàng loạt các lát cường độ (khoảng 15 đến 30 lát). Những hình ảnh được sử dụng trong bài này, các phần cho thấy tâm thất trái vuông góc với trục dài của nó gọi là “trục ngắn” song song với trục dài của nó được gọi là “trục dài dọc” và “trục dài ngang”. - Các mối quan hệ ba chiều chỉ có thể được tái tạo ý tưởng từ những hình ảnh này. Các chuẩn đoán nghiên cứu tim như vậy đưuọc so sánh trực quan tương ứng với ý tưởng của LV bình thường, - Ngoài ra còn có nhiều phương phát trực quan khác được sử dụng cho các SPECT hình ảnh, Một là điểm đen mắt phương pháp đó dựa vào hình ảnh 3D của LV vài mặt phẳng 2D bởi chiếu xuống tâm vào tọa độ cầu howacj vào sự kết hợp của tọa độ hình cầu và hình trụ. Phân tích chuyển động của tim mạch nói chung cho phép xác định các bệnh lý bất thường liên quan đến tim, thiếu sót việc lưu thông máu của động mạch vành. Kỹ thuật được mô tả trong bài này sử dụng hình ảnh 2D LV đường viền thực hiện đánh giá định lượng và chất lượng của chức năng tim. Nhiều phương pháp trực quan đã được phát triển để giúp đỡ trong việc giải thích các hình ảnh SPECT nhưng nó đã được chứng minh rằng hình ảnh thường không phù hợp và dễ gây lỗi. Vì vậy nhu cầu cho các công cụ hỗ trợ trong chẩn đoán là dựa vào hình ảnh máy tính hỗ trợ và định lượng. Định lượng làm giảm sự thay đổi của giải thích hình ảnh. 2. Mục tiêu của y tế - Từ quan điểm y học mục tiêu là bán tự động hóa qía trình chuẩn đoán SPECR heart để hỗ trợ bác sĩ chuyên khoa tim trong vấn đề chuẩn đoán hình ảnh SPECT heart làm thủ tục này dễ dàng phù hợp hơn và hiệu quả hơn - Để đạt được các mục tiêu này thì cần thực hiện quá trình khám phá tri thức như mô tả Hình 1: 3. Mục tiêu khai báo dữ liệu - Khai báo dữ liệu mục tiêu chính là để xác đinhk cá tính năng quan trong từ hình ảnh SPECT heart. Điều này được thực hiện bằng cách sử dụng phân tích hình ảnh và thuật toán xử lý. Tiếp theo đó hai quy tắc chuẩn đoán sẽ được tạo ta:  Đối với chuẩn đoán một phần : những quy định này sẽ sử dụng các tính năng được chiết xuất từ hình ảnh SPECT nó sẽ được tạo ra bằng cách sử dụng phương pháp tiếp cận chuẩn đoán.  Đối với các chuẩn đoán tổng thể những quy định này sẽ sử dụng chuẩn đoán một phần như một đầu vào sẽ được tạo ra bằng cách sử dụng cá thuật toán học máy CLIP3 - Các thiết lập cảu các biến đầu vào bao gồm: nghiên cứu hình ảnh từ phần Rest và Stress SPECT, và một trong những thông tin lâm sanfL bệnh nhân quân hệ tình dục bởi tình dục là thông tin chính xác duy nhất được bác sĩ sử dụng trong chuẩn đoán hình ảnh SPECT. Khai thác các tính năng từ SPECT là một nhiệm vụ rất phức tạp do sự khác biệt giữa giả phẫu các bệnh nhân, tạo phác đồ trong các hình ảnh, vị trí đa dạng của hình ảnh các đối tượng đại diện cho tưới máu tim. Vì vậy chúng ta cần xây dựng mô hình của tâm thất trái bình thường, xây dựng lại các bộ phận truyền dịch kém mà cí thể không được hiển thị trong hình ảnh. Cũng cần để xem xét sự khác biệt của giải phẫu trái tim nam và nữ. - Ngoài ra chức nagw phân tích hình ảnh như luân rộng, luân chuyển, ghi nhãn, lập chỉ mục và tính năng khai thác… cần phải được thực hiện. các thông số của các thuật toán phân tích hình ảnh được tối ưu hóa trong quá trình phát triển kịch bản và sau khi hoàn thành dự án. Kinh nghiệm trong lĩnh vực hình ảnh SOECT heart đã giúp xác định các mục tiêu này. IV. Tìm hiểu về các dữ liệu SPECT heart Các dữ liệu được thu thập trong các trường đại học Y Ohio (MCO). Hồ sơ lâm sàn của bệnh nhân được điền vào bảng tính MS Excel. Có khoảng 180 thông số được ghi cho mỗi bệnh nhân. Mỗi dòng trong bảng tính tương ứng với một lần đến của một bệnh nhân. 1. Hình ảnh SPECT - Trong SPECT heart bệnh nhân được tiêm lượng phóng xạ (Tl-201) trong phân rã phát ra photon đơn. Phát hiện thu thaaoj các photon phát ra. Trong quá trình nghiên cứu các máy dò nằm xung quanh cơ thể bênh nhân và quay. Sử dụng các thuật toán cao cấp xây dựng lại một hình ảnh 3D từ một tập các điểm phẳng 2D ở góc độ khác nhau được tạo ra. Kỹ thuật hình ảnh SPECT heart được đặc trưng bởi độ nhạy thấp, tín hiệu tiếng ồn và ứng dụng của thuật toán xây dựng lại hình ảnh rất phức tạp. Tuy nhiên sử dụng thành công trong các thử nghiệm lâm sàn sẽ cho chi phí thaaso. - Hình ảnh SPECT heart đại diện cho LV tưới máu cơ tim có nghĩa tỷ lệ thuận với số lượng phóng xạ phân phối. Độ phân giải hình ảnh 2D-điển hình là 64x64, tất cả các hình ảnh đen và trắng, 8 bit cho mỗi điểm ảnh với 256 sắc thái của màu xám . Sáng hơn các khu vực trên hình ảnh tương ứng với các khu vực cũng perfused của cơ tim. Khi một phần của cơ tim không thể nhìn thấy một nghi ngờ thiếu máu cục bộ. Hình 2. Tưới máu vào tim hình ảnh SPECT, (a) tưới máu bình thường, (b) bất thường tưới máu. 2. Mô tả cơ sở dữ liệu SPECT - Cơ sở dữ liệu SPECT bao gồm hình nahr và hồ sơ bệnh án lâm sàn. Dữ lệu bảng tính được chuyển đến một cơ sở dữ liệu quan hệ. Sau đó nó được phân tích và các thuộc tính quan trọng được chiết xuất : ngày được mã hóa ID, giói tính, cân nặng, chieuf cao, mã nghiên cứu nó gồm 22 phần chuẩn đoán và chuẩn đoán tổng thể. Tất cả đưuọc ghi lại trong 1 file văn bản. CSDL hình ảnh cúng được phân tích. Hình ảnh được lưu trữ trong một cáu trúc thư mục đính trước, quy định theo mã ngành nghiên cứu và má bênh nhân. Đối với mỗi bệnh nhân có hai hình ảnh 3D, một cho mỗi nghiên cứu và hình ảnh 3D ( ba cho mỗi nghiên cứu)/ mục tiêu thiết kế cơ sở dữ liệu là đơn giản hóa bảo trì và khả nawg để thêm hồ sơ bệnh án mới và hình ảnh sẵn có. 3. Xác nhận chấy lượng của dữ liệu - Csdl ban đầu đã được bán phân tích để loại bỏ các lỗi chính tả. Tất cả hồ sowvaf hình ảnh không đầy đủ đã được loại bỏ. Hồ sơ có sẵn đã đượ tính để tránh tình trạng không có đủ cho từng trường hợp chuẩn đoán. Các lỗi phổ biến thường gặp : do in ấn, mất tích, hình ảnh, hoặc chất lượng rất kem của hình ảnh. Bảng 1. Việc lỗi của cơ sở dữ liệu SPECT sau khi làm sạch các dữ liệu V. Chuẩn bị các dữ liệu SPECT heart 1. Mô tả dữ liệu SPECT - Như đã nói trước đây từng nghiên cứu bệnh nhân có chứa hai hình ảnh ba chiều tim SPECT bộ LV. Một chẩn đoán bác sĩ chuyên khoa tim, nói rằng, thiếu máu cục bộ, nhồi máu hoặc hiện vật, bằng cách so sánh hai hình ảnh này. - Đánh giá của hình ảnh là một quá trình mang tính chủ quan rất cao, với nhiều tiềm năng đáng kể. Các nguyên tắc lấy dữ liệu hình ảnh từ nhiều quan điểm phẳng được xử lý bởi chiếu để lọc lại hình ảnh 3 chiều. Mỗi hình ảnh 3 chieuf được hiển thị như ba bộ hình ảnh hai chiều. những hình ảnh 2D tương ứng với các phần sau đây của cơ tim LV: trục ngán, trục ngang dài, trục đứng dài. Từ những bộ hình ảnh 2D của các bác sĩ chuyên khoa tim lựa chọn năm lát cho mõi nghiên cứu tại thánh báo cáo cuối cùng của hệ thống. - Năm lát được lựa chọn theo những quan điểm sau đây:  Ba láy để xem trục ngắn- một lát gần đỉnh của trái tim, một ở giữa Lv và một gần tâm trái tim.  Một lát tương ứng với trung tâm của khoảng LV cho xem trục ngang dài.  Một lát tương ứng với các trung tâm của khoảng LV để xem trục dài theo chiều dọc. - Năm hình ảnh này được chia thành 4 hoặc 5 khu vực tâm ROI dọc theo LV cơ tim. Như một kết quả cho mỗi nghiên cứu có 22 khu vực quan tâm. Chuyên gia tim đánh giá xuất hiện và đếm trong các khu vực này. So sánh ROIs tương ứng trong Stress và Rest. Chuẩn đoán một phần được thực hiện cho mõi ROI bởi bác sĩ chuyên khoa tim được phân loại thánh bày loại : bình thường, có hồi phục, một phần hồi phục, Artifact, cố định, không rõ ràng và phân phối ngược lại. Chuyên gia tim mạch làm cho việc chuẩn đoán tổng thể dựa trên một phần chuẩn đoán. Việc chuẩn đoán tổng thể được phân làm tám loại: bình thường, thiếu máu cục bộ, nhồi máu, nhồi máu và thiếu máu cục bộ, Artifact, không rõ ràng, phân phối ngược lại, và LV rối loạn chức năng. - Trong quá trình chuẩn đoán còn nhiều yếu tố ảnh hưởng đến việc phân tích hình ảnh. 2. Làm sạch các hình ảnh SPECT - Thử tìm kiếm hồ sơ bệnh nhân không đầy đủ chú ý đến chuẩn đoán một phần và chuẩn đoán tổng thể và thông tin về tình dục của bệnh nhân. Mỗi bản ghi thiếu thông tin bị loại bỏ. - Phần thứ hai của làm sạch dữ liệu là làm sách cơ sở dữ liệu của hình ảnh SPECT. Nhìn bộ ảnh không đầy đủ và những hình ảnh kém chất lượng ( ko có độ tương phản). mỗi hình ảnh không đầy đủ được loại bỏ. một vấn đề khác là giá trị số lượng các điểm ảnh ghi lại trong các tập tin hình ảnh trong phạm vi khác nhau cho hình ảnh bệnh nhân khác nhau. Giải pháp cho vấn đề này là điều chỉnh giá trị điểm ảnh của tất cả các hình ảnh trong phạm vi 0-2555. Sau đó làm sạch chúng ta được một cơ sở dữ liệu của 267 bệnh nhân bao gồm tất cả các trường hợp được chuẩn đoán số bệnh nhân cho từng tường hợp chuẩn đoán được thể hiện trong bảng 1. 3. Xây dựng cơ sở dữ liệu mới - Cơ sở dữ liệu mới được tạo ra trên SPECT ban đầu ( sau khi làm sạch). Cơ sở dữ liệu bao gồm cá module sau: a. Module với những hình ảnh bênh nhân bao gồm 267 bệnh nhân, hình ảnh 2D trên mỗi bệnh nhân ( năm hình ảnh phần còn lại là năm nghiên cứu Stress). Hình ảnh được ghi lại trong một cấu trúc được xác định trước theo mã ngày nghiên cứu SPECT bệnh viện và mã bệnh nhân ID. b. Module với các hồ sơ bênh nhân lâm sàng, bao gồm cả bệnh viện mã bệnh nhân ID, giới tính, tuổi tác, trọng lượng, chiều cao, nmax ngày của nghiên cứu SPECT và chuẩn đoán đầy đủ (22 phẩn chuẩn đoán và 1 chuẩn đoán tổng thể). Nó được dử dụng để đánh giá kết quả. c. Module chứa hình ảnh bổ sung: mặt lạ hình ảnh mô hình cho mo hình của LV bình thường và hìn ảnh được lựa chọn để đánh giá các mô hình LV bình thường. tổng số tập tin trong hình ảnh này là 225 module. VI. Khai phá dữ liệu 1. Phấn tích hình ảnh thuật toán 2. Chuẩn đoán theo nghuyên tác chuẩn đoán 1 phần - Các quy tắc chuẩn đoán một phần sử dụng thuật toán CLIP3 và một cách tiếp cấn bắt trước quá trình chuẩn đoán cưa bác sĩ. Sau khi cả hai bộ quy tắc được tạo ra so sánh kết quả, quy tắc heuristic cho kết quả tốt hơn có cấu trúc rất cụ thẻ và được dựa trên so sách các giá trị giữa các tính năng trong ROIs tương ứng. ví dụ quy tăc là: Nếu tính năng i>(tính năng j + ngưỡng ) THEN - Hầu hết cá thuật toán máy tính học không có khả năng để tạo ra các quy tắc. bên dưới được mô tả quá trình tạo ra các quy tắc chuẩn đoán. Cho hai loại chuẩn đoán một phần (NL)- tương ứng để bình thường chuẩn đoán được thực hiện bởi một bác sĩ chuyên khoa tim và bất bình thường (ABN) – tương ứng với sáu chuẩn đoán: hồi phục, một phần hồi phục, Artifact, cố định, không rõ ràng và phân phối ngược lại. các thuộc tính chuẩn đoán:  So sánh tưới máu ở cá vùng tương ứng của cơ tim trong tình trạng Stress và Rest nghiên cứu, đánh giá, nếu có một khiếm khuyết đặc biệt trong khu vực này.  So sánh tưới máu trên tất cả khực hình ảnh chuẩn đoán 3. Tối ưu hóa hệ thống và các kết quả chuẩn đoán một phần. VII. Sử dụng weka đánh giá thuật toán Dữ liệu sẽ được chia làm 10 Folds và quá trình Train/Test Model thực hiện lặp lại 10 lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và 9 phần còn lại dùng để Train. Sử dụng công cụ KnowledgeFlow Xác định nguồn và định dạng dữ liệu (DataSources): chọn ArffLoader để load nạp dữ liệu từ file SPEAK HEART.arff Chọn tab Evaluation và chọn ClassAssigner để xác định thuộc tính phân lớp (Category variable) của mô hình. Để nạp dữ kiệu từ dataset vào mô hình bấm phải chuột vào TicTacToe Dataset và chọn dataset rồi kéo và thẻ đến ClassAssigner Chọn kỹ thuật Train và Test Mô hình (ở đây sử dụng kỹ thuật CV – CrossValidation). Trong Tab Evaluation chọn CrossValidation FoldMaker. Nạp dữ liệu vào CV giống như nạp dữ liệu từ SPEAK HEART Dataset vào ClassAssigner Chọn Tab Classifiers và chọn các thuật toán để xây dựng mô hình (trước tiên chọn thuật toán J48). Sau đó nạp dữ liệu để train và Test mô hình, bấm phải chuột vào CrossValidation FoldMaker chọn TrainingSet nối với Multilayer Pểcptron, sau đó chọn TestSet (chú ý là phải chọn TraningSet trước) Hiệu chỉnh tham số của thuật toán bằng cách double click và thuật toán Chọn Tab Evaluation chọn ClassifierPerformanceEvaluator để đánh giá hiệu quả của mô hình phân lớp Chọn Tab: Visualization và chọn Text Viewer hoặc GraphViewer để xem kết quả của mô hình dưới dạng Text hay dưới dạng trực quan quan bằng hình ảnh Làm tương tự với thuật toán Naviebayes ta được mô hình như sau: Kết quả sau khi thực hiện 2 thuật toán trên: - Base net Correctly Classified Instances 155 82.8877 % Incorrectly Classified Instances 32 17.1123 % Kappa statistic 0.2507 Mean absolute error 0.1749 Root mean squared error 0.3625 Relative absolute error 115.244 % Root relative squared error 133.3012 % Total Number of Instances 187 - Multilayer: Correctly Classified Instances 165 88.2353 % Incorrectly Classified Instances 22 11.7647 % Kappa statistic 0.3588 Mean absolute error 0.1309 . hiện quá trình khám phá tri thức như mô tả Hình 1: 3. Mục tiêu khai báo dữ liệu - Khai báo dữ liệu mục tiêu chính là để xác đinhk cá tính năng quan trong. các bác sĩ chuyên khoa tim lựa chọn năm lát cho mõi nghiên cứu tại thánh báo cáo cuối cùng của hệ thống. - Năm lát được lựa chọn theo những quan điểm sau

Ngày đăng: 16/12/2013, 15:09

Xem thêm