Luận văn thạc sĩ khoa học máy tính phát hiện mối quan hệ trong cơ sở dữ liệu và ứng dụng trong y học

20 1 0
Luận văn thạc sĩ khoa học máy tính phát hiện mối quan hệ trong cơ sở dữ liệu và ứng dụng trong y học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi Trung tâm Học liệu – ĐHTN http //www lrc tnu edu vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG VY ĐẠI NGHĨA PHÁT HIỆN MỐI QUAN HỆ TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG[.]

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG VY ĐẠI NGHĨA PHÁT HIỆN MỐI QUAN HỆ TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG TRONG Y HỌC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Ngun - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG VY ĐẠI NGHĨA PHÁT HIỆN MỐI QUAN HỆ TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG TRONG Y HỌC Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đỗ Trung Tuấn Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii Lời cảm ơn Trước tiên, xin gửi lời cảm ơn đến tất quý thầy cô giảng dạy chương trình Cao học Trường Đại học Công nghệ thông tin truyền thông tổ chức, người truyền đạt cho kiến thức hữu ích khoa học máy tính làm sở cho thực tốt luận văn Tôi xin chân thành cảm ơn PGS TS Đỗ Trung Tuấn tận tình hướng dẫn cho tơi thời gian thực luận văn Mặc dù trình thực luận văn có giai đoạn khơng thuận lợi Thầy hướng dẫn, bảo cho nhiều kinh nghiệm thời gian thực đề tài Tôi xin gửi lời cảm ơn đến tất Thầy Cơ làm việc Phịng khám đa khoa trường Cao đẳng Y tế Phú Thọ tận tình giúp đỡ việc thu thập thơng tin, lấy số liệu bệnh thuốc làm sở liệu cho luận văn Sau xin gửi lời biết ơn sâu sắc đến anh chị lớp gia đình ln tạo điều kiện tốt cho tơi suốt q trình học thực luận văn Do thời gian có hạn kinh nghiệm nghiên cứu khoa học chưa nhiều nên luận văn cịn nhiều thiếu sót, mong nhận ý kiến góp ý Thầy/Cơ anh chị học viên Phú Thọ, tháng năm 2015 Học viên Vy Đại Nghĩa Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii Lời cam đoan Tôi cam đoan những kế t quả luâ ̣n văn là của viê ̣c tìm hiể u, có trích dẫn và tham chiế u đế n nguồn tư liê ̣u tin cậy Nội dung luận văn không chép từ kế t quả của các luâ ̣n văn, luận án khác Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv MỤC LỤC Lời cảm ơn i Lời cam đoan iii MỤC LỤC iv DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG, HÌNH VẼ .vii MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN MỐI QUAN HỆ GIỮA CÁC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU 1 Mục tiêu việc phát mối quan ̣ liệu Các bước q trình khai phá tri thức Các dạng liệu khai phá Các hướng tiếp cận khai phá liệu Phân loại ứng dụng hệ thống khai phá liệu 11 Phân loại hệ thống khai phá liệu 11 Ứng dụng khai phá liệu 12 Kết luận chương 12 CHƯƠNG 13 MỘT SỐ MỐI QUAN HỆ DỮ LIỆU ĐƯỢC PHÁT HIỆN THÔNG QUA NGÔN NGỮ TRUY VẤN 13 Luật kết hợp 13 1 Các khái niệm 13 2 Bài toán khai phá luật kết hợp 16 2 Khai thác tập phổ biến dựa ngôn ngữ truy vấn 17 2 Ngôn ngữ truy vấn 17 2 Tìm tập phổ biến K-way join 20 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v 2 Kết thử nghiệm phương pháp đếm độ hỗ trợ 27 2 Phân tích cải tiến thuật toán k-way join 32 2 Phát sinh luật kết hợp 38 2 Rút luật kết hợp 42 Kết luận chương 49 CHƯƠNG 51 ỨNG DỤNG TRONG TÍNH TỐN THỬ NGHIỆM 51 Các toán 51 1 Bài tốn tìm luật kết hợp dạng X Y 51 Bài tốn tìm đợ hỗ trợ đợ tin cậy luật 52 3 Bài tốn đánh giá đợ tin cậy luật theo ngưỡng 53 Giải pháp giúp thực toán 54 Chương trình thử nghiệm 56 Cơ sở liệu toán 57 2 Kết khai phá liệu thực toán 58 3 Kết luận chương 65 KẾT LUẬN 67 PHỤ LỤC 68 TÀI LIỆU THAM KHẢO 76 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC CÁC TỪ VIẾT TẮT ADO Active X Data Object ANSI Chuẩn quốc gia Hoa Kì Client/ server Khách/ chủ confidence Đợ tin cậy CSDL Cơ sở liệu DB2 Tên hệ quản trị sở liệu IBM DBMS Hệ quản trị sở liệu HQTCSDL Hệ quản trị sở liệu ISO Tổ chức tiêu chuẩn hóa quốc tế MOLAP multidimensional OLAP OLAP Online Analysis Processing ORACLE Tên công ty ORACLE, tên hệ quản trị sở liệu ROLAP Relational OLAP SQL Ngôn ngữ truy vấn support Đợ hỗ trợ, trợ giúp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG, HÌNH VẼ Hình Thí dụ xử lí liệu y tế trường Cao đẳng Y tế Phú Thọ Hình 1: Các bước trình khai phá tri thức Hình 2: Các kiến trúc khai phá tích hợp với sở liệu Hình 3: Kiến trúc gắn kết lỏng Hình 4: Kiến trúc thủ tục nội hàm người dùng định nghĩa 10 Hình 5: Kiến trúc dựa truy vấn SQL 10 Hình 1: Minh họa luật kết hợp 16 Bảng 1: Cấu trúc bảng ban đầu 20 Bảng 2: Cấu trúc bảng dùng để khai khác 21 Hình 2: Tiến trình phát sinh tập ứng viên Ck 23 Hình 2: Đếm độ hỗ trợ cách tiếp cận K-way Join 24 Hình 3: Biểu đờ hình cho Sub Query Qi 26 Hình 4: Đồ thị thời gian thực thi thuật tốn minsup=10% D=100000 28 Hình 5: Đờ thị thời gian thực thi thuật tốn minsup=10% D=50000 29 Hình 7: Đờ thị thời gian thực thi thuật tốn minsup=10% D=10000 29 Hình 6: Đờ thị tổng hợp thời gian thực thi thuật tốn minsup lớn 29 Hình 7: Đờ thị thời gian thực thi thuật toán minsup=5% D=100000 30 Hình 8: Đờ thị thời gian thực thi thuật toán minsup=5% D=50000 30 Hình 9: Đờ thị thời gian thực thi thuật toán minsup=5% D=10000 30 Hình 10: Đờ thị tổng hợp thời gian thực thi thuật toán minsup trung bình 31 Hình 11: Đờ thị thời gian thực thi thuật toán minsup = 1% D = 100000 31 Hình 12: Đờ thị thời gian thực thi thuật toán minsup = 1% D= 50000 32 Hình 13: Đờ thị thời gian thực thi thuật toán minsup =1% D=10000 32 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii Hình 154: Đờ thị tổng hợp thời gian thực thi thuật toán minsup nhỏ 32 Bảng 3: Cơ sở liệu ban đầu D 44 Bảng 4: Cơ sở liệu sau chuyển đổi 44 Bảng 5: Kết F1 45 Bảng 6: Kết F2 46 Bảng 7: Kết C3 46 Bảng 8: Kết Comb3 47 Bảng 9: Kết F3 47 Bảng 10: Kết C4 48 Bảng 11: Kết Comb4 49 Bảng 12: Kết F4 49 Bảng 13 Kết 49 Bảng Cấu trúc bảng liệu ban đầu 55 Bảng Cấu trúc bảng dùng để khai phá liệu 56 Hình Mẫu đơn thuốc Phòng khám đa khoa Trường cao đẳng Y Phú Thọ 57 Hình Minh họa cấu trúc liệu ban đầu 58 Hình 3 Cấu trúc liệu dùng để khai phá 58 Hình Tính đợ hỗ trợ đợ tin cậy luật {Cefalecin} => {Paracetamol} 61 Hình Tính độ hỗ trợ độ tin cậy một luật {Decolgen}=>{Vitamin C} 61 Hình 3.6 Đánh giá đợ tin cậy luật {Decolgen}=>{Vitamin B1} 65 Hình 3.7 Đánh giá độ tin cậy luật {Cefalecin}=>{Vitamin C} 65 Hình PL1: Minh họa liệu đầu vào 68 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU Lý chọn đề tài Theo [1] người ta thấy với phát triển mạnh mẽ công nghệ lưu trữ, khả đáp ứng máy tính cho phép ta lưu trữ xử lý khối lượng liệu khổng lồ Hầu hết tổ chức, quan lưu trữ liệu theo thời gian Kết là, sau một thời gian dài, lượng liệu ngày nhiều Tuy nhiên, nhà quản lý lại chưa tâm giá trị tiềm ẩn bên khối liệu Những tri thức có ích ẩn bên khơng dễ dàng để lấy hay rút trích Ngày này, tính cạnh trạnh thị trường cao, đòi hỏi người định cần phải đưa định, sách mợt cách thận trọng, xác hiệu Những thông tin để giúp cho họ đạt hiệu việc định phân tích, rút trích từ liệu lưu trữ (dữ liệu thô) Khai phá liệu giúp ta giải vấn đề Cơng việc khai phá phân tích, rút trích một cách tự động thông tin khối liệu lớn nhằm tóm tắt liệu theo cách để tiện cho người dùng khai phá, tìm mẫu mới, mối liên hệ dự đoán, xu hướng thông tin tương lai Về bản, khai phá liệu xử lý liệu nhận biết mẫu xu hướng thông tin để bạn định đánh giá Các nguyên tắc khai phá liệu dùng nhiều năm rồi, với đời big data (dữ liệu lớn), lại phổ biến Những nhu cầu hướng kinh doanh thay đổi cách lấy thống kê liệu đơn giản sang việc khai phá liệu phức tạp Vấn đề kinh doanh hướng tới việc xem xét liệu để giúp xây dựng mợt mơ hình để mơ tả thông tin mà cuối cuộc dẫn đến việc tạo báo cáo kết Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Các yêu cầu nghiệp vụ y tế Xác định nguồn liệu y tế Xác định khuôn dạng liệu Lặp lại Xây dựng mơ hình liệu y tế Xây dựng c u t c liệu y tế, phù hợp với hỏi liệu Phát t i thức, mối quan hệ liệu y tế Hình Thí dụ xử lí liệu y tế trường Cao đẳng Y tế Phú Thọ Q trình phân tích liệu, khám phá liệu xây dựng mô hình liệu thường lặp lại bạn tập trung vào nhận thông tin khác để bạn trích Bạn phải hiểu cách thiết lập quan hệ, ánh xạ, kết hợp phân cụm thơng tin với liệu khác để tạo kết Q trình nhận liệu ng̀n định dạng nguồn, rồi ánh xạ thông tin tới kết cho chúng tơi thay đổi sau bạn phát yếu tố khía cạnh khác liệu Khai phá liệu tất công cụ hay phần mềm sở liệu mà bạn sử dụng Bạn thực khai phá liệu hệ thống sở liệu bình thường cơng cụ đơn giản, bao gồm việc tạo viết phần mềm riêng bạn sử dụng gói phần mềm bán cửa hàng Khai phá liệu phức tạp hưởng lợi từ kinh nghiệm khứ thuật toán định nghĩa với phần mềm gói phần mềm có, với cơng cụ định để thu một mối quan hệ uy tín lớn kỹ thuật khác Liên quan đến xử lí liệu bài toán với liệu lớn, hệ quản trị sở liệu Oracle, DB2, người ta sử du ̣ng tiếp cận nối K-way join [10] để tăng tốc đợ xử lí liệu, để thuận tiện cho việc phát mối quan Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ̣ liệu, chẳng hạn luật kết hợp Do đó, tơi chọn đề tài xử lí liệu y tế, sở liệu y tế trường Cao đẳng Y tế Phú Thọ áp dụng ki ̃ thuâ ̣t tiếp cận K-way join để phát mối quan ̣ Trong luận văn này, sử dụng ngôn ngữ truy vấn SQL chọn cách tiếp cận K-way join làm trọng tâm để đưa tri thức thuốc theo nhiều bệnh lý khác nhằm hỗ trợ cho y, bác sỹ người quản lý công việc khám chữa bệnh, kinh doanh dược Dựa tốn đề ra, tơi tính tốn mợt toán thực tế lấy liệu từ đơn thuốc phòng khám trường Cao đẳng Y tế Phú Thọ, đơn thuốc mẫu tài liệu giáo trình nhà trường theo bệnh khác Tính thực tiễn đề tài Y học môn khoa học không ngừng phát triển Tiếp cận cập nhật hóa thơng tin y học từ sở liệu, để nâng cao chất lượng chăm sóc sức khỏe cho nhân dân điều thiếu thực hành lâm sàng Với phát triển mạnh mẽ ngành Công nghệ thông tin, một ngành mũi nhọn nhiều quốc gia thới giới Sự phát triển vượt bậc kết tất yếu việc ứng dụng nhiều lĩnh vực khác cuộc sống như: giáo dục, y tế, kinh tế, khoa học, xây dựng trở thành một phần thiếu cuộc sống hàng ngày người Trong kỷ nguyên bùng nổ thơng tin, việc áp dụng phương pháp tìm kiếm thông tin từ nguồn liệu khác nhu cầu thiết thực cho tồn xã hợi Trong phương pháp tìm kiếm thơng tin đó, khai phá liệu để tìm tri thức, phục vụ đời sống xã hội một phương pháp mới, nhà nghiên cứu khoa học quan tâm Tuy nhiên, khai phá liệu lĩnh vực y học nước ta thật cịn ít, gặp nhiều khó khăn, nhiều bệnh viện nước ta chưa có bệnh án điện tử Việc khai phá lĩnh vực thực mang lại nhiều ý nghĩa cho y học để hỗ trợ cho bác sĩ kê đơn, chẩn đốn bệnh sớm điều trị bệnh có hiệu quả, giảm bớt tử vong chi phí điều trị, một nhu cầu thiết thực bệnh viện Xuất phát từ thực tế Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn trên, chọn đề tài “Phát mối quan hệ sở liệu ứng dụng y học” để nghiên cứu cho luận văn thạc sĩ Mục tiêu nghiên cứu Mục tiêu nợi dụng luận văn tìm hiểu phương pháp khai thác liệu dựa ngôn ngữ truy vấn SQL chọn tiếp cận K-way join làm trọng tâm Dựa cách tiếp cận phân tích đánh giá cải tiến cho K-way join, đề xuất phương pháp phát sinh rút gọn luật kết hợp dựa tập luật mẫu Đối tượng phạm vi nghiên cứu  Tìm hiểu khái niệm luật kết hợp, cách tiếp cận khai phá liệu, đặc biệt cách tiếp cận K-way join  Đề xuất phương pháp phát sinh rút gọn luật kết hợp tập luật mẫu  Tính tốn thử nghiệm để đưa tri thức thuốc cho trường Cao đẳng Y tế Phú Thọ, so sánh đánh giá hiệu năng, độ tối ưu cách tiếp cận K-way join với cách tiếp cận khác Phương pháp nghiên cứu  Tìm hiểu tài liệu vấn đề liên quan  Tham gia thảo luận trình bày xemina  Tính tốn thử nghiệm Bố cục luận văn Luận văn bao gồm: mục lục, phần mở đầu, phụ lục  Chương I: Tổng quan phát mối quan hệ liệu sở liệu  Chương II: Một số mối quan hệ liệu phát thông qua ngôn ngữ truy vấn  Chương III: Ứng dụng tính tốn thử nghiệm Kết luận hướng phát triển Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN MỐI QUAN HỆ GIỮA CÁC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU 1 Mục tiêu việc phát mối quan ̣ liệu Mục tiêu việc khai khác liệu có nhiệm vụ sau [2]:  Khám phá liệu, khám phá mẫu, dự đoán mẫu nhằm khám phá tri thức kho liệu;  Rút trích thơng tin có giá trị tiềm ẩn kho liệu;  Phân tích tự đợng kho liệu;  Biểu diễn liệu để thân thiện với người dùng hơn;  Dự báo thông tin dựa liệu để từ hỗ trợ, định Các bước q trình phát tri thức Quá trình phát tri thức chia thành bước sau [1, 2]: Hình 1: Các bước q trình khai phá tri thức  Trích chọn liệu (data selection): Là bước trích chọn tập liệu cần khai phá từ tập liệu lớn (databases, data warehouses)  Tiền xử lý liệu (data preprocessing): Là bước làm liệu (xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán, ), rút Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn gọn liệu (sử dụng phương pháp thu gọn liệu, histograms, lấy mẫu, ), rời rạc hoá liệu (dựa vào histograms, entropy, phân khoảng, ) Sau bước này, liệu quán, đầy đủ, rút gọn, rời rạc hoá  Biến đổi liệu (data transformation): Là bước chuẩn hoá làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai thác bước sau  Khai phá liệu (data mining): Đây bước quan trọng tốn nhiều thời gian trình khám phá tri thức, áp dụng kỹ thuật khai phá (phần lớn kỹ thuật học máy) để khai phá, trích chọn mẫu (pattern) thơng tin, mối liên hệ đặc biệt liệu  Đánh giá biểu diễn tri thức (knowledge representation & evaluation): Dùng kỹ thuật hiển thị liệu để trình bày mẫu thơng tin (tri thức) mối liên hệ đặc biệt liệu khai phá bước biểu diễn theo dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định Trong giai đoạn khai phá liệu, cần tương tác người dùng để điều chỉnh rút tri thức cần thiết Các tri thức nhận được lưu sử dụng lại Các dạng liệu khai phá Khai phá liệu có khả chấp nhận mợt số kiểu liệu khác điển sau [3, 4]:  Cơ sở liệu quan hệ (relational databases): Là liệu tác nghiệp tổ chức theo mơ hình liệu quan hệ phổ biến hệ thống quản lý quán lý bán hàng nói riêng, hầu hết hệ quản trị sở liệu hỗ trợ dạng sở liệu quan hệ Oracle, MS SQL Server, IBM DB2, MS Access, Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn  Cơ sở liệu đa chiều (multidimention structures, data warehouses, data mart): Là kho liệu tập hợp chọn lọc từ nhiều nguồn liệu khác Dạng liệu chủ yếu phục vụ cho q trình phân tích khai phá tri thức hỗ trợ trình định  Cơ sở liệu giao tác (transactional databases): Đây dạng liệu tác nghiệp có ghi thường giao tác Dạng liệu phổ biến có ngành thương mại  Cơ sở liệu quan hệ – hướng đối tượng (object relational databases): Là dạng liệu lai hai mơ hình quan hệ hướng đối tượng  Dữ liệu không gian thời gian (spatial, temporal, and time-series data): Là dạng liệu có tích hợp tḥc tính khơng gian liệu đờ mạng cáp điện thoại thời gian liệu cước điện thoại, phát hành báo chí  Cơ sở liệu đa phương tiện (Multimedia database): Là dạng liệu âm (audio), hình ảnh (video), văn WWW, Dạng liệu phổ biến Internet lưu web server đơn vị trực thuộc doanh nghiệp tổ chức Các hướng tiếp cận khai phá liệu Mợt số hướng tiếp cận khai phá liệu phân chia theo chức hay lớp toán khác [2, 4]:  Phân lớp dự đoán (classification & prediction): Xếp đối tượng vào mợt lớp biết trước Ví dụ: phân lớp loại cước loại dịch vụ dựa số máy bị gọi cuộc gọi, phân lớp khu vực dựa số máy chủ gọi, phân lớp cao điểm, thấp điểm dựa bắt đầu đàm thoại Phân lớp một lĩnh vực quan trọng khai phá liệu Phân lớp cịn gọi học có giám sát (supervised learning), hướng tiếp cận thường sử dụng một số kỹ thuật học máy định (decision tree), mạng nơ ron nhân tạo (neural network) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trong việc khai phá liệu, một số kiến trúc đề xuất cho việc tích hợp tiến trình khai phá với hệ quản trị sở liệu (HQTCSDL) Những kiến trúc biểu diễn sau: Hình 2: Các kiến trúc khai thác tích hợp với sở liệu  Sự gắn kết lỏng hay khai phá dựa việc lưu trữ (Loose coupling or Cache based mining): Đây kiến trúc dạng Client/Server Phần khai phá xem ứng dụng phía server Theo kiến trúc này, liệu đọc từ database cursor, sau đưa vào nhân khai phá (mining kernel) Khai phá xong đưa kết vào sở liệu Điều dẫn đến hiệu chậm Kiến trúc mô tả hình vẽ bên dưới: Hình 3: Kiến trúc gắn kết lỏng  Thủ tục nội hàm người dùng định nghĩa (Stored procedure and user defined functions): Theo kiến trúc này, công việc khai phá xem một ứng dụng máy chủ sở liệu Các xử lý thực thi khơng gian địa HQTCSDL Thuật tốn khai phá viết Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 10 dạng thủ tục nội (stored procedure) nên việc lập trình uyển chuyển, tái sử dụng Hình 4: Kiến trúc thủ tục nội hàm người dùng định nghĩa  Cách tiếp cận dựa SQL (SQL based approach): Theo kiến trúc này, sử dụng câu truy vấn SQL để khai phá Bộ xử lý tối ưu HQTCSDL (query optimizer) dùng để tối ưu truy vấn phức tạp, truy vấn xử lý với thời gian dài dựa ngữ nghĩa Khai phá tính xử lý song song câu truy vấn SQL Hình 5: Kiến trúc dựa truy vấn SQL  Cách tiếp cận tích hợp (Intergrated approach): Đây kiến trúc chặt chẽ nhất, khơng có giới hạn việc truy vấn, OLAP, hay khai phá Các toán tử khai phá hay SQL mở rộng cho việc khai phá tối ưu dựa hệ thống bên mà khơng có tác động người dùng  Khai phá mẫu (sequential/temporal patterns): Tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Mợt luật mơ tả mẫu có dạng tiêu biểu X  Y phản ánh xuất biến cố X dẫn đến việc xuất biến cố Y Hướng tiếp cận có tính dự báo  Phân cụm (clustering/segmentation): Sắp xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước) Các đối tượng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 11 gom cụm cho mức độ tương tự đối tượng một cụm lớn mức độ tương tự đối tượng nằm cụm khác nhỏ Phân cụm cịn gọi học khơng có giám sát (unsupervised learning) Phân loại ứng dụng hệ thống khai phá liệu Phân loại hệ thống khai phá liệu Phân loại khai phá liệu dựa tiêu chí khác [3]:  Phân loại dựa kiểu liệu khai phá: Cơ sở liệu quan hệ, kho liệu, sở liệu giao tác, sở liệu hướng đối tượng, sở liệu không gian, sở liệu đa phương tiện, sở liệu văn  Phân loại dựa dạng tri thức khám phá: Tóm tắt mơ tả, luật kết hợp, phân lớp, phân cụm, khai phá chuỗi  Phân loại dựa lĩnh vực áp dụng: Thương mại, viễn thơng, tài chính, y học, web mining,  Phân loại dựa kỹ thuật áp dụng: Phân tích trực tuyến (Online Analytial Processing - OLAP), học máy (cây định, mạng nơ ron nhân tạo, K-Means, giải thuật di truyền, tập thô, tập mờ ) Thông thường sử dụng tập mờ thích hợp cho việc tìm hiểu liên quan mơ hình liệu chưa đầy đủ, tạp nhiễu, thông tin hỗn tạp tác đợng người, từ cung cấp giải pháp xấp xỉ nhanh Mạng nơ ron có khả tổng qt, khơng giới hạn, mạnh học tốt môi trường liệu giàu (data-rich) thuật toán di truyền cung cấp khả tìm thuật tốn để chọn mẫu từ liệu hỗn tạp dựa một số hàm tiêu chuẩn/ mục tiêu thường dùng Tập thơ phù hợp cho tìm mẫu khác tình trạng khơng rõ ràng liệu Một số yêu cầu khai phá liệu cần phải áp dụng phương pháp tính tốn mềm (Tính tốn mềm kết hợp phương pháp logic mờ, thuật toán di truyền, khám phá tri thức, mạng nơ ron, tính tốn neuro- fuzzy, tập thơ, rút luật ) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ...ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG VY ĐẠI NGHĨA PHÁT HIỆN MỐI QUAN HỆ TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG TRONG Y HỌC Chuyên ngành: Khoa học m? ?y tính Mã số:... tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN MỐI QUAN HỆ GIỮA CÁC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU 1 Mục tiêu việc phát mối quan ̣ liệu Mục tiêu việc khai khác liệu. .. Chương I: Tổng quan phát mối quan hệ liệu sở liệu  Chương II: Một số mối quan hệ liệu phát thông qua ngôn ngữ truy vấn  Chương III: Ứng dụng tính tốn thử nghiệm Kết luận hướng phát triển Số

Ngày đăng: 28/02/2023, 20:12

Tài liệu cùng người dùng

Tài liệu liên quan