1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng

85 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THANH TUẤN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên, 2019 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THANH TUẤN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 Người hướng dẫn khoa học: TS Lê Văn Phùng Thái Nguyên, 2019 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thực hiện, hướng dẫn khoa học TS Lê Văn Phùng Các số liệu kết trình bày luận văn trung thực, chưa công bố tác giả hay cơng trình khác Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ii LỜI CẢM ƠN Trong trình thực đề tài “Nghiên cứu số phương pháp tìm luật kết hợp phân lớp tập mẫu học ứng dụng chẩn đốn bệnh”, tơi nhận nhiều giúp đỡ, tạo điều kiện tập thể Ban Giám hiệu, Phòng Đào tạo, khoa Cơng nghệ thơng tin phịng chức trường Đại học Công nghệ thông tin truyền thông, Đại học Thái Ngun Tơi xin bày tỏ lịng cảm ơn chân thành giúp đỡ quý báu Tơi xin bày tỏ lịng biết ơn sâu sắc đến TS Lê Văn Phùng thầy giáo trực tiếp hướng dẫn, bảo giúp tơi hồn thành luận văn TÁC GIẢ LUẬN VĂN Phạm Thanh Tuấn Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT v DANH MỤC BẢNG BIỂU vi DANH MỤC HÌNH VẼ vii MỞ ĐẦU .viii CHƯƠNG PHÂN LỚP VÀ PHƯƠNG PHÁP XÂY DỰNG CÂY PHÂN LỚP THEO TẬP MẪU HỌC 1.1 Tổng quan kỹ thuật khai phá liệu 1.1.1 Khái niệm khai phá liệu .1 1.1.2 Một số phương pháp khai phá liệu đại thông dụng .2 1.1.3 Các ứng dụng khai phá liệu 1.2 Những vấn đề chung phân lớp phương pháp phân lớp 1.2.1 Khái niệm phân lớp liệu 1.2.2 Các bước tiến hành phân lớp liệu .7 1.2.3 Phân lớp theo định 1.2.4 Phân lớp kiểu Bayes 12 1.2.5 Phân lớp dựa quy tắc IF-THEN .13 1.2.6 Phân lớp dựa luật kết hợp .16 1.2.7 Phân lớp dựa vào K-lân cận gần 18 1.2.8 Phân lớp dựa vào giải thuật di truyền 19 1.2.9 Phân lớp theo cách tiếp cận tập thô .20 1.2.10 Phân lớp theo cách tiếp cận tập mờ 21 1.3 Khái niệm tập mẫu học phương pháp xây dựng phân lớp 24 1.3.1 Định nghĩa tập mẫu học .24 1.3.2 Xây dựng phân lớp dựa theo Khóa .24 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn iv 1.3.3 Xây dựng phân lớp nhờ luật kết hợp phân lớp (Class Association Rules) bảng mẫu học 27 CHƯƠNG MỘT SỐ PHƯƠNG PHÁP TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC 29 2.1 Phương pháp phân lớp dựa luật kết hợp 29 2.1.1 Các bước tiến hành phân lớp dựa luật kết hợp .29 2.1.2 Tạo luật kết hợp định 29 2.2 Một số thuật toán cổ điển xây dựng phân lớp dựa luật kết hợp 29 2.2.1 Thuật toán CBA-RG 30 2.2.2 Thuật toán CBA-CB 32 2.3 Thuật toán đại 34 2.3.1 Thuật toán CBA cải tiến 34 2.3.2 Ví dụ áp dụng thuật toán cải tiến 37 CHƯƠNG CHƯƠNG TRÌNH THỬ NGHIỆM TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP DỰA TRÊN TẬP MẪU HỌC 42 3.1 Bài toán thử nghiệm 42 3.1.1 Bài toán tập mẫu học đầu vào 42 3.1.2 Chọn thuật toán thử nghiệm 46 3.2 Môi trường thử nghiệm 47 3.2.1 Chọn môi trường chứa liệu đầu vào .47 3.2.2 Chọn ngôn ngữ lập trình 47 3.3 Nội dung kết thử nghiệm 47 3.3.1 Mơ hình thuật toán thử nghiệm 47 3.3.3 Một số giao diện chương trình thử nghiệm 50 3.4 Đánh giá chương trình thử nghiệm 51 3.5 Mở rộng toán 51 KẾT LUẬN 60 TÀI LIỆU THAM KHẢO 62 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn v DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT DM – Data Mining CSDL – Cơ sở liệu CBA - Classification-Based Associon CMAR - Classification based on Multiple Asociation Rule Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn vi DANH MỤC BẢNG BIỂU Bảng 1.1 Ví dụ tập mẫu học…………………………………….… 15 Bảng 1.2 Các huấn luyện phân lớp CSDL……….… 20 Bảng 1.3 Ví dụ tập mẫu học phân lớp dựa theo khóa………… …33 Bảng 2.1 Ví dụ tập mẫu học để tìm luật kết hợp phân lớp theo thuật toán cải tiến…………………………………………………… ………… 47 Bảng 2.2 Bảng tổng hợp……………………………………… ……… 49 Bảng 2.3a Khoản mục………………………………………… …….… 50 Bảng 2.3b Các luật kết hợp phân lớp phổ biến – Khoản mục…… ….…50 Bảng 2.3c Các luật kết hợp phân lwps – Khoản mục……… ……….…50 Bảng 3.1 Tập mẫu học……………………………………………………55 Bảng 3.2 Bảng mẫu học số hóa…………………………………….56 Bảng 3.3 Bảng tổng hợp kết thu được………………………… … 59 Bảng 3.4 Bảng mấu học (mở rộng) đầu vào…………………………… 60 Bảng 3.5 Bảng mẫu học mở rộng số hóa……………………… 64 Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn vii DANH MỤC HÌNH VẼ Hình 1.1 Cây định cho việc chơi Gold………….……………… ….16 Hình 1.2 Một tập thơ xấp xỉ tập C dùng tập xấp xỉ dước C Các vùng hình chũ nhật biểu diễn lớp tương đương……………………………………………………… ………………27 Hình 1.3 Các giá trị mờ thật với thu nhập, biểu diễn mức thành viên giá trị thu nhập theo loại {thấp, trung bình, cao}…………… …28 Hình 1.4 Cây phân lớp xây dựng với trường hợp…………………………34 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn viii MỞ ĐẦU Lý chọn đề tài Thế kỷ XXI xem kỷ nguyên công nghệ thông tin Cùng với việc ứng dụng công nghệ thông tin hầu hết lĩnh vực nhiều năm qua dẫn đến lượng liệu, thông tin nhân loại lưu trữ ngày tăng Nguồn liệu khổng lồ tích lũy với tốc độ bùng nổ từ nhiều lĩnh vực: khoa học, kinh doanh, giao dịch, thương mại, chứng khoán,… Vậy khai thác từ “núi” liệu tưởng chừng bỏ Cùng với việc tăng không ngừng khối lượng liệu, hệ thống thơng tin chun mơn hóa, phân hạch hóa theo lĩnh vực sản xuất, tài chính, buôn bán thị trường v.v, nhiên hệ quản trị sở liêu truyền thống khai thác lượng thơng tin nhỏ khơng cịn đáp ứng đủ yêu câu, thách thức Do khuynh hướng đời kỹ thuật phát tri thức sở liệu Khai phá liệu (Data Mining – DM) đời phần giải hữu hiệu yêu cầu, thách thức Một lĩnh vực nghiên cứu phương pháp ứng dụng khai phá liệu, tìm kiếm tri thức, kết xuất tri thức… từ liệu tìm kiếm Luật kết hợp phân lớp (Class Association Rules) nghiên cứu từ nhiều năm trước có kết khả quan mang lại hướng ứng dụng có hiệu cao Ngày nay, kỹ thuật khai phá liệu dựa việc tìm kiếm luật kết hợp phân lớp áp dụng mang lại hiệu cho nhiều ngành, nhiều lĩnh vực như: Kinh tế, tài chính, khoa học - kỹ thuật, ngân hàng, thương mại, giáo dục, y tế… kỹ thuật khai phá dự liệu Luật kết hợp phân lớp đa dạng phong phú kỹ thuật dựa thuật toán CBA-RG, CBA-CB,… Với mong muốn nắm vững trình phát tri thức từ liệu Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn Be nh Dau Da nh dau uco an B1 Khô ng B1 B1 B1 B1 B2 B2 B2 B2 Có Có Có Có Kh ơng Có Có Có Có Có Có Có Khơ ng Có Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN Kh ông Kh ông Kh ông Be nh Dau Da nh dau uco an B2 B2 B2 Khơ ng ơng Có Có Có B2 Khơ ng B2 B2 B3 B3 Kh Có Có Có Khơ ng B3 Khơ ng Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN Kh ơng Có Kh ơng Kh ơng Có Kh ơng Có Be nh Dau Da nh dau uco an B3 B3 B3 B3 Khơ ng Có Có ng B4 ơng Có B3 Kh Có Khơ ơng Có B3 B3 Kh Khơ Có Kh ng ơng Có Có Có B4 Khơ ng B4 Có Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN Kh ông Có Có 56 table1 Be nh Dau Da nh dau uco Có Có an B4 B4 B4 B4 B4 B4 B4 B5 Có Khơ ng Khơ Kh ơng Kh ơng Kh ng ơng Có Có Có Có Có Khơ ng Số hóa Trung tâm Học liệu Cơng nghệ thông tin – ĐHTN Kh ông Kh ông http://lrc.tnu.edu.vn 57 Sau mã hóa, có: Bảng 3.5 Bảng mẫu học mở rộng số hóa Benh Dau nhan dau B01 B02 B03 B04 B05 B06 B07 B08 B09 B10 B11 B12 B13 B14 B15 B16 B17 B18 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN Benh Dau nhan dau B19 B20 B21 B22 B23 B24 B25 B26 B27 B28 B29 B30 B31 B32 B33 B34 B35 B36 B37 B38 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN 59 table1 Benh Dau nhan dau B39 B40 B41 B42 B43 B44 B45 B46 B47 B48 B49 B50 Bảng mẫu học mở rộng lưu EXCEL: Tuan2.xlsx (dạng chữ số) Từ kết phần mềm cho thấy thuật toán cải tiến dựa luật kết hợp phân lớp trình bày [5] đưa kết giảm nửa số phép tính q trình tính tốn Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 60 KẾT LUẬN Kết đạt Luận văn “ Nghiên cứu số phương pháp tìm luật kết hợp phân lớp tập mẫu học áp dụng vào chẩn đoán bệnh” đạt kết sau:  Chương giới thiệu tổng quan “ Khai phá liệu” số vấn đề như: khái niệm, phương pháp khai phá liệu, ứng dụng khai phá liệu Khái niệm phân lớp liệu, bước tiến hành phân lớp, kiểu phương pháp phân lớp liệu  Chương giới thiệu số phương pháp tìm luật kết hợp phân lớp dựa tập mẫu học, phương pháp phân lớp, bước tiến hành phân lớp dựa luật kết hợp Chương giới thiệu thuật toán xây dựng phân lớp dựa luật kết hợp, thuật toán cổ điển CBA-RG, CBA-CB thuật toán cải tiến giúp giảm nửa số phép tính thực tốn  Chương mơ tả toán áp dụng thuật toán cải tiến vào chuẩn đoán bệnh cúm bệnh viện đa khoa TW Thái Ngun, quy trình chuẩn đốn xác định bệnh, thơng tin tình trạng bệnh nhận thu thập lưu vào file Excel làm liệu đầu vào toán Cuối chương phần giới thiệu kết xây dựng phần mềm chuẩn đoán bệnh cúm kết thu sau nhập liệu Vì khai phá liệu dựa luật kết hợp nói riêng khai phá liệu nói chung vấn đề rộng lớn, nên hẳn nghiên cứu nhỏ e nhiếu thiếu sót, phần thực nhiệm cịn dạng thử nghiệm thuật tốn cần cải thiện thêm trở thành sản phẩm thực tiễn Em mong nhận góp ý thầy bạn để đề tài ngày hoàn thiện Em xin chân thành cảm ơn! Hướng nghiên cứu Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn 61 Tiếp tục hồn thiện phần mềm để trở thành phần mềm thực tiễn Nghiên cứu áp dụng thuật toán, xây dựng phần mềm chuẩn đốn bệnh khác Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 62 TÀI LIỆU THAM KHẢO A-Tiếng Việt [1] Nguyễn Khắc Giáo (2013), Khai thác luật kết hợp từ sở liệu giao dịch siêu thị bán lẻ, Luận văn Thạc sĩ Công nghệ thông tin, Đại học Công nghệ, Đại học Quốc gia Hà Nội [2].Nguyễn Đăng Nguyên (2017), Phương pháp xây dựng định dựa tập phụ thuộc hàm xấp xỉ, Luận văn Thạc sĩ Khoa học máy tính, Đại học Cơng nghệ thông tin truyền thông – Đại học Thái Nguyên [3] Lê Văn Phùng (2018), Cơ sở liệu quan hệ cơng nghệ phân tích –thiết kế , Tái lần 1, Nhà xuất Thông tin truyền thông [4] Lê Văn Phùng - Quách Xuân Trưởng, Khai phá liệu (2017), tái lần 1, Nhà xuất Thông tin truyền thông [5] Phạm Hạ Thủy (2006), Một số vấn đề liên quan đến tệp liệu hệ thống sở liệu, Luận án tiến sĩ, Viện CNTT, Viện Hàn lâm Khoa học công nghệ Việt Nam B-Tiếng Anh [6] Han J and M Kamber (2006), Data Mining-Concepts and Techniques (Second Edition) Morgan Kaufmann Publishers [7] B.Liu (1998), integrating classification and association mining, in proc Conf Knowledge discover and data mining p 80-86 nework) [8] Kwok wa Lam (2004) building decision trees using functional dependencies, proceeding of the international conference on information technology: coding and computing) [9] ZijianZheng (1996), Constructing New Attributes for Dacision Tree Learning, The thesis for the degree of Doctor of Philosophy, The University of Sydney) Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ... CHƯƠNG MỘT SỐ PHƯƠNG PHÁP TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC 2.1 Phương pháp phân lớp dựa luật kết hợp 2.1.1 Các bước tiến hành phân lớp dựa luật kết hợp Phương pháp phân lớp dựa luật kết. .. cứu đề tài: Nghiên cứu kỹ thuật khai phá liệu nói chung, trọng việc tìm luật kết hợp phân lớp tập mẫu học Nghiên cứu toán ứng dụng phương pháp cải tiến tìm luật kết hợp phân lớp tập mẫu học Phương. .. dựng phân lớp nhờ luật kết hợp phân lớp (Class Association Rules) bảng mẫu học 27 CHƯƠNG MỘT SỐ PHƯƠNG PHÁP TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC 29 2.1 Phương pháp phân lớp

Ngày đăng: 08/06/2021, 12:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w