Luận văn thạc sĩ máy tính nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc

20 1 0
Luận văn thạc sĩ máy tính nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Thị Hà NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC LUẬN[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Thị Hà NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC LUẬN VĂN THẠC SĨ: NGÀNH MÁY TÍNH Hà Nội – 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Thị Hà NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ: NGÀNH MÁY TÍNH CÁN BỘ HƯỚNG DẪN KHOA HỌC Hướng dẫn 1: TS Trần Mạnh Tuấn Hướng dẫn 2: TS Nguyễn Như Sơn Hà Nội – Năm 2021 Lời cam đoan Tôi xin cam đoan luận văn thực hiện, không chép lại người khác Nội dung luận văn cá nhân nghiên cứu tổng hợp từ nhiều nguồn tài liệu, tài liệu tham khảo có xuất xứ rõ ràng trích dẫn quy cách Nếu có sai sót, tơi xin chịu trách nhiệm Hà nội, 03/2021 Nguyễn Thị Hà Lời cảm ơn Tôi xin dành biết ơn chân thành đến TS Trần Mạnh Tuấn, Giảng viên Khoa Công nghệ thông tin, Trường Đại học Thủy Lợi – Người thầy trực tiếp hướng dẫn tận tình bảo tơi q trình thực khóa luận Tơi xin cảm ơn TS Nguyễn Như Sơn, Trưởng phịng CNTT, Viện Cơng nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam góp ý, hướng dẫn cung cấp tài liệu để tơi hồn thành tốt luận văn Tơi xin cảm ơn tồn thể giảng viên Học viện Khoa học Công nghệ truyền đạt cho kiến thức kỹ nghiên cứu suốt trình học tập Trường Cuối cùng, tơi xin chân thành cảm ơn gia đình bạn bè, người ủng hộ giúp đỡ tơi thời gian học tập thực khóa luận Với khả mình, tơi cố gắng hồn thành luận văn tốt nhất, chắn luận văn cịn nhiều thiếu sót, tơi mong nhận thêm góp ý bảo từ phía q thầy bạn Danh mục ký hiệu chữ viết tắt Tên viết tắt Ý nghĩa WHO Tổ chức Y tế Thế giới (World Health Organization) FDA Cục Quản lý Thực phẩm Dược phẩm Hoa Kỳ (U.S Food and Drug Administration) TNLS Thử nghiệm lâm sàng UMC Trung tâm giám sát Uppsala WHO-UCM Trung tâm giám sát Uppsala (UMC) Tổ chức Y tế Thế giới (WHO) (World Health Organization-Uppsala Monitoring Center) ADR Phản ứng có hại thuốc (Adverse Drug Reaction) NSD Người sử dụng CSDL Cơ sở liệu KPDL Khai phá liệu Trung tâm DI&ADR Quốc gia Trung tâm Quốc gia thông tin thuốc theo dõi phản ứng có hại thuốc Danh mục bảng Bảng 1.1 – Các thành phần hệ thống 22 Bảng 2.1 - Thống kê số liệu theo thuốc R phản ứng T 25 Bảng 2.2 - Thống kê liệu theo thuốc R phản ứng T 30 Bảng 2.3 - Thống kê liệu theo Thuốc R phản ứng T 34 Bảng 3.1 - Bảng liệu vài ghi liệu 41 Bảng 3.2 – Danh sách thuốc có số lần xuất nhiều 43 Bảng 3.3 – Danh sách 50 ADR có số lần xuất nhiều 48 Danh mục hình vẽ, đồ thị Hình 1.1 - Quy trình khám phá tri thức 10 Hình 1.2 - Các bước trình khai phá liệu 12 Hình 1.3 - Mục đích khai phá liệu 13 Hình 1.4 - Mơ hình mơ tả giai đoạn phân lớp 14 Hình 1.5 - Ví dụ phân tích khai phá liệu mơ tả 16 Hình 1.6 - Mô tả giai đoạn gom cụm sử dụng khai phá liệu mơ tả 16 Hình 1.7 - Mơ tả giai đoạn khai phá luật kết hợp tốn giỏ hàng 17 Hình 1.8 – Kiến trúc tổng thể 22 Hình 3.1 – Dữ liệu ADR hệ thống 51 Hình 3.2 – Kết khai phá liệu Apriori với độ hỗ trợ 70 52 Hình 3.3 – Kết phương pháp WHO-UCM với độ hỗ trợ 70 53 Hình 3.4 – Kết phương pháp FDA với độ hỗ trợ 70 56 Hình 3.5 – Kết khai phá liệu Apriori với độ hỗ trợ 80 58 Hình 3.6 – Kết phương pháp WHO-UCM với độ hỗ trợ 80 59 Hình 3.7 – Kết phương pháp FDA với độ hỗ trợ 80 61 Hình 3.8 – Kết khai phá liệu Apriori với độ hỗ trợ 100 62 Hình 3.9 – Kết phương pháp WHO-UCM với độ hỗ trợ 100 63 Hình 3.10 – Kết phương pháp FDA với độ hỗ trợ 100 64 MỤC LỤC MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU 1.1 GIỚI THIỆU CHUNG VỀ LĨNH VỰC CẢNH GIÁC DƯỢC 1.1.1 Hoạt động cảnh giác dược Việt Nam [4] 1.1.2 Hoạt động cảnh giác dược Mỹ 1.1.3 Hoạt động cảnh giác dược tổ chức y tế giới [6] 1.2 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.2.1 Giới thiệu chung 1.2.2 Giới thiệu Khai phá liệu 10 1.2.3 Ý nghĩa vai trò Khai phá liệu 17 1.2.4 Bài toán khai phá liệu 18 1.3 TỔNG QUAN VÀ MỤC TIÊU CỦA ĐỀ TÀI 19 1.3.1 Tổng quan đề tài 19 1.3.2 Mục tiêu đề tài 20 1.3.3 Phương pháp thực 20 1.3.4 Công cụ, ngôn ngữ lập trình 21 CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC 24 2.1 BÀI TOÁN PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC 24 2.2 SỬ DỤNG THUẬT TOÁN KHAI PHÁ DỮ LIỆU APRIORI ĐỂ PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC 25 2.2.1 Một số khái niệm luật kết hợp 25 2.2.2 Khai phá luật kết hợp 26 2.2.3 Thuật toán Apriori 27 2.3 NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP FDA ĐỂ GIẢI BÀI TOÁN PHÁT HIỆU ADR 29 2.3.1 Giới thiệu số thống kê RR 29 2.3.2 Nghiên cứu phương pháp FDA 30 2.3.3 Thuật toán áp dụng 32 2.4 NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP WHO-UMC ĐỂ TÌM RA PHẢN ỨNG CÓ HẠI CỦA THUỐC 33 2.4.1 Giới thiệu số thống kê OR 33 2.4.2 Nghiên cứu phương pháp WHO-UCM 34 2.4.3 Thuật toán áp dụng 36 CHƯƠNG 3: THỬ NGHIỆM CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC 38 3.1 ÁP DỤNG CÁC THUẬT TỐN CHO BÀI TỐN PHÁT HIỆN TÍN HIỆU 38 3.2 MÔ TẢ DỮ LIỆU THỬ NGHIỆM 40 3.3 CÁC BƯỚC THỰC HIỆN THỬ NGHIỆM 51 3.4 KẾT QUẢ THỬ NGHIỆM 52 3.4.1 Thử nghiệm lần 52 3.4.2 Thử nghiệm lần 57 3.4.3 Thử nghiệm lần 62 3.4.4 Kết luận 64 CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ 66 4.1 KẾT LUẬN 66 4.2 ĐỊNH HƯỚNG PHÁT TRIỂN ĐỀ TÀI 66 MỞ ĐẦU Trong năm gần đây, phương tiện lưu trữ có dung lượng ngày lớn, hệ quản trị sở liệu ngày nhiều, cung cấp cho người dùng khả lưu trữ không giới hạn Dữ liệu nhiều giá trị tri thức mà chứa đựng lại chưa sử dụng cách hiệu Với thành công cơng trình nghiên cứu lĩnh vực khai phá liệu, người khai thác giá trị tri thức từ liệu lưu trữ, sử dụng chúng để giải nhiều toán lĩnh vực quan trọng đời sống Trong ngành y tế, mục đích dùng thuốc chữa bệnh, phòng bệnh, phục hồi, điều chỉnh chức thể, làm giảm triệu chứng bệnh, chẩn đoán bệnh, phục hồi nâng cao sức khoẻ cho người Tuy nhiên, mặt trái thuốc gây phản ứng có hại nhiều mức độ, chí tử vong kể dùng liều, quy định [1] Theo định nghĩa Tổ chức Y tế giới (WHO), ADR (Adverse Drug Reactions) “phản ứng gây hại đáng kể bất lợi xảy sau can thiệp có liên quan đến việc sử dụng thuốc Một phản ứng có hại sở để dự đoán mức độ nguy hại việc sử dụng thuốc để phòng, điều trị, điều chỉnh liều ngừng thuốc” [2] Cũng theo WHO, phản ứng có hại thuốc với mức độ nghiêm trọng xảy liều dùng nào, phản ứng có hại xảy mức độ nặng gây tử vong, nguy hại đến tính mạng, thể nhẹ làm cho người bệnh nhập viện kéo dài thời gian nằm viện, gây tàn tật suy giảm chức vĩnh viễn, gây dị tật bẩm sinh khiếm khuyết sinh [3] Các vấn đề liên quan đến ADR coi trọng tâm nghiên cứu Cảnh giác Dược, hầu hết quốc gia có trung tâm đơn vị cảnh giác dược để tiến hành phân tích, theo dõi ADR Ở Việt Nam, thông tin phản ứng phụ thuốc trình điều trị (báo cáo ADR) xảy sở khám chữa bệnh nước gửi trung tâm Cảnh giác dược Quốc gia Dựa vào số liệu ADR sở khám chữa bệnh, Trung tam Cảnh giác dược Quốc gia phân tích phát tín hiệu ADR ADR nghiêm trọng để từ đưa khuyến cáo việc sử dụng thuốc an tồn, hợp lý Việc áp dụng thuật tốn khai phá liệu kho liệu báo cáo ADR Trung tâm cảnh giác dược nhu cầu cần thiết, có tính thực tế hiệu cao việc sàng lọc, phát sớm thuốc có khả có phản ứng ADR Hiện có nhiều thuận toán khai phá liệu, nhiên phạm vi nghiên cứu đề tài tập trung nghiên cứu áp dụng thuận toán khai phá liệu Apriori, kết hợp với phương pháp WHOUCM phương pháp FDA để tìm luật kết hợp từ đưa cảnh báo phản ứng có hại thuốc Do đó, mục tiêu luận văn ứng dụng phương pháp khai phá liệu phương pháp WHO-UCM, phương pháp FDA để phát phản ứng có hại thuốc nhằm hỗ trợ cán nghiệp vụ lĩnh vực cảnh giác dược việc dự báo thuốc có khả có phải ứng có hại, từ có phân tích sâu để đưa kết luận xác phản ứng có hại thuốc sở để định ngừng sử dụng khuyến cáo cách dùng thuốc có phản ứng ADR Bố cục luận văn trình bày chương sau: Chương 1: Giới thiệu: giới thiệu chung lĩnh vực cảnh giác dược, giới thiệu tổng quan khai phá liệu, tổng quan mục tiêu đề tài Chương 2: Một số phương pháp khai phá liệu phát phản ứng có hại thuốc (ADR) Chương 3: Thử nghiệm phương pháp khai phá liệu phát phản ứng có hại thuốc (ADR) Kết luận kiến nghị CHƯƠNG 1: GIỚI THIỆU 1.1 GIỚI THIỆU CHUNG VỀ LĨNH VỰC CẢNH GIÁC DƯỢC 1.1.1 Hoạt động cảnh giác dược Việt Nam [4] Cảnh giác dược (Pharmacovigilance), theo Tổ chức Y tế Thế giới, định nghĩa “Môn khoa học hoạt động chuyên môn liên quan đến việc phát hiện, đánh giá, hiểu phòng tránh biến cố bất lợi một vấn đề nào khác liên quan đến thuốc” Phản ứng có hại thuốc (ADR - Adverse Drug Reactions) tác dụng không mong muốn thuốc xảy trình sử dụng lâm sàng Phản ứng có hại thuốc xảy gần hàng ngày sở khám chữa bệnh ảnh hưởng xấu đến chất lượng điều trị bệnh nhân, làm cho tình hình bệnh tật bệnh nhân xấu tử vong Phản ứng có hại thuốc làm giảm chất lượng, hiệu điều trị bệnh cớ sở khám chữa bệnh Cũng có nhiều trường hợp bệnh nhân nhập viện có liên quan đến phản ứng ADR Bệnh nhân điều trị nội trú có lần có phản ứng ADR suốt trình điều trị chiếm tỉ lệ cao Tỷ lệ mắc ADR thực tế lớn nhiều số báo cáo từ sở khám chữa bệnh số ADR có triệu chứng, trạng thái giống với bệnh thơng thường khơng bị phát khơng báo cáo Do ADR có mức độ ảnh hưởng lớn đến trị điều trị bệnh nên phản ứng có hại thuốc cần nhanh chóng xác định quản lý để hạn chế tác dụng gây hại cho bệnh nhân Cảnh giác dược liên quan đến việc nghiên cứu thương tích liên quan đến thuốc đưa khuyến nghị khuyến cáo cho đại lý dược phẩm; bao gồm việc phát hiện, đánh giá, hiểu phòng ngừa ADR Dược sĩ đóng vai trị quan trọng tất bước quy trình cảnh giác dược, dược sĩ ngăn ngừa người bệnh dùng thuốc khơng cách dùng thuốc khơng đáng Ngồi việc giữ gìn an tồn chất lượng sống cho người bệnh, cảnh giác dược làm tiết kiệm chi phí khám chữa bệnh cho người bệnh tổ chức chăm sóc sức khỏe Bằng cách báo cáo ADR biết nghi ngờ, dược sĩ, chuyên gia chăm sóc sức khỏe khác người bệnh hỗ trợ xác định mơ hình xu hướng, điều dẫn đến giám sát theo quy định chí rút thuốc khơng có tỷ lệ lợi ích rủi ro thuận lợi Tại Việt Nam, Trung tâm Quốc gia Thông tin thuốc Theo dõi phản ứng có hại thuốc, có tên viết tắt “Trung tâm ADR&DI Quốc gia” thành lập ngày 9/6/2009 có trụ sở 13 phố Lê Thánh Tông, Hai Bà Trung Hà nội Ngày 01/03/2011, thành lập Trung tâm khu vực thông tin thuốc theo dõi phản ứng có hại thuốc trực thuộc Bệnh viện Chợ Rẫy, có tên viết tắt "Trung tâm khu vực DI & ADR thành phố Hồ Chí Minh" Nhiệm vụ hệ thống Cảnh giác Dược Việt Nam thu thập quản lý báo cáo liên quan đến tính an tồn thuốc; phát hiện, xử lý thơng báo tính an tồn thuốc; đánh giá quản lý nguy liên quan đến thuốc 1.1.2 Hoạt động cảnh giác dược Mỹ FDA - Food and Drug Administration, quan thuộc Bộ Y tế Dịch vụ Nhân sinh Hoa Kỳ thành lập vào năm 1906, FDA có trách nhiệm bảo vệ sức khỏe cộng đồng cách đảm bảo an toàn, hiệu bảo mật thuốc thuốc thú y, vắc-xin sản phẩm sinh học khác cho người thiết bị y tế Cơ quan chịu trách nhiệm an toàn an ninh nguồn cung cấp thực phẩm, mỹ phẩm, thực phẩm bổ sung, sản phẩm phát xạ điện tử điều tiết sản phẩm thuốc [5] FDA yêu cầu nhà sản xuất thuốc báo cáo ADR cho Phòng Dịch tễ Giám sát Dịch tễ học FDA; đa số báo cáo ADR mà quan FDA nhận từ nhà sản xuất dược phẩm Trong số báo cáo ADR cịn lại, số lượng báo cáo ADR nhiều từ dược sĩ sở khám chữa bệnh Các quy định FDA sửa đổi vào năm 1985 để xác định cụ thể ADR báo cáo quy trình báo cáo; nhà sản xuất yêu cầu báo cáo vòng 15 ngày phản ứng nghiêm trọng khơng có nhãn Đối với loại thuốc phê duyệt, báo cáo ADR phải gửi hàng quý ba năm; sau đó, báo cáo hàng năm bắt buộc Bất kỳ gia tăng tần số phản ứng nghiêm trọng, có nhãn phải báo cáo Các phản ứng nghiêm trọng không liệt kê ghi nhãn sản phẩm phải báo cáo cho sản phẩm bán thị trường trước năm 1962 mà ứng dụng thuốc ứng dụng thuốc viết tắt không nộp Thông tin ADR mà FDA nhận được mã hóa thành thuật ngữ tiêu chuẩn nhập vào sở liệu máy vi tính để nhà đánh giá thực đánh giá Nếu nghi ngờ phản ứng quan trọng, báo cáo nhập vào hệ thống theo dõi để theo dõi thêm Thông tin ADR truyền đạt tới chuyên gia chăm sóc sức khỏe việc dán nhãn sản phẩm tài liệu Dược sĩ khuyến khích báo cáo phản ứng nghi ngờ nghiêm trọng khơng có nhãn với FDA để cộng đồng y tế cơng chúng hưởng lợi từ thơng tin an tồn thuốc 1.1.3 Hoạt động cảnh giác dược tổ chức y tế giới [6] World Health Organization-Uppsala Monitoring Center (viết tắt WHO-UCM) Trung tâm giám sát Uppsala (UMC) Tổ chức Y tế Thế giới (WHO), đặt Uppsala, Thụy Điển, tên Trung tâm hợp tác tổ chức y tế giới giám sát ma túy quốc tế UMC hoạt động cách thu thập, đánh giá truyền đạt thông tin từ trung tâm cảnh giác dược quốc gia nước thành viên liên quan đến lợi ích, tác hại, hiệu rủi ro thuốc UMC thành lập vào năm 1978 để hỗ trợ Chương trình giám sát ma túy quốc tế WHO, bắt đầu vào năm 1968 phản ứng toàn cầu thảm kịch thalidomide Chương trình tìm cách thu thập thông tin tác dụng phụ thuốc từ nhiều nguồn tốt khắp giới, để đảm bảo dấu hiệu nguy hiểm xảy từ thuốc không bị bỏ lỡ Công việc UMC là: - Phối hợp Chương trình giám sát ma túy quốc tế WHO 100 quốc gia thành viên - Để thu thập, đánh giá truyền đạt thông tin từ quốc gia thành viên lợi ích, tác hại rủi ro thuốc chất khác sử dụng y học để cải thiện liệu pháp bệnh nhân sức khỏe cộng đồng toàn giới - Hợp tác với nước thành viên việc phát triển thực hành khoa học cảnh giác dược Nghiên cứu UMC bao gồm chủ yếu ba lĩnh vực: khám phá dựa liệu (đặc biệt kỹ thuật thống kê), phân tích tỷ lệ khơng tương xứng, phát tương tác, mơ hình phát trường hợp trùng lặp), giám sát báo hiệu an tồn (trong phụ thuộc vào thuốc sử dụng nhi khoa) phân tích rủi ro lợi ích Vai trị UMC lĩnh vực an tồn thuốc khơng phải khơng có tranh cãi quan dược phẩm công ty dược phẩm, tiếp cận theo hướng mở, sẵn sàng tham gia với nhiều bên giới dược phẩm WHO-UCM có mối liên quan chặt chẽ đến với nước phát triển khu vực khác nơi cảnh giác dược chưa xử lý Phản ứng có hại thuốc (ADR) phản ứng độc hại ý muốn thuốc xảy liều thường sử dụng người để điều trị dự phịng, chẩn đốn, điều trị điều chỉnh chức sinh lý ADR coi nguyên nhân hàng đầu gây bệnh tật tử vong Đánh giá nguyên nhân đánh giá khả điều trị cụ thể nguyên nhân tác dụng phụ quan sát Nó đánh giá mối quan hệ điều trị thuốc xuất tác dụng phụ Nó thành phần quan trọng cảnh giác dược, góp phần đánh giá tốt hồ sơ lợi ích rủi ro thuốc phần thiết yếu để đánh giá báo cáo ADR hệ thống cảnh báo sớm cho mục đích quy định Đánh giá nguyên nhân ADR thực bác sĩ lâm sàng, học giả, ngành công nghiệp dược phẩm, nhà quản lý môi trường khác nhau, bao gồm thử nghiệm lâm sàng Ở cấp độ cá nhân, nhà cung cấp dịch vụ chăm sóc sức khỏe đánh giá quan hệ nhân cách khơng thức xử lý ADR bệnh nhân để đưa định liên quan đến trị liệu Cơ quan quản lý đánh giá báo cáo ADR tự phát, đánh giá nguyên nhân giúp phát tín hiệu hỗ trợ định lợi ích rủi ro liên quan đến thuốc Các thuật toán, cấu trúc hệ thống thiết kế đặc biệt để xác định ADR, mặt lý thuyết đưa định khách quan quan hệ nhân Các đánh giá nguyên nhân khách quan dựa bốn nguyên tắc - đủ điều kiện theo thời gian, phản ứng kết quả, kiểm tra lại kết quả, yếu tố gây nhiễu 1.2 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.2.1 Giới thiệu chung - Vào năm 1960 người bắt đầu sử dụng thuật toán để khai phá sở liệu Vì lượng liệu ngày nhiều người cần tìm giá trị thực lượng liệu khổng lồ đó.[7] - Khoa học cơng nghệ phát triển việc đẩy mạnh nghiên cứu áp dụng thuật toán thu thập, lưu trữ xử lý liệu, giúp phát triển tích cực cho nhiều lĩnh vực đời sống - Lượng thông tin ngày nhiều đòi hỏi thiết bị để đáp ứng khả lưu trữ phải nhiều mà thông tin lưu trữ thiết bị đĩa, băng từ, đĩa CD-ROM,… tăng lên Lượng thông tin hệ thống tin học tăng lên từ tạo lên nhiều sở liệu lớn - Cuối thập kỉ 80 phát triển bùng nổ CSDL, nguồn liệu khổng lồ phát triển nhanh chóng tạo bùng nổ thơng tin 10 tồn cầu Lượng thơng tin nhiều mà người cần giá trị nguồn liệu tạo lên nhu cầu thiết yếu để khai thác giá trị liệu cốt lõi - Bước đầu tiếp cận nguồn liệu tạo giá trị để cung cấp thơng tin có chất lượng cao cho tổ chức tài chính, thương mại, khoa học,… - Lượng liệu khổng lồ đem lại nhiều giá trị thơng tin có ý nghĩa định hoạt động quản lý, kinh doanh tổ chức, đơn vị,… 1.2.2 Giới thiệu Khai phá liệu - Khai phá liệu lĩnh vực nhằm tự động khai thác thông tin, tri thức có tính tiềm ẩn, hữu ích từ sở liệu lớn cho đơn vị, tổ chức, doanh nghiệp,…[7] - Có thể định nghĩa: Khai phá liệu trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng sở liệu lớn.[7] 1.2.2.1 Quy trình khám phá tri thức sở liệu Hình 1.1 - Quy trình khám phá tri thức 11 - Trích chọn liệu: tìm tập liệu có ý nghĩa từ tập liệu lớn ban đầu Ví dụ, từ CSDL bán hàng, ta chọn liệu khách hàng, đơn đặt hàng, hoá đơn - Tiền xử lý liệu:  Làm liệu: làm làm giàu liệu Làm đầy đủ liệu, xử lý nhiễu, vấn đề không qn, v.v Ví dụ, khách hàng lưu nhiều ghi có tên, địa khác nhau, cần phải chỉnh sửa để đảm bảo qn xác khách hàng Những liệu khác khuôn dạng, đơn vị đo lường,… cần phải có qui định thống cách chuyển dạng chung  Rút gọn liệu: Thực thuật tốn phân nhóm, phương pháp nén liệu, lấy mẫu,…  Rời rạc hóa liệu: Thực thuật tốn histograms, entropy, phân khoảng,… - Biến đổi liệu: thực mã hoá xử lý liệu nhằm tự động hoá việc biến đổi di chuyển liệu - Khai phá liệu: thực phân tích định với mục đích chọn mẫu tin, mối quan hệ liệu - Biểu diễn tri thức đánh giá:  Những mẫu tin mối liên hệ liệu chuyển dạng biểu diễn dạng như: dạng đồ thị, dạng bảng, dạng cây,…  Khi có tri thức ta đánh giá tri thức theo tiêu chí định Ví dụ: Đưa tri thức loại thuốc cần đảm bảo loại thuốc có điều trị bệnh hay chưa, đồng thời có gây biểu bệnh hay không 12 Quy trình khám phá tri thức chuỗi lặp nhiều lần gồm bước nêu bên 1.2.2.2 Các bước trình khai phá liệu Các bước trình khai phá liệu bao gồm bước “hình 1.2 - Các bước trình khai phá liệu” Hình 1.2 - Các bước trình khai phá liệu 1.2.2.3 Các kỹ thuật áp dụng mục đích khai phá liệu Khám phá tri thức CSDL lĩnh vực liên ngành gồm: Tổ chức liệu, học máy, trí tuệ nhân tạo, thống kê, thu thập tri thức hệ chuyên gia,… Các kỹ thuật Học máy áp dụng Khai phá liệu: Học có giám sát (Supervised Learning): Học có giám sát nhiệm vụ học máy việc học hàm ánh xạ đầu vào thành đầu dựa cặp đầu vào - đầu mẫu Một thuật tốn học có giám sát phân tích liệu đào tạo tạo hàm suy ra, sử dụng để ánh xạ ví dụ Một kịch tối ưu cho phép thuật tốn xác định xác nhãn lớp cho trường hợp khơng nhìn thấy Điều địi hỏi thuật tốn học tập phải khái qt hóa từ liệu huấn luyện để khơng nhìn thấy tình theo cách "hợp lý" Trong học máy có giám sát sử dụng phương pháp là: phân lớp dự đoán 13 Học phi giám sát (Unsupervised Learning): Phương pháp học tập giám sát cho nhãn có sẵn cho tất mẫu đào tạo Trong học tập bán tự động (SSL), bên cạnh liệu dán nhãn, người ta cho có liệu chưa gắn nhãn có sẵn thời điểm đào tạo Mục tiêu phương thức SSL trích xuất thơng tin từ liệu chưa gắn nhãn tạo điều kiện cho việc học mơ hình phân biệt đối xử với hiệu suất cao Trong học máy không giám sát sử dụng phương pháp là: phân cụm, có nghĩa đối tượng xếp theo cụm Luật kết hợp (association rules): Là phát mối quan hệ giá trị liệu sở liệu, mối quan hệ luật kết hợp biểu diễn tri thức dạng đơn giản Ví dụ: “60% nữ giới vào siêu thị mua phấn có tới 80% số họ mua thêm son” Mục đích khai phá liệu trích rút tri thức cách tự nhiên, hiệu “thông minh” từ kho liệu, tri thức chiết xuất mang lại lợi ích có tính cạnh tranh thương trường nghiên cứu khoa học Do đó, khai phá liệu là mơ tả (description) dự đốn (prediction) Hình 1.3 - Mục đích khai phá liệu Dự đoán việc sử dụng biến trường CSDL để trích xuất hình mẫu, dự đốn giá trị chưa biết giá ... quan khai phá liệu, tổng quan mục tiêu đề tài Chương 2: Một số phương pháp khai phá liệu phát phản ứng có hại thuốc (ADR) Chương 3: Thử nghiệm phương pháp khai phá liệu phát phản ứng có hại thuốc. .. PHÁP PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC 24 2.1 BÀI TỐN PHÁT HIỆN PHẢN ỨNG CĨ HẠI CỦA THUỐC 24 2.2 SỬ DỤNG THUẬT TOÁN KHAI PHÁ DỮ LIỆU APRIORI ĐỂ PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC... NGHỆ Nguyễn Thị Hà NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CĨ HẠI CỦA THUỐC Chun ngành: Hệ thống thơng tin Mã số: 8480104 LUẬN VĂN THẠC SĨ: NGÀNH MÁY TÍNH CÁN BỘ HƯỚNG

Ngày đăng: 03/03/2023, 07:34

Tài liệu cùng người dùng

Tài liệu liên quan