1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luật kết hợp trong khai phá dữ liệu và ứng dụng hỗ trợ phát hiện gian lận kê đơn cấp thuốc bảo hiểm y tế

85 332 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 1,31 MB

Nội dung

i LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Hải Minh - khoa Công nghệ Thông tin - Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên cán trực tiếp hướng dẫn cho trình thực luận văn Tôi xin chân thành cảm ơn thầy, cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông thuộc Đại học Thái Nguyên tham gia giảng dạy, tạo điều kiện cho học tập, nâng cao trình độ kiến thức để phục vụ cho công tác sau Tôi xin cảm ơn Thạc sỹ, Bác sỹ chuyên khoa II Trương Đồng Tâm Bệnh viện trường Đại học Y Khoa Thái Nguyên, tạo điều kiện cho tiếp xúc trực tiếp tìm hiểu thông tin liên quan ngành Y giúp tiếp cận với kho liệu khám chữa bệnh bệnh viện Cuối cùng, xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp động viên, hỗ trợ trình học tập nghiên cứu đề tài Mặc dù cố gắng, song luận văn tránh khỏi thiếu sót, kính mong dẫn, góp ý quý thầy cô bạn Thái Nguyên, tháng 05 năm 2016 Tác giả Lê Tiến Thành ii LỜI CAM ĐOAN Tôi xin cam đoan nội dung kết nghiên cứu luận văn trung thực không trùng lặp với đề tài khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc Thái Nguyên, tháng 05 năm 2016 Tác giả Lê Tiến Thành iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH .vii LỜI NÓI ĐẦU MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ GIAN LẬN BẢO HIỂM Y TẾ 1.1 Các kiến thức chung khai phá liệu 1.1.1 Quy trình khai phá liệu phát tri thức 1.1.2 Kiến trúc hệ thống khai phá liệu 1.1.3 Các loại liệu khai phá 1.1.4 Chức khai phá liệu 1.1.5 Lợi khai phá liệu so với phương pháp 1.1.6 Một số ứng dụng khai phá liệu 11 1.1.7 Những thách thức ứng dụng nghiên cứu kỹ thuật KPDL 13 1.2 Tổng quan gian lận BHYT kê đơn cấp thuốc 17 1.2.1 Giới thiệu chung 17 1.2.2 Các hình thức gian lận y tế 18 1.2.3 Gian lận kê đơn, cấp thuốc BHYT 18 1.2.4 Chức năng, nhiệm vụ quan Bảo hiểm y tế: 18 1.3 Khai phá liệu luật kết hợp 18 1.3.1 Lý thuyết luật kết hợp 18 1.3.2 Định nghĩa luật kết hợp 19 1.4 Các tính chất luật kết hợp 20 1.4.1 Với tập mục phổ biến (3 tính chất) 20 iv 1.4.2 Với luật kết hợp (4 tính chất sau) 21 Chương GIẢI THUẬT APRIORI VÀ FP-GROWTH TRONG KHAI PHÁ DỮ LIỆU 23 2.1 Thuật toán Apriori 23 2.2 Thuật toán PP-growth 26 2.3 Cấu trúc FP-Tree 28 2.4 Xây dựng FP-Tree 29 2.5 Sinh tập phổ biến 31 Chương ỨNG DỤNG THUẬT TOÁN FP-GROWTH KHAI PHÁ DỮ LIỆU ĐƠN THUỐC BẢO HIỂM Y TẾ 39 3.1 Thông tin liệu mẫu yêu cầu toán 39 3.2 Mô hình ứng dụng thuật toán FP-growth để phát luật kê đơn 41 3.3 Lựa chọn công cụ phát triển 41 3.4 Kết khai phá luật liệu kê đơn thuốc bảo hiểm 44 3.5 Thử nghiệm chương trình hỗ trợ phát gian lận kê đơn cấp thuốc 62 3.5.1 Mô hình hỗ trợ phát gian lận kê đơn cấp thuốc BHYT 62 3.5.2 Phương pháp thử nghiệm 62 3.5.3 Dữ liệu thử nghiệm 63 3.5.4 Kết thử nghiệm 63 KẾT LUẬN 64 KIẾN NGHỊ NHỮNG NGHIÊN CỨU TIẾP THEO 66 TÀI LIỆU THAM KHẢO 67 PHỤ LỤC 68 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CSDL Database Cơ sở liệu Conf Confidence Độ tin cậy Supp Support Độ hỗ trợ Item Item Khoản mục Itemset Itemset Tập khoản mục K - itemset K - itemset Tập gồm K mục TID Transaction Định danh giao tác Indentification KDD Knowledge Discovery Kỹ thuật phát tri thức khai and Data Mining phá liệu Ck Ck Tập K – itemset ứng cử Lk Lk Tập K – itemset phổ biến Minconf Minimum Confidence Độ tin cậy tối thiểu Minsup Minimum Support Độ hỗ trợ tối thiểu KPDL Data Mining Khai phá liệu BHYT Bảo hiểm y tế vi DANH MỤC CÁC BẢNG Trang Bảng2.1 Ví dụ sở liệu giao dịch T 32 Bảng 2.2 Các tập mục phổ biến 38 Bảng 3.1 Bảng liệu 39 Bảng 3.2 Danh mục bệnh thường gặp 40 Bảng 3.3 Mã bệnh I15.0 : Cao huyết áp mạch máu thận 44 Bảng 3.4 Mã bệnh J20: Viêm phế quản cấp 45 Bảng 3.5 Mã bệnh J30: Viêm mũi vận mạch dị ứng 47 Bảng 3.6 Mã bệnh K35: Viêm ruột thừa cấp 48 Bảng 3.7 Mã bệnh M25.5: Đau khớp 51 Bảng 3.8 Mã bệnh N20.0: Sỏi thận 53 Bảng 3.9 Mã bệnh R10.4: Đau bụng không xác định đau bụng khác 57 Bảng 3.10 Mã bệnh R51: Đau đầu 59 Bảng 3.11 Mã bệnh T67.6: Mệt nhiệt, thời 60 vii DANH MỤC CÁC HÌNH Trang Hình 1.1 Quy trình phát tri thức Hình 1.2 Kiến trúc hệ khai phá liệu điển hình Hình 3.1 Giao diện chương trình 42 Hình 3.2 Giao diện chọn file liệu mẫu 42 Hình 3.3 Kết thực phân tích tìm luật 43 Hình 3.4 Giao diện module kê đơn thuốc 63 Hình 3.5 Giao diện phát gian lận từ Cơ sở liệu 64 LỜI NÓI ĐẦU Trong thời đại ngày nay, với phát triển nhanh chóng ứng dụng công nghệ thông tin kỷ nguyên internet vào nhiều lĩnh vực đời sống xã hội, khoa học kỹ thuật, kinh tế, an ninh quốc phòng, … Đã tạo nhiều sở liệu khổng lồ Việc dùng phương tiện tin học để tổ chức khai thác sở liệu phát triển từ năm 60 Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua tạo kho liệu khổng lồ, tăng lên không ngừng Các sở liệu đơn vị, tổ chức kinh doanh, quản lý khoa học… chứa đựng nhiều thông tin tiềm ẩn, phong phú đa dạng, đòi hỏi phải có phương pháp phù hợp, xác, hiệu để lấy thông tin bổ ích Tuy nhiên, theo thống kê có lượng nhỏ liệu phân tích, số lại họ phải làm làm Vấn đề đặt làm để xử lý khối lượng thông tin cực lớn để phát tri thức tiềm ẩn Những tri thức chiết suất từ nguồn sở liệu nguồn thông tin hữu ích hỗ trợ cho lãnh đạo việc lên kế hoạch hoạt động định xác Để làm điều người ta sử dụng trình phát tri thức sở liệu (Knowledge Discovery in Database – KDD) Nhiệm vụ KDD từ liệu sẵn có phải tìm thông tin tiềm ẩn có giá trị mà trước chưa phát tìm xu hướng phát triển xu hướng tác động lên chúng Các kỹ thuật cho phép ta lấy tri thức từ sở liệu sẵn có gọi kỹ thuật Khai phá liệu (Data Mining) Một nội dung khai phá liệu phổ biến phát luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất một tập thuộc tính khác Những luật kết hợp khai phá giúp tổ chức nhà quản lý đưa định kinh doanh hiệu Từ lý em tìm hiểu đề tài “LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG HỖ TRỢ PHÁT HIỆN GIAN LẬN KÊ ĐƠN CẤP THUỐC BẢO HIỂM Y TẾ” Nhằm phân tích liệu áp dụng thuật toán để tìm mẫu thông tin, hoạt động có tính quy tập liệu lớn, đồng thời áp dụng vào khai phá liệu khám chữa bệnh sở khám chữa bệnh để hướng tới cài đặt chương trình hỗ trợ cán đại diện bảo hiểm lãnh đạo phát sớm trường hợp gian lận lạm dụng bảo hiểm ứng dụng hỗ trợ phát gian lận Trong trình làm luận văn em nhận giúp đỡ bảo tận tình thầy cô giáo khoa công nghệ thông tin Trường Đại học Công nghệ Thông tin Truyền thông, đặc biệt thầy Nguyễn Hải Minh Do thời gian có hạn lực hạn chế nên không tránh khỏi sai sót nên em mong nhận giúp đỡ góp ý thầy cô bạn Em xin chân thành cảm ơn thầy Nguyễn Hải Minh thầy, cô trường Đại học Công nghệ Thông tin Truyền thông tạo điều kiện giúp đỡ em suốt trình học tập làm luận văn Trường MỞ ĐẦU Hiện nay, nhiều bệnh viện sử dụng phần mềm quản lý khám chữa bệnh ghi nhận việc kê đơn Tuy nhiên thực tế có nhiều trường hợp kê không đúng, kê lạm dụng để lấy thuốc số sở y tế khai khống, kê đơn thuốc không với bệnh nhằm hưởng lợi bất số tiền hỗ trợ từ nguồn ngân quỹ bảo hiểm xã hội Đề tài tập trung nghiên cứu kiến thức khai phá liệu sử dụng luật kết hợp Đây dạng luật kết hợp mang lại hiệu cao giúp tìm quy luật ứng dụng vào khai phá liệu sở khám chữa bệnh Trong khuôn khổ phạm vi nghiên cứu đề tài, phần thực nghiệm tác giả tiến hành cài đặt thuật toán dựa liệu kê đơn thuốc bảo hiểm bệnh viện trường Đại học Y khoa – Đại học Thái Nguyên với mục tiêu phát quy luật kê đơn số bệnh thường gặp bệnh viện, để từ làm sở xây dựng chương trình hỗ trợ cán đại diện bảo hiểm phát trường hợp bất thường kê đơn, có nghi ngờ gian lận lạm dụng bảo hiểm 64 - Giao diện phát gian lận từ Cơ sở liệu (Hình 3.5): Hình 3.5 Giao diện phát gian lận từ Cơ sở liệu Sau chọn liệu bệnh R10.4 – Đau bụng không xác định đau bụng khác từ CSDL bệnh viện so sánh với kết khai phá luật bảng 3.9 chương trình đưa danh sách loại thuốc nghi ngờ gian lận 65 KẾT LUẬN Khai phá liệu lĩnh vực quan trọng bao gồm nhiều lĩnh vực kỹ thuật khác nhau, áp dụng rộng rãi nhiều lĩnh vực nói chung phát gian lận nói riêng Thực trạng lạm dụng, gian lận kê đơn cấp thuốc bảo hiểm y tế Việt Nam diễn hàng ngày bệnh viện, sở khám chữa bệnh với nhiều hình thức khác Luận văn đề cập đến nội dung mô hình toán khai phá liệu, tìm hiểu toán quản lý bảo hiểm y tế vấn đề gian lận bảo hiểm y tế, nghiên cứu liệu đầu vào dạng liệu sử dụng khai phá Về mặt cài đặt thử nghiệm, luận văn giới thiệu kỹ thuật khai phá liệu theo thuật toán FP – Growth áp dụng vào toán hỗ trợ phát sớm kê đơn lạm dụng bảo hiểm, phát luật kê đơn thuốc cho bệnh phổ biến bệnh viện trường Đại học Y Khoa Thái Nguyên xây dựng module kê đơn thuốc hỗ trợ phát thuốc nghi ngờ gian lận Trong trình thực luận văn, cố gắng tìm hiểu tài liệu liên quan, nhiên thời gian trình độ có hạn nên không tránh khỏi hạn chế thiếu sót Nên kính mong nhận nhận xét, góp ý Thầy, cô giáo bạn bè để luận văn hoàn thiện 66 KIẾN NGHỊ NHỮNG NGHIÊN CỨU TIẾP THEO Trên sở nghiên cứu trình bầy luận văn, tiếp tục triển khai, áp dụng phương pháp phát gian lận nghiên cứu luận văn vào thực tế bệnh viện, quan bảo hiểm xã hội nhằm góp phần phát hiện, tra cứu trưởng hợp nghi ngờ, gian lận, lạm dụng quỹ bảo hiểm xã hội để đảm bảo quyền lợi người dân Tiếp tục nghiên cứu, xây dựng phần mềm tích hợp với phần mềm kê đơn thuốc hỗ trợ cán bảo hiểm công tác xét duyệt hồ sơ bảo hiểm 67 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Văn Phùng, Quách Xuân Trưởng, Khai phá liệu, NXB Thông tin truyền thông, 2012 [2] Nguyễn Minh Tú, Tìm hiểu phương pháp phân cụm liệu ứng dụng xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên, luận văn cao học, 05-2015 Tiếng Anh: [3] A Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, (First Edition) Addison-Wesley Longman Publishing Co., Inc Boston, MA, USA ©2005, ISBN:0321321367 [4] Ching-Kuo Wei & Syi Su & Ming-Chin Yang, "Application of Data Mining on the Development of a Disease Distribution Map of Screened Community Residents of Taipei County in Taiwan", DOI 10.1007/s10916-011-9664-7, J Med Syst (2012) 36:2021–2027 [5] Zhang, Tian, Raghu Ramakrishnan, and Miron Chinh hay Livny (1996) BIRCH: An Efficient Data Clustering Method for Very Large Databases Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, Montreal, Canada, pp 103-114, 1996 [6] The Challenge of Health Care Fraud, http://www.nhcaa.org/resources/health-care-anti-fraud-resources/thechallenge-of-health-care-fraud.aspx [7] Examples of Healthcare Fraud Investigations - Fiscal Year 2013, http://www.irs.gov/uac/Examples-of-Healthcare-Fraud-InvestigationsFiscal-Year-2013 68 PHỤ LỤC Class xây dựng FPtree.java package fpdemo; public class FPtree extends TotalSupportTree { protected class FPtreeNode { private FPgrowthItemPrefixSubtreeNode node = null; private FPtreeNode[] cacNodeCon = null; protected FPtreeNode() { } protected FPtreeNode(FPgrowthItemPrefixSubtreeNode newNode) { node = newNode; } } private class FPgrowthItemPrefixSubtreeNode { private short itemName; private int itemCount; private FPgrowthItemPrefixSubtreeNode nodeCha = null; private FPgrowthItemPrefixSubtreeNode nodeLink = null; private FPgrowthItemPrefixSubtreeNode() { } private FPgrowthItemPrefixSubtreeNode(short name, int support, FPgrowthItemPrefixSubtreeNode backRef) { itemName = name; itemCount = support; nodeCha = backRef; } } 69 protected class FPgrowthHeaderTable { //Tên hạng mục protected short itemName; //Con trỏ trỏ tới node protected FPgrowthItemPrefixSubtreeNode nodeLink = null; protected FPgrowthHeaderTable(short columnNum) { itemName = columnNum; } } private class FPgrowthSupportedSets { private short[] itemSet = null; private int support; private FPgrowthSupportedSets nodeLink = null; private FPgrowthSupportedSets(short[] newitemSet, int newSupport, FPgrowthSupportedSets newNodeLink) { itemSet = newitemSet; support = newSupport; nodeLink = newNodeLink; } } //Thêm node vào FPtree private void themNodeVaoFPTree(FPtreeNode ref, int place, short[] itemSet, 70 int support, FPgrowthHeaderTable[] headerRef) { if (place < itemSet.length) { if (!themNodeVaoFPTree_NodeDaTonTai(ref, place, itemSet, support, headerRef)) { themNodeVaoFPTree_NodeChuaTonTai(ref, place, itemSet, support, headerRef); } } } //Nếu tồn hạng mục tăng số lần xuất lên tiếp private boolean themNodeVaoFPTree_NodeDaTonTai(FPtreeNode ref, int place, short[] itemSet, int support, FPgrowthHeaderTable[] headerRef) { if (ref.cacNodeCon != null) { for (int index = 0; index < ref.cacNodeCon.length; index++) { if (itemSet[place] == ref.cacNodeCon[index].node.itemName) { ref.cacNodeCon[index].node.itemCount = ref.cacNodeCon[index].node.itemCount + support; soLanUpdateCayFPTree++; themNodeVaoFPTree(ref.cacNodeCon[index], place + 1, itemSet, support, headerRef); return (true); } if (itemSet[place] < ref.cacNodeCon[index].node.itemName) { return (false); } } 71 } return (false); } /* ADD REF TO HEADER TABLE */ private void themLienKetDenFPgrowthHeaderTable(short columnNumber, FPgrowthItemPrefixSubtreeNode newNode, FPgrowthHeaderTable[] headerRef) { FPgrowthItemPrefixSubtreeNode tempRef; for (int index = 1; index < headerRef.length; index++) { if (columnNumber == headerRef[index].itemName) { tempRef = headerRef[index].nodeLink; headerRef[index].nodeLink = newNode; newNode.nodeLink = tempRef; break; } } } public void startMining() { startMining(headerTable, null); generateARs(); } private void startMining(FPgrowthHeaderTable[] tableRef, short[] itemSetSofar) { int headerTableEnd = tableRef.length - 1; FPgrowthColumnCounts[] countArray = null; 72 FPgrowthHeaderTable[] localHeaderTable = null; FPtreeNode localRoot; int support; short[] newCodeSofar; for (int index = headerTableEnd; index >= 1; index ) { if (tableRef[index].nodeLink != null) { startMining(tableRef[index].nodeLink, tableRef[index].itemName, itemSetSofar); } } } private FPgrowthColumnCounts[] countFPgrowthSingles() { int index, place = 0; FPgrowthSupportedSets nodeLink = startTempSets; FPgrowthColumnCounts[] countArray = new FPgrowthColumnCounts[soTapPhoBien1PhanTu + 1]; for (index = 1; index < soTapPhoBien1PhanTu + 1; index++) { countArray[index] = new FPgrowthColumnCounts(index); } while (nodeLink != null) { for (index = 0; index < nodeLink.itemSet.length; index++) { place = nodeLink.itemSet[index]; countArray[place].support = countArray[place].support + nodeLink.support; soLanUpdateCayFPTree++; } 73 nodeLink = nodeLink.nodeLink; } return (countArray); } private FPtreeNode[] reallocFPtreeChildRefs(FPtreeNode[] oldArray, FPtreeNode newNode) { if (oldArray == null) { FPtreeNode[] newArray = {newNode}; tempIndex = 0; return (newArray); } int oldArrayLength = oldArray.length; FPtreeNode[] newArray = new FPtreeNode[oldArrayLength + 1]; for (int index1 = 0; index1 < oldArrayLength; index1++) { if (newNode.node.itemName < oldArray[index1].node.itemName) { newArray[index1] = newNode; for (int index2 = index1; index2 < oldArrayLength; index2++) { newArray[index2 + 1] = oldArray[index2]; } tempIndex = index1; return (newArray); } newArray[index1] = oldArray[index1]; } newArray[oldArrayLength] = newNode; tempIndex = oldArrayLength; return (newArray); } 74 } Class xây dựng AssoRuleMining.java package fpdemo; import java.io.*; import java.util.*; import java.util.logging.Level; import java.util.logging.Logger; import javax.swing.*; public class AssocRuleMining extends JFrame { protected class RuleNode { protected short[] antecedent; protected short[] consequent; double confidenceForRule = 0.0; RuleNode next = null; protected RuleNode(short[] ante, short[] cons, double confValue) { antecedent = ante; consequent = cons; confidenceForRule = confValue; } } protected RuleNode startRulelist = null; 75 protected short[][] mangDuLieu = null; protected int[][] chuyenDoiSapXepMang = null; protected short[] taiChuyenDoiSapXepmang = null; private static final double MIN_SUPPORT = 0.0; private static final double MAX_SUPPORT = 100.0; private static final double MIN_CONFIDENCE = 0.0; private static final double MAX_CONFIDENCE = 100.0; //Tên file input protected String fileName = Main.fileName; protected int soHangMuc = 0; protected int soGiaoDich = 0; public static double support = Main.minSupp; protected double minSupport = 0; public static double confidence = Main.minConf; protected int soTapPhoBien1PhanTu = 0; protected boolean errorFlag = true; protected boolean coInputFormatOK = true; private boolean coTonTaiDuLieu = false; protected boolean coDaSapXep = false; protected boolean coDaCatTia = false; protected BufferedReader fileInput; protected File filePath = null; public AssocRuleMining() { if (errorFlag) { CheckInputArguments(); } 76 } /* CHECK INPUT ARGUMENTS */ protected void CheckInputArguments() { checkSupportAndConfidence(); checkFileName(); } /* CHECK SUPPORT AND CONFIDANCE */ protected void checkSupportAndConfidence() { // Check Support if ((support < MIN_SUPPORT) || (support > MAX_SUPPORT)) { JOptionPane.showMessageDialog(null, "LỖI INPUT: Support phải nằm khoảng (" + MIN_SUPPORT + " - " + MAX_SUPPORT + ")"); errorFlag = false; } // Check confidence if ((confidence< MIN_CONFIDENCE) || (confidence > MAX_CONFIDENCE)) { JOptionPane.showMessageDialog(null, "LỖI INPUT: Confidence phải nằm khoảng (" + MIN_CONFIDENCE + " - " + MAX_CONFIDENCE + ")"); errorFlag = false; } } /* REALLOC INSERT */ protected short[] reallocInsert(short[] oldItemSet, short newElement) { if (oldItemSet == null) { 77 short[] newItemSet = {newElement}; return (newItemSet); } int oldItemSetLength = oldItemSet.length; short[] newItemSet = new short[oldItemSetLength + 1]; int index1; for (index1 = 0; index1 < oldItemSetLength; index1++) { if (newElement < oldItemSet[index1]) { newItemSet[index1] = newElement; for (int index2 = index1 + 1; index2 < newItemSet.length; index2++) { newItemSet[index2] = oldItemSet[index2 - 1]; } return (newItemSet); } else { newItemSet[index1] = oldItemSet[index1]; } } newItemSet[newItemSet.length - 1] = newElement; return (newItemSet); } /* REALLOC */ protected short[] realloc1(short[] oldItemSet, short newElement) { if (oldItemSet == null) { short[] newItemSet = {newElement}; return (newItemSet); } int oldItemSetLength = oldItemSet.length; 78 short[] newItemSet = new short[oldItemSetLength + 1]; int index; for (index = 0; index < oldItemSetLength; index++) { newItemSet[index] = oldItemSet[index]; } newItemSet[index] = newElement; return (newItemSet); } [...]... thức trong ứng dụng và nghiên cứu kỹ thuật KPDL Một số vấn đề khó khăn trong việc nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu như sau: 1.1.7.1 Các vấn đề về cơ sở dữ liệu Đầu vào chủ y u của một hệ thống khai thác tri thức là các dữ liệu thô trong cơ sở phát sinh trong khai phá dữ liệu chính là từ đ y Do các dữ liệu trong thực tế thường động, không đ y đủ, lớn và bị nhiễu Trong những trường hợp. .. BHYT Mức hưởng BHYT theo mức độ bệnh tật, nhóm đối tượng trong phạm vi quyền lợi của người tham gia BHYT 18 1.2.2 Các hình thức gian lận trong y tế Có nhiều hình thức gian lận và lạm dụng trong gian lận y tế Chủ y u là những hình thức như sau: - Gian lận y tế từ nhà cung cấp trang thiết bị, thuốc điều trị - Gian lận y tế từ các nhà cung cấp chăm sóc y tế, các cơ sở khám chữa bệnh, nhân viên y tế - Gian. .. Gian lận từ người tham gia thụ hưởng bảo hiểm: giả mạo gi y tờ, cho người khác mượn gi y tờ liên quan khi đi khám chữa bệnh 1.2.3 Gian lận trong kê đơn, cấp thuốc BHYT Gian lận trong kê đơn, cấp thuốc BHYT là cố tình kê sai, kê lạm dụng để l y thuốc được thực hiện bởi một người hoặc nhiều người làm tổn thất về tài chính cho nhà nước và các cơ sở khám chữa bệnh Thực tế tình hình lạm dụng và gian lận bảo. .. 1.3.1 Lý thuyết về luật kết hợp Một trong những chủ đề phổ biến của KPDL là khám phá luật kết hợp Mục đích của khám phá luật kết hợp là xác định mối quan hệ, sự kết hợp giữa các item trong một CSDL lớn Luật kết hợp là một luật dạng X => Y, với X, Y là tập các item Một luật kết hợp được gọi là mạnh, nếu nó thoả độ hỗ trợ và thoả độ tin c y tối thiểu 19 Có nhiều thuật toán để khai phá luật kết hợp theo...4 Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ GIAN LẬN BẢO HIỂM Y TẾ 1.1 Các kiến thức chung về khai phá dữ liệu Trong thời đại ng y nay, với sự phát triển vượt bật của công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ng y của chúng Từ khối dữ liệu n y, các kỹ thuật trong Khai Phá Dữ Liệu (KPDL) và m y học có thể dùng để trích xuất những... hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu Bước thứ hai: Thu thập và tiền xử lý dữ liệu Là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu) , xử lý việc thiếu dữ liệu (làm giàu dữ liệu) , biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước n y thường chiếm nhiều thời gian nhất trong. .. hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng lưu trữ thông tin khác Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thể hiện trên những dữ liệu n y - M y chủ CSDL hay m y chủ kho dữ liệu (Database or warehouse server): M y chủ n y có trách nhiệm l y những dữ liệu thích hợp dựa trên các y u cầu khai phá của người dùng 7 Hình 1.2 Kiến trúc của một hệ khai phá dữ liệu. .. 1: (Không hợp các luật kết hợp) Nếu có XZ và Y Z trong D thì không nhất thiết X Y Z là đúng Xét trường hợp X Z = và các tác vụ trong D hỗ trợ Z nếu và chỉ nếu chúng hỗ trợ mỗi X hoặc Y, khi đó luật X Y Z có độ hỗ trợ 0% Tương tự : X Y  XZ  X Y Z Tính chất 2: (Không tách luật) Nếu X Y Z thì XZ và Y Z chưa chắc x y ra Ví dụ trường hợp Z có mặt trong một giao tác chỉ khi cả hai X và Y cũng có mặt,... CDSL Tuy nhiên, phát hiện tri thức trong cơ sở dữ liệu làm tăng thêm các vấn đề vốn đã là điển hình trong học m y và đã quá khả năng của học m y Trong thực tế, cơ sở dữ liệu thường động, không đ y đủ, bị nhiễu, và lớn hơn nhiều so với tập các dữ liệu học m y điển hình Các y u tố n y làm cho hầu hết các giải thuật học m y trở nên không hiệu quả trong hầu hết các trường hợp Vì v y trong khai phá dữ liệu, ... công cụ và phương pháp khai phá dữ liệu không thực sự tương tác với người dùng và không dễ dàng kết hợp cùng với các tri thức đã biết trước đó Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu Đã có nhiều biện pháp nhằm khắc phục vấn đề n y như sử dụng cơ sở dữ liệu suy diễn để phát hiện tri thức, những tri thức n y sau đó được sử dụng để hướng dẫn cho việc tìm kiếm khai phá dữ liệu ... Những luật kết hợp khai phá giúp tổ chức nhà quản lý đưa định kinh doanh hiệu Từ lý em tìm hiểu đề tài “LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG HỖ TRỢ PHÁT HIỆN GIAN LẬN KÊ ĐƠN CẤP THUỐC BẢO... diện bảo hiểm phát trường hợp bất thường kê đơn, có nghi ngờ gian lận lạm dụng bảo hiểm 4 Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ GIAN LẬN BẢO HIỂM Y TẾ 1.1 Các kiến thức chung khai phá liệu Trong. .. VỀ KHAI PHÁ DỮ LIỆU VÀ GIAN LẬN BẢO HIỂM Y TẾ 1.1 Các kiến thức chung khai phá liệu 1.1.1 Quy trình khai phá liệu phát tri thức 1.1.2 Kiến trúc hệ thống khai phá liệu

Ngày đăng: 09/12/2016, 14:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Lê Văn Phùng, Quách Xuân Trưởng, Khai phá dữ liệu, NXB Thông tin và truyền thông, 2012 Sách, tạp chí
Tiêu đề: Khai phá dữ liệu
Nhà XB: NXB Thông tin và truyền thông
[2]. Nguyễn Minh Tú, Tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh Thái Nguyên, luận văn cao học, 05-2015.Tiếng Anh Sách, tạp chí
Tiêu đề: Tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh Thái Nguyên
[3]. A Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, (First Edition) Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ©2005, ISBN:0321321367 Sách, tạp chí
Tiêu đề: Introduction to Data Mining
[4]. Ching-Kuo Wei &amp; Syi Su &amp; Ming-Chin Yang, "Application of Data Mining on the Development of a Disease Distribution Map of Screened Community Residents of Taipei County in Taiwan", DOI 10.1007/s10916-011-9664-7, J Med Syst (2012) 36:2021–2027 Sách, tạp chí
Tiêu đề: Application of Data Mining on the Development of a Disease Distribution Map of Screened Community Residents of Taipei County in Taiwan
[5]. Zhang, Tian, Raghu Ramakrishnan, and Miron Chinh hay Livny. (1996). BIRCH: An Efficient Data Clustering Method for Very Large Databases.Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, Montreal, Canada, pp. 103-114, 1996 Sách, tạp chí
Tiêu đề: BIRCH: An Efficient Data Clustering Method for Very Large Databases
Tác giả: Zhang, Tian, Raghu Ramakrishnan, and Miron Chinh hay Livny
Năm: 1996
[6]. The Challenge of Health Care Fraud, http://www.nhcaa.org/resources/health-care-anti-fraud-resources/the-challenge-of-health-care-fraud.aspx Link
[7]. Examples of Healthcare Fraud Investigations - Fiscal Year 2013, http://www.irs.gov/uac/Examples-of-Healthcare-Fraud-Investigations-Fiscal-Year-2013 Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w