Hệ thống thông tin quản lý trong kỷ nguyên số - từ đào tạo đến thực tiễn - Kỷ yếu hội thảo khoa học

282 1 0
Hệ thống thông tin quản lý trong kỷ nguyên số - từ đào tạo đến thực tiễn - Kỷ yếu hội thảo khoa học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ TÀI CHÍNH TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING KỶ YẾU HỘI THẢO KHOA HỌC HỆ THỐNG THÔNG TIN QUẢN LÝ TRONG KỶ NGUYÊN SỐ - TỪ ĐÀO TẠO ĐẾN THỰC TIỄN NHÀ XUẤT BẢN TÀI CHÍNH THÁNG 12 NĂM 2021 BAN CHỈ ĐẠO NỘI DUNG PGS.TS Hồ Thủy Tiên TS Trương Thành Công CHỊU TRÁCH NHIỆM NỘI DUNG PGS.TS Phan Thị Hằng Nga TS Trương Thành Công ThS Vũ Thị Thanh Hương BAN BIÊN TẬP PGS.TS Phan Thị Hằng Nga TS Trương Thành Công ThS Vũ Thị Thanh Hương ThS Bùi Hồng Trang ii - ĐỀ DẪN T rong bối cảnh cách mạng công nghệ 4.0 xu hướng chuyển đổi số nay, hệ thống thơng tin đóng vai trị quan trọng gắn liền với chiến lược phát triển tổ chức, doanh nghiệp Một hệ thống thông tin tốt giúp nâng cao khả cạnh tranh, hỗ trợ việc định tối ưu hóa quy trình nghiệp vụ kinh doanh doanh nghiệp Nhằm tăng cường chia sẻ kiến thức quản trị nguồn lực thông tin, phát triển dịch vụ, công cụ công nghệ thông tin để khai thác hệ thống thông tin tổ chức, doanh nghiệp; từ gắn kết thực tiễn với chương trình đào tạo ngành Hệ thống thông tin quản lý, Trường Đại học Tài – Marketing tổ chức Hội thảo khoa học với chủ đề “Hệ thống thông tin quản lý kỷ nguyên số – từ đào tạo đến thực tiễn” nhằm trao đổi, chia sẻ, tiếp thu ý kiến chuyên gia, nhà khoa học, nhà quản lý xu hướng, vấn đề phát sinh lĩnh vực ứng dụng công nghệ thông tin quản lý Trong trình chuẩn bị hội thảo, Ban tổ chức nhận 26 tham luận nhà khoa học, chuyên gia, giảng viên, cán quản lí trực tiếp tham gia giảng dạy cơng tác Trường Đại học Tài – Marketing chuyên gia trường đến từ trường bạn Đại học Công nghệ thông tin – Đại học Quốc gia TPHCM, Đại học Quốc tế Miền Đông, Đại học Văn Lang đơn vị khác Một số viết chọn lọc đưa vào kỷ yếu Hội thảo Các tham luận tập trung chủ yếu vào vấn đề: nâng cao chất lượng chất lượng đào tạo ngành hệ thống thông tin quản lý; xu hướng ứng dụng công nghệ doanh nghiệp Bên cạnh vấn đề phân tích, trực quan hóa liệu nhận quan tâm chuyên gia, nhà khoa học Với tinh thần khoa học nghiêm túc, Ban tổ chức Hội thảo trân trọng ghi nhận đóng góp nhà khoa học, chuyên gia, giảng viên, cán quản lí q trình tiến tới tổ chức Hội thảo Nội dung nghiên cứu chủ đề hội thảo hệ thống mở, tiếp tục phát triển hội thảo khác Mặt khác, tác giả nỗ lực cố gắng nghiên cứu, tìm tịi để làm sáng tỏ vấn đề nêu trên, để hội thảo thành công tốt đẹp cần đóng góp ý kiến, dẫn chân thành nhà khoa học, chuyên gia mặt để hội thảo đạt đầy đủ mục tiêu đề Kính chúc Quý vị đại biểu, nhà khoa học, chuyên gia, giảng viên sức khỏe, hạnh phúc thành đạt Trân trọng BAN TỔ CHỨC HỘI THẢO - iii iv - MỤC LỤC CÁC GIẢI PHÁP NÂNG CAO CHẤT LƯỢNG ĐÀO TẠO NHÂN LỰC NGÀNH CÔNG NGHỆ THÔNG TIN TRONG GIAI ĐOẠN 4.0 Đinh Nguyễn Thúy Nguyệt, Nguyễn Quốc Thanh ĐÀO TẠO CỬ NHÂN HỆ THỐNG THÔNG TIN QUẢN LÝ ĐÁP ỨNG YÊU CẦU THỰC TIỄN CHUYỂN ĐỔI SỐ TẠI VIỆT NAM 11 Trần Anh Sơn NHỮNG TÁC ĐỘNG CỦA CÔNG NGHỆ SỐ ĐẾN LĨNH VỰC KẾ TOÁN Ở VIỆT NAM 28 Lê Thị Kim Thoa NGHIÊN CỨU HÀNH VI SỬ DỤNG MẠNG XÃ HỘI FACEBOOK TRONG HỌC TẬP CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING 38 Vũ Thị Thanh Hương, Trần Trọng Hiếu VẬN DỤNG PHƯƠNG PHÁP GIẢNG DẠY CHỦ ĐỘNG NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG DẠY HỌC TRONG KỶ NGUYÊN SỐ 50 Mai Thanh Tâm CÁC XU HƯỚNG CÔNG NGHỆ HỖ TRỢ CHUYỂN ĐỔI SỐ TRONG GIÁO DỤC ĐẠI HỌC 63 Trương Thành Cơng, Huỳnh Tấn Phước, Nguyễn Chí Đạt KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU TRONG ĐÀO TẠO HỆ THỐNG THÔNG TIN QUẢN LÝ 77 Võ Xn Thể PYTHON: NGƠN NGỮ LẬP TRÌNH NỀN TẢNG TRONG ĐÀO TẠO HỆ THỐNG THÔNG TIN QUẢN LÝ 95 Võ Xuân Thể ỨNG DỤNG CÔNG NGHỆ THÔNG TIN VÀO GIẢNG DẠY CÁC HỌC PHẦN KHOA HỌC CƠ BẢN TẠI CÁC TRƯỜNG ĐẠI HỌC CAO ĐẲNG VIỆT NAM TRONG THỜI ĐẠI CÔNG NGHỆ 4.0 120 Trần Anh Sơn 10 PHÁT TRIỂN DOANH NGHIỆP THƯƠNG MẠI ĐIỆN TỬ TRONG KỶ NGUYÊN ĐIỆN TOÁN ĐÁM MÂY 131 Bùi Mạnh Trường -v 11 MỨC ĐỘ SẴN SÀNG PHÁT TRIỂN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN – TRUYỀN THÔNG TẠI CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM 145 Trần Trọng Hiếu, Phạm Thủy Tú 12 PHÁT TRIỂN FINTECH ỨNG DỤNG BIG DATA & AI CHO NGÂN HÀNG VIỆT NAM 160 Phạm Thủy Tú, Trương Xuân Hương, Lâm Hoàng Trúc Mai, Hồng Thị Dung 13 TRỰC QUAN HĨA DỮ LIỆU: VAI TRÒ & THỬ THÁCH 180 Trương Đình Hải Thụy, Huỳnh Ngọc Thành Trung 14 MỘT SỐ ỨNG DỤNG MÁY HỌC TRONG LĨNH VỰC NGÂN HÀNG 190 Tơn Thất Hồ An, Cao Thị Nhạn 15 TRỰC QUAN HÓA DỮ LIỆU VỚI MICROSOFT POWER BI 200 Đinh Nguyễn Thúy Nguyệt, Nguyễn Chí Đạt 16 AN TỒN THƠNG TIN CHO DOANH NGHIỆP VỪA VÀ NHỎ VIỆT NAM TRONG KỶ NGUYÊN SỐ 211 Trương Thành Công, Nguyễn Thanh Hải, Nguyễn Chí Đạt 17 VAI TRỊ CỦA HỆ THỐNG THƠNG TIN HỖ TRỢ RA QUYẾT ĐỊNH TRONG KINH DOANH THÔNG MINH 223 Lâm Hoàng Trúc Mai, Trương Xuân Hương 18 PHÂN TÍCH DỮ LIỆU LỚN VỚI CÁC ỨNG DỤNG 233 Trương Đình Hải Thụy, Trần Thanh San 19 PHÁT HIỆN TIN GIẢ VỚI PYTHON VÀ MACHINE LEARNING 243 Nguyễn Thanh Trường 20 ỨNG DỤNG ORANGE TRONG KHAI PHÁ LUẬT KẾT HỢP 257 Nguyễn Huy Khang vi - CÁC GIẢI PHÁP NÂNG CAO CHẤT LƯỢNG ĐÀO TẠO NHÂN LỰC NGÀNH CÔNG NGHỆ THÔNG TIN TRONG GIAI ĐOẠN 4.0 ThS Đinh Nguyễn Thúy Nguyệt ThS Nguyễn Quốc Thanh Trường Đại học Tài – Marketing Tóm tắt: Bài viết phân tích, đề xuất số giải pháp nhằm nâng cao chất lượng đào tạo nguồn nhân lực Công nghệ thông tin giai đoạn 4.0 thông qua việc tìm hiểu nhu cầu thực trạng nguồn nhân lực Công nghệ thông tin, đánh giá chất lượng đào tạo nguồn nhân lực Công nghệ thông tin giai đoạn Các giải pháp đề xuất bao gồm: đổi nội dung cách thức đào tạo, xây dựng sở vật chất, phát triển chất lượng đội ngũ giảng viên, kết hợp đẩy mạnh hợp tác với doanh nghiệp lĩnh vực Công nghệ thông tin Từ khóa: đào tạo nguồn nhân lực CNTT 4.0, cách mạng 4.0 Giới thiệu đặt vấn đề Cuộc cách mạng công nghiệp 4.0 (CMCN 4.0) với đời công nghệ kết hợp tất kiến thức lĩnh vực vật lý, kỹ thuật số, sinh học, đó, yếu tố cốt lõi kỹ thuật số trí tuệ nhân tạo (AI), vạn vật kết nối – Internet of Things (IoTs) liệu lớn (Big Data) ảnh hưởng đến tất lĩnh vực đời sống xã hội, làm biến đổi sâu sắc thị trường lao động, thay đổi cấu chất lượng nguồn nhân lực, đặc biệt nhu cầu sử dụng nguồn nhân lực chất lượng cao CMCN 4.0 hội cho nước phát triển theo kịp xu hướng giới Dù đua khoa học công nghệ, người nhân tố định để Việt Nam không bị chậm nhịp CMCN 4.0 Tại Việt Nam, nhu cầu nhân lực nhóm ngành kỹ thuật công nghệ thông tin (CNTT) ngày tăng cao, doanh nghiệp lĩnh vực CNTT đời ngày nhiều Tuy nhiên, nguồn nhân lực chất lượng cao ngành CNTT, kỹ thuật máy tính, tự động hóa Việt Nam lại q ít. Sự thiếu hụt nguồn lao động IT có tay nghề cao, tư sáng tạo tốt, trở ngại khiến ngành IT Việt Nam chưa bắt kịp công nghệ giới Để tiếp tục tăng trưởng đáp ứng đòi hỏi nhân CNTT thời đại 4.0 kinh tế số, Việt Nam cần giải vấn đề liên quan đến hạ tầng -1 nguồn nhân lực CNTT, đó, đẩy mạnh hoạt động giáo dục đào tạo giải pháp tất yếu ưu tiên hàng đầu Hiện nay, có nhiều trường đại học đào tạo nguồn nhân lực ngành CNTT, để thực gia tăng chất lượng đào tạo thu hút số lượng người học tham gia, ngồi việc quảng bá, giới thiệu ngành nghề hoạt động tuyển sinh mình, sở giáo dục, trường đại học cần nghiêm túc xem xét có chiến lược đào tạo cụ thể, lâu dài, phù hợp với giai đoạn phát triển xã hội Xuất phát từ yêu cầu thực tế đó, nhóm tác giả tiến hành nghiên cứu đề tài “Các giải pháp nâng cao chất lượng đào tạo nhân lực ngành Công nghệ thông tin giai đoạn 4.0” Bài viết nghiên cứu tài liệu, công văn Bộ Giáo dục Đào tạo công tác giáo dục đại học, hướng dẫn áp dụng chế đào tạo đặc thù ngành thuộc lĩnh vực CNTT để đáp ứng nhu cầu thị trường lao động hội nhập quốc tế; thực thu thập số liệu từ website tuyển dụng, cổng thông tin, viết tác giả báo, tạp chí mạng xã hội để tìm hiểu làm rõ thực trạng nhu cầu nguồn nhân lực CNTT giai đoạn nay, đánh giá chất lượng đào tạo nguồn nhân lực CNTT Thông qua số liệu, nhận định, đánh giá thu thập được, nhóm tác giả tiến hành tổng hợp, phân tích thách thức đặt trường đại học đào tạo ngành CNTT giai đoạn Từ đó, đề xuất số giải pháp nhằm nâng cao chất lượng đào tạo trường bối cảnh CMCN 4.0 Nội dung nghiên cứu 2.1 Các khái niệm liên quan – Nguồn nhân lực: nguồn lực cho phát triển kinh tế – xã hội, bao gồm nhóm dân cư độ tuổi lao động, có khả tham gia vào lao động, sản xuất xã hội Nguồn nhân lực biểu mặt: số lượng, tổng số người độ tuổi lao động làm việc theo quy định nhà nước thời gian lao động huy động từ họ; chất lượng, sức khoẻ trình độ chun mơn, kiến thức trình độ lành nghề người lao động – Nguồn nhân lực CNTT Việt Nam: nguồn nhân lực làm việc doanh nghiệp viễn thông, doanh nghiệp CNTT, nhân lực cho ứng dụng CNTT, nhân lực cho đào tạo CNTT, điện tử, viễn thông người dân sử dụng ứng dụng CNTT Các nguồn nhân lực yếu tố then chốt có ý nghĩa định việc ứng dụng phát triển CNTT Việt Nam (Huân, 2018) – Chất lượng nguồn nhân lực đánh giá ba khía cạnh: thể lực, trí lực tâm lực Trong bối cảnh kinh tế tri thức nay, nhà kinh tế tường quan tâm đến khía 2- cạnh trí lực, cụ thể lực sáng tạo, khả thích nghi, kỹ lao động nghề nghiệp người lao động qua số trình độ văn hóa, dân trí, học vấn, tỷ lệ lao động qua đào tạo, trình độ chất lượng đào tạo, mức độ lành nghề người lao động, trình độ quản lý tổ chức sản xuất kinh doanh, suất, chất lượng hiệu lao động (Huân, 2018) – Chất lượng đào tạo: có nhiều khái niệm chất lượng đào tạo, viết sử dụng khái niệm chất lượng đào tạo sản phẩm đào tạo đáp ứng mục tiêu đào tạo chuẩn đầu mà trường đưa ra, đáp ứng nhu cầu người học nhu cầu xã hội (Trung, 2020) 2.2 Nhu cầu thực trạng nguồn nhân lực Công nghệ thông tin Theo khảo sát VietnamWorks, trang web tuyển dụng lớn Việt Nam nay, năm qua, số lượng công việc ngành liên quan ngành CNTT tăng trung bình 47% năm Tuy nhiên, số lượng nhân ngành năm lại tăng mức trung bình 8% Nguyên nhân số lượng doanh nghiệp có tham gia tuyển dụng nhân ngành CNTT tăng 69% kể từ năm 2012 Đặc biệt, số lượng công ty chuyên phần mềm tăng đến 124% vòng năm (Vietnamworks, 2020) Trang VietnamWorks đưa ước tính tiếp tục đà tăng trưởng nhân lực ngành CNTT mức 8% nay, Việt Nam thiếu hụt khoảng 78.000 nhân lực ngành CNTT năm Còn theo trang TopDev, năm 2019 Việt Nam thiếu đến 90.000 nhân sự, năm 2020 số tăng đến 400.000 nhân ước tính 500.000 vào năm 2021 Đây thách thức lớn, hội để sở đào tạo, giới tuyển dụng góp sức để đưa giải pháp tốt nhằm đem đến nhiều nhân chất lượng cho thị trường lao động CNTT Nhu cầu nhân CNTT doanh nghiệp VNPT, Viettel, CMC hàng loạt công ty chuyên CNTT, gia công phần mềm, công ty khởi nghiệp nước, tập đoàn đa quốc gia hoạt động Việt Nam Samsung, LG, Intel, IBM,… gia tăng nhanh chóng để phục vụ nhu cầu mở rộng sản xuất, đáp ứng nhu cầu thị trường, đáp ứng đơn hàng mới,… (Vietnamworks, 2020) Đi kèm với phát triển kinh tế – xã hội giao thông thông minh, thành phố thông minh, thiết bị di động, vấn đề an toàn, an ninh mạng, nhu cầu nhân lực CNTT dự báo tiếp tục gia tăng mạnh mẽ Trong năm 2020, Việt Nam trở thành điểm đến công ty sản xuất lĩnh vực công nghệ Cụ thể, Qualcomm (Mỹ) mở Trung tâm Nghiên cứu Phát triển (R&D) Hà Nội; Luxshare ICT (công ty chuyên lắp ráp tai nghe Airpods cho Apple Samsung) sau mở nhà máy, tuyển hàng ngàn cơng nhân kỹ sư, có kế hoạch xây dựng thêm nhà máy sản xuất Smart TV Khu công nghiệp Vân Trung (Bắc Giang) mở rộng đầu tư nhà máy Nghệ An Cùng với đó, LG lên kế hoạch, dự kiến đầu tư 15.000 – 20.000 tỷ đồng xây dựng khu công nghiệp thông minh, nhà máy thơng minh -3 • Chuẩn hóa min-max, giá trị nằm khoảng [new_mini, new_maxi] vnew = vold – mini maxi – mini (new_maxi – new_mini) + new_mini • Chuẩn hóa z-score, với μi , σi : giá trị trung bình độ lệch chuẩn thuộc tính i v new = vold – μi σi • Chuẩn hóa thang chia 10, với j giá trị số nguyên nhỏ cho max({vnew}) < v new vold = 10j – Xây dựng thuộc tính dựa thuộc tính ban đầu 2.1.1.4 Thu giảm liệu (data reduction) Một kho liệu lớn chứa lượng liệu lên đến nhiều terabytes chí petabytes làm cho q trình khai phá liệu chạy thời gian, nên thu giảm liệu Việc thu giảm liệu thu biểu diễn thu gọn, mà sinh (hoặc xấp xỉ) kết khai phá tập liệu ban đầu Các chiến lược thu giảm: – Giảm số chiều (dimensionality reduction), loại bỏ bớt thuộc tính khơng quan trọng hay quan trọng – Giảm lượng liệu (data/numberosity reduction) phương pháp: • Kết hợp khối liệu • Nén liệu • Hồi quy • Rời rạc hóa 2.1.2 Một số phương pháp tiêu biểu khai phá liệu (Data mining) 2.1.2.1 Phương pháp Phân loại Phân loại liệu dạng phân tích liệu nhằm rút trích mơ hình mơ tả lớp liệu dự đoán xu hướng liệu - 261 Quá trình gồm hai bước: – Bước học (giai đoạn huấn luyện): xây dựng phân loại (classifier) việc phân tích/học tập huấn luyện – Bước phân loại (classification): phân loại liệu/đối tượng độ xác phân loại đánh giá chấp nhận (acceptable) Các giải thuật phân loại liệu: • Phân loại liệu với định (decision tree) • Phân loại liệu với mạng Bayesian • Phân loại liệu với mạng neural • Phân loại liệu với k phần tử gần (k-nearest neighbor) • Phân loại liệu với suy diễn dựa tình (case-based reasoning) • Phân loại liệu dựa tiến hóa gen (genetic algorithms) • Phân loại liệu với lý thuyết tập thơ (rough sets) • Phân loại liệu với lý thuyết tập mờ (fuzzy sets) 2.1.2.2 Phương pháp Gom cụm Gom cụm liệu: Việc nhóm tập đối tượng có đặc điểm giống hay gần giống vào nhóm Các đối tượng cụm tương tự với so với đối tượng cụm khác Phương pháp gom cụm hỗ trợ giai đoạn tiền xử lý liệu, mô tả phân bố liệu/ đối tượng… Các phương pháp gom cụm tiêu biểu: – Phân hoạch (partitioning): phân hoạch tạo đánh giá theo tiêu chí – Phân cấp (hierarchical): phân rã tập liệu/đối tượng có thứ tự phân cấp theo tiêu chí – Dựa mật độ (density-based): dựa connectivity and density functions – Dựa lưới (grid-based): dựa a multiple-level granularity structure – Dựa mơ hình (model-based): mơ hình giả thuyết đưa cho cụm; sau hiệu chỉnh thơng số để mơ hình phù hợp với cụm liệu/đối tượng 262 - 2.1.2.3 Phương pháp khai phá luật kết hợp 2.1.2.3.1 Định nghĩa luật kết hợp Cho I = {I1, I2, , In} tập hợp n tính chất riêng biệt Giả sử D sở liệu, với ghi chứa tập T tính chất (có thể coi Τ ⊆ Ι), ghi có số riêng Một luật kết hợp mệnh đề kéo theo có dạng X → Y, X, Y ⊆ I, thỏa mãn điều kiện X∩Y = Ø Các tập hợp X Y gọi tập hợp tính chất (itemset) Tập X gọi nguyên nhân, tập Y gọi hệ Có độ đo quan trọng luật kết hợp: Độ hỗ trợ (support) độ tin cậy (confidence) 2.1.2.3.2 Định nghĩa Độ hỗ trợ – Định nghĩa 1: Độ hỗ trợ tập hợp X sở liệu D tỷ số ghi T ⊆ D có chứa tập X tổng số ghi D (hay phần trăm ghi D có chứa tập hợp X), ký hiệu support(X) hay supp(X) (support tự sinh cài thuật toán) S0 = |{T ⊂ D:Y ⊂ X}| |D| Ta có: ≤ supp(X) ≤ với tập hợp X – Định nghĩa 2: Độ hỗ trợ luật kết hợp X → Y tỷ lệ số lượng ghi chứa tập hợp X ∪ Y, so với tổng số ghi D – Ký hiệu supp(X → Y) Supp(X → Y) = |{T ⊂ D:T ⊆ X ∪ Y}| |D| Khi nói độ hỗ trợ luật 50%, có nghĩa có 50% tổng số ghi chứa X ∪ Y Như vậy, độ hỗ trợ mang ý nghĩa thống kê luật 2.1.2.3.3 Định nghĩa Độ tin cậy – Định nghĩa 1: Độ tin cậy luật kết hợp X → Y tỷ lệ số lượng ghi D chứa X ∪ Y với số ghi D có chứa tập hợp X Ký hiệu độ tin cậy luật conf(r) Ta có ≤ conf(r) ≤ Nhận xét: Độ hỗ trợ độ tin cậy có xác suất sau: Supp(X → Y) = P(X ∪ Y) Conf (X → Y) = P(Y/X) = supp(X ∪ Y)/supp(X) - 263 – Định nghĩa 2: Độ tin cậy luật kết hợp X → Y tỷ lệ số lượng ghi tập hợp chứa X ∪ Y, so với tổng số ghi chứa X Chúng ta nhận thấy tri thức đem lại luật kết hợp dạng có khác biệt nhiều so với thông tin thu từ câu lệnh truy vấn liệu thơng thường SQL Đó tri thức, mối liên hệ chưa biết trước mang tính dự báo tiềm ẩn liệu Những tri thức không đơn giản kết phép nhóm, tính tổng hay xếp mà q trình tính tốn phức tạp 2.1.2.3.4 Định nghĩa: Tập hợp thường xuyên – Định nghĩa 1: Tập hợp X gọi tập hợp thường xuyên (Frenquent itemset) có supp(X) ≥ minsup, với minsup ngưỡng độ hỗ trợ cho trước Kí hiệu tập FI • Tính chất 1: Giả sử A, B ⊆ I hai tập hợp với A ⊆ B supp(A) ≥ supp(B) Như vậy, ghi chứa tập hợp B chứa tập hợp A • Tính chất 2: Giả sử A, B hai tập hợp, A, B ⊆ I, B tập hợp thường xuyên A ⊆ B A tập hợp thường xuyên Thật vậy, B tập hợp thường xuyên supp(B) ≥ minsup, tập hợp A tập hợp B tập hợp thường xuyên sở liệu D supp(A) ≥ supp(B) (Theo tính chất1) • Tính chất 3: Giả sử A, B hai tập hợp, A ⊆ B A tập hợp không thường xun B tập hợp khơng thường xuyên – Định nghĩa 2: Một tập mục X gọi đóng (closed) khơng có tập cha X có độ hỗ trợ với nó, tức không tồn tập mục X’ mà X’ ⊂ X t(X) = t(X’) (với t(X) t(X’) tương ứng tập giao chứa tập mục X X’) Ký hiệu tập phổ biến đóng FCI – Định nghĩa 3: Nếu X phổ biến không tập cha X phổ biến, ta nói X tập phổ biến lớn (maximally frequent itemset) Ký hiệu tập tất tập phổ biến lớn MFI Dễ thấy MFI ⊆ FCI ⊆ FI Khai phá luật kết hợp công việc phát luật kết hợp thỏa mãn ngưỡng độ hỗ trợ (δ) ngưỡng độ tin cậy (α) cho trước Bài toán khai phá luật kết hợp chia thành hai tốn nhỏ: • Bài tốn 1: Tìm tất tập phổ biến (tìm FI) Database T • Bài tốn 2: Sử dụng tập FI tìm tốn để sinh luật tin cậy (interesting rules) Ý tưởng chung gọi ABCD AB tập mục phổ biến, xác định luật AB → CD với tỷ lệ độ tin cậy: 264 - conf = supp(ABCD) supp(AB) Nếu conf ≥ minconf luật giữ lại (và thỏa mãn độ hỗ trợ tối thiểu ABCD phổ biến) Khi mẫu phổ biến (frequent patterm) dài có từ 15 đến 20 items) tập FI, chí tập FCI trở nên lớn hầu hết phương pháp truyền thống phải đếm nhiều tập mục thực Các thuật toán dựa thuật toán Apriori – đếm tất 2k tập k itemsets mà chúng quét qua, khơng thích hợp với itemsets dài Các phương pháp khác sử dụng “lookaheads” để giảm số lượng tập mục đếm Tuy nhiên, hầu hết thuật toán sử dụng tìm kiếm theo chiều rộng Cách làm hạn chế hiệu lookaheads, mẫu phổ biến dài mà hữu ích chưa tìm 2.1.2.3.5 Một số thuật tốn: – Thuật toán bản: Input: I, D, σ, α Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ σ, ngưỡng độ tin cậy α Algorithm: 1) Tìm tất tập hợp tính chất có độ hỗ trợ ≥ α 2) Từ tập hợp tìm ra, tạo luật kết hợp có độ tin cậy ≥ α – Thuật tốn Tìm luật kết hợp biết tập hợp thường xuyên: Input: I, D, σ, α, S Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ σ, ngưỡng độ tin cậy α Algorithm: 1) Lấy tập xuất σ– thường xuyên S ϵ S, tập X ⊆ S 2) Xét luật kết hợp có dạng X → (S ∪ X), đánh giá độ tin cậy xem có nhỏ α hay khơng Thực chất, tập hợp S mà ta xét đóng vai trị tập hợp giao S = X ∪ Y, X ∩(S – X) = Ø, nên coi Y = S – X Các thuật toán xoay quanh khai phá luật kết hợp chủ yếu nêu giải pháp để đẩy nhanh việc thực tìm tất tập hợp tính chất có độ hỗ trợ ≥ α thuật toán – Thuật toán Apriori Thuật toán dựa nhận xét đơn giản tập hợp tập xuất σ thường xuyên tập xuất σ– thường xun Do đó, q trình tìm - 265 tập ứng cử viên, cần dùng đến tập ứng cử viên vừa xuất bước trước đó, khơng cần dùng đến tất tập ứng cử viên (cho đến thời điểm đó) Nhờ vậy, nhớ giải phóng đáng kể • Bước 1: cho trước ngưỡng độ hỗ trợ ≤ σ ≤ Tìm tất mặt hàng xuất σ– thường xuyên • Bước 2: Ta tiến hành ghép đôi phần tử L1 (không cần để ý đến thứ tự), tập C2, gọi tập ứng cử viên có phần tử Sở dĩ gọi “ứng cử viên”, chưa chúng σ– thường xuyên Sau kiểm tra (dùng định nghĩa), ta lọc tập hợp σ– thường xuyên có phần tử Ký hiệu tập hợp L2 • Bước 3: Với chủ ý nêu (về tính chất tăng dần tập hợp σ– thường xuyên), ta tiến hành tìm ứng cử viên có phần tử (lấy từ L1) Gọi tập C3 Lưu ý {A, B, C} muốn “ứng cử viên” tập phần tử {A, B},{B,C},{C, A } phải σ – thường xuyên, tức chúng phần tử tập L2 Ta “kiểm tra tư cách đại biểu” tập C3 lọc tập tập hợp σ– thường xuyên có phần tử Tập hợp ký hiệu L3 • Bước 4: Ta tiến hành tìm ứng cử viên có n phần tử Gọi tập chúng tập Cn từ đây, lọc Ln tập tập tập hợp σ– thường xuyên có n phẩn tử Cốt lõi thuật toán Apriori hàm apriori_gen() Agrawal đề nghị năm 1994 Hàm hoạt động theo bước, bước 1– tập hợp Lk-1 tự kết nối (join) với để tạo tập ứng cử viên Ck Sau hàm apriori_gen() loại bỏ tập hợp có hợp (k-1) phần tử khơng nằm Lk-1 (vì chúng khơng thể tập hợp xuất σ– thường xuyên, theo nhận xét ban đầu) Minh họa khai phá luật kết hợp với phần mềm Orange 3.1 Giả sử liệu thu thập dataset số khách hàng sau 266 - Đưa liệu vào Orange: Dữ liệu có 8.4% bị thiếu liệu, ta tiến hành tiền xử lý liệu - 267 3.2 Tiền xử lý liệu (Data Cleaning) Có nhiều giải pháp để xử lý vấn đề thiếu 8.4% liệu, ta chọn giải pháp dùng giá trị trung bình để điền vào liệu bị thiếu, sau lưu lại liệu qua tiền xử lý (dữ liệu lưu định dạng mặc định Orange tab) nạp lại liệu cho Orange Khơng cịn bị thiếu giá trị 268 - 3.3 Rút gọn liệu Dữ liệu lớn tốn nhiều thời gian trình khai phá liệu Ta rút gọn liệu cho thu kết phân tích tương đương Ta dùng phương pháp giảm số chiều liệu thuật toán định Giả sử thuộc tính target “Kế hoạch trả nợ” (sau đổi tên thuộc tính KH_trả_nợ để kết thể gọn hơn) Tiến hành loại bỏ thuộc tính khơng xuất Sau rút gọn cịn lại 10 thuộc tính - 269 3.4 Chọn phương pháp khai phá liệu với luật kết hợp 3.4,1 Rời rạc hóa liệu (Discretize) Trong Data Mining, kỹ thuật khai phá luật kết hợp (association rules mining) thực liệu phân loại (categorical/ nominal data) Điều yêu cầu phải thực việc rời rạc hóa thuộc tính có kiểu dữ liệu liên tục (như kiểu numeric chẳn hạn) muốn áp dụng kỹ thuật Trong liệu hiện có thuộc tính kiểu số, là “số con”, “tuổi”, và “thu nhập” Đối với thuộc tính “số con”, vì phạm vi giá 0,1,2 ta giữ lại giá trị thuộc tính (qua tính khai báo manual).  Kiểu liệu giá trị thuộc tính “tuổi” “thu nhập” chuyển sang Nominal với khoảng (bin, interval) Kiểm tra thuộc tính “tuổi” ta thấy có độ tuổi < 35, từ 35 đến cận 50 từ 50 trở lên Tiến hành khai phá luật kết hợp liệu rời rạc hóa Với supp = 10% conf = 90% ta có luật sau: 270 - Với supp = 9% conf = 90% ta có luật sau: Kết luận Khai phá liệu lĩnh vực quan trọng, bao gồm nhiều lĩnh vực nhiều kỹ thuật khác nhau; Phân tích liệu khía cạnh quan trọng thúc đẩy nhiều cơng ty nay, đường phía trước có cách tiếp cận theo hướng liệu rõ ràng khai thác sức mạnh liệu lớn cách sử dụng kỹ thuật phân tích liệu Bài viết đề cập đến nội dung khai phá luật kết hợp để phát tri thức liên quan liệu khách hàng số ngân hàng thơng qua phần mềm Orange, từ ứng dụng phần mềm khai phá luật kết hợp hay nhiều kỹ thuật khác phân cụm, sử - 271 dụng định hay áp dụng mơ hình máy học phân lớp liệu, ứng dụng Neural Network gồm hyper-parameter để xây dựng nhanh Deep learning… đặc biệt đơn giản với người lập trình Tài liệu tham khảo Agrawal, R., & Srikant, R (1994) Fast algorithms for mining association rules In VLDB, 487499 Agrawal, R., Imielinski, T., & Swami, A (1993) Mining Association Rules between Sets of Items in Large Databases ACM SIGMOD International Conference on Management of Data, 207-216 AJDA (2016) Association Rules in Orange Retrieved 07/02/2021, from https://orangedatamining com/blog/2016/04/25/association-rules-in-orange Berzal, F., Blanco, I., Sánchez, D., & Vila, M.A (2002) Measuring the Accuracy and Importance of Association Rules: A New Framework Intelligent Data Analysis, 221-235 Deshpande, D S (2011) Association Rule Mining Based on Image Content International Journal of Information Technology and Knowledge Management, 144-146.  Han, J., Pei, J., & Yin, Y (2000) Mining frequent patternswithout candidate generation In MOD 2000, 1-12 Hipp, J., Guntzer, U., & Nakhaeizadeh, G (2000) Algorithms for association rule mining – A general survey and comparison ACM SGKDD explorations newsletter, 2(1), 58-64 Lee, W J., & Lee, S J (2004) Discovery of fuzzytemporal association rules IEEE transactions on Systems, 2330-2342 272 - KỶ YẾU HỘI THẢO KHOA HỌC HỆ THỐNG THÔNG TIN QUẢN LÝ TRONG KỶ NGUYÊN SỐ TỪ ĐÀO TẠO ĐẾN THỰC TIỄN Chịu trách nhiệm xuất bản: Giám đốc - Tổng biên tập PHAN NGỌC CHÍNH Biên tập: TRẦN THỊ BẢO NGỌC Trình bày, bìa, sửa in: NGUYÊN CHÂU NHÀ XUẤT BẢN TÀI CHÍNH FINANCE PUBLISHING HOUSE (Tên viết tắt: FPH) Số Phan Huy Chú, P Phan Chu Trinh, Quận Hoàn Kiếm, Hà Nội ĐT: 024.3826.4565 – 0913.035.079 Email: phongbientap.nxbtc@gmail.com – Website: fph.gov.vn CHI NHÁNH NHÀ XUẤT BẢN TÀI CHÍNH TẠI THÀNH PHỐ HỒ CHÍ MINH 138 Nguyễn Thị Minh Khai, Phường 6, Quận 3, Thành phố Hồ Chí Minh ĐT: 028 38596002 In 100 cuốn, khổ (20 x 28) cm, Công ty TNHH MTV in Tín Lộc Số 117/5 Võ Thị Thừa, KP 3, phường An Phú Đông, Quận 12, TPHCM Số xác nhận ĐKXB: 4523-2021/CXBIPH/2-115/TC Số QĐXB: 322/QĐ-NXBTC cấp ngày 10 tháng 12 năm 2021 ISBN: 978-604-79-3003-6 In xong nộp lưu chiểu năm 2021

Ngày đăng: 22/06/2023, 17:05

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan