Nghiên cứu khai phá dữ liệu, ứng dụng vào hệ thống phần mềm quản lý đảng viên tại đảng ủy khối doanh nghiệp thành phố hải phòng

59 267 1
Nghiên cứu khai phá dữ liệu, ứng dụng vào hệ thống phần mềm quản lý đảng viên tại đảng ủy khối doanh nghiệp thành phố hải phòng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC MỤC LỤC DANH MỤC CÁC BẢNG _3 DANH MỤC CÁC HÌNH MỞ ĐẦU Lý chọn đề tài _5 Mục tiêu nhiệm vụ đề tài _6 2.1 Mục tiêu 2.2 Nhiệm vụ _6 Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu 3.2 Phạm vị nghiên cứu _7 Phương pháp nghiên cứu _7 Ý nghĩa CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Khái niệm 1.1.2 Nhiệm vụ khai phá liệu 10 1.1.2.1 Dự đoán 10 1.1.2.2 Mô tả: 10 1.1.3 Mơ hình dự đốn _11 1.1.4 Ứng dụng, hướng nghiên cứu công cụ 12 1.1.4.1 Ứng dụng khai phá liệu (Data Mining Applications) 12 1.1.4.2 Lựa chọn công cụ khai phá liệu 15 1.1.4.3 Các hướng nghiên cứu công cụ khai phá liệu: 17 1.1.4.4 Một số công cụ khai phá liệu (Data Mining Tools) _17 1.2 Cây định với toán phân lớp _19 1.2.1 Khái niệm Cây định _19 1.2.2 Các kiểu định _20 1.2.3 Ưu điểm định 23 1.2.4 Thuật toán ID3 – Xây dựng Cây định 24 -1- 1.2.4.1 Giới thiệu thuật toán ID3 _24 1.2.4.2 Giải thuật ID3 xây dựng định 25 1.2.4.4 Đánh giá hiệu suất định _30 1.2.5 Cây định phân lớp 42 CHƢƠNG 2: THIẾT KẾ HỆ THỐNG _46 2.1 Tổng quan quản lý sở liệu đảng viên, công tác quy hoạch cán lãnh đạo quản lý Đảng Khối Doanh nghiệp Hải Phòng 46 2.1.1 Cơ sở liệu đảng viên cán 46 2.1.2 Công tác quy hoạch cán lãnh đạo, quản lý _46 2.2 Thực trạng hệ thống quản lý sở liệu đảng viên công tác quy hoạch cán lãnh đạo, quản lý Đảng Khối Doanh nghiệp Thành phố Hải Phòng 47 2.3 Khảo sát hệ thống thực tế 48 2.4 Phân tích thiết kế hệ thống _50 2.4.1 Mơ hình User case 51 2.4.2 Mơ hình thực thể _52 2.5 Cơ sở liệu _53 Kết luận Chương 53 CHƢƠNG XÂY DỰNG HỆ THỐNG THỬ NGHIỆM 54 3.1 Giải pháp xây dựng hệ thống _54 3.2 Yêu cầu cài đặt thuật toán 55 3.3 Giao diện chương trình _56 3.4 Kết luận hướng phát triển _56 3.4.1 Các kết đạt luận văn 56 3.4.2 Kiến nghị hướng phát triển _58 DANH MỤC TÀI LIỆU THAM KHẢO _59 -2- DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang 1.1 Một số công cụ khai phá liệu (Data Mining Tools) 18 1.2 Dữ liệu chơi golf 21 1.3 Thuật toán ID3 xây dựng Cây định 26 1.4 Dữ liệu chơi tennis 30 1.5 Xác định thuộc tính tt1 36 1.6 Xác định thuộc tính tt2 39 1.7 Dữ liệu lựa chọn phương tiện vận chuyển 42 1.8 Kết lựa chọn phương tiện vận chuyển 45 2.1 Các thuộc tính thực thể đảng viên 52 -3- DANH MỤC CÁC HÌNH Số hình Tên hình Trang 1.1 Khai phá liệu lĩnh vực có liên quan mật thiết 1.2 Các thuật toán phổ biến dùng khai phá liệu 10 1.3 Mơ hình phân lớp 11 1.4 Đánh giá mơ hình dự đốn 11 1.5 Tham số dùng đánh giá mơ hình dự đốn 12 1.6 Mơ hình định chơi golf 22 1.7 Cây định chơi golf 23 1.8 Chức entropy liên quan đến phân loại 27 1.9 Cây định thuật toán ID3 quy nạp 31 1.10 Cây định phân lớp 43 2.1 Mơ hình mạng Lan hệ thống quản lý sở liệu đảng viên 49 2.2 Dữ liệu đảng viên lưu trữ sở liệu 49 2.3 Mơ hình usercase hệ thống hỗ trợ định công tác quy hoạch cán 51 2.4 Mơ hình thực thể hệ thống hỗ trợ định công tác quy hoạch cán 52 3.1 Giao diện chương trình hỗ trợ định công tác quy hoạch cán 55 -4- MỞ ĐẦU Lý chọn đề tài Trong công tác quản lý nhân sự, nhà quản lý thường xuyên phải định liên quan đến việc hoạch định hay quy hoạch nguồn cán đơn vị, tổ chức Mặc dù họ ln mong muốn định xác, hiệu thực tế khơng phải lúc Rủi ro điều dễ xảy kèm với định khơng xác, thiếu Như vậy, vấn đề không chỗ định mà cịn kiểm sốt, xác định rủi ro liên quan cho tối thiểu hố thiệt hại gặp phải Trong năm gần đây, khai phá liệu trở thành từ ngữ dùng lĩnh vực công nghệ thơng tin Nó giải thích ta dùng Facebook, biết nên quảng cáo với bạn, iPhones biết nên gợi ý từ bạn soạn thảo tin nhắn NSA (Cơ quan an ninh Chính phủ Mỹ) biết bạn có phải kẻ khủng bố hay khơng Vậy thì, từ có ý nghĩa thật nào? Máy tính hoạt động “học” “khai thác liệu”? Cũng năm gần đây, quan Đảng Thành phố Hải Phịng, ứng dụng cơng nghệ thơng tin với mục tiêu “Tin học hóa hoạt động quan Đảng” ngày trở nên cấp thiết Các ứng dụng sở liệu ngày quan tâm như: sở liệu đảng viên, sở liệu cán bộ, cơng chức, quản lý cơng văn, tài … Tuy nhiên, mức độ ứng dụng công nghệ thông tin dừng lại việc lưu trữ, khả khai thác nguồn liệu nhiều hạn chế, đặc biệt phục vụ cho công tác cán Cơng tác cán bộ, quy hoạch, đào tạo cịn mang nặng yếu tố chủ quan, định tính nhà quản lý, lãnh đạo, dẫn đến tình trạng quy hoạch cán lãnh đạo, quản lý thiếu, chất lượng chưa đảm bảo … thiếu khoa học Với lý trên, đề tài nghiên cứu với nội dung “Nghiên cứu khai phá liệu, ứng dụng vào hệ thống phần mềm quản lý đảng viên Đảng ủy Khối Doanh nghiệp Thành phố Hải Phòng” Đề tài sử dụng phương pháp kỹ thuật suy luận -5- thống kê để giải nhiều vấn đề mà thông tin bị thiếu, bất định, số trường hợp thiếu hoàn chỉnh Kỹ thuật chủ yếu Đề tài phân lớp liệu, hướng nghiên cứu khai phá liệu Công nghệ đã, có nhiều ứng dụng lĩnh vực thương mại, ngân hàng, y tế, giáo dục Trong mơ hình phân lớp đề xuất, định coi công cụ mạnh, phổ biến đặc biệt thích hợp với ứng dụng khai phá liệu Thuật toán phân lớp nhân tố trung tâm mơ hình phân lớp Mục tiêu nhiệm vụ đề tài 2.1 Mục tiêu Trên sở phân tích đặc điểm, tồn tại, hạn chế công tác quy hoạch cán bộ, mục tiêu đề tài xây dựng hệ thống tự động dự báo, hỗ trợ định công tác quy hoạch cán lãnh đạo quản lý Đảng Khối Doanh nghiệp Thành phố Hải Phòng sở khai phá liệu có sẵn 2.2 Nhiệm vụ - Nghiên cứu lý thuyết khai phá liệu, tất mơ hình, thuật tốn liên quan đến lĩnh vực khai phá liệu - Đưa giải pháp, lựa chọn công cụ thiết kế hệ thống khai phá liệu đảng viên, ứng dụng vào việc tự động dự báo, hỗ trợ định công tác quy hoạch cán lãnh đạo quản lý Đảng Khối Doanh nghiệp Thành phố Hải Phịng - Xây dựng chương trình, chạy thử nghiệm đánh giá kết Đối tƣợng phạm vi nghiên cứu 3.1 Đối tƣợng nghiên cứu - Các thông tin có liên quan đến đảng viên, cán diện quy hoạch Đảng ủy Khối Doanh nghiệp Thành phố Hải Phịng, quy trình xây dựng quy hoạch cán Đảng ủy Khối - Các vấn đề liên quan đến khai phá liệu (mơ hình, kỹ thuật, phương pháp, thuật toán …) -6- 3.2 Phạm vị nghiên cứu Dựa mục đích đối tượng nghiên cứu nêu trên, phạm vi nghiên cứu đề tài toàn vấn đề liên quan đến đảng viên, cán diện quy hoạch Đảng Khối Doanh nghiệp), biểu mẫu công tác quy hoạch cán Đảng ủy Khối Doanh nghiệp Thành phố Hải Phịng, kỹ thuật, mơ hình khai phá liệu Phƣơng pháp nghiên cứu Luận văn thực với kết hợp phương pháp nghiên cứu khoa học là: - Phƣơng pháp nghiên cứu lý thuyết: nghiên cứu tài liệu, ngôn ngữ, cơng cụ có liên quan khai phá liệu Tổng hợp, nghiên cứu, trích chọn tài liệu công tác quy hoạch cán lãnh đạo quản lý, công tác quản lý sở liệu đảng viên - Phƣơng pháp thực nghiệm khoa học Trên sở nghiên cứu lý thuyết khai phá liệu, phân cụm liệu, thuật toán xây dựng định tìm hiểu chức Business intelligence development studio 2012 Microsoft để tạo môi trường thực nghiệm, tốn cụ thể đưa vào mơ hình, đánh giá kết đạt tìm mơ hình tối ưu Ý nghĩa Về mặt khoa học: Hệ thống đưa sử dụng, kế thừa thành phát triển lĩnh vực khai phá liệu Đề tài hoàn thành trở thành giải pháp khai phá liệu sử dụng nghiên cứu, giảng dạy sở lý thuyết cho đề tài khác lĩnh vực Về mặt thực tiễn: Dữ liệu đảng viên nguồn chứa hầu hết thông tin Đảng Khối Doanh nghiệp, thơng tin tìm phân tích (xử lý) -7- liệu, việc xử lý liệu lớn vấn đề khó Hệ thống xây dựng với mong muốn giải phần khó khăn Hệ thống thiết kế đơn giản hệ thống khai phá liệu sử dụng (Business intelligence development studio, Weka …), phục vụ đắc lực cho nhà quản lý, lãnh đạo việc tự động dự báo, hỗ trợ định công tác quy hoạch cán lãnh đạo quản lý -8- CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Khái niệm Khai phá liệu (Data Mining) hay hiểu phát tri thức (Knowledge Discovery) có nhiều khái niệm khác q trình tự động trích xuất thơng tin có giá trị (thơng tin dự đoán - Predictive Information) ẩn chứa lượng liệu lớn thực tế Khai phá liệu nhấn mạnh vấn đề việc tự động trích xuất thơng tin có ích (Automated) thơng tin mang tính dự đốn (Predictive) Khai phá liệu liên quan chặt chẽ đến số lĩnh vực sau: - Thống kê (Statistics): Kiểm định mơ hình đánh giá tri thức phát - Máy học (Machine Learning): Nghiên cứu, xây dựng thuật toán tảng trí tuệ nhân tạo giúp cho máy tính suy luận, suy diễn (dự đốn) kết sảy tương lai thơng qua q trình huấn luyện, tập huấn (học) từ liệu lịch sử, liệu có - Cơ sở liệu (Databases): Công nghệ quản trị liệu, kho liệu - Trực quan hóa (Visualization): Giúp liệu dễ hình dung, dễ hiểu, dễ sử dụng biểu đồ, đồ Hình 1.1 Khai phá liệu lĩnh vực có liên quan mật thiết -9- 1.1.2 Nhiệm vụ khai phá liệu Khai phá liệu ứng dụng vào nhiều mục đích, nhiên nhiệm vụ khai phá liệu phân thành loại dự đốn, dự báo (Predictive) mơ tả (Descriptive) 1.1.2.1 Dự đốn - Phân lớp: Classification - Hồi quy: Regression - Phát độ lệch: Deviation Detection 1.1.2.2 Mô tả: - Phân cụm: Clustering - Phát luật kết hợp: Association Rule Discovery Dưới số thuật toán phổ biến dùng Khai phá liệu - Cây định: Decision tree - Láng giềng gần nhất: Nearest Neighbor - Mạng Neural: Neural Network - Luật quy nạp: Rule Induction - Thuật tốn K-Means: K-Means Hình 1.2 Các thuật toán phổ biến đƣợc dùng khai phá liệu - 10 - Kết phân lớp, dự đoán định sau: Person name Travel Cost Gender ($)/km Car Transportation ownership Mode Alex Standard Male Train Buddy Cheap Male Bus Cherry Cheap Female Train Bảng 1.8 Kết lựa chọn phƣơng tiện vận chuyển Cây định phương pháp phân lớp nhanh, hiệu dễ hiểu Tuy nhiên có số lưu ý sử dụng định xây dựng, thiết kế mơ hình phân lớp sau: Hiệu việc dự đoán định phụ thuộc lớn vào tập huấn luyện Chẳng hạn, định tạo tập huấn luyện gồm 10 đối tượng ví dụ hiệu ứng dụng định để dự đốn trường hợp khác khơng cao (thường tập huấn luyện phải đủ lớn tin cậy) ta khơng thể nói tập luật sinh bở định tập luật tốt nhất, đầy đủ trường hợp Có nhiều thuật toán xây dựng định (ID3, J48, C4.5, CART…), việc chọn thuật toán để phù hợp, có hiệu phân lớp cao tùy thuộc vào nhiều yếu tố, cấu trúc liệu ảnh hưởng lớn đến kết thuật toán Chẳng hạn thuật toán ID3 CART cho hiệu phân lớp cao trường liệu định lượng thuật tốn J48, C4.5 có hiệu liệu định tính - 45 - CHƢƠNG 2: THIẾT KẾ HỆ THỐNG 2.1 Tổng quan quản lý sở liệu đảng viên, công tác quy hoạch cán lãnh đạo quản lý Đảng Khối Doanh nghiệp Hải Phòng 2.1.1 Cơ sở liệu đảng viên cán Công tác quản lý hồ sơ đảng viên, cán sở liệu đảng viên có vai trị quan trọng, giúp cấp ủy Đảng quản lý đảng viên phục vụ lãnh đạo công tác cán Hệ thống quản lý sở liệu đảng viên Ban Tổ chức Trung ương triển khai đến toàn hệ thống tổ chức đảng từ Trung ương đến cấp quận, huyện trực thuộc tỉnh từ năm 2003 Bộ chương trình Quản lý sở liệu đảng viên chương trình phần mềm phục vụ cho việc nhập cập nhật liệu cấp ủy đảng, đồng liệu qua mạng lan từ cấp quận, huyện với cấp tỉnh Trung ương, khai thác biểu báo cáo cấp (Trung ương, tỉnh, huyện), tìm kiếm khai thác thơng tin theo yêu cầu cấp độc lập: quản lý, bảo mật, an toàn liệu Các chức hệ thống quản lý sở liệu đảng viên bảo gồm: - Cập nhật phiếu đảng viên: thông tin đảng viên ngày tháng năm sinh, quê quán, trình độ mặt, quan hệ gia đình, q trình cơng tác … - Tìm kiếm, thống kê, báo cáo trường liệu lưu trữ - Đồng liệu cấp thông qua mạng lan Hàng năm, việc cập nhật phiếu đảng viên vào sở liệu đảng viên huyện ủy, thành ủy, đảng ủy trực thuộc phải thực thường xuyên, quy trình, bảo đảm đầy đủ, xác 2.1.2 Cơng tác quy hoạch cán lãnh đạo, quản lý Công tác quy hoạch cán lãnh đạo quản lý khâu quan trọng công tác quản lý cán Quy hoạch cán lãnh đạo, quản lý công tác phát sớm nguồn cán trẻ có đức, có tài, có triển vọng khả lãnh đạo, quản lý, đưa vào quy hoạch để có kế hoạch đào tạo, bồi dưỡng, tạo nguồn chức danh - 46 - lãnh đạo, quản lý, đáp ứng nhiệm vụ lâu dài địa phương, quan, đơn vị đất nước Đối với Đảng ủy Khối Doanh nghiệp Thành phố Hải Phịng, cơng tác quy hoạch cán lãnh đạo, quản lý việc đưa nhân tố có triển vọng vào quy hoạch cấp ủy Đảng Khối (Ban Chấp hành Đảng Khối) Từ nguồn quy hoạch để thực đào tạo, bồi dưỡng, luân chuyển … xây dựng đội ngũ cấp ủy nhiệm kỳ Chính vậy, cơng tác quy hoạch cán lãnh đạo, quản lý có tầm quan trọng lớn, khâu quan trọng, mang tính định thành cơng nhiệm vụ Đặc điểm công tác quy hoạch cán lãnh đạo, quản lý Đảng ủy Khối Doanh nghiệp Hải Phòng tất nhân tố đưa vào quy hoạch đảng viên Khối, quy hoạch đảng viên kể đảng viên không giữ chức vụ quan trọng đơn vị Công tác quy hoạch cán lãnh đạo, quản lý Đảng ủy Khối Doanh nghiệp Thành phố Hải Phòng thực cách rà sốt tồn đội ngũ đảng viên, dựa tiêu chí theo quy định Trung ương để lựa chọn đưa vào quy hoạch Việc lựa chọn tiến hành qua nhiều cấp, thứ Ban Tổ chức Đảng ủy Khối, sau đến Ban Thường vụ Đảng ủy Khối cuối Ban Chấp hành Đảng Khối Một nhiệm kỳ năm thực xây dựng quy hoạch lần tiến hành rà sốt, bổ sung hàng năm Như cơng tác quy hoạch cán lãnh đạo, quản lý khâu quan trọng nhiều thời gian, nhân lực 2.2 Thực trạng hệ thống quản lý sở liệu đảng viên công tác quy hoạch cán lãnh đạo, quản lý Đảng Khối Doanh nghiệp Thành phố Hải Phòng - Ƣu điểm: Đảng Khối Doanh nghiệp Hải Phịng có 100 tổ chức sở đảng trực thuộc với 4500 đảng viên Cơ sở liệu đảng viên Đảng Khối quản lý, cập nhật thường xuyên, đầy đủ, phục vụ tốt cho công tác quản lý đảng viên, tìm kiếm thơng tin đảng viên … - 47 - Hệ thống quản lý sở liệu đảng viên, quản lý cán xây dựng, cài đặt sử dụng tương đối dễ dàng (hệ quản trị sở liệu SQL Server 2000 giao diện hoàn toàn tiếng Việt) - Hạn chế: Tuy nhiên, thực trạng trình độ cán lãnh đạo, chuyên viên Cơ quan Đảng cơng nghệ thơng tin, sử dụng máy vi tính cơng tác cịn hạn chế nên nay, cơng tác quản lý sở liệu đảng viên 01 chuyên viên thực Khi lãnh đạo, cấp có u cầu chun viên có nhiệm vụ phải báo cáo Cơ sở liệu đảng viên cập nhật từ phiếu đảng viên gồm trang, thông tin cập nhật vào sở liệu gồm có sơ yếu lý lịch (Họ tên, ngày tháng năm sinh, quê quán, trình độ mặt, ngày vào Đảng, ngày tham gia tổ chức trị xã hội khác …), trình học tập, trình cơng tác, quan hệ gia đình, đặc điểm lịch sử … Công tác quy hoạch cán lãnh đạo, quản lý Đảng ủy Khối doanh nghiệp Hải Phòng đặt nhiều vấn đề cấp thiết Thực trang, cơng tác hoạch định mơ hình tổ chức chưa hồn chỉnh, cơng tác quản lý thay đổi, tình hình đánh giá cán bộ, yếu tố chi phố chất lượng, hiệu đánh giá cán nhiều vấn đề Nhu cầu cần có đội ngũ tổ chức có chuyên môn cao, giàu lực để triển khai thực chương trình đại hóa đặt Mặt khác, với chức Bộ chương trình Quản lý sở liệu đảng viên, công tác thống kê báo cáo phục vụ cơng tác cán cịn yếu, đặc biệt chưa có khả dự báo Yêu cầu xây dựng hệ thống có chức thống kê, báo cáo 2.3 Khảo sát hệ thống thực tế Hệ thống Quản lý sở liệu đảng viên, người sử dụng cần phải có hệ thống bao gồm mạng LAN - 48 - Hình 2.1 Mơ hình mạng Lan hệ thống quản lý sở liệu đảng viên Máy chủ: Sử dụng Hệ điều hành Windows có cài phần mềm Microsoft SQL Server dùng để lưu trữ hồ sơ đảng viên Các máy trạm: Sử dụng để nhập khai thác liệu hồ sơ đảng viên Máy chủ chứa liệu đảng viên Các máy trạm kết nối với máy chủ thông qua mạng LAN truy nhập liệu từ máy chủ Hình 2.2 Dữ liệu đảng viên đƣợc lƣu trữ sở liệu Hệ thống quản lý sở liệu đảng viên đước phân cấp sử dụng theo cấp: Admin người giao toàn quyền sử dụng, khai thác sở liệu đảng viên - 49 - - Cấp Trưởng ban Tổ chức: Là người xem toàn sở liệu, tìm kiếm, sử dụng chức báo cáo … khơng thêm, sửa, xóa - Cấp Lãnh đạo Đảng ủy Khối: xem, không sử dụng chức hệ thống Các liệu công tác quy hoạch cán lãnh đạo, quản lý lưu trữ tập tin Excel bao gồm trường: Họ tên, ngày sinh, quê qn, chức vụ, đơn vị cơng tác, trình độ phổ thơng, chun mơn, lý luận trị, kết lấy phiếu giới thiệu qua hội nghị Với nội dung đề tài, quan tâm đến sở liệu đảng viên, khơng tìm hiểu chức khác phần mềm Cơ sở liệu đảng viên thiết kế sau: 2.4 Phân tích thiết kế hệ thống Bài toán đề tài cân nhắc lựa chọn theo cách tiếp cận hướng cấ trúc Thơng thường, việc phân tích thiết kế hệ thống ứng dụng phải trải qua nhiều bước Bao gồm: - Xác định mơ hình, tiến trình nghiệp vụ - Dựa vào thông tin nghiệp vụ hệ thống để phân tích xây dựng sơ đồ phân rã chức chi tiết từ xác định chức sở - Mơ hình hóa liệu - Sơ đồ luồng liệu - Ma trận thực thể chức - Thiết kế mơ hình liệu logic - Chọn hệ quản trị sở liệu - Tạo sở liệu vật lý Tuy nhiên, với nhiệm vụ đề tài tập trung vào việc khai phá liệu xây dựng ứng dụng hỗ trợ định công tac quy hoạch cán bộ, - 50 - vậy, đề tìa trực tiếp trình bày mơ hình thực thể sở liệu vật lý Hơn nữa, báo cáo xin trình bày thơng tin ngắn gọn, phù hợp sát với mục tiêu đề tài 2.4.1 Mơ hình User case Hình 2.3 Mơ hình Usercase hệ thống hỗ trợ định công tác quy hoạch cán - Thường trực Đảng ủy Khối: Gồm có Bí thư Đảng ủy Khối Phó Bí thư Đảng ủy Khối Là người có thẩm quyền định công tác quy hoạch cán bộ, lãnh đạo Đảng Khối - Ban Tổ chức (Ban Tổ chức Đảng ủy Khối): Có nhiệm vụ tham mưu cho Ban Thường vụ mà trực tiếp Thường trực Đảng ủy Khối nội dung công tác cán bộ, cơng tác đảng viên, có quy hoạch cán lãnh đạo quản lý Đảng Khối - 51 - 2.4.2 Mơ hình thực thể Hình 2.4 Mơ hình thực thể hệ thống hỗ trợ định công tác quy hoạch cán Thuộc Kiểu liệu tính Họ tên String Năm sinh Date Quê quán String Tôn giáo String Ngày vào Date Đảng Chức vụ Đơn String vị String công tác Học vấn String Chun String - 52 - mơn Lý luận String trị Quy hoạch Boolean Bảng 2.1 Các thuộc tính thực thể đảng viên 2.5 Cơ sở liệu Đề tài sử dụng sở liệu lưu trữ file Excel gồm 10 thuộc tính, có cấu trúc sau: Họ Năm sinh Quê quán Tôn giáo Ngày vào Chức vụ Đảng tên Đơn vị Học vấn Chuyên Lý luận Quy cơng tác phố mơn trị hoach thơng nghiệp vụ Trong đó, tập liệu training tập testing liệu quy hoạch cán Đảng ủy Khối lưu trữ năm 2010-2015 gồm 300 records (Training Data: 200 records Testing Data: 100 records) Trong đó, thuộc tính phân lớp thuộc tính „Quy hoạch” với giá trị yes no Dữ liệu dùng để dự đốn trích chọn từ sở liệu đảng viên Đảng Khối với 4500 đảng viên Dữ liệu đảng viên bao gồm nhiều trường, nhiên yêu cầu công tác quy hoạch cán để dễ hiểu, dễ xử lý, liệu dùng để dự đoản chọn trường trích xuất từ hệ quản trị sở liệu SQL server tập tin Excel Kết luận Chƣơng Chương không vào nghiên cứu chi tiết nghiệp vụ công tác quản lý, khai thác liệu đảng viên, yêu cầu toán rõ ràng khai phá liệu đảng viên nên tập trung vào thuộc tính quan tâm sở liệu Chương II nghiên cứu mơ hình hệ thống, thiết kế sở liệu để tiến hành khai phá từ xác định, lựa chọn cơng cụ phù hợp với yêu cầu đặt Kết cho thấy kỹ thuật khai phá liệu dựa Cây định mô công cụ Microsoft Analysis Service thuật tiện, trực quan, mang lại độ - 53 - xác hỗ trợc mơ hình dự đoán Việc sử dụng sở liệu lưu trữ file Excel có nhiều ưu điểm (dễ dàng kết nối, dung lượng nhỏ, thời gian xử lý nhanh, hạn chế chiếm dụng nhớ) Từ kết Chương 2, đề tài có hướng đắn để xây dựng hệ thống thử nghiệm trình bày Chương CHƢƠNG XÂY DỰNG HỆ THỐNG THỬ NGHIỆM 3.1 Giải pháp xây dựng hệ thống Giải pháp để đưa để xây dựng hệ thống theo bước phân tích thiết kế xây dựng Chương là: Xây dựng chương trình Windown form ngơn cữ lập trình C#, ứng dụng cơng nghệ ADO.NET; Cơ sở liệu hệ thống sử dụng lưu trữ tập tin Excel Hệ thống thực đầy đủ quy trình khai phá liệu trình bày với thuật tốn dùng khai phá liệu thuật toán ID3 xây dựng Cây định Chương trình thực theo mơ hình gồm bước sau: - Chuẩn bị liệu cho mơ hình (Data Preparation) Bước thực công việc tiền xử lý liệu theo yêu cầu mơ trích chọn thuộc tính, rời rạc hóa liệu cuối chia liệu nguồn (Data Source) thành tập liệu dùng để huấn luyện mơ hình (Training Data, chiếm 70% khối lượng liệu ban đầu) kiểm tra mơ hình (Testing data, chiếm 30% khối lượng liệu ban đầu) - Xây dựng mơ hình (Data Modeling) Bước sử dụng Training Data vừa tạo để xây dựng mô hình, luận văn sử dụng mơ hình Cây định - Kiểm định mơ hình (Validation model) Sau sử dụng Training Data để xây dựng mơ hình, ta sử dụng Testing Data để kiểm tra xem mơ hình có đủ tốt để sử dụng hay khơng? (Nếu chưa đủ tốt phải sử dụng Training Data khác để huấn luyện lại) - 54 - - Sử dụng mơ hình (Model Usage) Sau mơ hình kiểm tra (Testing) độ xác đáp ứng u cầu sử dụng model xây dựng vào dự đoán liệu chưa biết Bây ta sử dụng mơ hình phân lớp định xây dựng để dự đoán, dự đón đảng viên có hay khơng đưa vào quy hoạch cán bộ? Dữ liệu cần dự đoán sheet “New DV” Trên sở nắm vững thuật toán ID3 xây dựng Cây định, đề tài khơng sâu vào việc code thuật tốn mà sử dụng thư viện có sẵn weka, thư viện AdomClient SQL Analysis Service 3.2 Yêu cầu cài đặt thuật toán Hiện nay, lĩnh vực khai phá liệu có nhiều cơng cụ (cả mã nguồn mở thương mại), công cụ phổ biến Weka, R, Business Intelligence Development có thư viện thuật tốn khai phá liệu phong phú xác Lựa chọn thuật toán Trong thuật toán khai phá liệu tìm hiểu Chương thuật tốn ID3 có tốc độ tương đối nhanh, thích hợp với liệu khơng có phần tử nhiễu Vì vậy, tơi chọn thuật tốn ID3 để áp dụng cho đề tài Đề tài kế thừa kỹ thuật để xây dựng hệ thống áp dụng vào toán khai phá liệu thuật toán ID3 Cụ thể sử dụng công cụ Business Intelligence Development studio 2012 để xây dựng mơ hình khai phả liệu sử dụng thuật tốn ID3, tiếp sử dụng ngơ ngữ lập trình C# đề thiết kế giao diện sử dụng mơ hình Business Intelligence Development studio 2012 tạo để dự báo (sử dụng thư viện AdomClient SQL Analysis Service để gọi mô hình) Như vậy, việc thể thuật tốn ngơn ngữ lập trình rút ngắn, đề tài sâu vào việc xây dựng mơ hình khai phá liệu - 55 - 3.3 Giao diện chƣơng trình Hình 3.1 Giao diện chƣơng trình hỗ trợ định công tác quy hoạch cán Chương trình có giao diện gồm cửa sổ nút điều khiển: - Cửa sổ đầu tiên: Hiển thị nội dung tập training, kèm nút load train, train - Cửa sổ thứ hai: Hiển thị nội dung tập test, kèm nút load test Predict (dự đoán) - Cửa sổ thứ ba: Hiển thị mơ hình định sau train 3.4 Kết luận hƣớng phát triển 3.4.1 Các kết đạt đƣợc luận văn Về mặt khoa học Luận văn tiến hành phân tích, nghiên cứu, tìm hiểu bước, quy trình công tác quy hoạch cán lãnh đạo, quản lý - 56 - Nắm phương pháp mơ hình khai phá liệu, áp dụng để giải yêu cầu toán đặt Cụ thể nghiên cứu vận dụng thuật toán ID3 xây dựng Cây định để khai phá liệu đảng viên, ứng dụng dự đoán cán đưa vào nguồn quy hoạch cán lãnh đạo, quản lý Về mặt thực tiễn Luận văn nêu giải pháp kỹ thuật để vận dụng xây dựng hệ thống trợ giúp định công tác quy hoạch cán lãnh đạo, quản lý Đảng ủy Khối Doanh nghiệp Thành phố Hải Phòng dựa sở liệu đảng viên Đảng Khối Xây dựng ứng dụng có khả phân tích liệu công tác quy hoạch cán bộ, lãnh đạo quản lý năm qua Đảng ủy Khối Việc kết hợp lý thuyết mơ hình khai phá liệu thuật toán xây dựng Cây định cần thiết, giúp giảm thiểu đáng kể thời gian việc tìm kiếm, xác định thơng tin, chuẩn bị nhân sự, tạo minh bạch công tác quy hoạch cán lãnh đạo, quản lý Có thể nói cơng cụ có tính thực tiễn, giúp cho người làm cơng tác quản lý cán có thêm cứ, giảm thiểu rủi ro việc đưa định công tác quy hoạch cán lãnh đạo, quản lý Hạn chế Đặc thù cơng tác cán nói chung, có cơng tác quy hoạch cán lãnh đạo, quản lý mang nặng tính chất định tính, có nhiều yếu tố nhạy cảm, hệ thống xây dựng mang tính hỗ trợ Mặt khác, cơng tác quy hoạch cán nói chung cịn nhiều quy định mà liệu training khơng thể thể hết (ví dụ trường hợp ưu tiên dân tộ thiểu số, gia đình cách mạng …) Hiện tại, hệ thống chạy thử nghiệm sở liệu trích xuất tập tin Excel, chưa chạy trực tiếp hệ quản trị sở liệu SQL Server - 57 - liệu thực tế Do chưa có kết nối với chương trình quản lý cán bộ, quản lý đảng viên Đây yêu cầu cần thực thời gian sau 3.4.2 Kiến nghị hƣớng phát triển Hiện nay, sở liệu đảng viên Đảng ủy Khối toàn hệ thống tổ chức Đảng nhiều hạn chế (dữ liệu lưu trữ nhiều trường NULL, thiết kế table, trường chưa khoa học, rườm rà …) vậy, việc kết nối trực tiếp đến sở liệu Hệ quản trị sở liệu SQL Server khó khăn Trong thời gian tới, cần tiếp tục nghiên cứu, hồn thiện sở liệu để ngồi mục đích lưu trữ, tra cứu cịn phục vụ cho nhiều mục đích khác khai phá liệu, nhận dạng … Công tác quản lý cán quy trình chặt chẽ, nhiên liệu lưu trữ lại đơn giản, vậy, việc tìm tập liệu training vấn đề khó Trong thời gian sau, cần tiến hành nghiên cứu, lưu trữ liệu công tác quy hoạch cán chi tiết khoa học Hệ thống khai phá liệu đảng viên phục vụ công tác quy hoạch cán lãnh đạo, quản lý Đảng ủy Khối Doanh nghiệp Thành phố Luận văn xây dựng chưa đưa vào thực tiễn, thời gian sau, tạo điều kiện, hỗ trợ quan có chức năng, Đề tài hy vọng triển khai quy mô rộng (mạng wan quan Đảng từ cấp tỉnh đến cấp huyện, xã) kết nối với hệ thống phần mềm khác phần mềm quản lý cán bộ, quản lý đảng viên … để tạo thành hệ thống phần mềm đồng bộ, sử dụng chung chia liệu - 58 - DANH MỤC TÀI LIỆU THAM KHẢO Khai phá liệu, Wikipedia tiếng Việt Giáo trình khai phá liệu (Data mining), Đại học Kinh doanh Công nghệ Hà Nội Luận văn thạc sỹ kỹ thuật: Ứng dụng khai phá liệu dự đoán khách hàng rời mạng viễn thông, Nguyễn Minh Tân, Đại học Đà Nẵng, Chuyên ngành Khoa học Máy tính 2011 Chuyên đề Similar Cơ sở tri thức ứng dụng: Khai phá liệu Cây định – ID3, Đỗ Thiện Vũ, Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh, Chuyên ngành Khoa học Máy tính 2013 Cây định (Decision Tree), http://bis.net.vn Quy trình hồn chỉnh xây dựng mơ hình khai phá liệu, http://bis.net.vn ID3 Decision Tree Algorithm in C#, www.codeproject.com Library to generate a decision tree, http://stackoverflow.com Microsoft Decision Trees Algorithm Technical Reference, msdn.microsoft.com 10 Decision Trees in C#, http://crsouza.com 11 Use WEKA with the Microsoft NET Framework, https://weka.wikispaces.com - 59 - ... đạo, quản lý thiếu, chất lượng chưa đảm bảo … thiếu khoa học Với lý trên, đề tài nghiên cứu với nội dung ? ?Nghiên cứu khai phá liệu, ứng dụng vào hệ thống phần mềm quản lý đảng viên Đảng ủy Khối Doanh. .. trạng hệ thống quản lý sở liệu đảng viên công tác quy hoạch cán lãnh đạo, quản lý Đảng Khối Doanh nghiệp Thành phố Hải Phòng - Ƣu điểm: Đảng Khối Doanh nghiệp Hải Phòng có 100 tổ chức sở đảng. .. dựng hệ thống tự động dự báo, hỗ trợ định công tác quy hoạch cán lãnh đạo quản lý Đảng Khối Doanh nghiệp Thành phố Hải Phòng sở khai phá liệu có sẵn 2.2 Nhiệm vụ - Nghiên cứu lý thuyết khai phá liệu,

Ngày đăng: 14/10/2017, 16:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan