Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,45 MB
Nội dung
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG ĐỀ TÀI ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀO CÔNG TÁC QUẢN LÝ CÁN BỘ TRƯỜNG ĐHHH Chủ nhiệm đề tài: Thành viên tham gia: NGUYỄN KIM ANH TRỊNH THỊ NGỌC HƯƠNG NGUYỄN THỊ THU HÀ Hải Phòng, tháng 05/2015 Mục lục Danh mục hình .3 Lời mở đầu .4 Chương 1: Tổng quan đề tài .5 1.1 Lý chọn đề tài 1.2 Mục đích, phương pháp nghiên cứu 1.3 Nội dung nghiên cứu Chương 2: Sơ lược khai phá liệu 2.1 Khái niệm .6 2.1.1 Qui trình Khai phá liệu 2.1.2 Các toán thông dụng Khai phá liệu 2.2 Khai phá liệu với toán phân lớp 2.2.1.1 Quá trình phân lớp .9 2.2.1.2 Chuẩn bị liệu cho trình phân lớp 10 2.3 Mô hình phân lớp dựa định 11 2.3.1 Cây định 11 2.3.2 Thuật toán xây dựng định 11 2.3.4 Cắt tỉa định 17 2.4 Công cụ hỗ trợ xây dựng mô hình Weka 18 Chương 3: Quản lý cán mô hình phân lớp 24 3.1 Quản lý cán 24 3.2 Mô hình phân lớp cán 25 3.3 Thực nghiệm 27 3.3.1 Thiết kế CSDL mẫu 27 3.3.2 Xây dựng định 28 3.3.3 Phần mềm ứng dụng .29 Chương 4: Kết luận .30 Tài liệu tham khảo 31 Danh mục hình Hình 1: Mô hình phân lớp liệu Hình 2: Xây dựng mô hình phân lớp .9 Hình 3: Ước lượng độ xác mô hình Hình 4: Phân lớp liệu 10 Hình 5: Ví dụ định 11 Hình 6: Mở file liệu mẫu Weka .19 Hình 7: Chọn thuật toán phân lớp với Weka 20 Hình 8: Kết phân lớp với Weka 21 Hình 9: Lựa chọn hiển thị định .22 Hình 10: Cây định tuyển dụng Nhân .23 Hình 11: File liệu Excel 27 Hình 12: CSDL Nhân SQL Server 28 Hình 13: Cây định ứng dụng .29 Lời mở đầu Quản lý cán công tác quan trọng tổ chức, doanh nghiệp Công tác phối hợp cách tổng thể nhiều hoạt động, bao gồm: tuyển dụng, tổ chức, xếp cán bộ, đánh giá cán bộ, đào tạo, đề bạt, bổ nhiệm, bổi dưỡng quản lý Trong đó, đánh giá hồ sơ tuyển dụng cán công tác quan trọng xuyên suốt trình công tác cán bộ; có đánh giá xếp cán có điều kiện phát huy khả Hiện có nhiều sản phẩm phần mềm hỗ trợ công tác quản lý nhân sự, hầu hết sản phẩm dừng việc thu thập hồ sơ lý lịch in biểu mẫu báo cáo phục vụ công tác quản lý, việc đánh giá cán dựa vào cảm tính tự đánh giá cá nhân Giả sử, cập nhật hồ sơ nhân vào CSDL ta thực phân loại cho nhân cách tự động việc thực có ý nghĩa, hỗ trợ cho việc đánh giá ban đầu nhân định hướng phát triển sau Dựa đặc điểm trình quản lý, việc cập nhật, bổ sung, thay đổi thông tin nhân diễn thường xuyên khiến cho liệu tích lũy ngày nhiều, chứa thông tin ẩn dạng quy luật chưa khai phá, nhóm tác giả đề xuất nghiên cứu đề tài "Ứng dụng khai phá liệu quản lý cán trường ĐHHH" Đề tài tập trung nghiên cứu thực xây dưng mô hình phân lớp liệu nhân nhằm hỗ trợ định đánh giá cán dựa thông tin lưu trữ Báo cáo gồm nội dung chính: - Chương 1: Tổng quan đề tài – Nêu lý do, mục đích phương pháp nghiên cứu thực đề tài Chương 2: Sơ lược khai phá liệu ứng dụng – Khái niệm, ứng dụng số kỹ thuật khai phá liệu điển hình Chương 3: Quản lý cán mô hình phân lớp – Mô tả toán quản lý cán đề xuất mô hình phân lớp cán dựa định Chương 4: Kết luận – Đánh giá chung đề tài định hướng phát triển Thuyết minh ĐT NCKH Chương 1: TỔNG QUAN VỀ ĐỀ TÀI Chương 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài Quản lý cán công tác quan trọng quan tổ chức nào, người quản lý đưa định lựa chọn để tuyển dụng, đào tạo, để đề bạt, bổ nhiệm cán bộ… khai thác lực tạo điều kiện cho cán tổ chức phát triển Công tác quản lý cán tin học hóa với nhiều sản phẩm phần mềm quản lý nhân sự, quản lý nguồn nhân lực Tuy nhiên chúng có đặc điểm dừng việc thu thập hồ sơ lý lịch cán in biểu mẫu báo cáo phục vụ quản lý, công tác đánh giá cán chủ yếu thực thủ công dựa vào cảm tính tự đánh giá cá nhân để xem xét, thể phát sinh số tiêu cực, làm suy giảm sức mạnh máy quản lý Vì trình quản lý cán bộ, hồ sơ cán cập nhật, bổ sung, thay đổi thông tin, liệu tích lũy ngày nhiều chứa nhiều thông tin ẩn dạng quy luật chưa khai thác Việc nghiên cứu, ứng dụng kỹ thuật công nghệ Cơ sở liệu vào khai phá thông tin tiểm ẩn xu thể phát triển tất yếu 1.2 - 1.3 - Mục đích, phương pháp nghiên cứu Nghiên cứu số kỹ thuật khai phá liệu điển hình ứng dụng Tìm hiểu số phần mềm hỗ trợ xây dựng mô hình khai phá liệu Xây dựng mô hình phân lớp cán nhằm hỗ trợ công tác đánh giá quản lý nguồn nhân lực cho đơn vị Nội dung nghiên cứu Tìm hiểu khai phá liệu kỹ thuật khai phá liệu điển hình (phân lớp, chia cụm) Tìm hiểu công cụ xây dựng mô hình khai phá liệu Business Intelligence Microsoft Cài đặt mô hình phân lớp dựa định với liệu CSDL nhân trường Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU 2.1 Khái niệm Khai phá liệu (Data Mining) định nghĩa trình trích xuất thông tin tiềm ẩn bên lượng lớn liệu lưu trữ Khai phá liệu (KPDL) trình học tri thức từ liệu thu KPDL không hoàn toàn trình máy học KPDL có lợi chỗ sử dụng với CSDL chứa nhiều nhiễu, liệu không đầy đủ biến đối liên tục; phương pháp máy học chủ yếu áp dụng CSDL đầy đủ, biết động tập liệu không lớn Ngoài ra, phương pháp khai thác liệu truyền thống phần lớn định trước mục đích công việc sau áp dụng phương pháp thích hợp để có thông tin mà cần Nhưng với KPDL, tìm “mỏ”, có mỏ hay không, có đâu “mỏ mỏ vàng, bạc hay chì”… KPDL công cụ giúp tìm mỏ dãy núi liệu khổng lồ, núi lớn, dài hi vọng tìm mỏ cao phức tạp khó khăn Các kỹ thuật khai phá liệu chia thành nhóm chính: Kỹ thuật khai phá liệu mô tả: mô tả tính chất đặc tính chung liệu CSDL như: phân cụm (Clustering), tóm tắt (Summerization), trực quan hóa (Visualization), luật kết hợp (Association Rules) Kỹ thuật khai phá liệu dự đoán: đưa dự đoán dựa vào suy diễn liệu thời như: phân lớp (Classification), hồi qui (Regression) 2.1.1 Qui trình Khai phá liệu Một trình KPDL bao gồm năm giai đoạn: - Tìm hiểu nghiệp vụ liệu Chuẩn bị liệu Mô hình hóa liệu Hậy xử lý đánh giá mô hình Triển khai tri thức Quá trình lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi, đánh giá từ kết giai đoạn sau Tìm hiểu nghiệp vụ liệu Trong giai đoạn này, tìm hiểu lĩnh vực ứng dụng hình thành toán Điều mang tính định cho việc rút tri thức hữu ích cho phép chọn phương pháp KPDL thích hợp với mục dích ứng dụng chất liệu Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Chuẩn bị liệu Các liệu liên quan đến phạm vi toán thu thập xử lý thô (tiền xử lý liệu) nhằm biến đổi cải thiện chất lượng liệu cho thích hợp với yêu cầu giải thuật học Phần lớn giải thuật KPDL làm việc tập liệu đơn phẳng, liệu phải trích xuất biến đổi từ dạng CSDL khác dạng sở liệu quan hệ đơn giản với bảng liệu Công việc xử lý thô bao gồm: - Tích hợp liệu (data integartion): thu thập liệu từ nhiều nguồn khác CSDL, file text… - Chọn liệu (data selection): liệu liên quan trực tiếp đến toán trích xuất từ nguồn liệu ban đầu - Làm liệu (data cleaning): loại bỏ nhiễu liệu không hợp lệ, điền liệu thiếu - Chuyển đổi liệu (data transformation): liệu chuyển đổi dạng phù hợp cho việc khai thác cách thực thao tác nhóm tập hợp Mô hình hóa liệu Các toán giải giai đoạn Các giải thuật KPDL sử dụng liệu tiền xử lý giai đoạn để tìm kiếm quy tắc ẩn chưa biết Công việc quan trọng giai đoạn lựa chọn kỹ thuật phù hợp để giải vấn đề đặt Các toán phân loại vào nhóm toán KPDL dựa đặc tả chúng Hậu xử lý đánh giá Các mô hình kết giai đoạn đánh giá giai đoạn Dựa đánh giá người dùng sau kiểm tra tập thử, mô hình tinh chỉnh kết hợp lại cần Chỉ mô hình đạt mức yêu cầu người dùng đưa triển khai thực tế Đồng thời giai đoạn này, kết biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho người dùng Triển khai tri thức Các mô hình đưa vào hệ thống thông tin thực tế dạng modun hỗ trợ việc đưa định Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU 2.1.2 Các toán thông dụng Khai phá liệu Khai phá liệu hướng nghiên cứu thu hút nhiều quan tâm nhà nghiên cứu phát triển nhờ vào ứng dụng Một số ứng dụng điển hình: Phân lớp (Classification): phân liệu vào lớp xác định trước dựa tập liệu huấn luyện Phân cụm (Clustering): nhóm đối tượng liệu có tính chất giống vào nhóm Các kỹ thuật áp dụng với toán thường vận dụng vấn đề phân hoạch liệu tiếp thị hay khảo sát sơ liệu Luật kết hợp (Association Rule): tìm kiếm mối liên kết phần tử liệu, ví dụ nhóm hàng mua kèm với siêu thị Dự đoán (Prediction): đưa dự đoán, có liệu đến, dự đoán dựa thông tin có để đưa giá trị số học cho hàm cần dự đoán Bài toán tiêu biểu nhóm dự đoán giá sản phẩm để lập kế hoạch kinh doanh Trongáphạm vi nghiên cứu này, tác giả tập trung vào số toán khai phá liệu thông dụng phổ biến phân lớp liệu 2.2 Khai phá liệu với toán phân lớp Mục tiêu phân lớp liệu gán nhãn cho mẫu liệu Đầu vào toán phân lớp tập mẫu phân lớp trước gọi tập huấn luyện Mỗi mẫu mô tả số thuộc tính, có thuộc tính đặc biệt dùng để phân lớp mà giá trị dùng để gán nhãn lớp Nhiệm vụ trình phân lớp thiết lập ánh xạ giá trị thuộc tính với nhãn lớp thông qua việc xây dựng mô hình Mô hình sau dùng để xác định nhãn lớp cho mẫu không nằm tập mẫu ban đầu Hình 1: Mô hình phân lớp liệu Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU 2.2.1 Quá trình phân lớp Quá trình phân lớp thường gồm bước: xây dựng mô hình sử dụng mô hình để phân lớp liệu Bước 1: Xây dựng mô hình – mô hình phân lớp xây dựng dựa việc phân tích mẫu liệu sẵn có Đây trình học nhằm xây dựng mô hình mô tả tập liệu có – gọi tập huấn luyện Tập liệu có cấu trúc mô tả thuộc tính với giá trị cụ thể, đó, phần tử liệu giả sử thuộc lớp định trước Nhãn lớp giá trị thuộc tính chọn làm thuộc tính phân loại lớp Kết bước thường quy tắc phân lớp thể dạng luật if-then, định, công thức logic hay mạng nơron Ví dụ: Hình 2: Xây dựng mô hình phân lớp Bước 2: Phân lớp liệu – sử dụng mô hình bước để phân lớp cho liệu Bước sử dụng mô hình xây dựng bước trước để phân lớp liệu Trước hết, ta phải tính độ xác mô hình, độ xác chấp nhận mô hình sử dụng để gán nhãn lớp cho mẫu liệu khác Hình 3: Ước lượng độ xác mô hình Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Hình 4: Phân lớp liệu Một kỹ thuật để ước lượng độ xác mô hình Holdout Kỹ thuật sử dụng tập liệu kiểm tra với mẫu liệu chọn ngẫu nhiên khác với mẫu tập liệu huấn luyện Các mẫu tập kiểm tra gán nhãn lớp, độ xác mô hình dựa tập kiểm tra đưa tỉ lệ phần trăm mẫu mô hình phân tích so với thực tế Trong mô hình phân lớp, thuật toán phân lớp nắm vai trò trung tâm định xác mô hình 2.2.2 Chuẩn bị liệu cho trình phân lớp Đây trình tiền xử lý liệu cho việc phân lớp liệu Quá trình gồm công việc sau: Làm liệu Làm liệu xử lý vấn đề liên quan đến nhiễu thiếu giá trị Nhiễu lỗi tồn giá trị không hợp lệ biến tập liệu Thiếu giá trị trường hợp tồn liệu giá trị thuộc tính, lỗi trình nhập liệu trường hợp cụ thể giá trị thuộc tính có hay không quan trọng Để xử lý lỗi thực thay giá trị thiếu giá trị phổ biến thuộc tín giá trị trung bình thuộc tính Phân tích cần thiết liệu Có nhiều thuộc tính tập liệu không cần thiết hoàn toàn không liên quan đến toán phân lớp – gọi thuộc tính dư thừa Phân tích cần thiết liệu nhằm mục đích loại bỏ thuộc tính dư thừa khỏi trình xây dựng mô hình thuộc tính làm chậm, phức tạp gây hiểu lầm trình xây dựng Ví dụ, liệu ngày tuần không cần thiết nghiên cứu ứng dụng phân tích độ rủi ro khoản cho vay ngân hàng 10 Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU } Chỉ số phân chia (Spliting index) Để đánh giá thuộc tính tốt cho việc chia tách tập liệu, SLIQ đưa đại lượng gọi số Gini Chỉ số Gini định nghĩa sau: - Nếu tập liệu T gồm n lớp giá trị Gini T, kí hiệu Gini(T), xác định công thức: 𝑮𝒊𝒏𝒊(𝑻) = 𝟏 − ∑ 𝒑𝒊 𝟐 - Trong pi tần suất xuất lớp i tập mẫu T Nếu tập T tách làm tập T1 T2 số Gini T chia tách, kí hiệu Gini(T)split xác định công thức: 𝑮𝒊𝒏𝒊(𝑻)𝒔𝒑𝒍𝒊𝒕 = Sau tính số Gini cho nút, thuộc tính có số Gini nhỏ chọn để thực việc triển khai Nhận xét: SLIQ phân lớp có hiệu tập liệu lớn, thực tạo không phụ thuộc vào số lượng lớp, thuộc tính số lượng ghi tập liệu SLIQ thuật toán phân lớp nhanh, xác, chi phí thấp cải thiện vấn đề boojnhows với pha tiền xử lý phân lại, áp dụng kỹ thuật cắt tỉa mô tả độ dài tối thiểu MDL Tuy nhiên, việc cài đặt SLIQ phức tap 2.3.4 Cắt tỉa định Trong thuật toán xây dựng định trên, nhận thấy việc xây dựng cách phát triển nhánh đầy đủ để phân lớp hoàn toàn mẫu huấn luyện, ví dụ thuật toán ID3, C4.5, gặp khó khăn trường hợp liệu bị nhiễu thiếu liệu, không đủ để tạo luật phù hợp tạo nút có số mẫu nhỏ Trong trường hợp này, thuật toán tiếp tục phát triển dẫn đến tình trạng "Over fitting" Để giải vấn đề, người ta sử dụng phương pháp cắt tỉa định Việc cắt tỉa nhằm tối ưu hóa kết quả: tối ưu kích cỡ độ xác việc phân lớp cách cắt bỏ nhánh không phủ hợp Tiền cắt tỉa Phương pháp dừng việc phát triển trước vươn đến điểm mà việc phân lớp mẫu huấn luyện hoàn thành Nghĩa trình xây dựng cây, nút không tách thêm bước kết phép tách rơi vào ngưỡng không phép, nút trở thành nút gán nhãn nhãn lớp phổ biến tập mẫu nút xét Hậu cắt tỉa 17 Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Phương pháp ngược với phương pháp trên, cho phép phát triển đầy đủ sau cắt tỉa Nghĩa xây dựng sau thực cắt bỏ nhánh không hợp lý Điều có nghĩa trình xây dựng cho phép tình trạng Over fitting xảy Nếu nút mà bị cắt trở thành nút nhãn nút là nhãn lớp phổ biến Trên thực tế phương pháp hậu cắt tỉa thường lựa chọn Giải thuật tiến hành thông qua việc tính toán lỗi sau: Giả sử gọi E(S) lỗi tĩnh nút S, BackUpError(S) lỗi từ nút S Error(S) lỗi thân nút S 𝐸 (𝑆 ) = 𝑁−𝑛+𝐾−1 𝑁+𝐾 𝐵𝑎𝑐𝑘𝑈𝑝𝐸𝑟𝑟𝑜𝑟 (𝑆) = ∑ 𝑃𝑖 𝐸𝑟𝑟𝑜𝑟(𝑆𝑖 ) 𝑖 𝐸𝑟𝑟𝑜𝑟 (𝑆) = 𝑀𝑖𝑛(𝐸 (𝑆), 𝐵𝑎𝑐𝑘𝑈𝑝𝐸𝑟𝑟𝑜𝑟(𝑆)) Trong đó: - N tổng số mẫu S n số mẫu lớp phổ biến S Si nút S Pi tỷ lệ số mẫu Si số mẫu S Như vậy, nútlà sữ có lỗi Error(S)=E(S) nút nút Nếu BackUpError>=E(S) chiến thuật hậu cắt tỉa cắt nút S, tức cắt bỏ S 2.3.5 Công cụ hỗ trợ xây dựng mô hình Weka Weka phần mềm khai thác liệu viết ngôn ngữ Java Weka tập hợp nhiều thuật toán áp dụng cho thao tác khai thác liệu phân lớp, hồi quy, gom cụm, luật kết hợp File liệu mẫu dùng Weka file arff (file Weka tạo ra) file csv (file dạng liệu Excel) Để phân lớp Weka ta thực bước sau: - File mẫu Excel Save dạng csv Chọn file mẫu cần phân lớp mở file mẫu Weka 18 Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Hình 6: Mở file liệu mẫu Weka - Chọn tab Classify, nhấn Choose để chọn phân lớp theo thuật toán nào: Bayes, C4.5 19 Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Hình 7: Chọn thuật toán phân lớp với Weka - Kết phân lớp hiển thị hình bên phải 20 Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Hình 8: Kết phân lớp với Weka - Để hiển thị định, chọn Tree.J48 nằm bên khung góc trái hình chọn Vissualize tree 21 Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Hình 9: Lựa chọn hiển thị định - Cây định hiển thị 22 Thuyết minh ĐT NCKH Chương 2: SƠ LƯỢC VỀ KHAI PHÁ DỮ LIỆU Hình 10: Cây định tuyển dụng Nhân 23 Thuyết minh ĐT NCKH Chương 3: MÔ HÌNH PHÂN LỚP CÁN BỘ Chương 3: MÔ HÌNH PHÂN LỚP CÁN BỘ 3.1 Quản lý cán Hồ sơ cán bao gồm thông tin cán trình công tác, hoạt động cán tổ chức, công ty Mô hình quản lý cán nói chung thường lưu trữ, cập nhật thông tin hệ quản trị CSDL ví dụ SQL Server, sau thực hoạt động truy vấn để lập báo cáo thống kê phục vụ yêu cầu quản lý Có thể kể đến sau: - - - - - Quản lý thông tin cá nhân cán từ tổng hợp, báo cáo, phân tích số liệu số lượng nhân lực theo tiêu chí giới tính, độ tuổi, nơi sinh, quê quán, nơi ở, gia đình xuất thân Quản lý thông tin trình đào tạo từ tổng hợp phân tích chất lượng cán có, đề nh cầu đào tạo thời gian tiếp theo; theo dõi trình phấn đấu nâng cao trình độ cán bố trí sử dụng cán trình độ đào tạo Quản lý thông tin trình công tác nhằm ghi nhận kinh nghiệm lĩnh vực cán trước sau tuyển dụng, xem xét có thuyên chuyển, bổ nhiệm cán Quản lý trình lương, theo dõi việc thực sách tiền lương cán Quản lý thông tin tình Đảng, Đoàn hoạt động đoàn thể khác nhằm phục vụ yêu cầu báo cáo cấp bố trí sử dụng tham gia máy quản lý Đảng, Đoàn đơn vị Quản lý trình khen thưởng kỷ luật nhằm theo dõi sử dụng đánh giá bố trí sử dụng cán Đánh giá cán bộ: tiêu chí thông tin trình làm việc, công tác cán bộ, tự nhận xét phân loại cán thực xếp loại, đánh giá cán bộ, đưa định khen thưởng kỷ luật, điều chuyển, bổ nhiệm cán hợp lý Đối với phần lớn phần mềm quản lý Nhân tại, cán quản lý muốn lựa chọn cán đào tạo lớp bồi dưỡng cán quản lý họ có tiêu chuẩn đính kèm, vào tiêu chuẩn này, họ thống kê truy vấn CSDL để lọc ứng viên đáp ứng yêu cầu định Tuy nhiên, phần mềm bị hạn chế khả dự đoán liệu cán bổ sung vào, khó khăn việc đưa định tuyển dụng bố trí nhân lực Với mục đích quản lý cán nâng cao, đề tài nghiên cứu hướng khai thác thông tin tiềm ẩn CSDL Nhân tích lũy, xây dựng mô hình phân lớp để từ dự đoán mẫu liệu nhân 24 Thuyết minh ĐT NCKH 3.2 Chương 3: MÔ HÌNH PHÂN LỚP CÁN BỘ Mô hình phân lớp cán Dựa tìm hiểu khai phá liệu, tác giả nhận thấy toán xây dựng mô hình dự đoán liệu nhân hoàn toàn thực dựa định nguyên nhân sau: - Có thể hoán chuyển thành luật phân lớp đơn giản dễ hiểu Có thể dễ dàng chuyển đổi sang câu lệnh SQL sử dụng truy vấn SQL để truy xuất CSDL cách hiệu Mô hình xây dựng mô tả sau: (hình bên dưới) Dữ liệu vào mô hình CSDL Nhân với bảng bảng NhanVien Việc xây dựng mô hình thực qua bước: Thiết kế CSDL mẫu phục vụ cho trình xây dựng định CSDL mẫu bao gồm bảng: - - - Bảng NhanVien: bao gồm trường thông tin STT (mã hồ sơ), Họ tên, Năm sinh, Giới tính, Địa chỉ, Quê quán, Dân tộc, Tôn giáo, Trình độ, Chuyên môn, Loại TN, Nơi đào tạo, Ngoại Ngữ, Tin học, Lý Luận CT, Đảng Viên, Thành phần gia đình Bảng Quê quán: Mã, Tỉnh thành Bảng Thường trú: Mã, Tỉnh thành Bảng Trình độ: Mã, Trình độ Bảng Chuyên môn: Mã, Chuyên môn Bảng Trình độ Ngoại ngữ: Mã, Trình độ Ngoại ngữ Bảng Trình độ Tin học: Mã, Trình độ Tin học Bảng Loại tốt nghiệp: Mã, Loại tốt nghiệp (đại học, sau đại học ) Bảng Nơi đào tạo: Mã, Nơi đào tạo Bảng Thành phần: Mã, Loại thành phần xuất thân Xác định thuộc tính cần dự đoán thuộc tính đầu vào cho mô hình Xây dựng định để phân lớp liệu Xác định thuộc tính cần dự đoán thuộc tính đầu vào cho mô hình Thuộc tính đầu vào thuộc tính bảng Nhân viên Thuộc tính phân lớp thuộc tính định "Tuyển dụng" Xây dựng định rút luật phân lớp cho mô hình Sử dụng phần mềm hỗ trợ với liệu đầu vào bảng Nhân viên để hình thành định dựa thuật toán phù hợp (C4.5) Phân tích định để rút luật phân lớp Xây dựng phần mềm ứng dụng đánh giá hồ sơ dự tuyển Sử dụng ngôn ngữ lập trình để thiết kế phần mềm ứng dụng o Kết nối CSDL để lấy liệu từ bảng CSDL 25 Thuyết minh ĐT NCKH Chương 3: MÔ HÌNH PHÂN LỚP CÁN BỘ o Import luật phân lớp rút bước vào chương trình o Thiết kế chức ứng dụng chương trình Báo cáo điều kiện Sơ yếu lí lịch dự tuyển CSDL hồ sơ Nhân Phầ n mềm hỗ trợ sinh định Các luật phân lớp Phầ n mềm ứng dụng Kết đánh giá hồ sơ nhân 26 Thuyết minh ĐT NCKH Chương 3: MÔ HÌNH PHÂN LỚP CÁN BỘ 3.3 Thực nghiệm 3.3.1 Thiết kế CSDL mẫu CSDL thiết kế với định dạng: file Excel (dùng cho việc xây dựng định từ phần mềm mã nguồn mở Weka) file CSDL SQL Server phục vụ cho phần mềm ứng dụng File Excel có dạng: Hình 11: File liệu Excel 27 Thuyết minh ĐT NCKH Chương 3: MÔ HÌNH PHÂN LỚP CÁN BỘ CSDL tạo SQL Server Hình 12: CSDL Nhân SQL Server 3.3.2 Xây dựng định Tập liệu huấn luyện liệu hồ sơ dự tuyển bao gồm kết dự tuyển thu thập từu Web Kết phân lớp thể dạng luật, luật sau dùng để phân lớp hồ sơ cán 28 Thuyết minh ĐT NCKH Chương 3: MÔ HÌNH PHÂN LỚP CÁN BỘ Hình 13: Cây định ứng dụng 3.3.3 Phần mềm ứng dụng 29 Thuyết minh ĐT NCKH Chương 4: Kết luận Chương 4: Kết luận Để tài thực nghiên cứu ứng dụng khai phá liệu sử dụng định vào toán quản lý Nhân Một số kết đạt đề tài: - - Đề tài đưa cách nhìn quản lý cán bộ, đưa phương pháp khai thác liệu có khả hỗ trợ định cho phần công việc trọng tâm công tác quản lý Nhân Đề tài nghiên cứu số khía cạnh khai phá liệu, công cụ hỗ trợ xây dựng mô hình xây dựng mô hình minh họa Mô hình xây dựng sử dụng để phục vụ công tác xét tuyển hồ sơ nhân quản lý Nhân Ứng dụng khai phá liệu vào toán quản lý Nhân sự, quản lý nguồn Nhân lực hướng nghiên cứu có nhiều ứng dụng Do thời gian thực nghiên cứu, liệu hồ sơ nhân chưa đầy đủ nên nghiên cứu đưa giải pháp để thực khai thác liệu Nhân cách hiệu mà chưa chi tiết vào việc xây dựng công cụ hỗ trợ nhằm thực nhiều công tác đánh giá khác 30 Tài liệu tham khảo http://www.cs.waikato.ac.nz/~ml/weka/index.html http://bis.net.vn/forums/t/505.aspx Nguyễn Đức Cường, “Tổng quan khai phá liệu”, Kỷ yếu Hội nghị Khoa học Công nghệ lần thứ 9, Đại học Bách khoa, Tp Hồ Chí Minh Phạm Văn Chiến, "Khai phá liệu ứng dụng", Trường Đại học Công nghệ