Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu và ứng dụng trong quản lí cán bộ

92 1.1K 5
Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu và ứng dụng trong quản lí cán bộ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

- 1 - MỞ ĐẦU Quản lý cán bộ là mảng công tác quan trọng phối hợp một cách tổng thể các hoạt động hoạch định, tuyển dụng, tuyển chọn, duy trì, phát triển, động viên và tạo điều kiện thuận lợi cho nguồn nhân sự trong tổ chức, nhằm đạt được mục tiêu chiến lược và định hướng phát triển của một tổ chức. Một số công tác cán bộ điển hình là tuyển dụng, tổ chức, sắp xếp cán bộ, đánh giá cán bộ, quy hoạch cán bộ, lựa chọn cán bộ, bồi dưỡng quản lý, hoạch định mô hình tổ chức… [4], trong đó, công tác đánh giá hồ sơ tuyển dụng cán bộ là công tác đầu tiên quan trọng xuyên xuốt trong qua trình công tác của cán bộ. Chỉ khi có đánh giá đúng cán bộ thì mới có thể sắp xếp đúng và người cán bộ có điều kiện phát huy được hết khả năng. Về phía người quản lý cán bộ thì họ cần đưa ra những quyết định đúng: lựa chọn đúng để tuyển dụng, đào tạo, để đề bạt, bổ nhiệm… Công tác quản lý hồ sơ cán bộ phổ biến là quản lý theo mô hình thủ công; đánh giá cán bộ dựa vào cảm tính và tự đánh giá của cá nhân để xem xét nên phát sinh nhiều tiêu cực làm suy giảm sức mạnh của bộ máy quản lý. Từ thực trạng đó, lộ trình tin học hóa dữ liệu nhân sự đã được tiến hành theo hướng số hóa hồ sơ nhân sự để xây dựng ứng dụng khai thác dữ liệu nhanh chóng hiệu quả phục vụ cho công tác nghiệp vụ. Trong quá trình quản lý, cập nhật, bổ sung, thay đổi thông tin trong hồ sơ thì dữ liệu được tích lũy đã tăng trưởng ngày càng nhiều, và có thể chứa nhiều thông tin ẩn dạng những quy luật chưa được khám phá. Dữ liệu nhân sự là một cơ sở dữ liệu có nhiều thông tin cần quản lý, với mỗi trường hợp có nhiều thuộc tính (Biểu mẫu C/TCTW-98 hồ sơ cán bộ Bộ nội vụ đã quy định thông tin quản lý gồm 31 thuộc tính) và đặc tính phải phân loại đánh giá một trường hợp dựa trên các thuộc tính. Chính vì vậy, kho dữ liệu nhân sự hình thành đặt ra nhu cầu cần tìm cách trích rút ra các luật trong dữ liệu hay dự đoán những xu hướng mới của dữ liệu tương lai. Yêu cầu phương pháp khai thác kho dữ liệu này một cách khoa học hiệu quả và thuận tiện để có cơ sở thông tin hỗ trợ công tác quản lý nguồn nhân lực, đánh giá một con người cụ thể từ những thông tin đã được lưu trữ. J. Han và M. Kamber [12] đã trình bày quá trình tiến hóa của lĩnh vực công nghệ cơ sở dữ liệu, mà trong đó, công nghệ khai phá dữ liệu (Data Mining) đã trở thành dạng tiến hóa mới của công nghệ cơ sở dữ liệu. Đối với dữ liệu nhân sự, khi cập nhật một hồ sơ nhân sự mới vào cơ sở dữ liệu thì việc phân lớp nhân sự đó một cách tự động thực sự có ý nghĩa hỗ trợ cho việc đánh giá ban đầu. Những nghiên cứu công nghệ thông tin và những sản phẩm phần mềm về - 2 - quản lý nhân sự, quản lý nguồn nhân lực hiện có mới chỉ đạt được mức độ thu thập hồ sơ lý lịch cán bộ và in ra các biểu mẫu báo cáo phục vụ quản lý, chưa có sản phẩm nào áp dụng kỹ thuật để phát hiện những thông tin tiếm ẩn trong dữ liệu nhân sự. Minh chứng cho việc này có thể kể đến một loạt các sản phẩm quản lý hồ sơ nhân sự như chương trình “Quản lý PEMIS “ của dự án SREM hỗ trợ cập nhật, quản lý hồ sơ nhân sự của Ngành giáo dục… Vì vậy, việc nghiên cứu các giải pháp khai thác các thông tin tiềm ẩn trong các kho dữ liệu nhân sự là hết sức cần thiết. Luận văn nghiên cứu tổng quan về đặc tính công nghệ khai phá dữ liệu,các kỹ thuật khai phá dữ liệu (phân cụm, phân lớp ), các phần mềm thông dụng khai phá dữ liệu và giải pháp phân lớp dựa trên cây quyết định. Luận văn đã chạy thực nghiệm trên bộ dữ liệu nhân sự thử nghiệm với dữ liệu đầu vào của bài toán là hồ sơ lý lịch của 4373 nhân sự. Kết quả đầu ra là mô hình phân lớp và đặc tính hỗ trợ của mô hình trong công tác quản lý nguồn nhân lực. Quá trình chạy thử nghiệm đã thu được các mô hình phân lớp trực quan với kết quả khích lệ. Trên cơ sở đó, luận văn đề xuất những cải tiến để hoàn thiện quan điểm quản lý nguồn nhân lực của ngành Giáo dục và cấu trúc tổng thể cho hệ thống ứng dụng quản lý nguồn nhân lực. Bài toán phân lớp dữ liệu nhân sự để hỗ trợ quyết định đánh giá cán bộ nhằm khám phá được những đặc tính ẩn là rất có ý nghĩa. Đây là hướng giải pháp có hiệu quả cho việc phân tích thông tin phục vụ cho công tác đánh giá nhân sự nói riêng và công tác quản lý nguồn nhân lực nói chung. Phạm vi nội dung nghiên cứu của đề tài: Sử dụng phân lớp dữ liệu dựa trên cây quyết định để xây dựng các mô hình phân lớp hỗ trợ việc thực hiện các công việc quản lý nguồn nhân lực. Luận văn gồm có 4 chương chính: Chƣơng 1: Tổng quan Chƣơng 2: P h ư ơ n g p h á p k h a i p h á d ữ l i ệ u. - 3 - Chƣơng 3: Phân lớp dữ liệu sử dụng cây quyết định Chƣơng 4: Thực nghiệm Kết luận: Định hướng phát triển kết quả nghiên cứu. - 4 - CHƢƠNG 1. TỔNG QUAN 1.1. Ý nghĩa Hiện nay, công tác quản lý nguồn nhân lực đang đặt ra nhiều yêu cầu bức thiết. Thực trạng, công tác hoạch định mô hình tổ chức chưa được hình thành, công tác quản lý và hiệu quả đánh giá cán bộ có nhiều vấn đề. Nhu cầu có được một bộ máy tổ chức nhân sự có chuyên môn cao, giàu năng lực để triển khai thực hiện các chương trình hiện đại hóa đang đặt ra. Nguồn nhân lực là một trong những yếu tố quan trọng quyết định sự thành công trong phát triển kinh tế - xã hội của quốc gia, do vậy tất cả các nước trên thế giới đều quan tâm đến phát triển nguồn nhân lực. Hơn lúc nào hết, khi nước ta đã trở thành thành viên WTO, đòi hỏi phải có một nguồn nhân lực chất lượng cao đáp ứng quá trình hội nhập. Kinh nghiệm nhiều nước cho thấy, như Trung Quốc, sau 5 năm gia nhập WTO, kinh tế phát triển gần gấp đôi, nhưng kèm theo đó là việc thiếu nhân lực trầm trọng nhất là nguồn nhân lực có trình độ tay nghề cao[9][12]. Tình trạng này có trầm trọng hay không, có thể vượt qua được hay không là tuỳ thuộc rất nhiều vào việc tìm ra các nguy cơ và khắc phục nó như thế nào của chúng ta?. Do vậy, giải pháp nhằm thực hiện tốt công tác quản lý nguồn nhân lực là xuất phát từ yêu cầu quản lý thông tin cơ bản của hồ sơ cán bộ, việc sử dụng công nghệ thông tin hỗ trợ khai thác dữ liệu phải được khẳng định tính cấp bách, từ đó hình thành cơ sở để xây dựng mô hình tổ chức, tuyển dụng, bố trí, luân chuyển cán bộ hợp lý. Tìm ra giải pháp khắc phục những mặt còn hạn chế, lúng túng trong công tác quản lí cán bộ, giải quyết tốt mối quan hệ giữa tuyển dụng với ổn định và xây dựng đội ngũ cán bộ có chuyên môn cao, vừa đáp ứng yêu cầu, nhiệm vụ công tác, vừa coi trọng mục đích bồi dưỡng, rèn luyện cán bộ, chuẩn bị đội ngũ cán bộ kế cận là vấn đề đang được đặt ra. Việc đánh giá cán bộ chính xác là cơ sở quan trọng đầu tiên để bố trí, sử dụng, bồi dưỡng cán bộ. Tuy nhiên để thực hiện công tác này không phải là một công việc dễ dàng, đơn giản. Hơn nữa, những công chức làm công tác cán bộ có nhiều năm kinh nhiệm nhưng lại có rất ít kiến thức về công nghệ thông tin nên rất khó đưa ra một kiến trúc hợp lý cho công tác cán bộ. Nhu cầu công tác quản lý nguồn nhân lực không ngừng đổi mới do vậy cần tiến hành các nghiên cứu để nâng - 5 - cao chất lượng công tác cán bộ. Quản lý thông tin cán bộ, phát hiện những thông tin tiềm ẩn hỗ trợ công tác quản lý nguồn nhân lực không chỉ là vấn đề bức thiết hiện nay mà còn là vấn đề khó. Luận văn sẽ đề cập chi tiết hơn những yêu cầu đặt ra trong công tác cán bộ quản lý cán bộ được thu thập từ những nghiên cứu thực tế trước đây. Từ đó đề xuất mô hình kiến trúc hệ thống với sự hỗ trợ của công nghệ thông tin. Trong phạm vi của đề tài, luận văn sẽ đề cập tới giải pháp công nghệ, kĩ thuật phục vụ cho việc khai thác thông tin mang tính hỗ trợ cho các chức năng quản lý nguồn nhân lực. 1.2.Các yêu cầu đặt ra trong công tác quản lý nguồn nhân lực 1.2.1 Yêu cầu cụ thể trong việc xác định bài toán Từ các yêu cầu chung hình thành các yêu cầu cụ thể bước đầu: - Hoàn chỉnh bước đầu, lưu trữ đầy đủ thông tin cơ bản của hồ sơ liên quan đến cán bộ: Thông tin cơ bản, thông tin cá nhân, thông tin công việc; - Quản lý tốt nguồn lực: đáp ứng được việc hỗ trợ xây dựng quy trình nhân sự như: tuyển dụng, quy trình đánh giá nguồn nhân lực, đào tạo, giám sát bổ sung biên chế…; - Giám sát và đánh giá được quá trình làm việc của nhân viên; - Giám sát được số liệu cập nhật trong hệ thống (dữ liệu phục vụ nhu cầu tuyển dụng, bố trí cán bộ ); - Cơ sở dữ liệu thiết kế có cấu trúc mở, dễ liên lạc với các hệ thống cơ sở dữ liệu khác liên quan. 1.2.2. Yêu cầu về thông tin quản lý Hồ sơ cán bộ, công chức là tài liệu pháp lý phản ánh các thông tin cơ bản nhất về cán bộ, công chức bao gồm: nguồn gốc xuất thân, quá trình công tác, hoàn cảnh kinh tế, phẩm chất, trình độ, năng lực, các mối quan hệ gia đình và xã hội của cán bộ, công chức[3].Tại Điều 6 và Điều 7 của Quyết định số 14/2006/QĐ-BNV ngày 06/11/2006 của Bộ trưởng Bộ Nội vụ về ban hành quy chế quản lý hồ sơ cán bộ, công chức đã quy định chi tiết thành phần của hồ sơ cán bộ công chức. Thông tin thành phần hồ sơ cán bộ công chức quản lý bao gồm các tài liệu sau[3]: - 6 - 1. Quyển “Lý lịch cán bộ, công chức” là tài liệu chính và bắt buộc có trong thành phần hồ sơ cán bộ, công chức để phản ánh toàn diện về bản thân, các mối quan hệ gia đình, xã hội của cán bộ, công chức. Quyển lý lịch do cán bộ, công chức tự kê khai và được cơ quan có thẩm quyền quản lý cán bộ, công chức thẩm tra, xác minh, chứng nhận. 2. Bản “Sơ yếu lý lịch cán bộ, công chức” là tài liệu quan trọng phản ánh tóm tắt về bản thân cán bộ, công chức và các mối quan hệ gia đình và xã hội của cán bộ, công chức. Sơ yếu lý lịch do cán bộ, công chức quy định tại khoản 1 Điều này và các tài liệu bổ sung khác của cán bộ, công chức được cơ quan có thẩm quyền quản lý cán bộ, công chức xác minh, chứng nhận. 3. Bản “Bổ sung lý lịch cán bộ, công chức” là tài liệu do cán bộ, công chức khai bổ sung theo định kỳ hoặc theo yêu cầu của cơ quan có thẩm quyền quản lý cán bộ, công chức. Bản bổ sung lý lịch được cơ quan có thẩm quyền quản lý cán bộ, công chức thẩm tra, xác minh, chứng nhận. 4. Bản “Tiểu sử tóm tắt” là tài liệu do cơ quan, tổ chức có thẩm quyền quản lý cán bộ, công chức tóm tắt từ Quyển lý lịch của cán bộ, công chức quy định tại khoản 1 Điều này để phục vụ cho bầu cử, bổ nhiệm khi có yêu cầu. 5. Bản sao giấy khai sinh; giấy chứng nhận sức khỏe do đơn vị y tế từ cấp huyện trở lên cấp và các văn bản có liên quan đến nhân thân của cán bộ, công chức; các loại giấy tờ có liên quan đến trình độ đào tạo của cán bộ, công chức như: bảng điểm, văn bằng, chứng chỉ về trình độ đào tạo chuyên môn, lý luận chính trị, ngoại ngữ, tin học, bồi dưỡng nghiệp vụ do cơ quan có thẩm quyền chứng nhận,… Trường hợp, văn bằng chứng chỉ được cấp bằng tiếng nước ngoài phải được dịch sang tiếng Việt Nam theo quy định của pháp luật. 6. Các quyết định về việc tuyển dụng, bổ nhiệm, điều động, biệt phái, luân chuyển, nâng ngạch, nâng lương, khen thưởng, kỷ luật,… của cán bộ, công chức. 7. Các bản tự kiểm điểm, nhận xét đánh giá cán bộ, công chức theo định kỳ hoặc theo yêu cầu của cơ quan, tổ chức, đơn vị có thẩm quyền. 8. Các bản nhận xét đánh giá của cơ quan, tổ chức, đơn vị có thẩm quyền đối với cán bộ, công chức (hằng năm, khi hết nhiệm kỳ, bầu cử hoặc bổ nhiệm, giới thiệu - 7 - ứng cử, thuyên chuyển, khen thưởng, kỷ luật hoặc sau các đợt công tác, tổng kết học tập…). 9. Bản kê khai tài sản theo quy định của pháp luật. 10. Đơn, thư kèm theo các văn bản thẩm tra, xác minh, biên bản, kết luận của cơ quan, tổ chức, đơn vị có thẩm quyền về những vấn đề liên quan đến cán bộ, công chức và gia đình cán bộ, công chức được phản ánh trong đơn thư. Không lưu trong thành phần hồ sơ những đơn, thư nặc danh; đơn, thư chưa được xem xét, kết luận của cơ quan có thẩm quyền. 11. Những văn bản khác có liên quan trực tiếp đến quá trình công tác và quan hệ xã hội của cán bộ, công chức. 12. Đối với cán bộ, công chức được bổ nhiệm giữ chức vụ lãnh đạo phải bổ sung đầy đủ các tài liệu có liên quan đến việc bổ nhiệm vào hồ sơ của cán bộ, công chức đó. Trong 12 tài liệu hồ sơ của cán bộ công chức, tài liệu hay được sử dụng nhất để đánh giá là sơ yếu lích lịch cán bộ công chức. Sơ yếu lí lịch là bản tóm lược các thông tin cơ bản nhất của công chức phản ánh trong hồ sơ. Thực hiệc việc triển khai theo yêu cầu định hướng này, trong năm 2008 Bộ Giáo dục và Đào tạo đã tiến hành triển khai phần mềm cập nhật phiếu điều tra cán bộ công chức, sơ yếu lí lịch cán bộ công chức. Kết quả triển khai tập hợp được dữ liệu sơ yếu lí lịch cán bộ công chức ngành Giáo dục (thời điểm năm 2008). Ứng dụng xây dựng chạy trên nền “SQL Server 2005” , bước đầu khai thác các báo cáo thống kê theo mẫu báo cáo Bộ Nội vụ quy định. 1.2.3. Thực trạng dữ liệu, đề xuất yêu cầu cần đạt đƣợc và kiến trúc của hệ thống a)Dữ liệu hiện có Cơ sở dữ liệu nhân sự được tập hợp các thông tin cá nhân của một cán bộ công chức. Đây là Cơ sở dữ liệu nhân sự thử nghiệm, tập hợp lưu trữ hồ sơ lý lịch của cán bộ, công chức. Bảng hồ sơ lý lịch được lưu trữ trong bảng chính. Bảng dữ liệu này bao gồm các thông tin được nêu trong hồ sơ biểu mẫu hồ sơ lí lịch 2C/TCTW-98 của Bộ Nội vụ, sau đó được bổ sung thêm một số thông tin theo yêu - 8 - cầu quản lý riêng của ngành Giáo dục gọi là Hồ sơ cán bộ. Thông tin được lưu trữ trên bảng dữ liệu chính nhân viên với khóa chính của bảng là số thự tự được xem như là mã hồ sơ để đảm bảo sự phân biệt giữa các hồ sơ với nhau và bảng này sử dụng khóa để tham chiếu đến các bảng dữ liệu tham chiếu quản lý thông tin khác về quá trình đào tạo, lý lịch… Chi tiết xin mô tả như sau: * Các thông tin quản lý trên bảng dữ liệu chính:: 1.Các thông tin cơ bản 2.Quá trình tham gia các đoàn thể 3.Các thông tin khác : hoàn cảnh kinh tế gia đình 4.Đặc điểm lịch sử bản thân 5.Công việc đảm nhận 6.Chức vụ đảng * Các thông tin tham chiếu: 1.Quá trình công tác 2.Quá trình tham gia đảng 3.Quá trình lương 4.Quá trình phụ cấp: phụ cấp chức vụ, phụ cấp khác 5.Quá trình đào tạo: đào tạo về chuyên môn, Chứng chỉ bồi dưỡng nghiệp vụ, Lý luận chính trị quản lý nhà nước, quản lý kinh tế, tin học ngoại ngữ. 6.Danh hiệu học hàm 7.Quá trình khen thưởng 8.Quá trình kỷ luật 9.Quan hệ gia đình: Bên vợ, bên chồng, anh chị em ruột 10.Chức vụ đảng 11.Đi công tác nước ngoài 12.Kết quả đánh giá hàng năm 13.Quan hệ với tổ chức nước ngoài - 9 - b)Vấn đề khai thác dữ liệu này Hệ thống quản trị cơ sở dữ liệu quan hệ (Relational Database Management System - RDBMS) Microsoft SQL Server quản lý các bảng dữ liệu này và quan hệ của chúng. Chính Hệ thống quản trị cơ sở dữ liệu này đã tạo điều kiện thuận lợi để phát triển những phần mềm ứng dụng có những chức năng liên quan đến dữ liệu phục vụ các yêu cầu quản lý. Một các cụ thể hơn, Dữ liệu dạng "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất thấp. Ví dụ dữ liệu của RDBMS được lưu giữ trong các trường dạng số - number, chữ - text, thời gian – date/time. Muốn chuyển các dữ liệu này thành dạng có ý nghĩa sử dụng hơn đối với người dùng , cần tiếp tục phân tích và lập báo cáo. Tính năng tiện ích hướng tới xây dựng khai thác hiện tại từ cơ sở dữ liệu nhân sự này: - Quản lý được thông tin cơ bản của cá nhân để tổng hợp việc phân tích số liệu như số lượng đội ngũ con người, giới tính, độ tuổi, nơi sinh, quê quán, nơi ở hiện tại, gia đình xuất thân, dân tộc, tôn giáo, danh hiệu Nhà nước phong, diện hưởng chính sách… - Về quá trình đào tạo phân tích chất lượng cán bộ công chức hiện có;nhu cầu đào tạo thời gian tiếp theo; quá trình phấn đấu nâng cao trình độ cán bộ công chức; bố trí sử dụng cán bộ công chức đúng trình độ đào tạo. - Quá trình công tác, ghi nhận kinh nghiệm cá nhân trong các lĩnh vực trước và sau khi tuyển dụng. - Quản lý diễn biến lương, theo dõi việc thực hiện chính sách tiền lương. - Về công tác Đảng, phục vụ yêu cầu báo cáo cấp trên và bố trí sử dụng. Về khen thưởng kỷ luật, sử dụng trong đánh giá và khi bố trí sử dụng nhân lực cán bộ. - Đ ánh giá cán bộ công chức viên chức cần thiết để thực hiện quy chế đ ánh giá cán bộ công chức viên chức hàng năm theo quyết đ ịnh số 11/1998/QĐ-TCCP-CCVC ngày 05/12/1998 của Ban Tổ chức Cán bộ Chính phủ này là Bộ Nội vụ và thực hiện đánh giá và ghi nhận các ý kiến đánh giá cán bộ công chức viên chức tại từng thời điểm theo yêu cầu. - Về quan hệ gia đình, bố trí và sử dụng đặc biệt lưu ý đến truyền thống gia đình. - Về sức khoẻ, cần thiết khi bố trí công tác nhất là các ngành đặc biệt liên quan đến - 10 - điều kiện sức khoẻ. Với một dữ liệu triển khai lưu trữ hồ sơ lý lịch chưa được chuẩn hóa để nâng cao hiệu quả khai thác thì việc nghiên cứu của luận văn đề ra phương pháp khai thác theo hướng mô hình hóa thông tin liên quan đến dữ liệu và định hướng chi tiết yêu cầu của từng thông tin trong dữ liệu được lưu trữ là một giải pháp tích cực phục vụ tốt hơn công tác. Tiếp theo Luận văn đề xuất một kiến trúc tổng thể phù hợp mang tính khả thi cho hệ thống quản lý nguồn nhân lực trong tương lai[2][4]. c)Kiến trúc tổng thể của hệ thống Hình 1.3 Đề xuất kiến trúc tổng thể của hệ thống quản lý nhân sự Từ các yêu cầu chung, yêu cầu cụ thể và các thông tin cần quản lý và đề xuất từ thực trạng dữ liệu nhân sự hiện có hình thành một kiến trúc tổng thể của Hệ thống quản lý nhân sự . Các ô hình chữ nhật nhỏ như phân tích công việc, mô tả công việc là các chức năng của hệ thống. Hệ quản trị cơ sở dữ liệu SQL Server là nơi quản lý, lưu trữ cơ sở dữ liệu nhân sự, bao gồm hồ sơ lý lịch, bảo hiểm, thông tin công việc…. Khai thác thông tin từ cơ sở dữ liệu nhân sự là thông tin đầu vào cho các chức năng của hệ thống. PHẦN MỀM KHAI THÁC THÔNG TIN [...]... tri thức từ dữ liệu trong các cơ sở dữ liệu khổng lồ Song so với các phương pháp khác, khai phá dữ liệu có một số ưu thế rõ rệt[4][5] 2.1.2 Ƣu thế khai phá dữ liệu Khai phá dữ liệu có nhiều ứng dụng và một số ưu thế rõ rệt được xem xét dưới đây: + So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các cơ sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy... tập dữ liệu ban đầu 2.4 Kết luận chƣơng 2 Chương 2 nghiên cứu các phương pháp khai phá dữ liệu và kỹ thuật phân lớp dữ liệu Luận văn tiếp cận một cách tổng quan bài toán phân lớp đi vào những đánh giá của thuật toán phân lớp nhằm tìm ra các giải pháp để giải quyết bài toán quản lí cán bộ Bước đầu định hướng phát triển cho luận văn trong khai phá dữ liệu nhân sự - 25 - CHƢƠNG 3 PHÂN LỚP DỮ LIỆU SỬ DỤNG... Luận văn: Vấn đề đặt ra, làm thế nào hình thành thông tin đầu vào cho từng chức năng, muốn hình thành thông tin đầu vào thông tin chức năng thì cần phải khai thác dữ liệu nhân sự từ bảng dữ liệu chính cho hợp lý, khoa học đáp ứng đầy đủ yêu cầu chức năng Cụ thể hơn công cụ nào có thể truy vấn vào cơ sở dữ liệu để lấy thông tin, công nghệ nào phát hiện dữ liệu tiềm ẩn và kỹ thuật nào thích hợp với khai. .. cơ sở dữ liệu, kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ cơ sở dữ liệu (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/ mẫu (data/pattern analysis),… Nhiều người xem khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong cơ sở dữ liệu. .. thường xuyên thay đổi, tăng trưởng của dữ liệu Tìm kiếm những thông tin tiềm ẩn trong dữ liệu mà bằng phương pháp khác không phát hiện được[4][5] 2.2 Các kỹ thuật khai phá dữ liệu Các kĩ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính: - Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có Các kĩ thuật này có thể... lựa và kết quả thu được mà các báo cáo thống kê từ chương trình không có được Với yêu cầu đặt ra như vậy, luận văn tiếp theo sẽ nghiên cứu công nghệ, kỹ thuật và công cụ phục vụ yêu cầu - 12 - CHƢƠNG 2 PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 2.1 Khai phá dữ liệu 2.1.1 Khái niệm Khai phá dữ liệu được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong. .. những lớp dữ liệu huấn luyện có sẵn Ví dụ như lựa chọn cán bộ đi đào tạo lớp quản lý nhà nước thì đã có tiêu chuẩn đính kèm, căn cứ vào các tiêu chuẩn này ta dùng phương pháp thống kê truy vấn vào dữ liệu ta đã có tập dữ liệu đầu đủ đáp ứng tiêu chuẩn Vấn đề còn lại là xem xét thông tin tiềm ẩn trong dữ liệu đó để dự đoán các mẫu dữ liệu mới Hơn nữa, dự đoán trong dữ liệu nhân sự là trường dữ liệu có... trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác[1][2][4] Khai phá luật kết hợp: mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu. .. (visualization), phân tích sự phá hiện biến đổi và độ lệch, phân tích luật kết hợp (association rules) ; - Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Các kĩ thuật này gồm có: phân lớp (classification), hồi quy (regression) [1][2]; Một số phương pháp thông dụng nhất trong khai phá dữ liệu là: phân cụm dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp…... ngẫu nhiên tập dữ liệu ban đầu Trong phương pháp holdout, dữ liệu đưa ra được phân chia ngẫu nhiên thành 2 phần là: tập dữ liệu đào tạo và tập dữ liệu kiểm tra Thông thường 2/3 dữ - 24 - liệu cấp cho tập dữ liệu đào tạo, phần còn lại cho tập dữ liệu kiểm tra[12] Hình 3.5 Ước lượng độ chính xác của mô hình phân lớp với phương pháp holdout Trong phương pháp k-fold cross validation tập dữ liệu ban đầu . thiết. Luận văn nghiên cứu tổng quan về đặc tính công nghệ khai phá dữ liệu, các kỹ thuật khai phá dữ liệu (phân cụm, phân lớp ), các phần mềm thông dụng khai phá dữ liệu và giải pháp phân. vậy, luận văn tiếp theo sẽ nghiên cứu công nghệ, kỹ thuật và công cụ phục vụ yêu cầu. - 12 - CHƢƠNG 2. PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 2.1. Khai phá dữ liệu 2.1.1. Khái niệm Khai phá dữ liệu. phương pháp thông dụng nhất trong khai phá dữ liệu là: phân cụm dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp… Ta sẽ xem xét từng phương pháp: Phân cụm dữ liệu: Mục tiêu chính của phương pháp

Ngày đăng: 06/10/2014, 13:15

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan