Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu và ứng dụng trong quản lí cán bộ

Dữ liệu nhân sự là một cơ sở dữ liệu có nhiều thông tin cần quản lý, với mỗi trường hợp có nhiều thuộc tính Biểu mẫu C/TCTW-98 hồ sơ cán bộ Bộ nội vụ đã quy định thông tin quản lý gồm 31

Trang 1

MỞ ĐẦU

Quản lý cán bộ là mảng công tác quan trọng phối hợp một cách tổng thể các hoạt động hoạch định, tuyển dụng, tuyển chọn, duy trì, phát triển, động viên và tạo điều kiện thuận lợi cho nguồn nhân sự trong tổ chức, nhằm đạt được mục tiêu chiến lược và định hướng phát triển của một tổ chức Một số công tác cán bộ điển hình là tuyển dụng, tổ chức, sắp xếp cán bộ, đánh giá cán bộ, quy hoạch cán bộ, lựa chọn cán bộ, bồi dưỡng quản lý, hoạch định mô hình tổ chức… [4], trong đó, công tác đánh giá hồ sơ tuyển dụng cán bộ là công tác đầu tiên quan trọng xuyên xuốt trong qua trình công tác của cán bộ Chỉ khi có đánh giá đúng cán bộ thì mới

có thể sắp xếp đúng và người cán bộ có điều kiện phát huy được hết khả năng

Về phía người quản lý cán bộ thì họ cần đưa ra những quyết định đúng: lựa chọn đúng để tuyển dụng, đào tạo, để đề bạt, bổ nhiệm… Công tác quản lý hồ sơ cán bộ phổ biến là quản lý theo mô hình thủ công; đánh giá cán bộ dựa vào cảm tính và

tự đánh giá của cá nhân để xem xét nên phát sinh nhiều tiêu cực làm suy giảm sức mạnh của bộ máy quản lý Từ thực trạng đó, lộ trình tin học hóa dữ liệu nhân

sự đã được tiến hành theo hướng số hóa hồ sơ nhân sự để xây dựng ứng dụng khai thác dữ liệu nhanh chóng hiệu quả phục vụ cho công tác nghiệp vụ

Trong quá trình quản lý, cập nhật, bổ sung, thay đổi thông tin trong hồ sơ thì

dữ liệu được tích lũy đã tăng trưởng ngày càng nhiều, và có thể chứa nhiều thông tin ẩn dạng những quy luật chưa được khám phá Dữ liệu nhân sự là một

cơ sở dữ liệu có nhiều thông tin cần quản lý, với mỗi trường hợp có nhiều thuộc tính (Biểu mẫu C/TCTW-98 hồ sơ cán bộ Bộ nội vụ đã quy định thông tin quản lý gồm 31 thuộc tính) và đặc tính phải phân loại đánh giá một trường hợp dựa trên các thuộc tính Chính vì vậy, kho dữ liệu nhân sự hình thành đặt ra nhu cầu cần tìm cách trích rút ra các luật trong dữ liệu hay dự đoán những xu hướng mới của

dữ liệu tương lai Yêu cầu phương pháp khai thác kho dữ liệu này một cách khoa học hiệu quả và thuận tiện để có cơ sở thông tin hỗ trợ công tác quản lý nguồn nhân lực, đánh giá một con người cụ thể từ những thông tin đã được lưu trữ

J Han và M Kamber [12] đã trình bày quá trình tiến hóa của lĩnh vực công nghệ cơ sở dữ liệu, mà trong đó, công nghệ khai phá dữ liệu (Data Mining) đã trở thành dạng tiến hóa mới của công nghệ cơ sở dữ liệu Đối với dữ liệu nhân

sự, khi cập nhật một hồ sơ nhân sự mới vào cơ sở dữ liệu thì việc phân lớp nhân sự đó một cách tự động thực sự có ý nghĩa hỗ trợ cho việc đánh giá ban đầu Những nghiên cứu công nghệ thông tin và những sản phẩm phần mềm về

Trang 2

quản lý nhân sự, quản lý nguồn nhân lực hiện có mới chỉ đạt được mức độ thu thập hồ sơ lý lịch cán bộ và in ra các biểu mẫu báo cáo phục vụ quản lý, chưa có sản phẩm nào áp dụng kỹ thuật để phát hiện những thông tin tiếm ẩn trong dữ liệu nhân sự Minh chứng cho việc này có thể kể đến một loạt các sản phẩm quản

lý hồ sơ nhân sự như chương trình “Quản lý PEMIS “ của dự án SREM hỗ trợ cập nhật, quản lý hồ sơ nhân sự của Ngành giáo dục… Vì vậy, việc nghiên cứu các giải pháp khai thác các thông tin tiềm ẩn trong các kho dữ liệu nhân sự là hết sức cần thiết

Luận văn nghiên cứu tổng quan về đặc tính công nghệ khai phá dữ liệu,các

kỹ thuật khai phá dữ liệu (phân cụm, phân lớp ), các phần mềm thông dụng khai phá dữ liệu và giải pháp phân lớp dựa trên cây quyết định

Luận văn đã chạy thực nghiệm trên bộ dữ liệu nhân sự thử nghiệm với dữ liệu đầu vào của bài toán là hồ sơ lý lịch của 4373 nhân sự Kết quả đầu ra là

mô hình phân lớp và đặc tính hỗ trợ của mô hình trong công tác quản lý nguồn nhân lực Quá trình chạy thử nghiệm đã thu được các mô hình phân lớp trực quan với kết quả khích lệ Trên cơ sở đó, luận văn đề xuất những cải tiến để hoàn thiện quan điểm quản lý nguồn nhân lực của ngành Giáo dục và cấu trúc tổng thể cho

hệ thống ứng dụng quản lý nguồn nhân lực

Bài toán phân lớp dữ liệu nhân sự để hỗ trợ quyết định đánh giá cán bộ nhằm khám phá được những đặc tính ẩn là rất có ý nghĩa Đây là hướng giải pháp có hiệu quả cho việc phân tích thông tin phục vụ cho công tác đánh giá nhân sự nói riêng và công tác quản lý nguồn nhân lực nói chung Phạm vi nội dung nghiên cứu của đề tài: Sử dụng phân lớp dữ liệu dựa trên cây quyết định để xây dựng các mô hình phân lớp hỗ trợ việc thực hiện các công việc quản lý nguồn nhân lực

Luận văn gồm có 4 chương chính:

Chương 1: Tổng quan

Chương 2: P h ư ơ n g p h á p k h a i p h á d ữ l i ệ u

Trang 3

Chương 3: Phân lớp dữ liệu sử dụng cây quyết định Chương 4: Thực nghiệm

Kết luận: Định hướng phát triển kết quả nghiên cứu

Trang 4

CHƯƠNG 1 TỔNG QUAN 1.1 Ý nghĩa

Hiện nay, công tác quản lý nguồn nhân lực đang đặt ra nhiều yêu cầu bức thiết Thực trạng, công tác hoạch định mô hình tổ chức chưa được hình thành, công tác quản lý và hiệu quả đánh giá cán bộ có nhiều vấn đề Nhu cầu có được một bộ máy tổ chức nhân sự có chuyên môn cao, giàu năng lực để triển khai thực hiện các chương trình hiện đại hóa đang đặt ra Nguồn nhân lực là một trong những yếu tố quan trọng quyết định sự thành công trong phát triển kinh tế - xã hội của quốc gia,

do vậy tất cả các nước trên thế giới đều quan tâm đến phát triển nguồn nhân lực Hơn lúc nào hết, khi nước ta đã trở thành thành viên WTO, đòi hỏi phải có một nguồn nhân lực chất lượng cao đáp ứng quá trình hội nhập Kinh nghiệm nhiều nước cho thấy, như Trung Quốc, sau 5 năm gia nhập WTO, kinh tế phát triển gần gấp đôi, nhưng kèm theo đó là việc thiếu nhân lực trầm trọng nhất là nguồn nhân lực có trình độ tay nghề cao[9][12] Tình trạng này có trầm trọng hay không, có thể vượt qua được hay không là tuỳ thuộc rất nhiều vào việc tìm ra các nguy cơ và khắc phục nó như thế nào của chúng ta? Do vậy, giải pháp nhằm thực hiện tốt công tác quản lý nguồn nhân lực là xuất phát từ yêu cầu quản lý thông tin cơ bản của hồ sơ cán bộ, việc sử dụng công nghệ thông tin hỗ trợ khai thác dữ liệu phải được khẳng định tính cấp bách, từ đó hình thành cơ sở để xây dựng mô hình tổ chức, tuyển dụng, bố trí, luân chuyển cán bộ hợp lý Tìm ra giải pháp khắc phục những mặt còn hạn chế, lúng túng trong công tác quản lí cán bộ, giải quyết tốt mối quan hệ giữa tuyển dụng với ổn định và xây dựng đội ngũ cán bộ có chuyên môn cao, vừa đáp ứng yêu cầu, nhiệm vụ công tác, vừa coi trọng mục đích bồi dưỡng, rèn luyện cán

bộ, chuẩn bị đội ngũ cán bộ kế cận là vấn đề đang được đặt ra

Việc đánh giá cán bộ chính xác là cơ sở quan trọng đầu tiên để bố trí, sử dụng, bồi dưỡng cán bộ Tuy nhiên để thực hiện công tác này không phải là một công việc dễ dàng, đơn giản Hơn nữa, những công chức làm công tác cán bộ có nhiều năm kinh nhiệm nhưng lại có rất ít kiến thức về công nghệ thông tin nên rất khó đưa ra một kiến trúc hợp lý cho công tác cán bộ Nhu cầu công tác quản lý nguồn nhân lực không ngừng đổi mới do vậy cần tiến hành các nghiên cứu để nâng

Trang 5

cao chất lượng công tác cán bộ

Quản lý thông tin cán bộ, phát hiện những thông tin tiềm ẩn hỗ trợ công tác quản lý nguồn nhân lực không chỉ là vấn đề bức thiết hiện nay mà còn là vấn đề khó Luận văn sẽ đề cập chi tiết hơn những yêu cầu đặt ra trong công tác cán bộ quản lý cán bộ được thu thập từ những nghiên cứu thực tế trước đây Từ đó đề xuất

mô hình kiến trúc hệ thống với sự hỗ trợ của công nghệ thông tin Trong phạm vi của đề tài, luận văn sẽ đề cập tới giải pháp công nghệ, kĩ thuật phục vụ cho việc khai thác thông tin mang tính hỗ trợ cho các chức năng quản lý nguồn nhân lực

1.2.Các yêu cầu đặt ra trong công tác quản lý nguồn nhân lực

1.2.1 Yêu cầu cụ thể trong việc xác định bài toán

Từ các yêu cầu chung hình thành các yêu cầu cụ thể bước đầu:

- Hoàn chỉnh bước đầu, lưu trữ đầy đủ thông tin cơ bản của hồ sơ liên quan đến cán bộ: Thông tin cơ bản, thông tin cá nhân, thông tin công việc;

- Quản lý tốt nguồn lực: đáp ứng được việc hỗ trợ xây dựng quy trình nhân sự như: tuyển dụng, quy trình đánh giá nguồn nhân lực, đào tạo, giám sát bổ sung biên chế…;

- Giám sát và đánh giá được quá trình làm việc của nhân viên;

- Giám sát được số liệu cập nhật trong hệ thống (dữ liệu phục vụ nhu cầu tuyển dụng, bố trí cán bộ );

- Cơ sở dữ liệu thiết kế có cấu trúc mở, dễ liên lạc với các hệ thống cơ sở dữ liệu khác liên quan

1.2.2 Yêu cầu về thông tin quản lý

Hồ sơ cán bộ, công chức là tài liệu pháp lý phản ánh các thông tin cơ bản nhất về cán bộ, công chức bao gồm: nguồn gốc xuất thân, quá trình công tác, hoàn cảnh kinh tế, phẩm chất, trình độ, năng lực, các mối quan hệ gia đình và xã hội của cán bộ, công chức[3].Tại Điều 6 và Điều 7 của Quyết định số 14/2006/QĐ-BNV ngày 06/11/2006 của Bộ trưởng Bộ Nội vụ về ban hành quy chế quản lý hồ sơ cán

bộ, công chức đã quy định chi tiết thành phần của hồ sơ cán bộ công chức Thông tin thành phần hồ sơ cán bộ công chức quản lý bao gồm các tài liệu sau[3]:

Trang 6

1 Quyển “Lý lịch cán bộ, công chức” là tài liệu chính và bắt buộc có trong thành

phần hồ sơ cán bộ, công chức để phản ánh toàn diện về bản thân, các mối quan hệ gia đình, xã hội của cán bộ, công chức Quyển lý lịch do cán bộ, công chức tự kê khai và được cơ quan có thẩm quyền quản lý cán bộ, công chức thẩm tra, xác minh, chứng nhận

2 Bản “Sơ yếu lý lịch cán bộ, công chức” là tài liệu quan trọng phản ánh tóm tắt

về bản thân cán bộ, công chức và các mối quan hệ gia đình và xã hội của cán bộ, công chức Sơ yếu lý lịch do cán bộ, công chức quy định tại khoản 1 Điều này và các tài liệu bổ sung khác của cán bộ, công chức được cơ quan có thẩm quyền quản

lý cán bộ, công chức xác minh, chứng nhận

3 Bản “Bổ sung lý lịch cán bộ, công chức” là tài liệu do cán bộ, công chức khai

bổ sung theo định kỳ hoặc theo yêu cầu của cơ quan có thẩm quyền quản lý cán bộ, công chức Bản bổ sung lý lịch được cơ quan có thẩm quyền quản lý cán bộ, công chức thẩm tra, xác minh, chứng nhận

4 Bản “Tiểu sử tóm tắt” là tài liệu do cơ quan, tổ chức có thẩm quyền quản lý cán

bộ, công chức tóm tắt từ Quyển lý lịch của cán bộ, công chức quy định tại khoản 1 Điều này để phục vụ cho bầu cử, bổ nhiệm khi có yêu cầu

5 Bản sao giấy khai sinh; giấy chứng nhận sức khỏe do đơn vị y tế từ cấp huyện trở lên cấp và các văn bản có liên quan đến nhân thân của cán bộ, công chức; các loại giấy tờ có liên quan đến trình độ đào tạo của cán bộ, công chức như: bảng điểm, văn bằng, chứng chỉ về trình độ đào tạo chuyên môn, lý luận chính trị, ngoại ngữ, tin học, bồi dưỡng nghiệp vụ do cơ quan có thẩm quyền chứng nhận,… Trường hợp, văn bằng chứng chỉ được cấp bằng tiếng nước ngoài phải được dịch sang tiếng Việt Nam theo quy định của pháp luật

6 Các quyết định về việc tuyển dụng, bổ nhiệm, điều động, biệt phái, luân chuyển, nâng ngạch, nâng lương, khen thưởng, kỷ luật,… của cán bộ, công chức

7 Các bản tự kiểm điểm, nhận xét đánh giá cán bộ, công chức theo định kỳ hoặc theo yêu cầu của cơ quan, tổ chức, đơn vị có thẩm quyền

8 Các bản nhận xét đánh giá của cơ quan, tổ chức, đơn vị có thẩm quyền đối với cán bộ, công chức (hằng năm, khi hết nhiệm kỳ, bầu cử hoặc bổ nhiệm, giới thiệu

Trang 7

ứng cử, thuyên chuyển, khen thưởng, kỷ luật hoặc sau các đợt công tác, tổng kết học tập…)

9 Bản kê khai tài sản theo quy định của pháp luật

10 Đơn, thư kèm theo các văn bản thẩm tra, xác minh, biên bản, kết luận của cơ quan, tổ chức, đơn vị có thẩm quyền về những vấn đề liên quan đến cán bộ, công chức và gia đình cán bộ, công chức được phản ánh trong đơn thư Không lưu trong thành phần hồ sơ những đơn, thư nặc danh; đơn, thư chưa được xem xét, kết luận của cơ quan có thẩm quyền

11 Những văn bản khác có liên quan trực tiếp đến quá trình công tác và quan hệ xã hội của cán bộ, công chức

12 Đối với cán bộ, công chức được bổ nhiệm giữ chức vụ lãnh đạo phải bổ sung đầy đủ các tài liệu có liên quan đến việc bổ nhiệm vào hồ sơ của cán bộ, công chức

đó

Trong 12 tài liệu hồ sơ của cán bộ công chức, tài liệu hay được sử dụng nhất

để đánh giá là sơ yếu lích lịch cán bộ công chức Sơ yếu lí lịch là bản tóm lược các thông tin cơ bản nhất của công chức phản ánh trong hồ sơ Thực hiệc việc triển khai theo yêu cầu định hướng này, trong năm 2008 Bộ Giáo dục và Đào tạo đã tiến hành triển khai phần mềm cập nhật phiếu điều tra cán bộ công chức, sơ yếu lí lịch cán bộ công chức

Kết quả triển khai tập hợp được dữ liệu sơ yếu lí lịch cán bộ công chức ngành Giáo dục (thời điểm năm 2008) Ứng dụng xây dựng chạy trên nền “SQL Server 2005” , bước đầu khai thác các báo cáo thống kê theo mẫu báo cáo Bộ Nội vụ quy định

1.2.3 Thực trạng dữ liệu, đề xuất yêu cầu cần đạt đƣợc và kiến trúc của hệ thống

a)Dữ liệu hiện có

Cơ sở dữ liệu nhân sự được tập hợp các thông tin cá nhân của một cán bộ công chức Đây là Cơ sở dữ liệu nhân sự thử nghiệm, tập hợp lưu trữ hồ sơ lý lịch của cán bộ, công chức Bảng hồ sơ lý lịch được lưu trữ trong bảng chính Bảng dữ liệu này bao gồm các thông tin được nêu trong hồ sơ biểu mẫu hồ sơ lí lịch 2C/TCTW-98 của Bộ Nội vụ, sau đó được bổ sung thêm một số thông tin theo yêu

Trang 8

cầu quản lý riêng của ngành Giáo dục gọi là Hồ sơ cán bộ Thông tin được lưu trữ trên bảng dữ liệu chính nhân viên với khóa chính của bảng là số thự tự được xem như là mã hồ sơ để đảm bảo sự phân biệt giữa các hồ sơ với nhau và bảng này sử dụng khóa để tham chiếu đến các bảng dữ liệu tham chiếu quản lý thông tin khác về quá trình đào tạo, lý lịch…

Chi tiết xin mô tả như sau:

* Các thông tin quản lý trên bảng dữ liệu chính::

1.Các thông tin cơ bản

2.Quá trình tham gia các đoàn thể

3.Các thông tin khác : hoàn cảnh kinh tế gia đình

11.Đi công tác nước ngoài

12.Kết quả đánh giá hàng năm

13.Quan hệ với tổ chức nước ngoài

Trang 9

b)Vấn đề khai thác dữ liệu này

Hệ thống quản trị cơ sở dữ liệu quan hệ (Relational Database Management System - RDBMS) Microsoft SQL Server quản lý các bảng dữ liệu này và quan hệ của chúng Chính Hệ thống quản trị cơ sở dữ liệu này đã tạo điều kiện thuận lợi để phát triển những phần mềm ứng dụng có những chức năng liên quan đến dữ liệu

phục vụ các yêu cầu quản lý Một các cụ thể hơn, Dữ liệu dạng "thô", có nghĩa là

mức độ tổng quát, trừu tượng của dữ liệu này rất thấp Ví dụ dữ liệu của RDBMS được lưu giữ trong các trường dạng số - number, chữ - text, thời gian – date/time Muốn chuyển các dữ liệu này thành dạng có ý nghĩa sử dụng hơn đối với người dùng , cần tiếp tục phân tích và lập báo cáo Tính năng tiện ích hướng tới xây dựng khai thác hiện tại từ cơ sở dữ liệu nhân sự này:

- Quản lý được thông tin cơ bản của cá nhân để tổng hợp việc phân tích số liệu như

số lượng đội ngũ con người, giới tính, độ tuổi, nơi sinh, quê quán, nơi ở hiện tại, gia đình xuất thân, dân tộc, tôn giáo, danh hiệu Nhà nước phong, diện hưởng chính sách…

- Về quá trình đào tạo phân tích chất lượng cán bộ công chức hiện có;nhu cầu đào tạo thời gian tiếp theo; quá trình phấn đấu nâng cao trình độ cán bộ công chức; bố trí

sử dụng cán bộ công chức đúng trình độ đào tạo

- Quá trình công tác, ghi nhận kinh nghiệm cá nhân trong các lĩnh vực trước và sau khi tuyển dụng

- Quản lý diễn biến lương, theo dõi việc thực hiện chính sách tiền lương

- Về công tác Đảng, phục vụ yêu cầu báo cáo cấp trên và bố trí sử dụng Về khen thưởng kỷ luật, sử dụng trong đánh giá và khi bố trí sử dụng nhân lực cán bộ

- Đánh giá cán bộ công chức viên chức cần thiết để thực hiện quy chế đánh giá cán

bộ công chức viên chức hàng năm theo quyết định số 11/1998/QĐ-TCCP-CCVC ngày 05/12/1998 của Ban Tổ chức Cán bộ Chính phủ này là Bộ Nội vụ và thực hiện đánh giá và ghi nhận các ý kiến đánh giá cán bộ công chức viên chức tại từng thời điểm theo yêu cầu

- Về quan hệ gia đình, bố trí và sử dụng đặc biệt lưu ý đến truyền thống gia đình

- Về sức khoẻ, cần thiết khi bố trí công tác nhất là các ngành đặc biệt liên quan đến

Trang 10

điều kiện sức khoẻ

Với một dữ liệu triển khai lưu trữ hồ sơ lý lịch chưa được chuẩn hóa để nâng cao

hiệu quả khai thác thì việc nghiên cứu của luận văn đề ra phương pháp khai thác theo

hướng mô hình hóa thông tin liên quan đến dữ liệu và định hướng chi tiết yêu cầu

của từng thông tin trong dữ liệu được lưu trữ là một giải pháp tích cực phục vụ tốt

hơn công tác Tiếp theo Luận văn đề xuất một kiến trúc tổng thể phù hợp mang tính

khả thi cho hệ thống quản lý nguồn nhân lực trong tương lai[2][4]

c)Kiến trúc tổng thể của hệ thống

Hình 1.3 Đề xuất kiến trúc tổng thể của hệ thống quản lý nhân sự

Từ các yêu cầu chung, yêu cầu cụ thể và các thông tin cần quản lý và đề xuất

từ thực trạng dữ liệu nhân sự hiện có hình thành một kiến trúc tổng thể của Hệ

thống quản lý nhân sự Các ô hình chữ nhật nhỏ như phân tích công việc, mô tả

công việc là các chức năng của hệ thống Hệ quản trị cơ sở dữ liệu SQL Server là

nơi quản lý, lưu trữ cơ sở dữ liệu nhân sự, bao gồm hồ sơ lý lịch, bảo hiểm, thông

tin công việc… Khai thác thông tin từ cơ sở dữ liệu nhân sự là thông tin đầu vào

cho các chức năng của hệ thống

PHẦN MỀM KHAI THÁC THÔNG TIN

Trang 11

d)Mục tiêu của Luận văn:

Vấn đề đặt ra, làm thế nào hình thành thông tin đầu vào cho từng chức năng, muốn hình thành thông tin đầu vào thông tin chức năng thì cần phải khai thác dữ liệu nhân sự từ bảng dữ liệu chính cho hợp lý, khoa học đáp ứng đầy đủ yêu cầu chức năng Cụ thể hơn công cụ nào có thể truy vấn vào cơ sở dữ liệu để lấy thông tin, công nghệ nào phát hiện dữ liệu tiềm ẩn và kỹ thuật nào thích hợp với khai thác

dữ liệu Tìm được công nghệ, kỹ thuật khai thác rồi thì công cụ hỗ trợ nào sẽ phù hợp cho sự triển khai áp dụng Mục tiêu của luận văn là xây dựng công cụ sử dụng

dữ liệu nhân sự hiện có để đánh giá các hồ sơ nhân sự mới nhằm giải quyết bài toán quản lí cán bộ

1.3 Kết luận chương 1

Chương 1 là chương Tổng quan đã trình bày những lý do hình thành hướng nghiên cứu qua việc nghiên cứu thực tế các yêu cầu đề ra kiến trúc của mô hình sử dụng

Chi tiết các yêu cầu đưa ra hoàn chỉnh bước đầu, lưu trữ đầy đủ thông tin cơ bản của hồ sơ liên quan đến cán bộ và cơ sở dữ liệu thiết kế có cấu trúc mở, dễ liên lạc với các hệ thống cơ sở dữ liệu khác liên quan đã được thực hiện bằng việc triển khai cơ sở dữ liệu và phần mềm quản lý cán bộ theo đề án của Bộ Nội vụ và hướng dẫn tuyển dụng công chức 2012-2013 của Sở Giáo Dục và Đào Tạo Đồng Nai Yêu cầu đặt ra nghiên cứu trong luận văn là quản lý được nguồn lực trong việc đáp ứng được hỗ trợ xây dựng quy trình nhân sự như: tuyển dụng, quy trình đánh giá nguồn nhân lực, đào tạo, giám sát bổ sung biên chế…, giám sát được quá trình làm việc của nhân viên, giám sát số liệu cập nhật trong hệ thống (dữ liệu luân chuyển, dữ liệu

bổ sung từ các đơn vị cấp dưới ), hỗ trợ công tác hoạch định mô hình tổ chức, hỗ trợ tuyển lựa và kết quả thu được mà các báo cáo thống kê từ chương trình không

có được

Với yêu cầu đặt ra như vậy, luận văn tiếp theo sẽ nghiên cứu công nghệ, kỹ thuật và công cụ phục vụ yêu cầu

Trang 12

CHƯƠNG 2 PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu và phát hiện tri thức trong các cơ sở dữ liệu đã cuốn hút các phương pháp, thuật toán và kỹ thuật từ nhiều chuyên ngành nghiên cứu khác nhau như học máy, thu nhận mẫu, cơ sở dữ liệu, thống kê, trí tuệ nhân tạo, thu nhận tri thức trong hệ chuyên gia…cùng hướng tới mục tiêu thống nhất là trích lọc ra được các tri thức từ dữ liệu trong các cơ sở dữ liệu khổng lồ Song so với các phương pháp khác, khai phá dữ liệu có một số ưu thế rõ rệt[4][5]

2.1.2 Ưu thế khai phá dữ liệu

Khai phá dữ liệu có nhiều ứng dụng và một số ưu thế rõ rệt được xem xét dưới đây:

+ So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các cơ sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các cơ sở dữ liệu đầy đủ, ít biến động và tập dữ liệu không quá lớn;

Trang 13

+ Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu

ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong cơ sở dữ liệu, và chúng thường chỉ bao hàm được các trường hợp quan trọng Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được;

+ Phương pháp thống kê là một trong những nền tảng lí thuyết của Khai phá

dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được:

◊ Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều cơ sở dữ liệu;

◊ Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không

2.2 Các kỹ thuật khai phá dữ liệu

Các kĩ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:

- Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có Các kĩ thuật này có thể

liệt kê: phân cụm (clustering), tóm tắt (summerization), trực quan hóa

Trang 14

(visualization), phân tích sự phá hiện biến đổi và độ lệch, phân tích luật kết hợp (association rules) ;

- Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Các kĩ thuật này gồm có: phân lớp

(classification), hồi quy (regression) [1][2];

Một số phương pháp thông dụng nhất trong khai phá dữ liệu là: phân cụm

dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp… Ta sẽ xem xét từng phương pháp:

Phân cụm dữ liệu: Mục tiêu chính của phương pháp phân cụm dữ liệu là

nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối

tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi

hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example) Trong phương pháp

này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng

về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền

xử lí cho các thuật toán khai phá dữ liệu khác[1][2][4]

Khai phá luật kết hợp: mục tiêu của phương pháp này là phát hiện và đưa ra

các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Chẳng hạn: phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau:

Trang 15

“Máy tính => Phần mềm quản lý tài chính”

[Độ hỗ trợ: 2%, độ tin cậy: 60%]

Độ hỗ trợ và độ tin cậy là hai độ đo quan trọng của luật kết hợp Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá Độ hỗ trợ 2% có nghĩa là 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mềm quản lý tài chính là đã được mua cùng nhau Còn độ tin cậy 60% có nghĩa là 60% các khách hàng mua máy tính cũng mua phần mềm Khai phá luật kết hợp được thực hiện qua 2 bước:

• Bước 1: tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ tối tiểu

• Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ tối tiểu và độ tin cậy tối tiểu

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có chủ đích, phân tích quyết định, quản lí kinh doanh, phân tích giỏ thị trường…

Hồi quy: là học một hàm ánh xạ dữ liệu nhằm xác định giá trị thực của một

biến Tình huống ứng dụng hồi quy rất đa dạng, chẳng hạn như dự đoán số lượng sinh vật phát quang trong khu rừng nhờ đo vi sóng các cảm biến (senser) từ xa, hoặc ước lượng xác suất người bệnh có thể chết theo kết quả “test” triệu chứng,…

Phân lớp dữ liệu: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn

lớp cho các mẫu dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu

• Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính

gọi là thuộc tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện

Trang 16

(training data set) Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác

định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học

có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy (unsupervised learning)[2][13][14]

• Bước 2: sử dụng mô hình để phân lớp dữ liệu Trước hết chúng ta phải tính

độ chính xác của mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được

sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai[2][13][14] Phương pháp hồi qui khác với phân lớp dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc

Giải thuật di truyền:

Là quá trình mô phỏng theo tiến hoá của tự nhiên Ý tưởng chính của giải thuật

là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học[6][9]

Mạng nơron:

Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người

Kết quả mà mạng nơron học được có khả năng tạo ra các mô hình dự báo, dự đoán với độ chính xác và độ tin cậy cao Nó có khả năng phát hiện ra được các xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được Tuy nhiên phương pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm Như vậy, qua việc xem xét một số phương pháp trên áp dụng vào trong bài toán dự đoán dữ liệu nhân sự ta thấy khai thác dữ liệu nhân sự phần nhiều là dựa

Trang 17

trên những lớp dữ liệu huấn luyện có sẵn Ví dụ như lựa chọn cán bộ đi đào tạo lớp quản lý nhà nước thì đã có tiêu chuẩn đính kèm, căn cứ vào các tiêu chuẩn này ta dùng phương pháp thống kê truy vấn vào dữ liệu ta đã có tập dữ liệu đầu

đủ đáp ứng tiêu chuẩn Vấn đề còn lại là xem xét thông tin tiềm ẩn trong dữ liệu đó để dự đoán các mẫu dữ liệu mới Hơn nữa, dự đoán trong dữ liệu nhân

sự là trường dữ liệu có giá trị rời rạc Do vậy, phân cụm dữ liệu không thích hợp cho bài toán xây dựng mô hình dự liệu dự đoán trên dữ liệu nhân sự Để làm được điều đó một kỹ thuật được nhắc đến là cây quyết định[4][11][12]

2.3 Tổng quan về phân lớp dữ liệu trong khai phá dữ liệu

2.3.1.Phân lớp dữ liệu

Một trong các nhiệm vụ chính của khai phá dữ liệu là giải quyết bài toán phân lớp Đầu vào của bài toán phân lớp là một tập các mẫu học đã được phân lớp trước, mỗi mẫu được mô tả bằng một số thuộc tính Các thuộc tính dùng để mô tả một mẫu gồm hai loại là thuộc tính liên tục và thuộc tính rời rạc

Trong số các thuộc tính rời rạc có một thuộc tính đặc biệt là phân lớp, mà các

giá trị của nó được gọi là nhãn lớp Thuộc tính liên tục sẽ nhận các giá trị có thứ

tự, ngược lại thuộc tính rời rạc sẽ nhận các giá trị không có thứ tự Ngoài ra, các thuộc tính có thể nhận giá trị không xác định (chẳng hạn, vì những lý do khách quan ta không thể biết được giá trị của nó) Chú ý rằng nhãn lớp của tất cả các mẫu không được phép nhận giá trị không xác định Nhiệm vụ của quá trình phân lớp là thiết lập được ánh xạ giữa giá trị của các thuộc tính với các nhãn lớp Mô hình biểu diễn quan hệ nói trên sau đó sẽ được dùng để xác định nhãn lớp cho các quan sát mới không nằm trong tập mẫu ban đầu[12]

Trang 18

Thực tế đặt ra nhu cầu từ một cơ sở dữ liệu với nhiều thông tin ẩn ta có thể trích rút ra các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của

những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete

value), có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá

trị là biết trước Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ,… của ngày hôm nay và các ngày trước đó Hay nhờ các luật về xu hướng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh có thể ra những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán… Một mô hình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục

Quá trình phân lớp dữ liệu gồm hai bước[5] :

Trang 19

Bước thứ nhất

Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm định trước Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case) Luận văn sử dụng các thuật ngữ này với nghĩa tương đương Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết định, công thức logic, hay mạng nơron Quá trình này được mô tả như trong hình vẽ:

Hình 3.2 Quá trình phân lớp dữ liệu – (a) Bước xây dựng mô hình phân lớp Bước thứ hai

Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng độ

Trang 20

chính xác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có

xu hướng “quá vừa” dữ liệu Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó Do vậy, cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo Nếu

độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết

Trang 21

Hình 3.3 Quá trình phân lớp dữ liệu – (b1) Ước lượng độ chính xác của mô hình , (b2) Phân lớp dữ liệu mới

Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phân lớp

dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở rộng được Trong đó khả năng mở rộng được của thuật toán được đặc biệt chú trọng và phát triển

2.3.2 Các vấn đề liên quan đến phân lớp dữ liệu

a).Chuẩn bị dữ liệu cho việc phân lớp

Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thể thiếu và có vai trò quan trọng quyết định tới sự áp dụng được hay không của mô hình phân lớp Quá trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính hiệu quả và khả năng mở rộng được của mô hình phân lớp[5]

Quá trình tiền xử lý dữ liệu gồm có các công việc sau:

Làm sạch dữ liệu

Làm sạch dữ liệu liên quan đến việc xử lý với noise và missing value trong tập dữ liệu ban đầu Noise là các lỗi ngẫu nhiên hay các giá trị không hợp

lệ của các biến trong tập dữ liệu Để xử lý với loại lỗi này có thể dùng kỹ thuật

làm trơn Missing value là những ô không có giá trị của các thuộc tính Giá trị

thiếu có thể do lỗi chủ quan trong quá trình nhập liệu, hoặc trong trường hợp cụ thể giá trị của thuộc tính đó không có, hay không quan trọng Xử lý giá trị có thể bằng cách thay giá trị thiếu bằng giá trị phổ biến nhất của thuộc tính đó hoặc bằng giá trị có thể xảy ra nhất dựa trên thống kê Mặc dù phần lớn thuật toán phân lớp đều có cơ chế xử lý với những giá trị thiếu và noise trong tập dữ liệu, nhưng bước tiền xử lý này có thể làm giảm sự hỗn độn trong quá trình học (xây dựng mô hình phân lớp)

Trang 22

Phân tích sự cần thiết của dữ liệu

Có rất nhiều thuộc tính trong tập dữ liệu có thể hoàn toàn không cần thiết hay liên quan đến một bài toán phân lớp cụ thể Ví dụ dữ liệu về ngày trong tuần hoàn toàn không cần thiết đối với ứng dụng phân tích độ rủi ro của các khoản tiền cho vay của ngân hàng, nên thuộc tính này là dư thừa Phân tích sự cần thiết của dữ liệu nhằm mục đích loại bỏ những thuộc tính không cần thiết, dư thừa khỏi quá trình học vì những thuộc tính đó sẽ làm chậm, phức tạp và gây ra sự hiểu sai trong quá trình học dẫn tới một mô hình phân lớp không dùng được

Chuyển đổi dữ liệu

Việc khái quát hóa dữ liệu lên mức khái niệm cao hơn đôi khi là cần thiết

trong quá trình tiền xử lý Việc này đặc biệt hữu ích với những thuộc tính liên tục (continuous attribute hay numeric attribute) Ví dụ các giá trị số của thuộc tính thu

nhập của khách hàng có thể được khái quát hóa thành các dãy giá trị rời rạc: thấp, trung bình, cao Tương tự với những thuộc tính rời rạc (categorical attribute) như địa chỉ phố có thể được khái quát hóa lên thành thành phố Việc khái quát hóa làm

cô đọng dữ liệu học nguyên thủy, vì vậy các thao tác vào/ ra liên quan đến quá trình học sẽ giảm

b) So sánh các mô hình phân lớp

Trong từng ứng dụng cụ thể cần lựa chọn mô hình phân lớp phù hợp Việc lựa chọn đó căn cứ vào sự so sánh các mô hình phân lớp với nhau, dựa trên các tiêu chuẩn sau:

Trang 23

hình

Sức mạnh

Sức mạnh là khả năng mô hình tạo ta những dự đoán đúng từ những dữ liệu

noise hay dữ liệu với những giá trị thiếu

2.3.3 Các phương pháp đánh giá độ chính xác của mô hình phân lớp

Ước lượng độ chính xác của bộ phân lớp là quan trọng ở chỗ nó cho phép dự đoán được độ chính xác của các kết quả phân lớp những dữ liệu tương lai Độ chính xác còn giúp so sánh các mô hình phân lớp khác nhau Trong luận

văn này đề cập đến 2 phương pháp đánh giá phổ biến là holdout và k-fold cross-

validation Cả 2 kỹ thuật này đều dựa trên các phân hoạch ngẫu nhiên tập dữ

liệu ban đầu

Trong phương pháp holdout, dữ liệu đưa ra được phân chia ngẫu nhiên

thành 2 phần là: tập dữ liệu đào tạo và tập dữ liệu kiểm tra Thông thường 2/3 dữ

Trang 24

liệu cấp cho tập dữ liệu đào tạo, phần còn lại cho tập dữ liệu kiểm tra[12]

Hình 3.5 Ước lượng độ chính xác của mô hình phân lớp với phương pháp holdout

Trong phương pháp k-fold cross validation tập dữ liệu ban đầu được chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau S1, S2, …, Sk Quá

trình học và “test” được thực hiện k lần Tại lần lặp thứ i, S i là tập dữ liệu kiểm tra, các tập còn lại hợp thành tập dữ liệu đào tạo Có nghĩa là, đâu tiên việc dạy

được thực hiện trên các tập S 2 , S 3 …, S k , sau đó test trên tập S 1; tiếp tục quá trình

dạy được thực hiện trên tập S 1 , S 3 , S 4 ,…, S k , sau đó test trên tập S 2; và cứ thế tiếp

tục Độ chính xác là toàn bộ số phân lớp đúng từ k lần lặp chia cho tổng số mẫu

của tập dữ liệu ban đầu

2.4 Kết luận chương 2

Chương 2 nghiên cứu các phương pháp khai phá dữ liệu và kỹ thuật phân lớp

dữ liệu Luận văn tiếp cận một cách tổng quan bài toán phân lớp đi vào những đánh giá của thuật toán phân lớp nhằm tìm ra các giải pháp để giải quyết bài toán quản lí cán bộ Bước đầu định hướng phát triển cho luận văn trong khai phá dữ liệu nhân sự

Trang 25

CHƯƠNG 3 PHÂN LỚP DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH

3.1 Cây quyết định

Trong phân lớp dữ liệu hình thức trực quan của mô hình là cây quyết định Sau đây, luận văn sẽ trình bầy vai trò, đánh giá về cây quyết định trong khai phá dữ liệu

Định nghĩa cây quyết định

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive

model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết

luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong (internal node) tương

ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay gọn hơn là cây quyết định[6][15]

Ví dụ: Cây quyết định phân lớp mức lương

Hình 2.1 Cây quyết định phân lớp mức lương

Tuổi?

≤ 35 Lương

Trang 26

3.1.1 Thế mạnh của cây quyết định

Cây quyết định có các thế mạnh sau[12] :

Khả năng sinh ra các quy tắc hiểu đƣợc

Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi được sang dạng if then else , hoặc các câu lệnh SQL Đây là ưu điểm nổi bật của kỹ thuật này Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch

Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc

Cây quyết định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rời rạc Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn Những thuộc tính rời rạc đã từng gây ra những vấn đề với mạng nơron và các kỹ

thuật thống kê lại thực sự dễ dàng thao tác với các tiêu chuẩn phân tách

(splitting criteria) trên cây quyết định: mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính được chọn để phát triển tại node đó Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số gọi là ngưỡng trong tập các giá trị đã sắp xếp của thuộc tính đó Sau khi chọn được ngưỡng tốt nhất, tập dữ liệu phân chia theo “test” nhị phân của ngưỡng đó[12]

Thể hiện rõ ràng những thuộc tính tốt nhất

Các thuật toán xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốt nhất tập dữ liệu đào tạo bắt đầu từ node gốc của cây Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự đoán hay phân lớp

Đòi hỏi mức tiền xử lý dữ liệu đơn giản

Cây quyết định là một mô hình hộp trắng

Trang 27

Kết quả dự đoán bằng cây quyết định có thể thẩm định lại bằng cách kiểm tra thống kê

Vấn đề xây dựng cây quyết định

Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:

B1: Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp

B2: Cắt tỉa cây: Là việc làm dùng để tối ưu hoá cây Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá

B3: Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào

Rút ra các luật từ cây quyết định

Có thể chuyển đổi qua lại giữa mô hình cây quyết định và mô hình dạng luật (IF

…THEN…) Hai mô hình này là tương đương nhau

Ví dụ từ cây 2.1 ta có thể rút ra được các luật sau

IF (Tuổi <= 35) AND (Lương<=40) THEN phân lớp = xấu

IF (Tuổi <=35) AND (Lương >40) THEN phân lớp = tốt

IF (Tuổi >35) AND (Lương <=50 ) THEN phân lớp = xấu

IF (Tuổi > 35) AND(Lương >50) THEN phân lớp = xấu

Trang 28

3.1.2 Các thuật toán khai phá dữ liệu bằng cây quyết định

Thuật toán CLS

Thuật toán này được Holland và Hint giới thiệu trong Concept learning System (CLS) vào những năm 50 của thế kỷ 20[12] Thuật toán CLS được thiết kế theo chiến lược chia để trị từ trên xuống Nó gồm các bước sau:

1 Tạo một nút T, nút này gồm tất cả các mẫu của tập huấn luyện

2 Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "yes" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "yes" và dừng lại T lúc này là nút lá

3 Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "no" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "no" và dừng lại T lúc này

+ Tạo n nút con Ti (i=1,2…n) với nút cha là nút T

+ Tạo các nhánh nối từ nút T đến các nút Ti (i=1,2…n) là các thuộc tính của X

5 Thực hiện lặp cho các nút con Ti(i =1,2 n) và quay lại bước 2

Ta nhận thấy trong bước 4 của thuật toán, thuộc tính được chọn để triển khai cây là tuỳ ý Do vậy cùng với một tập mẫu dữ liệu huấn luyện nếu áp dụng thuật toán CLS với thứ tự chọn thuộc tính triển khai cây khác nhau, sẽ cho ra các cây có hình dạng khác nhau Việc lựa chọn thuộc tính sẽ ảnh hưởng tới độ rộng,

độ sâu, độ phức tạp của cây Vì vậy một câu hỏi đặt ra là thứ tự thuộc tính nào được

Trang 29

chọn để triển khai cây sẽ là tốt nhất Vấn đề này sẽ được giải quyết trong thuật toán

ID3 dưới đây

Thuật toán ID3

Thuật toán ID3 được phát biểu bởi Quinlan (trường đại học Syney, Australia)

và được công bố vào cuối thập niên 70 của thế kỷ 20[12] Sau đó, thuật toán ID3 được giới thiệu và trình bày trong mục Induction on decision trees, machine learning năm 1986 ID3 được xem như là một cải tiến của CLS với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bước ID3 xây dựng cây quyết định từ trên- xuống (top -down)

Entropy : dùng để đo tính thuần nhất của một tập dữ liệu Entropy của một tập

S được tính theo công thức (1)

Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân lớp "yes" (+), "no" (-) Ký hiệu p+ là để chỉ tỷ lệ các mẫu có giá trị của thuộc tính quyết định

là "yes", và p- là tỷ lệ các mẫu có giá trị của thuộc tính quyết định là "no" trong tập

- Nếu trong tập S có số mẫu phân bổ đều nhau vào các lớp thì Entropy(S) =1

- Các trường hợp còn lại 0< Entropy(S)<1

Trang 30

Information Gain (viết tắt là Gain): Gain là đại lượng dùng để đo tính hiệu quả

của một thuộc tính được lựa chọn cho việc phân lớp[12] Đại lượng này được tính thông qua hai giá trị Information và Entropy

- Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị Information của thuộc tính Ai ký hiệu là Information(Ai) được xác định bởi công thức

n

i=1

- Giá trị Gain của thuộc tính A trong tập S ký hiệu là Gain(S,A) và được tính theo công thức sau:

Hàm xây dựng cây quyết định trong thuật toán ID3

Function induce_tree(tập_ví_dụ, tập_thuộc_tính)

begin

if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then

return một nút lá được gán nhãn bởi lớp đó

else if tập_thuộc_tính là rỗng then

return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ

Trang 31

else begin

chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;

xóa P ra khỏi tập_thuộc_tính;

với mỗi giá trị V của P

- thuộc tính liên tục (numeric attribute) và khó khăn trong việc xử lý các dữ liệu thiếu (missing data)và dữ liệu nhiễu (noisy data) Vấn đề này sẽ được giải quyết

trong thuật toán C4.5 sau đây

Thuật toán C4.5

- Thuật toán C4.5 do Quinlan phát triển vào năm 1996[12][13][14] Thuật toán C4.5 là một thuật toán được cải tiến từ thuật toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính số (numeric atributes) và và làm việc được với tập

dữ liệu bị thiếu và bị nhiễu Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược

ưu tiên theo chiều sâu (Depth - First) Thuật toán xét tất cả các phép thử có thể để

phân chia tập dữ liệu đã cho và chọn ra một phép thử có giá trị GainRatio tốt nhất GainRatio là một đại lượng để đánh giá độ hiệu quả của thuộc tính dùng để thực

Trang 32

hiện phép tách trong thuật toán để phát triển cây quyết định GainRatio được tính dựa trên kết quả tính toán đại lượng Information Gain theo công thức sau:

( , )( , )

(X,T)

Gain X T GainRation X T

Value(X) là tập các giá trị của thuộc tính X

Ti là tập con của tập T ứng với thuộc tính X = giá trị là vi

Đối với các thuộc tính liên tục, chúng ta tiến hành phép thử nhị phân cho mọi giá trị của thuộc tính đó Để thu thập được giá trị Entropy gain của tất cả các phép thử nhị phân một cách hữu hiệu ta tiến hành xắp xếp các dữ liệu theo giá trị của thuộc tính liên tục đó bằng thuật toán Quicksort

Thuật toán xây dựng cây quyết định C4.5

Mô tả thuật toán dưới dạng giả mã như sau:

Function xay_dung_cay(T)

{

lớp>Then <Trả về 1 nút lá>

Else <Tạo một nút quyết định N>;

tốt nhất (lớn nhất) Gọi N.test là thuộc tính có Gain lớn nhất>;

Trang 33

5 If <Nếu N.test là thuộc tính liên tục> Then <Tìm ngưỡng cho phép tách của N.test>;

( T` được tách ra theo quy tắc:

- Nếu N.test là thuộc tính liên tục tách theo ngưỡng ở bước 5

- Nếu N.test là thuộc tính phân loại rời rạc tách theo các giá trị của thuộc tính này

)

<Gán nút con này của nút N là nút lá>;

i=1

T Info (T)=- * Info(T )

T

(2.7)

X ( ) Info(T)-Info ( )

Trang 34

1 Làm việc với thuộc tính đa trị

Tiêu chuẩn (2.8) có một khuyết điểm là không chấp nhận các thuộc tính đa trị

Vì vậy thuật toán C4.5 đã đưa ra các đại lượng GainRatio và SplitInfo (SplitInformation), chúng được xác định theo các công thức sau:

( j, )

freq C T P

S

n i 2 i=1

T

(2.9)

( )( )

Info(X)

Gain X GainRatio X

Split

(2.10)

Giá trị SplitInfo là đại lượng đánh giá thông tin tiềm năng thu thập được khi phân chia tập T thành n tập hợp con GainRatio là tiêu chuẩn để đánh giá việc lựa chọn thuộc tính phân loại

2 Làm việc với dữ liệu bị thiếu

Thuật toán vừa xây dựng dựa vào giả thuyết tất cả các mẫu dữ liệu có đủ các thuộc tính Nhưng trong thực tế, xẩy ra hiện tượng dữ liệu bị thiếu, tức là ở một số mẫu dữ liệu có những thuộc tính không được xác định,hoặc mâu thuẫn, hoặc không bình thường Ta xem xét kỹ hơn với trường hợp dữ liệu bị thiếu Đơn giản nhất là không đưa các mẫu với các giá trị bị thiếu vào, nếu làm như vậy thì có thể dẫn đến tình trạng thiếu các mẫu học Giả sử T là một tập hợp gồm các mẫu cần được phân loại, X là phép kiểm tra theo thuộc tính L, U là số lượng các giá trị bị thiếu của thuộc tính L Khi đó ta có

k

j

2 j=1

j freq C T

Trang 35

Trong trường hợp này, khi tính tần số freq (Ci , T) ta chỉ tính riêng các mẫu với giá trị trên thuộc tính L đã xác định Khi đó tiêu chuẩn (2.8) được viết lại bằng công thức (2.13) như sau:

Giả sử phép thử X có các giá trị O1,O2,….On được lựa chọn theo tiểu chuẩn (2.13),

ta cần xử lý như thế nào với các dữ liệu bị thiếu Giả sử mẫu từ tập hợp T với đầu ra

là Oi có liên quan đến tập hợp Ti thì khả năng mẫu đó thuộc tập hợp Ti là 1

Giả sử mỗi mẫu trong Ti có một chỉ số xác định xác suất thuộc tập hợp Ti Nếu mẫu có giá trị thuộc tính L thì có trọng số bằng 1 Nếu trong trường hợp ngược lại, thì mẫu này liên quan đến tập con T1,T2,…Tn với xác xuất tương ứng là :

Trang 36

Thuật toán SLIQ

Thuật toán SLIQ (Supervised Learning In Quest) được gọi là thuật toán phân lớp leo thang nhanh Thuật toán này có thể áp dụng cho cả hai kiểu thuộc liên tục và thuộc tính rời rạc[9][10]

Thuật toán này có sử dụng kỹ thuật tiền xử lý phân loại(Pre sorting) trước khi xây dựng cây, do đó giải quyết được vấn đề bộ nhớ cho thuật toán ID3

Thuật toán SLIQ có sử dụng giải thuật cắt tỉa cây hữu hiệu

Thuật toán SLIQ có thể phân lớp rất hiệu quả đối với các tập dữ liệu lớn và không phụ thuộc vào số lượng lớp, số lượng thuộc tính và số lượng mẫu trong tập

dữ liệu

Xây dựng cây quyết định theo thuật toán này chia ra làm 2 giai đoạn:

1 Giai đoạn tạo cây

 Vào: tập dữ liệu học T

 Ra: cây được phân loại trên tập T

Hàm

MakeTree(TrainningData T) {partition (T) ;}

2 Giai đoạn phân chia tập dữ liệu S

Thủ tục phân loại tập S có giả mã như sau:

Function partition (Data S) {

If <tất cả các giá trị của tập S đều thuộc cùng một lớp>

Else{ <Đánh giá mỗi thuộc tính A để phân chia>;

Trang 37

<Tách tập S thành 2 tập con S1 và S2 theo thuộc tính A

mà có giá trị chia tách tốt nhất>;

<Gọi đệ qui thủ tục Partition(S1)>;

<Gọi đệ qui thủ tục Partition(S2)>;

} }

Chỉ số chia tách (Spliting index):

Vấn đề đặt ra trong thủ tục Partition(S) trên là làm thế nào để đánh giá thuộc tính tốt nhất cho việc lựa chọn thuộc tính để chia tách Để đánh giá thuộc tính tốt nhất đó, thuật toán SLIQ đưa vào một đại lượng, gọi là chỉ số hàm Gini, chỉ số gini được định nghĩa như sau:

 Nếu tập dữ liệu T gồm n lớp thì giá trị gini của tập T ký hiệu Gini(T) được xác định bởi công thức:

2

Trong đó pj là tần suất xuất hiện của lớp j trong tập mẫu T

 Nếu tập T được tách ra làm 2 tập con T1 và T2 thì chỉ số Gini của tập T khi được chia tách ký hiệu là gini(T)split được xác định bởi công thức sau:

Sau khi tính toán chỉ số gini cho các nút, thuộc tính nào có chỉ số gini nhỏ nhất

sẽ được chọn để thực hiện tiếp việc triển khai cây

Kỹ thuật tiền xử lý phân loại(Pre_sorting Technique)

Kỹ thuật này tạo ra một lược đồ, lược đồ này được tạo ra bằng cách sắp xếp

dữ liệu tạo ra tại mỗi nút Ứng với mỗi thuộc tính có một danh sách riêng tạo ra bởi tập giá trị của thuộc tính và định danh các mẫu dữ liệu Mỗi danh sách riêng gọi là

Trang 38

danh sách lớp (class list) Các danh sách riêng sẽ tạo ra tương ứng nhãn của cây gắn với các mẫu học

Thuật toán SLIQ yêu cầu tại một thời điểm có một danh sách lớp và chỉ một danh sách thuộc tính được lưu trữ trong bộ nhớ của máy tính, các danh sách còn lại lưu trên đĩa

Đánh giá sự phân chia:

Thuật toán đánh giá phân chia:

EvaluateSplits()

{

For <Với mỗi thuộc tính A> do

For <với mỗi giá trị v trong danh sách thuộc tính > do

<Tìm một mục tương ứng trong danh sách lớp, sau đó hãy tìm lớp tương ứng với nút lá 1>;

<Cập nhật biểu đồ lớp vào trong nút lá 1>;

If <A là thuộc tính số> Then for <với mỗi nút lá trong cây> do

<Tìm tập con của tập A mà có chỉ số tách là tốt nhất> }

}

Cập nhật danh sách lớp:

Thuật toán cập nhật danh sách lớp:

UpdateLabels()

Trang 39

{ for<Với mỗi thuộc tính A được sử dụng trong một phép tách> do { <Duyệt danh sách các thuộc tính của A>;

For <Với mỗi giá trị v trong danh sách các thuộc tính của A>

do

{<Tìm một mục tương ứng với danh sách lớp e>;

<Tìm lớp c chứa giá trị v bằng cách áp dụng sự kiểm tra

<Cập nhật nhãn của lớp cho lớp e vào lớp mới c>;

<Cập nhật nút được tham chiếu trong e vào nút con tương ứng cho lớp c>;

} }

}

i Cắt tỉa cây quyết định

Qua tìm hiểu các thuật toán xây dựng cây quyết định ở trên, ta thấy việc xây dựng cây bằng cách phát triển nhánh cây đầy đủ theo chiều sâu để phân lớp hoàn toàn các mẫu huấn luyện; như thuật toán CLS và thuật toán ID3 đôi khi gặp khó

khăn trong các trường hợp dữ liệu bị nhiễu (Noisy Data) hoặc dữ liệu bị thiếu (Missing Data) không đủ để đại diện cho một quy luật; tức là tạo ra các nút có số

mẫu rất nhỏ Trong trường hợp này, nếu thuật toán vẫn cứ phát triển cây thì ta sẽ

dẫn đến một tình huống mà ta gọi là tình trạng "Over fitting" trong cây quyết định Vấn đề Over fitting là một khó khăn trong việc nghiên cứu và ứng dụng cây

quyết định Để giải quyết tình trạng này người ta sử dụng phương pháp cắt tỉa cây quyết định Có hai phương pháp cắt tỉa cây quyết định[12]

Trang 40

a) Tiền cắt tỉa:

Chiến thuật tiến cắt tỉa nghĩa là sẽ dừng sớm việc phát triển cây trước khi nó vươn đến điểm mà việc phân lớp các mẫu huấn luyện được hoàn thành Nghĩa là trong quá trình xây dựng cây, một nút có thể sẽ không được tách thêm bước nữa nếu như kết quả của phép tách đó rơi vào một ngưỡng gần như chắc chắn Nút đó trở thành nút lá và được gán nhãn là nhãn của lớp phổ biến nhất của tập các mẫu tại nút

đó

b) Hậu cắt tỉa:

Chiến thuật này ngược với chiến thuật tiền cắt tỉa Nó cho phép phát triển cây đầy đủ sau đó mới cắt tỉa Nghĩa là xây dựng cây sau đó mới thực hiện cắt bỏ các nhánh không hợp lý Trong quá trình xây dựng cây theo chiến thuật hậu cắt tỉa thì cho phép tình trạng Over fitting xẩy ra Nếu một nút mà các cây con của nó bị cắt thì nó sẽ trở thành nút lá và nhãn của lá được gán là nhãn của lớp phổ biến nhất của các con trước đó của nó

Trong thực tế, phương pháp hậu cắt tỉa là một phương pháp khá thành công cho việc tìm ra các giả thuyết chính xác cao Chiến thuật hậu cắt tỉa được tiến hành thông qua việc tính toán lỗi như sau:

Giả sử ta gọi: E(S) là lỗi tĩnh (Static error hay expected error) của một nút S; BackUpError(S) là lỗi từ các nút con của S (Back Up Error); Error(S) là lỗi của nút

S Các giá trị này được tính như sau:

Error(S) = Min(E(S), BackUpError(S)) E(S) = (N - n + 1) / (N + 2)

Trong đó: N là tổng số mẫu ở nút S

n là số mẫu của lớp phổ biến nhất trong S

Trong trường hợp tổng quát, nếu thuộc tính lớp có K giá trị (K lớp) thì: