Xét một mẫu X cĩ Quê quán (khơng quan tâm các thuộc tính khác)
P(Hưng Yên | n) = 0 => P(X|n)*P(n) = 0
P(xi | p) > 0 => P(X | p) > 0 Suy ra mẫu X thuộc lớp P (Khá)
- Xét một mẫu X cĩ quê Hà nội và cĩ giới tính Nam (khơng quan tâm các thuộc tính cịn lại) P(Nam | n) = 0 => P(X|n)*P(n) = 0 P(X) Ci)P(Ci) | P(X X) | P(Ci ) C | n 1 k k P(x ) C | k x ,..., 1 P(x ) C | P(X j j j
P(xi | p) > 0 => P(X | p) > 0 Suy ra mẫu X thuộc lớp P (Khá)
Hai phân lớp trên phù hợp với luật được suy ra từ giải thuật ID3. Tuy nhiên, xét mẫu X = <Hải phịng, Cao, Bình thường, nam>, ta cĩ:
P(Hải phịng | p) = 0 => P(X|p)*P(p) = 0
P(Cao | n) = 0 => P(X|n)*P(n) = 0
=> Khơng thể xác định X thuộc lớp nào!
Các bƣớc của khai phá dữ liệu:
Khai phá dữ liệu là quá trình khám phá các thơng tin hữu dụng từ bộ dữ liệu lớn. Khai phá dữ liệu sử dụng phân tích tốn học để lấy mẫu và các xu hướng tồn tại trong dữ liệu. Xây dựng một mơ hình khai phá dữ liệu là một phần của một quá trình lớn hơn bao gồm đủ mọi thứ từ đặt câu hỏi về dữ liệu và tạo ra một mơ hình để trả lời những câu hỏi, đến triển khai các mơ hình thành một mơi trường làm việc. Quá trình này cĩ thể được xác định bằng cách sử dụng sau 6 bước cơ bản:
Xác định vấn đề
Chuẩn bị dữ liệu
Khám phá dữ liệu
Xây dựng mơ hình
Khám phá và kiểm tra mơ hình
Triển khai và cập nhật mơ hình
Mặc dù quá trình minh họa trong biểu đồ là vịng trịn, mỗi bước khơng nhất thiết dẫn trực tiếp đến bước tiếp theo. Mỗi bước trong tiến trình cĩ thể cần phải được lặp lại nhiều lần để tạo ra một mơ hình tốt.
Xác định vấn đề:
Bước đầu tiên trong quá trình khai phá dữ liệu, như nêu bật trong sơ đồ sau đây, là để xác định rõ các vấn đề kinh doanh, dịch vụ, và cân nhắc các cách để cung cấp một câu trả lời cho vấn đề.
Chuẩn bị dữ liệu:
Bước thứ hai trong quá trình khai phá dữ liệu, là để củng cố và làm sạch dữ liệu đã được xác định ở bước xác định các vấn đề.
Cĩ thể tiến hành khai phá dữ liệu sử dụng bất kỳ nguồn dữ liệu đã được định nghĩa như là một nguồn dữ liệu dịch vụ phân tích. Cĩ thể bao gồm các tập tin văn bản, bảng tính Excel, hoặc dữ liệu từ các nhà cung cấp khác bên ngồi.
Thăm dị dữ liệu:
Bước thứ ba trong quá trình khai phá dữ liệu, là để khám phá những dữ liệu đã chuẩn bị sẵn sàng.
Phải hiểu được dữ liệu để đưa ra quyết định thích hợp khi tạo các mơ hình khai phá dữ liệu. Kỹ thuật khám phá bao gồm các tính tốn giá trị tối thiểu và tối đa, tính trung bình và độ lệch chuẩn, và nhìn vào sự phân bố của dữ liệu.
Xây dựng mơ hình:
Bước thứ tư trong quá trình khai phá dữ liệu, là xây dựng mơ hình khai phá hoặc các mơ hình khai phá.
Xác định dữ liệu mà bạn muốn sử dụng bằng cách tạo ra một cấu trúc khai phá. Cấu trúc khai phá xác định nguồn dữ liệu, nhưng khơng chứa bất kỳ dữ liệu cho đến khi bạn xử lý nĩ. Khi xử lý cấu trúc khai phá, dịch vụ phân tích tạo ra tập hợp và thơng tin thống kê khác cĩ thể được sử dụng để phân tích. Thơng tin này cĩ thể được sử dụng bởi bất kỳ mơ hình khai phá nào dựa trên cấu trúc.
Kiểm chứng mơ hình:
Bước thứ năm trong quá trình khai phá dữ liệu, là để khám phá các mơ hình khai phá đã xây dựng và kiểm tra hiệu quả của chúng.
Khi xây dựng một mơ hình, chúng ta thường tạo ra các mơ hình với nhiều cấu hình khác nhau và kiểm thử tất cả các mơ hình để cĩ kết quả tốt nhất cho vấn đề và dữ liệu đã xác định.
Dịch vụ phân tích cung cấp các cơng cụ giúp chúng ta tách biệt dữ liệu của thành tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm để cĩ thể đánh giá chính xác hiệu suất của tất cả các mơ hình trên cùng dữ liệu. Sử dụng tập dữ liệu học để xây dựng mơ hình, và dữ liệu thử nghiệm để kiểm tra tính chính xác của mơ hình bằng cách tạo ra các truy vấn dự báo. Trong dịch vụ phân tích của BI, phân vùng này cĩ thể được thực hiện tự động khi xây dựng mơ hình khai phá.
Triển khai và cập nhật mơ hình:
Bước cuối cùng trong quá trình khai phá dữ liệu, là để triển khai các mơ hình cĩ hiệu suất tốt nhất đến mơi trường sản xuất.
Sau khi các mơ hình khai phá dữ liệu tại trong mơi trường sản xuất, cĩ thể thực hiện nhiều tác vụ, tùy thuộc vào nhu cầu, như: truy vấn để lấy dữ liệu thống kê, tạo báo cáo,…
Dữ liệu đa chiều:
Dữ liệu đa chiều cho phép chúng ta thiết kế, tạo, quản lý cấu trúc nhiều chiều chứa dữ liệu chi tiết và kết hợp từ nhiều nguồn dữ liệu trong một mơ hình logic thống nhất hỗ trợ các tính tốn nội tại.
Dịch vụ phân tích dữ liệu đa chiều cung cấp phân tích nhanh, trực giác, từ trên xuống, trên số lượng lớn dữ liệu xây dựng trên mơ hình dữ liệu thống nhất, và chuyển giao đến người dùng bằng nhiều ngơn ngữ.
Dịch vụ phân tích dữ liệu đa chiều làm việc với các kho dữ liệu, các siêu dữ liệu,... hỗ trợ phân tích dữ liệu lịch sử và thời gian thực.
Với hệ quản trị cơ sở dữ liệu SQL Server 2008, xây dựng dịch vụ báo cáo tiếp tục là một lĩnh vực tập trung chính và một lĩnh vực đầu tư cho hãng Microsoft. Đĩ là một trong những thành phần chính của Microsoft Bussiness Intelligence (BI).
Cơng nghệ xây dựng dịch vụ báo cáo cho phép thiết kế những báo cáo phong phú từ nhiều nguồn dữ liệu, hiển thị dữ liệu từ nhiều nguồn dữ liệu đĩ một cách phong phú bằng cách sử dụng các bảng (table), ma trận (matrix), danh sách (list), gauge, và biểu đồ (chart); và cho phép xuất các báo cáo sang các định dạng Word, Excel, PDF, XML, HTML mà khơng cần viết mã. Xây dựng dịch vụ báo cáo cung cấp một mơ hình mở rộng cho phép mở rộng thiết kế, xuất các định dạng, nguồn dữ liệu và các cơ cấu phân phối cho các báo cáo. Sự tích hợp của nĩ với Microsoft Office SharePoint Server tiếp tục phát triển và cải thiện. Sau cùng xây dựng dịch vụ báo cáo cung cấp một giao diện lập trình ứng dụng mà cĩ thể gọi bằng cách sử dụng dịch vụ Web do đĩ cĩ thể tự động hĩa hầu như bất kỳ phần nào của báo cáo thơng qua các kịch bản hoặc chương trình.
2.4. Kết luận chƣơng 2
Chương này trình bày các vấn đề sau:
Cơ sở lý thuyết về kho dữ liệu: Một số khái niệm về kho dữ liệu, mơ hình dữ liệu sử dụng trong kho, kiến trúc kho dữ liệu, các bước xây dựng kho dữ liệu.
Khai phá dữ liệu: Khái niệm về khai phá dữ liệu, khuynh hướng phát triển của lĩnh vực khai phá dữ liệu.
Giới thiệu bộ cơng cụ BI trong hệ quản trị cơ sở dữ liệu SQL Server 2008: Dịch vụ phân tích, dịch vụ báo cáo.
Chƣơng 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN 3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu
Trong thế giới hiện đại, mọi hoạt động của con người đều cần đến thơng tin:
Thơng tin về giá cả và thị trường, khách hàng và đối tác,...Trong hoạt động sản xuất kinh doanh, thương mại, tài chính.
Thơng tin về chính sách và pháp luật, thuế và tiền tệ, dân số và lao động, đất đai và mơi trường trong quản lý kinh tế, quản lý nhà nước.
Thơng tin về văn hố, khoa học, giáo dục, đặc biệt trong lĩnh vực hoạt động Thơng tin - Thư viện.
Thơng tin liên quan đến các vấn đề của đơn vị, các cơng ty, các doanh nghiệp, các bộ ngành.
Để cĩ được các thơng tin cần thiết và cập nhật về nội dung, phải xây dựng các kho dữ liệu. Đĩ là quy trình phức tạp và tốn nhiều chi phí, bao gồm nhiều cơng đoạn khác nhau từ thu thập, xử lý, phân tích, tổ chức lưu trữ thơng tin theo một số tiêu chuẩn nào đĩ. Giải pháp CNTT thường được ứng dụng là sử dụng các hệ quản trị cơ sở dữ liệu và các phần mềm giao tiếp để quản lý và truy tìm các thơng tin cần thiết một cách nhanh chĩng.
Trong thời đại cách mạng cơng nghệ thơng tin, các kho thơng tin cần được liên kết với nhau để giúp chia sẻ tài nguyên, cung cấp dịch vụ. Tuy nhiên khơng phải hệ quản trị CSDL nào cũng cĩ thể đáp ứng tốt nhu cầu tích hợp, chia sẻ thơng tin từ các nguồn phân tán, đơi khi khơng thật chuẩn mực! Lựa chọn giải pháp khả thi để trao đổi, liên thơng các cơ sở dữ liệu là điều rất khĩ thực hiện.
Trên thực tế đã cĩ hai xu hướng giải quyết vấn đề như sau:
Thống nhất sử dụng chung một phần mềm hay một cơ sở dữ liệu.
Xây dựng Trung tâm tích hợp dữ liệu để thống nhất dữ liệu từ nhiều nguồn. Giải pháp dùng chung phần mềm và cơ sở dữ liệu tuy cĩ làm giảm được chi phí phải chuyển đổi và nhập lại dữ liệu, nhưng rất khĩ thực hiện ở quy mơ rộng, tại nhiều địa điểm khác nhau, bởi vì nĩ địi hỏi mơi trường và trình độ ggười sử dụng phải tương đối thống nhất. Mặt khác khĩ cĩ thể đầu tư và triển khai trên diện rộng một phần mềm dùng chung cĩ chất lượng cao.
Xây dựng các trung tâm tích hợp thơng tin dữ liệu cũng địi hỏi thời gian và chi phí khá lớn, và trên thực tế cũng khĩ lịng giải quyết được các vấn đề nêu trên. Thực tế áp dụng CNTT của ngành GD- ĐT trong tuyển sinh đại học năm 2002 cho thấy giải pháp tích hợp dữ liệu từ các trường và các địa phương để cĩ được kết quả xét tuyển chung đã khơng thành cơng.
Trường Đại học SPKT Hưng Yên đã bước đầu triển khai sử dụng các phần mềm chung của Bộ Giáo dục, như bộ phần mềm Edusoft,…Và bước đầu đã thu được nhiều kết quả: thống nhất được các mẫu biểu, tìm kiếm thơng tin nhanh chĩng,…Tuy
nhiên, cơ sở dữ liệu bị hạn chế về kích thước, hạn chế hỗ trợ được tính năng sinh báo cáo, ra quyết định, dự đốn xu hướng một cách nhanh nhất.
Đáp ứng đơng đảo của các cá nhân, xuất phát từ thực tế trên, chúng tơi đề xuất xây dựng một kho dữ liệu về điểm của sinh viên một khoa làm thử nghiệp và để khắc phục nhược điểm trên.
Các kho dữ liệu thống kê, khi được xây dựng và áp dụng thành cơng sẽ giúp cải tiến chất lượng số liệu và hài hồ các quá trình thu thập số liệu thống kê, cung cấp cơng cụ phục vụ quản lý và bảo vệ lưu trữ số liệu, cung cấp cơng cụ tiếp cận, xử lý, sản xuất và phổ biến các đầu ra thống kê cĩ chất lượng.
Như ta đã đề cập, xu thế chủ đạo của kho dữ liệu: Trào lưu trong các cơng ty (viễn thơng-ngân hành - lương hưu trí dịch vụ tài chính, chăm sĩc sức khỏe, bảo hiểm, sản xuất, dược phẩm, giao thơng…) và Xu thế theo nhu cầu. Trong phạm vi luận văn thì thuộc xu thế theo yêu cầu.
3.2. Xây dựng kho dữ liệu điểm của sinh viên
Xuất phát từ yêu cầu của luận văn, chúng tơi lấy dữ liệu kết quả của sinh viên hệ cao đẳng thuộc khoa CNTT của trường các năm 1998, 1999, 2000, 2001, 2002, 2003, 2005, 2004, 2006, 2007 tại trường Đại học SPKT Hưng Yên để làm dữ liệu demo trong kho dữ liệu và khai thác dữ liệu trong kho để giải quyết một số câu hỏi mang tính chiến lược: Tìm ra mối quan hệ giữa các mơn học, điểm đầu vào của sinh viên đến kết quả học tập, Xu hướng về học lực của sinh viên trong năm tới...
Mơi trường thực hiện:
Window 7.
Hệ quản trị CSDL SQL Server 2008.
3.2.1. Thơng tin về dữ liệu điểm
Kết quả học tập của sinh viên
Kết quả học tập của sinh viên là điểm tổng kết các mơn học. Trường Đại học SPKT Hưng Yên cĩ nhiều ngành học, tất cả các ngành học đều phải học các mơn cơ bản và các mơn thuộc kiến thức chung bắt buộc; các mơn cơ bản: Tốn cao cấp 1, Tốn cao cấp 2, Vật lý, Hĩa học,… khối kiến thức chung bắt buộc: Triết học, Kinh tế chính trị, …; tuỳ theo từng ngành học mà cĩ các mơn học thuộc các khối kiến thức cơ sở ngành, chuyên ngành: do mỗi chuyên ngành quy định, chẳng hạn chuyên ngành CNTT cĩ các mơn cơ sở ngành: Cơ sở dữ liệu quan hệ, Hệ quản trị CSDL,… Các mơn chuyên ngành,... Mỗi năm, các mơn chuyên ngành lựa chọn cĩ sự thay đổi để giúp sinh viên phù hợp với thị trường lao động, cĩ nghĩa là chương trình đào tạo của mỗi chuyên ngành sẽ được cập nhật hàng năm đối với các chuyên ngành cĩ nhiều cơng nghệ mới ra đời. Chẳng hạn, trước kia mơn Cơ sở kỹ thuật lập trình dùng ngơn ngữ Pasal, qua các năm chuyển thành dùng ngơn ngữ C++, và hiện tại là C#.
Trường đã sử dụng phần mềm Microsoft Office Excel để tổng hợp và quản lý điểm, kết quả của sinh viên của mỗi lớp sẽ được tổng hợp trong tồn khĩa như sau: