Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
478,5 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHAI THÁC DỮ LIỆU (DATA MINING) (Bài tiểu luận môn Công nghệ tri thức và ứng dụng) Họ tên MSSV Vũ Công Tâm CH.11.01129 Nguyễn Võ Thanh Sang CH.11.01036 Lớp : Cao học Khóa : K6-2011 GVHD : GS.TSKH. Hoàng Kiếm TP.Hồ Chí Minh, tháng 05 năm 2012 Khóa luận Công nghệ tri thức MỤC LỤC LỜI NÓI ĐẦU 1 Phần MỘT: Đại cương về khai thác dữ liệu I. Giới thiệu 4 II. Luật kết hợp trong khai thác dữ liệu 5 III. Thuật toán Apriori 7 IV. Thuật toán Apriori nhị phân 8 Phần HAI: Giới thiệu chương trình demo I. Chức năng chính của website 11 1. Thống kê về thông tin 1 ngành trong 1 trường 11 2. Thống kê các chỉ số của 1 ngành nào đó giữa nhiều trường trong 1 năm 14 3. Tỉ lệ phần trăm giữa các ngành trong 1 trường: 16 4. Thống kê tỉ lệ phần trăm của 1 ngành giữa các trường trong 1 năm 17 5. Thống kê tỉ lệ phần trăm của các khối giữa các trường trong 1 năm 18 II. Thiết kế hệ thống 19 III. Lời kết 20 IV. Tài liệu tham khảo 21 Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Khóa luận Công nghệ tri thức LỜI NÓI ĐẦU “We are drowning in data, but starving for knowledge” (Tạm dịch: Chúng ta đang chết chìm trong dữ liệu nhưng chết đói vì tri thức) Hằng năm có trên một triệu thí sinh tham dự kỳ thi tuyển sinh ĐH, CĐ và qua ba đợt xét tuyển, trung bình khoảng 35% thí sinh trúng tuyển nhưng đa số lựa chọn các nhóm ngành được xem là “hot” trong khi nhiều ngành khác tuyển không đủ chỉ tiêu, thậm chí không có sinh viên. Nhiều chuyên gia cho rằng sự mất cân đối trong tuyển sinh là do công tác dự báo nguồn nhân lực và hướng nghiệp còn nhiều bất cập. Kết quả từ một đề tài khoa học cấp Nhà nước mới đây về khảo sát học sinh, giáo viên, phụ huynh, cán bộ quản lý trên phạm vi 8 tỉnh, TP cho thấy có tới 70% học sinh tốt nghiệp THPT bước vào đời không được giáo dục hướng nghiệp đầy đủ; 60% giáo viên chưa coi trọng hoặc thiếu khả năng tổ chức các hoạt động giáo dục hướng nghiệp; 89% số giáo viên được khảo sát thừa nhận các trường phổ thông chưa quan tâm đến công tác hướng nghiệp hoặc có hướng nghiệp nhưng chưa chú ý phát triễn nguồn nhân lực cho công nghiệp hóa… Theo TS. Lê Đông Phương, Giám đốc Trung tâm nghiên cứu giáo dục ĐH và nghề nghiệp – Viện nghiên cứu giáo dục Việt Nam: “Thực tế cho thấy chúng ta vẫn còn yếu và thiếu trong việc đánh giá, nghiên cứu, cũng như việc cảnh báo ngành học nào cần thiết trước mắt, ngành nào cần thiết trong tương lai lâu dài để từ đó cảnh báo cho các em học sinh và các bậc phụ huynh lựa chọn cho phù hợp… Chúng ta vẫn còn thiếu và yếu kênh thông tin đầy đủ cho các thí sinh chọn nghề nghiệp trong dài hạn chứ không phải chỉ là vấn đề như trước mắt hiện nay. Tránh tình trạng như vài năm trước, các trường thi nhau mở các khối ngành như kinh tế, kế toán, tài chính – ngân hàng, chứng khoán… Thời điểm đó, đúng là “hot” thật nhưng đến khi sinh viên ra trường, nhu cầu thực của xã hội lại không nhiều như vậy”. Theo ThS Trần Đình Lý, Giám đốc trung tâm hỗ trợ sinh viên và Quan hệ doanh nghiệp của Trường Đại học Nông Lâm TPHCM, hiện chưa có thống kê khả năng đáp ứng của các lĩnh vực và việc cân đối thừa, thiếu trong các ngành nghề ra sao. Ông cũng đề xuất các cơ quan quản lý nên tăng cường khảo sát điều tra, dự báo xu hướng biến động về nhu cầu của từng lĩnh vực ngành nghề và công bố rộng rãi. Các Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 1 Khóa luận Công nghệ tri thức thông tin quan trọng này sẽ được nhà trường biết, thí sinh biết, cả xã hội biết và như thế sẽ góp phần điều chỉnh sự mất cân đối ngành nghề hiện nay. Trong phạm vi bài khóa luận môn học Công nghệ tri thức, chúng em đã phát triễn một ứng dụng nhỏ nhằm tổng hợp và thống kê số liệu tuyển sinh hằng năm của các trường thành một thể thống nhất hơn, nhằm giúp các em học sinh có cái nhìn khái quát về số lượng đăng ký, chỉ tiêu tuyển sinh, so sánh giữa các trường… hỗ trợ ra quyết định chọn cho mình một ngành nghề. Ứng dụng này có thể được phát triễn mở rộng thêm theo hướng phân tích dữ liệu về số lượng sinh viên tốt nghiệp, số lượng sinh viên tìm được việc làm thích hợp sau khi ra trường hằng năm… để tìm ra nhu cầu nhân lực của xã hội, góp phần định hướng nghề nghiệp cho học sinh. Ứng dụng được đăng tải trên Internet với tên miền: http://tuyensinh.posy.vn tạo thuận lợi cho học sinh, phụ huynh và các nhà quản lý giáo dục truy cập sử dụng. Chúng em xin chân thành cảm ơn GS. TSKH. Hoàng Kiếm đã tận tình giảng dạy, cung cấp những kiến thức mới mẻ trong lĩnh vực khám phá tri thức, xây dựng những hệ thống thông minh hơn để phục vụ cho con người ngày càng tốt hơn. Tuy thời gian học tập không được nhiều nhưng thầy đã cho chúng em những cái nhìn khái quát, những ý tưởng và hướng tiếp cận mới trong lĩnh vực máy học, khám phá tri thức. Đó thực sự là những hành trang quý giá để chúng em tiếp tục nghiên cứu và phát triễn. Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 2 Khóa luận Công nghệ tri thức Bài khóa luận này gồm hai phần chính: Phần một: Cơ sở lý thuyết của ngành khai thác dữ liệu (Data mining) – Giới thiệu thuật toán Apriori nhị phân. Nguyễn Võ Thanh Sang – CH1101036 Phần hai: Chương trình demo phân tích, thống kê, so sánh số liệu đăng ký tuyển sinh hằng năm của các trường đại học, hỗ trợ ra quyết định đăng ký dự thi. Vũ Công Tâm – CH1101129 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 3 Khóa luận Công nghệ tri thức Phần MỘT: ĐẠI CƯƠNG VỀ KHAI THÁC DỮ LIỆU (DATA MINING) I. Giới thiệu: Trong thời đại ngày nay, với sự phát triễn vượt bật của công nghệ thông tin, các hệ thống thông tin có thể tạo ra và lưu trữ một khối lượng lớn dữ liệu về hoạt động hằng ngày của chúng. Các ví dụ có thể thấy là dữ liệu hóa đơn mua hàng trong siêu thị, dữ liệu giao dịch chứng khoán, dữ liệu giao dịch qua thẻ ATM, dữ liệu đăng kí thi tuyển đại học… Khối lượng dữ liệu này là rất lớn với hàng triệu bảng ghi thông tin. Có thể nói là chúng ta “chết ngộp” trong biển thông tin này. Vấn đề là làm sao từ khối lượng thông tin khổng lồ đó có thể tìm ra những tri thức quý báu cần thiết để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu. Từ nhu cầu bức thiết trên, các kĩ thuật về khai thác dữ liệu và máy học ra đời và ngày càng được cải tiến để có thể giải quyết những bài toán hóc búa của con người như lập mô hình, dự báo, hỗ trợ ra quyết định, xây dựng những hệ thống ngày càng thông minh hơn. Các công đoạn của quá trình khai thác tri thức từ cơ sở dữ liệu bao gồm 6 bước: 1. Chọn lọc dữ liệu (data selection). 2. Xóa bỏ dữ liệu không cần thiết (cleaning). 3. Làm giàu dữ liệu (enrichment). 4. Mã hóa (coding). 5. Khám phá tri thức (data mining). 6. Báo cáo kết quả (reporting). Quá trình này có thể được lặp lại nhiều lần, qua một hay nhiều giai đoạn dựa trên phản hồi từ kết quả của các giai đoạn sau. Một số phương pháp khai thác dữ liệu phổ biến: 1. Phương pháp quy nạp 2. Cây quyết định và luật 3. Phát hiện các luật kết hợp 4. Các phương pháp phân lớp và hồi quy phi tuyến Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 4 Khóa luận Công nghệ tri thức 5. Phân nhóm và phân đoạn 6. Các phương pháp dựa trên mẫu 7. Mô hình phụ thuộc dựa trên đồ thị xác suất 8. Khai phá dữ liệu dạng văn bản 9. Mạng Neuron 10.Giải thuật di truyền Trong phạm vi bài khóa luận này, em chỉ xin trình bày về một thuật toán phổ biến trong khai mỏ tìm luật kết hợp đó là thuật toán Apriori nhị phân. II. Luật kết hợp trong khai thác dữ liệu (Association Rule in Data Mining) Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây. Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t 1 , t 2 , …, t n . T = {t 1 , t 2 , …, t n }. T gọi là cơ sở dữ liệu giao dịch (Transaction Database) Mỗi giao dịch t i bao gồm tập các đối tượng I (gọi là itemset): I = {i 1 , i 2 , …, i m } Một itemset gồm k items gọi là k-itemset Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation) giữa các items. Những luật kết hợp này có dạng X => Y Trong bài toán mua hàng siêu thị, luật kết hợp X =>Y có thể hiểu rằng những người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y. (X và Y là các itemset). Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 5 Khóa luận Công nghệ tri thức Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật kết hợp X => Y thì chúng ta có thể nói rằng những người mua Apple và Banana thì cũng thường mua Cherry và Durian. Theo quan điểm thống kê, X được xem là biến độc lập (Independent variable) còn Y được xem là biến phụ thuộc (Dependent variable) Độ hỗ trợ (Support) và độ tin cây (Confidence) là hai tham số dùng để đo lường luật kết hợp. Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất cả các items trong cả hai tập X và Y. Ví dụ, support của luật X =>Y là 5% có nghĩa là 5% các giao dịch X và Y được mua cùng nhau. Công thức để tính support của luật X =>Y như sau: Trong đó: N là tổng số giao dịch. Độ tin cậy (Confidence) của luật kết hợp X =>Y là xác suất xảy ra Y khi đã biết X. Ví dụ độ tin cậy của luật kết hợp {Apple} =>Banana} là 80% có nghĩa là 80% khách hàng mua Apple cũng mua Banana. Công thức để tính độ tin cậy của luật kết hợp X => Y là xác suất có điều kiện Y khi đã biết X như sau: Trong đó: n(X) là số giao dịch chứa X Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support (min_sup) và minimum confidence (min_conf) Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rle) Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 6 Khóa luận Công nghệ tri thức Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và phải xác định trước khi sinh các luật kết hợp. Một itemsets mà tần suất xuất hiện của nó >= min_sup gọi là frequent itemsets Một số loại luật kết hợp - Luật kết hợp nhị phân (Binary association rules): Ví dụ: Khách hàng mua Apple thì thường cũng sẽ mua Banana - Luật kết hợp định lượng (Quantitative association rules): Ví dụ: Nếu Trọng lượng trong khoãng [70kg – 90kg] thì Chiều cao sẽ nằm trong khoãng [170cm – 190cm] - Luật kết hợp mờ (Fuzzy association rules): Ví dụ: Nếu Trọng lượng là NẶNG thì Chiều cao thường là CAO. Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules. III. Thuật toán Apriori Thuật toán do Agrawal đề xuất năm 1994, dựa trên một nhận xét khá đơn giản là bất kỳ tập hợp con nào của tập xuất hiện σ – thường xuyên cũng là tập xuất hiện σ – thường xuyên. Do đó, trong quá trình đi tìm các tập ứng cử viên, nó chỉ cần dùng đến các tập ứng cử viên vừa xuất hiện ở bước ngay trước đó, chứ không cần dùng đến tất cả các tập ứng cử viên (cho đến thời điểm đó). Nhờ vậy, bộ nhớ được giải phóng đáng kể. 1/ Bước 1: cho trước ngưỡng độ hỗ trợ 0 ≤ σ ≤ 1. Tìm tất cả các đối tượng xuất hiện σ – thường xuyên. Tập hợp tìm được ký hiệu là L 1 . 2/ Bước 2: Tiến hành ghép đôi các phần tử của L 1 (không cần để ý đến thứ tự), được tập C2, gọi là tập các ứng cử viên có 2 phần tử. Sở dĩ chỉ gọi là “ứng cử viên”, vì chưa chắc chúng đã là σ – thường xuyên. Sau khi kiểm tra (dùng định Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 7 Khóa luận Công nghệ tri thức nghĩa), ta lọc ra được các tập hợp σ – thường xuyên có 2 phần tử. Ký hiệu tập hợp này là L 2 . 3/ Bước 3: Với chú ý đã nêu (về tính chất tăng dần của các tập hợp σ – thường xuyên), ta tiến hành tìm các ứng cử viên có 3 phần tử (lấy từ L 1 ). Gọi nó là tập C 3 . Lưu ý là nếu {A, B, C} muốn là “ứng cử viên” thì các tập 2 phần tử {A, B}, {B,C},{C, A } đều phải là σ – thường xuyên, tức là chúng đều là phần tử của tập L 2 . Ta đi kiểm tra trong tập C 3 và lọc ra được tập các tập hợp σ – thường xuyên có 3 phần tử. Tập hợp này được ký hiệu là L 3 . 4/ Bước 4: Tiến hành tìm các ứng cử viên có n phần tử. Gọi tập của chúng là tập C n và từ đây, lọc ra L n là tập tập các tập hợp σ – thường xuyên có n phẩn tử. Thuật toán Apriori có nhiều cải tiến: Apriori-TID, Apriori-Hybrid, Apriori nhị phân IV. Thuật toán Apriori nhị phân: Thuật toán Apriori nhị phân sử dụng các vector bit cho các thuộc tính, vector nhị phân n chiều ứng với n giao tác trong cơ sở dữ liệu. Có thể biểu diễn cơ sở dữ liệu bằng một ma trận nhị phân trong đó dòng thứ I tương ứng với giao tác (bản ghi) t i và cột thứ j tương ứng với mục (thuộc tính) i j . Ma trận biểu diễn cơ sở dữ liệu ví dụ cho bảng dưới: TID A B C D E 1 1 1 0 1 1 2 0 1 1 0 1 3 1 1 0 1 1 4 1 1 1 0 1 5 1 1 1 1 1 6 0 1 1 1 0 Ma trận biểu diễn cơ sở dữ liệu Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 8 [...]... Công nghệ tri thức IV Tài liệu tham khảo [1] Slide bài giảng môn: Công nghệ tri thức và ứng dụng Giảng viên: GS.TSKH Hoàng Kiếm [2] Krzysztof J Cios, Witold Pedrycz, Roman W Swiniarski Data Mining Methods for Knowledge Discovery Kluwer Academic Publishers, 1998 [3] Khai phá dữ liệu (Data Mining) - Nguyễn Văn Chức – 2010 http://bis.net.vn/forums/t/366.aspx [4] Slide bài giảng Khai phá dữ liệu – Cao... sinh, chỉ tiêu, điểm chuẩn và tỉ lệ chọi qua các năm có sự thay đổi như thế nào sẽ được phản ánh rõ qua các sơ đồ: Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 11 Khóa luận Công nghệ tri thức Sơ đồ 1: Số lượng đăng kí dự thi và chỉ tiêu của 1 ngành trong 1 trường qua các năm Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 12 Khóa luận Công nghệ tri thức Sơ đồ 2: Điểm chuẩn và tỉ lệ chọi của 1 ngành... tin TPHCM… trong năm 2011 Sơ đồ 3: Số lượng đăng kí và chỉ tiêu của ngành CNTT giữa các trường trong 1 năm (2011) Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 14 Khóa luận Công nghệ tri thức Sơ đồ 4: Điểm chuẩn và tỉ lệ chọi của ngành CNTT giữa các trường trong 1 năm (2011) Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 15 Khóa luận Công nghệ tri thức 3 Tỉ lệ phần trăm giữa các ngành trong 1 trường:... số liệu trên đây có tính chất tham khảo • Giao diện website không đẹp mắt Tuy nhiên, những hạn chế chỉ là hạn chế về mặt số liệu Khi số liệu đã nhập đúng, thì chương trình sẽ cho ra kết quả chuẩn xác Hy vọng trong thời gian tới, nhóm phát tri n sẽ khắc phục những hạn chế trên và sẽ phục vụ các em vào mùa tuyển sinh năm sau 2013 Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 20 Khóa luận Công nghệ tri. .. nước Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 18 Khóa luận Công nghệ tri thức II Thiết kế hệ thống Để đạt kết quả trên, hệ thống được thiết kế như sau: Cơ sở dữ liệu của website Trong đó: School: Lưu trữ thông tin về một trường ShoolType: Mỗi trường sẽ thuộc loại nào (ĐH, CD, TH…) SchoolGroup: Mỗi trường sẽ thuộc nhóm nào (ĐH Quốc gia, Công lập, dân lập, tư thục, bán công ) Region: Lưu trữ vùng... Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 13 Khóa luận Công nghệ tri thức 2 Thống kê các chỉ số của 1 ngành nào đó giữa nhiều trường trong 1 năm Thí sinh muốn so sánh các chỉ số trên của một ngành nào đó giữa các trường khác nhau trong 1 năm: Ví dụ: So sánh các chỉ số trên của ngành công nghệ thông tin giữa các trường ĐH Bách khoa TPHCM, ĐH Khoa học tự nhiên TPHCM, ĐH Công nghệ thông tin TPHCM… trong... trợ 17% (1/6) Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 10 Khóa luận Công nghệ tri thức Phần HAI: Chương trình demo Website thống kê các chỉ số của thông tin tuyển sinh đại học cao đẳng cho các em chuẩn bị cho kì thi tuyển sinh Hằng năm theo thống kê của Bộ giáo dục có khoảng một tri u học sinh thi tuyển sinh vào các trường đại học và cao đẳng trong cả nước, và cả nước có khoảng trên dưới năm trăm... ngành trong 1 trường của 1 năm Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 16 Khóa luận Công nghệ tri thức 4 Thống kê tỉ lệ phần trăm của 1 ngành giữa các trường trong 1 năm Chức năng này cung cấp thông tin về tỉ lệ phần trăm thí sinh đăng kí vào 1 ngành nào đó của một năm Ví dụ: năm 2001 ngành CNTT có thông kê về tỉ lệ thí sinh đăng kí dự thi vào các trường như sau: ĐH BK TPHCM: 20% ĐH KHTN TPHCM... ngành của một trường Section: Loại của ngành đó (Tự nhiên, xã hội, loại khác) Field: Khối thi của ngành (A,B,C,…) GroupMajor: Ngành đó thuộc nhóm nào Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 19 Khóa luận Công nghệ tri thức Nhóm Sư phạm: sư phạm toán, sư phạm văn, sư phạm lý… Nhóm Điện tử: điện tử, cơ điện tử, điều khiển tự động… Nhóm CNTT :CN Phần mềm, khoa học máy tính, mạng… DetailEnrolling:... 20% ĐH KHTN TPHCM 25 % ĐH CNTT 10% Các trường còn lại : 45% Sơ đồ 6: Thống kê tỉ lệ các thí sinh đăng kí dự thi của 1 ngành giữa các trường trong 1 năm Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 17 Khóa luận Công nghệ tri thức 5 Thống kê tỉ lệ phần trăm của các khối giữa các trường trong 1 năm Chức năng cung cấp cho thí sinh thông tin về phần trăm các thí sinh đăng kí giữa cáck khối giữa các trường . GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHAI THÁC DỮ LIỆU (DATA MINING) (Bài tiểu luận môn Công nghệ tri thức và ứng dụng) Họ tên MSSV Vũ Công Tâm CH.11.01129 Nguyễn Võ Thanh. Minh, tháng 05 năm 2012 Khóa luận Công nghệ tri thức MỤC LỤC LỜI NÓI ĐẦU 1 Phần MỘT: Đại cương về khai thác dữ liệu I. Giới thiệu 4 II. Luật kết hợp trong khai thác dữ liệu 5 III. Thuật toán Apriori. – Vũ Công Tâm – CH6 Trang 3 Khóa luận Công nghệ tri thức Phần MỘT: ĐẠI CƯƠNG VỀ KHAI THÁC DỮ LIỆU (DATA MINING) I. Giới thiệu: Trong thời đại ngày nay, với sự phát tri n vượt bật của công nghệ