Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ỨNG DỤNG XÂY DỰNG MÔ HÌNH DỰ BÁO SỐ LƯỢNG THÍ SINH TRÚNG TUYỂN NHẬP HỌC TRONG KỲ THI TUYỂN SINH ĐẠI HỌC CAO ĐẲNG
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
39
Dung lượng
465,58 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG XÂY DỰNG MƠ HÌNH DỰ BÁO SỐ LƯỢNG THÍ SINH TRÚNG TUYỂN NHẬP HỌC TRONG KỲ THI TUYỂN SINH ĐẠI HỌC, CAO ĐẲNG GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên MSHV: CH1301102 TP HCM, Tháng 09 năm 2014 MỤC LỤC DANH MỤC HÌNH GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên PHẦN 1: MỞ ĐẦU Khai phá liệu lĩnh vực khoa học liên ngành phát triển dần hoàn thiện sở lý thuyết nhiều lĩnh vực nhằm khám phá tri thức sở liệu lớn, trích xuất thơng tin ẩn dạng quy luật, ràng buộc, quy tắc hữu ích cho tổ chức, doanh nghiệp,… Các kỹ thuật sử dụng khai phá liệu bao gồm: phân lớp dự đoán, phân cụm, luật kết hợp, phân tích hồi quy phân tích mẫu theo thời gian Hiện nay, kỹ thuật khai phá liệu ứng dụng rộng rãi lĩnh vực phân tích liệu hỗ trợ định điều trị y học, giáo dục, thương mại, tài chính,… Trong số đó, lý thuyết tập thơ nghiên cứu phát triển với khả ứng dụng nhiều lĩnh vực đặc biệt phân tích liệu, tri thức không đầy đủ Nước ta thực cơng cơng nghiệp hóa đại hóa nhằm thúc đẩy kinh tế phát triển mạnh mẽ Trong q trình này, vai trị tảng giáo dục, đặc biệt giáo dục Đại học xã hội ghi nhận phát huy Vì vai trị quan trọng giáo dục Đại học xã hội, quan quản lý quy định tiêu chuẩn đảm bảo chất lượng giáo dục luật giáo dục Đại học nhiều văn ngang luật Trong số đó, quy mơ đào tạo tiêu tuyển sinh trường quy định chặt chẽ Tuy nhiên, biết, năm, kỳ thi tuyển sinh Đại học Cao đẳng trường phải đối mặt với vấn đề số lượng thí sinh ảo trúng tuyển ảo Vấn đề đặt cho trường xác định giá trị ảo Từ đó, xác định số lượng thí sinh trúng tuyển nhập học tương xứng với tiêu tuyển sinh quy định trước vấn đề nan giải đại phận trường Đại học Cao đẳng nước Vì lý đó, tác giả thực chuyên đề nhằm đề giải pháp dự báo số lượng thí sinh trúng tuyển nhập học kỳ thi tuyển sinh Đại học, Cao đẳng Chuyên đề tìm hiểu tập thơ, định mạng neural đề xuất giải pháp xây dựng mơ hình dự báo số lượng thí sinh trúng tuyển nhập học kỳ thi tuyển sinh Đại học, Cao đẳng Trang GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Ngun PHẦN 2: MƠ TẢ BÀI TỐN Ở nước ta, kỳ thi tuyển sinh Đại học, Cao đẳng năm hội cho trường Đại học, Cao đẳng tuyển chọn thí sinh có trình độ tốt phù hợp với ngành nghề đào tạo yếu tố quan trọng ảnh hưởng đến chất lượng đào tạo, danh tiếng trường nghiệp giáo dục Tuy nhiên, quy mô đào tạo trường khác dẫn đến số lượng chất lượng thí sinh dự thi khác Khi đó, trường có quy mơ đào tạo vừa nhỏ cần thiết việc dự báo số lượng thí sinh dự thi ảo có định phù hợp nhằm đảm bảo chất lượng đầu vào số lượng thí trúng tuyển nhập học Có vậy, trường đảm bảo quy mô chất lượng đào tạo đảm bảo tiêu quy định Đây vấn đề chung ngành giáo dục chưa quan tâm mức Tuy nhiên, vấn đề xem xét vấn đề nhà kinh doanh nghiên cứu hành vi lựa chọn sản phẩm khách hàng công tác nghiên cứu thị trường, đánh giá tiềm khách hàng Khi đó, nghiên cứu hành vi khách hàng trước dự báo cho người Tương tự, xem xét lựa chọn thí sinh trước dự báo cho tương lai Như vậy, toán đặt yêu cầu tìm giải pháp trả lời câu hỏi “một thí sinh chọn theo học ngành trường thí sinh đủ điểm trúng tuyển hai ngành trường Đại học, Cao đẳng kỳ thi tuyển sinh?" Với yêu cầu xem bất khả thi khơng có cơng cụ phân tích liệu Trang GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên PHẦN 3: KHAI PHÁ DỮ LIỆU 3.1 TẬP THÔ 3.1.1 Giới thiệu Lý thuyết tập thô (Rough set) đề xuất vào năm 1980 Z.Pawlak Lý thuyết xây dựng phương pháp luận liên quan đến phân loại phân tích khơng chắn thơng tin tri thức khơng đầy đủ Khái niệm lý thuyết tập thô xấp xỉ tập, xấp xỉ khơng gian hình thức phân loại tri thức liên quan đến miền liệu quan tâm Tập tạo xấp xỉ mô tả đối tượng thành phần chắn tập, xấp xỉ đặc trưng đối tượng có khả thuộc tập quan tâm Trong nhiều trường hợp khai phá liệu, liệu sử dụng thường không hồn thiện, giá trị khơng xác định lỗi trình thu thập, tổng hợp liệu Lý thuyết tập thô phát huy tác dụng cho trường hợp cơng cụ nhằm giải gần trường hợp định không chắn Một ưu điểm lý thuyết tập thô hướng tiếp cận xác suất Bayes không cần giả định độc lập thuộc tính khơng cần kiến thức liệu Gần đây, lý thuyết tập thô trở thành công cụ đánh giá xử lý vấn đề khác trình bày tri thức khơng chắn khơng xác, phân tích tri thức, đánh giá chất lượng tính khả dụng thơng tin tính qn có mặt mẫu không theo thời gian, nhận dạng đánh giá phụ thuộc thời gian, suy luận Lý thuyết tập thô dựa giả thuyết để định nghĩa tập hợp, cần phải có thơng tin đối tượng tập vũ trụ Trong nội dụng trình bày khái niệm tập thô sau: + Hệ thông tin / định + Quan hệ bất khả phân biệt + Xấp xỉ tập hợp + Rút gọn lõi + Ma trận phân biệt Trang GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên 3.1.2 Hệ thơng tin Một tập liệu biểu diễn dạng bảng, dịng biểu diễn thông tin ứng với đối tượng, cột biểu diễn thuộc tính đo đối tượng (do chuyên gia hay người sử dụng cung cấp) Bảng gọi hệ thông tin Hình thức hơn, hệ thơng tin cặp S = (U, A) + Trong U tập hữu hạn khác rỗng đối tượng gọi tập vũ trụ tập phổ dụng, A tập hữu hạn khác rỗng thuộc tính + Với u ∈ U a ∈ A, ta ký hiệu u(a) giá trị đối tượng u thuộc tính a + Nếu gọi Ia tập tất giá trị thuộc tính a, u(a) ∈ Ia với u ∈ U Bây giờ, B = {b1 , b2 , ,bk} ⊆ A, ta ký hiệu giá trị u(b i) u(B) Như vậy, u v hai đối tượng, ta viết u(B) = v(B) u(b i) = v(bi), với i =1, 2, , k Một hệ thông tin bao gồm đối tượng U={u1,u2,u3,u4,u5,u6,u7,u8}, tập thuộc tính A={Color, Size }, miền giá trị cho thuộc tính IColor = {Green, Yellow, Red}, ISize = {Small, Medium, Big } ID Color Size U1 Green Big U2 Green Small U3 Yellow Medium U4 Red Medium U5 Yellow Medium U6 Green Big U7 Red Small Trang GVHD: GS TSKH Hoàng Văn Kiếm ID U8 HVTH: Lê Thành Nguyên Color Size Red Small Bảng 1: Hệ thông tin 3.1.3 Bảng định Bảng định hệ thống thơng tin có dạng T=(U,A),với U tập đối tượng A tập thuộc tính, tập thuộc tính A chia thành tập thuộc tính rời C D, C gọi tập thuộc tính điều kiện D tập thuộc tính định Tức T = (U, C, U, D) Ví dụ: Bảng sau bảng định Bảng có đối tượng bảng 1, có thêm thuộc tính định (Shape) Trong tốn phân lớp thuộc tính định lớp đối tượng cần xếp lớp Trong ví dụ thuộc tính định Shape có giá trị Circle, Square Triangle ID Color Size Shape (D) U1 Green Big Circle U2 Green Small Circle U3 Yellow Medium Square U4 Red Medium Square U5 Yellow Medium Triangle U6 Green Big Circle U7 Red Small Triangle U8 Red Small Bảng 2: Bảng định Triangle 3.1.4 Quan hệ bất khả phân biệt Một hệ thông tin thể tri thức đối tượng giới thực Tuy nhiên, nhiều trường hợp bảng tinh giảm tồn hai khả dư thừa thơng tin sau đây: Trang GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên + Nhiều đối tượng giống hay phân biệt thể lặp lại nhiều lần + Một số thuộc tính dư thừa, theo nghĩa bỏ thuộc tính thơng tin hệ định cung cấp mà chúng tâm không bị mát Một quan hệ hai R ⊆ X2 gọi quan hệ tương đương có tính chất sao: + Tính phản xạ (xRx với x) + Tính đối xứng (nếu xRy yRx) + Tính bắc cầu (nếu xRy yRz xRz) Một quan hệ tương đương R phân hoạch tập đối tượng thành lớp tương đương, đó, lớp tương đương đối tượng x tập tất đối tượng có quan hệ R với x Xét hệ thông tin S = (U, A), với tập thuộc tính B ⊆ A tạo quan hệ hai U, ký hiệu IND(B): IND(B) = {( u, v) ∈ U2 | ∀a ∈ B, a(u) = a(v)} IND(B) gọi quan hệ bất khả phân biệt theo B Dễ kiểm chứng quan hệ tương đương U Với đối tượng u ∈ U, lớp tương đương u quan hệ IND(B) kí hiệu [u]B Ví dụ: Tập thuộc tính B= {Color, Size} Bảng phân hoạch tập đối tượng thành tập lớp tương đương sau: IND(B) = {(u1, u6), (u2), (u3, u5), (u4), (u6, u7)} Nhận xét: Ta thấy, đối tượng u1và u6 lớp tương đương nên chúng phân biệt với tập thuộc tính {Color, Size } 3.1.5 Tập xấp xỉ Một quan hệ tương đương dẫn đến phân hoạch phổ quát U Có thể dùng phép phân hoạch để tạo tập tập phổ quát Các tập thường quan tâm tập có giá trị thuộc tính định Cho hệ thông tin S = (U, A), với tập X ⊆ U B ⊆ A, Ký hiệu R = IND(B), ta có tập sau : BX = { x | [x]B ⊆ X } Trang GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên Trong BX, X gọi B-xấp xỉ B- xấp xỉ tập X Tập BX bao gồm tất phần tử U chắn thuộc vào X Tập bao gồm phần tử U có khả phân loại vào phần tử thuộc X ứng với quan hệ R Từ hai tập xấp xỉ người ta định nghĩa tập: + BNB(X) = - BX: B- miền biên X + POSB(X) = BX: B-vùng dương X + NEGB(X) = U - : B-vùng âm X Trong trường hợp BNB(X) ≠ ∅, X gọi tập thô, ngược lại X gọi tập rõ Ví dụ: Xét hệ thống thông tin biểu diễn triệu chứng cảm cúm sau: ID Đau đầu Thân nhiệt Cảm cúm U1 Có Bình thường Khơng U2 Có Cao Có U3 Có Rất Cao Có U4 Khơng Bình thường Khơng U5 Khơng Cao Khơng U6 Khơng Rất Cao Có U7 Khơng Cao Có U8 Khơng Rất Cao Khơng Bảng 3: Triệu chứng cảm cúm Từ hệ thống thơng tin trên, ta có lớp không phân biệt B={Đau đầu, Thân Nhiệt} {u1},{u2},{u3},{u4},{u5,u7},{u6,u8} Nếu đặt V={u|u(Cảm cúm)=Có}={u2,u3,u6,u7}, lúc ta có: Trang 10 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên Mạng Neural xây dựng mạng gồm lớp mắc nối tiếp từ đầu vào đến đầu Trong mạng không tồn mạch hồi tiếp Một mạng Neural có cấu trúc gọi mạng hướng hay mạng truyền thẳng hướng (Feed forward network), có cấu trúc mạng ghép nối hồn tồn (vì Neural mạng nối với vài Neural khác) Mạng Neural bao gồm hay nhiều lớp trung gian gọi mạng Multilayer Perceptrons) (MLP-Network) Mạng Neural hình thành chưa có tri thức, tri thức mạng hình thành sau trình học Mạng Neural học cách đưa vào kích thích, mạng hình thành đáp ứng tương ứng, đáp ứng tương ứng phù hợp với loại kích thích lưu trữ Giai đoạn gọi giai đoạn học mạng Khi hình thành tri thức mạng, mạng giải vấn đề cách đắn Đó vấn đề ứng dụng khác nhau, giải chủ yếu dựa tổ chức hợp thông tin đầu vào mạng đáp ứng đầu Nếu nhiệm vụ mạng hoàn chỉnh hiệu chỉnh thông tin thu không đầy đủ bị tác động nhiễu Mạng Neural kiểu ứng dụng lĩnh vực hoàn thiện mẫu, có ứng dụng cụ thể nhận dạng chữ viết Nhiệm vụ tổng quát mạng Neural lưu giữ động thông tin Dạng thơng tin lưu giữ quan hệ thông tin đầu vào đáp ứng đầu tương ứng, để có kích thích tác động vào mạng, mạng có khả suy diễn đưa đáp ứng phù hợp Đây chức nhận dạng theo mẫu mạng Neural Để thực chức này, mạng Neural đóng vai trị phận tổ chức nhóm thơng tin đầu vào, tương ứng với nhóm đáp ứng đầu phù hợp Như vậy, nhóm bao gồm loại thơng tin đầu vào đáp ứng đầu Các Trang 25 GVHD: GS TSKH Hồng Văn Kiếm HVTH: Lê Thành Ngun nhóm hình thành q trình học, khơng hình thành q trình học Mạng tầng Neural Mạng tầng S ký hiệu W ma trận trọng số, p vectơ tín hiệu vào b vectơ khuynh hướng Ma trận trọng số có dạng Ta quy ước số thứ Neural mà tín hiệu đến cịn số thứ hai nguồn tín hiệu n = Wp + b ; a = f(n) = f(Wp + b) Mạng nhiều tầng Neural Mạng có nhiều tầng Neural, mạng truyền tới tầng (hai tầng Neural) minh họa bên dưới.Trong đó, số tầng Neural tương ứng Ta nói, mạng ntầng n số tầng Neural Hình Mơ hình mạng ba tầng truyền tới Mạng hồi quy Khối trễ: T biến thời gian giá trị nguyên dương Trang 26 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên Bộ tích phân Bộ có đầu cho cơng thức: a(t)=u(t)dt0+a(0) Điềukiệubanđầua(0)đượcđưavàtừđáy.Bộnayđượckýhiệu: Bộtíchphân Bây ta làm quen với mạng hồiquy Mạng hồi quy mạng có số tín hiệu nối với tín hiệu vào (có mối liên hệ ngược) Mạng hồi quy thường có nhiều khả mạng truyền tới Ví dụ hình mạng hồi quy Hình Mạng hồi quy Mạng Hopfield Mạng Hopfield mạng phản hồi lớp Cấu trúc chi tiết thể hình Khi hoạt động với tín hiệu rời rạc, gọi mạng Hopfield rời rạc, cấu trúc gọi mạng hồi quy Trang 27 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên Hình 10 Cấu trúc mạng Hopfield Như mạng Hopfield vẽ trên, ta thấy nút có đầu vào bên ngồi x j θj giá trị ngưỡng (j = 1,2, n) Một điều quan trọng cần nói nút khơng có đường phản hồi Nút đầu thứ j nối tới đầu vào nút khác qua ≠ trọng số wij, với i j, (i = 1,2, ,n), hay nói cách khác wii = 0, (với i = 1,2, ,n) Một điều quan trọng trọng số mạng Hopfield đối xứng, tức w ij = wji, (với i,j = 1,2, ,n) Khi đó, luật cập nhật cho nút mạng sau: y ( k +1) i n (k ) = sgn ∑ wij y j + xi − θ , jj =1 ≠i i = 1,2, ,n Luật cập nhật tính tốn cách thức khơng đồng Điều có nghĩa là, với thời gian cho trước, có nút mạng cập nhật đầu Sự cập nhật nút sử dụng đầu cập nhật Nói cách khác, hình thức hoạt động không đồng mạng, đầu cập nhật độc lập Có khác biệt luật cập nhật đồng luật cập nhật không đồng Với luật cập nhật khơng đồng có trạng thái cân hệ (với giá trị đầu xác định trước) Trong đó, với luật cập nhật đồng làm mạng hội tụ điểm cố định vịng giới hạn Trang 28 GVHD: GS TSKH Hồng Văn Kiếm HVTH: Lê Thành Nguyên Mạng BAM Mạng BAM bao gồm hai lớp xem trường hợp mở rộng mạng Hopfield Ở ta xét mạng rời rạc, đơn giản dễ hiểu Hình 11 Cấu trúc mạng BAM Khi mạng Neural tích cực với giá trị đầu vào vector đầu vào lớp, mạng có hai mẫu trạng thái ổn định, với mẫu đầu lớp Tính động học mạng thể dạng tác động qua lại hai lớp 3.3.5 Các luật học (Learning rules) Thông thường, mạng Neural điều chỉnh huấn luyện để hướng đầu vào riêng biệt đến đích đầu Cấu trúc huấn luyện mạng hình Ở đây, hàm trọng số mạng điều chỉnh sở so sánh đầu với đích mong muốn (taget), đầu mạng phù hợp với đích Những cặp vào/đích (input/taget) dùng để giám sát cho huấn luyện mạng Để có số cặp vào/ra, giá trị vào gửi đến mạng giá trị tương ứng thực mạng xem xét so sánh với giá trị mong muốn Bình thường, tồn sai số giá trị mong muốn khơng hồn tồn phù hợp với giá trị thực Sau lần chạy, ta có tổng bình phương tất sai số Sai số sử dụng để xác định hàm trọng số Sau lần chạy, hàm trọng số mạng sửa đổi với đặc tính tốt tương ứng với đặc tính mong muốn Từng cặp giá trị vào/ra phải kiểm tra trọng số điều chỉnh vài lần Sự thay đổi hàm trọng số mạng dừng lại, tổng bình phương sai số nhỏ giá trị đặt trước, chạy đủ số lần chạy xác định (trong trường hợp này, mạng khơng thoả mãn u cầu đặt sai lệch cịn cao) Có hai kiểu học: Trang 29 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên − Học tham số: tham số trọng số cập nhật kết nối Neural − Học cấu trúc: trọng tâm biến đổi cấu trúc mạng Neural gồm số lượng nút loại liên kết Giả sử ma trận trọng số bao gồm tất phần tử thích ứng mạng Neural Nhiệm vụ việc học tham số tìm ma trận xác mong muốn từ ma trận giả thiết ban đầu (với cấu trúc mạng Neural có sẵn) Để làm điều mạng Neural phải sử dụng trọng số điều chỉnh, với nhiều phương pháp học khác để tính tốn gần ma trận W cần tìm đặc trưng cho mạng Sau phương pháp học: Học có giám sát (Supervised Learning) Học có giám sát: q trình học có tín hiệu đạo bên ngồi d Trong học có giám sát, thời điểm đầu vào cung cấp tới mạng Neural, phản ứng đầu mong muốn d tương ứng hệ thống đưa Khi đầu vào x (k) đặt vào mạng, đầu mong muốn tương ứng d(k) cung cấp tới mạng Hiệu đầu thực y(k) đầu mong muốn d(k) đo máy phát tín hiệu lỗi Máy tạo tín hiệu lỗi cho mạng để hiệu chỉnh trọng số mạng, với hiệu chỉnh đầu thực tiến sát với đầu mong muốn Hình 12 Mơ hình học có giám sát Học củng cố Tín hiệu chủ đạo d lấy từ mơi trường bên ngồi, tín hiệu khơng đầy đủ, mà có vài bit đại diện có tính chất kiểm tra trình tốt hay xấu Học củng cố dạng học có giám sát, mạng nhận số tín hiệu từ bên ngồi Nhưng tín hiệu phản hồi mang tính chất đánh giá mạng tính chất dẫn Nó cho biết mức độ tốt hay xấu đầu đặc biệt Tín hiệu củng cố bên ngồi thường xử lý máy phát tín hiệu đánh giá để tạo nhiều Trang 30 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên thơng tin tín hiệu đánh giá, sau dùng để điều chỉnh trọng số với mục đích đạt tín hiệu đánh giá tốt Học khơng có giám sát (Unsupervised learning) Hình 13 Học khơng giám sát Trong phần học khơng có giám sát, khơng có thầy hướng dẫn, tức khơng có tín hiệu d cung cấp tới mạch phản hồi Điều cho thấy, ta khơng biết đầu đạt giá trị Với loại này, Neural tự xoay xở với liệu mẫu mà có được, khơng có “thầy” gợi ý cần luyện theo hướng Mạng phải tự khám phá mẫu, đặc tính, tương quan hay loại đầu vào Trong khám phá đặc tính này, tham số mạng bị thay đổi Quá trình gọi tự tổ chức Một ví dụ điển hình trình phân loại đối tượng khơng có thầy, lớp thích hợp hình thành cách khám phá tương tự không tương tự số đối tượng Dạng tổng quát luật học trọng số mạng Neural cho biết số gia vector wi ∆wi tỉ lệ với tín hiệu học r tín hiệu đầu vào x(t) ∆wi η (t) = η r.x(t ) số dương gọi số học dùng để xác định tốc độ học, r tín hiệu học phụ thuộc: r = f r ( wi , x, d i ) Trang 31 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên Hình 14 Cấu trúc chung trình học Ta thấy, vector trọng số wi = [wi1, wi2, , wim]T có số gia tỷ lệ với tín hiệu vào x tín hiệu học r Vector trọng số thời điểm (t+1) tính sau: wi(t+1) = wi(t) + η fr(wi(t),x(t),d(t)).x(t) Phương trình liên quan đến biến đổi trọng số mạng Neural rời rạc, tương ứng với thay đổi trọng số mạng Neural liên tục theo biểu thức sau: dwi = η r.x(t ) dt Vấn đề quan trọng việc phân biệt luật học cập nhật trọng số có giám sát hay khơng có giám sát, học củng cố tín hiệu học r Như vậy, tín hiệu học r làm để thay đổi cập nhật trọng số mạng Neural Mạng Neural nhân tạo có tính chất sau: Là hệ phi tuyến Là hệ xử lý song song Trang 32 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Ngun PHẦN 4: XÂY DỰNG MƠ HÌNH DỰ BÁO Trong phần này, chuyên đề đề cập đến vấn đề thu thập liệu giải pháp xây dựng mơ hình dự báo số lượng sinh viên trúng tuyển nhập học kỳ thi tuyển sinh Đại học, Cao đẳng 4.1 DỮ LIỆU Trong lĩnh vực nào, vấn đề cần phải giải xây dựng mơ hình dự báo liệu Dữ liệu có xác mơ hình thu có độ tương quan cao (nghĩa mơ hình có khả giải thích liệu tốt) Do đó, tính thực tế liệu có ảnh hưởng lớn mơ hình dự báo Hằng năm, sau kết thúc kỳ thi tuyển sinh Đại học, Cao đẳng, liệu ban tuyển sinh cấp trường nước gửi Cục khảo thí kiểm định chất lượng giáo dục, Bộ Giáo dục Đào tạo Cục khảo thí kiểm định chất lượng tổng hợp toàn liệu nhận làm sở đối chiếu, kiểm tra cần thiết Sau đó, liệu gửi trường Đại học, Cao đẳng nước Bộ liệu có đầy đủ thơng tin thí sinh đăng ký dự thi bao gồm điểm kết thi kết trúng tuyển trường thí sinh dự thi Như vậy, liệu xem liệu kết thi tuyển sinh đầy đủ thực tế làm sở cho phân tích, đánh giá q trình xây dựng mơ hình dự báo Tuy nhiên, liệu khơng chứa đựng thơng tin thí sinh nhập học hay không Thông tin tổng hợp từ trường Đại học, Cao đẳng – nơi triển khai thực nghiệm Dữ liệu thí sinh nhập học thu thập dựa liệu thống kê lượng thí sinh nhập học trường Từ đó, ta xác định thí sinh trúng tuyển có nhập học hay khơng? Để liệu thu có độ bao phủ lớn ta cần tiến hành thu thập liệu từ nhiều trường Đại học, Cao đẳng khác Như vậy, việc kết hợp hai liệu trên, ta có liệu đầy đủ xác định thí sinh trúng tuyển có nhập học hay khơng? Những yếu tố ảnh hưởng đến đa số định chọn ngành, chọn trường thí sinh kỳ thi tuyển sinh năm Khi liệu thu thập đầy đủ qua năm liên tiếp, ta xây dựng mơ hình dự báo số lượng thí sinh trúng tuyển nhập học cho kỳ tuyển sinh cho kết có độ xác cao 4.2 GIẢI PHÁP Như nội dung đẽ đề cập phần 3, từ mơ hình xây dựng dựa tập thơ định có khả dự đốn giải thích dạng luật giúp ta xác định Trang 33 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Ngun mơ hình xác hay khơng Ngược lại, mạng neural có khả dự đốn xác khơng có khả giải thích đó, địi hỏi người xây dựng phải có kinh nghiệm việc chọn hàm truyền tuyến tính hay phi tuyến Tuy nhiên, mơ hình dự báo xây dựng hệ hỗ trợ định, đó, lựa chọn phải giải thích rõ ràng giúp nhà quản lý có lựa chọn phù hợp Do đó, mạng neural lựa chọn không phù hợp trường hợp Nhằm xác định ảnh hưởng thuộc tính liệu đến định chọn ngành, chọn trường thí sinh, ta thực thao tác xếp hạng liệu hay phân tích hồi quy (tuyến tính phi tuyến) Qua q trình này, ta xác định mối tương quan, mức độ ảnh hưởng thuộc tính liệu Từ đó, xác định thuộc tính quan trọng mơ hình dự báo loại bỏ thông tin không cần thiết nhằm tối ưu thời gian thực thi chung giải pháp 4.2.1 Xếp hạng liệu Như biết, thí sinh thơng thường chọn ngành, chọn trường phụ thuộc vào số yếu tố định, bao gồm: danh tiếng trường Đại học, Cao đẳng, tính “nóng” ngành lựa chọn dự thi, khả tìm kiếm việc làm cao Ngoài ra, với số ngành đặc thù, lựa chọn phụ thuộc vào nơi cư trú (hộ khẩu) thí sinh Thơng thường để đánh giá mức độ quan trọng biến mơ hình thực dựa ý chí chủ quan chuyên gia Tuy nhiên, với cách làm sai khác thông tin dẫn đến kết khơng xác Trong chun đề này, hạng liệu xét thông qua tần suất xuất tồn liệu U Dữ liệu xét giá trị gồm nhiều thuộc tính A Khi đó, hạng A số lần xuất A U Ví dụ, hạng A(trường = DTM) số lần giá trị thuộc tính “trường” U DTM Hạng A(trường = DTM, ngành = C850103) số lần xuất đồng thời giá trị thuộc tính “trường” U DTM giá trị thuộc tính “ngành” U C850103, … Trong chuyên đề này, thuộc tính đề xuất xếp hạng gồm trường, ngành, trường ngành, ngành tỉnh (hộ thường trú thí sinh đăng ký dự thi) Các phân hạng cho ta biết thông tin về: − Mức độ tin tưởng thí sinh vào trường dự thi − Mức độ “nóng” ngành hay khả tìm việc làm cao hay thấp − Mức độ tin tưởng thí sinh vào ngành đào tạo trường Trang 34 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên − Xác định mức ảnh hưởng nơi thường trú thí sinh vào lựa chọn ngành, trường Qua trình này, từ hạng thuộc tính ta đốn thí sinh trúng tuyển chọn ngành, trường có hạng cao để học với xác suất cao ngành, trường có hạng thấp Tuy nhiên, luật xác phải rút qua q trình tính tốn phức tạp làm sở cho mơ hình suy diễn dự báo 4.2.2 Phân tích hồi quy Phân tích hồi quy sử dụng phân tích xác định ảnh hưởng biến dự báo đến biến mục tiêu, mơ hình thường sử dụng phân tích tài chính, kinh tế,… Kết trình thể mối quan hệ phụ thuộc biến mục tiêu vào tập biến dự báo, xây dựng hàm hồi quy dự báo để ước lượng liệu tương lai Tuy nhiên, mơ hình hồi quy xem thuộc tính liệu có giá trị liên tục có tác động đối tình khác thực tế Do đó, mơ hình khơng thể dự báo xác (có độ tương quan thấp) Vì vậy, chuyên đề sử dụng phương pháp phân tích hồi quy nhằm xác định tính quan trọng thuộc tính mơ hình liệu có tính tương quan cao làm sở để xây dựng mơ hình dự báo có độ xác cao Bên cạnh đó, liệu đầu vào có kích thước lớn, gây áp lực lên q trình tính tốn xử lý Do đó, sử dụng phương pháp phân tích hồi quy làm sở để loại bỏ thuộc tính dự báo khơng cần thiết giảm độ phức tạp tính tốn phương pháp Từ liệu thu thập qua bước tiền xử lý, tiến hành sử dụng cơng cụ phân tích hồi quy nhằm xác định mối tương quan thuộc tính liệu, tính quan trọng thuộc tính Từ đó, cho phép ta loại bỏ thuộc tính khơng quan trọng nhằm giảm thời gian xử lý q trình phân tích xây dựng mơ hình dự báo Quá trình thực nhiều lần, lần với số lượng biến dự báo khác nhằm tìm mơ hình liệu cho độ tương quan cao Kết trình phân tích thơng tin mối tương quan thuộc tính mức độ ảnh hưởng thuộc tính đến q trình phân lớp liệu độ phù hợp mơ hình với liệu thực tế Dựa vào kết này, ta lựa chọn mơ hình phù hợp (có độ tương quan cao nhất) Qua đó, giữ lại thuộc tính quan trọng loại bỏ thuộc tính khơng cần thiết Kết thúc trình này, ta tạo Trang 35 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên liệu khiết, giảm độ nhiễu thơng tin làm đầu vào cho q trình phân tích xây dựng mơ hình dự báo 4.2.3 Xây dựng mơ hình dự báo định Từ liệu tinh chỉnh trình phân tích hồi quy, sử dụng phương pháp xây dựng định với mục đích tạo mơ hình học dựa định Kết trình tập luật kết hợp phát sinh dựa định xây dựng Với luật kết hợp thu được, ta xây dựng chương trình suy diễn tự động tập luật với mục tiêu dự đoán khả nhập học thí sinh trúng tuyển với sai số cho trước Trang 36 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Ngun Hình 15 Thử nghiệmxây dựng mơ hình dự báo Quy trình Đối chứng Tiền xử lý 4.2.4 Xây dựng mơ hình dự báo dựa lý thuyết tập thơ Trong q trình xây dựng mơ hình dự báo định, thuộc tính dự báo nhiều nhiều thời gian số nút lớn gây khó khăn trình theo dõi tạo luật điều kiện phân lớp phức tạp Đối với trường hợp này, để thu đơn giản phải xây dựng thuật toán tỉa cành phức tạp Trang 37 GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên Nhằm mục đích xây dựng mơ hình đối chứng làm sở để điều chỉnh mơ hình dự báo định Với khả ứng dụng cao lý thuyết tập thô xử lý liệu khuyết, nhiễu tìm tập luật kết hợp từ liệu lớn rời rạc, chuyên đề đề xuất sử dụng lý thuyết tập thơ xây dựng mơ hình dự báo kết hợp với mơ hình dự báo định nhằm sử dụng ưu điểm hai phương pháp loại trừ khuyết điểm hai mơ hình Trang 38 GVHD: GS TSKH Hồng Văn Kiếm HVTH: Lê Thành Nguyên TÀI LIỆU THAM KHẢO [1] Nguyễn Đức Thuần (2010), “Phủ tập thô độ đo đánh giá hiệu tập luật định”, Luận án Tiến sĩ, Viện Công nghệ Thông tin [2] Markus Ingvarsson (2007), The RPROP algorithm [3] Andrzej Skowron, Ning Zong (2000), Rough Sets in KDD Tutorial Notes [4] Zdzisław Pawlak (1998), Rough Set Theory and Its Application to Data Analysis, Cybernetics and Systems: An International Journal 29, pp 661-688 Trang 39 ... 4: XÂY DỰNG MƠ HÌNH DỰ BÁO Trong phần này, chuyên đề đề cập đến vấn đề thu thập liệu giải pháp xây dựng mơ hình dự báo số lượng sinh viên trúng tuyển nhập học kỳ thi tuyển sinh Đại học, Cao đẳng. .. pháp xây dựng mơ hình dự báo số lượng thí sinh trúng tuyển nhập học kỳ thi tuyển sinh Đại học, Cao đẳng Trang GVHD: GS TSKH Hoàng Văn Kiếm HVTH: Lê Thành Nguyên PHẦN 2: MƠ TẢ BÀI TỐN Ở nước ta, kỳ. .. đề nan giải đại phận trường Đại học Cao đẳng nước Vì lý đó, tác giả thực chuyên đề nhằm đề giải pháp dự báo số lượng thí sinh trúng tuyển nhập học kỳ thi tuyển sinh Đại học, Cao đẳng Chuyên đề