Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
4,32 MB
Nội dung
CHUN ĐỀ: CƠNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN LỜI NĨI ĐẦU Họ tên: NGUYỄN THỊ NAM Trong năm gần đây, vai trị máy tính việc lưu trữ Mã HV:CH1101105 xử lý thông tin ngày trở nên quan trọng Bên cạnh đó, thiết bị thu thập liệu tự động phát triển mạnh góp phần tạo kho liệu khổng lồ Dữ liệu KHÓA LUẬN TỐT NGHIỆP THẠC SĨ định lại thu thập ngày nhiều người cần có thơng tin bổ ích xác từ TRI THỨC rút từ CHUYÊN ĐỀ CÔNG NGHỆ tri thức nguồn liệu chưa khai phá ỨNG DỤNG MẠNG NEURAL Với u cầu đó, mơ hình CSDL truyền thống khơng cịn thích hợp Để có tri thức từ CSDL người ta phát triển lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, phương pháp khai phá liệu phát tri thức CSDL Trong khai phá liệu phát tri thức trở thành lĩnh vực nghiên cứu sôi động DỰ ĐOÁN KẾT QUẢ HỌC SINH THEO HỌC KỲ Qua trình học tập nghiên cứu mơn Cơng Nghệ Tri Thức Ứng Dụng, hướng dẫn thầy GS.TS Hoàng Kiếm chúng em học tri thức tảng biểu diễn xây dựng hệ sở tri thức Chuyên việc khám phá HỌC Nhưng thời ngành: KHOAtri thức.MÁY TÍNH gian khả có hạn nên nội dung chuyên đề em trình bày phần nhỏ lĩnh vực Mã số: 60 48 01 máy học, cụ thể kỹ thuật huấn luyện mạng neural ứng dụng SQL Server 2008 TP HCM ngày 20 tháng 09 năm 2013 HVTH: NGUYỄN THỊ NAM TRANG CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM MỤC LỤC CHƯƠNG I: MỞ ĐẦU I II III Tổng quan Thuật toán học đơn giản Perceptron Thuật toán lan truyền ngược 11 CHƯƠNG II MỘT SỐ KỸ THUẬT HUẤN LUYỆN MẠNG NEURAL VÀ CÁC VẤN ĐỀ THỰC TẾ .16 I II III IV Kỹ thuật huấn luyện mạng Perceptron 18 Mạng Perceptron lớp .22 Huấn luyện Gradient Descent .24 Các vấn đề thực tế 27 Tỉ lệ huấn luyện .27 Phương pháp huấn luyện mạng theo mẫu gốc (pattern) xử lý theo khối (batch) 28 Khởi tạo giá trị ba đầu .29 Hiệu chỉnh tỉ lệ 29 CHƯƠNG III ỨNG DỤNG MẠNG NEURAL TRONG MICROSOFT SQL SERVER 2008 31 Thuật toán hoạt động nào? 31 Thực thuật giải Microsoft Neural Network 32 Huấn luyện Neural Networks 34 Lựa chọn tính 36 Scoring Methods 37 Dữ liệu yêu cầu cho mạng Neural 38 Quan sát mơ hình mạng neural 38 Mơ hình ứng dụng dự đốn kết học tập theo học kỳ học sinh trường TCN Nhân Đạo 39 Chương VI KẾT LUẬN VÀ KIẾN NGHỊ 50 TÀI LIỆU THAM KHẢO 53 CHƯƠNG I: MỞ ĐẦU I TỔNG QUAN: HVTH: NGUYỄN THỊ NAM TRANG CHUN ĐỀ: CƠNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Mạng neural thuật ngữ nói đến phương pháp giải vấn đề – tốn máy tính mô theo hoạt động tế bào thần kinh não Mạng neural sinh học tạo thành liên kết nhiều tế bào thần kinh (neural) Các xung động thần kinh truyền từ khớp qua trục để đến thân Thân tế bào tổng hợp xung động thần kinh định tiếp tục truyền tín hiệu sang tế bào thần kinh khác Thân Trục Khớp Nhánh Cấu trúc tế bào thần kinh sinh học Mạng neural nhân tạo mô cấu trúc mạng neural sinh học Mạng neural nhân tạo tạo thành nối kết nhiều đơn vị thần kinh gọi perceptron Những đơn vị có nhiệm vụ nhận tín hiệu từ đơn vị khác từ liệu nhập; thông qua mối liên kết, đơn vị tiến hành tổng hợp tín hiệu đến nó, xử lý truyền tín hiệu sang đơn vị thần kinh khác đến đầu HVTH: NGUYỄN THỊ NAM TRANG CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM Một đơn vị thần kinh nhân tạo có cấu tạo sau : x1 x2 x n Trong đó, x1, …, xn giá trị truyền đến đơn vị thần kinh nhân tạo (giá trị giá trị xuất từ neural khác từ đầu vào) w1 ,… , wn trọng số ứng với giá trị truyền đến neural Giá trị đầu y perceptron tính cơng thức sau : y = f((xnwn+ xn-1wn-1 + … + w2n2 + w1n1 + w0) - φ) Hàm f gọi hàm truyền Một hàm truyền cần phải có tính chất sau : - bị chặn - đơn điệu tăng - hàm liên tục tăng Các hàm truyền thường sử dụng : f ( x) = Hàm logistic (hay gọi hàm Sigma) h ( x) = Hàm hyperbol Hàm tang-hyperbol HVTH: NGUYỄN THỊ NAM − e−x + e −x e x − e−x ( x) = x e + e −x TRANG 1 + e −x CHUN ĐỀ: CƠNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Trong hàm sigmoid hàm thường dùng φ gọi ngưỡng kích hoạt neural Có thể nói mạng neural nhân tạo phát minh quan trọng lĩnh vực trí tuệ nhân tạo Ngày nay, mạng neural ứng dụng nhiều lãnh vực khác nhau: công nghệ thông tin (khám phá tính xử lý khơng dùng ký hiệu hệ máy học nói chung), kỹ thuật (giám sát tình trạng động máy bay, kiểm sốt q trình sản xuất hay nhận dạng chữ ký), khoa học tri thức (mô tả kiểu suy luận nhận thức), vật lý (mơ hình hóa tượng học thống kê), sinh học (lý giải chuỗi nucleotid), kinh tế (dự đoán thị trường tiền tệ chứng khoáng), dược học (liên quan cấu trúc-tác dụng) Một cách tổng quát, mạng neural nhân tạo đồ thị bao gồm đơn vị thần kinh nhân tạo kết nối với Tuy nhiên, có nhiều ứng dụng thực tiễn mạng neural sau : - Mạng Hopfield : mơ hình mạng lớp với trọng số đối xứng, Hopfield đề xuất vào năm 1982 - Mạng Kohonen (winner-take-all) : Kohonen đề xuất năm 1984, mạng neural dựa ý tưởng phân lớp giá trị đầu vào - Mạng lan truyền ngược : Do Rumelhart McClelland giới thiệu năm 1984, mơ hình ứng dụng dạng mạng neural phức tạp, nhiều lớp Và mơ hình sử dụng phổ biến tốn trí tuệ nhân tạo * Để ngắn gọn hơn, từ sau, dùng từ neural thay cho đơn vị thần kinh nhân tạo Trong toán học mà quen thuộc, để phân loại đối tượng có m thuộc tính khác vào n thuộc tính định khác Chúng ta xây dựng mạng neural gồm có : • m neural nhập, neural ứng với thuộc tính đối tượng nhận • giá trị miền giá trị xác định miền giá trị thuộc tính nhiều neural “trung gian” hay neural ẩn HVTH: NGUYỄN THỊ NAM TRANG CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC • GVHD: GS.TS HOÀNG KIẾM n neural xuất, neural ứng với thuộc tính định, miền giá trị đầu neural là miền giá trị thuộc tính định ứng với neural Vấn đề lớn việc xây dựng mạng neural việc xác định giá trị thích hợp trọng số w cho liên kết neural chọn hàm truyền thích hợp cho neural Và trình xác định trọng số w gọi q trình huấn luyện mạng neural hay cịn gọi trình học Để xác định trọng số w, người ta sử dụng tập liệu mẫu có mơ tả đầy đủ liệu đầu vào liệu đầu tương ứng (tập liệu huấn luyện tương tự tập mẫu mà quen thuật toán học trước, điểmkhác giá trị thuộc tính phải giá trị số) thuật toán dùng để điều chỉnh trọng số w neural – thuật toán học Mạng neural đa lớp bao gồm lớp nhập, lớp ẩn lớp xuất Chẳng hạn, xét lại ví dụ cháy nắng thuật tốn học cách xây dựng định danh Để tiện theo dõi, bảng HVTH: NGUYỄN THỊ NAM TRANG CHUYÊN ĐỀ: CƠNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM số liệu mẫu ví dụ để Vì neural làm việc kiểu liệu số nên ta “lượng hóa” giá trị thuộc tính sau : Tóc : vàng = 0, nâu = 1, đỏ = Ch.Cao : thấp = 0, TB = 1, cao = Cân nặng : nhẹ = 0, TB = 1, nặng = Dùng kem : khơng = 0, có = Cháy nắng : khơng = 0, có = Như mạng neural gồm : - neural nhập, neural ứng với thuộc tính màu tóc, chiều cao, cân nặng có dùng kem hay khơng Neural ứng với màu tóc nhận giá trị đầu vào 0, - neural xuất ứng với thuộc tính định có cháy nắng hay không giá trị xuất neural Dĩ nhiên số neural trung gian phụ thuộc vào cách thức giải toán Đa số thuật toán học dựa vào mạng neural tương đối phức tạp liên quan đến nhiều khái niệm tốn học cao cấp II THUẬT TỐN HỌC ĐƠN GIẢN TRÊN PERCEPTRON Perceptron xem mạng neural đơn giản gồm có neural Tuy khơng hữu ích so với mạng neural đầy đủ lại HVTH: NGUYỄN THỊ NAM TRANG CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM hữu ích việc giúp nắm nguyên tắc tiếp cận máy học mạng neural Chúng ta sử dụng thuật toán học perceptron để xây dựng “hàm” để xác định loại hoa có thuộc loại versicolor hay khơng Để tiện vận dụng thuật tốn perceptron, ta “lượng hóa” thuộc tính lồi Lồi = versicolorl Lồi = -1 lồi khác Chúng ta có mẫu với thuộc tính cho bảng sau : Cơng thức truyền perceptron tốn sau : y = x0w0 + x1w1 + x2w2 + x3w3 + x4w4 Trong đó, x1, x2, x3, x4 giá trị thuộc tính độ dài đài hoa, độ rộng đài hoa, độ dài cánh hoa độ rộng cánh hoa x0 ln có giá trị gọi hệ số tự Nhiệm vụ xác định giá trị cho trọng số w i cho hàm f(y) có giá trị cột lồi tất mẫu cho Nghĩa giải hệ phương trình sau : f(1.w0 + 4.7w1 + 3.2w2 + 1.3w3 + 0.2w4) = -1 f(1.w0 + 6.1w1 + 2.8w2 + 4.7w3 + 1.2w4) = f(1.w0 + 5.6w1 + 3.0w2 + 4.1w3 + 1.3w4) = f(1.w0 + 5.8w1 + 2.7w2 + 5.1w3 + 1.9w4) = -1 f(1.w0 + 6.5w1 + 3.2w2 + 5.1w3 + 2.0w4) = -1 HVTH: NGUYỄN THỊ NAM TRANG CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Ý tưởng thuật tốn perceptron chọn ngẫu nhiên giá trị cho wi Sau thuật tốn tiến hành điều chỉnh lại cho "khớp" (tính chất tự hoàn thiện qua thời gian) Cách thực thật kiểu giải phương trình cách "mò" nghiệm người! Tuy người ta chứng minh phương pháp tìm nghiệm (trong số điều kiện chặt chẽ định) dẫn đến kết sau số lần lặp hữu hạn Giả sử trọng số ban đầu có giá trị sau : w0 = 1; w1 = 0; w2 = 0; w3 = 0; w4 = Thử với mẫu ta : f(1×w0 + 4.7×w1 + 3.2×w2 + 1.3×w3 + 0.2×w4) = f(1×1 + 4.7 × + 3.2×0 + 1.3×0 + 0.2×1) = f(1.2) = Hàm f cho kết khác với mong đợi thay -1 Do ta cần phải điều chỉnh lại trọng số wi Sở dĩ hàm f cho kết tổng ∑xiwi > Do đó, để f trả -1 ta cần điều chỉnh wi cho tổng ∑xiwi giảm giá trị Dễ dàng thấy phép trừ sau làm giảm giá trị wi (với r số dương) wi = wi - r.xi Như tổng ∑xiwi giảm giá trị wi giảm giá trị (bất chấp wi âm hay dương) Suy luận tương tự, dễ dàng thấy trường hợp ngược lại (hàm f cho kết -1 thay 1) ta cập nhật trọng số w i (để làm tăng giá trị tổng ∑xiwi ) công thức : wi = wi + r.xi Trở lại ví dụ chúng ta, chọn r = 0.05 Như vậy, trọng số điều chỉnh sau : w0 = w0 - r.x0 = - 0.05×1 = 0.95 HVTH: NGUYỄN THỊ NAM TRANG CHUN ĐỀ: CƠNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM w1 = w1 - r.x1 = - 0.05×4.7 = -0.24 w2 = w2 - r.x2 = - 0.05×3.2 = -0.16 w3 = w3 - r.x3 = - 0.05×1.3 = -0.07 w4 = w4 - r.x4 = - 0.05×0.2 = 0.99 Ta áp dụng wi điều chỉnh cho mẫu f(1×w0 + 6.1×w1 + 2.8×w2 + 4.7×w3 + 1.2×w4) = f(1×0.95 + 6.1×(-0.24) + 2.8×(-0.16) + 4.7×(-0.07) + 1.2×0.99) = f(-0.05) = -1 Một lần f lại trả kết khác với mong đợi -1 thay Ta điều chỉnh tăng wi w0 = w0 + r.x0 = -0.95 + 0.05×1 = -1.00 w1 = w1 + r.x1 = -0.24 + 0.05×6.1 = -0.07 w2 = w2 + r.x2 = -0.16 + 0.05×2.8 = -0.02 w3 = w3 + r.x3 = -0.07 + 0.05×4.7 = -0.17 w4 = w4 + r.x4 = -0.99 + 0.05×1.2 = -1.05 Ta tiếp tục áp dụng trình thử điều chỉnh cho mẫu kế tiếp, hết mẫu, quay lại từ mẫu có trọng số w i thỏa tất mẫu cho thời gian chạy vượt giới hạn cho phép Ví dụ dừng sau 1358 lần thử điều chỉnh cho tất mẫu Các trọng số wi kết : w0 = -1.80; w2= -0.30; w3 = -0.19; w4 = 4.65; w5 = -11.56 Thuật toán Peceptron đơn giản gần gũi với suy nghĩ người Tuy nhiên, điều này, thuật tốn lại không hữu hiệu trường hợp phức tạp Ví dụ minh họa mà vừa khảo sát trường hợp tuyến tính đơn giản nên sau số lần điều chỉnh hữu hạn w i "hội tụ" HVTH: NGUYỄN THỊ NAM TRANG 10 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Chuẩn hóa lập đồ Có chục phương pháp khác để chuẩn hóa thuộc tính đầu vào liên tục, bao gồm z-score, trục z, điểm đăng nhập, Phương pháp đơn giản sau: V = (A - Amin)/(Amax - Amin) Trong phương pháp này, A giá trị thuộc tính, Amin giá trị tối thiểu nó, Amax giá trị tối đa Tuy nhiên, phương pháp đơn giản , có số vấn đề Ví dụ, tối thiểu cực giá trị tối đa tồn phân bổ, kết bình thường bị lệch Giả sử thuộc tính mà bạn muốn chuẩn hóa thu nhập, phần lớn hộ gia đình có thu nhập $ 200,000 Nếu có hộ gia đình với $ 1.000.000 thu nhập, đa số gia đình ánh xạ tới 10-20 phần trăm đầu phạm vi.Trong trường hợp này, số điểm log giải pháp tốt đồ tất giá trị cho không gian ghi để giảm vấn đề quy mô Đối với biến rời rạc, phương pháp đơn giản đồ cho điểm khơng gian 0-1 Ví dụ, nói có năm trạng thái cho giáo dục: partial trường trung học , trường trung học, đại học, sau đại học tiến sĩ Những giá trị ánh xạ tới 0, 0.25, 0.50, 0.75, 1.0, tương ứng HVTH: NGUYỄN THỊ NAM TRANG 41 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM Làm việc với Microsoft Neural Network, sử dụng phương pháp sau cho đầu vào thuộc tính chuẩn hóa: V = (x- μ)/σ Cho đầu vào liên tục, μ trung bình độ lệch chuẩn Cho rời rạc đầu vào, μ = p (xác suất trạng thái) σ2 = p * (1-p) Mối quan hệ thuộc tính neuron từ đến n Một thuộc tính ánh xạ tới n nơron Microsoft Neural Network ánh xạ thuộc tính liên tục với hai nút: đại diện cho giá trị đại diện khác cho trạng thái lỗi Nó ánh xạ thuộc tính rời rạc thành n + nút, với n số lượng trạng thái khác đại diện cho trạng thái lỗi Nếu thuộc tính nhị phân với hai trạng thái - lỗi tồn tại, ismodeled nút Hình 12-8 cho thấy ví dụ chuẩn hóa đầu vào lập đồ Bảng liệu đầu vào huấn luyện Bảng phía hiển thị liệu sau chuẩn hóa lập đồ q trình Có thể nhìn thấy từ số bốn cột đầu vào (khơng tính ID) ánh xạ tới 10 đầu vào nơron Nếu giới, thu HVTH: NGUYỄN THỊ NAM TRANG 42 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM nhập, số IQ thuộc tính đầu vào Kế hoạch thuộc tính dự đốn được, có bảy đầu vào nơron ba neuron đầu Topology mạng Topology mạng neural phải sửa chữa trước xử lý Số lượng đầu vào đầu neuron cố định với tập liệu huấn luyện Các tùy chọn chủ yếu liên quan đến cấu hình lớp ẩn, chẳng hạn số lượng lớp ẩn số lượng neuron ẩn lớp ẩn Một mạng neural có số lượng lớp ẩn Khả mạng chức phức tạp số nút số lớp.Vì vậy, nhiều lớp ẩn làm tăng lực học tập Mạng làm tăng thời gian xử lý Hạn chế khác tập luyện sức khả Với nhiều lớp ẩn nút ẩn, mạng có xu hướng nhớ trường hợp huấn luyện thay khái qt mơ hình (tương tự vấn đề oversplit định) Các nhà nghiên cứu đề xuất hướng dẫn thô để lựa chọn số lượng neuron ẩn: c * sqrt (m * n), n số lượng neuron đầu vào, m số lượng neuron đầu ra, c số Số lượng tối ưu thay đổi từ vấn đề cho vấn đề Nên thử nghiệm với số nút Trong Microsoft Neural Network, giá trị mặc định cho c Tương tự thuật tốn khác Microsoft, mơ hình khai thác dựa mạng Microsoft Neural có nhiều thuộc tính dự đốn Điều dẫn đến nhiều mạng Neural phụ Ví dụ, có hai thuộc tính dự đốn được, Age Home Ownership, phải tạo hai mạng-một thần kinh riêng biệt để dự đoán thuộc tính dự đốn Tuy nhiên, hai thuộc tính dự đốn, chúng chia sẻ mạng Mỗi thuộc tính đầu vào ánh xạ tới nhiều neuron đầu vào Đôi điều dẫn đến số lượng lớn đầu vào có nhiều thuộc tính rời rạc với nhiều giá trị riêng biệt Theo mặc định, tổng số neuron đầu mạng giới hạn đến 500 thuật tốn Microsoft Neural Network Nó xây dựng nhiều mạng neural trường hợp số lượng neuron đầu 500 Khi có nhiều thuộc tính đầu vào, thuật tốn Microsoft Neural Network gọi q trình lựa chọn tính Q trình lựa chọn tính lựa chọn 255 thuộc tính đầu vào quan trọng Microsoft Logistic Regression cần dựa Microsoft Neural Network thực thuật toán cách HVTH: NGUYỄN THỊ NAM TRANG 43 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM thiết lập tham số ẩn Node Tỷ lệ Nếu bạn sử dụng Microsoft Neural Network để xây dựng mơ hình mà khơng có lớp ẩn, bạn có xác kết tương tự cách sử dụng Microsoft Regression Logistic Lý đóng gói thuật tốn riêng biệt làm cho dễ dàng phát cho người sử dụng Mơ hình ứng dụng dự đoán kết học tập theo học kỳ học sinh trường TCN Nhân Đạo Xây dựng CSDL học sinh STT Tên Trường Độ rộng trường Kiểu liệu Phần thập phân Mô tả MSHS String Mã số học sinh Ho String 20 Họ học sinh Ten String Tên học sinh NGAYSINH Date 11 Ngày sinh GT String Giới tính HE String Hộ tỉnh/TP DAODUC String 15 Xếp loại Đạo đức VAN Numeric Điểm TB Văn TOAN Numeric Điểm TB Toán 10 LY Numeric Điểm TB Lý 11 HOA Numeric Điểm TB Hóa 12 ANHVAN Numeric Anh Văn 13 LTTK Numeric Điểm TB Lý thuyết thống kê 14 KTVM Numeric Điểm TB Kinh tế vi mô HVTH: NGUYỄN THỊ NAM TRANG 44 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM 15 TINHOC Numeric Điểm TB Tin học 16 LTKT Numeric Điểm TB Lý thuyết kế tốn 17 ĐTB Numeric Điểm trung bình mơn Bảng 5.1 Bảng thuộc tính Kết học sinh Trong bảng Hệ phân chia thành hai khu vực : Các tỉnh hệ B, khu vực thành phố Hồ Chí Minh hệ A Các mơn học phân tích mơn học thuộc hệ trung cấp nghề Kế toán doanh nghiệp, DTB điểm trung bình tất mơn học tronghọc kỳ II năm thứ Đăng nhập vào SQL Server 2008 -> Import File Excel liệu học sinh chọn lọc Hình 5.1 Import File Excel HVTH: NGUYỄN THỊ NAM TRANG 45 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Hình 5.2 Data source Hình 5.3 Chọn nơi copy liệu đến HVTH: NGUYỄN THỊ NAM TRANG 46 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Hình 5.4 Q trình Import liệu HVTH: NGUYỄN THỊ NAM TRANG 47 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Hình 5.5 Tạo kết nối đến Data Source Hình 5.6 Phân tích Business Intelligence Development Studio Trong BSSI tạo kết nối đến CSDL KQHS Data Sources HVTH: NGUYỄN THỊ NAM TRANG 48 CHUYÊN ĐỀ: CƠNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Kết ATTRIBUTE_NA ATTRIBUTE_VALU SUPPOR ME E T HOA Missing HOA 6.457518796992 266 48 KTVM Missing KTVM 7.275988347898 267 45 LTKETOAN Missing LTKETOAN 6.405350553505 271 54 LTTK Missing LTTK 5.211402413649 267 61 LY Missing LY 4.957769423558 266 TINHOC Missing TINHOC TN TN 6 6.296678966789 271 67 Missing 0.787545787545 273 788 TOAN Missing TOAN 5.783243823845 266 32 VAN Missing VAN 6.262280701754 266 39 HVTH: NGUYỄN THỊ NAM 7 PROBABILITY 0.02564102564102 56 0.97435897435897 0.02197802197802 0.97802197802197 0.00732600732600 733 0.99267399267399 0.02197802197802 0.97802197802197 0.02564102564102 56 0.97435897435897 0.00732600732600 733 0.99267399267399 0.02564102564102 56 0.97435897435897 0.02564102564102 56 0.97435897435897 TRANG 49 VARIANCE VALUETYPE (Missing) 4.028692423414 49 (Continuous) (Missing) 2.949536262499 02 (Continuous) (Missing) 5.120903105894 51 (Continuous) (Missing) 6.910078520589 71 (Continuous) (Missing) 4.882732033718 (Continuous) (Missing) 5.257623247081 16 0.167317420064 673 (Continuous) (Missing) (Continuous) (Missing) 6.243609057168 09 (Continuous) (Missing) 6.655974915358 48 (Continuous) CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC HVTH: NGUYỄN THỊ NAM GVHD: GS.TS HOÀNG KIẾM TRANG 50 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM Kết dự đốn TOAN 5.85714 LY 5.28571 3.14285 9.14285 8.14285 2.28571 5.14285 6.42857 6.14285 5.14285 9.42857 7.28571 4.71428 7.42857 HOA VAN 7.666667 4.5 6.666667 5.166667 6.5 3.333333 9.5 9.833333 6.333333 6.333333 5.5 6.833333 5.666667 0.333333 6.5 3.833333 6.166667 4.666667 7.5 7.166667 6.5 6.333333 7.666667 4.166667 6.5 8.333333 5.666667 8.166667 3.5 6.5 4.5 7.166667 Chương VI: HVTH: NGUYỄN THỊ NAM TN 7.33333 8.33333 0.960374 8.66666 8.33333 4.33333 6.66666 7.33333 7.66666 7 7.66666 4.66666 8.66666 7.66666 7.66666 5.66666 -0.01883 1.025178 1.017757 1.009981 1.054391 0.08347 0.976526 1.084371 0.052548 1.04123 1.030525 1.002688 1.044412 0.790694 1.031885 0.909073 1.010412 0.965337 KẾT LUẬN VÀ KIẾN NGHỊ TRANG 51 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM Mạng bị ảnh hưởng nhiều từ trạng thái khởi đầu tham số Trong trình học, mạng cố gắng chỉnh tham số cho tổng bình phương lỗi nhỏ Khả hội tụ mạng phụ thuộc vào tham số khởi đầu, khả tổng qt hóa lại phụ thuộc nhiều vào liệu đầu vào Đối với mạng neural vấn đề khả rơi vào cực tiểu cục Thuật tốn lan truyền ngược lỗi khơng đảm bảo cho ta điểm cực tiểu toàn cục Nếu rơi vào cực tiểu cục ta phải bắt đầu huấn luyện lại, điều khiến mạng neural không áp dụng thực tế toán yêu cầu độ xác cao thời gian tối thiểu Do giải pháp xác định tỉ lệ huấn luyện hướng để vượt qua nhược điểm Ngoài ra, liệu phân bố khơng đồng mẫu khả tổng qt hóa khơng tốt Có nhiều dự đốn kết thuộc tính nhiều mạng neural Điều gây vấn đề hiệu trình trình xử lý Vì nên cẩn thận chọn thuộc tính dự đốn mơ hình mạng neural Mạng neural địi hỏi giá trị biến số đầu vào phải bình thường phạm vi giá trị nhau, không, biến có quy mơ giá trị lớn thống trị q trình huấn luyện Một mạng neural có số lượng lớp ẩn Khả mạng chức phức tạp số nút số lớp.Vì vậy, nhiều lớp ẩn làm tăng lực học tập Mạng làm tăng thời gian xử lý Hạn chế khác tập luyện sức khả Với nhiều lớp ẩn nút ẩn, mạng có xu hướng nhớ trường hợp huấn luyện thay khái qt mơ hình (tương tự vấn đề oversplit định) Nó chứng minh rằng, hầu hết trường hợp, lớp ẩn đủ Microsoft Neural Network không cho phép nhiều lớp ẩn Số lượng các nơron lớp ẩn quan trọng Sử dụng q neuron chết đói nguồn tài nguyên mạng cần thiết để giải vấn đề Sử dụng nhiều neuron làm tăng thời gian đào tạo Chương cung cấp tổng quan thuật tốn Microsoft Neural Network cách sử dụng nó: phân loại hồi quy Nó bao gồm khái niệm mạng neural làm cơng trình q trình huấn luyện nó, lợi bất lợi mạng neural so với thuật toán khác Như tìm hiểu phần này, Microsoft Neural Network thuật toán phi HVTH: NGUYỄN THỊ NAM TRANG 52 CHUN ĐỀ: CƠNG NGHỆ TRI THỨC GVHD: GS.TS HỒNG KIẾM tuyến mà khám phá mẫu phức m Cõy quyt nh v thut toỏn ă Naăve Bayes bỏ lỡ Nhưng nên bắt đầu với thuật tốn Cây định đơn giản để giải thích mơ hình để giải thích đầu từ Microsoft Neural Network Nên thử mạng neural độ xác thuật tốn khác khơng thỏa đáng HVTH: NGUYỄN THỊ NAM TRANG 53 CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC GVHD: GS.TS HOÀNG KIẾM TÀI LIỆU THAM KHẢO Tiếng Việt [1] GS.TSKH Hồng Kiếm - Slide giảng CƠNG NGHỆ TRI THỨC VÀ ỨNG DỤNG – Trường ĐH CNTT _ Đại học QG Tp Hồ Chí Minh [2] GS.TSKH Hồng Kiếm - Giáo trình cơng nghệ tri thức ứng dụng - năm 2004 Tiếng Anh [3] Agarwal, M (1997) A systematic classification of neural-network-based control, IEE CONTROL SYSTEM 17 (2): 75–93 [4] Demuth, H and Beale, M (1992) The Math-Works, Inc, Natick, MA, USA [5] System Identification and Control with Neural networks – PhD thesis, Technical University of Denmark, Dept of Automation, Denmark [6] http://technet.microsoft.com/en-us/library/ms174941(v=sql.105).aspx [7] Jamie MacLennan , ZhaoHui Tang, Bogdan Crivat, 2008 Data Mining with SQL Server 2008.Wiley Publishing, Inc HVTH: NGUYỄN THỊ NAM TRANG 54 ... sử dụng Mơ hình ứng dụng dự đoán kết học tập theo học kỳ học sinh trường TCN Nhân Đạo Xây dựng CSDL học sinh STT Tên Trường Độ rộng trường Kiểu liệu Phần thập phân Mô tả MSHS String Mã số học sinh. .. 38 Quan sát mơ hình mạng neural 38 Mơ hình ứng dụng dự đoán kết học tập theo học kỳ học sinh trường TCN Nhân Đạo 39 Chương VI KẾT LUẬN VÀ KIẾN NGHỊ 50 TÀI LIỆU THAM KHẢO ... ký), khoa học tri thức (mô tả kiểu suy luận nhận thức) , vật lý (mơ hình hóa tượng học thống kê), sinh học (lý giải chuỗi nucleotid), kinh tế (dự đoán thị trường tiền tệ chứng khoáng), dược học (liên