Khai phá dữ liệu dùng thuật toán k NN ứng dụng dự đoán điểm thi cuối kỳ

25 271 6
Khai phá dữ liệu dùng thuật toán k NN ứng dụng dự đoán điểm thi cuối kỳ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

khai phá kho dữ liệu sử dụng các thuật toán dùng trong trí tuệ nhân tạo điển hình là thuật toán K_NN vào ứng dụng dự đoán điểm thi cuối kỳ của sinh viên dựa vào 2 điểm kiểm tra số 1, số 2 và số tiết nghỉ của sinh viên.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ======***====== BÁO CÁO BÀI TẬP LỚN MÔN KHO DỮ PHÁP KHAI PHÁ LIỆU VÀ CÁC PHƯƠNG Giáo viên hướng dẫn : Nguyễn Mạnh Cường Nhóm Đề tài : Thuật toán phân lớp K_NN ứng dụng Vào dự đoán điểm thi cuối kỳ Thànhviên : Nguyễn Mạnh Toàn_1141260116 Trần Quang Thành_1141260163 Hà Nội - 04/2020 Lời nói đầu Trong thời buổi xã hội phát triển nhanh công nghệ thông tin nghành đầu ,có phát triển vượt bậc có ứng dụng thơng minh đáp ứng nhu cầu cần thiết người Khi xã hội phát triển với nhiều thơng tin sinh lưu chữ ngày nhiều lên ,tuy nhiên ngập chìm biển thơng tin mà lại khát tri thức Chính để khai thác liệu cách triệt để thay phương phá thủ công hiệu trước kia, khuynh hướng phát tri thức khai phá liệu đời Khai phá liệu đàn nghiên cứu ứng dụng nhiều nước giới , Việt Nam nghiên cứu đưa vào ứng dụng thực nhiều Khai phá liệu bước trình phát tri thức chắt lọc từ liệu lớn để lấy thông tin cần dùng Trong tập lớn chúng em tìm hiểu trình bày thuật tốn, kỹ thuật để khai phá, phân lớp liệu với đề tài “ phân lớp liệu thuật toán K_NN ứng dụng vào dự đoán điểm thi cuối kỳ “ Trong tình tìm hiểu xây dụng tập lớn chúng em xin gửi lời cảm ơn tới thầy giáo Nguyễn Mạnh Cường Mặc dù nước tình trang chống dịch covid_19 phải giảng dạy online thầy hướng dẫn tận tình cho chúng em,những kiến thức tài liệu thầy cung cấp hữu ích để chúng em hồn thành tập lớn Và chúng em mong góp ý thầy Chúng em xin chân thành cảm ơn! MỤC LỤC CHƯƠNG 1:TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.1.1 Thế khai phá liệu Khai phá liệu trình xác định mẫu tiềm ẩn có tính hơp lệ rút trích tổng hợp dựa khối liệu lớn,và có độ xác cao 1.1.2 Khai phá tri thức từ sở liệu Khai phá tri thức từ sở liệu gồm bước: B1: Lựa chọn sở liệu B2: Tiền xử lý liệu B3: Chuyển đổi B4: Khai phá liệu B5: Diễn giải đánh giá thực nghiệm 1.1.3 Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành nghề,nhiều lĩnh vực:Thống kê,cơ sở dũ liệu,trí tuệ nhân tạo, thuật tốn,tính tốn song song tốc độ cao,thu thâp tri thức cho hệ chuyên gia,quan sát liệu… Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vục thống kê ,sử dụng phương pháp thông kê để mô hình liệu phát mẫu,luật ,ngân hàng liệu cơng cụ phân tích trực tuyến liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế ví dụ như: • Bảo hiểm ,tài chính, thị trường chứng khốn : Phân tích tính hình tài dự báo giá cổ phiếu thị trường chứng khoán, danh mục vốn giá, lãi suất,phát gian lận • Thống kê phân tích liệu hỗ trợ đưa định • Chuẩn đốn bệnh,y học ,cham soc y tế: Một số thơng tin chuẩn đốn bệnh bệnh viện Phân tích mối liên hệ triệu chứng bệnh ,chuẩn đoán phương pháp điều trị(chế độ dinh dưỡng…) • Sản xuất chế biến: Quy trình phương pháp chế biến sử lý cố • Lĩnh vực khoa học:Quan sát thiên văn liệu gene,dữ liệu sinh vật học, tìm kiếm ,so sánh hệ gene thơng tin di truyền,một số bệnh di truyền… • Text mining Web mining: Phân lớp văn trang web ,tóm tắt văn bản… • Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố ,chất lượng dịch vụ… 1.1.4 Các bước khai phá liệu Quy trình phát tri thức thường tuân theo bước sau: Bước thứ 1: Xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn ,xác định nhiệm vụ cần phải hoàn thành Bước định việc rút tri thức hữu ích cho phép lựa chọn phướng pháp khai phá phù hợp với mục đích ứng dụng chất liệu Bước thứ 2:Thu thập tiền xử lý liệu Là thu thập xử lý thơ, gọi tiền xử lý liệu nhằm loại bỏ nhiễu(làm liệu), xử lý việc thiếu liệu(làm giàu liệu) biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian toàn quy trình phát tri thức Do liệu lấy từ nhiều nguồn khác không đồng nhất, Có thể xảy nhầm lẫn Sau bước liệu quán đầy đủ rút gọn rời rạc hóa Bước thứ 3: Khai phá liệu rút tri thức Là khai phá liệu hay nói cách khác trích mẫu mơ hình ẩn liệu Giai đoạn quan trọng ,bao gồm cơng đoạn như: Chức ,nhiệm vụ mục đích khai phá liệu,dùng phương pháp để khai phá? Thơng thường tốn khai phá liệu bao gồm : Các tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo-bao gồm việc phát suy diễn từ liệu có Tùy theo toán xác định mà ta lựa chọn phướng pháp khai phá phù hợp Bước thứ 4: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần kế thu lấy trung bình tất lần thực Các kết q trình phát tri thức đưa vào úng dụng lĩnh vực khác kết dự đốn 1.2 Một số kỹ thuật khai phá liệu 1.2.1 Kỹ thuật khai phá luật kết hợp Trong khai phá liệu mục đích luật kết hợp tìm mối quan hệ đối tượng khối lượng liệu lớn Để khai phá luật kết hợp có nhiều thuật toán ,nhưng dùng phổ biến thuật toán Apriori Đây thuật toán khai phá tập phổ biến liệu giao dịch để phát luật kết hợp dạng khẳng định nhị phân sử dụng để xác định tìm luật kết hợp liệu giao dịch Ngoài ,còn có thuật tốn FPtree… 1.2.2 Kỹ thuật phân lớp Trong kỹ thuật phân lớp bao gồm thuật tốn : • Phân lớp định ID3 : Phân lớp liệu dựa việc lập định , nhìn vào định đưa định liệu thuộc lớp • Phân lớp dự xác xuât(Bayes): Dựa việc giả định thuộc tính độc lập mạnh với qua việc sử dụng định lý Bayes • Phân lớp dựa khoảng cách(K_NN): Làm láng giềng ,dữ liệu phân vào lớp k đối tượng gần với liệu • Phân lớp SVM: phân lớp liệu dựa việc tìm siêu phẳng”tốt nhất" 1.2.3 Kỹ thuật phân cụm Phân cụm liệu cách phân bố đối tượng liệu vào nhóm,cụm cho đối tượng cụm giống phân tử khác cụm.Gồm có số phương pháp phân cụm sau • Phân cụm phương pháp K_Means: Tìm tâm cụm mà khoảng cách từ tâm đến đối tượng ,dữ liệu khác ngắn cụm khác • Phân cụm đồ thị CHƯƠNG 2: THUẬT TOÁN K-NN Tổng quan thuật toán K_NN KNN (K-Nearest Neighbors) thuật tốn học có giám sát đơn giản sử dụng nhiều khai phá liệu học máy Ý tưởng thuật tốn khơng học điều từ tập liệu học (nên KNN xếp vào loại lazy learning), tính tốn thực cần dự đoán nhãn liệu Thuật toán K_NN dựa kết việc tính tốn khoảng cách liệu đối tượng cần dự đoán với tất liệu tập liệu có xếp theo chiều tăng dần Sau đếm khoảng k phần tử lớp xuất nhiều đối tượng dự đốn thuộc lớp 1.3 Mơ tả thuật tốn K_NN 1.3.1 Mơ tả bước thực Các mẫu mô tả n_chiều thuộc tính số mẫu đại diện cho điểm không gian n chiều Thứ tự bước: • Chọn tham số k số lượng hàng xóm gần • Tính khoảng cách từ đối tượng cần xác định đến đối tượng khác tập liệu • Sắp xếp đối tượng theo khoảng cách • Lấy tất đổi tượng thuộc khoảng k • Đếm khoảng k thuộc tính xuất nhiều đối tượng cần xác định thuộc lớp 1.3.2 Minh họa K_NN Giả sử ta có D tập liệu phân loại thành nhãn (+) (-) biểu diễn trục tọa độ hình vẽ điểm liệu A chưa biết nhãn Vậy làm cách để xác định nhãn A (+) hay (-)? Có thể thấy cách đơn giản so sánh tất đặc điểm liệu A với tất tập liệu học gắn nhãn xem giống nhất, liệu (đặc điểm) A giống với liệu điểm mang nhãn (+) điểm A mang nhãn (+), liệu A giống với liệu nhãn (-) mang nhãn (-), trơng đơn giản mà K_NN làm Trong trường hợp KNN, thực tế khơng so sánh liệu (không phân lớp) với tất liệu khác, thực tế thực phép tính tốn học để đo khoảng cách liệu với tất điểm tập liệu học D để thực phân lớp Phép tính khoảng cách điểm Euclidian, Manhattan, trọng số, Minkowski, … Với tham số k= ta thấy hàng xóm có khoảng cách gần với đổi tượng cần tìm có 3=(-) 2=(+) Vậy đối tượng cần xác định thuộc lớp (-) 1.4 Nhận xét đánh giá ưu nhược điểm thuật toán K_NN Thuật toán toán K_NN thuật tốn giám sát có học đơn giản có cách thực rễ hiểu, nhiên tập liệu lớn tính tốn nhiều thời gian 1.4.1 Ưu điểm: • Độ phức tạp tính tốn q trình training • Việc dự đốn kết liệu đơn giản • Khơng cần giả sử phân phối class 1.4.2 Nhược điểm: • KNN nhạy cảm với nhiễu K nhỏ • Như nói, KNN thuật tốn mà tính tốn nằm khâu test Trong việc tính khoảng cách tới điểm liệu training set tốn nhiều thời gian, đặc biệt với sở liệu có số chiều lớn có nhiều điểm liệu Với K lớn độ phức tạp tăng lên Ngoài ra, việc lưu toàn liệu nhớ ảnh hưởng tới hiệu KNN 1.5 Lấy ví dụ thuật tốn K_NN Chúng ta vào chi tiết thuật toán K_NN Đầu tiên phải chuẩn bị tập liệu phân lớp toàn Người dùng đưa đối tượng mà chưa xếp vào lớp Thuật tốn K_NN tính khoảng cách đối tượng với đối tượng tập liệu Sau xếp tăng dần So sánh k đối tượng xem thuộc tính xuất nhiều đối tượng thuộc lớp 1.5.1 Ví dụ: Chuẩn đốn người có bị béo phì hay khơng dựa lượng calo hấp thụ năm số tập thể dục người Oử có tập liệu gồm thông tin số người với lượng calo số phân loại “béo” “gầy” Một đối tượng có thơng tin lượng calo hấp thụ số tập thể dục năm -> cần xác định thuộc loại nào.(Lưu ý liệu áp dụng cho người thuộc độ tuổi 18+) Xác đinh Nam với lượng calo=800000 số hoạt động mạnh =60 thuộc loại Tên Lượng calo hấp thụ Số vân động mạnh Tình trạng Toàn đẹp trai 657000 300 Gầy Cường râu 500000 200 Gầy Thành béo 800000 50 Béo 10 Nguyên già 986000 60 Béo Tuấn ruồi 400000 100 Gầy Huấn rose 860000 55 béo Vì liệu khoảng khách nên ta đồng hóa liệu dạng % để đảm bảo độ quan trọng thuộc tính Cơng thức: %x = (x-min)/(max-min) ta có bảng sau: Tên %Lượng calo hấp thụ %Số vân động mạnh Tình trạng Tồn đẹp trai 0,438567 Gầy Cường râu 0,170648 0,5 Gầy Thành béo 0,682594 Béo Nguyên già 0,033333 Béo Tuấn ruồi 0,166667 Gầy Huấn rose 0,784983 0,016667 béo Tiếp theo ta tính toán khoảng cách từ đối tượng cần xác định với đối tượng tập liệu ta có số cách tính sau: 11 Trong sử dụng cách tính Euclidean Sau tính ta Tên %Lượng calo hấp thụ %Số vân động mạnh Tình trạng Khoảng cách Toàn đẹp trai 0,438567 Gầy 0,99053 Cường râu 0,170648 0,5 Gầy 0,68825 Thành béo 0,682594 Béo 0,04 Béo 0,31747 Nguyên già 0,033333 Tuấn ruồi Gầy 0,166667 Huấn rose 0,69424 béo 0,784983 0,016667 0,10501 Chọn k=4 ta xếp theo chiều tăng dần khoảng cách Vậy ta thu Béo 0.04 Béo 0,105014 Béo 0,317476 12 Gầy 0,68825 Vậy số lượng thuộc lớp béo =3 max => Nam với lượng calo=800000 số hoạt động mạnh =60 thuộc lớp “béo” CHƯƠNG 3: THU THẬP VÀ XỬ LÝ DỮ LIỆU 2.1 Thu thập liệu Dữ liệu thu thập thực tế “ bảng điểm môn Kỹ Thuật Lập Trình sinh viên lớp Hệ ThốngThơng Tin –khóa 11-Trường Đại Học Công nghiệp Hà Nội” Ở quan tâm đến thuộc tính là: • Điểm kiểm tra • Điểm kiểm tra • Số tiết nghỉ học 13 14 15 2.2 Tiền xử lý liệu Dữ liệu thô 16 17 2.2.1 Làm liệu Bổ sung,loại bỏ liệu thiếu Vì liệu lấy thực tế từ trang web trang sv.dhcnhn.vn liệu không bị thiếu trường Vì điểm số số buổi nghỉ khác ,khơng có ngoại lệ Ta thấy thuộc tính họ tên khơng cần thiết trình khai phá liệu nên loại bỏ Chuẩn hóa liệu Trong liệu thuộc tính điểm số tiết nghỉ có khoảng cách khác nên làm cho độ quan trọng thuộc tính bị lệch Vì cần phải chuẩn hóa liệu , đưa chúng đoạn giá trị từ 0-1 Ta có cơng thức : X=(X-max)/(max-min) 18 2.2.2 Rút gọn liệu 2.2.3 Rời rạc liệu 19 CHƯƠNG 4: CÀI ĐẶT THUẬT TỐN VÀ ĐÁNH GIÁ THỰC NGHIỆM 3.1 Thuật tốn Được thực công cụ visual studio với ngôn ngữ C++ Dữ liệu đọc từ file Trong q trình code thuật tốn có tích hợp ln chuẩn hóa liệu dạng đồng 0-1 nên liệu đầu vào qua bước chuẩn hóa 20 21 22 Màn hình tiến hành dự đốn điểm cuối kỳ sinh viên: 3.2 Đánh giá thực nghiệm 3.2.1 Thực nghiệm T thực nghiệm với khoảng để xem kết 23 Tương tự ta có bảng kết thực nghiệm với k=15 Điểm Điểm Tiết nghỉ Điểm cuối kỳ F C (trên hình chụp trên) B A C 3.2.2 Đánh giá kết Với kết thực nghiệm thu mặt phân giải điểm theo chữ thực tế: • • • • • 0-3.9 điểm F so với {1,2,4} => điểm F 4-4.4 điểm D 4.5-6.4 điểm C so với {3,4,0} => điểm C so với {4,5,0} => điểm C 6.5-8.4 điểm B so với {7,8,6} => điểm B 8.5-10 điểm A so với {9,8,0} => điểm A Ta thấy khoảng điểm dự đốn có tỷ lệ cao với khoảng điểm theo thang điêm quy đinh Tuy nhiên có số trường hợp sai khác khoảng điểm {3,4}=> dự đốn điểm C khơng phải sai mà tập liệu thu thập có số trường hợp đột biết xảy với mật độ thấp 24 Trong toán thuật toán K_NN khai phá hiệu với tập liệu nhỏ trình bày ngơn ngữ C++ có tốc độ nhanh Kết thu chấp nhận TÀI LIỆU THAM KHẢO https://vi.wikipedia.org/wiki/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB%87u https://ongxuanhong.wordpress.com/2015/08/20/tien-xu-ly-du-lieu-horse-colicdataset/ https://123doc.net/document/3551707-bao-cao-bai-tap-lon-mon-khai-pha-du-lieuphan-lop-du-lieu-so-bang-giai-thuat-k-nn.htm https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y 25 ... bước: B1: Lựa chọn sở liệu B2: Tiền xử lý liệu B3: Chuyển đổi B4: Khai phá liệu B5: Diễn giải đánh giá thực nghiệm 1.1.3 Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều... đối tượng khối lượng liệu lớn Để khai phá luật kết hợp có nhiều thuật toán ,nhưng dùng phổ biến thuật toán Apriori Đây thuật toán khai phá tập phổ biến liệu giao dịch để phát luật kết hợp dạng... thuật tốn, kỹ thuật để khai phá, phân lớp liệu với đề tài “ phân lớp liệu thuật toán K_NN ứng dụng vào dự đốn điểm thi cuối kỳ “ Trong q tình tìm hiểu xây dụng tập lớn chúng em xin gửi lời cảm ơn

Ngày đăng: 12/04/2020, 10:17

Mục lục

  • CHƯƠNG 1:TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

    • 1.1 Khái niệm cơ bản

      • 1.1.1 Thế nào là khai phá dữ liệu

      • 1.1.2 Khai phá tri thức từ cơ sở dữ liệu

      • 1.1.3 Các ứng dụng của khai phá dữ liệu

      • 1.2.3 Kỹ thuật phân cụm

      • CHƯƠNG 2: THUẬT TOÁN K-NN

        • 1 Tổng quan về thuật toán K_NN

        • 1.3.2 Minh họa về K_NN

        • CHƯƠNG 3: THU THẬP VÀ XỬ LÝ DỮ LIỆU

          • 2.1 Thu thập dữ liệu

          • 2.2 Tiền xử lý dữ liệu.

            • 2.2.1 Làm sạch dữ liệu

              • 1 Bổ sung,loại bỏ dữ liệu thiếu

              • 2 Chuẩn hóa dữ liệu

              • 2.2.2 Rút gọn dữ liệu

              • 2.2.3 Rời rạc dữ liệu

              • 3.2.2 Đánh giá kết quả

Tài liệu cùng người dùng

Tài liệu liên quan