Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)

26 303 0
Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)Nghiên cứu xây dựng hệ thống quản lý thư viện trực tuyến tại trường bưu chính viễn thông lào (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN ĐỨC NGHIÊN CỨU PHÂN LỚP DỮ LIỆU DỰA TRÊN MÁY VECTOR HỖ TRỢ VÀ ỨNG DỤNG CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS VŨ VĂN THỎA Phản biện 1: ……………………………… Phản biện 2: ……………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: … giờ… ngày… tháng……năm…… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Trong thời gian gần đây, phát triển mạnh mẽ công nghệ thông tin dịch vụ mạng làm số lượng thông tin trao đổi mạng Internet tăng cách đáng kể Số lượng thông tin lưu trữ kho liệu tăng với tốc độ chóng mặt Đồng thời, tốc độ thay đổi thơng tin nhanh chóng Theo thống kê Broder et al (2003), sau tháng 12 tháng lượng thông tin lưu trữ, tìm kiếm quản lý lại tăng gấp đơi Hiện nay, loài người bước vào kỷ nguyên IoT (Internet of Things – Internet kết nối vạn vật) Thông qua internet, người dùng có nhiều hội để tiếp xúc với nguồn thông tin vô lớn Tuy nhiên, với nguồn thơng tin vơ tận đó, người dùng phải đối mặt với tải thông tin Đơi khi, để tìm thơng tin cần thiết, người dùng phí lượng thời gian lớn Với số lượng thông tin đồ sộ vậy, yêu cầu cấp thiết đặt tổ chức, tìm kiếm khai thác thơng tin (dữ liệu) cách hiệu Một giải pháp nghiên cứu để giải vấn đề xây dựng mơ hình tính tốn dựa phương pháp học máy nhằm phân loại, khai thác thơng tin cách tự động trích xuất tri thức hữu ích Trong đó, tốn phân lớp (Classification) liệu có ý nghĩa quan trọng Phân lớp liệu việc xếp liệu vào lớp biết trước Ví dụ: Phân lớp sinh viên theo kết học tập, phân lớp lồi thực vật,… Bài tốn phân lớp liệu thường giải cách sử dụng số kỹ thuật học máy như: Mạng Nơ-ron nhân tạo (Artificial Neural Network), Cây định (Decision tree), Máy vector hỗ trợ (Support Vector Machine),… Trong đó, kỹ thuật máy vector hỗ trợ thường sử dụng phân lớp liệu nhờ ưu điểm xử lý tập liệu kích thước lớn, liệu có nhiều thuộc tính đạt hiệu suất cao Với lý trên, học viên chọn thực đề tài luận văn tốt nghiệp với tiêu đề “NGHIÊN CỨU PHÂN LỚP DỮ LIỆU DỰA TRÊN MÁY VECTOR HỖ TRỢ VÀ ỨNG DỤNG” Mục tiêu luận văn nghiên cứu kỹ thuật SVM để giải tốn phân lớp liệu nói chung ứng dụng cho toán phân loại kết học tập sinh viên Học viện Y - Dược Học cổ truyền Việt Nam Nội dung luận văn trình bày ba chương sau: Chương 1: Tổng quan phân lớp liệu Nội dung chương là: giới thiệu toán phân lớp liệu vấn đề liên quan; tổng quan số kỹ thuật phân lớp liệu ứng dụng chúng Chương 2: Nghiên cứu kỹ thuật máy hỗ trợ vector phân lớp liệu Nội dung chương nghiên cứu chi tiết kỹ thuật SVM ứng dụng cho toán phân lớp liệu Chương 3: Xây dựng ứng dụng máy hỗ trợ vector toán thực tế Nội dung chương ứng dụng kỹ thuật SVM giải toán phân loại kết học tập sinh viên Học viện Y - Dược Học cổ truyền Việt Nam Chương 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU Chương luận văn khảo sát vấn đề chung toán phân lớp liệu, phương pháp phân lớp liệu ứng dụng phân lớp liệu 1.1 Giới thiệu toán phân lớp liệu vấn đề liên quan 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu Phân lớp (classification) tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Các mẫu liệu hay đối tượng xếp lớp dựa vào giá trị thuộc tính (attributes) cho mẫu liệu hay đối tượng Sau xếp tất đối tượng biết trước vào lớp tương ứng, lúc lớp đặc trưng tập thuộc tính đối tượng chứa lớp Khi nghiên cứu đối tượng, tượng, ta dựa vào số hữu hạn đặc trưng chúng Nói cách khác, ta xem xét biểu diễn đối tượng, tượng không gian hữu hạn chiều, chiểu ứng với đặc trưng lựa chọn Khi đó, phân lớp liệu trở thành phân hoạch tập liệu thành tập theo tiêu chuẩn nhận dạng Như vậy, phân lớp trình "nhóm” đối tượng "giống” vào "một lớp” dựa đặc trưng liệu chúng Bài tốn phân lớp liệu mơ tả hình 1-1 Hình 1-1 Bài tốn phân lớp liệu [8] 1.1.2 Quy trình thực phân lớp liệu Bài toán phân lớp liệu thường thực theo giai đoạn: Giai đoạn học để xây dựng mơ hình phân lớp giai đoạn phân lớp để kiểm tra đánh giá mơ hình phân lớp (1) Giai đoạn học: Giai đoạn nhằm xây dựng mơ hình phân lớp mơ tả tập lớp liệu khái niệm xác định trước Trong giai đoạn học, thuật toán phân lớp sử dụng để xây dựng phân lớp cách phân tích hay “học” từ tập liệu huấn luyện (training set) nhãn lớp tương ứng chúng Tập đầu vào có cấu trúc mơ tả thuộc tính tạo từ giá trị thuộc tính Mỗi giá trị gọi chung phần tử liệu (datatuple) Trong tập liệu đó, phần tử liệu giả sử thuộc lớp định trước Chúng có thuộc tính đặc biệt thuộc tính nhãn lớp (class label attribute) có kiểu giá trị rời rạc dùng để phân biệt lớp với Kết giai đoạn học đưa mơ hình (bộ) phân lớp liệu Bộ phân lớp liệu cơng thức toán học, quy tắc luật định để gán nhãn lớp cho liệu tập liệu huấn luyện (2) Giai đoạn phân lớp: Trong giai đoạn này, mơ hình phân lớp có giai đoạn trước sử dụng để thực phân lớp đánh giá mô hình Tập liệu sử dụng giai đoạn gọi tập liêu Test hay tâp kiểm chứng (KC) Do đó, cần sử dụng tập liệu kiểm chứng độc lập với tập liệu huấn luyện (HL) Hình 1-2 mơ tả ví dụ quy trình thực phân lớp Hình 1-2 Ví dụ qui trình thực phân lớp Sau thực hai giai đoạn trên, mô hình phân lớp phù hợp theo nghĩa (thơng qua độ đo đánh giá mơ hình) lựa chọn để thực phân lớp liệu toán ứng dụng khác thực tế 1.1.3 Các độ đo đánh giá mơ hình phân lớp liệu Đánh giá độ phù hợp (chính xác) phân lớp quan trọng chỗ cho phép dự đốn độ xác kết phân lớp liệu tương lai Độ phù hợp sở để so sánh mơ hình phân lớp khác Trong mục này, luận văn đề cập đến phương pháp đánh giá phổ biến holdout k-fold cross-validation Cả kỹ thuật dựa phân hoạch ngẫu nhiên tập liệu ban đầu Đối với phương pháp holdout, tập liệu mẫu phân chia ngẫu nhiên thành phần là: tập liệu huấn luyện tập liệu kiểm chứng Thông thường, 2/3 liệu sử dụng cho tập liệu huấn luyện, phần lại cấp cho tập liệu kiểm chứng Luận văn sử dụng phương pháp để thực ước lượng độ xác mơ hình lớp xây dựng Hình 1-3 Ước lượng độ xác mơ hình phần lớp với phương pháp Holdout Dựa vào đại lượng trên, ta có độ đo để đánh giá hiệu mơ hình phân lớp liệu sau: (1) Độ đo Precision (Mức xác) - Định nghĩa: Precision = TP / (TP + FP) - Ý nghĩa: Giá trị Precision cao thể khả cao để kết phân lớp liệu đưa phân lớp xác (2) Độ đo Recall (Độ bao phủ độ triệu hồi) - Định nghĩa: Recall = TP / (TP + FN) - Ý nghĩa: Giá trị Recall cao thể khả kết số kết đưa phân lớp cao (3) Độ đo Accuracy (Độ xác) - Định nghĩa: Accuracy = (TP + TN) / (TP + TN + FP + FN) * 100% - Ý nghĩa: Accuracy phản ánh độ xác chung phân lớp liệu (4) Độ đo F-Measure = 2.(Precision.Recall) / (Precision + Recall) - Định nghĩa: F-Measure = 2.(Precision.Recall) / (Precision + Recall) - Ý nghĩa: F-Measure độ đo nhằm đánh giá độ xác thơng qua q trình kiểm chứng dựa xem xét đến hai độ đo Precision Recall Giá trị F-Measure cao phản ánh độ xác cao phân lớp liệu (5) Độ đo Specitivity - Định nghĩa: Specitivity = TN/(TN+FP) - Ý nghĩa: Độ đo Specitivity đánh giá khả liệu phần tử âm phân lớp cho kết xác 1.2 Tổng quan số phương pháp phân lớp liệu Do ý nghĩa quan trọng ứng dụng toán phân lớp liệu, nhiều phương pháp khác đề xuất để xây dựng mơ hình phân lớp liệu Các phương pháp bắt nguồn từ lĩnh vực nghiên cứu khác thường sử dụng cách tiếp cận xây dựng mơ hình đa dạng Chúng có nhiều hình thức khác phân loại dựa vào tiêu chí sau: - Cách thức tiền xử lý liệu mẫu (đặc biệt trường hợp liệu bị thiếu nhiễu) - Cách thức xử lý kiểu thuộc tính khác liệu mẫu (thứ tự, rời rạc, liên tục) - Cách thức thể mơ hình phân lớp liệu (dưới dạng cơng thức tốn học, quy tắc hay luật định phân lớp) - Cách thức rút gọn, giảm số thuộc tính liệu cần thiết định phân lớp - Hiệu phân lớp xây dựng toán cụ thể xem xét Tất phương pháp tiếp cập xây dựng mơ hình phân lớp liệu khác có khả phân lớp cho mẫu liệu chưa biết dựa vào mẫu tương tự học Các phương pháp phân lớp liệu tiêu biểu kể đến bao gồm: - Phương pháp Bayes (Suy luận Bayes, mạng bayes) - Phương pháp Cây định - Phương pháp Mạng no-ron nhân tạo (Artificial Neural Network) - Phương pháp dựa tiếp cận tập thô - Phương pháp Máy vectơ hỗ trợ (SVM) Trong mục này, luận văn tiến hành khảo sát tổng quan số phương pháp phân lớp liệu tham khảo từ [8] số trang WEB 1.2.1 Phương pháp phân lớp liệu Bayes So với phương pháp khác, phương pháp phân lớp liệu Bayes lập luận theo kinh nghiệm tích lũy áp dụng vào mơ hình phân lớp đối tượng linh hoạt phù hợp với đặc trưng toán cụ thể Các chế ước lượng phương pháp gần gũi với cách suy luận thông thường Phương pháp phân lớp liệu Bayes ứng dụng rộng rãi tính dễ hiểu dễ triển khai Tuy nhiên, phương pháp phân lớp liệu Bayes cho hiệu khơng cao trường hợp tập liệu mẫu có độ phức tạp lớn thuộc tính liệu mẫu có quan hệ phụ thuộc khơng đầy đủ 1.2.2 Phương pháp định Mơ hình phân lớp liệu sử dụng định có ưu điểm sau - Cây định tự giải thích gắn kết lại, chúng dễ dàng tự sinh Nói cách khác, định mà có số lượng nút vừa phải người khơng chun dễ dàng hiểu Hơn nữa, định chuyển sang tập luật Vì vậy, định xem dễ hiểu, dễ sử dụng phân lớp liệu - Cây định xử lý nhiều kiểu thuộc tính đầu vào Cây định xem phương pháp phi tham số Bên cạnh đó, định có nhược điểm sau đây: - Khi định sử dụng phương pháp “chia để trị”, chúng thực tốt tồn số thuộc tính liên quan chặt chẽ với nhau, khó khăn số tương tác phức tạp xuất - Các đặc tính liên quan định dẫn đến khó khăn khác độ nhạy với tập huấn luyện, thuộc tính khơng phù hợp, hay có nhiễu 1.2.3 Phương pháp mạng nơ ron nhân tạo Mạng nơ-ron nhân tạo xem cách tiếp cận đầy tiềm để giải toán phân lớp liệu có tính phi tuyến, phức tạp đặc biệt tình mối quan hệ chất vật lý liệu cần nghiên cứu không dễ thiết lập tường minh Tuy nhiên, mạng nơ ron nhân tạo địi hỏi phải tính tốn phức tạp kinh nghiệm người xây dựng toán phân lớp liệu cụ thể 1.2.4 Phương pháp sinh luật định theo tiếp cận tập thô Mơ hình phân lớp liệu dựa sinh luật định theo hướng tiếp cận tập thô thường áp dụng hiệu toán phân lớp liệu phức tạp, có nhiều thuộc tính nhạy cảm với nhiễu Do đó, mơ hình phân lớp liệu thường sử dụng lĩnh vực y tế, sinh học, … Tuy nhiên, mô hình phân lớp liệu theo hướng tiếp cận tập thơ có độ phức tạp tính tốn cao vấn đề chọn ngưỡng độ đo phù hợp thực tế yêu cầu khó khăn 1.2.5 Phương pháp SVM Ý tưởng phương pháp SVM ánh xạ (tuyến tính phi tuyến) tập liệu mẫu vào không gian vector đặc trưng (space of feature vectors) sau xác định siêu phẳng tối ưu để tách liệu thuộc lớp khác Trong số phương pháp phân lớp liệu kể trên, phải sử dụng ước lượng tham số ngưỡng tối ưu Trong đó, phương pháp SVM tự tìm tham số tối ưu Trong cơng trình nghiên cứu nhiều tác giả phương pháp SVM hiệu giải toán phân lớp lệu Do đó, luận văn này, học viên lựa chọn nghiên cứu phương pháp SVM ứng dụng cho tốn thực tế Các nội dung trình bày chương chương luận văn 1.3 Các ứng dụng phân lớp liệu Bài tốn phân lớp liệu có nhiều ứng dụng lĩnh vực khoa học, công nghệ đời sống xã hội Dưới đây, luận văn liệt kê số ứng dụng chủ yếu phân lớp liệu Ứng dụng khai phá liệu Trong trình khai phá liệu (KPDL), phân lớp liệu trước hết làm giảm độ phức tạp khơng gian liệu cần khai phá lớp liệu xem xét thông qua đại diện lớp Mặt khác, phân lớp liệu giúp cho trình lưu trữ, quản lý tìm kiếm liệu thuận tiện Ứng dụng lĩnh vực tài chính, ngân hàng Phân lớp liệu ứng dụng dự báo rủi ro đầu tư tài thị trường chứng khốn Nó ứng dụng để phân lớp khách hàng, khoản vay để ngân hàng có sách phù hợp quản lý xử lý nợ xấu, … Ứng dụng thương mại Phân lớp liệu ứng dụng phân tích liệu khách hàng, hoạch định sách marketing hiệu phát gian lận thương mại Ứng dụng sinh học 10 Vì vậy, chương luận văn chọn SVM để nghiên cứu cách chi tiết Trên sở đó, ứng dụng SVM vào giải toán phân loại kết học tập sinh viên Học viện Y - Dược Học cổ truyền Việt Nam nội dung nghiên cứu chương 11 Chương 2: NGHIÊN CỨU CÁC KỸ THUẬT MÁY HỖ TRỢ VECTOR TRONG PHÂN LỚP DỮ LIỆU Chương nghiên cứu kỹ thuật máy hỗ trợ vector (SVM) giải toán phân lớp liệu số vấn đề liên quan 2.1 Giới thiệu SVM vấn đề liên quan Máy vector hỗ trợ (Support Vector Machines - SVM) Cortes Vapnik giới thiệu vào năm 1995 sở mở rộng từ chuyên đề lý thuyết học thống kê (Vapnik 1982), dựa nguyên tắc tối thiểu rủi ro cấu trúc (structural risk minimization) Ý tưởng SVM để giải toán phân lớp ánh xạ tập liệu mẫu thành vector điểm không gian vector Rd tìm siêu phẳng có hướng để chia tách chúng thành lớp khác 2.2 Kỹ thuật SVM tuyến tính phân lớp nhị phân 2.2.1 Kỹ thuật SVM tuyến tính với tập liệu phân tách 2.2.2 Kỹ thuật SVM tuyến tính với tập liệu khơng phân tách Trường hợp SVM tuyến tính với tập liệu phân tách trường hợp lí tưởng Với cách tìm lề lớn giải liệu phân tách được, cách tìm lề gọi lề cứng (hard margin) Trong thực tế liệu huấn luyện bị nhiễu gán nhãn sai Một số điểm thuộc lớp +1 lại nằm vùng lớp -1, trường hợp ta phải mềm hóa ràng buộc hay cịn gọi sử dụng C-SVM với lề mềm (soft margin) CSVM cho phép gán nhãn sai cho số ví dụ luyện tập, khơng tìm siêu phẳng phân tách hai lớp liệu C-SVM chọn siêu phẳng phân tách liệu huấn luyện tốt đồng thời cực đại hóa khoảng cách siêu phẳng với liệu gán nhãn Trong hình ta nhận thấy có điểm xa xb khơng nằm vùng tất nhiên ta khơng thể tìm lời giải với lề cứng trường hợp 2.3 Kỹ thuật SVM phi tuyến phân lớp nhị phân Trong nhiều trường hợp, tập liệu huấn luyện có ranh giới định khơng tuyến tính Trong trường hợp này, kỹ thuật SVM tuyến tính khó giải hiệu tốn phân lớp Tuy nhiên, ta chuyển tập liệu huấn luyện dạng 12 tuyến tính quen thuộc cách ánh xạ chúng sang khơng gian có số chiều lớn gọi không gian đặc trưng (feature space) Với không gian đặc trưng phù hợp, tập liệu huấn luyện sau ánh xạ trở tuyến tính phân tách liệu lỗi so với khơng gian ban đầu Kỹ thuật gọi SVM phi tuyến Kỹ thuật SVM phi tuyến phân thành hai bước tiến hành sau: Bước 1: Chuyển đổi không gian liệu ban đầu sang không gian đặc trưng khác (thường có số chiều lớn hơn), liệu huấn luyện phân tách tuyến tính Bước 2: Áp dụng công thức với SVM tuyến tính Giả sử liệu xi ban đầu thuộc không gian Rn Sử dụng ánh xạ ϕ để chuyển liệu xi sang không gian Rm 𝜙: 𝑅𝑛 → 𝑅 𝑚 𝑥 ↦ 𝜙(𝑥) Tập huấn luyện ban đầu T = {(x1, y1), (x2, y2), …, (xn, yn)} ánh xạ thành tập T’ = {(ϕ(x1), y1), (ϕ(x2), y2), …, (ϕ(xn), yn)} Hình 2-1 Ánh xạ từ không gian chiều sang không gian chiều 2.4 Kỹ thuật SVM phân lớp đa lớp Các kỹ trình bày mục 2.2 2.3 áp dụng cho phân lớp nhị phân, tức xác định liệu có hay khơng thuộc lớp mong muốn Vì vậy, mục này, luận văn khảo sát phương pháp SVM phân lớp đa lớp 13 Ý tưởng giải toán phân lớp đa lớp chuyển thực nhiều toán phân lớp nhị phân Khi thuật tốn nghiên cứu mục 2.2, 2.3 sử dụng cho toán Xét toán phân lớp liệu với số lớp m > Để giải toán tiến hành giải số toán phân lớp nhị phân Các chiến lược phân lớp đa lớp phổ biến Oneagainst-All (OAA) One-against-One (OAO) (a): Chiến lược OAA (b): Chiến lược OAO Hình 2-2 Phân lớp sử dụng chiến lược OAA OAO 2.4.1 Chiến lược One-against-All (OAA – Chiến lược 1/m) Chiến lược sử dụng (m-1) phân lớp nhị phân m lớp Bài toán phân lớp m lớp chuyển thành m-1 toán phân lớp nhị phân Trong đó, phân lớp nhị phân thứ i xây dựng qui ước mẫu thuộc lớp thứ i mẫu dương (+1) tất mẫu thuộc lớp lại mẫu âm (-1) Hàm định thứ i dùng để phân lớp thứ i lớp cịn lại có dạng: 𝐷𝑖 (𝑥 ) = 𝑤𝑖 𝑥 + 𝑏𝑖 Siêu phẳng Di(x) = tạo thành siêu phẳng phân chia tối ưu, véc tơ hỗ trợ thuộc lớp i thỏa Di(x) = véc tơ hỗ trợ thuộc lớp lại thỏa Di(x) = -1 Nếu véc tơ liệu x thỏa mãn điều kiện Di(x) > i nhất, x phân vào lớp thứ i Tuy nhiên điều kiện Di(x) > thỏa mãn nhiều i, không thỏa i trường hợp ta khơng thể phân loại véc tơ x Để khắc phục nhược điểm nàyvấn đề chiến lược One-against-One (OAO) đề xuất sử dụng 2.4.2 Chiến lược One-against-One (OAO – Chiến lược 1/1) Trong chiến lược OAO ta sử dụng m(m-1)/2 phân lớp nhị phân xây dựng để phân tách hai lớp (i, j), i = 1, 2, , k-1, j = i+1, …, k Trong đó, mẫu thuộc lớp i mẫu dương 14 (+1) mẫu thuộc lớp j mẫu âm (-1) Sau đó, sử dụng phương pháp lựa chọn theo đa số để kết hợp phân loại để xác định kết phân loại cuối Hàm định phân lớp lớp i lớp j chiến lược OAO là: Dij (x) = wij x + bij Dij (x) = −Dij (x) Đối với vector x ta tính: n Di (x) = ∑ sign(Dij (x)) j≠i,j=1 Với: sign(x) = { 1, x > 0, x ≤ Khi đó, x phân vào lớp i cho: Di(x) = argmaxDj (x) j=1,…,n Tuy nhiên điều kiện argmaxDj (x) thỏa mãn nhiều i trường j=1,…,n hợp xác định x thuộc lớp Để giải vấn đề sử dụng phân lớp đa lớp mờ Trong phạm vi luận văn chưa xét đến vấn đề 2.5 Kết luận chương Chương khảo sát kỹ thuật SVM cho toán phân lớp nhị phân với tập liệu tuyến tính phân tách không phân tách Các kỹ thuật SVM tuyến tính phi tuyến nghiên cứu cho toán phân lớp nhị phân Trên sở đó, luận văn khảo sát hai chiến lược OAO OAA để giải toán phân lớp liệu cách đưa giải toán phân lớp nhị phân tương ứng Các kết chương áp dụng giải toán phân loại kết học tập tồn khóa sinh viên Học viện Y - Dược Học cổ truyền Việt Nam 15 Chương - XÂY DỰNG ỨNG DỤNG MÁY HỖ TRỢ VECTOR TRONG BÀI TOÁN THỰC TẾ Chương ứng dụng kỹ thuật SVN giải toán phân loại kết học tập sinh viên Học viện Y – Dược Học cổ truyền Việt Nam dựa thơng tin đầu vào Trên sở ứng dụng để dự báo kết đào tạo sinh viên để có biện pháp đào tạo phù hợp 3.1 Giới thiệu Học viện Y – Dược Học cổ truyền Việt Nam Học viện Y - Dược Học cổ truyền Việt Nam thành lập sở Trường Trung học Y học cổ truyền Tuệ Tĩnh theo định số 30/2005/QĐ-TTg, ngày 02 tháng 02 năm 2005 Thủ tướng Chính phủ Học viện Y - Dược Học cổ truyền Việt Nam đào tạo chuyên ngành Y – Dược Học viện Y - Dược Học cổ truyền Việt Nam đơn vị đầu ngành đào tạo nguồn nhân lực y dược cổ truyền Ngoài ra, Học viện đào tạo ngành y đa khoa, dược ngành y tế khác với trình độ đại học sau đại học Học viện Y - Dược Học cổ truyền Việt Nam sở nghiên cứu khoa học – công nghệ, nhằm kế thừa, sáng tạo, phát triển ứng dụng thành khoa học công nghệ y học nước quốc tế để nâng cao chất lượng đào tạo Học viện Y - Dược Học cổ truyền Việt Nam cung cấp dịch vụ khám chữa bệnh, dịch vụ đào tạo theo yêu cầu xã hội; sản suất sản phẩm thuốc, thực phẩm chức năng, mỹ phẩm, thực phẩm dinh dưỡng nhằm đáp ứng nhu cầu chăm sóc, bảo vệ sức khỏe cho nhân dân, góp phần nâng cao tầm vóc Y – Dược Học Việt Nam nghiệp kiến tạo đất nước hội nhập quốc tế Về đào tạo đại học, Học viện Y - Dược Học cổ truyền Việt Nam đào tạo chuyên ngành: Y học cổ truyền, Y đa khoa, Dược Với qui mô đào tạo khoảng 5000 sinh viên Chỉ tiêu tuyển sinh năm 2017 học viện tuyển 500 tiêu y học cổ truyền, 100 tiêu y đa khoa, 100 tiêu dược sỹ đại học, 100 tiêu liên thơng đại học Về hình thức tuyển sinh Học viện Y - Dược Học cổ truyền Việt Nam theo kỳ thi trung học phổ thông Quốc gia Xét điểm đầu vào ngành Y gồm tổ hợp mơn: Tốn, Hóa, Sinh; ngành Dược gồm tổ hợp mơn: Tốn, Lý, Hóa 16 3.2 Đặt tốn phân loại kết học tập sinh viên dựa thơng tin đầu vào 3.2.1 Đặt tốn Với mong muốn nâng cao chất lượng Bác sỹ Y học cổ truyền tốt hơn, luận văn sử dụng SVM tiến hành nghiên cứu mối quan hệ thông tin đầu vào sinh viên với kết học tập tồn khóa sinh viên Học viện Y - Dược Học cổ truyền Việt Nam Trong thời gian gần Bộ giáo dục Đào tạo giao cho trường đại học tự xây dựng phương án tuyển sinh riêng phù hợp với đặc thù đào tạo trường Do đó, luận văn khuyến nghị phương án tuyển sinh nhằm cải thiện chất lượng đầu tốt cho sinh viên Bài toán đặt trình bày hình 3-1 Lớp giỏi Dữ liệu điểm thi đầu vào kết Mơ hình Lớp học tâp cẩu phân lớp Lớp TB sinh viên Lớp trung bình Hình 3-3 Mơ hình tốn phân loại kết học tập Đầu vào tốn: (1) Thơng tin đầu vào sinh viên bao gồm điểm thi mơn (Tốn, Hóa, Sinh), Khu vực ưu tiên; (2) Kết học tập tồn khóa sinh viên Đầu tốn: Mơ hình phân lớp biểu thị mối liên quan thơng tin đầu vào kết học tập tồn khóa sinh viên 3.2.2 Các bước giải toán Phương pháp giải tốn đặt mơ tả hình 3-2 bao gồm bước đây: Bước 1: Thu thập liệu; 17 Bước 2: Tiền xử lý liệu; Bước 3: Phân chia liệu thành tập liệu huấn luyện tập liệu kiểm chứng; Bước 4: Xây dựng mơ hình phân loại theo SVM tập huấn luyện; Bước 5: Sử dụng mơ hình phân loại có để phân loại với tập liệu kiểm chứng Bước 6: Phân tích đánh giá kết mơ hình Mơ hình HK SVM Hình 3-4 Các bước phân loại kết học tập sinh viên 3.2.3 Thu thập liệu nghiên cứu Qua thu thập thông tin tổng hợp, luận văn lựa chọn 365 sinh viên khóa (20112017) 272 sinh viên khóa (2010-2016) làm liệu cho toán thử nghiệm Số lượng sinh viên đạt loại giỏi, khá, trung bình khá, trung bình tổng hợp bảng 3-1 Bảng 3-1 Xếp loại học tập sinh viên Thứ tự Tên nhóm xếp loại Số lượng (n) Nhóm giỏi 40 Nhóm 207 Nhóm trung bình 214 Nhóm trung bình 176 18 TỔNG CỘNG 637 Dữ liệu lưu bảng Excel với thông tin cụ thể sau: - Bảng Sinhvien(Masinhvien, Tensinhvien, Khuvuc, Diemtoan, Diemhoa, Diemsinh, Tongdiem, Xeploai): Lưu trữ thông tin sinh viên bao gồm: Mã sinh viên, họ tên, khu vực, điểm tốn, điểm hóa, điểm sinh, tổng điểm mơn (Tốn, Hóa, Sinh), xếp loại kết học tập tồn khóa sinh viên - Tổng số ghi: 637 tương ứng với số sinh viên thu thập thơng tin cho tốn thử nghiệm 3.2.4 Tiền xử lý liệu Việc tiền xử lý liệu cho trình phân lớp liệu giai đoạn khơng thể thiếu có vai trị quan trọng định tới áp dụng hay không mô hình phân lớp Quá trình tiền xử lý liệu giúp cải thiện độ xác, tính hiệu khả mở rộng mơ hình phân lớp Trong luận văn, liệu đầu vào mã hóa phù hợp với yêu cầu sử dụng kỹ thuật SVM công cụ phần mềm sử dụng để tiến hành thực nghiệm Quá trình tiền xử lý liệu (mã hóa lưu trữ liệu đầu vào) tiến hành cụ thể sau: - Mã hóa khu vực tuyển sinh bảng 3-1: Bảng 3-2 Qui đổi khu vực tuyển sinh TT Khu vực tuyển sinh Mã hóa KV1 A KV2NT B KV2 C KV3 D - Chuyển đổi điểm thi thành mức bảng 3-2: 19 Bảng 3-1 Qui đổi điểm thi Điểm thi đầu vào TT Mã hóa >=9 A >=8 B >=7 C =8 Giỏi >=7 Khá >=6 Trung bình >=5 Trung bình TT 3.3 Thực nghiệm đánh giá kết 3.3.1 Công cụ thực nghiệm Công cụ thực nghiêm: Sử dụng phần mềmWeka version 3.7.12 Weka phần mềm miễn phí học máy viết Java, phát triển University of Wekato Weka coi sưu tập thuật toán học máy dùng phân tích khai phá liệu Các thuật toán xây dựng sẵn việc sử dụng Do Weka thích hợp cho việc thử nghiệm mơ hình mà khơng thời gian để xây dựng chúng Weka có giao diện sử dụng đồ họa trực quan chế độ command line Ngồi thuật tốn học máy dự đốn, phân loại, phân cụm, Weka cịn có cơng cụ để trực quan hóa liệu hữu ích q trình nghiên cứu, phân tích Chương trình thực với SMO Classifier thư viện MultiClassClassifier WEKA 3.3.2 Chuẩn bị liệu 20 Danh sách điểm thi đầu vào kết học tập chia thành nhóm tiền xử lý Dữ liệu lựa chọn mẫu HL KC tự động lấy 70% liệu chạy huấn luyện, 30% chạy test 3.3.3 Thực thực nghiệm Để đánh giá xác thời gian xây dựng mơ hình theo chiến lược 1/m 1/1 liệu thử nghiệm theo quy trình sau: Khởi động WEKA Load liệu huấn luyện nhóm thử nghiệm Chọn Classify Load liêu kiểm chứng nhóm thử nghiệm Chọn Classifiers MultiClassClassifier Chọn Classifier có MultiClassClassifier SMO Chọn phương pháp: 1-against-1 hay 1-against-all Start Ghi lại thời gian xây dựng mơ hình bảng phân tích độ xác, bảng ma trận confusion Mỗi phương pháp 1/m 1/1 thực liên tiếp lần nhóm mẫu, lần thực theo quy trình thực từ bước Giá trị thời gian xây dựng mơ hình phương pháp nhóm mẫu lấy giá trị thời gian trung bình lần chạy liên tiếp phương pháp nhóm mẫu thử nghiệm 3.3.4 Kết thực nghiệm Bảng 3-4 So sánh độ xác thời gian chiến lược phân đa lớp theo thuộc tính Độ xác phân lớp Thời gian xây dựng (%) mơ hình (giây) 1/m 78 7,36 1/1 84 3,96 Chiến lược Trên bảng 3-4 nhận thấy với độ xác 1/1 cao 1/m; Thời gian thực theo 1/1 nhanh 1/m khoảng 3,4s Kết thử nghiệm theo tổng điểm mơn (Tốn + Hóa + Sinh): 21 Bảng 3-5 So sánh độ xác thời gian chiến lược phân đa lớp theo tổng điểm mơn đầu vào Độ xác phân lớp Thời gian xây dựng mơ (%) hình (giây) 1/m 44 4,13 1/1 69 7,25 Chiến lược Trên bảng 3-5 nhận thấy với độ xác 1/1 cao 1/m; Thời gian thực theo 1/1 nhanh 1/m khoảng 3,12 s Kết thử nghiệm theo mơn Tốn: Bảng 3-6 So sánh độ xác thời gian chiến lược phân đa lớp theo mơn Tốn Độ xác phân lớp Thời gian xây dựng mơ (%) hình (giây) 1/n 79,4 8,17 1/1 82 5,25 Chiến lược Trên bảng 3-6 nhận thấy độ xác chiến lược 1/1 cao 1/m; Thời gian thực theo 1/1 nhanh 1/m khoảng 2,92 s Kết thử nghiệm theo Khu vực tuyển sinh: Bảng 3-7 So sánh độ xác thời gian chiến lược phân đa lớp theo Khu vực tuyển sinh Độ xác phân lớp Thời gian xây dựng mơ (%) hình (giây) 1/m 85 8,65 1/1 85 4,35 Chiến lược Trên bảng 3-7 nhận thấy với độ xác chiến lược 1/1 tương đương với 1/m; Thời gian thực theo 1/1 nhanh 1/m khoảng 4,3s 3.3.5 Phân tích đánh giá kết Các kết thực nghiệm tổng hợp bảng 3-8 22 Bảng 3-8 Kết sau phân lớp Phân lớp theo TT Phân lớp theo Phân lớp theo chiến lược chiến lược 1/1 1/m (%) (%) Tổng thuộc tính 78 84 Tổng điểm môn thi vào 44 69 Theo khu vực tuyển sinh 85 85 Theo điểm mơn tốn 79,4 82 Ghi Nhận xét Với kết trình bày bảng từ 3-4 đến bảng 3-8 rút số nhận xét sau: Kết phân lớp từ bảng 3-4 dúng lên đến 78% 84% Trong bảng kết phân lớp tỷ lệ cao, kết phân lớp để dự báo khả thi Trong bảng 3-5 phân loại theo tổng điểm mơn đầu vào (Tốn + Hóa + Sinh) ta nhận thấy phân lớp theo chiến lược 1/m tỷ lệ đạt 44% Nếu phân lớp theo chiến lược 1/1 tỷ lệ đạt 69% Rút kết luận kết học tập sinh viên có phụ thuộc vào tổng điểm mơn đầu vào Trong bảng 3-6 phân loại theo điểm thi đầu vào mơn Tốn: Tỷ lệ phân lớp theo hai chiến lược 1/m 1/1 79,4% 82% Đây tỷ lệ phân lớp cao Rút kết luận kết học tập sinh viên phụ thuộc nhiều vào điểm thi đầu vào mơn tốn Những sinh viên có điểm thi mơn tốn cao có kết học tập cao Trong bảng 3-7 phân lớp theo Khu vực tuyển sinh Kết phân lớp theo hai chiến lược 1/m 1/1 tương đương nhau, 85% tỷ lệ tốt Rút kết luận thí sinh khu vực 2, khu vực có điểm ưu tiên thấp (tức điểm thi đầu vào cao) có kết học tập tốt Từ kết chạy thử nghiệm ta thấy: Kết học tập sinh viên phụ thuộc vào điểm thi đầu vào, khu vực tuyển sinh điểm thi mơn tốn Khuyến nghị Trên sở kết thực nghiệm, luận văn đề xuất số khuyến nghị sau nhằm nâng cao chất lượng đầu sinh viên Học viện Y- Dược Học cổ truyền Việt Nam: 23 Xây dựng phương án tuyển sinh tổ hợp mơn Tốn, Hóa, Sinh lấy ưu tiên điểm thi mơn Tốn (có thể nhân hệ số môn 2) Theo nghiên cứu luận văn kết học tập sinh viên có phụ thuộc vào khu vực tuyển sinh nên chọn phương án ưu tiên mơn tốn có hệ số cao hơn, sinh viên có điểm thi mơn tốn cao dễ trúng tuyển Khi tỷ lệ thí sinh có điểm ưu tiên khu vực mà có điểm tổng điểm mơn thấp khó trúng tuyển Vì tăng hệ số điểm thi mơn tốn, tăng giá trị điểm thi thực thí sinh lên cịn điểm ưu tiên theo khu vực nguyên, điều hạn chế bớt thí thuộc khu vực có điểm cộng ưu tiên cao 3.4 Kết luận chương Trong chương luận văn sử dụng kỹ thuật SVM cho toán phân loại kết học tập sinh viên Học viện Y- Dược Học cổ truyền Việt Nam Trên sở thông tin tuyển sinh đầu vào kết học tập sinh viên, luận văn tiến hành thực nghiệm với việc sử dụng SVM Kết thực nghiệm thu sử dụng phần mềm WEKA phân tích đánh giá cho thấy phù hợp với lý thuyết nghiên cứu Trong luận văn đề xuất số khuyến nghị việc xây dựng phương án tuyển sinh Học viện Y- Dược Học cổ truyền Việt Nam nhằm nâng cao chất lượng đào tạo 24 KẾT LUẬN Kết đạt luận văn Luận văn đạt kết sau: Khảo sát toán phân lớp liêu phương pháp giải chúng Đồng thời luận văn nghiên cứu độ đo đánh giá mơ hình phân lớp ứng dụng toán phân lớp liệu lĩnh vực khoa học, kỹ thuật đời sống xã hội Nghiên cứu kỹ thuật SVM giải toán phân lớp nhị phân chiến lược giải toán phân lớp đa lớp Sử dung SVM giải toán phân loại kết học tập sinh viên Học viện Y - Dược Học cổ truyền Việt Nam Về luận văn hoàn thành mục tiêu đề đề tài nghiên cứu Hướng phát triển luận văn: Tuy đạt số kết nêu trên, luận văn số hạn chế điều kiện mặt thời gian trình độ học viên Vì vậy, hướng nghiên cứu học viên là: - Nghiên cứu thêm thuật toán học máy khác để ứng dụng cho nhiều tốn phân lớp liệu đa dạng thực tế, - Mở rộng thêm thuộc tính có liên quan đến kết học tập sinh viên học chuyên ngành Y học cổ truyền yếu tố gia đình có nghề gia truyền, sở thích sinh viên, cho toán phân loại kết học tập sinh viên Học viện Y - Dược Học cổ truyền Việt Nam - Phát triển toán phân loại dự báo cho ngành học khác để hỗ trợ trình đào tạo trường đại học khác ... liệu, nhiều phương pháp khác đề xuất để xây dựng mơ hình phân lớp liệu Các phương pháp bắt nguồn từ lĩnh vực nghiên cứu khác thư? ??ng sử dụng cách tiếp cận xây dựng mơ hình đa dạng Chúng có nhiều hình... chức, tìm kiếm khai thác thông tin (dữ liệu) cách hiệu Một giải pháp nghiên cứu để giải vấn đề xây dựng mơ hình tính tốn dựa phương pháp học máy nhằm phân loại, khai thác thông tin cách tự động... ứng dụng chúng Chương 2: Nghiên cứu kỹ thuật máy hỗ trợ vector phân lớp liệu Nội dung chương nghiên cứu chi tiết kỹ thuật SVM ứng dụng cho toán phân lớp liệu Chương 3: Xây dựng ứng dụng máy hỗ trợ

Ngày đăng: 23/10/2017, 11:46

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan