Phương Pháp Học Nửa Giám Sát Và Ứng Dụng.pdf

Thông tin tài liệu

Untitled Số hóa bởi Trung tâm Học liệu http //www lrc tnu edu vn/ ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ———————————— TRẦN ANH TUẤN PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀ ỨNG[.]

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ———————————— TRẦN ANH TUẤN PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀ ỨNG DỤNG Chuyên nghành: Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN Thái nguyên – Năm 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ -i- MỤC LỤC MỤC LỤC i DANH MỤC CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC HÌNH v MỞ ĐẦU CHƢƠNG 1: PHƢƠNG PHÁP HỌC MÁY 1.1 Khái niệm học máy 1.2 Một số khái niệm học máy 1.2.1 Không gian biểu diễn liệu 1.2.2 Bản chất liệu 1.2.3 Tiền xử lý liệu 1.2.4 Q trình rời rạc hóa liệu 1.2.5 Tập mẫu 1.2.6 Quá trình tìm kiếm không gian giả thuyết 1.3 Học có giám sát 1.3.1 Khái niệm 1.3.2 Cách giải toán học có giám sát 1.3.3 Cực tiểu hóa rủi ro kinh nghiệm 10 1.4 Học khơng có giám sát 11 1.4.1 Khái niệm 11 1.4.2 Phân cụm liệu 12 1.5 Học tăng cƣờng 14 1.6 Học nửa giám sát 16 1.6.1 Khái niệm 16 - ii 1.6.2 Bài toán học nửa giám sát 19 1.7 Tổng kết chƣơng 21 CHƢƠNG 2: MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 22 2.1 Một số thuật toán học nửa giám sát 22 2.1.1 Mơ hình sinh thuật toán kỳ vọng cực đại 22 2.1.1.1 Giới thiệu mơ hình sinh 22 2.1.1.2 Mơ hình sinh học nửa giám sát 22 2.1.1.3 Thuật toán kỳ vọng cực đại 24 2.1.2 Thuật toán tự huấn luyện 25 2.1.2.1 Giới thiệu thuật toán tự huấn luyện 25 2.1.2.2 Nội dung thuật toán 26 2.1.3 Thuật toán đồng huấn luyện 27 2.1.3.1 Giới thiệu thuật toán đồng huấn luyện 27 2.1.3.2 Nội dung thuật toán 28 2.1.4 Thuật toán máy véc tơ hỗ trợ (S3VM) 29 2.4.1.1 Thuật toán SVM 29 2.1.4.2 Giới thiệu thuật toán S3VM 34 2.1.4.3 Nội dung thuật toán S3VM 34 2.2 Phân cụm liệu 36 2.2.1 Khái quát trình phân cụm liệu 36 2.2.2 Bài toán phân cụm liệu 36 2.2.3 Các yêu cầu phân cụm liệu 39 2.2.4 Các kỹ thuật phân cụm 41 - iii 2.2.5 Một số thuật toán phân cụm liệu nửa giám sát 46 2.2.5.1 Thuật toán COP-Kmeans 46 2.2.5.2 Phân cụm nửa giám sát tập liệu đƣợc gán nhãn 47 2.2.5.3 Thuật toán K-Means phân cấp 49 2.3 Tổng kết chƣơng 50 CHƢƠNG 3: ỨNG DỤNG HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN CỤM VĂN BẢN 51 3.1 Phân tích tốn 51 3.2 Hƣớng giải toán 53 3.3 Giải pháp, công nghệ sử dụng 57 3.4 Cài đặt chƣơng trình thử nghiệm 58 3.4.1 Nội dung chƣơng trình 58 3.4.2 Kết thực nghiệm 63 3.4.3 Thực phân cụm thử nghiệm 64 3.5 Kết luận chƣơng 67 KẾT LUẬN 68 TÀI LIỆU THAM KHẢO 70 - iv - DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machine S3VM Semi – superviesd Suport vector machines EM Expectation-Maximization MaxEnt Maximum Entropy TSVM Transductive Support Vector Machine RSS Residual Sum of Squares -v- DANH MỤC CÁC HÌNH Hình 1.1: Mơ hình học có giám sát Hình 1.2: Minh họa phân cụm liệu 13 Hình 1.3: Sơ đồ trình thực học nửa giám sát 17 Hình 1.4: Mơ hình học nửa giám sát 19 Hình 1.5: Dữ liệu chƣa gán nhãn sử dụng trình học nửa giám sát 20 Hình 1.6: Mơ hình hóa tập liệu học nửa giám sát 21 Hình 2.1 Dữ liệu có nhãn 23 Hình 2.2 Dữ liệu có nhãn chƣa có nhãn 23 Hình 2.3 Quá trình tự huấn luyện 26 Hình 2.4 Phân lớp SVM 29 Hình 2.5: Phân cụm vector truy vấn 37 Hình 2.6: Hình thành cụm cha 38 Hình 2.7: Các chiến lƣợc phân cụm phân cấp 42 Hình 2.8: Thuật toán K-Means phân cấp 50 Hình 3.1 Thuật tốn phân cụm văn 57 Hình 3.2: Giao diện chƣơng trình 63 Hình 3.3: Thử nghiệm nhập văn để phân cụm 65 Hình 3.4: Thử nghiệm chèn văn vào danh sách chờ phân cụm 66 Hình 3.5: Kết phân cụm thử nghiệm 66 -1- MỞ ĐẦU Đặt vấn đề Hoạt động học tập hoạt động chuyên hƣớng vào tái tạo lại tri thức ngƣời học Sự tái tạo hiểu theo nghĩa phát lại Sự thuận lợi cho ngƣời học đƣờng mà để phát lại đƣợc nhà khoa học tìm hiểu trƣớc, ngƣời học việc tái tạo lại Và để tái tạo lại, ngƣời học khơng có cách khác phải huy động nội lực thân (động cơ, ý chí, …), phát huy cao việc tái tạo lại diễn tốt nhiêu Do hoạt động học làm thay đổi ngƣời học Ai học ngƣời phát triển, không học thay đƣợc, ngƣời học cần phải có trách nhiệm với thân mình, q trình học Mặc dù hoạt động học làm thay đổi khách thể Nhƣng nhƣ khơng phải mục đích tự thân hoạt động học mà phƣơng tiện để đạt đƣợc mục đích làm thay đổi chủ thể hoạt động Hoạt động học hoạt động tiếp thu tri thức lý luận, khoa học Nghĩa việc học không dừng lại việc nắm bắt khái niệm đời thƣờng mà học phải tiến đến tri thức khoa học, tri thức có tính chọn lựa cao, đƣợc khái quát hoá, hệ thống hoá Hoạt động học tập không hƣớng vào việc tiếp thu tri thức, kĩ năng, kĩ xảo mà hƣớng vào việc tiếp thu tri thức thân hoạt động học Hoạt động học muốn đạt kết cao, ngƣời học phải biết cách học, phƣơng pháp học, nghĩa phải có tri thức thân hoạt động học Vậy, việc làm để máy tính có khả học tập, tƣ có khả học tập giống ngƣời lĩnh vực nghiên cứu đƣợc ý thời đại Dựa khuynh hƣớng hƣớng dẫn PGS, TS -2Đồn Văn Ban, mạnh dạn nhận đề tài: ”PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT VÀ ỨNG DỤNG” để tìm hiểu ứng dụng vào thực tế Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu: - Đề tài nghiên cứu vấn đề chung học máy, số thuật toán khai phá liệu ứng dụng thuật toán học nửa giám sát phân cụm văn Phạm vi nghiên cứu: - Khai phá liệu, giải thuật phân cụm - Học máy m ột số thuật toán học nửa giám sát ứng dụng thực tế Hƣớng nghiên cứu đề tài - Nghiên cứu lý thuyết học máy, học khơng giám sát, học có giám sát, học nửa giám sát - Nghiên cứu số thuật toán học nửa giám sát, phân cụm liệu - Từ kết thu đƣợc đề tài cài đặt ứng dụng toán phân cụm văn Những nội dung Luận văn đƣợc trình bày chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Luận văn đƣợc chia làm ba chƣơng với nội dung nhƣ sau: Chƣơng 1: Trình bày khái niệm học máy, học có giám sát, học khơng giám sát, học tăng cƣờng học nửa giám sát Chƣơng 2: Trình bày số thuật toán học nửa giám sát tốn phân cụm liệu Chƣơng 3: Trình bày toán phân cụm liệu văn bản, cách biểu diễn xử lý liệu văn tiến hành cài đặt thử nghiệm thuật toán -35 Phƣơng pháp nghiên cứu - Nghiên cứu tổng hợp tài liệu, phƣơng pháp học máy: Học giám sát, học không giám sát, học nửa giám sát - Nghiên cứu giải thuật học nửa giám sát Ý nghĩa khoa học: Đề tài nghiên cứu vấn đề chung học máy, số thuật toán khai phá liệu ứng dụng thuật toán học nửa giám sát để phân cụm văn -4- CHƢƠNG 1: PHƢƠNG PHÁP HỌC MÁY 1.1 Khái niệm học máy Học máy (machine learning) ngành khoa học nghiên cứu kĩ thuật, phƣơng pháp cho phép máy tính có khả "học" giống nhƣ ngƣời Hay nói cách khác cụ thể hơn, học máy phƣơng pháp để tạo chƣơng trình máy tính việc phân tích tập liệu, qua máy tính có khả tích lũy đƣợc tri thức thông qua việc học đƣợc khái niệm để định trƣờng hợp tƣơng tự [11] Qua ta thấy học máy có liên quan mật thiết với thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, nhƣng học máy khác với thống kê chỗ, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận đƣợc xếp vào loại tốn NP-khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lí đƣợc Phân loại: Có hai loại phƣơng pháp học máy chính: - Phƣơng pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập đƣợc trƣớc Phƣơng pháp cho phép tận dụng đƣợc nguồn liệu nhiều sẵn có - Phƣơng pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phƣơng pháp cho phép tận dụng đƣợc kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật toán cố gắng tận dụng đƣợc ƣu điểm hai phƣơng pháp - 57 3.3 Giải pháp, công nghệ sử dụng * Công nghệ, công cụ: Ứng dụng đƣợc xây dựng công cụ Microsoft Visual Studio 2010, tảng Net Framework 4.0 * Thuật toán sử dụng: COP-Kmeans; Thuật toán Kỳ vọng cực đại (Expectation Maximization); Kỹ thuật phân cụm theo thứ bậc (Hierarchical clustering) * Ý tƣởng thuật toán: Chọn số k cụm đƣợc xác định Khởi tạo k đối tƣợng ngẫu nhiên không vi phạm buộc nhƣ trung tâm cụm ban đầu Repeat 3.1.Chỉ định đối tƣợng đến cụm gần không vi phạm buộc 3.2.Tính tốn cụm mới, tính điểm trung bình Until 4.1.Khơng có thay đổi tâm cụm (tức trọng tâm khơng thay đổi vị trí nữa) HOẶC 4.2.Khơng có đối tƣợng thay đổi cụm Lựa chọn nhân Chuyển đối tƣợng văn Tính tốn lại nhân Hình 3.1 Thuật tốn phân cụm văn - 58 * Tổng bình phƣơng phân dƣ (RSS - Residual Sum of Squares) RSS cách tốt để tính trọng tâm đại diện cho đối tƣợng cụm Đƣợc tính tổng bình phƣơng khoảng cách vector từ trọng tâm đến tất vector Trong đó: - wk: Văn phân cụm k - ⃗: Tâm cụm văn wk - ⃗: Véctơ văn cụm k 3.4 Cài đặt chƣơng trình thử nghiệm 3.4.1 Nội dung chƣơng trình Mỗi tài liệu đƣợc biểu diễn nhƣ vector sử dụng mơ hình khơng gian vector Mơ hình khơng gian vector cịn gọi mơ hình vector mơ hình đại số để đại diện cho tài liệu văn (hoặc đối tƣợng, nói chung) vectơ định danh - Lớp DocumentVector: chứa tài liệu đại diện tƣơng ứng không gian vector public class DocumentVector { //Content represents the document (or any other object) to be clustered public string Content { get; set; } //represents the tf*idf of each document public float[] VectorSpace { get; set; } } - 59 - Lớp DocumentCollection chứa tất tài liệu tắm class DocumentCollection { public List DocumentList { get; set; } } - TF-IDF viết tắt Tần số tài liệu -Tần số nghịch đảo, số thống kê phản ánh tầm quan trọng từ tài liệu danh sách, phƣơng pháp trọng phổ biến đƣợc sử dụng để mô tả tài liệu khơng gian mơ hình Vector Số lần thuật ngữ xuất tài liệu đƣợc gọi tần số Chúng ta tính tốn tần số cho từ nhƣ tỷ lệ số lần từ xảy văn tổng số từ tài liệu Tần số tài liệu nghịch đảo đƣợc tính cách chia tổng số tài liệu cho số tài liệu có chứa thuật ngữ, sau dùng logarit thƣơng //Calculates TF-IDF weight for each term t in document d private static float FindTFIDF(string document, string term) { float tf = FindTermFrequency(document, term); float idf = FindInverseDocumentFrequency(term); return tf * idf; } private static float FindTermFrequency(string document, string term) { int count = r.Split(document).Where(s => s.ToUpper() == term.ToUpper()).Count(); //ratio of no of occurance of term t in document d to the total no of terms in the document return (float)((float)count / (float)(r.Split(document).Count())); } - 60 - private static float FindInverseDocumentFrequency(string term) { //find the no of document that contains the term in whole document collection int count = documentCollection.ToArray().Where(s => r.Split( s.ToUpper()).ToArray().Contains(term.ToUpper())).Count(); /* * log of the ratio of total no of document in the collection to the no of document containing the term * we can also use Math.Log(count/(1+documentCollection.Count)) to deal with divide by zero case; */ return (float)Math.Log((float)documentCollection.Count() / (float)count); } - Tìm điểm tƣơng đồng: Đầu vào hàm hai vecto */A, B đại diện cho hai văn bản, kết trả số điểm tƣơng tự (giữa 0) public static float FindCosineSimilarity(float[] vecA, float[] vecB) { var dotProduct = DotProduct(vecA, vecB); var magnitudeOfA = Magnitude(vecA); var magnitudeOfB = Magnitude(vecB); float result = dotProduct / (magnitudeOfA * magnitudeOfB); //when is divided by it shows result NaN so return in such case if (float.IsNaN(result)) return 0; else return (float)result; } - 61 - - Tính toán tâm cụm: tâm cụm đƣợc khởi tạo cho phiên kế tiếp, biến số chứa giá trị ngƣời sử dụng xác định trung tâm cụm ban đầu private static void InitializeClusterCentroid(out List centroid,int count) { Centroid c; centroid = new List(); for (int i = 0; i < count; i++) { c = new Centroid(); c.GroupedDocument = new List(); centroid.Add(c); } } - Tìm kiếm tâm cụm gần nhất: hàm trả số tâm cụm gần cho tài liệu Mảng similarityMeasure giữ số điểm tƣơng tự cho tài liệu với trung tâm cụm, số có điểm số tối đa đƣợc lấy làm trung tâm cụm gần tài liệu định private static int FindClosestClusterCenter(List clusterCenter,DocumentVector obj) { float[] similarityMeasure = new float[clusterCenter.Count()]; for (int i = 0; i < clusterCenter.Count(); i++) { similarityMeasure[i] = SimilarityMatrics.FindCosineSimilarity( clusterCenter[i].GroupedDocument[0].VectorSpace, obj.VectorSpace); } int index = 0; float maxValue = similarityMeasure[0]; - 62 - for (int i = 0; i < similarityMeasure.Count(); i++) { //if document is similar assign the document //to the lowest index cluster center to avoid the long loop if (similarityMeasure[i] >maxValue) { maxValue = similarityMeasure[i]; index = i; } } return index; } - Xác định vị trí tâm cụm mới: Sau tài liệu đƣợc gán với tâm cụm gần nó, chƣơng trình tính tốn lại giá trị trung bình tâm cụm mà vị trí tâm cụm (centroid) private static List CalculateMeanPoints(List _clusterCenter) { for (int i = 0; i < _clusterCenter.Count(); i++) { if (_clusterCenter[i].GroupedDocument.Count() > 0) { for (int j = 0; j < _clusterCenter[i].GroupedDocument[0].VectorSpace.Count(); j++) { float total = 0; foreach (DocumentVector vSpace in _clusterCenter[i].GroupedDocument) { total += vSpace.VectorSpace[j]; } //reassign new calculated mean on each cluster center, //It indicates the reposition of centroid - 63 - _clusterCenter[i].GroupedDocument[0].VectorSpace[j] = total / _clusterCenter[i].GroupedDocument.Count(); } } } return _clusterCenter; } 3.4.2 Kết thực nghiệm Dữ liệu đầu vào chƣơng trình đoạn văn đƣợc nhập vào TextBox Sau chạy chƣơng trình, đoạn văn đƣợc phân cụm theo số cụm k mà ngƣời dùng nhập vào hiển thị kết chƣơng trình Hình 3.2: Giao diện chƣơng trình - Số cụm: Nhập số cụm cần định nghĩa trình phân cụm văn - 04 ô Textbox: dùng để nhập văn cần phân cụm - Nút Add: Chèn văn nhập vào danh sách - 64 - Nút Clear: Xóa tất văn đƣợc nhập vào - Nút Restart: Khởi động lại trình phân cụm - Nút Start: Bắt đầu thực phân cụm 3.4.3 Thực phân cụm thử nghiệm Dữ liệu đầu vào chƣơng trình đoạn văn đƣợc lấy từ viết Cụ thể đoạn văn đƣợc lấy từ viết là: đoạn + 4, đoạn + 6, đoạn + 5: - Đoạn 1: Học máy (Machine Learning) ngành khoa học nghiên cứu thuật tốn cho phép máy tính học khái niệm (concept) - Đoạn 2: Sinh học khoa học sống (bắt nguồn từ Hy Lạp bios sống, logos mơn học) Nó miêu tả đặc điểm tập tính sinh vật, cách thức cá thể loài tồn tại, tác động qua lại lẫn với môi trường - Đoạn 3: Khai phá liệu hiểu đơn giản q trình chắt lọc hay khai phá tri thức từ khối liệu lớn - Đoạn 4: Có hai loại phương pháp học máy Phương pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập trước Phương pháp cho phép tận dụng nguồn liệu nhiều sẵn có Phương pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phương pháp cho phép tận dụng kiến thức chuyên ngành để hỗ trợ máy tính - Đoạn 5: Khai phá liệu cần sử dụng kiến thức từ nhiều ngành nhiều lĩnh vực khác thống kê, trí tuệ nhân tạo, CSDL, tính tốn song song,… Đặc biệt, gần gũi với lĩnh vực thống - 65 kê, sử dụng phương pháp thống kê để mơ hình hóa liệu phát mẫu - Đoạn 6: Sinh học bao hàm nhiều ngành học khác xây dựng dựa nguyên lý riêng Các môn học có mối quan hệ qua lại với nhau, giúp ta hiểu sống với mức độ, phạm vi khác Nhập đoạn văn lần lƣợt vào Textbox tƣơng ứng Chƣơng trình đƣợc thiết kế nhập lúc văn Hình 3.3: Thử nghiệm nhập văn để phân cụm - 66 Sau nhấn nút Add nhập tiếp hai văn thứ 6: Hình 3.4: Thử nghiệm chèn văn vào danh sách chờ phân cụm Nhấn Add để chèn tiếp văn cịn lại Sau nhập số cụm cần định nghĩa nhấn Start Kết chƣơng trình phân cụm 06 đoạn văn nhập vào thành 03 cụm nhƣ sau: Hình 3.5: Kết phân cụm thử nghiệm - 67 Kết văn đƣợc phân thành cụm tƣơng ứng với nội dung viết nguồn 3.5 Kết luận chƣơng Chƣơng trình bày tốn phân cụm văn bản, vấn đề xử lý văn áp dụng thuật toán học nửa giám sát để xây chƣơng trình thử nghiệm dơn giản dựa ngơn ngữ lập trình C# hệ điều hành Windows tiến hành chạy thử nghiệm chƣơng trình với số liệu đầu vào - 68 - KẾT LUẬN * Đánh giá kết đề tài Trong trình nghiên cứu thực hiện, luận văn đạt đƣợc nhƣng kết nhƣ sau: - Giới thiệu số khái niệm lĩnh vực học máy, học có giám sát, học khơng giám sát học nửa giám sát - Trình bày số thuật toán học nửa giám sát nhƣ thuật thoán EM (kỳ vọng cực đại), thuật toán Self – training (tự huấn luyện) thuật toán S3VM (Semi – superviesd Suport vector machines) - Giới thiệu số kỹ thuật phân cụm liệu việc sử dụng học không giám sát, học nửa giám sát ứng dụng toán phân cụm đặc biệt toán phân cụm văn - Cài đặt thuật toán học nửa giám sát ngơn ngữ lập trình C# chạy hệ điều hành Windows sau thử nghiệm phân cụm đoạn văn text nhập vào chƣơng trình * Hạn chế - Chƣơng trình thử nghiệm cịn đơn giản, chƣơng trình dừng lại mức thực đƣợc thuật toán liệu đầu vào đoạn văn đƣợc nhập vào, chƣa hỗ trợ việc đọc trực tiếp từ file văn - Độ xác phân cụm văn tiếng Việt chƣa cao, tốc độ phân cụm với số lƣợng văn lớn chậm Hƣớng phát triển tƣơng lai: Với kết đạt đƣợc, tác giả đề xuất số công việc thời gian tới nhƣ sau: - 69 - Tiếp tục xử lý vấn đề cịn tồn chƣơng trình thử nghiệm cài đặt nhƣ: Vấn đề liệu vào liệu đầu ra, xây dựng giao diện chƣơng trình thân thiện dễ sử dụng - Tiếp tục nghiên cứu thuật toán tách từ tiếng Việt, phân cụm văn để tăng cƣờng hiệu độ xác q trình phân cụm - Tiếp tục nghiên cứu để ứng dụng thuật toán học nửa giám sát sang số lĩnh vức khác nhƣ: Bài toán phân loại protein, toán nhận dạng hình ảnh, … - 70 - TÀI LIỆU THAM KHẢO Tiếng Việt [1] TS Nguyễn Tân Ân (2011), Bài giảng mạng noron nhân tạo, Trƣờng Đại học Sƣ phạm Hà Nội, Hà Nội [2] PGS TS Đoàn Văn Ban, ThS Nguyễn Hiền Trinh (2009), Ngơn ngữ hình thức ơtơmát, NXB Đại học Thái Nguyên [3] Lê Hữu Đạt, Lê Phƣơng Lan, Hồng Đức Hải (2000), Lập trình Windows, NXB giáo dục [4] PGS TS Hà Quang Thụy (2011), Bài giảng nhập môn khai phá liệu, Trƣờng Đại học Công nghệ Đại học Quốc gia Hà Nội, Hà Nội [5] B.Bouchon – Meunier, Hồ Thuần, Đặng Thanh Hà (2007), Logic mờ ứng dụng, NXB Đại học Quốc Gia Hà Nội Tiếng Anh [6] Avirm Blum, Shuchi Chawla (2001), Learning from labeled and Unlabeled Data using Graph Mincuts, Computer Science Department, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA15213USA [7] Amarnag Subramanya (2012), Partha Pratim Talukdar, A Tutorial on Graph-based Semi-Supervised Learning Algorithms for NLP, South Korea [8] Junhui Wang, Xiaotong Shen, Wei Pan (2007), On Transductive Support Vector Machines, School of Statistics University of Minnesota, Minneapolis, MN 55455 [9] Olivier Chapelle, Bernhard Schăolkopf, Alexander Zien (2006), SemiSupervised Learning - 71 [10] Partha Pratim Talukdar (July 16, 2010), Experiments in Graph-based Semi-Supervised Learning Methods for Class-Instance Acquisition, Search Labs, Microsoft Research Mountain View, CA 94043, Fernando Pereira Google, Inc.Mountain View, CA 94043 [11] Xiaojin Zhu (2005), Semi-supervised learning literature survey, University of Wisconsin-Madison Department of Computer Science, page 1530 [12] Xiaojin Zhu (May 2005), Semi-Supervised Learning with Graphs [13] Xiaojin Zhu, Zoubin Ghahramani, John Lafferty (2003), Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions, School of Computer Science, Carnegie Mellon University, Pittsburgh PA 15213, USA [14] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma [15] Zoubin Ghahramani (September 16, 2004), Unsupervised Learning, Gatsby Computational, Neuroscience Unit, University College London, UK [16] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma [17] Alex Smola, S.V.N Vishwanathan (2008), Introduction to Machine Learning, Departments of Statistics and Computer Science Purdue University, College of Engineering and Computer Science Australian National University [18] István Pilászy (2005), Text Categorization and Support Vector Machines, Department of Measurement and Information Systems Budapest University of Technology and Economics

Ngày đăng: 23/06/2023, 18:38

Xem thêm: