Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
2,79 MB
File đính kèm
luanvanfull.rar
(3 MB)
Nội dung
i LỜI CẢM ƠN Trong trình làm luận văn “Học nửagiámsátdựađồthịứng dụng” tơi nhận giúp đỡ tận tình cá nhân tập thể Trước hết, xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo PGS.TS Đồn Văn Ban, người tận tình hướng dẫn, bảo cho tơi suốt q trình thực luận văn Xin bày tỏ lòng biết ơn chân thành tới thầy, cô giáo Viện Công nghệ Thông tin thầy, cô giáo Trường Đại học Công nghệ Thông tin & Truyền thông Thái Nguyên, đem lại cho kiến thức vơ có ích năm học tập trường người bên cạnh, động viên khuyến khích tơi q trình thực đề tài nghiên cứu Tơi xin chân thành cảm ơn! , ngày 10 tháng năm 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CẢM ƠN i DANH MỤC HÌNH VẼ v LỜI MỞ ĐẦU .1 CHƯƠNG 1: TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP HỌC MÁY 1.1 Giới thiệu học máy 1.2 Các phương pháp học máy 1.2.1 Học có giámsát 1.2.2 Học không giámsát 1.2.3 Học tăng cường 11 1.2.4 Họcnửagiámsát 12 1.3 Một số phương pháp họcnửagiámsát 14 1.3.1 Phương pháp tự huấn luyện 14 1.3.2 Phương pháp đồng huấn luyện 15 1.3.3 Phương pháp Máy véc tơ hỗ trợ truyền dẫn 18 1.3.4 Phương pháp dựađồthị 22 1.4 Kết luận 24 CHƯƠNG 2: PHƯƠNG PHÁP HỌCNỬAGIÁMSÁTDỰATRÊNĐỒTHỊ 25 2.1 Giới thiệu 25 2.2 Các loại đồthị phổ biến sử dụnghọcnửagiámsát 27 2.2.1 Đồthị kết nối đầy đủ 27 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2.2.2 Đồthị rời rạc 27 2.2.3 Đồthị -láng giềng gần 28 2.2.4 Đồthị -láng giềng gần 28 2.2.5 Đồthị trọng số exp 29 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2.3 Các phương pháp xác định khoảng cách điểm liệu 29 2.3.1 Khoảng cách cục bộ, khoảng cách toàn cục trọng số 29 2.3.2 Khoảng cách Hamming 30 2.3.3 Khoảng cách Manhattan cho thuộc tính số học 30 2.3.4 Các hàm khoảng cách cục không đồng 31 2.3.5 Hàm khoảng cách tri thức chuyên gia 31 2.4 Thuật toán lan truyền nhãn đồthị 32 2.4.1 Ký hiệu 32 2.4.2 Nội dung thuật toán 33 2.4.3 Sự hội tụ thuật toán 34 2.4.4 Phương pháp xác định siêu tham số đồthị 36 2.4.5 Độ phức tạp thuật toán 38 2.5 Thuật toán họcnửagiámsátdựađồthị - Mincut 38 2.6 Các trường Gaussian ngẫu nhiên hàm điều hòa 40 2.6.1 Các trường Gaussian ngẫu nhiên 40 2.6.2 Đồthị Laplacian 42 2.6.3 Các hàm điều hòa 43 2.7 Đánh giá 44 2.8 Kết luận chương 44 CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN 45 3.1 Mơ tả tốn 45 3.2 Mô tả liệu đầu vào 45 3.3 Trích chọn đặc trưng 47 3.4 Cài đặt thử nghiệm 50 Môi trường cài đặt thử nghiệm 50 Các chức chương trình 51 3.5 Kết thực nghiệm đánh giá độ phức tạp 54 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 3.6 Kết luận 56 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 TÀI LIỆU THAM KHẢO .58 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Concept Concept Khái niệm Self-training Self-training Tự huấn luyện Co-training Co-training Đồng huấn luyện Machine learning Machine learning Học máy Supervised learning Supervised learning Học có giámsát Unsupervised learning Unsupervised learning Học không giámsát Reinforcement learning Reinforcement learning Học tăng cường Semi-supervised learning Semi-supervised learning Support vector machine SVM Transductive support TSVM vector machine Họcnửagiámsát Máy véc tơ hỗ trợ Máy véc tơ hỗ trợ truyền dẫn Labeled Propagation Labeled Propagation Lan truyền nhãn Graph-based Graph-based Dựađồthị Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC HÌNH VẼ Hình 1.1: Phương pháp phân cụm liệu .9 Hình 1.2: Khung nhìn liệu văn liên kết 17 Hình 1.3: Dữ liệu học theo phương pháp Co-training 18 Hình 1.4: Phương pháp Máy véc tơ hỗ trợ 19 Hình 1.5: Phương pháp máy vecto hỗ trợ truyền dẫn .22 Hình 1.6: Minh họa đồthị gán nhãn 23 Hình 2.1: Phương pháp dựađồthị .25 Hình 2.2: Đồthị kết nối đầy đủ 27 Hình 2.3: Đồthị rời rạc .27 Hình 2.4: Đồthị -láng giềng gần 28 Hình 2.5: Đồthị -láng giềng gần 28 Hình 2.6: Trọng số cạnh hai đỉnh đồthị .29 Hình 2.7: Đồthị với trọng số cạnh .32 Hình 3.1: Tệp liệu tin nhắn mẫu 45 Hình 3.2: Nội dung tin nhắn chuyển thành dạng vector 46 Hình 3.3: Nội dung file liệu dạng vector 47 Hình 3.4: Trích chọn đặc trưng 48 Hình 3.5: Trích chọn thuộc tính cho file đầu vào chương trình 49 Hình 3.6: Dữ liệu chương trình 49 Hình 3.7: Dữ liệu chương trình mở Notepad 50 Hình 3.8: Giao diện chọn tệp liệu .51 Hình 3.9: Kết lựa chọn phương pháp tự huấn luyện 52 Hình 3.10: Giao diện đồthị lan truyền nhãn trước thực 53 Hình 3.11: Giao diện đồthị lan truyền nhãn sau thực .54 Hình 3.12: Kết đồthị sau gán nhãn dạng đồthị 54 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI MỞ ĐẦU Học máy (Machine learning) ngành khoa học nghiên cứu kĩ thuật, phương pháp cho phép máy tính có khả "học" giống người Hay nói cách khác cụ thể hơn, học máy phương pháp để tạo chương trình máy tính việc phân tích tập liệu, qua máy tính có khả tích lũy tri thức thơng qua việc học khái niệm để định trường hợp tương tự Lĩnh vực học máy truyền thống thường chia thành bốn lĩnh vực con, bao gồm: Học có giámsát (Supervised learning), Học khơng giámsát (Unsupervised learning), Họcnửagiámsát (Semi-Supervised learning) Học tăng cường (Reinforcement learning) Họcnửagiámsát sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Họcnửagiámsátđứnghọc khơng giámsát (khơng có liệu có nhãn nào) có giámsát (tồn liệu gán nhãn) Để gán nhãn liệu cho tốn học máy thường đòi hỏi phân loại tay ví dụ huấn luyện Chi phí cho quy trình khiến tập liệu gán nhãn hồn tồn trở nên khơng khả thi, liệu khơng Trong tình đó, họcnửagiámsát có giá trị thực tiễn lớn lao Chính vậy, họcnửagiámsát kết hợp số lượng lớn liệu chưa gán nhãn với liệu gán nhãn để xây dựng phân lớp tốt Một số phương pháp điển hình lĩnh vực kể đến như: Phương pháp EM với mô hình sinh hỗn hợp (EM with generative mixture models), phương pháp Tự huấn luyện (Self-training), phương pháp Đồng huấn luyện (Co-training), phương pháp máy véc tơ hỗ trợ (Transductive support vector machines) phương pháp Dựađồthị (Graph-based) Trong phương pháp họcnửagiámsátdựađồthị (Graph-based) hướng nghiên cứu mở đem lại hiệu lớn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Với lý trên, tác giả chọn đề tài “ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ” làm đề tài nghiên cứu luận văn tốt nghiệp thạc sĩ chuyên ngành Khoa học máy tính Nghiên cứu tổng quan họcnửagiámsát số phương pháp họcnửagiámsát Nghiên cứu phương pháp họcnửagiámsátdựađồthị Cài đặt thử nghiệm thuật toán lan truyền nhãn đồthị thuật toán tự huấn luyện Đối tượng nghiên cứu: Họcnửagiámsát Phạm vi nghiên cứu: - Nghiên cứu tổng quan học có giám sát, học khơng giámsáthọcnửagiámsát - Các phương pháp họcnửagiámsát phổ biến - Phương pháp họcnửagiámsátdựađồthị (Graph-based) số thuật toán - Cài đặt thử nghiệm thuật toán lan truyền nhãn phương pháp họcnửagiámsátdựađồthị thuật toán tự huấn luyện Các luận điểm mà luận văn thể được: Nghiên cứu tổng quan đánh giá phương pháp họcnửagiám sát, tập trung vào phương pháp họcnửagiámsátdựađồthị Tập trung tìm hiểu số thuật toán lĩnh vực họcnửagiámsát như: Phương pháp EM với mơ hình sinh hỗn hợp, phương pháp Tự huấn luyện, phương pháp Đồng huấn luyện phương pháp máy véc tơ hỗ trợ Đồng thời tập trung nghiên cứu chi tiết phương pháp dựađồthị Cài đặt phần mềm thử nghiệm mô thuật toán lan truyền nhãn thuật toán tự huấn luyện, đánh giá độ phức tạp hai thuật tốn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trước tiến hành phân lớp liệu, cần phải xử lý để chuyển đổi liệu định dạng phù hợp Luận văn sử dụng phần mềm Weka (nguồn http://www.cs.waikato.ac.nz/ml/weka/) để thực thao tác tiền xử lý liệu Chi tiết bước xử lý sau: Bước 1: Chuyển đổi liệu dạng chuỗi dạng vector: weka xây dựng từ điển từ khóa Sau chuyển đổi, liệu dùng để chuyển đổi bao gồm 148 ghi 100 thuộc tính Hình 3.2 rõ liệu sau chuyển đổi Hình 3.2: Nội dung tin nhắn chuyển thành dạng vector Khi liệu dạng vector mơ tả hình sau Các thuộc tính từ nội dung tin nhắn, thuộc tính cột liệu Mỗi tin nhắn thể hàng với số 0,1… thể số lần xuất thuộc tính (từ tiếng anh) nội dung tin nhắn hình 3.3 Khi ta chỉnh sửa nội dung file cần Hình 3.3: Nội dung fle liệu dạng vector Bước 2: Trích chọn đặc trưng trình bày chi tiết mục 3.3 Bước 3: Thực gán số thứ tự cho đỉnh với đỉnh SMS thể dòng liệu gán nhãn trước cho số đỉnh số đỉnh chưa gán nhãn Bằng cách thêm số nhãn 1,0 (thể nhãn) hay -1 (chưa gán nhãn) trước phần liệu tin nhắn Bước thực chương trình nhằm chuẩn hóa liệu đầu vào cho phù hợp với liệu đầu vào thuật tốn 3.3 Trích chọn đặc trưng Trích chọn đặc trưng (Feature Selection, Feature Extraction) nhiệm vụ quan trọng giai đoạn tiền xử lý liệu triển khai mơ hình khai phá liệu máy học Một vấn đề gặp phải liệu dùng để xây dựng mơ hình liệu thường chứa nhiều thơng tin khơng cần thiết (thậm chí gây nhiễu) cho việc xây dựng mơ hình Chẳng hạn, liệu gồm hàng trăm thuộc tính dùng để mô tả khách hàng doanh nghiệp thu thập, nhiên xây dựng mơ hình cần khoảng 50 thuộc tính từ hàng trăm thuộc tính Nếu ta sử dụng tất thuộc tính (hàng trăm) khách hàng để xây dựng mơ hình ta cần nhiều CPU, nhiều nhớ q trình huấn luyện, chí thuộc tính khơng cần thiết làm giảmđộ xác mơ hình gây khó khăn việc phát tri thức Có nhiều phương pháp để trích chọn thuộc tính tốt để huấn luyện mà đảm bảo yêu cầu, giúp trình thực thi huấn luyện nhanh Trong trích chọn đặc trưng văn bản, phương pháp kể đến Bag-ofwords hay Chỉ số Gain,… luận văn sử dụng phương pháp trích chọn dựa bag-ofwords với kỹ thuật loại bỏ từ dừng “stop word” lấy từ gốc “stemming” Sau đặc trưng phù hợp chọn, phân lớp đào tạo với tập liệu huấn luyện Quá trình huấn luyện thường lặp lặp lại nhiều lần để có mơ hình tốt Hiệu mơ hình phân loại sau đánh giá tập liệu kiểm tra chuẩn bị riêng Trong luận văn Wake sử dụng để chọn đặc trưng tốt cách sử dụng tính Attribute Selection với tùy chọn Best First để lọc bỏ tính khơng thực quan trọng từ giảm số thuộc tính cần xét giúp chương trình thuật tốn thực nhanh mà đảm bảo số tiêu chí dùng cho phân lớp hình sau Hình 3.4: Trích chọn đặc trưng Từ ta file đầu vào cho toán tự huấn luyện lan truyền nhãn với 30 thuộc tính hình 3.5 Dữ liệu đầu vào xem sửa cần thiết hình 3.5 sau: Hình 3.5: Trích chọn thuộc tính cho fle đầu vào chương trình Hình 3.6: Dữ liệu chương trình Dữ liệu đầu vào thuật toán tập ghi liệu chưa phân lớp Với ghi liệu chứa giá trị thuộc miền rời rạc Hình 3.7: Dữ liệu chương trình mở Notepad Cấu trúc liệu tệp đầu vào mơ tả lại sau: Đầu tiên thông tin Wake Tiếp theo n dòng thơng tin thuộc tính có dạng @ thuộc tính với n số thuộc tính Mỗi dòng tương ứng với giá trị đối tượng luận văn dòng thể liệu thuộc tính sms Các giá trị thuộc tính cách dấu “,” 3.4 Cài đặt thử nghiệm Môi trường cài đặt thử nghiệm Chương trình thử nghiệm viết ngôn ngữ C#.Net Visual Studio 2010 sử dụng phiên Net Framework 4.0 Dữ liệu chương trình lưu trữ hệ quản trị sở liệu Sql Server 2008 R2 Các chức chương trình Nhập liệ u: Cho phép nhập liệu từ tệp text có cấu trúc mô tả mục 3.6 Trước nhập liệu, người dùng chỉnh sửa phần mềm Wake Để nhập liệu, người dùng nhấn vào nút “Chọn ”, sau tìm đến tệp liệu lưu trữ máy tính có dạng *.arff *.text Sau chọn tệp, liệu lấy thơng tin cần thiết thuộc tính thực lưu vào sở liệu hiển thị lên tab “Chi tiết liệu” để phục vụ cho việc thực thuật toán dễ dàng Hình 3.8: Giao diện chọn tệp liệu Tại giao diện này, cột wi thuộc tính thứ i thuộc tính trích chọn bên người dùng thực thao tác lựa chọn vào combobox “Chọn phương pháp” Chương trình cho phép lựa chọn phương pháp tự huấn luyện phương pháp lan truyền nhãn Sau lựa chọn, nhấn nút “Thực hiện” Với phương pháp tự huấn luyện, kết hiển thị sau: Hình 3.9: Kết lựa chọn phương pháp tự huấn luyện Các tin nhắn thuộc lớp sms spam 11 lại ham Với phương pháp lan truyền nhãn, giao diện hiển thị thông tin ma trận nhãn, ma trận xác suất nhãn, ma trận trọng số cạnh ma trận xác suất Mỗi nút đồthị SMS Ngoài tab “Đồ thị lan truyền nhãn”, hiển thịđồthị nhãn với đỉnh hình tròn, đỉnh màu đỏứng với trường hợp chưa gán nhãn, đỉnh xanh ứng với nhãn đỉnh vàng ứng với nhãn đường nối đỉnh Trong hình 3.10 ta xem chi tiết ma trận tính tốn trình lan truyền nhãn như: ma trận trọng số cạnh W, ma trận xác suất chuyển đổi P, ma trận nhãn YL, ma trận xác suất chuyển nhãn f Hình 3.10: Giao diện đồthị lan truyền nhãn trước thực Ở giao diện bảng “Nút i” thể SMS thứ i Để thực thuật toán lan truyền nhãn, người dùng nhấn vào nút “Thực hiện” tab “Phương pháp lan truyền nhãn”, chương trình trả kết đỉnh gán nhãn Đồng thời hiển thị ma trận xác suất hội tụ ma trận xác xuất nhãn fu với tin nhắn spam Sau hệ thống thực xong việc lan truyền nhãn, ta xem kết dạng bảng ma trận xác suất nhạn hội tụ ma trận xác suất nhãn fu dạng đồthị hình 3.11 Màn hình hiển thị thơng tin đỉnh nhãn chúng sau lan truyền từ đỉnh gán nhãn khác Hình 3.11: Giao diện đồthị lan truyền nhãn sau thực Sau thực thuật toán lan truyền nhãn, đỉnh gán nhãn nên khơng đỉnh màu đỏ (chưa gán nhãn) hình Tại giao diện này, người dùng nhấn vào nút “Lưu kết quả” để lưu lại liệu gán nhãn Kết xuất tệp text 3.5 Kết thực nghiệm đánh giá độ phức tạp 3.5.1 Kết thực nghiệm Hình 3.12: Kết đồthị sau gán nhãn dạng đồthị Kết thực nghiệm thuật toán thu 11 tin nhắn phân lớp tin nhắn rác 39 tin nhắn tin nhắn phân lớp sai, tỷ lệ tin nhắn phân lớp đạt 94% 3.5.2 Đánh giá độ phức tạp thuật toán Với thuật toán tự huấn luyện Dữ liệu đầu vào bao gồm: ℓ: số lượng liệu gán nhãn u: số lượng liệu chưa gán nhãn (u ≫ ℓ) n = ℓ + u =50 : tổng số lượng liệu Độ phức tạp thuật toán tự huấn luyện dựa việc đánh giá trình lặp bước (xem 1.3.1): Thuật tốn thực số vòng lặp nhiều là: u vòng lặp Trong đó: Vòng lặp thứ có độ phức tạp: O (ℓ) Vòng lặp thứ hai có độ phức tạp là: O (ℓ + 1) Vòng lặp thứ u có độ phức tạp là: O (ℓ+u−1) Do thuật tốn có độ phức tạp là: O (ℓ) + O (ℓ +1) + + O (ℓ +u−1) = O(ℓ +u−1) (O (ℓ +u) − O (ℓ))/ = O(ℓ +u−1) O (u) / 2 ≈ O(n ) ≈ O(50 ) Với thuật toán lan truyền nhãn Thuật toán lan truyền nhãn thực dựa q trình tính tốn ma trận việc lặp lại để xác định hội tụ thuật toán Đầu vào thuật tốn đồ thị, đó: ℓ: số đỉnh gán nhãn u: số đỉnh chưa gán nhãn (u ≫ ℓ) n = ℓ + u =50: tổng số đỉnh đồthị Thuật toán thực trình tính tốn với độ phức tạp thành phần sau: - Quá trình xác định ma trận trọng số W, ma trận xác suất P, ma trận xác suất chuyển nhãn PUU, ma trận xác suất PUL, ma trận nhãn YL, ma trận xác suất nhãn f, có độ phức tạp: O(n ) (1) - Quá trình xác định siêu tham số α dựa thuật tốn tìm khung nhỏ nhất, có độ phức tạp: O (n ×log n) (2) - Q trình lặp để thực việc lan truyền nhãn thực m bước lặp (m lớn), đó: việc xác định hội tụ thuật toán dựa q trình tính tốn định thức ma trận, phép tốn nhân ma trận tìm ma trận nghịch đảo, có độ phức tạp: O(n ) Do đó, độ phức tạp q trình lặp là: O (m×n ) (3) Từ (1), (2) (3) suy độ phức tạp thuật toán la truyền nhãn là: O (m×50 ) 3.6 Kết luận Trong chương này, tác giả cài đặt chương trình thử nghiệm phương pháp tự huấn luyện lan truyền nhãn dựahọcnửagiámsát Với thuật toán tự huấn luyện, ứngdụng cho phép người dùng nhập liệu đầu vào, gán nhãn thơng qua q trình tự huấn luyện Với thuật toán lan truyền nhãn đồ thị, chương trình cho phép theo dõi kết q trình tính tốn thơng qua ma trận, đồng thời hiển thị kết cách trực quan lên giao diện Chương trình dễ dàng phát triển với nhiều thuộc tính Trong chương này, tác giả chương trình thử nghiệm thuật tốn phân lớp áp dụng vào toán phân loại tin nhắn rác Với phương pháp trích chọn đặc trưng trình bày trên, giúp giảm nhiều thời gian thực phân lớp thuật toán Đồng thời, luận văn trình bày chi tiết bước tiền xử lý liệu cho phép khai thác thuật toán phân lớp hiệu KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận : - Trình bày khái qt học có giám sát, học khơng giámsáthọcnửagiámsát - Giới thiệu số phương pháp họcnửagiámsát phổ biến như: Selftraining, Co-training, TSVM đánh giá ưu nhược điểm phương pháp - Trình bày phương pháp họcnửagiámsátdựađồthị số thuật toán như: Labeled Propagation, Mincut - Đã cài đặt chương trình thử nghiệm thuật tốn lan truyền nhãn đồthị thuật toán tự huấn luyện Hạn chế Về chương trình ứng dụng: thời gian có hạn nên tơi chưa có điều kiện xây dựng phần mềm ứngdụng hoàn chỉnh, áp dụng thuật toán vào lĩnh vực đời sống Hướng phát triển Với việc nghiên cứu họcnửagiámsát phương pháp họcnửagiámsátdựađồ thị, tiếp tục nghiên cứu sâu hướng tìm hiểu phương pháp, thuật tốn họcnửagiámsát khác để áp dụng lý thuyết nghiên cứu nhằm xây dựng phần mềm áp dụng vào thực tiễn TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] TS Nguyễn Tân Ân (2011), Bài giảng mạng noron nhân tạo, Trường Đại học Sư phạm Hà Nội, Hà Nội [2] PGS TS Đoàn Văn Ban, ThS Nguyễn Hiền Trinh (2009), Ngơn ngữ hình thức ơtơmát, NXB Đại học Thái Nguyên [3] PGS TS Hà Quang Thụy (2011), Bài giảng nhập môn khai phá liệu, Trường Đại học Công nghệ Đại học Quốc gia Hà Nội, Hà Nội Tài liệu tiếng Anh [4] Avirm Blum, Shuchi Chawla (2001), Learning from labeled and Unlabeled Data using Graph Mincuts, Computer Science Department, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA15213USA [5] Amarnag Subramanya (2012), Partha Pratim Talukdar, A Tutorial on Graph-based Semi-Supervised Learning Algorithms for NLP, South Korea [6] Matthias Seeger (2001), Learning with labeled and unlabeled data, Technical Report, University of Edinburgh [7] Olivier Chapelle, Bernhard Schăolkopf, Alexander Zien (2006), SemiSupervised Learning [8] Partha Pratim Talukdar (July 16, 2010), Experiments in Graph-based SemiSupervised Learning Methods for Class-Instance Acquisition, Search Labs, Microsoft Research Mountain View, CA 94043, Fernando Pereira Google, Inc.Mountain View, CA 94043 [9] Xiaojin Zhu (May 2005), Semi-Supervised Learning with Graphs [10] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma ... cứu: Học nửa giám sát Phạm vi nghiên cứu: - Nghiên cứu tổng quan học có giám sát, học không giám sát học nửa giám sát - Các phương pháp học nửa giám sát phổ biến - Phương pháp học nửa giám sát dựa. .. hiểu chất học nửa giám sát, ta xem xét khái niệm học có giám sát, học khơng giám sát học tăng cường 1.2 Các phương pháp học máy 1.2.1 Học có giám sát Học có giám sát kỹ thuật ngành học máy nhằm... Khoa học máy tính Nghiên cứu tổng quan học nửa giám sát số phương pháp học nửa giám sát Nghiên cứu phương pháp học nửa giám sát dựa đồ thị Cài đặt thử nghiệm thuật toán lan truyền nhãn đồ thị