Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,73 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÁO CÁO BÀI TẬP NHĨM MƠN HỌC: KHAI PHÁ DỮ LIỆU NỘI DUNG: Chương 17 - Phương pháp MonteCarlo Chương 18 – Đối mặt với hàm phân hoạch Giảng viên: PGS.TS Hà Quang Thụy Nhóm 12: Sinh viên: Thái Tiến Dũng – 15022052 Sinh viên: Trần Thị Hằng - 15021165 Sinh viên: Hoàng Thị Lệ Thu – 15021364 Sinh viên: Lê Hồng Hội - 15021390 Sinh viên: Lê Trung Hiếu - 15021150 Hà Nội, tháng năm 2018 Phân cơng trình bày: Hồng Thị Lệ Thu: Chương 17 - Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning The MIT Press, 2016 Lê Hồng Hội: Chương 18, mục 18.1, 18.2, 18.3, 18.4 - Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning The MIT Press, 2016 Trần Thị Hằng: Chương 18, mục 18.5, 18.6, 18.7 - Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning The MIT Press, 2016 Lê Trung Hiếu: Chương 5, mục A Giới thiệu - Palash Goyal, Sumit Pandey, Karan Jain Deep Learning for Natural Language Processing Creating Neural Networks with Python Apress, 2018 Thái Tiến Dũng: Chương 5, mục B Penalization Term – Giới hạn trừng phạt Palash Goyal, Sumit Pandey, Karan Jain Deep Learning for Natural Language Processing Creating Neural Networks with Python Apress, 2018 Mục Lục Chapter 17: Phương pháp MONTE CARLO 17.1 Lấy mẫu phương pháp Monte Carlo 17.1.1 Lý lấy mẫu 17.1.2 Khái niệm lấy mẫu Monte Carlo 17.2 Lấy mẫu theo độ quan trọng 17.3 Phương pháp xích Markov Monte Carlo 10 17.4 Lấy mẫu Gibbs .14 17.5 Thách thức pha trộn chế độ riêng biệt .15 17.5.1 Xáo trộn để pha trộn chế độ .17 17.5.2 Độ sâu giúp cho việc pha trộn .19 Chương 18: Đối mặt với hàm phân hoạch 21 18.1 Gradient logarit hàm hợp lý 21 18.2 Hợp lý cực đại ngẫu nhiên phân kì tương phản 23 18.3 Pseudolikelihood (Giả hợp lý) .31 18.4: So sánh theo điểm số so sánh theo tỉ lệ 34 18.5 Giảm nhiễu so sánh điểm 36 18.6 Ước tính tương phản nhiễu 37 18.7 Ước lượng hàm phân hoạch 39 18.7.1 Lấy mẫu theo độ quan trọng 41 18.7.2 Lấy mẫu bắc cầu .44 CHƯƠNG 46 Tài liệu Nghiên cứu: Phân tích ý kiến 46 A Giới thiệu 46 Giới thiệu .46 Tự ý nhúng câu 47 Phương pháp đề xuất 48 B Penalization Term – Giới hạn trừng phạt 51 Khái niệm: 51 Trực quan hóa .53 Kết nghiên cứu 55 Triển khai phân loại ý kiến .56 Danh mục tham khảo 57 Danh mục hình ản Hình 17 Các đường biểu diễn lấy mẫu Gibbs cho ba phân phối .14 Hình 17 Một hoạ cho vấn đề pha trộn chậm mơ hình xác suất sâu .15 Y Hình 18 Cách nhìn giải thuật 18.1 có “pha dương” “pha âm” .22 Hình 18 Mode giả mạo Một ví dụ làm cách mà pha âm phân kì tương phản (giải thuật 18.2) thất bại việc ngăn chặn mode giả mạo 24 Hình A- Mơ hình nhúng câu tính nhiều khoản trạng thái ẩn có trọng số từ nhớ ngắn hạn dài hai chiều (LSTM) (h1,…, hn) 45 Hình A- Các trọng số tổng (Ai1,…, Ain) tính minh họa 46 Hình B đồ nhiệt cho hai mơ hình trained tập liệu Twitter Age [1] 51 Hình B Nhúng câu ba đánh giá Yelp khác 52 Chapter 17: Phương pháp MONTE CARLO Monte Carlo nhóm thuật tốn ngẫu nhiên Những thuật toán ngẫu nhiên chia thành hai nhóm chính: thuật tốn Las Vegas thuật tốn Monte Carlo Những thuật tốn Las Vegas ln đưa câu trả lời xác (hoặc thơng báo thất bại) Ngược lại, thuật toán Monte Carlo đưa câu trả lời với lượng sai số ngẫu nhiên .Rất nhiều tốn học máy khó để tìm câu trả lời xác Thay vào đó, phải sử dụng thuật tốn xác định xấp xỉ hay xấp xỉ Monte Carlo 17.1 Lấy mẫu phương pháp Monte Carlo Nhiều kĩ thuật sử dụng để đạt mục tiêu học máy dựa việc lấy mẫu thử từ vài phân bố xác suất sử dụng mẫu thử để đưa ước lượng Monte Carlo cho số đại lượng mong muốn 17.1.1 Lý lấy mẫu Chúng ta hi vọng lấy mẫu thử từ phân phối xác suất nhiều lý Lấy mẫu cung cấp cách linh hoạt để tính xấp xỉ tổng tích phân với chi phí Đơi chúng cịn sử dụng để tăng tốc việc tính tốn cho tổng với chi phí (tính tốn) lớn xử lý cách dễ dàng, ví dụ lấy mẫu (subsample) tổng chi phí huấn luyện với lơ nhỏ (minibatch) Trong số trường hợp, thuật toán học yêu cầu phải tính xấp xỉ tích phân tổng khó tính tốn, chẳng hạn độ dốc hàm số log-partition (log partition function) mô hình vơ hướng Trong nhiều trường hợp khác, lấy mẫu mục tiêu chính, muốn huấn luyện mơ hình lấy mẫu từ phân phối huấn luyện 17.1.2 Khái niệm lấy mẫu Monte Carlo Khi tổng tích phân khơng thể tính xác (ví dụ tổng có số lượng phần tử số có dạng luỹ thừa, khơng có cơng thức rút gọn xác), thường tính xấp xỉ cách sử dụng lấy mẫu Monte Carlo Ý tưởng xem tổng tích phân kì vọng phân phối, kì vọng xấp xỉ mức trung bình tương ứng Đặt: s=∑xp(x)f(x)=Ep[f(x)] (17.1) s=∫p(x)f(x)=Ep[f(x)] (17.2) tổng tích phân cần ước lượng, viết lại dạng kì vọng, với ràng buộc p phân phối xác suất (khi xấp xỉ tổng) hay mật độ xác suất (khi xấp xỉ tích phân) biến ngẫu nhiên X Chúng ta xấp xỉ s cách lấy n mẫu x(1), ,x(n)x(1), ,x(n) từ p sau tính trung bình thực nghiệm: sn = 1ni=1nf(x(i)) (17.3) Xấp xỉ chỉnh thêm số thuộc tính khác Quan sát sơ ước lượng s khơng thiên vị (unbiased), bởi: Ngoài ra, luật số lớn phát biểu mẫu x(i) biến phân phối ngẫu nhiên độc lập phân biệt (i.i.d = Independent and identically distributed random variables) miễn phương sai đại lượng, Var[f(x(i))], bị chặn, trung bình hội tụ gần chắn kì vọng: Thật vậy, xét phương sai sn tăng n Miễn Var[f(x(i))]> p(x(i))|f(x(i))|, lấy mẫu theo độ quan trọng thu mẫu thử vơ dụng (tổng nhỏ khơng) Nói cách khác, q(x(i))