Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
1,12 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TIỂU LUẬN GIỚI THIỆU VỀ HỌC SÂU VÀ PHƯƠNG PHÁP LUẬN THỰC TẾ Nhóm Thành viên: Nguyễn Thị Thủy Bùi Châu Anh Nguyễn Thị Phương Anh Trần Thị Thu Hường Nguyễn Thị Xoan HÀ NỘI - 2018 LỜI CẢM ƠN Trước tiên, toàn thể thành viên Nhóm chúng em xin bày tỏ lịng biết ơn chân thành sâu sắc tới Thầy giáo, PGS TS Hà Quang Thụy, người tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt q trình thực đề tài Với lịng biết ơn sâu sắc nhất, chúng em xin gửi đến quý thầy cô giáo Khoa Công nghệ thông tin nói riêng trường Đại học Cơng nghệ - Đại học Quốc Gia Hà Nội nói chung, với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho chúng em suốt thời gian học tập trường Và đặc biệt, học kỳ này, Khoa tổ chức cho chúng em tiếp cận với mơn học hữu ích sinh viên ngành Công nghệ thông tin tất sinh viên thuộc ngành khác trường Cuối cùng, chúng em xin gửi lời cảm ơn tới anh chị bạn, đặc biệt thành viên lớp INT3209 ủng hộ, giúp đỡ suốt trình chúng em học tập giảng đường đại học thực tiểu luận Chúng em xin chân thành cảm ơn! Hà Nội, ngày 15 tháng 12 năm 2018 Sinh viên Nguyễn Thị Thủy Bùi Châu Anh Nguyễn Thị Phương Anh Trần Thị Thu Hường Nguyễn Thị Xoan 15021455 15021394 15022841 15020876 15021295 MỤC LỤC CHƯƠNG GIỚI THIỆU VỀ HỌC SÂU 1.1 Ai nên đọc sách 12 1.2 Xu hướng lịch sử học sâu .16 1.2.1 Những tên gọi thời kỳ thay đổi mạng nơron nhân tạo 16 1.2.2 Kích thước liệu ngày tăng 21 1.2.3 Kích thước mơ hình ngày tăng 24 1.2.4 Tăng độ xác, phức tạp tác động giới thực .26 CHƯƠNG PHƯƠNG PHÁP LUẬN THỰC TẾ 30 2.1 Các số hiệu suất 31 2.2 Mơ hình sở mặc định 33 2.3 Xác định có thu thập thêm liệu hay khơng .34 2.4 Chọn thông số Hyper .35 2.4.1 Điều chỉnh siêu thông số thủ công .36 2.4.2 Thuật toán tối ưu hoá tự động siêu tham số 41 2.4.3 Tìm kiếm lưới 41 2.4.4 Tìm kiếm ngẫu nhiên 42 2.4.5 Mơ hình hóa dựa tối ưu hóa siêu tham số 44 2.5 Các chiến lược debug 45 2.6 Ví dụ: Nhận dạng số có nhiều chữ số 50 CHƯƠNG WORD2VEC 52 Tài liệu tham khảo .53 Phụ lục 54 DANH MỤC CÁC THUẬT NGỮ Đường cong PR Leaky ReLUs, PreLus LSTM , GRU Mạng tái phát có cổng End-to-end system Hệ thống hoàn chỉnh Siêu tham số Pattern Autoencoder Factor and variation Construct MỤC LỤC HÌNH ẢN Mối quan hệ đo lường xác giống y hệt mẫu (precision) thu hồi (recall) Đơn vị tuyến tính cân Phân phối tham số quy định tham số phân phối Mô thức Bộ mã hóa tự động Biến tố Thành tố Hình 1.1: Ví dụ biểu diễn khác Hình 1.2: Minh họa mơ hình học tập sâu 10 Hình 1.3: Minh họa biểu đồ tính tốn ánh xạ đầu vào tới đầu nút thực thao tác .11 Hình 1.4: Sơ đồ Venn cho thấy cách học tập sâu loại hình học biểu diễn, .13 Hình 1.5: Sơ đồ cách phần khác hệ thống AI liên quan đến khác ngành AI khác 14 Hình 1.6: Bồ cục nội dung sách 15 Hình 1.7: Hai sóng nghiên cứu mạng neuron nhân tạo 16 Hình 1.8 Kích thước tập liệu tăng nhiều theo thời gian 22 Hình 1.9: Một số ví dụ đầu vào liệu MNIST 23 Hình 1.10: Số lượng kết nối tế bào thần kinh theo thời gian 25 Hình 1.11: Kích thước mạng neuron theo thời gian 26 Hình 1.12: Tỷ lệ lỗi giảm dần theo thời gian .28 Hình 2.1: hình ảnh hệ thống phiên âm địa Street View (Goodfellow cộng sự) 31 Hình 2.2: Mối quan hệ đặc trưng hệ số học lỗi huấn luyện 38 Hình 2.3: So sánh tìm kiếm lưới tìm kiếm ngẫu nhiên 42 Hình 3.1: Ví dụ dạng biểu diễn mơ hình 51 CHƯƠNG GIỚI THIỆU VỀ HỌC SÂU Các nhà phát minh từ lâu có mong muốn tạo cỗ máy có khả suy nghĩ Khao khát xuất phát từ thời điểm vào thời Hy Lạp cổ đại, Các nhân vật thần thoại Hy Lạp Pygmalion, Daedalus, Hephaestus coi nhà phát minh huyền thoại, Galatea, Talos Pandora coi dạng sống nhân tạo (Ovid Martin 2004 Sparkes 1996 Tandy 1997) Hơn trăm năm trước xây dựng Lovelace (1842) – máy tính với chức lập trình, người tự hỏi liệu cỗ máy trở nên thơng minh hay khơng Ngày nay, trí tuệ nhân tạo (Artificial Intelligence - AI) lĩnh vực phát triển mạnh với ứng dụng thực tế chủ đề nghiên cứu thu hút nhiều đề tài nghiên cứu giới Chúng ta thấy phần mềm thông minh tự động hóa cơng việc ngày, nhận dạng lời nói hình ảnh, thực chẩn đốn y học hỗ trợ nghiên cứu khoa học Trong ngày đầu trí tuệ nhân tạo, lĩnh vực nhanh chóng giải vấn đề khó khăn mặt trí tuệ cho người tương đối dễ hiểu với máy tính - vấn đề mơ tả cơng thức tốn học hình thức Thách thức thực trí tuệ nhân tạo giải tác vụ người dễ thực khó khăn mơ tả cách tường minh - vấn đề người ta giải theo trực giác cách tự nhiên cảm tính, nhận diện lời nói hay khn mặt Cuốn sách đưa giải pháp cho vấn đề mang tính trực giác Giải pháp cho phép máy tính học hỏi từ kinh nghiệm thu hiểu thêm giới quan thông qua hệ thống phân cấp khái niệm (hierarchy of concepts), khái niệm định nghĩa theo khái niệm đơn giản Bằng cách cho máy tính tự thu thập kiến thức từ kinh nghiệm, cách tiếp cận giảm bớt gánh nặng cho người vận hành việc mô tả tường minh tất kiến thức mà máy tính cần Hệ thống phân cấp khái niệm cho phép máy tính học khái niệm phức tạp cách xây dựng chúng thành đơn giản Nếu vẽ biểu đồ cho thấy khái niệm xây dựng bên khái niệm khác, đồ thị có nhiều tầng sâu Vì lý này, chúng tơi gọi phương pháp AI Deep Learning (Học sâu) Nhiều thành công ban đầu AI diễn môi trường thí nghiệm mơi trường khơng u cầu máy tính có nhiều kiến thức giới Ví dụ, hệ thống chơi cờ Deep Blue IBM đánh bại nhà vô địch giới Garry Kasparov năm 1997 (chiếc Hsu, 2002) Tất nhiên, cờ vua giới có phạm vi đơn giản, có 64 vị trí bàn cờ 32 quân cờ di chuyển theo quy luật xác định Thành công việc tạo chiến lược chơi cờ hiệu thành tựu to lớn, thử thách máy tính khơng phải việc dạy cho máy tính hiểu quân cờ cách di chuyển chúng Luật chơi cờ vua mơ tả hoàn toàn danh sách quy tắc ngắn gọn, dễ dàng lập trình Trớ trêu thay, nhiệm vụ trừu tượng rập khn khó khăn với người lại điều dễ dàng máy tính Từ lâu máy tính đánh bại nhà vô địch cờ vua giới, gần phù hợp với số khả người nhận dạng vật thể lời nói Cuộc sống ngày người đòi hỏi lượng kiến thức khổng lồ giới xung quanh Phần lớn kiến thức mang tính chủ quan dựa nhiều vào trực giác nên khó để biểu cách rõ ràng Máy tính cần ghi lại kiến thức tương tự để trở nên thông minh Một thách thức trí tuệ nhân tạo để đưa lượng kiến thức không tường minh vào máy tính Một số dự án trí tuệ nhân tạo đc thực để mã hóa kiến thức giới thơng qua ngơn ngữ hình thức (formal language) Máy tính giải thích câu lệnh ngơn ngữ hình thức cách tự động thông qua việc sử dụng quy tắc suy luận logic Đây gọi phương pháp tiếp cận thông qua sở tri thức (knowledge base) Tuy nhiên, khơng có dự án số đạt thành công lớn Một dự án tiếng Cyc Cyc cỗ máy suy luận sở liệu gồm câu lệnh ngôn ngữ CycL Những câu lệnh nhập vào nhân viên giám sát CycL Đó q trình khăn Con người gặp vấn đề đưa quy tắc thức phức tạp để mơ tả xác giới Ví dụ, Cyc khơng hiểu câu chuyện người tên Fred cạo râu vào buổi sáng (Linde, 1992) Công cụ suy luận Cyc phát có mâu thuẫn câu chuyện này: biết người khơng có phận điện tử, Fred cầm dao cạo điện, tin thực thể “FredWhileShaving” chứa phận điện tử Do đó, hỏi liệu Fred có người anh cạo râu hay khơng Những khó khăn mà hệ thống phải đối mặt dựa tri thức gắn cứng cho thấy hệ thống AI cần khả thu nhận kiến thức riêng nó, cách trích xuất mơ thức (pattern) từ liệu thô Khả gọi học máy Sự xuất học máy cho phép máy tính giải vấn đề liên quan kiến thức giới thực đưa định chủ quan Một thuật toán học máy đơn giản hồi quy logistic (logistic regression) xác định có nên sinh mổ cho phụ nữ mang thai hay khơng (Mor-Yosef 1990 et al.,) Một thuật tốn học máy đơn giản naive Bayes tách e-mail hợp lệ khỏi e-mail rác Hiệu suất thuật toán học máy đơn giản phụ thuộc nhiều vào việc biểu diễn liệu cung cấp đầu vào Ví dụ, logistic regression sử dụng để chuẩn đoán phẫu thuật sinh, hệ thống AI khơng kiểm tra trực tiếp bệnh nhân Thay vào đó, bác sĩ nạp vào hệ thống số thông tin liên quan, chẳng hạn có hay khơng có vết sẹo tử cung Mỗi phần thông tin bao gồm triệu chứng bệnh nhân gọi đặc trưng (feature) Logistic regression học mối liên hệ đặc trưng bệnh nhân tương ứng với kết luận khác Tuy nhiên, thuật tốn khơng ảnh hưởng đến việc định nghĩa đặc trưng Nếu hồi quy logistic cung cấp thêm chụp MRI bệnh nhânthay báo cáo chi tiết bác sĩ, khơng thể đưa dự đốn hữu ích Mỗi pixel chụp MRI khơng có nhiều tương quan với biến chứng xảy trình phẫu thuật Sự phụ thuộc vào cách biểu diễn tượng phổ biến xuyên suốt khoa học máy tính sống hàng ngày Trong khoa học máy tính, thao tác tìm kiếm tập liệu tiến hành nhanh theo cấp số nhân tập tổ chức có cấu trúc đánh mục (index) cách thơng minh Mọi người dễ dàng biểu diễn số học chữ số Ả Rập, tìm số học số La Mã nhiều tốn nhiều thời gian Không ngạc nhiên việc lựa chọn cách biểu diễn có ảnh hưởng lớn đến hiệu suất thuật tốn học máy Ví dụ đơn giản trực quan hình 1.1 Nhiều tác vụ trí tuệ nhân tạo giải cách thiết kế đặc trưng để phù hợp cho tác vụ đó, sau cung cấp đặc trưng cho thuật tốn học máy đơn giản Ví dụ: đặc trưng hữu ích để nhận dạng giọng nói từ âm ước tính độ lớn giọng nói Do đó, đặc trưng cung cấp gợi ý mạnh mẽ việc người nói đàn ơng, đàn bà hay trẻ em Tuy nhiên, nhiều tác vụ, khó để biết đặc trưng cần trích xuất Ví dụ: giả sử muốn viết chương trình để nhận dạng xe ảnh Chúng ta biết xe có bánh xe, ta sử dụng diện bánh xe đặc trưng Nhưng, khó để mơ tả xác bánh xe theo giá trị pixel Một bánh xe có dạng hình học đơn giản hình ảnh trở nên phức tạp có bóng rơi bánh xe, ánh mặt trời phẩn chiếu phần kim loại bánh xe, chỗ chắn bùn xe vật thể mặt trước che khuất phần bánh xe, v.v Hình 1.1: Ví dụ biểu diễn khác Giả sử muốn tách hai loại liệu cách vẽ đường thẳng chúng phân tán Hình bên trái biểu diễn cho số liệu cách sử dụng tọa độ Descartes, nhiệm vụ khơng thể Hình bên phải, biểu diễn cho liệu với tọa độ cực nhiệm vụ trở nên đơn giản cho việc giải với đường thẳng đứng Hình sản xuất với cộng tác với David Warde-Farley Một giải pháp cho vấn đề sử dụng học máy để khám phá không ánh xạ từ biểu diễn đến đầu mà cịn phát biểu diễn Cách tiếp cận gọi học biểu diễn (representation learning) Tính học biểu diễn mang lại hiệu suất tốt nhiều hiệu suất đạt biểu diễn thiết kế thủ công Chúng cho phép hệ thống AI nhanh chóng thích nghi với tác vụ mới, hạn chế can thiệp từ người Một thuật toán học biểu diễn tìm tập đặc trưng tốt cho tác vụ đơn giản vài phút tác vụ phức tạp vài vài tháng Các đặc trưng thiết kế thủ công cho tác vụ phức tạp đòi hỏi nhiều thời gian nỗ lực người; hàng thập kỷ cộng đồng nhà nghiên cứu Ví dụ điển hình thuật tốn học biểu diễn autoencoder (bộ mã hóa tự động) Bộ mã hóa tự động kết hợp hàm mã hóa chuyển đổi liệu đầu vào thành biểu diễn khác, hàm giải mã chuyển đổi biểu diễn trở lại định dạng gốc Autoencoders đào tạo để bảo tồn nhiều thơng tin đầu vào chạy thơng qua mã hóa sau giải mã, ngồi đào tạo để tạo giải mã để biểu diễn đa dạng thuộc tính tốt Các loại autoencoders khác hướng đến loại thuộc tính khác Khi thiết kế đặc trưng thuật toán cho việc học đặc trưng (learning features), mục tiêu thường để phân tách biến tố (factors of variation)- đóng vai trị giải thích liệu quan sát Trong bối cảnh này, chữ "tố" viết tắt “nhân tố” (factor) Các yếu tố thường khơng phải số lượng quan sát trực tiếp Thay vào đó, chúng tồn đối tượng không giám sát lực đo đạc giới vật chất, ảnh hưởng đến số lượng quan sát Chúng tồn thành tố (construct) tâm trí người, cung cấp giải thích đơn giản mà hữu ích nguyên nhân suy từ liệu quan sát Chúng coi khái niệm (concept) hay dạng trừu tượng (abstraction) giúp hiểu biến đổi da dạng liệu Khi phân tích ghi âm giọng nói, yếu tố biến thể bao gồm tuổi tác người nói, giới tính, âm từ mà họ ang nói Khi phân tích hình ảnh xe, yếu tố biến tố bao gồm vị trí xe, màu sắc, góc độ độ sáng ánh sáng mặt trời Một khó khăn nhiều ứng dụng trí tuệ nhân tạo giới thực nhiều biến tố ảnh hưởng đến đơn vị liệu quan sát Các pixel riêng lẻ ảnh xe màu đỏ gần màu đen vào ban đêm Hình dạng bóng tơ phụ thuộc vào góc nhìn Hầu hết ứng dụng u cầu phải tách rời biến tố loại bỏ khơng cần thiết Tất nhiên, khó để trích xuất đặc trưng trừu tượng, mức cao từ liệu thô Nhiều yếu tố số biến thể này, chẳng hạn giọng người nói, xác định cách sử dụng hiểu biết liệu cách tinh vi, gần người Khi việc học biểu diễn khó tương đương với việc giải tốn ban đầu, học biểu diễn không giúp giải toán Học sâu giải vấn đề chủ chốt việc học biểu diễn đưa vào biểu diễn thể dạng biểu diễn khác đơn giản Học sâu cho phép máy tính xây dựng khái niệm phức tạp từ khái niệm (concepts) đơn giản Hình 1.2 minh họa cách hệ thống học sâu biểu diễn khái niệm hình ảnh người cách kết hợp khái niệm đơn giản hơn, chẳng hạn góc đường nét, xác định theo góc cạnh 10 Khơng gian tham số bao gồm khơng gian giá trị thực không giới hạn cho tham số định, thông thường cần thiết lập giới hạn phân tách thủ cơng trước áp dụng tìm kiếm lưới Có k siêu tham số, siêu tham số có giá trị Tìm kiếm lưới lấy sản phầm Cartesian giá trị có Số khả có Danh sách giá trị cần tìm kiếm chọn nào? Trong trường hợp siêu tham số số, phần tử nhỏ phần tử lớn danh sách chọn, dựa kinh nghiệm trước với thử nghiệm tương tự, để đảm bảo giá trị tối ưu nằm phạm vi chọn Thơng thường, tìm kiếm lưới liên quan đến việc chọn giá trị xấp xỉ thang đo logarit, ví dụ, learning rate thiết lập tập số đơn vị ẩn thực với tập Tìm kiếm lưới hoạt động tốt thực nhiều lần Ví dụ, giả sử chạy tìm kiếm lưới tham số α với giá trị thuộc tập {-1, 0, 1} Nếu giá trị tốt tìm 1, phạm vi chứa α tốt bị đánh giá thấp, nên dịch chuyển lưới chạy tìm kiếm khác với α thuộc vào, ví dụ {1, 2, 3} Nếu giá trị tốt tìm α 0, sau có thực lại ước tính cách phóng to chạy tìm kiếm lưới {-0.1, 0, 0.1} Vấn đề tìm kiếm lưới chi phí tính tốn phát triển theo cấp số nhân với số lượng siêu tham số Nếu có m siêu tham số, tham số có tối đa n giá trị, sau số lượng thử nghiệm đào tạo đánh giá yêu cầu phát triển với độ phức tạp tính tốn Các thử nghiệm tiến hành song song khai thác song song lỏng lẻo (hầu không cần giao tiếp thiết bị khác thực tìm kiếm) Vì chi phí tình theo cấp số nhân tìm kiếm lưới, song song khơng cung cấp kích thước tìm kiếm thỏa đáng 2.4.4 Tìm kiếm ngẫu nhiên Do vấn đề cịn tồn tìm kiếm lưới, giải pháp thay phát triển thay cho tìm kiếm lưới, đơn giản để lập trình, thuận tiện để sử dụng hội tụ nhanh với giá trị tốt siêu tham số Đó tìm kiếm ngẫu nhiên Tìm kiếm ngẫu nhiên liệt kê đầy đủ tất kết hợp cách chọn ngẫu nhiên đảm bảo tính khái quát cho không gian liên tục hỗn hợp, sử dụng hiệu có lượng nhỏ siêu tham số Một tìm kiếm ngẫu nhiên tiến hành sau Đầu tiên, phân phối phân bố cận biên cho siêu tham số, ví dụ phân bố Bernoulli multinoulli cho siêu 51 tham số nhị phân siêu tham số rời rạc, phân bố thang đo logarit cho phân tích giá trị thực siêu tham số Ví dụ: log_learning_rate ~ u(-1, -5) learning_rate = Trong đó, u(a,b)biểu thị phân bố tring khoảng thời gian (a, b), log_number_of_hidden_units lấy mẫu từ u(log(50), log(2000)) Khơng giống tìm kiếm lưới, không nên phân loại giá trị siêu tham số để khám phá tập hợp giá trị lớn tránh chi phí tính tốn bổ sung Trên thực tế, tìm kiếm ngẫu nhiên mang lại hiệu theo cấp số nhân so với tìm kiếm lưới có siêu tham số không mạnh cách đo lường hiệu suất Điều nghiên cứu Bergstra Bengio (2012), phát tìm kiếm ngẫu nhiên làm giảm lỗi xác thực thiết lập nhanh nhiều so với tìm kiếm lưới, xét theo số lượng thử nghiệm chạy theo phương pháp Hình 2.3: So sánh tìm kiếm lưới tìm kiếm ngẫu nhiên Hình 2.3 So sánh tìm kiếm lưới tìm kiếm ngẫu nhiên với siêu tham số thử nghiệm để tối ưu hóa hàm , với kích thước hiệu thấp Để thực tìm kiếm lưới, cung cấp tập giá trị cho tham số, thuật tốn tìm kiếm đào tạo cho cài đặt siêu tham số chung sản phẩm chéo Để tìm kiếm ngẫu nhiên, cung cấp phân bố xác suất tham số liên kết chung Thông thường, hầu hết siêu tham số độc lập với Cách lựa chọn phổ biến cho phân phối tham số đơn bao gồm uniform log-uniform (để lấy mẫu từ phân phối loguniform, lấy điểm mẫu từ phân bố uniform) Thuật tốn tìm kiếm ngẫu nhiên tham số liên kết chung đào tạo với mẫu Cả tìm kiếm lưới tìm kiếm 52 ngẫu nhiên đánh giá lỗi xác thực trả kết tốt Trên hình vng, biểu thị màu xanh cây, hiển thị mãu vàng Với tìm kiếm lưới, thử nghiệm kiếm tra nơi riêng biệt Với tìm kiếm ngẫu nhiên, tất thử nghiệm khám phá giá trị riêng biệt Tìm kiếm lưới lãng phí lượng tính tốn theo cấp số nhân số siêu tham số không ưu tiên, tìm kiếm ngẫu nhiên kiểm tra giá trị siêu tham số hầu hết thử nghiệm Giống tìm kiếm lưới, thường xuyên chạy phiên tìm kiếm ngẫu nhiên lặp lại để tìm kiếm lại dựa kết lần chạy trước Lý mà tìm kiếm ngẫu nhiên giải pháp nhanh tìm kiếm lưới khơng chạy thử nghiệm lãng phí Khi hai giá trị siêu tham số (giá trị cho siêu tham số khác) cho kết quả, trường hợp tìm kiếm lưới, siêu tham số khác cho giá trị cho hai lần chạy khác nhau, đó, tìm kiếm ngẫu nhiên thường cho hai giá trị khác Do đó, thay đổi hau giá trị không ảnh hưởng nhiều đến việc xác định lỗi xác thực thiết lập, tìm kiếm lưới lặp lại cách không cần thiết hai thử nghiệm tương đương, tìm kiếm ngẫu nhiên cung cấp khám phá đọc lập siêu tham số khác 2.4.5 Mơ hình hóa dựa tối ưu hóa siêu tham số Việc tìm kiếm siêu tham số tốt coi vấn đề tối ưu hóa Các biến định siêu tham số Chi phí để tối ưu hóa lỗi xác thực từ kết việc đào tạo cách sử dụng siêu tham số Trong thiết lập đơn giản, đó, tính tốn gradient số phép đo lỗi xác định dựa xác nhận với siêu tham số Trong hầu hết thiết lập thực tế, gradient khơng có sẵn chi phí tính tốn nhớ siêu tham số có tương tác khơng xác định chất với lỗi xác thực, trường hợp siêu tham số có giá trị rời rạc Để bù đắp cho thiếu hụt này, xây dựng mơ hình lỗi xác thực, sau đề xuất siêu tham số cách thực tối ưu hóa mơ hình Hầu hết thuật tốn dựa mơ hình để tìm kiếm siêu tham số sử dụng mơ hình hồi quy Bayes để ước tính giá trị kỳ vọng lỗi xác thực cho tham số độ không chắn xung quanh kỳ vọng Việc tối ưu hóa liên quan đến tương tác việc thăm dò (đề xuất siêu tham số cho có khơng chắn cao, dẫn đến cải tiến lớn hoạt động kém) khai thác (đề xuất siêu tham số mà mơ hình tự tin thực siêu tham số trước – 53 thường siêu tham số giống với trước đó) Cách tiếp cận tối ưu hóa siêu tham số bao gồm Spearmint, TPE SMAC Spearmint triển khai tiếng tối ưu hóa Bayesian Tối ưu hóa Bayesian sử dụng Gaussian để mơ hình hóa đại diện thường tối ưu hóa cải thiện dự kiến, xác suất dự kiến thử nghiệm cải thiện theo quan sát tốt Quá trình Gaussian phân phối chức Đào tạo quy trình Gaussian liên quan đến việc phù hợp phân phối với liệu cho, để tạo hàm gần liệu quan sát Sử dụng quy trình Gaussian, tính tốn cải thiện dự kiến điểm khơng gian tìm kiếm Điểm cho cải thiện dự kiến cao thử Tối ưu hóa Bayesian thường cung cấp giá trị không tầm thường, lưới cho siêu tham số liên tục (như learning rate, hệ số quy…) hiển thị để đánh bại hiệu suất người số liệu điểm chnt tốt Mơ hình dựa cấu hình thuật tốn (Sequential Model-based Algorithm Configuration – SMAC) mơ hình linh hoạt để tối ưu hóa tham số, sử dụng rừng ngẫu nhiên hồi quy để mơ hình hóa hàm mục tiêu, điểm lấy mẫu từ khu vực coi tối ưu (cải thiện dự kiến cao) rừng ngẫu nhiên SMAC thuật tốn hiệu cho việc tối ưu hóa siêu tham số thuật toán học máy, mở rộng tốt với đầu vào high dimensions đầu vào rời rạc Cơng cụ ước tính Parzen có kích thước hình (Tree – structured Parzen Estimator – TPE) phiên cải tiến SMAC TPE tiếp cận mơ hình đại diện cho siêu tham số y điểm chất lượng liên quan mơ hình cách chuyển đổi mơ hình phát sinh siêu tham số, thay phân phối cấu hình trước với mật độ khơng tham số Trong phần thử nghiệm, khơng gian cấu hình mơ tả cách sử dụng uniform, log-uniform, log-uniform lượng tử hóa biến phân loại Thuật toán TPE thực thay sau: uniform hỗn hợp Gaussian cắt ngắn, log-uniform hỗn hợp Gaussian lũy thừa, phân loại phân loại lại có trọng số Sử dụng quan sát khác mật độ không tham số, thay biểu thị thuật tốn học có thwr tạo nhiều mật độ khác không gian cấu hình χ TPE triển định nghĩa p(x|y) hai mật độ: Trong mật độ hình thành cách sử dụng quan sát cho mát tương ứng nhỏ mật độ hình thành cách sử dụng quan sát cịn lại Thuật toán TPE phụ thuộc lớn vào lớn quan sát tốt 54 để sử dụng số điểm để tạo thành Thuật toán TPE chọn số lượng tử giá trị y quan sát, cho , khơng cần mơ hình cụ thể cho Bằng cách trì danh sách xếp biến H (với H lịch sử quan sát), thời gian chạy lần lặp thuật tốn TPE mở rộng tuyến tính theo |H| tuyến tính theo số lượng biến (kích thước) tối ưu hóa Một triển khai tiếng TPE hyperopt Tối ưu hóa siêu tham số nghiên cứu quan trọng, thường thúc đẩy chủ yếu nhu cầu học sâu Một nhược điểm thuật toán tối ưu hóa siêu tham số chúng yêu cầu thử nghiệm đào tạo hồn thành trước trích xuất thông tin từ thử nghiệm Swersky (2014) giới thiệu phiên thuật tốn trì tập hợp nhiều thử nghiệm Tại thời điểm khác nhau, thuật tốn tối ưu hóa siêu tham số chọn bắt đầu thử nghiệm để đòng băng thử nghiệm chạy không hứa hẹn để giải mã tiếp tục thử nghiệm bị đóng băng trước 2.5 Các chiến lược debug Khi hệ thống học máy hoạt động kém, thường khó để nói hiệu suất nội thuật tốn hay có lỗi việc thực thuật tốn hay khơng Các hệ thống học máy khó gỡ lỗi nhiều lý khác Trong hầu hết trường hợp, ưu tiên hành vi dự định thuật tốn Trên thực tế, tồn điểm sử dụng học máy khám phá hành vi hữu ích mà khơng thể tự xác định Nếu huấn luyện mạng neural nhiệm vụ phân loại đạt 5% lỗi kiểm tra, khơng có cách để biết hành vi mong đợi hay hành vi tối ưu Một điều khác hầu hết mơ hình học máy có nhiều phân thích ứng Nếu phần bị hỏng, phận khác thích nghi đạt hiệu suất gần chấp nhận Ví dụ, giả sử mạng neural đào tạo với vài lớp tham số theo trọng số W bias b, Giả sử thêm rằng, thực thủ công quy tắc gradient cho tham số riêng biệt thực lỗi cập nhật cho bias: Trong đó, learning rate Bản cập nhật lỗi không sử dụng gradient, bias trở nên tiêu cực suốt trình học Các lỗi khơng rõ ràng từ kiểm tra đầu mơ hình Tùy thuộc vào phân bố đầu vào, trọng số thích nghi để bù đắp cho bias tiêu cực Hầu hết chiến lược debug cho mạng neural thiết kế để có xung quanh hai loại, thiết kế trường 55 hợp đơn giản hành vi xác thực dự đốn thiết kế kiểm tra thực phần việc thực lưới neural cô lập Một số chiến lược debug quan trọng bao gồm: - - - - 56 Trực quan hóa mơ hình hoạt động (visualize the model in action): Khi đào tạo mô hình để phát đối tượng hình ảnh, xem xét số hình ảnh với phát đề xuất mơ hình hiển thị chồng lên hình ảnh Khi đào tạo mơ hình phát sinh lời nói, lắng nghe số giọng mẫu tạo Điều hiển nhiên dễ rơi vào thực tiễn nhìn vào phép đo hiệu suất định lượng độ xác khả đăng nhập Trực tiếp quan sát mơ hình học máy thực nhiệm vụ giúp xác định số hiệu suất định lượng đạt có hợp lý hay khơng Lỗi đánh giá số lỗi nghiêm trọng chúng lừa ta tin hệ thống hoạt động tốt Trực quan hóa sai lầm tệ (visualize the worst mistake): hầu hết mơ hình xuất số loại biện pháp xác định cho nhiệm vụ mà chúng thực Ví dụ, phân loại dựa lớp đầu softmax gán xác suất cho lớp Xác suất gán cho lớp có khả nhất, sau đưa ước tính xác định mơ hình định phân loại Thông thường, kết đào tạo tối đa giá trị đánh giá cao xác suất dự đốn xác, chúng có phần hữu ích theo nghĩa ví dụ thực tế có khả dán nhãn xác nhận xác suất theo mơ hình Dựa vào ví dụ tập huấn luyện khó để mơ hình xác, thường khám phá vấn đề với liệu xử lý trước dán nhãn Ví dụ, với hệ thống phiên mã Street View, có vấn đề nhận diện số nhà hình cắt ảnh chặt bỏ qua chữ số Mạng phiên mã sau gán xác suất thấp cho câu trả lời hình ảnh Việc xếp hình ảnh để xác định sai sót lớn cho thấy có vấn đề có hệ thống với việc cắt hình ảnh Lý phần mềm sử dụng lỗi đào tạo kiểm tra (Reason about software using training and test error): thường khó để kiểm tra phần mềm có cài đặt hay khơng Một số manh mối thu từ lỗi đào tạo kiểm tra Nếu lỗi đào tạo lỗi kiểm tra nhiều, có khả quy trình đào tạo xác mơ hình bị overfitting thuật toán Một khả khác lỗi kiểm tra đo khơng xác vấn đề liên quan đến việc lưu mơ hình sau đào tạo, sau tải lại mơ hình để đánh giá tập kiểm tra, liệu kiểm tra liệu huấn luyện không phân phối Nếu hai lỗi đào tạo kiểm tra cao, cần phải xác định xem có lỗi phần mềm mơ hình có bị underfitting thuật tốn hay khơng Phù hợp với tập liệu nhỏ (fit a tiny dataset): Nếu gặp nhiều lỗi tập huấn luyện, cần xác định xem lỗi underfitting hay phần mềm Thông thường, mơ hình nhỏ đảm bảo để phù hợp với tập liệu nhỏ Ví dụ, tập liệu phân loại với ví dụ - phù hợp cách cài đặt bias lớp đầu xác Thơng thường, khơng thể huấn luyện lớp để ghi nhãn xác ví đơn, mã hóa tự động tái tạo thành cơng ví dụ đơn lẻ với độ phân giải cao mơ hình sinh để phát mẫu giống ví dụ nhất, có lỗi phần mềm ngăn chặn tối ưu hóa thành cơng liệu Thử nghiệm mở rộng đến tập liệu nhỏ với vài ví dụ So sánh dẫn xuất back-propagated với dẫn xuất số (compare backpropagated derivatives to numerical derivatives): Nếu sử dụng framework yêu cầu phải thực phép tính gradient riêng, thêm thao tác vào thư viện phải xác định phương thức bprop nó, lỗi phổ biến triển khai biểu thức gradient khơng xác Một cách để xác minh dẫn xuất xác so sánh dẫn xuất tính cách thực di cư tự động cho dẫn tính tốn finite differences Bởi vì: Có thể xấp xỉ dẫn xuất cách sử dụng lân cận, finite : Có thể cải thiện độ xác phép tính xấp xỉ cách sử dụng di chuyển trung tâm: Kích thước nhiễu phải đủ liớn để đảm bảo nhiễu khơng làm trịn q nhiều tính tốn số xác finite-precision Thơng thường, muốn kiểm tra gradient Jacobian hàm giá trị vector g: Không may, finite diference cho phép lấy đạo hàm đơn thời điểm Có thể chạy finite difference mn lần để đánh giá tất dẫn xuất phần g, áp dụng phép thử cho hàm sử dụng phép chiếu ngẫu nhiên đầu vào đầu g Ví dụ, áp dụng thử nhiệm việc thực dẫn xuất đến ), , u v cá vector chọn ngẫu nhiên Tính tốn cách xác địi hỏi phải có khả truyền lại thơng qua g cách xác, hiệu làm viẹc với kết khác f có đầu vào đơn đầu đơn Nó thường ý tưởng tốt để lặp lại kiểm tra cho nhiều giá trị u v để giảm hội kiểm tra lỗi trực giao với phép chiếu ngẫu nhiên Nễu có quyền truy cập vào tính tốn số học số phức, cách hiểu để ước tính gradient cách sử dụng số phức làm đầu vào cho hàm Phương pháp dựa quan sát: Với i = Không giống trường hợp có giá trị thực trên, khơng có hủy bỏ lấy khác biệt giá trị f thời điểm khác 57 - ĐIều cho phép sử dụng giá trị nhỏ , nhưn , làm cho lỗi khơng phù hợp với tất mục đích thực tế Theo dõi biểu đỗ kích hoạt gradient (monitor histograms of activations and gradient): thường hữu ích để hình dung số liệu thống kê kích hoạt mạng neraul gradient, thu thập qua số lượng lớn lần lặp lại đào tạo Giá trị kích hoạt đơn vị ẩn cho biết đơn vị bão hòa tần suất chúng hoạt động Ví dụ, với rectifiers, chúng có thường xun tắt hay khơng, có đơn vị ln ln off? Đối với đơn dị tanh, giá trị tuyệt đối trung bình phép hủy kích hoạt cho biết mức bão hòa đơn vị Trong mạng lưới sâu nơi mà gradient lan truyền nhanh chóng phát triển nhanh chóng biến mất, tối ưu hóa bị cản trở Cuối cùng, hữu ích so sánh độ lớn tham số gradient với độ lớn tham số Theo đề xuất Bottou, độ lớn tham số cập nhật minibatch đại diện cho 1% độ lớn tham số, khơng phải 50% 0,01% (sẽ làm cho thông số di chuyển chậm) Có thể số nhóm tham số chuyển động với tốc độ tốt tham số khác bị ngừng lại Khi liệu thưa thớt (như ngôn ngữ tự nhiên), số thơng dố cập nhật điều lưu ý theo dõi tiến hóa chúng Cuối cùng, nhiều thuật tốn học sâu cung cấp số loại đảm bảo kết tạo bước Thông thường, debug cách kiểm tra đảm bảo Một số đảm bảo số thuật tốn tối ưu hóa bao gồm hàm mục tiêu không tăng sau số bước cuat thuật toán, gradient liên quan đến tất biến hội tụ Thông thường lỗi làm trịn, điều kiện khơng giữ tính xác máy tính kỹ thuật số, đó, debug phải bao gồm số dung sai (tolerance parameter) Ví dụ thực chiến lược debug Giả sử xây dựng mơ hình phân loại hình ảnh, mạng neural network gặp số vấn đề không hoạt động tốt việc lựa chọn ngẫu nhiên phân loại tất hình ảnh vào danh mục Để giải vấn đề này, kiểm tra theo danh sách sau: Kiểm tra với liệu đầu vào: - 58 Phù hợp mô hình tập liệu nhỏ: chuẩn bị tập liệu nhỏ gồm 50 ghi nhiều hơn, tắt tính quy đảm bảo mát (loss) hội tụ nhiều epoch Nếu không vậy, vấn đề mơ hình nằm sâu Huấn luyện tập chuẩn: để loại trừ liệu có phải liệu nguồn gốc vấn đề hay không, chuyển sang sử dụng liệu chuẩn Imagenet CIFAR-10 - Định tâm trung bình (mean centering): đảm bảo đầu vào có trung bình Đối với hình ảnh, tính giá trị trung bình pixel tồn tập liệu huấn luyện trừ hình ảnh trung bình kết từ đầu vào Tập liệu cân bằng: mơ hình chạy tốt tập liệu nhỏ, không chạy tốt tập liệu lớn hơn, kiểm tra xem liệu đầu vào có đủ mục từ tất lớp hay không Các liệu cân cao làm mạng học khơng xác Cách tiếp cận dễ dàng đánh dấu lớp lớn tạo tập huấn luyện cân tất lớp Kiểm tra kiến trúc mơ hình khởi tạo: - - - Đơn giản hóa mơ hình: tin lỗi nằm mơ hình, đơn giản hóa thành hai lớp ẩn Điều giúp tách biệt xem kiến trúc mơ hình có phải vấn đề hay khơng Khởi tạo trọng số (với mơ hình nơng): khơng khởi tạo trọng số cho mơ hình việc truyền ngược khơng có tác dụng di chuyển tất node ẩn theo hướng Cần phải cung cấp lượng nhỏ nhiễu để có mơ hình học Khởi tạo trọng số (với mơ hình sâu hơn): với mơ hình sau hơn, khởi tạo tất lớp có cấu hình trọng số phá hủy trọng số bắt đầu đào tạo Khi đầu vào truyền phía trước qua mạng, lớp sâu nhân lên với số lượng ngày nhỏ hội tụ Do đó, gradient q trình truyền ngược số nhỏ mơ hình khơng học Sử dụng lớp chuẩn hóa hàng loạt để chống lại vấn đề lý tưởng đào tạo với kích cỡ lơ khỏe mạng (healthy batch size) Đào tạo trước mơ hình: sử dụng mơ hình chuẩn hóa dựa Inception ResNet, khởi tạo mơ hình từ điểm kiểm tra có sẵn công khai Các trọng số đào tạo trước thường tạo sau nhiều tuần đào tạo, lỗi nằm phức tạp tuyệt đối vấn đề thời gian để học, tự bắt đầu Kiểm tra mát: - - 59 Learning rate: kiểm tra xem liệu mát có giảm theo thời gian hay khơng Tùy thuộc vào mức độ âmts mát nhẹ nhàng, điều chỉnh learning rate, lý tưởng bước logarit Mất mát entropy chéo: sử dụng mát entropy chéo, kiểm tra xem mát ban đầu xấp xỉ -ln(1/NUM_CLASSES) Nếu khơng, có lỗi nghiêm trọng Quy tắc áp dụng so sánh nhãn one-hot với xác suất softmax với ghi thường thực Thường xuyên hóa mát: mát quy hóa chi phí mát entropy chéo mức độ gấp 10 lần trở lên, giảm lambda quy hóa giảm độ lớn trọng số ban đầu Mất mai sai lệch thời gian dài bạn quan tâm đến việc phạt trọng số lớn so với việc hội tụ vào giải pháp - Giảm mát dốc: đôi khi, mát giảm mạnh sau thời gian ngắn huấn luyện trước ổn định Đây dấu hiệu mạnh mẽ phân bố trọng số ban đầu khơng đủ Kiểm tra hàm kích hoạt: - - Bão hòa Tanh Sigmoid: Các hàm Tanh Sigmoid gặp phải vấn đề bão hòa, tức thái cực chúng, dẫn xuất mơ hình ngừng học Với việc khởi tạo trọng số xấu, không nhiều thời gian để mạng đến điều Nên thử hàom kích hoạt khác, đặc biệt ReLUs để xác định xem kích hoạt có phải vấn đề hay khơng ReLUs chết: ReLUs chết cho ăn với giá trị nhỏ Nếu hầu hết tế bào thần kinh chết thời gian ngắn đào tạo phần lớn mạng ngừng học sớm Nếu rơi vào tình này, xem xét kỹ trọng số ban đầu, thêm độ lệch ban đầu nhỏ (ví dụ 0,01) vào trọng số Nếu điều khơng hoạt động, thay Maxout Leaky ReLUs 2.6 Ví dụ: Nhận dạng số có nhiều chữ số Để cung cấp mơ tả đầu cuối cách áp dụng phương pháp thiết kế thực tế, trình bày ngắn gọn hệ thống Street View, từ quan điểm thiết kế thành phần học sâu Rõ ràng, có nhiều thành phần khác hệ thống hoàn chỉnh, Street View cars, sở hạ tầng liệu…, có tầm quan trọng tối thượng Từ quan điểm nhiệm vụ học máy, trình bắt đầu với việc thu thập liệu Những xe thu thập liệu thô người điều hành chung cấp nhãn Tác vụ phiên mã bắt đầu số lượng lớn tập liệu giảm tuyển, bao gồm việc sử dụng kỹ thuật học máy để phát số nhà trước chép chúng Dự án phiên mã bắt đầu với lựa chọn số liệu hiệu suất giá trị mong muốn cho số Một nguyên tắc chung quan trọng điều chỉnh lựa chọn số liệu cho mục tiêu kinh doanh cho dự án Bởi đồ hữu ích chúng có độ xác caom điều quan trọng phải đặt yêu cầu độ xác cao cho dự án này, hệ thồng phiên mã Street View bảo vệ Do đó, mức độ phù hợp trở thành số hiệu suất tối ưu hóa dự án, với độ xác giữ mức 98% Khi mạng lưới chuyển đổi cải thiện, làm giảm ngưỡng xác định bên mà mạng từ chối phiên mã đầu vào, cuối cùng, vượt mục tiêu 95% trung bình Sau lựa chọn mục tiêu định lượng, bước phương pháp đề xuất nhanh chóng thiết lập hệ thống đường sở hợp lý Đối với nhiệm vụ thị giác, điều có nghĩa mạng liên kết với đơn vị tuyến tính trực tiếp Dự án phiên mã bắt đầu với mơ Để bắt đầu với đường sở đơn giản có thể, việc triển khai lớp đầu mô hình bao gồm n đơn vị 60 softmax khác để dự đốn chuỗi n kí tự Các đơn vị softmax đào tạo xác giống nhiệm vụ phân loại, với đơn vị softmax đào tạo độc lập Phương pháp đề xuất lặp lặp lại đường sở kiểm tra xem thay đổi có làm nên cải thiện hay không Thay đổi hệ thống phiên mã Street View thúc đẩy hiểu biết lý thuyết bao phủ số liệu cấu trúc liệu Đặc biệt, mạng từ chối phân loại đầu vào xác suất chuỗi đầu cho ngưỡng Ban đầu, định nghĩa ad-hoc, dựa việc đơn giản nhân tất đầu softmax với Điều thúc đẩy phát triển lớp đầu chuyên biệt hàm chi phí thực tính tốn khả đăng nhập nguyên tắc Cách tiếp cận cho phép chế từ chối ví dụ để hàm hoạt động hiệu Tại thời điểm này, bao phủ 90%, khơng có vấn đề lý thuyết rõ ràng với phương pháp Do đó, cần kiểm tra tập huấn luyện kiểm tra để xác định xem có vấn đề underfitting hay overfitting hay khơng Trong trường hợp này, lỗi tập huấn luyện tập kiểm tra gần giống hệt Lý khiến dự án tiến hành thuận lợi có sẵn liệu với hàng chục triệu ví dụ dãn nhãn Bởi lỗi tập huấn luyện kiểm tra giống nhau, cho thấy cố underfitting có vấn đề với liệu huấn luyện Một chiến lược debug đề xuất trực quan hóa lỗi tệ mơ hình Trong trường hợp này, điều có nghĩa trực quan hóa tập huấn luyện khơng xác mà mơ hình đưa kết cao Chúng chứng minh chủ yếu bao gồm ví dụ hình ảnh đầu vào bị cắt chặt với số chữ địa bị xóa việc cắt xén Ví dụ, ảnh địa “1849” bị cắt chặt, hiển thị “849” Vấn đề giải cách dành hàng tuần để cải thiện tính xác hệ thống phát số địa cho định vùng cắt xén Thay vào đó, định thực tế nhiều đưa ra, tăng chiều rộng vùng cắt để rộng cách có hệ thống với dự đoán hệ thống phát số địa Thay đổi thêm 10% vào bao phủ hệ thống phiên mã Cuối cùng, vài phần trăm điểm cuối hiệu suất đến từ việc điều chỉnh siêu tham số Điều chủ yếu bao gồm làm cho mơ hình lớn vấn trì số hạn chế chi phí tính tốn Bởi lỗi đào tạo kiểm tra gần nhau, nên rõ ràng cố hiệu suất underfitting, vài vấn đề cịn lại với liệu 61 Nhìn chung, dự án phiên mã thành công lớn cho phép hàng trăm triệu địa chép nhanh với chi phí thấp mức đạt so với nỗ lực người 62 CHƯƠNG WORD2VEC Biểu diễn từ ngữ dạng vector, từ biểu diễn vector n chiều Những vector biểu diễn cho từ có ý nghĩa gần gũi có khoảng cách gần vector biểu diễn từ khác Ví dụ, bạn mong “jacket” “coat” có khoang cách gần khác Tương tự biểu diễn ma trận từ ngữ, mong “jacket” “jackets” biểu diễn gần Học không giám sát, học biểu diễn từ ngữ từ văn phương pháp hiệu học khơng giám sát Ý tưởng học cấu trúc liệu văn cung cấp trước gán nhãn Phương pháp có hai cách tiếp cận chính: Cách tiếp cận thứ nhất, thuê đội ngũ chuyên gia để gán nhãn cho hàng nghìn từ thuộc liệu văn khác Sau cài đặt thuật tốn học máy hi vọng học thuộc tính theo Mơ hình tạo phương pháp phân biệt chữ viết hoa số người có lẽ khơng thể nhận biết nhiều Cách tiếp cận thứ hai, đào tạo mô hình hàng trăm văn hàng triệu từ ngữ Thuê chuyên gia đánh giá mức độ mong đợi đầu Khuyến khích mơ hình học từ thay cho học mẫu từ xuất Sau trình đào tạo, mơ hình biểu diễn tập liệu gán nhãn nhỏ liệu đào tạo ban đầu Mỗi từ có nhãn mơ hình hiểu rõ nhãn tương tự quan hệ chúng với nhãn khác 63 Hình 3.1: Ví dụ dạng biểu diễn mơ hình Tài liệu tham khảo Bahdanau, D C (2015) Neural machine translation by jointly learning to align and translate In ICLR’2015, arXiv:1409.0473 Bastien, F L (2012) Theano: new features and speed improvements Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop Behnke, S (2001) Learning iterative image reconstruction in the neural abstraction pyramid Int J Computational Intelligence and Applications Bengio, Y (2000) Gradient-based optimization of hyperparameters Neural Computation Bengio, Y D (2001) A neural probabilistic language model In T K Leen, T G Dietterich, and V Tresp, editors, NIPS’2000 , pages 932–938 MIT Press Bengio, Y L (1999) Gradient-based learning of hyperparameters Learning Conference, Snowbird 64 Bergstra, J a (2012) Random search for hyper-parameter optimization J Machine Learning Res Bergstra, J B (2011) Algorithms for hyper-parameter optimization In NIPS’2011 Bottou, L (2015) Multilayer neural networks Deep Learning Summer School Goodfellow, I J (2014) Multi-digit number recognition from Street View imagery using deep convolutional neural networks In International Conference on Learning Representations Graves, A (2013) Generating sequences with recurrent neural networks Technical report, arXiv:1308.0850 Girshick, R D (2015) Region-based convolutional networks for accurate object detection and segmentation Ian Goodfellow, Y B (2016) Deep Learning The MIT Press 6, 12, 30, 35, 45, 50 Kingma, D R (2014) Semi-supervised learning with deep generative models In NIPS’2014 Krizhevsky, A (2010) Convolutional deep belief networks on CIFAR-10 Technical report, University of Toronto Retrieved from Unpublished Manuscript: http://www.cs.utoronto.ca/ kriz/convcifar10-aug2010.pdf Maclaurin, D D (2015) Gradient-based hyperparameter optimization through reversible learning arXiv preprint arXiv:1502.03492 Ng, A (2015) Advice for applying machine learning Retrieved from https://see.stanford.edu/materials/aimlcs229/ML-advice.pdf Palash Goyal, S P (2018) Deep Learning for Natural Language Processing Creating Neural Networks with Python 52 Phan Xuân Hiếu, Đ S (2009) Giáo trình khai phá liệu Web NXBGD Snoek, J L (2012) Practical Bayesian optimization of machine learning algorithms In NIPS’2012 Squire, W a (1998) Using complex variables to estimate derivatives of real functions SIAM Rev Swersky, K S (2014) Freeze-thaw Bayesian optimization arXiv preprint arXiv:1406.3896 Phụ lục Code demo tập word2vec https://github.com/nguyenthithuy97/datamining_word2vec.git 65 ... mở nhiều thách thức hội để cải thiện mơ hình học sâu đưa vượt qua giới hạn 35 CHƯƠNG PHƯƠNG PHÁP LUẬN THỰC TẾ Để áp dụng thành công kỹ thuật học sâu yêu cầu nhiều việc có kiến thức thuật tốn... cho thấy cách học tập sâu loại hình học biểu diễn, Hình 1.4: Sơ đồ Venn cho thấy cách học tập sâu loại hình học biểu diễn, loại máy học tập, sử dụng cho nhiều người tất phương pháp tiếp cận để... có ba sóng phát triển học sâu: học sâu biết tới điều khiển học (cybernetics) năm 1940-1960, sau học sâu hiểu góc nhìn thuyết kết nối (connectionism) năm 1980-1990 gần lên lên học sâu (deep learning)