(Luận văn) bài toán cực tiêu chuẩn nguyên tử của ma trận

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Khánh Huyền lu an n va p ie gh tn to BÀI TOÁN CỰC TIỂU CHUẨN NGUYÊN TỬ d oa nl w CỦA MA TRẬN nf va an lu lm ul LUẬN VĂN THẠC SĨ: TOÁN HỌC z at nh oi z m co l gm @ an Lu n va Hà Nội - 2022 ac th si BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Khánh Huyền lu an n va to gh tn BÀI TOÁN CỰC TIỂU CHUẨN NGUYÊN TỬ p ie CỦA MA TRẬN nl w d oa Chuyên ngành: Toán ứng dụng nf va an lu Mã số: 8460112 LUẬN VĂN THẠC SĨ : TOÁN HỌC z at nh oi lm ul NGƯỜI HƯỚNG DẪN KHOA HỌC : z m co l gm @ TS Lê Hải Yến an Lu Hà Nội - 2022 n va ac th si i LỜI CAM ĐOAN Tơi xin cam đoan viết luận văn trình tìm hiểu, học hỏi, trau dồi kiến thức thân hướng dẫn tận tình TS Lê Hải Yến Mọi kết nghiên cứu ý tưởng tác giả khác, có trích dẫn cụ thể luận văn Đề tài luận văn chưa bảo vệ hội đồng bảo vệ luận văn lu an thạc sĩ Tôi xin chịu trách nhiệm lời cam đoan n va to gh tn Hà Nội, tháng 10 năm 2022 Học viên p ie oa nl w d Nguyễn Khánh Huyền nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Đầu tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Lê Hải Yến, người trực tiếp hướng dẫn giúp đỡ xác định đề tài Luận văn chất lượng, cho định hình hướng nghiên cứu tương lai Luận văn hồn thành hướng dẫn tận tình, tâm huyết cô Cô quan tâm, giúp đỡ, động viên tơi nhiều suốt q trình học tập nghiên cứu để tơi hồn thành Luận văn lu an Tôi xin gửi lời cảm ơn đến thầy cô, người trực tiếp giảng n va dạy cho kiến thức trình học tập nghiên cứu tn to Tôi xin cảm ơn tới Trung tâm Quốc tế Đào tạo Nghiên cứu Toán học, Viện Toán học sở đào tạo Học viện Khoa học Công nghệ, Viện gh p ie Hàn lâm Khoa học Công nghệ Việt Nam tạo điều kiện thuận lợi cho môi trường học tập trình thực Luận văn Tơi nl w xin chân thành cảm ơn Quỹ VINIF hỗ trợ tài cho tơi năm d oa Cao học, giúp tơi có điều kiện tốt động lực an lu đường nghiên cứu khoa học nf va Tôi xin gửi lời cảm ơn TS Đỗ Đức Hạnh, trưởng phịng nghiên cứu AI Tốn học Smartlog, cựu nghiên cứu viên Viện Toán học, nhiệt lm ul tình bảo tơi kiến thức thực tế góc nhìn tiềm ứng z at nh oi dụng thực tiễn tốn Luận văn Tơi xin cảm ơn anh Võ Duy Trung, TS Vũ Minh Tâm đồng nghiệp cơng ty Smartlog hết lịng giúp đỡ tơi q trình làm Luận văn Tơi xin cảm ơn anh z gm @ Kurt Bình - Tổng giám đốc công ty Smartlog tạo môi trường nghiên cứu toán học tuyệt vời doanh nghiệp, cung cấp điều kiện cho l co nghiên cứu, áp dụng toán lý thuyết ứng dụng thực m tiễn doanh nghiệp, giúp kéo gần lại khoảng cách toán học hàn lâm an Lu xã hội n va Bên cạnh đó, q trình học tập, nghiên cứu thực Luận ac th văn, tơi cịn nhận nhiều quan tâm, hỗ trợ từ quý thầy cô, bạn si iii bè Viện Toán học, đặc biệt anh Nguyễn Xuân Quý bạn lớp cao học K2020B, Toán ứng dụng Cuối cùng, tơi xin bày tỏ lịng biết ơn tới gia đình tơi, người ln u thương khích lệ tơi suốt q trình học tập, nghiên cứu lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si iv Danh sách hình vẽ 2.1 Biểu diễn tốn Netflix dạng ma trận 17 2.2 Quan hệ người dùng, đặc điểm phim 18 3.1 Kết chạy thử nghiệm với kích thước ma trận cỡ 30 × 30, lu số lượng quan sát chiếm từ 20% đến 80% 39 an 3.2 Kết chạy thử nghiệm với kích thước ma trận cỡ 30 × 30, va số lượng quan sát lớn chiếm từ 68% đến 80% 39 n tn to 3.3 Kết chạy thử nghiệm với kích thước ma trận cỡ 50 × 50, gh số lượng quan sát chiếm từ 20% đến 80% 40 p ie 3.4 Kết sai số thời gian hai thuật toán điểm w thuật toán FISTA 41 oa nl 3.5 Logo MIT 42 3.6 Ví dụ cho việc phục hồi ảnh với tỉ lệ số điểm ảnh biết d an lu chiếm 5% 42 chiếm 10% nf va 3.7 Ví dụ cho việc phục hồi ảnh với tỉ lệ số điểm ảnh biết 43 lm ul 3.8 Ví dụ cho việc phục hồi ảnh với tỉ lệ số điểm ảnh biết z at nh oi chiếm 20% 43 3.9 Dữ liệu đầu vào toán Netflix 45 3.10 Đọc kết liệu Neflix với người dùng có ID "1" 45 z m co l gm @ an Lu n va ac th si v Mục lục Lời cam đoan i Lời cảm ơn ii Danh mục hình vẽ iv lu an v Mở đầu n va Mục lục tn to ie gh KIẾN THỨC CHUẨN BỊ p 1.1 Khai triển SVD 1.2 Một số chuẩn ma trận w d oa nl 1.3 Hàm liên hợp 12 16 an lu BÀI TOÁN CỰC TIỂU CHUẨN NGUN TỬ 2.1 Mơ hình thực tế tốn cực tiểu hàm hạng ma trận 16 nf va 2.2 Bao lồi hàm hạng ma trận 20 lm ul 2.3 Điều kiện RIP 24 z at nh oi THUẬT TOÁN TỐI ƯU CHO BÀI TOÁN CỰC TIỂU CHUẨN NGUYÊN TỬ 29 z 3.1 Đưa toán cực tiểu chuẩn nguyên tử dạng quy hoạch @ nửa xác định dương 30 gm 33 l 3.2 Thuật toán proximal gradient m co 3.2.1 Toán tử Proximal 33 3.2.2 Thuật toán Proximal 34 an Lu 3.3 Thử nghiệm số 37 va 3.3.1 Thử nghiệm với ma trận kích thước bé 38 n 3.3.2 Xử lý ảnh với thuật toán FISTA 41 ac th si vi 3.3.3 Bài toán Netflix 43 Kết luận kiến nghị 48 Tài liệu tham khảo 57 lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si Mở đầu Chúng ta biết nhiều khái niệm toán học thực tế độ phức tạp tốn hay số chiều ma trận lu biểu diễn thông qua hạng ma trận Thơng thường, an ma trận có hạng thấp so với số chiều liệu va n Do đó, tốn cực tiểu hàm hạng tập lồi toán tối tn to ưu quan trọng xuất nhiều việc lựa chọn mơ hình ie gh thực tế, ví dụ tốn phục hồi ma trận (matrix completion), p toán nén ảnh, toán hệ gợi ý, Trong số trường hợp đặc w biệt, tốn cực tiểu hàm hạng giải cách sử dụng phân tích oa nl giá trị kì dị Tuy nhiên, trường hợp tổng qt, tốn d tối ưu khơng lồi u cầu thời gian tính tốn mũ lu nf va an Một phương pháp hiệu để giải toán cực tiểu hàm hạng thơng qua việc giải tốn cực tiểu chuẩn ngun tử Chuẩn lm ul nguyên tử ma trận chữ nhật định nghĩa tổng z at nh oi giá trị kì dị ma trận Chuẩn nguyên tử chứng minh bao lồi hàm hạng hình cầu đơn vị theo chuẩn phổ cực tiểu hóa cách sử dụng thuật toán tối ưu Phương pháp z @ đưa Fazel [1] phương pháp heuristic hiệu để gm tìm nghiệm tốn cực tiểu hàm hạng Đối với ma trận đường co l chéo, chuẩn nguyên tử tổng trị tuyệt đối (chuẩn l1 ) giá m trị đường chéo Cực tiểu hóa chuẩn l1 phương pháp heuristic an Lu tiếng sử dụng từ năm 1970 nhà địa lí nghiên cứu hoạt động địa chấn Kể từ đến nay, phương pháp va sử dụng nhiều lĩnh vực khử nhiễu hình ảnh [2], lựa n ac th si chọn mơ hình thống kê [3], xấp xỉ thưa tối ưu hóa danh mục đầu tư [4], Trong luận văn này, chúng tơi nghiên cứu tốn cực tiểu chuẩn ngun tử điều kiện giới hạn isometry (RIP) để phương pháp cho ta nghiệm toán cực tiểu hàm hạng tương ứng Đồng thời, quan tâm đến thuật toán tối ưu: phương pháp điểm trong, phương pháp proximal gradient phiên tăng tốc để giải tốn cực tiểu chuẩn nguyên tử Cụ thể: • Chương 1: chúng tơi trình bày kiến thức chuẩn bị phân tích lu giá trị kì dị ma trận, tính chất quan trọng ma trận an chuẩn ma trận, kiến thức hàm liên hợp để phục vụ cho phát biểu va n định lý mơ hình thực tế, từ đưa tốn cực tiểu hàm hạng toán p ie gh tn to • Chương 2: chúng tơi trình bày toán cực tiểu hàm hạng dựa cực tiểu chuẩn nguyên tử, trình bày định lý chuẩn nguyên tử nl w bao lồi hàm hạng hình cầu đơn vị theo chuẩn phổ điều d oa kiện RIP đảm bảo mối liên hệ toán cực tiểu chuẩn nguyên tử an lu toán cực tiểu hàm hạng tương ứng nf va • Chương 3: chúng tơi trình bày hai phương pháp giải toán cực lm ul tiểu chuẩn nguyên tử thử nghiệm số để so sánh hai phương pháp ứng dụng toán chuẩn nguyên tử toán thực tế: xử z at nh oi lý ảnh tốn Netflix z Chúng tơi nói khía cạnh phát triển luận văn, phương @ hướng để áp dụng lý thuyết vào giải toán thực tế m co l gm doanh nghiệp an Lu n va ac th si 43 Hình 3.7: Ví dụ cho việc phục hồi ảnh với tỉ lệ số điểm ảnh biết chiếm 10% lu an n va gh tn to Hình 3.8: Ví dụ cho việc phục hồi ảnh với tỉ lệ số điểm ảnh biết chiếm ie p 20% nl w Bài toán Netflix d oa 3.3.3 lu nf va an Chúng sử dụng sở liệu MovieLens 100k GroupLens (https://grouplens.org/datasets/movielens/) Trong này, người ta lm ul cung cấp liệu có kích thước từ nhỏ đến lớn: 100.000, 1.000.000, z at nh oi 10.000.000, 25.0000.000 lượt đánh giá Trong luận văn này, nhàm mục đích để minh họa cho thuật tốn, chúng tơi sử dụng liệu nhỏ với 100.000 lượt đánh giá công bố vào tháng 4/1998 z gm @ Trong liệu 100.000 lượt đánh giá có tệp tin sau: co l • u.data: tệp chứa 100.000 lượt đánh giá cho 1682 phim từ m 943 người dùng Nhà cung cấp cho biết thêm, có 20 giá trị từ đến an Lu phim đánh giá từ người dùng Các lượt đánh giá nhận va n • ua.base, ua.test, ub.base, ub.test: Ở để thuận lợi cho việc ac th si 44 áp dụng thuật toán, chia liệu thành hai tập để tập huấn luyện tập để đánh giá kết Trong phạm vi luận văn này, dùng ua.base ua.test • u.user: tệp tin chứa thơng tin người dùng, bao gồm: id, tuổi, giới tính, nghề nghiệp, vùng miền người ta tin thơng tin ảnh hưởng tới sở thích người dùng Tuy nhiên, thuật tốn chúng tơi sử dụng, chúng tơi coi người dùng bình đẳng nhau, nên không sử dụng thông tin • u.genre: tệp tin chứa tên 19 thể loại phim Các thể loại lu bao gồm: unknown, Action,Comedy, Crime, Adventure, Animation, an Children’s, Documentary, Drama, War, Fantasy, Sci-Fi, Thriller,Film- va Noir, Horror, Musical, Mystery, Romance, Western Tương tự n có mối liên hệ hay đặc tính chung phim với nhau, nên thông tin chũng không sử dụng p ie gh tn to phần người dùng, coi phim bình đẳng nhau, khơng w oa nl Vì tốn phục hồi ma trận, chúng tơi coi người dùng phim độc lập nhau, khơng có tương quan hai d an lu người dùng hay hai phim với nhau, nên đây, quan nf va tâm đến lượt đánh giá người dùng đến phim, không quan tâm đến thông tin người dùng tính chất phim Như nói lm ul trên, chúng tơi dùng ua.base để huấn luyện, ua.test dùng z at nh oi để kiếm tra đánh giá độ xác thuật tốn Bộ ua.base ua.test chia từ liệu gốc với tỉ lệ 9:1 Dữ liệu đầu vào tập huấn luyện có 943 người dùng, 1682 phim với 90570 lượt đánh giá Có nghĩa đây, z m co l gm @ số phần tử biết trước chiếm 5.7% Dữ liệu đầu vào có dạng sau: an Lu n va ac th si 45 lu an n va Hình 3.9: Dữ liệu đầu vào tốn Netflix gh tn to Trong bảng liệu này, người ta xếp theo thứ tự ID người dùng, p ie người dùng thể lượt đánh giá họ tương ứng với ID w phim theo thứ tự Ta thấy, người dùng thứ xem phim oa nl đánh giá sao, người dùng thứ xem phim hai đánh giá sao, người dùng thứ 943 xem phim thứ 1228 đánh giá sao, Người dùng thứ d an lu 943 không xem phim không đánh giá phim có ID 1229, nên khơng nf va lượt đánh giá ma trận liệu đầu vào Tương tự với người dùng phim cịn lại Ví dụ, người dùng có ID 1, lm ul ta thấy người dùng có ID "1" đánh giá phim nào: z at nh oi z l gm @ m co Hình 3.10: Đọc kết liệu Neflix với người dùng có ID "1" an Lu va Vì để phục hồi ma trận liệu đầu vào, hay nói cách khác dự đoán n lượt đánh giá người dùng phim, với phục hồi ac th si 46 ma trận, ta cần hàng cột có tối thiểu phần tử Đơn giản ta khơng có tí thơng tin người dùng hay phim ta khơng có sở để dự đốn người dùng đánh giá cao phim nào, hay phim phù hợp với người Nó giống kiểu để dự đốn kì thi bất kì, bạn A điểm, ta khơng có thơng tin bạn A ta khơng thể dự đốn bạn A đạt điểm Vậy nên, trước áp dụng thuật tốn, chúng tơi có bước xử lý liệu với ma trận đầu vào Vì liệu chắn người dùng đánh giá 20 phim nên chúng tơi cần kiểm tra xem có lu phim khơng có lượt đánh giá khơng Với phim chưa có lượt an đánh giá, thường có hai cách bỏ phim khỏi va n liệu, điền ngẫu nhiên lượt đánh giá phim tương ứng với gh tn to người dùng Sau xử lý liệu xong, chúng tơi dùng thuật tốn FISTA để xử ie p lý thuật toán, với toán chuẩn nguyên tử sau: w d oa nl minimize rank(X) Xij = Mij thỏa mãn (3.17) (i, j) ∈ Ω lu nf va an với Mij ma trận liệu đầu vào không đầy đủ, Ω tập số ID người dùng i đánh giá phim có ID j Vì số phần tử lm ul ma trận M khơng có thơng tin, nên ta khơng thể tính tốn sai số z at nh oi cách tính phần thí nghiệm làm với ma trận tạo ngẫu nhiên phần 3.3.1 Trong thi Netflix, người ta đánh giá sai số theo công thức z gm @ RMSE, tức bậc hai trung bình cộng bình phương lỗi RMSE bé cho ta thấy kết dự đốn tốt RMSE tính l sau: an Lu (i,j)∈T m co v u X (Mij − Xij )2 u RM SE = t |T | n va với Xij ma trận sau ta tính tốn cáclượt đánh giá người dùng ac th i phim j tương ứng; T tập số mà có lượt đánh giá si 47 tập kiểm tra Sau chạy với thuật tốn FISTA, ta có kết sai số RMSE là: 0.9077 Như vậy, sai số vào khoảng 0.9 Kết đánh nào? Theo tìm hiểu chúng tôi, sử dụng mô hình hồi quy tuyến tính đơn giản RMSE = 1.0540 Bài toán phục hồi ma trận trường hợp toán Netflix tương ứng với toán hệ gợi ý, mà mục tiêu toán hệ gợi ý cần danh sách phim đánh giá cao tương ứng với người dùng, top phim, hay 10 phim, Và bên ban tổ chức thi nghiên cứu tuyên bố lu an cải thiện nhỏ giúp RMSE giảm 1% dẫn đến khác va biệt đáng kể việc lấy 10 phim đánh giá cao tương ứng n với người dùng Vậy nên, thuật toán FISTA giúp cải thiện giảm p ie gh tn to RMSE 13.8%, cho kết tốt d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si 48 KẾT LUẬN VÀ KIẾN NGHỊ Bài toán cực tiểu chuẩn nguyên tử có ứng dụng đa dạng xử lý ảnh, hệ thống gợi ý, tài thống kê, xử lý tín hiệu địa chấn, Trong luận văn chúng tơi tìm hiểu nghiên cứu được: • Bài tốn cực tiểu hàm hạng thơng qua mơ hình thực tế tốn điền phần tử thiếu ma trận (matrix completion), cụ thể lu an toán Netflix ứng dụng Hệ thống gợi ý, từ đưa n va tốn cực tiểu hàm hạng toán cực tiểu chuẩn nguyên tử, dựa • Các điều kiện RIP đảm bảo mối liên hệ toán cực tiểu chuẩn ie gh tn to vào tính lồi tốn cực tiểu chuẩn nguyên tử p nguyên tử toán cực tiểu hàm hạng tương ứng nl w • Hai phương pháp giải toán cực tiểu chuẩn nguyên tử phương d oa pháp điểm cho toán quy hoạch nửa xác định dương an lu phương pháp tăng tốc proximal gradient(FISTA) Chúng thử nghiệm số để so sánh hai phương pháp trên, ứng dụng để nf va giải tốn xử lý ảnh toán Netflix lm ul z at nh oi Hướng nghiên cứu Chúng mong muốn xây dựng thuật tốn sử dụng hệ gợi ý, với số lượng người dùng có kích thước lớn từ vài triệu đến vài tỷ z văn sau: co l gm @ Chúng tơi nhận thấy số vấn đề q trình nghiên cứu làm luận m Khi có người đánh giá phim/ mặt hàng đó, an Lu câu hỏi nên đặt đánh giá có phù hợp hay khơng? Ví dụ, người rừng rậm, chưa tiếp xúc với giới va n văn minh đánh giá chất lượng xe điện Tesla, đánh ac th si 49 giá khơng nên có ý nghĩa, hệ thống gợi ý đủ tốt cần phải loại trừ trường hợp Chúng ta giả sử rằng, tất người dùng, phim/hàng hóa, bình đẳng với thông qua việc loại bỏ tất thông tin liên quan khác, ngoại trừ việc đánh giá Trong đó, thơng tin quan trọng khác quan hệ người đánh giá với nhau, tương đồng mặt hàng/ phim nên đóng vai trị lớn Thực tiễn chứng minh, hầu hết tất bạn bè người thích mặt hàng đó, xác xuất cao người lu an thích Điều tương tự lý thuyết mạng xã n va hội, hai người có lớp bạn bè với xác xuất tn to cao bạn bè quen biết với nhau, hệ thống gợi ý kết bạn nên gợi ý bạn bè chung ie gh p Đối với tốn thực tế có kích thước lớn (bigdata), với số người dùng lên đến triệu, tỷ người dùng w oa nl thuật toán FISTA giải tốt với ma trận có số chiều khoảng d 105 [24], nên việc tính tốn với tốn bigdata gặp lu nf va an nhiều khó khăn lm ul Câu hỏi khơng tầm thường đặt ra, làm cách để xây dựng lý thuyết gợi ý mà hoạt động cho số lượng cực lớn z at nh oi người dùng? Một cách hiển nhiên, hệ thống cần phải thiết kế để có z thể chạy song song nhiều nhân vi xử lý, thiết kế để @ gm chạy nhiều máy tính hệ thống tính tốn phân tán Do l đó, liệu phân cụm cách độc lập, an Lu diễn nào? m co vấn đề coi giải Vậy cách phân cụm nên n va ac th si 50 Phụ lục Ở chúng tơi xin trình bày ý tưởng nghiên cứu định hướng phát triển nêu phía lu an Cần phải có cách để đưa thông tin quan hệ va n người dùng với nhau, phim/mặt hàng với Được khích lệ lý thuyết mạng xã hội phân tích liệu topo, ie gh tn to vào hàm tối ưu p nghĩ đến sử dụng lý thuyết toán tử Laplace đồ thị nl w Chúng ta nhắc lại rằng, cho đồ thị G = (V, E) có n đỉnh, oa ma trận ∆ = (δi,j ) thể quan hệ đối tượng i j Cho d f : V → Rn hàm định nghĩa G, γ : E → R hàm trọng nf va an lu số Khi đó, toán tử Laplace định nghĩa X z at nh oi lm ul ∆f (i) = (f (i) − f (j)).γi,j j∈V z với i ∈ V @ người so với bạn bè thân thiết họ co l gm Ý nghĩa thực tế toán tử này, đo đạc mức độ vượt trội Chúng ta trang bị cho không gian người dùng cấu trúc m an Lu đồ thị với tác động toán tử Laplace rời rạc Cụ thể hơn, giả sử Pi phép chiếu tắc từ Rm×n xuống Rn , đưa X trở thành va hàng thứ i X, Pi (X) trở thành ma trận hàng Liên hệ n ac th si 51 hai người dùng i j, trở thành liên hệ hai vector Pi (X) Pj (X) Ta mong muốn, hai người i j có hàm liên hệ γi,j , để γi,j lớn, hệ gợi ý nên gợi ý hai người dùng gần nhau, cộng P thêm (i,j)∈Γ ||Pi (X) − Pj (X)||22 γi,j vào hàm mục tiêu Ở đây, V tập người dùng, Γ ⊂ V × V tập gồm cặp người dùng có quan hệ với Đối với (i, j) ∈ Γ, ta cho tương ứng số thực không âm γi,j thể quan hệ hai người dùng γi,j hai người dùng i j khơng có quan hệ với nhau, nhận giá trị lớn i j có quan hệ mật thiết lu Câu chuyện xảy hồn tồn tương tự, ta thêm yếu tố an va liên hệ vào phim/mặt hàng , Q phép chiếu lên n trục phim/mặt hàng ma trận X, I tập phim/mặt to hệ với Khi đó, hàm mục tiêu viết dạng X f = ||AX − b||22 + µ.||X||∗ + ||Pi (X) − Pj (X)||22 γi,j p ie gh tn hàng , Λ ⊂ I × I tập gồm cặp phim/mặt hàng có quan oa nl w (i,j)∈Γ d + X ||Qk (X) − Ql (X)||22 λk,l an lu (k,l)∈Λ nf va Hiển nhiên, tham số γi,j λk,l suy biến, ta quay trở lại lm ul tốn gốc thơng thường Chúng ta tính ma trận z at nh oi C ∈ Rm×n , d ∈ Rk cho f = ∥CX − d∥22 + µ∥X∥∗ z với C cho γij (Pi −Pj )T (Pi −Pj )+ X (βk,l Qk −Ql )T (Qk −Ql ) l gm X @ C T C = AT A+ (i,j)∈E (k,l)∈I.I co m d cho an Lu d = (C T )−1 AT b n va Tuy nhiên, quan trọng hơn, áp dụng định lý ac th để đưa toán gợi ý cho mạng xã hội toán chương si 52 cách đơn giản mà gần thay đổi chương trình/ thuật tốn Sau viết xong luận văn, thấy báo viết Kim-Chuan Toh Sangwoon Yun, 2009 ([24]), có thảo luận vấn đề gần tương tự Cụ thể hơn, hai tác giả mong muốn có quan hệ người dùng i mặt hàng thứ k xấp xỉ với số θik cho trước Và đó, hạng tử bậc hai khác cộng thểm vào cost function Với ký hiệu chúng tôi, hạng tử có dạng 2 |Pi (Qk (X)) − θi,k | Chúng ta biết rằng, mặt thực tế, giải tốn hệ lu an gợi ý khía cạnh địa phương hạn chế khả tính tốn n va máy tính Hơn nữa, nên gom người dùng có thuộc tính Do đó, cần thiết để phân cụm người dùng thành cụm, sau áp dụng thuật toán gợi ý cho cụm Và đó, điều p ie gh tn to gần với nhau, độ xác thuật tốn cao w dễ dàng thực với mạng máy tính phân tán oa nl Chú ý rằng, ta hạn chế thuật toán hệ gợi ý xuống tập O d đồ thị, vấn đề phát sinh có cột ứng với số lượng lu an item khơng có đầy đủ thơng tin Chúng ta khắc phục điều nf va thông qua việc loại bỏ tạm thời phim/mặt hàng mà không lm ul có đánh giá tập O z at nh oi Một điều ta nhận xét thấy rằng, địa phương hoá hệ gợi ý tập đủ nhỏ O ⊂ G tập người dùng, hạng ma trận xây dựng nói chung nhỏ hạng ma trận xây dựng z toàn đồ thị người dùng Ý nghĩa thực tế điều này, @ gm tập người dùng có số tiêu chí riêng loại co l phim/mặt hàng, phép toán gợi ý đầy đủ tập tất người dùng nên có đầy đủ tiêu chí tất người dùng m an Lu Vậy, vấn đề đặt ra, hạng địa phương ghép nối chung với nhau, trở thành hạng toàn cục? Có trở va n ngại ngăn cản điều này? Và ma trận đầy đủ này, ghép nối ac th si 53 với có vênh phần giao tập mở hay không? Vấn đề đặt ngược trở lại: Nếu từ tập mở U, ta liên tục thác triển giải tích tốn tử làm đầy ma trận lên tồn tập người dùng, sau vịng quay trở lại tập mở U, hạng toán tử gợi ý ma trận điền vào có thay đổi hay không? Nếu từ tập mở U, ta liên tục thác triển giải tích tốn tử làm đầy ma trận lên tồn tập người dùng, sau vòng quay trở lại lu tập mở U, hạng ma trận điền vào có thay đổi hay không? an va Một mặt định nghĩa tập mở U đủ nhỏ nghiên n cứu cách ghép nối lại để tạo đồ thị lớn, nghiên cứu hố, to topological data analysis với toán hệ gợi ý hoạt động sao? p ie gh tn lỗ đồ thị lớn này, nghiên cứu quan hệ w Mặt khác hay khơng từ phát triển mơ hình oa nl nói cách ma trận có hạng r mở rộng từ tập mở sang d toàn cục đồ thị người dùng? lu nf va an Mặt khác, toán cung cấp điều kiện để ghép nối liệu học hệ thống gợi ý phân tán, để đưa nghiệm z at nh oi tương ứng? lm ul tồn cục để có tể ứng dụng thực tế Và cách thức triển khai Chúng tơi tin rằng, tốn có ý nghĩa, từ lý thuyết z tốn phục hồi ma trận hạng thấp, giải toán @ gm ánh xạ đồ thị vào khơng gian vector có số chiều thấp thơng qua l kết Candes-Terence Tao Và vấn đề tương tự quan hệ địa m co phương toàn cục xuất giải tốn mức độ Large Scale cơng nghiệp Và đồ thị, người ta quan tâm an Lu tới toán tối ưu rời rạc (ví dụ tối ưu vận tải VRP, hệ gợi ý, phân n va cụm ) nên thông qua luận văn này, người ta hi vọng đưa ac th tốn tối ưu khơng gian Euclide (chứ khơng có đồ phi Euclide), si 54 từ áp dụng thêm cơng cụ giải tích đại vào toán tối ưu rời rạc lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu n va ac th si 55 Tài liệu tham khảo [1] M Fazel, H Hindi, and S.P Boyd A rank minimization heuristic with application to minimum order system approximation Proceedings of lu the American Control Conference, 6:4734–4739, 2001 an va [2] L I Rudin, S Osher, and E Fatemi Nonlinear total variation based n noise removal algorithms Physica D: Nonlinear Phenomena, 60:259– to gh tn 268, 1992 p ie [3] R Tibshirani Regression shrinkage and selection via the lasso Jour- nl w nal of the Royal Statistical Society Series B, 73:273–282, 2011 d oa [4] M S Lobo, M Fazel, and S Boyd Portfolio optimization with linear nf va an 2007 lu and fixed transaction Annals of Operations Research, 152:341–365, lm ul [5] L.N Trefethen and D Bau III Numerical Linear Algebra Society for Industrial and Applied Mathematics, 1997 z at nh oi [6] Ricardo Correa da Silva Lecture notes on noncommutative lp-spaces https://arxiv.org/abs/1803.02390, 2018 z @ [7] A Connes Noncommutative Geometry Academic Press, San Diego, co l gm 1994 m [8] E.J Candes and T Tao Decoding by linear programming IEEE an Lu Transactions on Information Theory, 51:4203–4215, 2005 va [9] E.J Candes and M B Wakin An introduction to compressive sam- n pling IEEE Signal Processing Magazine, 25(2):21–30, 2008 ac th si 56 [10] B Recht, M Fazel, and P.A Parrilo Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization SIAM Review, 52:471–501, 2010 [11] R A Horn and C R Johnson Matrix Analysis Cambridge University Press, USA, edition, 2013 [12] A Beck First-Order Methods in Optimization, volume 25 Society for Industrial and Applied Mathematics, Philadelphia, USA, 2017 [13] T Stromberg A study of the operation of infimal convolution Doctoral thesis, Sweden, 1994 lu an [14] Hoang Tuy Convex Analysis and Global Optimization Volume 22 va Springer International Publishing AG, Cham, Switzerland, 2016 n timization Foundations of Computational Mathematics, 9:717–772, ie gh tn to [15] E.J Candès and B Recht Exact matrix completion via convex op- p 2009 w oa nl [16] P Chen and D Suter Recovering the missing components in a large noisy low-rank matrix: application to sfm IEEE Transactions on d nf va an lu Pattern Analysis and Machine Intelligence, 26:1051–1063, 2004 [17] C Tomasi and T Kanade Shape and motion from image streams lm ul under orthography: a factorization method International Journal of z at nh oi Computer Vision, 9:137–154, 1992 [18] M.P Chytil and V Koubek Mathematical Foundations of Computer Science Springer Berlin, Heidelberg, 1984 z @ gm [19] E.J Candes and T Tao The power of convex relaxation: Nearory, 56:2053–2080, 2010 m co l optimal matrix completion IEEE Transactions on Information The- an Lu [20] J.F Sturm Using sedumi 1.02, a matlab toolbox for optimization n 653, 1999 va over symmetric cones Optimization Methods and Software, 11:625– ac th si 57 [21] K.C Toh, R.H Tutuncu, and M.J Todd On the implementation of sdpt3 (version 3.1) - a matlab software package for semidefinitequadratic-linear programming IEEE International Conference on Robotics and Automation, pages 290–296, Taiwan,2004 [22] S Ma, D Goldfarb, and L Chen Fixed point and bregman iterative methods for matrix rank minimization Mathematical Programming, 128:321–353, 2009 [23] J Cai, E.J Candès, and Z Shen A singular value thresholding algorithm for matrix completion SIAM Journal on Optimization, lu 20:1956–1982, 2010 an va [24] K Toh and S Yun An accelerated proximal gradient algorithm for n nuclear norm regularized least squares problems Pacific Journal of to gh tn Optimization, 6:615–640, 2010 p ie [25] A Beck and M Teboulle A fast iterative shrinkage-thresholding algo- w rithm for linear inverse problems SIAM Journal on Imaging Sciences, oa nl 2:183–202, 2009 d [26] Z Liu and L Vandenberghe Interior-point method for nuclear norm lu nf va an approximation with application to system identification SIAM Journal on Matrix Analysis and Applications, 31:1235–1256, 2010 z at nh oi lm ul z m co l gm @ an Lu n va ac th si