Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
150,55 KB
Nội dung
Thuật ngữ sác xuất ngành thống kê học máy Thuật ngữ sác xuất ngành thống kê học máy Bởi: Nguyễn Xuân Long Lý thuyết xác suất Căn Lý thuyết xác suất cho ngôn ngữ để mô tả ngẫu nhiên (randomness) Đối tượng LTXS biến ngẫu nhiên (random variables) Để định nghĩa biến ngẫu nhiên cần hàm phân bố (distribution function), qua định nghĩa khái niệm trung bình (mean) phương sai (variance) Standard deviation gọi độ lệch chuẩn Mean variance phiếm hàm (functionals), áp dụng cho hàm phân bố biến ngẫu nhiên Hàm phân bố liên tực tuyệt độ đo chuẩn (?) Lebesgue biểu diễn hàm mật độ (density), theo định lý Radon-Nikodym Cơ sở toán học lý thuyết xác suất thuyết độ đo (measure theory), việc xác suất gia (?) (probablist) xây dựng phát triển cáng nhiều loại đo đo xác suất tốt Nói chuyện với chuyên gia độ đo không định nghĩa đại số sigma (sigma-algebra) Nói chuyện với chuyên gia xác suất nhiều khái niệm ẩn kỹ Công cụ XSG khái niệm độc lập (independence), mạnh mẽ độc lập có điều kiện (conditional independence) Cho nên dân toán thường trêu LTXS chẳng qua thuyết độ đo + độc lập Vậy khác biệt độ đo xác suất biến ngẫu nhiên gì? Theo David Aldous khác biệt recipe để làm bánh bánh Hiểu khác biệt làm bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát Độc lập hội tụ Khái niệm độc lập cho ta loạt định luật LTXS Tất xoay quanh tượng tập trung độ đo (concentration of measure) Bắt đầu luật số lớn (có phiên luật mạnh (strong law) luật yếu) Luật giới hạn trung tâm (Central limit theorem) nhắc sample mean (mẫu trung bình) có quy luật bình thường (normal/ 1/14 Thuật ngữ sác xuất ngành thống kê học máy Gaussian) số mẫu tiến đến vô hạn Các định luật có sử dụng khái niệm hội tụ (convergence) giải tích Hội tụ gần (almost sure), hội tụ phân bố luật (convergence in distribution/ in law) Ngoài luật số lớn có luật số nhỏ (hay luật tượng có — law of rare events), cho ta biết mẫu trung bình có quy luật Poisson Không phải ngẫu nhiên, Gaussian Poisson hai hàm phân bố — viên gạch cho toàn lâu đài XS Khái niệm độc lập độc lập có điều kiện chất keo để gắn kết biến xác suất với nhau, qua cho ta hàm xác suất cho vật thể toán học có cấu trúc phức tạp Một dạng độc lập có điều kiện hay dùng tính chất Markov Ngoài chất keo độc lập, có chất keo hữu dụng, tính hoán chuyển (exchangeability) Nếu tính độc lập tảng cho phương pháp suy diễn tần số (frequentist) , tính hoán chuyển lại sở tảng cho phương pháp suy diễn Bayesian Tính hoán chuyển được mở rộng thành hoán chuyển phần (partial exchangeability), khái niệm quan trọng để phái triển độ đo cho vật thể tổ hợp (combinatorial object) rời rạc phức tạp Quá trình ngẫu nhiên LTXS phát triển nhiều hàm phân bố không cho biến xác suất scalar (?) đơn giản, mà người ta sáng tạo hàm phân bố cho cấu trúc toán học phức tạp, nhiều chiều Chúng ta bắt đầu nói chuyện đến hàm phân bố cho tập hàm số đo (measurable functions), hàm phân bố cho độ đo ngẫu nhiên (random measures) Hàm phân bố cho vật thể vô hạn chiều gọi chung trình ngẫu nhiên (stochastic processes) Cách thức khẳng định tồn qua định lý bác Kolmogorov, cho phép ta hiểu hàm phân bố cho không gian vô hạn chiều từ điều kiện quán (consistency) độ đo cho cylinder sets Đây cách để xây dựng hàm phân bố cho trình Gauss (Gaussian processes), trình Dirichlet (Dirichlet process), v.v Một cách hữu hiệu để xây dựng trình stochastic quay lại với khái niệm độc lập, đẩy khái niệm đến giới hạn Công cụ nhìn vào phép biến đổi Fourier (Fourier transform) hàm phân bố Theo ngôn ngữ XS khái niệm gọi hàm tính cách (characteristic function) Để đẩy khái niệm độc lập tới giới hạn ta cần khái niệm hàm phân bố khả phân vô hạn (infinitely divisible) Khái niệm hàm phân bố ổn định (stable distribution) Gauss Poisson hai hàm phân bố ổn định — “ngẫu nhiên” quay luật số lớn số nhỏ nhắc Max-stable họ phân bố cực đại ổn định Các trình ngẫu nhiên có tính chất gia tăng độc lập (independent increment) gọi trình Lévy Tổng quát chút độ đo hoàn toàn độc lập (completely random measures) Định lý biểu diễn Lévy-Khintchine cho biết rõ hàm tính cách trính stochastic gì, thông qua độ đo Lévy (Levy measure) Chọn 2/14 Thuật ngữ sác xuất ngành thống kê học máy độ đo Lévy thích hợp (beta, gamma, v.v.) ta có trính stochastic tương ứng Định lý cho ta thấy Gauss Poisson lại trở thành viên gạch lâu đài xác suất đồ sộ: Theo định lý Lévy-Itó, dựa biểu diễn L-K tất trính Lévy decompose (phân rã) (phân tách) thành tổng ba trình stochastic độc lập, trình Wiener (một dạng trình Gauss), với trình phức hợp (compound) Poisson, trình martingale Rất khó tưởng tượng tập đo sigma đại số trính ngẫu nhiên Thay hình dung sigma đại số (recipe làm bánh) ta mô tả bánh Nếu trình liệt kê tham số thời gian, bánh hiểu lối mẫu (sample path) Với số trình ngẫu nhiên mô tả cách tạo mẫu từ trình ngẫu nhiên phương pháp nhặt mẫu từ giỏ Pólya (Pólya’s urn) Rất nhiều trình ngẫu nhiên mô tả biểu diễn bẻ gậy (stickbreaking representation) Theo biểu diễn cần nguyên tử (atom) mẩu gậy (stick-breaking weight) Cách thức bẻ gậy nhặt nguyên tử dựa theo sở độc lập có điều kiện, chất keo kỳ diệu cho phép ta mô tả cấu trúc phức tạp nguyên liệu giản đơn Được quan tâm hàng đầu biểu giá trị kỳ vọng (expectation) vật thể xác suất Liên quan khái niệm kỳ vọng điều kiện (conditional expectation), thân biến ngẫu nhiên Một công cụ quan trọng khái niệm martingale Martingale mô tả dạng trình NN, tạm gọi trình đánh bạc(?) Cần khái niệm filtration (hệ thống lọc) Ngoải ta có submartingale, supermartingale semimartingale (?) Nhờ công cụ mà ta tìm hiểu khái niệm xác suất hữu ích thời điểm dừng (stopping time), thời điểm chạm (hitting time), thời gian/thởi điểm vượt biên (boundary crossing time) Một họ trình NN thông dụng trình Markov (Markov process) Định nghĩa sở hạch xác suất chuyển dịch (transition probability kernel), khái niệm hệ thống lọc Cần khái niệm subordinator (?), dạng trình Lévy quan trọng Local time dịch thời gian địa phương Quá trình Markov cho thời gian rời rạc gọi chuỗi Markov (hoặc xích Markov) Liên qua đến chuỗi Markov lý thuyết ergodic (?) Irreducibility dịch bất khả quy Một vấn đề quan tâm thời gian hòa tan (mixing time) chuỗi Markov Điều kiện cần cho chuỗi Markov hòa tan trạng thái phân bố bất dịch (phân bố dừng) (stationary distribution) ergodicity, thỏa mãn phương trính cân chi tiết (detailed balance) Chuỗi Markov định nghĩa cho không gian rởi rạc (dàn lattice chẳng hạn) trở thành trình ngẫu nhiên (random walk) Gọi lattice dàn thiên lý hay, phải phân biệt với dàn nho Khái niệm coupling chuỗi Markov dịch cặp đôi Coupling from the past? Quá đơn giản, cặp từ khứ! Time-homogeneous Markov process gọi trình Markov đồng biến 3/14 Thuật ngữ sác xuất ngành thống kê học máy Nói đến trình ta thường nghĩ đến thời gian — cụ thể trình NN thường hiểu tập hợp hàm phân bố quán (consistent) liệt kê tham số thời gian Không thiết phải Mở rộng khái niệm tham số thời gian không gian (ví dụ không gian Euclidean, dàn, không gian phiEuclidean), ta có trình NN tổng quát Markov random fields gọi trường ngẫu nhiên Markov Gaussian random field trường ngẫu nhiên Gauss Poisson point process gọi trình điểm Poisson (lại trình, phải gọi trường Poisson mời phải!) Spatial process trình không gian (?) Spatiotemporal process gọi trình không-thời gian Khái niệm phase transition hay trường ngẫu nhiên Markov dàn vô hạn, ta dịch tượng chuyển pha Một dạng trình NN hay ho gọi empirical process (quá trình thực nghiệm) Thường nghiên cứu để tìm hiểu tính hiệu phương pháp suy diễn thống kê, thay dùng để mô tả trình ngẫu nhiên tự nhiên Sẽ nói mục sau Các khái niệm quan trọng khác: percolation, excursion, optional stopping Mô hình thống kê Căn Mô hình thống kê (statistical model) mô hình xác suất, sử dụng từ nguyên liệu phát triến cho hàm phân bố vá trình NN LTXS Cái khác mô hình thống kê có số biến ngẫu nhiên gán nhãn liệu (data), biến số ngẫu nhiên mà quan sát, thu thập giá trị thực nghiệm thiết bị công nghệ Cho nên trọng tâm việc xây dựng mô hình thống kê ước lượng (estimate) /học (learn) mô hình từ liệu, đánh giá tính hiệu (efficiency) tính phổ quát (generalization) mô hình, chọn mô hình hữu ích (model selection/model choice) Tham số Để kiểm soát độ phức tạp mô hình công cụ phải tham số hóa (parameterization) mô hình Các tham số (parameter) phần lại mô hình xác suất mà phải ước lượng, học Đến có vấn đề nho nhỏ, tham số giá trị không ngẫu nhiên, hay thân chúng ngẫu nhiên Có hai cách tiếp cận vấn đề này, trường phái tần suất giả dụ cách đẩu, trường phái Bayes giả dụ cách sau Nếu tham số có số chiều hữu hạn, ta có mô hình tham số (parametric model), số chiều vô hạn ta có mô hình phi tham số (nonparametric model) Như vậy, gọi phi tham số nghĩa tham số Nếu tham số ngẫu nhiên mà lại vô hạn chiều người ta gọi mô hình mô hình phi tham số Bayes 4/14 Thuật ngữ sác xuất ngành thống kê học máy (Bayesian nonparametric model) Điều nghĩa làm việc với mô hình dạng theo trường phái Bayes, thực tế phần lớn người phát triến mô hình phức tạp nói chung mô hình phi tham số Bayes nói riêng lại có nhãn quan Bayes Song không thiết phải Đầy đủ thông tin Một công cụ quan trọng việc tham số hóa khái niệm thống kê đầy đủ (sufficient statistics) Để hiểu khái niệm phải hiểu khái niệm thống kê Một thống kê hàm số áp dụng vào liệu (cộng trừ nhân chia kiểu được) Liên hệ với khmt thống kê đầu (output) giải thuật sử dụng liệu đầu vào Còn thống kê đầy đủ mô hình thống kê chứa đựng thông tin có từ liệu tham số mô hình Nghĩa vứt hết liệu đi, cần lại thống kê đầy đủ, không bị thông tin mô hình Đây có lẽ khái niệm đẹp đẽ toàn thống kê học Sau định thống kê đầy đủ người ta biết liệu phải mẫu hàm phân bố có cách tham số hóa định, qua định lý biểu diễn phân tích Fisher-Neyman (Fisher-Neyman factorization theorem) Nhắc thêm khái niệm thống kê đầy đủ khái niệm có tính lý thuyết thông tin (information-theoretic), phát biểu tính độc lập có điều kiện khái niệm entropy Một loạt mô hình đẹp động viên từ khái niệm cần đủ kiểu Mô hình họ mũ (exponential family) mô hình tạo liệu ngẫu nhiên được, thống kê đầy đủ cho Mô hình xác suất đồ thị (probabilistic graphical model) mô hình thỏa mãn ràng buộc độc lập có điều kiện cho biến ngẫu nhiên, theo định lý Hammersley-Clifford Nếu biến ngẫu nhiên giả dụ hoán chuyển được, chúng bắt buộc phải mô tả mô hình trộn/ mô hình hỗn hợp (mixture model), theo định lý tiếng de Finetti Nếu biến ngẫu nhiên có hàm phân bố không thay đổi kể bị biến đổi trực chuẩn (orthornomal transformation) chúng bắt buộc phải mô tả elliptically contoured distribution (phân bố có đường cong ê líp), kiểu Gauss đa biến Nhãn quan Bayes tần suất Các mô hình thống kê cho ta keo dính để gắn kết liệu với nhau, đối tượng trung tâm ngành thống kê Nhưng lịch sử đến tận bây giờ, mô hình trường phái Bayes chào đón nồng nhiệt trường phái tần suất, lệ thuộc vào mô hình thống kê làm cho người ta liên tưởng đến lệ thuộc vào tiên nghiệm (prior knowledge) nhiều, thiếu “khách quan” Đặc biệt trường phái Bayes có nhánh gọi Bayes chủ quan (subjective Bayes) Bayes khách quan Những người theo Bayes chủ quan cho rằng, ta có niềm tin chủ quan (subjective belief) định liệu, ta sử dụng mô hình xác suất tương ứng, định lý kiểu de Finetti Hammersley-Clifford kể Một 5/14 Thuật ngữ sác xuất ngành thống kê học máy mảng không nhỏ ngành thống kê học, thuộc trường phái suất, tập trung vào phương pháp mô hình tự (distribution free), qua không sử dụng mô hình xác suất cụ thể nào, họ có giả sử tộn hàm phân bố để tạo mẫu liệu cách độc lập Chú ý điều nghĩa nhà tần suất khách quan nhà Bayes chủ quan, giả dụ tính độc lập nói chung mạnh giả dụ tính độc lập điều kiện, hay tính hoán chuyển Cả hai cách nhìn Bayes tần suất hữu ích ngữ cảnh khác nhau, nhiều mặt phe hoàn toàn Cả hai cách nhìn chứa chất mâu thuẫn mình, có đối chọi nhau, có tương hỗ giống tranh âm-dương Kinh Dịch Ta tiếp tục soi lại quan hệ có dịp Phân lớp mô hình cụ thể cách tham số hóa Các mô hình thống kê giống sinh vật giới tự nhiên, đa dạng phân lớp, quan sát phức tạp tăng dần với trình phát triển ngành Trong ngành học máy số người gọi mô hình máy (machine), nghe công nghệ, đại mẻ Để mô tả mô hình cần phải nói cách tham số hóa chúng nào, nên cần nhiều khái niệm lexicon Tham số hóa vấn đề cơm nước mắm người học thống kê Với nhiều biến ngẫu nhiên, cần phải định joint distribution (phân bố liên hợp) Marginal distribution gọi ? Conditional distribution gọi phân bố điều kiện Covariates gọi đồng biến Trong công nghệ thường đầu vào Features thực đồng biến, xuất xứ từ học máy, gọi đặc trưng Trong họ mũ, có hai cách tham số hóa Natural parameterization gọi cách tham số hóa tự nhiên Canonical parameterization gọi tham số hóa tắc? Còn gọi tham số hóa trung bình (mean parameterization) Hai hệ tham số kể có liên hệ thiết với qua quan hệ đối ngẫu liên hợp (conjugate duality), khái niệm giải tích lồi (convex analysis) Trong hình học thông tin (information geometry) hai hệ tham số hiểu qua khái niệm e-flat manifold m-flat manifold (?) Normalizing constant gọi hắng số chuẩn hóa vật lý thống kê khái niệm gọi partition function — hàm ngăn phần Các mô hình thông dụng vật lý lý thuyết mô hình Ising, spin glass (?), trường hợp đặc biệt họ mũ Rất nhiều hàm phân bố trường hợp đặc biệt họ mũ Đặc biệt quan trọng multivariate Gaussian dịch Gauss đa biến Mean vector covariance matrix gọi vector trung bình ma trận hiệp phương sai Mô hình họ mũ lại trường hợp đặc biệt họ mô hình xác suất đồ thị (graphical model) Phân biệt graphical graph graphics thể đây? Để định nghĩa mô hình cần potential function (hàm tiềm năng), định nghĩa clique (?) biến ngẫu nhiên Có hai loại mô hình XSDT Một mô hình đồ thị vô hướng (undirected graphical model), đồng nghĩa với trường ngẫu nhiên Markov (Markov random 6/14 Thuật ngữ sác xuất ngành thống kê học máy fields) Một mô hình đồ thị có hướng (directed graphical model), gọi mạng Bayes (Bayesian network) Pearl Trong mạng Bayes có khái niệm nốt cha nốt Khái niệm moralization gọi lấy Một số trường hợp thông dụng mạng Bayes kể đến mô hình xác suất ĐT (tree-structured graphical model), mô hình đa (polytree) có lẽ gọi đa thích hợp, mô hình Markov ẩn (hidden Markov), mô hình lọc Kalman (Kalman filter), mài trơn Kalman (Kalman smoothing) … Latent/hidden variables gọi biến ẩn Naive Bayes tạm gọi Bayes thơ ngây, Bây ngô Mạng Bayes cho dạng liệu (sequential data) gọi dynamic Bayes net (?) Một số mô hình tham số khác phải kể đến: Mô hình hổi quy tuyến tính, mạng nơ ron (neural network), mô hình định (decision tree), mô hình hợp xướng (ensemble), mô hình hổi quy logit (logistic regression), mô hình tuyến tính tổng quát (generalized linear model), mô hình mạng tin, mạng tin sâu (deep belief net) v.v Những mô hình kiểu thường áp dụng vào vấn đề suy diễn cụ thể hơn, đặc biệt toán phân lớp (classification) hồi quy (regression) Có số cách phân loại nữa: Trong học máy mô hình dự hàm phân bố xác suất liên hợp thường gọi mô hình sinh mẫu (generative model), có số mô hình áp dụng cho đề liên quan đến xác suất điều kiện gọi mô hình phân biệt (discriminative model) Cái sau hay dùng cho kiểu suy diễn đặc biệt toán phân lớp, toán phân hạng, v.v Một mô hình bao gồm tham số có số chiều hữu hạn tham số có số chiều vô hạn thường gọi mô hình bán tham số (semiparametric model) Một ví dụ tiêu biểu mô hình hồi quy Cox (Cox regression model) toán phân tích sống sót phân tích kiện lịch sử (survival analysis/ event history analysis) Time to event data dịch liệu kiện Trong mô hình này, thành phần tham số hữu hạn gắn liền với đồng biến (covariates) quan tâm, thành phần tham số vô hạn cường độ tử vong/lỗi (baseline hazard intensity) Đôi họ mô hình bán tham số gộp chung vào họ mô hình phi tham số Họ mô hình phi tham số Bayes lấy từ trình ngẫu nhiên kể Infinite mixture model gọi mô hình trộn/ hỗn hợp vô hạn Có trình đậm chất ẩm thực: Quá trình nhà hàng Tàu (Chinese restaurant process), trình búp phê Ấn độ (Indian buffet process) Quá trình coelescence gọi gì? Với dân tần suất nhiều mô hình phi tham số tập hàm quen thuộc giải tích hàm Ví dụ lớp Sobolev (Sobolev class), lớp Besov, không gian Hilbert nhân tự sinh (reproducing kernel Hilbert space), lớp smoothing splines (?), v.v Dân Bayes luôn nói hàm phân bố (độ đo) cho hàm số kiểu Dân Bayes có việc phải tham số hóa tham số Theo cách nhìn Bayes, tham số ngẫu nhiên, phải giả dụ hàm phân bố khác Các tham số hàm hyperparameter (tham số tầng trên/ tham số thượng tầng?) Nếu 7/14 Thuật ngữ sác xuất ngành thống kê học máy người theo Bayes cuồng tín, tham số thượng tầng phải ngẫu nhiên… phải tiếp tục trình tham số đến tận Big Bang Điều dẫn đến họ mô hình đa tầng (hierarchical model/ multi-level model), mạnh giàu Tuy coi trường hợp mô hình XSDT, trọng tâm nguổn gốc khác, nên ta không nên gộp làm (Chú ý ta đến tận Big Bang, nên sau vài tầng hierarchy nhà thống kê Bayes mệt dửng lại Trên thực tế, vai trò tham số tầng cao không ý nhiều chuyện chi phối biểu mô hình nữa) Việc định cách tham số hóa tham số gọi định prior distribution (phân bố tiên nghiệm) cho tham số ngẫu nhiên Áp dụng công thức Bayes (Bayes rule) tính posterior distribution, dịch phân bố hậu nghiệm Conjugate prior gọi phân bố tiên nghiệm liên hợp Tham số hóa cho tham số hyper gọi định hyperprior (phân bố tiên nghiệm thượng tầng) Quyết định lựa chọn prior (sự định tiên nghiệm) phụ thuộc vào giằng co tiên nghiệm (prior knowledge), thực nghiệm từ liệu (empirical data), thuận tiện tính toán (computational convenience) Sử dụng phân bố tiên nghiệm liên hợp (phát âm đầy mồm!) ví dụ thuận tiện Sự giẳng co tiên nghiệm thực nghiệm chẳng qua thể dao cạo Occam, nhãn quan trường phái Bayes Dân tần suất không thích khái niệm tham số hyper chút nào, mà cho tham số phải không ngẫu nhiên Về mặt mô hình mà nói cách nhìn trói vô hình, theo quan điểm Bayes tham số kiểu coi ngẫu nhiên theo độ đo Dirac (độ đo nguyên tử – atomic measure), ràng buộc chặt không cần thiết Cho nên, lịch sử mô hình nhà tần suất thường không giàu có mô hình nhà Bayes Tuy không thiết phải Dao cạo Occam Như ông Gớt nói chân lý màu xám, đời mãi xanh tươi Thay chữ chân lý chữ mô hình, thay chữ đời chữ liệu quan sát được, ta có biên phản cho nhà thống kê Bác George Box có câu tiếng tương tự — mô hình sai, có mô hình hữu ích hay không Cho nên ta phải nhìn nhận mô hình cách xấp xỉ giới thực nghiệm Vì sai số ước lượng (estimation error) tham số, có dạng sai số gọi sai số xấp xỉ (approximation error) Mô hình dùng ngôn ngữ thống kê cấu trúc toán học (như trình stochastic) làm viên gạch, lại ước lượng, điều chỉnh (update), đánh giá, phân tích liệu thật Công cụ toán học mạnh tính phức tạp mô hình (model complexity) lớn, dẫn đến khả biểu diễn mô hình lớn, sai số xấp xỉ nhỏ, song việc ước lượng (estimation) từ liệu lớn lên Đây giằng co (tradeoff ) sai số xấp xỉ sai số ước lượng Hiện tượng gọi dao cạo Occam (Occam’s razor), luôn ám ảnh xuyên suốt định việc thiết kế đánh giá mô hình học Sợ mô hình overfit liệu (quá rộng) Một đánh giá khách quan hiệu tích hữu ích 8/14 Thuật ngữ sác xuất ngành thống kê học máy mô hình tính dự báo nó, nói chung lỗi dự báo thường chặn hai dạng sai số nói Liên quan đến khái niệm xấp xỉ: Model misspecification gọi định mô hình không chuẩn Khái niệm model identifiability gọi tính khả nhận diện mô hình Parameter identifiability tính khả nhận diện tham số Tóm tắt: joint probability, marginal probability, conditional probability, model identifiability, model mis-specification, model choice, model selection, parameter identifiability, consistency, parametric model, nonparametric, exponential family, curved exponential family, graphical model, hierarchical model, mixture model, hidden markov model, copula model, latent/hidden variables, nonparametric Bayesian model, density, intensity measure, analysis of variance, functional data, curve data, prior distribution, posterior distribution, a priori, a posteriori, sufficient statistics, order statistics, mean parameterization, canonical parameterization, normalizing constant, log-partition function, mean function, covariance function, covariates, features, conjugate prior, conjugacy Các phương pháp suy diễn thống kê Tổng quan Cần phân biệt suy diễn thống kê (statistical inference) với suy diễn xác suất (probabilistic inference) Cái sau tính toán xác suất điều kiện sở mô hình xác suất Còn SDTK suy diễn sở mô hình thống kê với diện số liệu Có hai vấn đề chính, suy diễn tham số, hay gọi ước lượng tham số (parameter estimation), dự báo (prediction) Với nhãn quan Bayes suy diễn thống kê gọi suy diễn Bayes, mặt toán học không khác suy diễn xác suất tham số liệu mô tả biến ngẫu nhiên Cho nên mặt khái niệm đơn giản, mẫu mực Với nhãn quan suất cách tiếp cận đến vấn đề suy diễn thống kê khó khăn mặt khái niệm, đòi hỏi cách tiếp cận không mẫu mực Trong học máy vấn đề ước lượng tham số gọi học Nếu vấn đề xác định mô hình quan điểm Bayes quan điểm tần suất có tính tương hỗ (ví dụ, anh Bây nói với với anh Tần: Tôi mệt rồi, cho phép tham số hyper không ngẫu nhiên nhá — anh Tần nói với anh Bây: Cho gọi tham số anh biến ẩn nhá), vấn đề suy diễn, hai quan điểm xung khắc liệt bất phân thắng bại Quan điểm Bây là: vấn đề ước lượng tham số suy diễn điều kiện vào liệu có sẵn (conditioning on data), “marginalize out/ integrate out” (?) tham số ngẫu nhiên việc dự báo Quan điểm Tần là: đồi với vấn đề ước lượng tham số phải suy diễn cho liệu tưởng tượng (imaginary data, dùng ước lượng “plug-in” (?) việc dự báo Tiêu chuẩn Bây lạc quan, quan tâm nhiều đến phân tích trường hợp trung bình (average-case analysis) Tiêu chuẩn Tần bi quan, trọng nhiều đến phân tích tình 9/14 Thuật ngữ sác xuất ngành thống kê học máy xấu (worst-case analysis) Đây hai thái cực thấy khác biệt Trên thực tế kết hợp hai cách tiếp cận việc suy diễn từ liệu Có số vấn đề suy diễn cụ thể hơn, có số lexicon riêng: Point estimation gọi ước lượng điểm (một khái niệm TK Tần) Hypothesis testing gọi kiểm định lý thuyết (phép thử lý thuyết?) Classification gọi vấn đề phân lớp Clustering gọi vấn đề chia nhóm Bài toán ranking học máy gọi vấn đề phân hạng Supervised learning gọi học có nhãn, học có hướng dẫn Unsupervised learning gọi học không nhãn (học hướng dẫn, học không thầy) Sequential analysis gọi phân tích chuỗi/ phân tích (?), mà cụ thể có toán optimal stopping dịch toán dừng tối ưu Survival analysis gọi phân tích sống sót (?) Vấn đề change point detection gọi toán phát điểm thay đổi Chú ý tất đề suy diễn cụ thể hiểu tổng quát theo hai vấn đề suy diễn (ước lượng tham số, dự báo), tiếp cận theo cách nhìn Tần hay Bây, điểu chỉnh chút cách đánh giá suy diễn Lý thuyết định Nền tảng lý thuyết suy diễn thống kê lý thuyết định Abraham Wald Cần khái niệm rủi ro (risk) Rủi ro Bayes Bayes risk Rủi ro kỳ vọng hàm thiệt hại/tổn thất/thiệt/mất (loss function) Dân kinh tế dùng hàm utility (hàm tiện ích/ thỏa dụng) thay dùng hàm thiệt hại Một khái niệm tương tự hàm reward (?) môn học reinforcement learning(?), trình định Markov Lý thuyết định ô chung cho hai trường phái Bây Tần, với dân Tần có nhiều việc phải lo Estimator dịch cách ước lượng cho tham số, hàm số áp dụng vào liệu Như giống thống kê, coi thống kê cách ước lượng thô sơ Estimate ước lượng cụ thể cho tham số Trong toán phân lớp estimator gọi learning machine (máy học), estimate hàm số phân lớp (classifier) Trong vấn đề kiểm định lý thuyết (hypothesis testing) phải ước lượng hàm số định (decision function) Dù theo nhãn quan cần tìm ước lượng theo tiêu chuẩn có giá trị rủi ro tối thiểu (minimum risk criterion) Nhưng rủi ro anh Bây khác với anh Tần Kỳ vọng tần suất (frequentist expectation) kỳ vọng hàm phân bố liệu (ảo tưởng) sở mô hình với tham số có sẵn Kỳ vọng Bayes giá trị kỳ vọng hàm phân bố điều kiện tham số sở liệu có sẵn Nói cách khác, với anh Tần liệu ngẫu nhiên, với anh Bây tham số ngẫu nhiên Nếu lấy kỳ vọng kỳ vọng tần suất phân bố tham số, lấy kỳ vọng kỳ vọng Bayes phân bố liệu ta nhận Rủi ro Bayes! Một số hàm thiệt hại thông dụng: Hàm thiệt 0-1 Khi Rủi ro Bayes gọi Lỗi Bayes (Bayes error) Hàm thiệt bình phương (square loss) Hàm thiệt mũ (exponential loss) 10/14 Thuật ngữ sác xuất ngành thống kê học máy Hàm thiệt logit (logistic loss) Surrogate loss dịch hàm thiệt chỗ (?) Để so sánh cách ước lượng (estimator) khác người ta dùng tiêu chuẩn Bayes (thông qua việc so sánh Rủi ro Bayes) Dân tần suất hay dùng tiêu chuẩn minimax, mượn từ lý thuyết trò chơi (mà chơi nhà thống kê Trời — Ông Trời biết chân lý (mô hình gì, ông trời lần tay nhả mẫu liệu) Cần số phẩm chất cho cách ước lượng, khái niệm unbiasedness (?), admissibility (?), consistency (nhất quán), invariance (bất biến phương sai), efficiency (hiệu quả), superefficiency (siêu hiệu quả) Dân Bayes chủ quan không quan tâm đến chuẩn này, họ có niềm tin son sắt vào tiên nghiệm rồi, suy diễn Bayes cách tính phân bố hậu nghiệm xong Tuy phương pháp suy diễn Bayes chủ quan có nhiều tính chất lý thuyết tốt Suy diễn dựa sở phân bố hậu nghiệm chứng minh tối ưu theo tiêu chuẩn Rủi ro Bayes Dân Bayes khách quan không tự tin dân Bayes chủ quan, nên họ muốn phân bố tiên nghiệm phải có phẩm chất tốt Tính quán hậu nghiệm (posterior consistency) phẩm chất quan trọng Các cách ước lượng/học thống kê Tôi đặt vài viên gạch Khi rỗi viết Bạn có nhã hứng đóng góp paragraph vào mục sau (hoặc mục chưa ghi) xin cho biết Ước lượng hay học sở họ mô hình định sẵn Còn vấn đề khó chọn mô hình (model selection), so sánh mô hình, đặc biệt mô hình có độ phức tạp khác hẳn Kiểm định giả thuyết dạng đặc biệt lựa chọn mô hình, song hiểu gọn phạm vi ước lượng Empirical risk minimization Rủi ro định nghĩa sở hàm phân bố mô hình (chân lý — có Trời biết) Chỉ tiếp cận đến mô hình thông qua trình thực nghiệm (empirical process) Nói cách khác, rủi ro phải ước lượng bẳng rủi ro thực nghiệm (empirical risk) Hầu hết cách ước lượng phe Tần suất dạng tính rủi ro thực nghiệm cực tiểu (empirical risk minimization (ERM)) Một lexicon đồng nghĩa M-estimation (ước lượng M), M có nghĩa maximization minimization Cách ước lượng dựa vào moment (moment-based estimation/ moment matching) thực động viên liên hệ với cách ước lượng rủi ro thực nghiệm cực đại Một vấn đề đau đầu cho cách ước lượng rủi ro cực tiểu phải chọn hàm gì? Có số tên riêng: Nếu hàm hàm bình phương, ta có phương pháp bình phương cực tiểu (least square) thông dụng hồi quy Maximum likelihood nguyên tắc likelihood Nếu mô hình thống kê định hàm phân bố cho liệu, ta có khái niệm likelihood (khả năng?) Đây hàm số tham số, lại ngẫu nhiên định nghĩa sở liệu ngẫu nhiên Likelihood ví dụ tiêu biểu (nhất) rủi ro thực nghiệm Hàm tương ứng hàm logarithm mật độ Maximum likelihood dịch cách ước lượng khả cực đại (?), phát kiến vĩ đại Ronald Fisher Đây cách ước 11/14 Thuật ngữ sác xuất ngành thống kê học máy lượng thông dụng, đa bậc ngành thống kê (ít với nhãn quan tần suất) Với mô hình tham số cách ước lượng đảm bảo tính quán (consistency) — mô hình ước lượng xác số liệu tiến đến vô hạn Tại hàm lại hàm logarithm mật độ mà hàm số khác? Đây ví dụ diệu kỳ bất ngờ toán học — câu trả lởi truy khái niệm độc lập, khái niệm tập trung độ đo xác suất, tính lồi giải tích (và hình học) Nguyên tắc khả (likelihood principle) cho rẳng hàm khả thống kê đầy đủ (sufficient statistics) Nguyên tắc phá sản ngữ cảnh phi tham số Regularization/Penalization/Shrinkage Với ước lượng mô hình phi tham số dựa vào liệu (thông qua hàm khả (likelihood) tổng quát hơn, hàm rủi ro thực nghiệm) không đủ Cần phải có điều chỉnh việc lấy cực đại/cực tiểu thông qua khái niệm regularization (kiểm soát), gọi penalization (soát phạt) Regularized empirical risk gọi rủi ro thực nghiệm có kiểm soát Khái niệm kiểm soát, soát phạt bắt nguổn từ phát bất ngờ Charles Stein shrinkage estimator (cách ước lượng co) Cho nên nhiều người ta gọi nhóm ước lượng ước lượng co Để dùng số lượng liệu hữu hạn mà ước lượng đại lượng (tham số) vô hạn có số chiều đủ lớn (cho dù số liệu có lớn đến đâu tiến dần đến vô hạn nữa) phải có kiểm soát ước lượng, dựa hoàn toàn vào liệu thực nghiệm Theo nhãn quan Bayes điều giằng co thực nghiệm tiên nghiệm Co (shrinkage) co tiên nghiệm Phương pháp phân tích hậu nghiệm/ học Bayes Phương pháp phân tích hậu nghiệm (a posteriori analysis), cụ thể cách suy diễn hậu nghiệm (posterior inference), suy diễn Bayes (Bayesian inference), học Bayes (Bayesian learning),… mô tả cách ước lượng theo trường phái Bayes Đó thay người ta ước lượng tham số (không ngẫu nhiên) trường phái tần suất, người ta tính hàm phân bố hậu nghiệm cho tham số thông qua công thức Bayes Cách mẫu mực — phần việc định phân bố tiên nghiệm sao, tính toán phân bố hậu nghiệm (vì phải tính tích phân phức tạp mặt tính toán) Chú ý cách ước lượng maximum likelihood chẳng qua tính mốt (mode) phân bố hậu nghiệm, phân bố tiên nghiệm chọn phân bố (uniform distribution) Trong phân tích Bayes, đặc biệt với mô hình tham số, lo lắng việc kiểm soát (regularization) Nhưng phân bố tiên nghiệm trình ngẫu nhiên (trong mô hình phi tham số) phải lo lắng chuyện kiểm soát tính phức tạp tiên nghiệm (complexity of prior distribution) Một công cụ sensitivity analysis (phân tích tính nhạy cảm) phân bố cho tham số Phương pháp Bayes thực nghiệm (empirical Bayes) Phương pháp xem cách ước lượng tần suất cho mô hình đa tầng Mô hình đa tầng công cụ lý tưởng việc kiểm soát độ phức tạp mô hình cho tham số 12/14 Thuật ngữ sác xuất ngành thống kê học máy Các vấn để suy diễn cụ thể Hypothesis testing Trong kiểm định giả thuyết có số khái niệm quan trọng: Null hypothesis gọi ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại (type-1 error) lỗi loại hai (type-2 error) Còn gọi tỷ lệ lỗi dương tính (false positive) lỗi âm tính (false negative) đánh giá treatment (?) y học Trong công nghệ type-1 error gọi false alarm error rate (?), type-2 error misdetection error rate (?) Tất loại rỗi hàm rủi ro hàm thiệt 0-1 Cách ước lượng kiểm định giả thuyết gọi hàm định Và người ta sử dụng hàm định thực phép thử (test) cho giả thuyết Một phép thử đánh giá thông qua bảo đạm giới hạn lỗi kể Sự giẳng co lỗi loại loại hai biểu diễn bẳng ROC curve (đường cong ROC) Các khái niệm liên hệ có significance (?) Confidence interval dịch ? p-value dịch giá trị p Power phép thử gọi sức mạnh Nếu có hai giả thuyết đẻ so sánh hàm định tối ưu phải dựa vào likelihood ratio (phân số khả năng) Likelihood ratio test gọi phép thử dựa vào phân số khả Công cụ để đánh giá sức mạnh phép thử thống kê giới hạn (asymptotic statistics) Kiểm định giả thuyết xuất phát từ thống kê suất, công Neyman Pearson Khái niệm phản trực quan, phải đợi đến Wald thống cách suy diễn với cách hình thức suy diễn kiểu khác thống kê Nếu tiếp cận theo nhãn quan Bayes KDGT đơn giản, không khác việc ước lượng mô hình bao Cần khái niệm phân bố tiên nghiệm cho giả thuyết Khái niệm Bayes factor dịch ? Sequential analysis Trong phân tích (sequential analysis) có giẳng co lỗi Bayes thời gian trễ (delay time) định giả thuyết Khái niệm thử thông dụng sequential likelihood ratio test (phép thử dựa theo chuỗi phân số khả năng) Công cụ lý thuyết đẻ đánh giá sức mạnh phép thử phân tích thời gian dừng, phân tích loại thời điểm vượt biên, v.v lý thuyết xác suất trình Markov Classification/regression/ranking Trong toán phân lớp người ta gọi cách ước lượng để phân lớp máy học (learning machine) Tham số cần ước lượng gọi hàm phân loại (classifier) Có thể tiếp cận vấn đề sở mô hình tham số mô hình phi tham số Để học máy (mô hình) thường đòi hỏi nhiều tính toán, thống kê đơn giản kiểm định giả thuyết cổ điển Cho nên dẫn đến quan tâm vấn đề hiệu giải thuật học/ ước lượng Cách học/ ước lượng, mặt tính toán, có lexicon riêng training (việc luyện máy) Dữ liệu cần cho việc huấn luyện gọi liệu huấn luyện (training data) Phép thử hàm phân loại với liệu gọi testing Dữ liệu thử test data Nếu có hai lớp để phân loại hàm phân loại tối ưu phải dựa vào likelihood ratio, giống kiểm định giả thuyết Một khác biệt toán phân lớp với toán kiểm định lý thuyết chỗ này: Cái đầu phải thử giả thuyết cho mẫu Cái sau 13/14 Thuật ngữ sác xuất ngành thống kê học máy phải thử giả thuyết lần cho đám đông Có nhiều phương pháp phân lớp, với mô hình tham số phi tham số, giải thuật học/ước lượng phong phú Kinh điển có linear discriminant analysis (phân tích phân biệt tuyến tính), logistic regression (hồi quy logit) Hiện đại có mạng nơ ron (neural network), radiant basis network (?), support vector machines (?),… Bài toán hồi quy (regression analysis) tương tự toán phân lớp, khác cần phải ước lượng/học phương trình hồi quy (thay hàm phân loại) Hàm phân loại có giá trị rởi rạc, phương trình hồi quy thường tính giá trị liên tục Bài toán phân cấp gần giống toán phân loại chỗ hàm phân loại có giá trị rời rạc (và nhị phân), liệu huấn luyện mẫu so sánh cấp nhãn lớp (cấp) 14/14 [...]... lớp với bài toán kiểm định lý thuyết là chỗ này: Cái đầu phải thử giả thuyết cho từng mẫu một Cái sau 13/14 Thuật ngữ sác xuất ngành thống kê và học máy chỉ phải thử giả thuyết một lần cho cả đám đông Có rất nhiều phương pháp phân lớp, với các mô hình tham số và phi tham số, và các giải thuật học/ ước lượng rất phong phú Kinh điển thì có linear discriminant analysis (phân tích phân biệt tuyến tính),... là hàm logarithm của mật độ Maximum likelihood dịch là cách ước lượng khả năng cực đại (?), một phát kiến vĩ đại của Ronald Fisher Đây là cách ước 11/14 Thuật ngữ sác xuất ngành thống kê và học máy lượng thông dụng, đa năng bậc nhất trong ngành thống kê (ít nhất là với nhãn quan tần suất) Với các mô hình tham số thì cách ước lượng này được đảm bảo bởi tính nhất quán (consistency) — mô hình sẽ được ước.. .Thuật ngữ sác xuất ngành thống kê và học máy Hàm thiệt logit (logistic loss) Surrogate loss sẽ được dịch là hàm thiệt thế chỗ (?) Để so sánh các cách ước lượng (estimator) khác nhau người ta có thể dùng tiêu chuẩn Bayes (thông qua việc so sánh Rủi ro Bayes) Dân tần suất sẽ hay dùng tiêu chuẩn minimax, mượn từ lý thuyết trò chơi (mà cuộc chơi ở đây là giữa nhà thống kê và Trời — chỉ Ông... tạp của các mô hình cho tham số 12/14 Thuật ngữ sác xuất ngành thống kê và học máy Các vấn để suy diễn cụ thể hơn Hypothesis testing Trong kiểm định giả thuyết có một số khái niệm quan trọng: Null hypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error) và lỗi loại hai (type-2 error) Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âm tính (false negative) trong... vào phân số khả năng Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn (asymptotic statistics) Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễn này với cách hình thức suy diễn kiểu khác trong thống kê Nếu tiếp cận theo nhãn quan Bayes thì KDGT khá là đơn giản, không... một máy học (learning machine) Tham số cần ước lượng ở đây gọi là một hàm phân loại (classifier) Có thể tiếp cận vấn đề này trên cơ sở mô hình tham số hoặc mô hình phi tham số Để học được máy (mô hình) thường đòi hỏi nhiều tính toán, chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng Cách học/ ... của toán học — câu trả lởi truy ra khái niệm độc lập, khái niệm tập trung của độ đo trong xác suất, và tính lồi trong giải tích (và hình học) Nguyên tắc khả năng (likelihood principle) cho rẳng hàm khả năng là một thống kê đầy đủ (sufficient statistics) Nguyên tắc này phá sản trong ngữ cảnh phi tham số Regularization/Penalization/Shrinkage Với sự ước lượng các mô hình phi tham số thì chỉ dựa vào dữ liệu... phẩm chất tốt Tính nhất quán hậu nghiệm (posterior consistency) là một phẩm chất quan trọng Các cách ước lượng /học thống kê Tôi đặt vài viên gạch ở đây Khi nào rỗi sẽ viết dần dần Bạn nào có nhã hứng đóng góp từng paragraph vào các mục sau (hoặc các mục chưa ghi) xin cho biết Ước lượng hay học ở đây vẫn trên cơ sở một họ mô hình định sẵn Còn vấn đề khó hơn là chọn mô hình (model selection), so sánh... chiều đủ lớn (cho dù số dữ liệu có lớn đến đâu và tiến dần đến vô hạn đi chăng nữa) thì vẫn phải có sự kiểm soát trong ước lượng, và không thể dựa hoàn toàn vào dữ liệu thực nghiệm được Theo nhãn quan Bayes thì điều này chính là sự giằng co giữa thực nghiệm và tiên nghiệm Co (shrinkage) ở đây chính là co về tiên nghiệm Phương pháp phân tích hậu nghiệm/ học Bayes Phương pháp phân tích hậu nghiệm (a posteriori... hình đúng là gì, và ông trời mỗi lần ra tay sẽ nhả ra một mẫu dữ liệu) Cần một số phẩm chất cho các cách ước lượng, như khái niệm unbiasedness (?), admissibility (?), consistency (nhất quán), invariance (bất biến phương sai), efficiency (hiệu quả), superefficiency (siêu hiệu quả) Dân Bayes chủ quan không quan tâm đến mấy cái chuẩn này, vì họ đã có niềm tin son sắt vào tiên nghiệm rồi, và suy diễn Bayes ... Finetti Hammersley-Clifford kể Một 5/14 Thuật ngữ sác xuất ngành thống kê học máy mảng không nhỏ ngành thống kê học, thuộc trường phái suất, tập trung vào phương pháp mô hình tự (distribution... đại (?), phát kiến vĩ đại Ronald Fisher Đây cách ước 11/14 Thuật ngữ sác xuất ngành thống kê học máy lượng thông dụng, đa bậc ngành thống kê (ít với nhãn quan tần suất) Với mô hình tham số cách... định việc thiết kế đánh giá mô hình học Sợ mô hình overfit liệu (quá rộng) Một đánh giá khách quan hiệu tích hữu ích 8/14 Thuật ngữ sác xuất ngành thống kê học máy mô hình tính dự báo nó, nói chung