phương pháp thống kê cho ví dụ về bộ phân lớp theo phương pháp thống kê

BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THÔNG TIN TRÍ TUỆ NHÂN TẠO Lớp: CHKHMT – TPHCM23A1 PHƢƠNG PHÁP HỌC THỐNG KÊ, CHO VÍ DỤ VỀ BỘ PHÂN LỚP THEO PHƢƠNG PHÁP THỐNG KÊ GVHD: TS. Ngô Hữu Phúc Học Viên: Đặng Quang Vinh TP. Hồ Chí Minh, tháng 07 năm 2012 Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 1 MỤC LỤC PHƢƠNG PHÁP HỌC THỐNG KÊ (STATISTICAL LEARNING METHODS) 3 I. GIỚI THIỆU: 3 1. Sự không chắc chắn: 3 2. Nguồn gốc của sự không chắc chắn: 3 3. Cách tiếp cận thống kê đối với tính không chắc chắn [1] 3 II. TIẾP CẬN THỐNG KÊ ĐỐI VỚI TÍNH KHÔNG CHẮC CHẮN 5 1. BAYESIAN LEARNING 5 1.1 Phép xấp xỉ MAP (Maximum a posteriori): [3] 8 1.2 Phƣơng pháp hợp lý cực đại ML (Maximum likelihood) [3] 8 1.3 Phƣơng pháp thông số ML trong lƣới Bayes. [3] 9 1.4 Thông số bội [3] 10 2. MẠNG NƠRON (NEURAL NETWORK) [5] 12 2.1 Giải thuật mạng Nơron 12 Mô hình minh họa mạng nơron một lớp: 14 Mô hình minh họa mạng nơron tổng hợp (nhiều lớp): 15 Một ví dụ mạng lan truyền: 15 2.2 Đánh giá: 17 VÍ DỤ VỀ BỘ PHÂN LỚP THEO PHƢƠNG PHÁP THỐNG KÊ 18 1. Phân lớp là gì? [4] 18 2. Phân lớp - Tiến trình hai bƣớc [4] 18 3. Đánh giá các phƣơng pháp phân lớp 19 4. Phân lớp Bayes: Tại sao? 19 5. Phân lớp Naïve Bayesian 20 ỨNG DỤNG PHÂN LỚN NAIVE BAYES ĐỂ PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN [5] 23 1. Hệ thống chƣơng trình 23 2. Quy trình thực hiện: 24 2.1 Cơ sở dữ liệu lƣu trữ thông điệp 25 2.2 Xây dựng website diễn đàn thảo luận: 29 2.3 Quá trình trích chọn đặc trƣng thông điệp 30 2.3.1 Sửa tiếng Việt không dấu 30 2.3.2 Loại bỏ các thẻ HTML 31 2.3.3 Loại bỏ các phụ từ 31 2.3.4 Chuyển mã văn bản 31 2.3.5 Tách từ và gán nhãn từ loại 31 2.3.6 Trích danh từ, cụm danh từ làm đặc trƣng (có xem xét nghĩa của từ) 31 Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 2 2.4 Xây dựng bộ phân lớp văn bản Naive Bayes 32 TÀI LIỆU THAM KHẢO 38 Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 3 PHƢƠNG PHÁP HỌC THỐNG KÊ (STATISTICAL LEARNING METHODS) I. GIỚI THIỆU: 1. Sự không chắc chắn: Tri thức của con ngƣời trong nhiều lĩnh vực là không chắc chắn. Ví dụ: - Trong các games chơi bài: Đối thủ nào đó đang nắm giữ quân 2 cơ -> không chắc. - Trong các hệ chuẩn đoán y khoa: Một số triệu chứng nào đó xảy ra thì chƣa hẳn 100% bệnh nhân bị bệnh X nào đó. 2. Nguồn gốc của sự không chắc chắn: - Thông tin không đầy đủ: o Ta không thể biết hết mọi thứ. o Ta có thể không muốn đợi. - Nhập nhằng: o Sự việc có thể đƣợc diễn tả trong nhiều (hơn một) cách. - Sự không chính xác: o Sai số của Con ngƣời/Thiết bị. - Các luật thƣờng là các heuristic đƣợc các chuyên gia sử dụng trong một tình huống nào đó: o Không hoàn hảo! o Các luật đƣợc học hoặc đƣợc viết không chính xác. 3. Cách tiếp cận thống kê đối với tính không chắc chắn [1] Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 4 - Rút ra những kết luận tốt từ những bằng chứng đƣợc xác định nghèo nàn và không chắc chắn thông qua việc sử dụng những luật suy diễn không vững chắc không phải là một nhiệm vụ không thể thực hiện đƣợc; chúng ta thực hiện chúng rất thành công trong hầu hết mọi khía cạnh của cuộc sống chúng ta. Chúng ta phát biểu những chuẩn đón y học đúng đắn và đề xuất cách điều trị từ những triệu chứng không rõ ràng; chúng ta phân tích những trục trặc của những chiếc xe hơi hay máy stereo của chúng ta, … - Bằng cách sử dụng phƣơng pháp xác xuất và lý thuyết quyết định, nhƣng trƣớc tiên phải học lý thuyết xác suất từ kinh nghiệm của thế giới. - Sử dụng lý thuyết xác suất, chúng ta thƣờng có thể xác định đƣợc, từ một tập lập luận biết trƣớc, cơ hội xuất hiện của những sự kiện. Chúng ta cũng có thể mô tả những tổ hợp của các sự kiện ảnh hƣởng đến nhau nhƣ thế nào. - Có nhiều tình huống thích hợp với sự phân tích xác suất. Trƣớc hết, là khi mà thế giới thực sự có tính chất ngẫu nhiên, nhƣ trong khi chơi một ván bài với các quân bài đƣợc trộn đều, hoặc khi quay một bánh xe rulet. Ví dụ, trong trò chơi bài, quân bài tiếp theo đƣợc chia là một hàm của bộ bài (pinochle, poker) và các quân bài hoàn toàn đƣợc nhìn thấy. Một tình huống khác cho lý thuyết xác suất là mô tả thế giới “bình thƣờng”. Mặc dù các sự kiện trong thế giới có thể không thật sự ngẫu nhiên, thông thƣờng không thể biết và đo đƣợc đầy đủ tất cả các nguyên nhân và những tƣơng tác giữa chúng để dự đoán các sự kiện. Những tương quan thống kê là một thay thế tốt cho kiểu phân tích nhân quả này. Một công dụng nữa của xác suất là dự đoán những ngoại lệ có thể xảy ra đối với những quan hệ chung. Phƣơng pháp thống kê nhóm tất cả các ngoại lệ vào trong một quan hệ rồi sau đó sử dụng số liệu này để cho biết một ngoại lệ của bất kỳ kiểu nào có thể xuất hiện với mức độ trông đợi nhƣ thế nào. Một vai trò quan trọng khác của thống kê là làm cơ sở cho phép quy nạp và học. Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 5 II. TIẾP CẬN THỐNG KÊ ĐỐI VỚI TÍNH KHÔNG CHẮC CHẮN 1. BAYESIAN LEARNING Xét qua một ví dụ rất đơn giản: [2] Giả sử có năm loại túi bánh kẹo có hai hƣơng vị là anh đào và chanh. Các nhà sản xuất kẹo có một ý tƣởng đặc biệt hài hƣớc, bọc mỗi viên kẹo trong một tờ giấy đục, bất kể hƣơng vị của nó là gì. Kẹo bỏ trong các túi rất lớn, không thể phân biệt từ bên ngoài: h1: 100% anh đào h2: 75% anh đào + 25% chanh h3: 50% anh đào + 50% chanh h4: 25% anh đào + 75% chanh h5: 100% chanh Với một chiếc túi mới, biến ngẫu nhiên H (giả định) biểu thị loại túi, với giá trị có thể chạy từ h1 đến h5. Đƣơng nhiên H không thể nhìn thấy một cách trực tiếp. Khi những viên kẹo đƣợc mở ra và kiểm tra, giá trị đƣợc thể hiện là D1, D2, Dn, trong đó Di là một biến ngẫu nhiên với giá trị có thể là anh đào và chanh. Nhiệm vụ chính là làm sao có thể dự đoán đƣợc mùi vị của viên kẹo kế tiếp. Tuy đơn giản nhƣng ví dụ này đƣợc dùng để giới thiệu nhiều vấn đề chính. Thực sự cần để suy luận ra nguyên tắc mặc dù khá đơn giản. Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 6 Phƣơng pháp Bayesian đơn giản tính toán khả năng của từng giả định, dữ liệu đƣợc đƣa ra và đƣa ra sự dự đoán dựa trên căn cứ đó. Những dự đoán đƣợc thực hiện bằng cách sử dụng tất cả những giả định, cân nhắc những khả năng có thể xảy ra hơn là chỉ sử dụng một giả định đơn “ tốt nhất”. Cho D đại diện cho tất cả những giá trị, với giá trị có thể quan sát đƣợc d, khi đó khả năng của từng giả định đƣợc tính toán theo nguyên tắc Bayes: Bây giờ, giả định chúng ta muốn dự đoán về giá trị chƣa biết X, sau đó chúng ta có công thức, giả định rằng mỗi giả định quyết định một sự phân phối khả năng X. Phƣơng trình này cho thấy những dự đoán đƣợc đƣa ra bằng cách tính toán trung bình những dự đoán của những giả định đơn. Những giả định chính bản thân nó là “những ngƣời trung gian” cần thiết giữa những dữ liệu thô và những dự đoán. Những số lƣợng quan trọng trong cách tiếp cận Bayes là những giả thuyết trƣớc, P (hi), và khả năng của các dữ liệu theo từng giả thuyết, P (d \ hi). Với ví dụ về viên kẹo ở trên, chúng ta sẽ giả định là sự phân phối trƣớc từ h1, , h5 đƣợc cho bởi (0.1,0.2,0.4,0.2,0.1), nhƣ đƣợc quảng cáo bởi các nhà sản xuất. Tính đúng của dữ liệu đƣợc tính toán dựa trên giả định là những quan sát là i.i.d- đƣợc phân phối một cách độc lập và giống nhau, do đó Ví dụ, giả định đó là chiếc túi đựng toàn những viên kẹo chanh và 10 viên kẹo đầu tiên đều là kẹo chanh, khi đó P(d\hs) là 0.5 10 , bởi vì một nữa những viên kẹo trong 1 chiếc túi h3 là kẹo chanh. Hình 20.1(a) thể hiện cách những khả năng của Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 7 5 giả định sau thay đổi nhƣ một hệ quả của 10 viên kẹo chanh đầu tiên đã đƣợc quan sát. Ghi nhận những khả năng bắt đầu ở những giá trị trƣớc của chúng, do đó h3 là sự lựa chọn đầu tiên và tiếp tục duy trì sau khi viên kẹo chanh thứ nhất đƣợc bóc vỏ. Sau khi viên kẹo chanh thứ 2 đƣợc bóc vỏ, h4 là chủ yếu, từ viên thứ 3 thì h5 là chủ yếu. Sau khi kiểm tra 10 viên kẹo, chúng ta có thể phần nào chắc chắn về dự đoán của mình. Hình 1(b) cho thấy giá trị đƣợc dự đoán là viên kẹo tiếp theo là kẹo chanh, dựa trên phƣơng trình . Nhƣ chúng ta kì vọng, nó sẽ tăng đơn điệu đến 1. Ví dụ trên cho thấy giả định đúng thậm chí lấn át cả sự dự đoán Bayesian. Đó là đặc trƣng của phƣơng pháp Bayesian. Hình 1(a) Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 8 Hình 1(b) 1.1 Phép xấp xỉ MAP (Maximum a posteriori): [3] Tổng hợp trên không gian giả thuyết là thƣờng rất khó. Phƣơng pháp MAP: chọn hMAP tối đa hóa P(hi|d) Tức, tối đa hóa P(d|hi)P(hi) hoặc log P(d|hi) + log P(hi) Những thuật ngữ Log có thể xem nhƣ những bit để mã hóa dữ liệu những giả định đƣợc đƣa ra + những bit để mã hóa giả định. Đó là ý tƣởng cơ bản phƣơng pháp MDL (minimum description length). Đối với các giả thuyết tất định, P (d | hi) là 1 nếu phù hợp, 0 nếu ngƣợc lại  MAP = giả thuyết phù hợp đơn giản nhất. 1.2 Phƣơng pháp hợp lý cực đại ML (Maximum likelihood) [3] Với những tổ hợp dữ liệu lớn, xác suất trƣớc trở nên không phù hợp. Phƣơng pháp hợp lý cực đại (ML): chọn HML tối đa hóa P (d | hi). Nghĩa là, đơn Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 9 giả lấy giá trị tốt nhất sự phù hợp với dữ liệu; giống với phƣơng pháp MAP đồng nhất prior. (điều đó là hợp lý nếu tất cả các giả thuyết là phức tạp nhƣ nhau.) ML là một phƣơng pháp học thống kê "tiêu chuẩn"(non-Bayesian). 1.3 Phƣơng pháp thông số ML trong lƣới Bayes. [3] Chiếc túi từ một nhà sản xuất mới, thành phần θ là một viên kẹo anh đào? θ bất kì là có thể: miền liên tục của các giả định hθ θ là một thông số cho những mô hình tổ hợp đơn giản này (nhị thức) Giả định chúng ta bóc vỏ N viên kẹo, c viên kẹo anh đào và ℓ=N − c viên kẹo chanh. Đó là những giá trị quan sát i.i.d. (independent, identically distributed) do đó Tối đa hóa w.r.t. θ này, cái đƣợc xem là dễ dàng hơn cho log-likelihood: Trong có vẻ hợp lý nhƣng có chút vấn đề với những phép tính 0! [...]... thƣờng gặp trong phân lớp văn bản Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 17 Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra VÍ DỤ VỀ BỘ PHÂN LỚP THEO PHƢƠNG PHÁP THỐNG KÊ 1 Phân lớp là gì? [4] • Mục đích: để dự đoán những nhãn phân lớp cho các bộ dữ liệu/mẫu mới • Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu • Đầu ra: mô hình (bộ phân lớp) dựa trên tập... nhãn phân lớp • Phân lớp: • Dự đoán các nhãn phân lớp • Phân lớp dữ liệu dựa trên tập huấn luyện và các giá trị trong một thuộc tính phân lớp và dùng nó để xác định lớp cho dữ liệu mới 2 Phân lớp - Tiến trình hai bƣớc [4] Bƣớc 1: Xây dựng mô hình từ tập huấn luyện • Mỗi bộ/ mẫu dữ liệu đƣợc phân vào một lớp đƣợc xác định trƣớc • Lớp của một bộ/ mẫu dữ liệu đƣợc xác định bởi thuộc tính gán nhãn lớp •... mạng nơron cho phép có số biến phụ thuộc tùy ý Ví dụ trong bài toán phân lớp, chúng ta cần xác định lớp của các mẫu mới (ví dụ: mỗi mẫu có 100 thuộc tính (đặc trƣng)) trong tổng số 12 lớp có thể có thì chúng ta có thể xây dựng một mạng với 100 nút trong lớp nhập và 12 nút trong lớp xuất, giá trị nút trong lớp xuất nào cao nhất thì khả năng mẫu mới sẽ thuộc về lớp tƣơng ứng với nút trong lớp xuất đó... Trích chọn đặc trƣng cho từng lớp thông qua ngƣỡng - Tính xác suất (khả năng) cho mỗi đặc trƣng trong lớp Văn bản mới đƣợc phân vào một lớp nếu tích các xác suất của các đặc trƣng trong văn bản thuộc về lớp đó là lớn nhất Dựa trên thuật toán học và thuật toán phân lớp Naive bayes, ta chỉnh sửa thuật toán cho phù hợp với bài toán phân lớp văn bản thông điệp diễn đàn Để chọn đặc trƣng cho lớp văn bản (diễn... Tra o Ngay cả khi các phƣơng pháp Bayes khó trong tính toán, chúng vẫn có thể cung cấp một chuẩn để tạo quyết định tới ƣu so những phƣơng pháp khác Phân lớp Bayes • Bài toán phân lớp có thể hình thức hóa bằng xác suất a-posteriori: P(C|X) = xác suất mẫu X= thuộc về lớp C • Ví dụ P(class=N | outlook=sunny,windy=true,…) • Ý tƣởng: gán cho mẫu X nhãn phân lớp là C sao cho P(C|X) là lớn nhất Tính... Quang Vinh – STT: 24 Trang: 22 Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra ỨNG DỤNG PHÂN LỚN NAIVE BAYES ĐỂ PHÂN LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN [5] Dựa trên các phƣơng pháp phân lớp văn bản và căn cứ vào đặc điểm của tuần phƣơng pháp, phần ứng dụng này chọn phƣơng pháp phân lớp các thông điệp trên diễn đàn thảo luận 1 Hệ thống chƣơng trình Hệ thống chƣơng trình đƣợc chia thành các công việc chính nhƣ sau: a Xây... tổng quát có thể có n lớp (n>2): lớp thứ nhất gọi là lớp nhập, lớp thứ n là lớp xuất, và n-2 lớp ẩn 2.2 Đánh giá: Phƣơng pháp phân lớp dựa trên mạng nơron có các đặc điểm sau: - Hàm đích của mạng nơron không tƣờng minh, khó hiểu - Việc xác định các tham số của mạng phục thuộc và ngƣời thiết kế mạng - Nhƣợc điểm của phân lớp mạng nơron là giải thuật phức tạp, thời gian học của phƣơng pháp này thƣờng chậm... Tạo Bài Kiểm Tra o Lớp biết trƣớc của một mẫu /bộ dữ liệu đem kiểm tra đƣợc so sánh với kết quả thu đƣợc từ mô hình o Lỉ lệ chính xác = phần trăm các mẫu /bộ dữ liệu đƣợc phân lớp đúng bởi mô hình trong số các lần kiểm tra 3 Đánh giá các phƣơng pháp phân lớp • Độ chính xác • Tốc độ • Bền vững • Co dãn (scalability) • Có thể biểu diễn đƣợc • Dễ làm 4 Phân lớp Bayes: Tại sao? • Học theo xác suất: o tính... định bởi thuộc tính gán nhãn lớp • Tập các bộ/ mẫu dữ liệu huấn luyện - tập huấn luyện - đƣợc dùng để xây dựng mô hình • Mô hình đƣợc biểu diễn bởi các luật phân lớp, các cây quyết định hoặc các công thức toán học Bƣớc 2: Sử dụng mô hình - kiểm tra tính đúng đắn của mô hình và dùng nó để phân lớp dữ liệu mới • Phân lớp cho những đối tƣợng mới hoặc chƣa đƣợc phân lớp • Đánh giá độ chính xác của mô hình... tiếng Việt Phân tích và tách từ thông điệp, xác định danh từ, cụm danh từ, trích danh từ, cụm danh từ làm đặc trƣng Dựa vào một ngƣỡng T0 để chọn số đặc trƣng cho từng ”diễn đàn chuyên đề” (hay còn gọi là từng lớp, ví dụ: diễn đàn học tập có một số diễn đàn chuyên đề nhƣ: Lập trình Windows, Lập trình Web, ) c Dựa vào kho ngữ liệu huấn luyện, chƣơng trình xây dựng bộ phân lớp Naive Bayes để phân lớp các . TS. Ngô Hữu Phúc Học Viên: Đặng Quang Vinh TP. Hồ Chí Minh, tháng 07 năm 2012 Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 1 . Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 3 PHƢƠNG PHÁP HỌC THỐNG KÊ (STATISTICAL LEARNING METHODS) I. GIỚI THIỆU: 1. Sự không chắc chắn: Tri thức của con ngƣời trong nhiều. trƣng (có xem xét nghĩa của từ) 31 Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 2 2.4 Xây dựng bộ phân lớp văn bản Naive Bayes 32 TÀI LIỆU THAM

Định dạng
Số trang	39
Dung lượng	1,27 MB