LUẬN VĂN: MÔ HÌNH MAXIMUM ENTROPY pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	60
Dung lượng	1,73 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: Lê Anh Cường HÀ NỘI - 2010 i TÓM TẮT NỘI DUNG Trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ thông tin và nhu cầu sử dụng Internet của tất cả mọi người trên thế giới đã làm tăng vọt lượng thông tin giao dịch trên Internet. Vì vậy mà số lượng văn bản xuất hiện trên Internet tăng nhanh chóng mặt cả về số lượng và chủ đề. Với khối lượng thông tin đồ sộ như vậy, để tìm được những thông tin cần thiết cho mục đích của chúng ta sẽ mất rất nhiều thời gian và công sức. Một câu hỏi được đặt ra, làm thế nào có thể tổ chức và tìm kiếm thông tin một cách nhanh chóng và hiệu quả nhất? Và câu trả lời hợp lý cho câu hỏi trên là phân loại thông tin tự động bằng máy tính. Trong luận văn này, em tập trung tìm hiểu về mô hình cực đại entropy và áp dụng mô hình để xây dựng chương trình phân loại văn b ản Tiếng Việt tự động dựa trên tập dữ liệu huấn luyện. Từ đó hướng tới việc xây dựng chương trình chặn nội dung web bằng việc phân tích nội dung web. Hiện nay, việc kiểm soát truy cập Internet vẫn chưa đạt được hiệu quả tốt. Những trang web với nội dung xấu vẫn được truy cập rất dễ dàng mà không có bất kỳ sự kiểm soát nào. Với ch ương trình chặn nội dung web, em hy vọng có thể giúp ngăn chặn được những trang web có nội dung xấu. Bên cạnh đó, cũng giúp mọi người có thể lọc ra được những trang web có nội dung phù hợp với nhu cầu của từng người trong những lĩnh vực riêng biệt. ii LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới Thầy LÊ ANH CƯỜNG đã tận tụy hướng dẫn, động viên, giúp đỡ em trong suốt thời gian thực hiện đề tài. Em xin chân thành cảm ơn quý Thầy Cô trong khoa Công Nghệ Thông Tin đã truyền đạt những kiến thức quý báu cho chúng em trong những năm học vừa qua. Chúng con xin nói lên lòng biết ơn đối với Ông Bà, Cha Mẹ luôn là nguồn động viên, chăm sóc trên bước đường học vấn củ a chúng con. Xin chân thành cảm ơn các anh chị và bạn bè đã ủng hộ, giúp đỡ và động viên chúng em trong thời gian học tập và nghiên cứu. Mặc dù em đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em kính mong nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các bạn. Hà nội, 06/2010 Sinh viên thực hiện, Trần Quang Dũng iii Mục lục Chương 1: Tổng quát 1 1.1 Đặt vấn đề 1 1.2 Giới thiệu mô hình cực đại entropy 2 1.3 Mục tiêu của luận văn 3 Chương 2: Các phương pháp phân loại văn bản 5 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5 2.2 Mô tả bài toán phân loại văn bản 5 2.3 Biểu diễn văn bản 6 2.4 Các phương pháp phân loại văn bản 7 2.4.1 Naïve Bayes (NB) 7 2.4.2 k-Nearest Neighbor (kNN) 8  2.4.3 Linear Least Square Fit (LLSF) 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống kê, đặc trưng và ràng buộc 16 3.2.3 Nguyên lý cực đại entropy 17 3.2.4 Tham số hình thức 18 3.2.5 Mối quan hệ với cực đại Likelihood 20 3.2.6 Tính các tham số 20 3.3 Lựa chọn đặc trưng 22 3.3.1 Ý nghĩa của việc lựa chọn đặc trưng 22  3.3.2 Cơ sở lựa chọn đặc trưng 24 3.3.3 Giá trị gần đúng 26 Chương 4: Thực nghiệm phân loại văn bản 29 4.1 Thống kê kết quả thực nghiệm 29 iv 4.2 Các thành phần và chức năng của chương trình 33 4.2.1 Chức năng huấn luyện 34 4.2.2 Chức năng kiểm thử 36 4.2.3 Chức năng gán nhãn 37 4.3 Ứng dụng chặn nội dung web 39 4.3.1 Kỹ thuật lọc web Blue Coat 39 4.3.2 Chức năng ứng dụng chặn nội dung web 40 Chương 5: Kết luận 44 5.1 Kết quả đạt được 44 5.2 Những hạn chế và hướng giả i quyết 45 Tài liệu tham khảo 46 Phụ lục 48 v Danh sách hình Hình 2.1: Các điểm được khoanh tròn là các vector hỗ trợ 10 Hình 3.1: Lựa chọn đặc trưng 24 Hình 3.2 log-likelihood được biểu diễn như hàm lồi 2 tham số 28 Hình 4.1: Giao diện chức năng huấn luyện 34 Hình 4.2: Giao diện chức năng kiểm thử 36 Hình 4.3: Giao diện chức năng gán nhãn 37 Hình 4.4: Giao diện giới thiệu 38 Hình 4.5: Giao diện chặn nội dung web 41 Hình 4.6: Cửa sổ setting 42 Hình 4.7: Cửa sổ giớ i thiệu 43 vi Danh sách bảng Bảng 4.1: Số lượng file của dữ liệu huấn luyện 29 Bảng 4.2: Số lượng file của dữ liệu kiểm thử 30 Bảng 4.3: Mô tả giao diện huấn luyện 35 Bảng 4.4: Kết quả huấn luyện 35 Bảng 4.5: Mô tả chức năng kiểm thử 36 Bảng 4.6: Kết quả kiểm thử 37 Bảng 4.7: Kết quả gán nhãn 38 B ảng 4.8: Chức năng giao diện chặn nội dung web 42 1 Chương 1: Tổng quát 1.1 Đặt vấn đề Trong thời đại bùng nổ công nghệ thông tin hiện nay, các tài liệu giấy dần được số hóa thành các dạng tài liệu được lưu trữ trên máy tính thay thế cho những tài liệu giấy cồng kềnh. Tài liệu số với những ưu điểm gọn nhẹ, dễ bảo quản, lưu trữ được lâu, dễ dàng chia sẻ với bạn bè, có thể sửa đổi đã ngày càng trở nên phổ biến và tiện dụ ng. Vì vậy mà số lượng tài liệu số tăng nhanh đến chóng mặt. Với một khối lượng lớn các tài liệu số như vậy, làm cách nào chúng ta có thể lọc ra được những tài liệu thực sự cần thiết cho một mục đích nào đó của chúng ta? Câu trả lời đó là phân loại văn bản tự động! Một chương trình có thể tự động phân loại văn bản theo các chủ đề cụ thể. Khi đó sẽ giúp chúng ta giới hạn được nội dung của tài liệu theo đúng mục đích sử dụng. Với một khối lượng khổng lồ các tài liệu số. Thì việc phân loại văn bản tự động sẽ giúp chúng ta tiết kiệm được rất nhiều thời gian và công sức tìm kiếm. Theo Yang & Xiu (1999), “Việc phân loại văn bản tự động là việc gán các nhãn phân loại lên mộ t văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện”. Dựa trên thống kê của Yang & Xiu và các tài liệu khác, một số phương pháp phân loại thông dụng hiện nay là: Naïve Bayes [Baker & Mccallum, 2000], k-Nearest Neighbor [Yang, 1994], Linear Least Squares Fit [Yang & Chute, 1994], Support Vector Machine [Joachims, 1998] , 1998], Maximum Entropy [Berger, 1996 và Della Pietra, 1997]. Các phương pháp đều dựa vào xác suất thống kê hoặc thông tin về trọng số của từ trong văn bản. Chi tiết về các phươ ng pháp sẽ được trình bày trong chương 2. Trong phân loại văn bản tiếng Anh, kết quả phân loại là rất khả quan. Còn đối với tiếng Việt vẫn còn nhiều hạn chế. Hạn chế về mặt ngôn ngữ: Tiếng Anh định nghĩa từ là một tập hợp các ký tự có nghĩa và chúng được tách biệt với nhau bởi khoảng trắng. Ví dụ: this, house, wonderland, pacific Do đó việc tách từ đối với tiếng Anh là r ất đơn giản. Tuy nhiên, với tiếng Việt thì việc xác định các từ trở nên khó khăn hơn. Các từ không phải được xác định dựa vào khoảng trắng mà nó phụ thuộc vào ngữ cảnh. Ví dụ 2 các từ sau: “thế giới”, “tiền”, “chiến binh”, “quyển sách” Hạn chế về tập dữ liệu huấn luyện và kiểm thử chuẩn Tuy nhiên cũng đã có nhiều nhà nghiên cứu trong lĩnh vực này và đạt được những kết quả ban đầu như [Huỳnh Quyết Thắng và Đinh Thị Phương, 1999], [Nguyễn Linh Giang và Nguyễn Mạnh Hiển, 2005]. Các hướng tiếp cận bao gồm: lý thuyết đồ thị [Đỗ Bích Diệp, 2004], sử dụng lý thuyết tập thô [Nguyễn Ngọc Bình, 2004], thống kê [Nguyễn Linh Giang và Nguyễn Duy Hải, 1999], học không giám sát và đánh chỉ mục [Huỳnh Quyết Thắng và Đinh Thị Phương, 1999]. Luận văn là một đóng góp tiếp tục trong việc nghiên cứu lý thuyết và phát triển các hệ thống thực nghiệm cho việc phân loại văn bản tiếng Việt. Phương pháp phân loại được nghiên cứu trong luận văn là mô hình cực đại entropy [Berger, 1996 và Della Pietra, 1997]. 1.2 Giới thiệu mô hình cực đại entropy Mô hình cực đại entropy là phương pháp phân loại văn bản được sử dụng rộng rãi trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: ngôn ngữ mô hình hóa [Chen và Rosenfeld, 1999], gán nhãn từ loại [Ratnaparkhi, 1996], phân loại văn bản [Beeferman, 1999]. Mô hình cực đại entropy là kỹ thuật dùng để đánh giá phân phối xác suất của dữ liệu văn bản. Tư tưởng chính của phương pháp là những gì chưa biết hoặc không rõ ràng thì không có bất kỳ gi ả định gì (cực đại hóa độ hỗn loạn). Tức là áp đặt một phân phối đều lên các sự kiện chưa biết. Dữ liệu đã được gán nhãn được sử dụng để lấy ra tập các ràng buộc cho mô hình mà nó mô tả đặc điểm riêng cho từng lớp cụ thể có thể được gán cho văn bản cần phân lớp. Cuối cùng, thuật toán IIS sẽ tìm ra phân phối mà nó thỏa mãn các ràng buộc đã đưa ra và th ỏa mãn cực đại entropy với phân phối xác suất là đều nhất. Để có thể áp dụng được thật toán IIS trên văn bản cần phân lớp. Bước đầu tiên cần phải thực hiện là chuyển văn bản đang ở dạng chuỗi các ký tự thành các vector đặc trưng. Một yếu tố trong quá trình huấn luyện của mô hình cực đại entropy chính là việc lựa chọn các vector đặc trưng cho từng lớp. Các vector đặ c trưng này phải miêu tả được [...]... Khi dữ liệu có sự thay đổi thì kết quả cũng thay đổi 11 Chương 3: Mô hình cực đại entropy Dựa trên tài liệu mô hình cực đại entropy của [Adam L Berger & Stephen A Della Pietra & Vincent J Della Pietra, 1996] và một số nguồn khác Dưới đấy là những cơ sở lý thuyết cơ bản về mô hình cực đại entropy Về cách xây dựng mô hình, nguyên lý cực đại entropy, cách tính các phân phối xác suất và thuật toán tính trọng... năng phân loại giữa các lớp với nhau Mô hình cực đại entropy có được tối ưu hay không là phụ thuộc rất nhiều vào việc lựa chọn này Ưu điểm lớn nhất của mô hình cực đại entropy là tính mềm dẻo của mô hình: nó cung cấp một hệ thống các quy luật có tính thống kê ngẫu nhiên để bổ sung các cú pháp, ngữ nghĩa và căn cứ vào các vector đặc trưng Tuy nhiên, mô hình cực đại entropy đòi hỏi một chi phí khá lớn... Entropy là bị chặn dưới bởi 0, entropy của mô hình không có sự không chắc chắn nào, và chặn trên bởi log|Y|, entropy của phân phối ngang bằng nhau trên toàn bộ các giá trị có thể |Y| của y Với định nghĩa này, chúng ta đã sẵn sàng để biểu diễn nguyên lý của cực đại entropy: Để lựa chọn mô hình từ một tập C các phân phối xác suất được chấp nhận, lựa chọn mô hình p* € C với cực đại entropy H(p): p* = arg max... độ gia tăng trên xác suất mô hình pS, chúng ta ràng buộc rằng mô hình tốt nhất chứa các đặc trưng Sυf phải có dạng như sau: α pS , f = Trong đó 1 PS ( y | x) exp(α f ( x, y) với các giá trị thật của α (24) Z Zα (x) = ∑y PS ( y | x).exp( f ( x, y) α (25) Chỉ duy nhất tham số mà nó phân biệt được các mô hình có dạng (24) là α Trong số các mô hình đó, chúng ta quan tâm tới mô hình mà nó làm tăng tính... bởi xác suất mô hình p được định nghĩa như sau: L~ (p) = log x,y p(y | x)p(x,y) = ∑,y ~(x, y).logp(y | x) p ∏ p x ~ (13) Dễ dang có thể kiểm tra được rằng hàm đối ngẫu ψ(λ) của phần trước chính là loglikelihood hàm số mũ của xác suất mô hình pλ: Ψ (λ ) = L ~ ( p λ ) p (14) Với cách giải thích này, kết quả của phần trước có thể được viết lại như sau: Mô hình p* € C với cực đại entropy là mô hình trong... lại; xác suất mô hình p* trong C với entropy lớn nhất phản ánh sự hiểu biết tăng mãi mãi và vì vậy việc miêu tả bài toán sẽ trở nên chính xác hơn.Điều này giúp cho không gian chấp nhận được của các mô hình được thu hẹp hơn Có lẽ trực quan hơn, chúng ta có thể miêu tả nó bằng một loạt các tập con được đạt vào P như hình sau: 23 Hình 3.1: Lựa chọn đặc trưng (trích dẫn: trang 12 quyển A Maximum Entropy Approach... đó quyết định không gian của mô hình: C(S) = {p € P | E(f) = Ẽ(f) với mọi f € S} (19) Mô hình tối ưu trong không gian này, được biểu diễn bởi pS, là mô hình với entropy lớn nhất: PS = argmaxp∈C(S ) H( p) (20) Bằng cách thêm đặc trưng f ̃ vào tập S, chúng ta thu được tập mới với các đặc trưng có hiệu lực Sυf.̃ Như công thức (19), tập đặc trưng này quyết định tập các mô hình: 24 ̃ C(S U f)̃ = {p € P... Support Vector Machine [Joachims, 1998] , 1998], mô hình cực đại Entropy [Berger, 1996 và Della Pietra, 1997] Từ những phương pháp đó, lựa chọn phương pháp áp dụng cho phân loại văn bản tiếng Việt Phương pháp phân loại văn bản tiếng Việt được sử dụng trong luận văn là mô hình cực đại Entropy [Berger, 1996 và Della Pietra, 1997] Phần lý thuyết của mô hình trình bày về cách biểu diễn của dữ liệu huấn... likelihood của xác suất mẫu huấn luyện p̃ Kết quả này giúp làm tăng thêm tính đúng đắn cho nguyên lý cực đại entropy: khi quan niệm việc lựa chọn xác suất mô hình p* trên cơ sở cực đại entropy là không đủ sức thuyết phục, điêu xảy ra với cùng một xác suất p* là một mô hình mà nó, trong số toàn bộ các mô hình của cùng một dạng tham số (10), có thể là sự miêu tả tốt nhất cho mẫu huấn luyện 3.2.6 Tính các tham... xây dựng mô hình có tính ngẫu nhiên thống kê mà nó miêu tả chính xác các hành vi của bài toán bất kỳ Vì vậy mô hình là một phương thức của việc xác định xác suất có điều kiện mà trong đó, cho ngữ cảnh x, với output là y Chúng ta sẽ biểu diễn bằng xác suất p(y|x) mà mô hình ấn định y trong ngữ cảnh x Chúng ta cũng sẽ sử dụng p(y|x) để biểu diễn cho toàn bộ phân phối xác suất có điều kiện bởi mô hình Việc . 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống. được nghiên cứu trong luận văn là mô hình cực đại entropy [Berger, 1996 và Della Pietra, 1997]. 1.2 Giới thiệu mô hình cực đại entropy Mô hình cực đại entropy là phương pháp phân loại văn. lớp với nhau. Mô hình cực đại entropy có được tối ưu hay không là phụ thuộc rất nhiều vào việc lựa chọn này. Ưu điểm lớn nhất của mô hình cực đại entropy là tính mềm dẻo của mô hình: nó cung

Ngày đăng: 28/06/2014, 00:20

Xem thêm