1. Trang chủ
  2. » Luận Văn - Báo Cáo

QUẢN Lý d6cntt epu dai

61 1.2K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT Từ khóa LDA HMM NB pLSA EM Tiếng Anh Tiếng Việt Latent Direchlet Allocation Mô hình phân phối Direchlet ẩn Hidden Markov Model Mô hình Markov ẩn Naïve Bayes Phương pháp Naïve Bayes Probabilistic Latent Xác suất phân tích ngữ nghĩa Semantic Analysis tiềm ẩn Expectation Maximization Phương pháp tối đa hóa kỳ vọng LỜI MỞ ĐẦU Trong năm gần đây, phát triển vượt bậc công nghệ thông tin làm tăng số lương giao dịch thông tin mạng Internet cách đáng kể đặc biệt thư viện điện tử, tin tức điện tử Do mà số lượng văn xuất mạng Internet tăng theo với tốc độ chóng mặc Theo số lượng thống kê tử Broder et al (2003), lượng thông tin lại tăng gấp đôi từ đến 12 tháng, tốc độ thay đổi thông tin nhanh chóng Việc có thêm thông tin khiến khó khăn tìm kiếm thông tin cần thiết Chính cần “công cụ” để xếp, tìm kiếm hiểu khối thông tin khổng lồ Mô hình chủ đề giải vấn đề cách cung cấp phương pháp để tự động tổ chức, tìm kiếm, hiểu tóm tắt tài liệu lưu trữ điện tử lớn, thích tài liệu theo chủ đề, sử dụng thích để tổ chức, tổng hợp tìm kiếm tài liệu, Đã có mô hình chủ đề xây dựng thành công dành cho tiếng Anh David M.Blei cộng phương pháp LDA Mô hình đóng góp nhiều việc xử lý, phân loại văn tiếng Anh internet Với phát triển văn tài liệu tiếng Việt việc xây dựng mô hình chủ để dành cho tiếng Việt quan trọng Chính em tập trung thực đề tài: “Xây dựng mô hình chủ đề dành cho tiếng Việt phương pháp Naïve Bayes” nhằm tìm hiểu xây dựng thử nghiệm mô hình chủ đề dành cho tiếng Việt Em chọn phương pháp Naïve Bayes (NB) để xây dựng mô hình chủ đề do: NB phương pháp phân loại dựa vào xác xuất sử dụng rộng rãi lĩnh vực máy học [Mitchell, 1996] [Joachims, 1997] [Jason, 2001] sử dụng lần lĩnh vực phân loại Maron vào năm 1961[Maron, 1961] sau trở nên phổ biến nhiều lĩnh vực công cụ tìm kiếm [Rijsbergen et al, 1970], lọc mail [Sahami et al, 1998] bên cạnh NB có ưu điểm như: cài đặt đơn giản, tốc độ nhanh, dễ dàng cập nhật liệu huấn luyện có tính độc lập cao với tập huấn luyện, sử dụng kết hợp nhiều tập huấn luyện khác nhau, thích hợp cho việc phân tích lượng lớn liệu mô hình chủ đề Quá trình tìm hiểu xây dựng đề tài thể qua chương báo cáo sau:  Chương Mô hình chủ đề: Trong chương em xin trình bày khái niệm mô hình chủ đề; số phương pháp nghiên cứu để xây dựng mô hình chủ đề tìm hiểu thuật toán để xây dựng mô hình chủ đề dành cho tiếng Anh  Chương Tìm hiểu thuật toán Naïve Bayes: Tìm hiểu thuật toán Naïve Bayes số ứng dụng thuật toán Naïve Bayes  Chương Xây dựng mô hình chủ đề dành cho tiếng Việt: Tìm hiểu văn tiếng Việt; khó khăn gặp phải xây dựng mô hình chủ đề; kết thực nghiệm sau xây dựng mô hình chủ đề Do có mặt hạn chế định mặt kiến thức kinh nghiệm thực tế nên đồ án tránh thiếu sót, khuyết điểm Em mong thầy cô bạn giúp đỡ để kiến thức thân đồ án hoàn thiện CHƯƠNG 1: MÔ HÌNH CHỦ ĐỀ (TOPIC MODEL) Mô hình chủ đề hệ thống dùng để tìm kiếm chủ đề từ tài liệu phi cấu trúc Khái niệm mô hình đề tài khởi xướng vào năm 2002 Griffiths Steyvers Ngay sau đó, số nhà nghiên cứu phương pháp đề nghị để xây dựng mô hình chủ đề, phương pháp để xây dựng mô hình đề tài dựa lý thuyết xác suất kết hợp với mô hình ẩn LDA(Latent Direchlet Allocation) mô hình Markov ẩn (Hidden Markov Model-HMM) Trong chương ta tìm hiểu phương pháp sử dụng để xây dựng mô hình chủ đề, mô hình chủ đề dành cho tiếng Anh 1.1 Mô hình xác suất phân tích ngữ nghĩa tiềm ẩn(Probabilistic Latent Semantic Analysis-pLSA) 1.1.1 Mô hình tổng quát: Mục tiêu PLSA tìm tham số P(w|z) P(z|d) cho mô hình Aspect tập văn Sử dụng phương pháp EM (Expectation Maximization) ta có thuật toán: Khởi tạo: P(w|z) P(z|d) Vòng lặp: Tính: = Tính: = Tính: = (1.1) (1.2) (1.3) Tuy nhiên, theo Blei Ng dù pLSA bước tiến việc mô hình hóa text theo xác suất chưa hoàn thiện Lí pLSA chưa phải mô hình xác suất xác định rõ ràng mức văn (document) Hệ gặp vấn đề xác định xác suất với văn nằm tập huấn luyện (trainning set) Hơn nữa, dẫn tới việc tăng tuyến tính số tham số mô hình so với độ lớn tập văn (corpus) LDA mô hình phân tích chủ đề xử lý vấn đề Trong phần tìm hiểu mô hình LDA 1.2 Mô hình phân phối Direchlet ẩn (Latent Direchlet Allocation-LDA) 1.2.1 Phân tích thông tin chủ đề dựa mô hình chủ đề LDA : Phân tích chủ đề cho văn nói riêng cho liệu Web nói chung có vai trò quan trọng việc “hiểu” định hướng thông tin Web Khi ta hiểu trang Web có chứa chủ đề hay thông tin dễ dàng cho việc xếp loại, xếp, tóm tắt nội dung trang Web Trong phân lớp văn bản, văn thường xếp vào lớp cụ thể Trong phân tích chủ đề, giả sử văn đề cập đến nhiều chủ đề (K chủ đề) mức độ liên quan đến chủ đề biểu diễn phân phối xác suất của tài liệu chủ đề Hình 1.1: Văn tạo K chủ đề 1.2.2 Mô hình sinh LDA Theo Blei Ng dù pLSA bước tiến việc mô hình hóa text theo xác suất chưa hoàn thiện Lí pLSA chưa phải mô hình xác suất xác định rõ ràng mức văn (document) Hệ gặp vấn đề xác định xác suất với văn nằm tập huấn luyện (trainning set) Hơn nữa, dẫn tới việc tăng tuyến tính số tham số mô hình so với độ lớn tập văn (corpus) LDA mô hình phân tích chủ đề xử lý vấn đề Hình 1.2 giới thiệu bước tiến trình sinh LDA Hình 1.2: Tiến trình sinh văn LDA 1.2.3 Phân phối Direchlet ẩn (Latent Direchlet Allocation) LDA mô hình sinh văn giới thiệu Blei Ng cộng với pLSA ý tưởng dựa việc coi văn pha trộn chủ đề Nhưng LDA mô hình Bayes ba mức: mức tập văn (corpus), mức văn (document), mức từ (word) Hình 1.3 hình 1.4 mô tả tiến trình sinh văn phương pháp LDA: Hình 1.3: Kí hiệu khối lặp lại Cho tập liệu văn M tài liệu biểu diễn D={d1,d2, …, dM}, đó, tài liệu m tập liệu bao gồm Nm từ wi rút từ tập Vocabulary tập (term) {t 1, …, tv}, V số từ LDA cung cấp mô hình sinh đầy đủ kết tốt phương pháp trước Quá trình sinh văn sau: Hình 1.4: Mô hình biểu diễn LDA Các kí hiệu: Các khối hình vuông hình 1.4 biểu diễn trình lặp Tham số đầu vào: α β ( tham số mức tập văn bản) α : Dirichlet prior on β : Dirichlet prior on M : số văn tập văn bản: D = {d 1,d2, ,dM} K : số chủ đề ẩn V : số từ tập từ vựng Nm : Số lượng từ tài liệu thứ m (hay gọi độ dài văn dm) zm,n : chủ đề từ wn văn dm ( hay số chủ đề) wm,n : từ thứ n văn dm zm,n : Phân phối chủ đề văn thứ m, biểu diễn tham số cho p(z|d = m), thành phần trộn chủ đề cho tài liệu m Tỷ lệ cho tài liệu : phân phối từ sinh từ chủ đề z m,n biểu diễn tham số cho p(t|z=k), thành phần trộn chủ đề k, tỷ lệ cho chủ đề LDA sinh tập từ wm,n cho văn cách: • Với văn m, sinh phân phối chủ đề cho văn theo Dir(α) • Với từ, zm,n lấy mẫu dựa vào phân phối chủ đề Mult() • Với giá trị chủ đề z m,n, dựa vào phân phối từ , w m,n, sinh 10 Bảng 3.1 Mô tả lớp Hình ảnh Quan_tri ID Ten Them() Sua() Xoa() Tim kiem() Vanban ID_vb Ten_vb ID_chude Ngaylap Them() Sua() Xoa() Timkiem() Chu_de ID_chude Tenchude Them() Sua() Xoa() Timkiem() Tu ID_tu ID_chude Ten Mô tả Có thuộc tính: ID, Ten Có thể đăng nhập vào hệ thống để thực thêm, sửa, xóa, tìm kiếm liệu đối tượng hệ thống như: văn bản, chủ đề, từ Tập văn bản phân loại theo chủ đề quản lý thuộc tính: ID văn bản, tên văn bản, ID chủ đề, Ngày lập Nhân viên quản trị thực chức thêm sửa xóa tìm kiếm đối tượng Các chủ đề quản lý thuộc tính: ID chủ đề, tên chủ đề Người quản trị thêm, sửa, xóa, tìm kiếm chủ đề Được quản lý thuộc tính: ID từ, ID chủ đề, Tên Người quản trị thêm, sửa, xóa, tìm kiếm từ Them() Sua() Xoa() Timkiem() 3.5 Xây dựng ứng dụng: 3.5.1 Xây dựng tập liệu thử nghiệm Tài liệu sử dụng để xây dựng kho từ chủ đề văn gán nhãn theo chủ đề Cho đến thời điểm này, kho ngữ liệu chuẩn phục vụ cho xây dựng kho từ chủ đề cho tiếng Việt chưa 47 có Do đó, ta phải xây dựng kho liệu cách thủ công cách tìm kiếm văn nguồn thông tin như: http://vnexpress.net, http://vietnamnet.vn, Các văn lưu dạng txt gán nhãn theo chủ đề, chủ đề khoảng 20 văn Ở xây dựng mô hình liệu nhỏ với chủ đề kinh doanh, giới, thể thao, Bảng 3.5.1 Một số văn tập liệu T T 10 11 12 13 14 15 16 Tên văn Kinhdoanh1.txt Kinhdoanh2.txt Thegioi1.txt Thegioi2.txt Thethao1.txt Thethao2.txt Vanhoa1.txt Vanhoa2.txt Giaoduc1.txt Giaoduc2.txt Phapluat1.txt Phapluat2.txt Dulich1.txt Dulich2.txt Suckhoe1.txt Suckhoe2.txt Nguồn tải Chủ đề Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Vnexpress.net Kinh doanh Kinh doanh Thế giới Thế giới Thể thao Thể thao Văn hóa Văn hóa Giáo dục Giáo dục Pháp luật Pháp luật Du lịch Du lịch Sức khỏe Sức khỏe  Mô tả tập liệu thử nghiệm cho hệ thống: - Tập chủ đề (9 chủ đề liệt kê trên) - Tập văn phân loại theo chủ đề (9 chủ đề, chủ đề có 20 văn bản, văn có độ dài khoảng 250 từ), văn lấy trang http://vnexpress.net/ - Tập danh từ xây dựng cách tách danh từ văn (trong liệu thí nghiệm bao gồm 1000 danh từ) 48 3.5.2 Tiền xử lý chuẩn hóa liệu Để phân loại tốt hơn, ta cần tiến hành chuẩn hóa liệu văn từ chủ đề Nội dung tiền xử lý văn bản: Phân tích từ vựng Bước phân tích từ vựng nhằm xác định từ có văn Kết công việc cho tập từ riêng biệt Tuy nhiên nhiều trường hợp cần có cách đối xử riêng biệt số từ đặc biệt, chẳng hạn số, dấu ngoặc, dấu chấm câu trường hợp chữ hoa, chữ thường Ví dụ cách ứng xử đặc biệt, số thường bị loại phân tích không mang lại ý nghĩa cho tài liệu (ngoại trừ vài trường hợp đặc biệt, ví dụ thu thập thông tin lĩnh vực lịch sử) Dấu chấm câu, ví dụ “.”, “!”, “?”, “-“, v.v… thường loại mà ảnh hưởng đến nội dung tài liệu Loại bỏ từ dừng Từ dừng ( stop-words) dùng để từ mà xuất nhiều vănbản toàn tập kết quả, thường không giúp ích việc phân biệt nội dung tài liệu Ví dụ, từ “web”, “site”, “link”, “www”, v.v…[??] thường xuất hầu hết văn gọi stop-words Ngoài ra, tiếng Anh, có nhiều từ dùng để phục vụ cho biểu diễn cấu trúc không biểu đạt nội dung “a”, “the” (mạo từ), “in” (giới từ) , “but” (liên từ), động từ phổ biến có dạng “to”, “be”, số trạng từ tính từ đặc biệt xem từ dừng (stopwords) Vì đặc điểm từ dừng nên chúng loại bỏ mà không ảnh hưởng đến cáccông việc biểu diễn văn Danh sách số từ dừng tiếng Việt: và; hoặc; cũng; là; mỗi; bởi… Loại bỏ từ có tần số thấp Khi quan sát văn bản, người ta để ý thấy rằng: Có nhiều từ tập văn gốc xuất lần chúng có ảnh hưởng văn Vì vấn đề đặt cần loại bỏ từ có tần 49 xuất nhỏ Người ta áp dụng phương pháp đưa Zipf năm 1949: quan sát tần xuất xuất từ tập văn Gọi tần số xuất từ khóa t tập hợp X f t Xắp xếp tất từ khóa tập hợp theo chiều giảm dần tần số f, gọi thứ hạng từ khóa t rt Đinh luật Zipf phát biểu dạng công thức sau: ft.rt ≈ K Trong K số Nếu N tổng số từ tập văn bản, người ta thấy rằng: K≈N Như vậy, tần số xuất thứ hạng từ khóa hai đại lượng nghịch đảo Để thấy rõ điều này, người ta biểu diễn lại công thức định luật Zipf theo công thức sau: r t Chuẩn hóa Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bước tiền xử lý ký tự để đưa văn dạng xâu chuẩn Ở xâu chuẩn xâu mà dấu cách liền nhau, có dấu câu kết thúc xâu, trước dấu câu dấu cách Để có xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bước sau: Chuyển hết ký tự chữ hoa thành chữ thường Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tâp hợp câu Ta tách âm tiết cách dấu câu không thuộc từ Tiến hành chuẩn hoá với câu: Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu 50 Hình 3.29: Văn chuẩn hóa 3.5.3 Xây dựng từ điển danh từ Để xây dựng hệ thống quản lý kho từ chủ đề, ta phải xây dựng từ điển danh từ để huấn luyện Muốn xây dựng từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lưu vào sở liệu hệ thống Hình 3.13 hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ công 51 Hình 3.30: Hệ thống vlsp 3.6 Môi trường cài đặt 3.6.1 Môi trường cài đặt hệ thống Hệ thống xây dựng web để thuận tiện cho việc tra cứu trực tuyến Hệ thống sử dụng ngôn ngữ C# visual studio 2012 3.6.2 Cơ sở liệu hệ thống Cơ sở liệu hệ thống mô tả thông tin lưu trữ hệ thống sở liệu Bao gồm thông tin văn tập liệu (vanban), bảng từ điển danh từ chứa danh từ sau tách (Vocabulary_Cfc), bảng đăng nhập chưa thông tin người quản trị (dangnhap), bảng chủ đề lưu trữ chủ đề văn bản(chude) Hình 3.31: Cơ sở liệu hệ thống 52 Hình 3.32: Bảng chủ đề Hình 3.33: Bảng đăng nhập Hình 3.34: Bảng văn Hình 3.35: Bảng danh từ 53 3.6.3 Giao diện hệ thống Hình 3.36: Giao diện đăng nhập Hình 3.37: Giao diện hệ thống dành cho admin 54 Hình 3.38: Giao diện hệ thống dành cho người dùng Hình 3.39: Bộ từ chủ đề sau huấn luyện 55 3.7 Đánh giá kết thực nghiệm 3.7.1 Chạy thử chương trình Sau cài đặt chương trình, thử nghiệm chương trình cách chọn chủ đề chủ đề tập liệu huấn luyện tiến hành tách từ chủ đề Nhiệm vụ chương trình phải đưa từ lõi, từ chủ đề, số lần xuất xác suất từ chủ đề với từ lõi chủ đề Ví dụ: ta chọn chủ đề giới, ta có thông tin sau: - Từ lõi: nước - Số lần xuất từ lõi: 29 lần - Tổng số lần xuất từ chủ đề: 366 lần - Danh sách từ chủ đề, số lần xuất từ chủ đề xác suất áp dụng thuật toán NB đề phân loại: Hình 3.40: Một số từ chủ đề chủ đề giới 56 Kết thử nghiệm chương trình cố độ xác gần tương đương với kết tính tay sử dụng công thức NB cho số từ chủ đề 3.7.2 So sánh kết phương pháp LDA phương pháp NB Ta so sánh kết với mô hình dành cho chủ đề tiếng Anh phương pháp LDA cách dịch kiểm tra từ đồng nghĩa chủ đề tương ứng hai phương pháp Ta thử nghiệm với chủ đề giới giáo dục: Bảng 3.2 So sánh chủ đề giáo dục phân loại phương pháp NB LDA NB Sinh viên Đại học Chương trình năm Bằng Trường Cộng động Giáo dục LDA student College, campus, university program Year degree school public education Bảng 3.3 So sánh chủ đề giới phân loại phương pháp NB LDA NB LDA Năm Year Nước country Vùng region Quốc tế international Quần đảo Chính phủ island Goverment Vì thử liệu tập liệu nhỏ nên số lượng từ chủ đề tương ứng chưa thật nhiều, nhiên đánh giá cho thấy kết khả quan việc xây dựng mô hình chủ đề cho tiếng Việt phương pháp NB có đa số từ nằm chủ đề phương pháp LDA mô hình chủ đề dành cho tiếng Anh 57 3.7.3 Kết luận chương: Trong chương ta tìm hiểu vấn đề khó khăn xử lý văn tiếng việt , vấn đề gặp phải xây dựng mô hình chủ đề dành cho tiếng Việt, Xây dựng mô hình chủ đề cho tiếng Việt kiểm nghiệm kết chương trình KẾT LUẬN  Kết đạt được: Bước đầu xây dựng mô hình chủ đề dành cho tiếng Việt phương pháp NB So sánh với mô hình chủ đề dành cho tiếng Anh phương pháp dịch có tương đồng tương đối khả quan  Kết chưa đạt được: Do thời gian có hạn nên em chưa xây dựng tập liệu hoàn chỉnh, chưa ứng dụng hết ưu điểm thuật toán NB tập liệu lớn nên mô hình chưa hoàn thiện  Hướng phát triển đề tài: Xây dựng tập liệu mẫu lớn với nhiều chủ đề, tìm kiếm ngôn ngữ lập trình khác giúp chương trình rút ngắn thời gian chạy, hoàn thiện đưa lên web mô hình chủ đề dành cho tiếng Việt, đưa mô hình vào ứng dụng tìm kiếm văn bản, phân lớp văn bản, Do thời gian không cho phép nên đề tài em nhiều thiếu sót Em xin chân thành cảm ơn hướng dẫn, giúp đỡ tận tình cô Nguyễn Thị Thu Hà Nhờ có bảo giảng tâm huyết cô lớp mà em hoàn thành báo cáo cách tốt Em xin chân thành cảm ơn cô! 58 59 TÀI LIỆU THAM KHẢO [1] Building Vietnamese Topic Modeling Based on Core Terms and Applying in Text Classification-[ Ha Nguyen Thi Thu Department of E-commerce Electric Power University Ha Noi, Viet Nam; Tinh Thanh Dao Information Technology Faculty Le Quy Don Technical University Ha Noi, Viet Nam; Thanh Nguyen Hai Viet Nam Ministry of Education and Training Ha Noi, Viet Nam; Vinh Ho Ngoc Vinh University of Technology Education Nghe An, Viet Nam] [2] Probabilistic Topic Model-[David M Blei Department of Computer Science Princeton University] [3] Probabilistic Topic Model- [Mark Steyver-University of California, Irvinne, Tom Griffiths-Brown University] [4] Introduction to probabilistic topic model- [David M.BleiPrinceton University] [5] Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing [6] Topic models: An R Package for Fitting Topic Models [Bettina Grun Johannes Kepler University Linz; Kurt Hornik WU Wirtschafts University Wien] [7] Topic Modeling: an update [Khoat Than- Ha Noi University of Sciene and Technology] [8] Prbabilistic Latent Semantic Analysis [Thomas Hofmann EECS Department, Computer Science Division, University of California, Berkeley & International Computer Science Institute, Berkeley, CA] [9] http://www.princeton.edu/~achaney/tmve/wiki100k/browse/topiclist.html [10] http://vlsp.vietlp.org:8080/demo/ [11] Nguyễn Trần Thiên Thanh, Trần Khải Hoàng, Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 2005 60 [12] Hệ thống tìm kiếm so khớp tài liệu điện tử-[Tô Trọng Hiến, Nguyễn Việt Phương, Nguyễn Hồng Thanh, Nguyễn Duy HoàngĐại học Bách Khoa Hà Nội] 61 [...]... toán cao Hình 3.19: Hệ thống xử lý văn bản tiếng Việt 35 Hình 3.2 là hình minh họa của một hệ thống xử lý văn bản tiếng việt, khi chúng ta xây dựng bất kỳ hệ thống khai thác văn bản tiếng việt nào đều cần phải sử dụng ít nhất mộ công cụ xử lý từ như: phân đoạn từ (word segmentation), đánh dấu vị trí (Pos tagging), Cả hai giai đoạn đào tạo và giai đoạn thử nghiệm cần xử lý văn bản công cụ do đó, nó luôn... cho các xử lý tiếp theo sau đó như: kiểm tra lỗi chính tả, gán nhãn từ - loại, thống kê tần suất, Vì giữa tiếng Anh và tiếng Việt có nhiều điểm khác biệt nên nchusng ta không thể áp dụng y nguyên các thuật toán tiếng Anh cho tiếng Việt 3.2 Một số phương pháp biểu diễn văn bản 3.2.1 Mô hình Logic Theo mô hình này các từ có nghĩa trong văn bản sẽ được đánh chỉ số và nội dung văn bản được quản lý theo các... đặc điểm nào giúp NB có khả năng đó? Trong chương này chúng ta sẽ tìm hiểu chi tiết về các đặc điểm trên 2.1 Thuật toán Naïve Bayes: Thuật toán Naïve Bayes được xây dựng dựa trên định lý Bayes 2.1.1 Định lý Bayes: Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của Anếu có B" Đại... thời gian để xử lý Do đó, để tăng tốc độ và hiệu suất của các hệ thống, cần phải tối ưu hóa hai bước chính: Nâng cao chất lượng công cụ xử lý văn bản (Word processing) Làm giảm kích thước của các tính năng (Feature) Sau khi tìm hiểu và tham khảo mô hình chủ đề dành cho tiếng Anh (Topic model for English), ta thấy mô hình chủ để là giải pháp tốt nhất cho việc xây dựng một hệ thống xử lý văn bản tiếng... (2.2) 2.1.2 Công thức xác suất đầy đủ Bayes: Giả sử ta muốn tính một hàm không biết giá trị đích tương đương với P(Y|X) Đầu tiên, ta cho rằng Y là biến ngẫu nhiên có giá trị luận lý( boolean) X là vector gồm n thuộc tính luận lý (boolean), X = (X 1, X2, , Xn) Áp dụng định luật Bayes, P(Y=yi|X) được tính như sau: (2.3) Trong đó P(X|Y) và P(Y) được học từ tập huấn luyện Tuy nhiên để tính toán chính xác... văn bản đó Sau đó, người ta tiến hành Index các chủ đề của từng văn bản Cách Index trên chủ đề cũng giống như khi Index trên văn bản nhưng chỉ Index trên các từ xuất hiện trong chủ đề Các văn bản được quản lý thông qua các chủ đề này để có thể tìm kiếm được khi có yêu cầu, câu hỏi tìm kiếm sẽ dựa trên các chủ đề trên 3.2.3 Mô hình không gian vector: Cách biểu diễn văn bản thông dụng nhất là thông qua... tóm tắt, phân loại, phân nhóm, Chính vì các đặc điểm như trên nên tiếng Việt rất khó để xác định từ thông qua khoảng cách giữa các từ Khi xử lý một văn bản tiếng Việt, người ta thường sử dụng công cụ phân đoạn từ để tách từ Nhưng đôi khi các công cụ này không xử lý được triệt đề các văn bản tiếng Việt nên gây ra khó khăn lớn cho việc phát triển các công cụ khai thác văn bản tiếng Việt trên internet Có... văn bản tiếng Việt các đặc điểm cấu trúc phức tạp do có nhiều từ ghép và ngữ pháp phức tạp Chính vì vậy mà việc tiền xử lý văn bản chuẩn bị cho việc xây dựng mô hình chủ đề gặp nhiều khó khăn Vậy đặc điểm của các văn bản tiếng Việt là gì? Để xây dựng mô hình chủ đề ta cần phải xử lý ra sao? ứng dụng của thuật toán Naive Bayes trong xây dựng mô hình chủ đề như thế nào? Trong chương này chúng ta sẽ tìm... Tiếng việt là loại hình phi hình thái nên việc phân biệt loại từ (danh từ, động từ, tính từ, ) và ý nghĩa từ là rất khó, cho dù có sử dụng - đến từ điển Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu, )sẽ thêm phức - tạp với phần xử lý các hư từ, phụ từ, từ láy, Phương pháp ngữ pháp chủ yếu là trận từ từ nên nếu áp dụng phương pháp tính xác xuất xuất hiện của từ có thể không chính xác - như mong... diễn bởi vector V(v ,v , , vn) Trong đó, v là số lần xuất hiện của từ khóa thứ i trong 1 2 i văn bản Ta xét 2 văn bản sau: VB1: Life is not only life VB2: To life is to fight Sau khi qua bước tiền xử lý văn bản, ta biểu diễn chúng như sau: Trong các cơ sở dữ liệu văn bản, mô hình vector là mô hình biểu diễn văn bản được sử dụng phổ biến nhất hiện nay Mối quan hệ giữa các trang văn bản được thực hiện ... Việt việc xây dựng mô hình chủ để dành cho tiếng Việt quan trọng Chính em tập trung thực đề tài: Xây dựng mô hình chủ đề dành cho tiếng Việt phương pháp Naïve Bayes nhằm tìm hiểu xây dựng thử... toán Naïve Bayes  Chương Xây dựng mô hình chủ đề dành cho tiếng Việt: Tìm hiểu văn tiếng Việt; khó khăn gặp phải xây dựng mô hình chủ đề; kết thực nghiệm sau xây dựng mô hình chủ đề Do có mặt... hiểu thuật toán NB áp dụng xây dựng mô hình chủ đề 26 CHƯƠNG 3: XÂY DỰNG MÔ HÌNH CHỦ ĐỀ DÀNH CHO TIẾNG VIỆT BẰNG PHƯƠNG PHÁP NAIVE BAYES Khác với văn tiếng Anh, văn tiếng Việt đặc điểm cấu trúc phức

Ngày đăng: 08/01/2016, 15:48

Xem thêm: QUẢN Lý d6cntt epu dai

TỪ KHÓA LIÊN QUAN

Mục lục

    CHƯƠNG 1: MÔ HÌNH CHỦ ĐỀ (TOPIC MODEL)

    1.1. Mô hình xác suất phân tích ngữ nghĩa tiềm ẩn(Probabilistic Latent Semantic Analysis-pLSA)

    1.1.1. Mô hình tổng quát:

    1.2. Mô hình phân phối Direchlet ẩn (Latent Direchlet Allocation-LDA)

    1.2.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA :

    1.2.2. Mô hình sinh trong LDA

    1.2.3. Phân phối Direchlet ẩn (Latent Direchlet Allocation)

    1.2.4. Ước luợng giá trị tham số và inference thông qua Gibbs Sampling cho mô hình LDA

    1.3. Mô hình Markov ẩn (Hidden Markov Model- HMM)

    1.3.2. Giới thiệu về mô hình Markov ẩn

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w