1. Trang chủ
  2. » Công Nghệ Thông Tin

(9) phanloai van ban TRINH QUOC SON khoa luan mon datamining nghien cuu phanloai VB TV

40 285 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 336,17 KB

Nội dung

Hiện nay đã có rất nhiều công trình nghiên cứu về phân loại văn bản và đã có được những kết qủa đáng khích lệ , như là : Support Vector Machine , K – Nearest Neighbor , Linear Least Squares Fit , Neural Network , Naïve Bayes , Centroid – Based … Điểm chung của các phương pháp này đều dựa vào xác suất thống kê hoặc dựa vào trọng số của các từ , cụm từ trong văn bản .Trong mỗi phương pháp đều có cách tính toán khác nhau , tuy nhiên các phương pháp này đều phải thực hiện một số bước chung , như : đầu tiên mỗi phương pháp sẽ dựa vào thông tin về sự xuất hiện của các từ trong văn bản ( tần số xuất hiện trong tập văn bản ,…) để biểu diễn thành dạng vector , sau đó tùy từng bài toán cụ thể mà chúng ta sẽ quyết định chọn áp dụng phương pháp nào , công thức tính toán nào cho phù hợp để phân loại tập văn bản dựa trên tập các vector đã xây dựng được ở bước trên , nhằm mục đích đạt được kết qủa phân loại tốt nhất .

Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt CHƯƠNG : TỔNG QUAN Ngày , bùng nổ thông tin bị tác động xuất siêu phương tiện World Wide Web (WWW) làm cho không gian liệu gia tăng thường xuyên , điều tạo thách thức cho hệ thống truy vấn thông tin cho có hiệu qủa Một khó khăn mà hệ thống thông tin thường phải gặp tần suất cập nhật thông tin qúa lớn Phương thức sử dụng giấy giao dịch dần số hóa , nhiều tính vượt trội mà phương thức mang lại , lưu trữ lâu dài , cập nhật , sửa đổi , tìm kiếm cách nhanh chóng Do số lượng văn số hóa ngày tăng dần theo cấp số nhân , với gia tăng số lượng văn , nhu cầu tìm kiếm văn tăng theo , phân loại văn tự động yêu cầu cấp thiết đặt Phân loại văn giúp giúp tìm kiếm thông tin cách nhanh chóng thay phải tìm văn , mà số lượng văn gia tăng cách nhanh chóng thao tác tìm văn nhiều thời gian , công sức công việc nhàm chán không khả thi Chính nhu cầu phân loại văn tự động thực cần thiết Hiện có nhiều công trình nghiên cứu phân loại văn có kết qủa đáng khích lệ , : Support Vector Machine , K – Nearest Neighbor , Linear Least Squares Fit , Neural Network , Naïve Bayes , Centroid – Based … Điểm chung phương pháp dựa vào xác suất thống kê dựa vào trọng số từ , cụm từ văn Trong phương pháp có cách tính toán khác , nhiên phương pháp phải thực số bước chung , : phương pháp dựa vào thông tin xuất từ văn ( tần số xuất tập văn ,…) để biểu diễn thành dạng vector , sau tùy toán cụ thể mà định chọn áp dụng phương pháp , công thức tính toán cho phù hợp để phân loại tập văn dựa tập vector xây dựng bước , nhằm mục đích đạt kết qủa phân loại tốt CHƯƠNG : CÁC HƯỚNG TIẾP CẬN PHÂN LOẠI VĂN BẢN Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Cùng với hướng nghiên cứu khác xử lý rút trích thông tin văn phân cụm ( clustering) , tổng luợc văn ( text summarization ) , phân loại văn tự động hướng nghiên cứu quan tâm nhiều năm gần Để phân loại văn công trình nghiên cứu thường dựa vào từ khóa , dựa ngữ nghĩa từ , tập thô hay số mô hình khác I Biểu diễn văn Như trình bày phần , bước qui trình phân loại văn thao tác chuyển văn mô tả duới dạng chuỗi từ thành mô hình khác , cho phù hợp với thuật toán phân loại ,thông thường nguời ta thường biểu diễn văn mô hình vector Ý tưởng mô hình xem văn ( D i ) biểu diễn theo dạng d i D = (d , i ) i i , i số dùng để nhận diện văn vector đặc trưng văn Di , : số luợng đặc trưng vector văn , w ij d i = ( w i1 , w i , , w in ) , n là trọng số đặc trưng thứ j , j∈ {1,2, , n} Một vấn đề cần quan tâm biểu diễn văn theo vector đặc trưng việc chọn lựa đặc trưng số chiều cho không gian vector Cần phải chọn từ , từ , phương pháp chọn ? Đây câu hỏi phải trả lời qúa trình chuyển văn sang thành vector , có nhiều cách tiếp cận khác để trả lời cho câu hỏi , tiêu biểu sử dụng phương pháp Information Gain , phương pháp DF – Thresolding hay phương pháp Term Strength Phương pháp Information Gain sử dụng độ đo MI ( Mutual Information) để chọn tập từ khóa đặc trưng có độ đo MI cao Tuy nhiên , việc chọn lựa phương pháp tuỳ thuộc vào độ thích hợp , phù hợp phương pháp , độ đo mà phương pháp sử dụng so với toán mà Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt xem xét giải , văn trang web có phương pháp để chọn lựa đặc trưng khác so với văn loại khác Các đặc trưng văn biểu diễn dạng vector : - Số nhiều không gian đặc trưng thường lớn - Các đặc trưng độc lập - Các đặc trưng rời rạc : vector đặc trưng di có nhiều thành phần mang giá trị có nhiều đặc trưng không xuất văn di (nếu tiếp cận theo cách sử dụng giá trị nhị phân , để biểu diễn cho việc có xuất hay không đặc trưng văn biểu diễn thành vector) , nhiên đơn cách tiếp cận sử dụng giá trị nhị phân , kết qủa phân loại phần hạn chế đặc trưng văn xét văn xét lại có từ khóa khác với từ đặc trưng có ngữ nghĩa giống với từ đặc trưng , cách tiếp cận khác không sử dụng số nhị phân ,1 mà sử dụng giá trị số thực để phần giảm bớt rời rạc vector văn II.Các phương pháp phân loại văn II.1 Phương pháp SVM – Support Vector Machine SVM phương pháp phân loại hiệu qủa Vapnik giới thiệu năm 1995 Ý tưởng phương pháp cho trước tập huấn luyện biểu diễn không gian vector , văn xem điểm không gian Phương pháp tìm siêu mặt phẳng h định tốt chia điểm không gian thành hai lớp riêng biệt tương ứng , tạm gọi lớp + ( cộng ) lớp – ( trừ) Chất lượng siêu mặt phẳng định khoảng cách ( gọi biên) điểm liệu gần lớp đến mặt phẳng Khoảng cách biên lớn có phân chia tốt điểm thành hai lớp , nghĩa đạt kết qủa phân loại tốt Mục tiêu thuật toán SVM tìm khoảng cách biên lớn để tạo kết qủa phân loại tốt Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Có thể nói SVM thực chất toán tối ưu , mục tiêu thuật toán tìm không gian H siêu mặt phẳng định h H cho sai số phân loại thấp , nghĩa kết qủa phân loại cho kết qủa tốt Phương trình siêu mặt phẳng chứa vector di không gian sau : →→ di w + b =  → →  → →  +, d w + b >  → i h  d i  = sign  di w  =    →   →     −, d w + b < i  Như vector h(di) biểu diễn phân lớp vector di vào hai lớp Gọi Yi mang giá trị +1 -1 , Yi = +1 văn tương ứng với vector di thuộc lớp + ngược lại thuộc vào lớp - Khi để có siêu mặt phẳng h ta giải toán sau : → → Tìm Min w với w b thỏa điều kiện : ∀ i ∈ 1, n : y i (sign(d i − w + b)) ≥ Chúng ta thấy SVM mặt phẳng định phụ thuộc vào vector hỗ trợ có khoảng cách đến mặt phẳng định 1/wi Khi điểm khác bị xóa thuật toán cho kết qủa giống ban đầu Chính đặc điểm làm cho SVM khác với thuật toán khác kNN , LLSF , Nnet , NB tất liệu tập huấn luyện dùng để tối ưu hóa kết qủa II.2 Phương pháp K – Nearest Neighbor ( kNN) kNN phương pháp truyền thống tiếng theo hướng tiếp cận thống kê nghiên cứu nhiều năm qua kNN đánh giá phương pháp tốt sử dụng từ thời kỳ đầu nghiên cứu phân loại văn Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Ý tưởng phương pháp cần phân loại văn , thuật toán xác định khoảng cách (có thể áp dụng công thức khoảng cách Euclide , Cosine , Manhattan , …) tất văn tập huấn luyện đến văn để tìm k văn gần ,gọi k nearest neighbor – k láng giềng gần , sau dùng khoảng cách đánh trọng số cho tất chủ đề Khi , trọng số chủ đề tổng tất khoảng cách văn k láng giềng có chủ đề , chủ đề không xuất k láng giềng có trọng số Sau chủ đề xếp theo giá trị trọng số giảm dần chủ đề có trọng số cao chọn làm chủ đề văn cần phân loại Trọng số chủ đề cj văn x tính sau :  →  W x, c j =     →  sim x , →  y → , c j − b j ∑  d i  d i  →   d i ∈ {kNN} Trong : y (di, c) thuộc {0,1} , với : - y = : văn di không thuộc chủ đề cj - y = : văn di thuộc chủ đề cj sim (x , d) : độ giống văn cần phân loại x văn d Chúng ta sử dụng độ đo cosine để tính khoảng cách : →→ x.d → →  → →  i sim x ,  = cos x ,  =   d i d i →     → x d i - bj ngưỡng phân loại chủ đề cj tự động học sử dụng tập văn hợp lệ chọn từ tập huấn luyện Để chọn tham số k tốt cho thao tác phân loại , thuật toán cần chạy thử nghiệm nhiều giá trị k khác , giá trị k lớn thuật toán ổn định sai sót thấp Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt II.3.Phương pháp Naïve Bayes (NB) NB phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học nhiều lĩnh vực khác công cụ tìm kiếm , lọc mail … Ý tưởng cách tiếp cận sử dụng xác suất có điều kiện từ cụm từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại.Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Như NB không tận dụng phụ thuộc nhiều từ vào chủ đề cụ thể Chính giả định làm cho việc tính toán NB hiệu qủa nhanh chóng phương pháp khác với độ phức tạp theo số mũ không sử dụng cách kết hợp từ để đưa phán đoán chủ đề Mục đích tính xác suất Pr(Cj, d’) , xác suất để văn d’nằm lớp Cj.Theo luật Bayes , văn d’ gán vào lớp Cj có xác suất Pr(Cj, d’) cao Công thức để tính Pr(Cj, d’) sau :   d'  Pr( C ) ∏ Pr( w | C )  j i j   i = ' H BAYES (d ) = argmax   d'  ∑ Pr( c') ∏ Pr( w i | C')  i =1  c' ∈ c c j ∈ C Với : - TF(wi, d’) số lần xuất từ wi văn d’ - |d’| số lượng từ văn d’ - wi từ không gian đặc trưng F với số chiều |F| - Pr(Cj) tính dựa tỷ lệ phần trăm số văn lớp tương ứng ( ) Pr C j = Cj C = Cj ∑ C' C' ∈ C Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt tập liệu huấn luyện - ( ) Pr w i | C j = ( ) + TF w i , c j F+ ( ) ∑ TF w ' , c j w'∈ F Ngoài có phương pháp NB khác kể ML Naïve Bayes , MAP Naïve Bayes , Expected Naïve Bayes Nói chung Naïve Bayes công cụ hiệu qủa số trường hợp Kết qủa xấu liệu huấn luyện nghèo nàn tham số dự đoán (như không gian đặc trưng) có chất lượng kém.Nhìn chung thuật toán phân loại tuyến tính thích hợp phân loại văn nhiều chủ đề NB có ưu điểm cài đặt đơn giản , tốc độ thực thuật toán nhanh , dễ dàng cập nhật liệu huấn luyện có tính độc lập cao với tập huấn luyện II.4 Phương pháp Linear Least Square Fit – LLSF LLSF cách tiếp cận ánh xạ phát triển Yang Chute vào năm 1992 Ban đầu LLSF thử nghiệm lĩnh vực xác định từ đồng nghĩa sau sử dụng phân loại vào năm 1994 Các thử nghiệm cho thấy hiệu suất phân loại LLSF ngang với phương pháp kNN kinh điển Ý tưởng LLSF sử dụng phương pháp hồi quy để học từ tập huấn luyện chủ đề có sẵn Tập huấn luyện biểu diễn dạng cặp vector đầu vào đầu sau: -Vector đầu vào văn bao gồm từ trọng số -Vector đầu gồm chủ đề với trọng số nhị phân văn ứng với vector đầu vào Giải phương trình cặp vector đầu vào , đầu thu ma trận đồng hệ số hồi quy từ chủ đề Phương pháp sử dụng công thức : Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt FLS = arg F FA − B Trong : - A, B ma trận đại diện tập liệu huấn luyện ( cột ma trận tương ứng vector đầu vào đầu ra) - FLS ma trận kết qủa ánh xạ từ văn vào vector chủ đề gán trọng số Nhờ vào việc xếp trọng số chủ đề , danh sách chủ đề gán cho văn cần phân loại Nhờ đặt ngưỡng lên trọng số chủ đề mà ta tìm chủ đề thích hợp cho văn đầu vào Hệ thống tự động học ngưỡng tối ưu cho chủ đề , giống với kNN Mặc dù LLSF kNN khác mặt thống kê , tìm thấy điểm chung cách làm hai phương pháp qúa trình học ngưỡng tối ưu Phương pháp Centroid – based vector Là phương pháp phân loại đơn giản , dễ cài đặt tốc độ nhanh có độ phức tạp tuyến tính O(n) Ý tưởng cách tiếp cận lớp liệu huấn luyện biểu diễn vector trọng tâm Việc xác định lớp văn thông qua việc tìm vector trọng tâm gần với vector biểu diễn văn thứ nhất.Lớp văn lớp mà vector trọng tâm đại diện khoảng cách xác định theo độ đo cosine Chúng ta có công thức tính vector trọng tâm lớp i : → = ∑ → C i {i} d d j ∈ {i} j Độ đo khoảng cácg vector x vector Ci : Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt →→ x C →  i cos x , →  =  C i →   → x C i Trong : - x vector văn cần phân loại - {i} tập hợp văn thuộc chủ đề Ci - Chủ đề vector x Cx thỏa mãn cos(x, Cx)= arg max (cos(x,Ci)) III.Kết luận : Các thuật toán phân loại từ thuật toán phân loại hai lớp (SVM) đến thuật toán phân loại đa lớp (kNN) có điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng Ngoài thuật toán kNN , NB , LLSF phải sử dụng ước lượng tham số ngưỡng tối ưu phân loại văn , thuật toán SVM tự xác định tham số tối ưu qúa trình thực thuật toán Xét mặt thời gian , phương pháp có thời gian huấn luyện khác nhau, phương pháp kNN , NB , LLSF có thời gian huấn luyện phân loại văn nhanh so với thuật toán lại , đồng thời dễ dàng cài đặt Một câu hỏi đặt : “ Để có kết qủa phân loại đạt kết qủa tốt cần yếu tố ? ” Có yếu tố quan trọng tác động đến kết qủa phân loại văn : 1) Cần tập liệu huấn luyện chuẩn đủ lớn thuật toán học phân loại Nếu có tập liệu chuẩn đủ lớn qúa trình huấn luyện tốt có kết qủa phân loại tốt sau học 2) Các phương pháp hầu hết sử dụng mô hình vector để biểu diễn văn , phương pháp tách từ văn đóng vai trò quan trọng qúa trình biểu diễn văn vector Yếu tố quan trọng , số ngôn ngữ tiếng Anh chẳng hạn thao tác tách từ văn đơn giản dựa vào khoảng trắng , nhiên ngôn ngữ Học viên : Trịnh Quốc Sơn - CH0401047 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt đa âm tiết tiếng Việt số ngôn ngữ khác sử dụng khoảng trắng tách từ không xác , phương pháp tách từ yếu tố quan trọng 3) Thuật toán sử dụng để phân loại phải có thời gian xử lý hợp lý , thời gian bao gồm : thời gian học , thời gian phân loại văn , thuật toán phải có tính tăng cường (incremental function) nghĩa không phân loại lại toàn tập văn thêm số văn vào tập liệu mà phân loại văn mà , thuật toán phải có khả giảm độ nhiễu ( noise ) phân loại văn CHƯƠNG : CÁC HƯỚNG TIẾP CẬN TÁCH TỪ I.CÁC HƯỚNG TIẾP CẬN DỰA TRÊN TỪ : Hướng tiếp cận dựa từ với mục tiêu tách từ hoàn chỉnh câu Hướng tiếp cận chia theo hướng : dựa thống kê (statistics - based) , dựa Học viên : Trịnh Quốc Sơn - CH0401047 10 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Mô hình vector đưa mô hình khung ,trong thành phần mô hình kết hợp hai tập term Điều thực cách xác định trọng số từ tập term tất văn Các trọng số từ sau dùng làm tảng để xác định mức độ tương đồng hai vector đặc trưng ( toán phân nhóm văn tập term gọi vector đặc trưng đặc trưng ) Trong mô hình vector , giá trị trọng số wij (sự kết hợp cặp (ki,dj)) số thực dương Khi đó, vector dj = = {wj1,wj2,wj3,….,wjt }, t số luợng từ hệ thống Mô hình vector đề nghị công thức để đánh giá mức độ tương đồng hai văn da db , cách so sánh mức độ tương đồng hai vector d a db Ví dụ dùng công thức tính cosin góc để xác định mức tương đồng hai vector , hình :   sim(d , d ) = d d |d |×|d a* a b a t b | b = ∑ (w × w i =1 t ∑ w × i =1 t bi ) ∑w i =1 bi Trong | da | | db | chuẩn vector da db Ở , sử dụng công thức cosine để xác định mức độ tương đồng hai vector , chúng có hai công thức nũa để xác định mức độ tương đồng , khoảng cách Euclidean Manhattan 4.3 Mô hình tương tự Học viên : Trịnh Quốc Sơn - CH0401047 26 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Trong phần , xem xét ba phương pháp khác , dùng để xác định mức độ tương đồng hai vector đặc trưng va vb Trong v = (w ,w i i1 i2 , , w in ) i ∈ { a, b} , ≤ wij ≤ , j ∈ {1,2, , n} , n tổng số đặc trưng vector Có ba phương pháp xác định mức độ tương đồng hai vector , dùng : Hệ số Cosine , Khoảng cách Euclidean Manhattan 4.3.1 Hệ số Cosine : Hệ số cosine hệ số dùng phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn Nếu hệ số cosine hai văn lớn mức độ tương đồng chúng lớn Cho hai vector va vb , mức độ tương đồng hai vector xác định công thức : ∑ (w × w ) n cos_sim (v , v ) = a b i =1 n ∑ w × i =1 bi n ∑w i =1 bi 4.3.2 Khoảng cách Euclidean : Khoảng cách Euclidean phương pháp phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector va vb , khoảng cách Euclidean định nghĩa sau : euc_dist Vì euc_dist (v , v ) a (v , v ) = a b ∑ ( w − w bi ) n i =1 nằm khoảng 1, mức độ tương đồng hai vector b n xác định công thức sau : ( ) euc _ sim va , vb = − euc_dist (v , v ) = − n a b n ∑ ( w − w bi ) n i =1 Học viên : Trịnh Quốc Sơn - CH0401047 27 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt 4.3.3 Khoảng cách Manhattan : Khoảng cách Manhattan phương pháp thứ ba dùng để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector va vb , khoảng cách Manhattan định nghĩa sau : man _dist Vì man _dist (v , v ) a (v , v ) = ∑ w n a b i =1 − wbi nằm khoảng 1, mức độ tương đồng hai b n vector xác định công thức sau : ( ) man _ sim va , vb = − man _dist n (v , v ) = − ∑ n a b n i =1 w −w bi Nhận xét : Ba phương pháp cho kết qủa tốt việc xác định mức độ tương đồng vector Tuy nhiên , thấy khoảng cách Manhattan phù hợp ,vì việc cho kết qủa tốt hai phương pháp ,nó hiệu qủa thực công thức tính toán đơn giản so với phương pháp Euclidean Cosine 4.4 Phương pháp rút trích đặc trưng : 4.4.1 Phương pháp truyền thống rút trích đặc trưng văn Theo truyền thống , văn D biểu diễn vector đặc trưng theo dạng (d1,d2,…,dn) , di trọng số đặc trưng thứ i n số lượng đặc trưng Mỗi đặc trưng tương ứng với từ xuất tập huấn luyện , sau loại bỏ stopword khỏi văn Phương pháp 1: Phương pháp phổ biến để rút trích đặc trưng dựa vào tần suất xuất từ riêng biệt văn Phương pháp thực thông qua hai bước sau Học viên : Trịnh Quốc Sơn - CH0401047 28 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt  Bước : Loại bỏ từ chung (ngữ nghĩa từ không ảnh hưởng đến nội dung văn bản) khỏi văn cách sử dụng từ điển đặc biệt , sử dụng danh sách từ tầm thường ( stopword )  Bước : Xác định tần suất xuất tfij từ Tj lại văn Di đặc biệt số lần xuất Tj Di Sau dựa vào tần suất xuất từ , tính giá trị trọng số cho từ Tj Và n từ Tj có giá trị trọng số lớn chọn làm n đặc trưng văn Phương pháp 2: Một phương pháp khác để rút trích đặc trưng văn kết hợp tần suất xuất từ văn tần suất xuất ngược văn (TF-IDF) Lúc có công thức tính giá trị trọng số cho từ Tj văn Di , sau : w = tf ij ih × log( N df ) j Trong : dfj số luợng văn tập văn N mà từ Tj có xuất Và tương tự phương pháp , n từ Tj có giá trị trọng số lớn chọn làm n đặc trưng văn Tuy nhiên , nhận thấy phương pháp rút trích đặc trưng trình bày không phù hợp , lý sau : o Phương pháp kết hợp TF-IDF lấy tất đặc trưng có tần suất xuất tương đối thấp văn o Các phương pháp trình bày không xem xét đến mức độ phủ đặc trưng rút trích Mức độ phủ đặc trưng định nghĩa số phần trăm văn chứa đặc trưng số đặc trưng rút trích Do phương pháp chọn n từ có giá trị trọng số lớn xem đặc trưng , dẫn tới bảo đảm đặc trưng có số phần trăm bao phủ văn cao Hơn , số phần trăm bao phủ thấp có nhiều văn biểu diễn vector Học viên : Trịnh Quốc Sơn - CH0401047 29 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt đặc trưng , mà tất thành phần vector có giá trị ( giá trị trọng số không ) o Nếu tất từ chọn đặc trưng chiều dài vector đặc trưng lên tới số hàng ngàn Điều làm cho thời gian xử lý lâu Khi tất đặc trưng chọn theo [8] có 4% vector mà giá trị tất thành phần vector khác 0.Như 96% không gian nhớ bị bỏ trống , vector đặc trưng dùng để biểu diễn văn 4.4.3 Phương pháp rút trích đặc trưng đề nghị sử dụng Chúng ta sử dụng phương pháp rút trích đặc trưng cho phù hợp Chúng ta chọn phương pháp để rút trích đặc trưng , yếu tố sau :  Phương pháp không phụ thuộc vào tần suất xuất từ văn  Phương pháp cân yếu tố mức độ bao phủ số luợng đặc trưng đuợc sử dụng để biểu diễn văn Chi tiết bước thực phương pháp :  Bước : Loại bỏ từ tầm thường (stopword)  Bước : Đếm tần suất xuất từ bước  Bước : Đặt lower = k , upper = k (tần suất xuất từ (giả định ban đầu) xác định xác số lượng đặc trưng tìm có mức độ phủ lớn ngưỡng T ,thông thường ngưỡng T gán khoảng 0.95 – 95% )  Bước : Chọn tất từ với tần suất xuất nằm khoảng từ lower đến upper  Bước : Kiểm tra mức độ phủ từ  Nếu mức độ phủ lớn ngưỡng T định nghĩa trước dừng Học viên : Trịnh Quốc Sơn - CH0401047 30 Khóa Luận Môn DataMiningNghiên Cứu Phân Loại Văn Bản Tiếng Việt Ngược lại đặt lower = lower –1 upper = upper + quay lại bước II SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN II.1.Lý chọn Naïve Bayes : NB phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học nhiều lĩnh vực khác công cụ tìm kiếm , lọc mail … Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Như NB không tận dụng phụ thuộc nhiều từ vào chủ đề cụ thể Chính giả định làm cho việc tính toán NB hiệu qủa nhanh chóng phương pháp khác với độ phức tạp theo số mũ không sử dụng cách kết hợp từ để đưa phán đoán chủ đề Nhìn chung thuật toán phân loại tuyến tính thích hợp phân loại văn nhiều chủ đề NB có ưu điểm cài đặt đơn giản , tốc độ thực thuật toán nhanh , dễ dàng cập nhật liệu huấn luyện có tính độc lập cao với tập huấn luyện Chính đặc điểm nên Naïve Bayes đề nghị sử dụng để phân loại văn II.2 Ý tưởng công thức Bayes : Mục đích tính xác suất Pr(Cj, d’) , xác suất để văn d’nằm lớp Cj.Theo luật Bayes , văn d’ gán vào lớp Cj có xác suất Pr(Cj, d’) cao Công thức để tính Pr(Cj, d’) sau : Học viên : Trịnh Quốc Sơn - CH0401047 31 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt   d'  Pr( C ) ∏  Pr ( w i | C j) j   i =1 H BAYES (d ') = argmax   d'  ∑ Pr( c') ∏ Pr( w i | C')  i =1  c' ∈ c c j ∈ C Với : - TF(wi, d’) số lần xuất từ wi văn d’ - |d’| số lượng từ văn d’ - wi từ không gian đặc trưng F với số chiều |F| - Pr(Cj) tính dựa tỷ lệ phần trăm số văn lớp tương ứng ( ) Pr C j = Cj C = tập liệu huấn luyện - ( ) Pr w i | C j = Cj ∑ C' ' C ∈C ( ) + TF w i , c j F+ ( ) ∑ TF w ' , c j w'∈ F II.3 Một số cải tiến : Các công thức chuẩn Bayes dùng thông tin xác suất học từ tập liệu huấn luyện Tuy nhiên , đề xuất sử dụng phương pháp H.Nguyễn không sử dụng tập liệu huấn luyện mà sử dụng kết qủa mà search engine trả , số công thức thay đổi 3.1 Ước lượng P(X|Y) P(X = w j | Y = ci) ≈ # D{X = w j ∧ Y = ci} # D{Y = ci} Nếu sử dụng cho tập ngữ liệu có sẵn, công thức có nghĩa xác suất chủ đề c i chứa văn có trọng số wj số văn có chứa wj thuộc ci tổng số văn thuộc chủ đề ci Tuy nhiên , trường hợp , kết qủa trả từ search Học viên : Trịnh Quốc Sơn - CH0401047 32 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt engine Google chẳng hạn xác định số văn thực thuộc chủ đề Do công thức đề nghị đổi lại : P(X = w j | Y = ci) ≈ # D{X = w j ∧ Y = ci} # D{Y = ci} = ( ) p w j & ci + ( ) ∑k p w j & ck + Y Trong : - p(wj & ci) xác suất xuất đồng thời wj ci - k số thứ tự chủ đề , k thuộc {1,2,… |Y|} 3.2 Ước lượng P(Y) Ở công thức , giả sử văn chứa từ khóa ci thuộc chủ đề c i Khi P (Y=ci) xác suất xuất ci tổng số văn chứa tất chủ đề P(Y = ci) ≈ # D{Y = ci} p( c i ) = D ∑ jp c j ( ) Trong : - p(ci) : tần số xuất chủ đề ci search engine - j : số chủ đề cần phân loại 3.3 Ước lượng P(Y|X) Từ công thức , có công thức cho phân loại văn : P(Y = ci | w1 w w m)) = p( c i ) ∏ k p( w k & ci ) ∑ j p c j ∏k p w k & c j ( ) ( ) Tài liệu tham khảo : [1] Đỗ Phúc , Trịnh Quốc Sơn : Xây dựng hệ thống tạo kiến trúc phân cấp cụm trang web hỗ trợ tìm kiếm thông tin 2003 Học viên : Trịnh Quốc Sơn - CH0401047 33 Khóa Luận Môn DataMining [2] Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương : "Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội, 02/2003 [3] Hoàng Kiếm, Đỗ Phúc : "Phân loại văn dựa cụm từ phổ biến", kỷ yếu hội nghị khoa học lần 2, Trường Đại Học Khoa Học Tự Nhiên , 2000 [4] Đỗ Phúc : Chuyên đề khai phá liệu nhà kho liệu, Giáo trình đào tạo cao học CNTT qua mạng – Đại học Quốc gia TPHCM , 2005 [5] Đỗ Phúc , Nguyễn Thị Kim Phụng : Phát triển công cụ quản trị nội dung diễn đàn thảo luận qua mạng , 2005 [6] H.Nguyễn et al : Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese , 2005 [7] Le An Ha : A method for word segmentation Vietnamese , 2003 [8] R Shepard , P Arabie : Clustering : Representation of Similarities as Combinations of Discrete Ovelapping Properties 1997 [9] L Blum , P Langley Selection of relevant features and examples in machine learning , Artifficial Intelligence , 1997 [10] M Dash , H Liu Features selection for classification Intelligent Data Analysis , 1997 [11] L Talavera Features selection as a preprocessing step for hierarchical clustering 1999 Học viên : Trịnh Quốc Sơn - CH0401047 34 Khóa Luận Môn DataMining [12] Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Alessandro Moschitti, May 8, 2003, Natural Language Processing and Automated Text Categorization, PhD Thesis in Computer Science and Control Engineering , University of Rome [13] Abney S (1997), "Part-of-Speech Tagging and Partial Parsing", in Young S and Bloothooft (Eds), Corpus-Based Methods in Language and Speech processing, Kluwer Academic Publishers, Dodreht (The Netherlands), 1997 [14] Brill E (1995), "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging", Computational Linguistics Phụ lục Danh sách từ tầm thường ( stopword ) Học viên : Trịnh Quốc Sơn - CH0401047 35 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Hay bạn họ cần mày sau vừa trước anh trái gồm chị phải bao gồm bên bên trái bên phải cô anh đồng thời chị vài cụ thể mày sau bạn đằng sau bạn đằng trước bên chúng bên nên nhiều tám chúng tao chí chín mặc kệ chúng mày lúc chúng lúc riêng lúc tao vào lúc thật mày thật Học viên : Trịnh Quốc Sơn - CH0401047 36 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt dù theo tớ mi dù đủ lúc trước dù trước lúc thuộc trước khoảng nhiên mà khoảng chừng bị cỡ chừng mà trời với ôi dù bất chấp nhiều không chẳng nên lại cho phải hầu hết mà cho cho vậy năm từ sáu cuối bảy bất cuối trừ hồi nè liên tiếp Học viên : Trịnh Quốc Sơn - CH0401047 37 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt để tức thế tức khắc mà mà hai ba chưa bốn số qúa mặt tự vân vân hoàn toàn tiếp đến ví dụ vân vân tiếp tục mãi nghĩa mà làm mà lên nên tức tức mặt khác mà mà liên tục luôn sẵn sàng ối trời ối lại đâu lẫn Học viên : Trịnh Quốc Sơn - CH0401047 38 Khóa Luận Môn DataMining phía Nghiên Cứu Phân Loại Văn Bản Tiếng Việt mười Học viên : Trịnh Quốc Sơn - CH0401047 39 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Học viên : Trịnh Quốc Sơn - CH0401047 40 ... Trịnh Quốc Sơn - CH0401047 20 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Phương pháp có độ xác cao nên sử dụng để khởi tạo cá thể ban đầu phù hợp , tạo các thể gần để giảm... nhận được, thời gian chạy ban đầu chậm phải lấy thông tin từ mạng Internet Học viên : Trịnh Quốc Sơn - CH0401047 23 Khóa Luận Môn DataMining Nghiên Cứu Phân... CH0401047 26 Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Trong phần , xem xét ba phương pháp khác , dùng để xác định mức độ tương đồng hai vector đặc trưng va vb Trong v = (w ,w

Ngày đăng: 08/04/2017, 23:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương : "Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội, 02/2003 Sách, tạp chí
Tiêu đề: Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt
[3] Hoàng Kiếm, Đỗ Phúc : "Phân loại văn bản dựa trên cụm từ phổ biến", kỷ yếu hội nghị khoa học lần 2, Trường Đại Học Khoa Học Tự Nhiên , 2000 Sách, tạp chí
Tiêu đề: Phân loại văn bản dựa trên cụm từ phổ biến
[4] Đỗ Phúc : Chuyên đề khai phá dữ liệu và nhà kho dữ liệu, Giáo trình đào tạo cao học CNTT qua mạng – Đại học Quốc gia TPHCM , 2005 Sách, tạp chí
Tiêu đề: Chuyên đề khai phá dữ liệu và nhà kho dữ liệu
[13] Abney S. (1997), "Part-of-Speech Tagging and Partial Parsing", in Young S. and Bloothooft (Eds), Corpus-Based Methods in Language and Speech processing, Kluwer Academic Publishers, Dodreht (The Netherlands), 1997 Sách, tạp chí
Tiêu đề: Part-of-Speech Tagging and Partial Parsing
Tác giả: Abney S
Năm: 1997
[14] Brill E. (1995), "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging", Computational Linguistics Sách, tạp chí
Tiêu đề: Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging
Tác giả: Brill E
Năm: 1995
[5] Đỗ Phúc , Nguyễn Thị Kim Phụng : Phát triển công cụ quản trị nội dung trên diễn đàn thảo luận qua mạng , 2005 Khác
[6] H.Nguyễn et al : Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese , 2005 Khác
[7] Le An Ha : A method for word segmentation Vietnamese , 2003 Khác
[8] R Shepard , P Arabie : Clustering : Representation of Similarities as Combinations of Discrete Ovelapping Properties . 1997 Khác
[9] L Blum , P Langley . Selection of relevant features and examples in machine learning , Artifficial Intelligence , 1997 Khác
[10] M Dash , H Liu . Features selection for classification . Intelligent Data Analysis , 1997 Khác
[11] L . Talavera . Features selection as a preprocessing step for hierarchical clustering . 1999 Khác
[12] Alessandro Moschitti, May 8, 2003, Natural Language Processing and Automated Text Categorization, PhD Thesis in Computer Science and Control Engineering , University of Rome Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN