Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
791,77 KB
Nội dung
Luận văn tốt nghiệp Biểu diễn văn lý thuyết tập mờ Áp dụng toán phân lớp văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường LỜI CẢM ƠN Em xin bày tỏ lịng kính trọng biết ơn sâu sắc tới thầy giáo, tiến sĩ HÀ QUANG THỤY, Trường Đại học Công nghệ, ĐHQG Hà Nội tiến sĩ ĐOÀN SƠN, Đại học Tohoku, Nhật Bản hướng dẫn động viên em nhiều trình làm luận văn Em xin gửi lời cảm ơn tới Thầy, Cô Trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội nhóm Xeminar thuộc môn Các Hệ thống Thông tin, người dạy dỗ, giúp đỡ bảo cho em suốt trình học tập Cuối cùng, xin gửi lời biết ơn tới gia đình, nơi sinh thành, nuôi dưỡng động viên nhiều thời gian qua Hà Nội ngày 20/05/2006 Sinh viên Nguyễn Việt Cường i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường TĨM TẮT Biểu diễn văn công đoạn quan trọng quan tâm vấn đề xử lý văn Nó có ảnh hưởng lớn đến tốn tìm kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản… Khóa luận trình bày nghiên cứu phương pháp biểu diễn văn dựa sở lý thuyết tập mờ áp dụng vào toán phân lớp văn Nội dung khóa luận tập trung vào vấn đề sau: Trình bày số phương pháp biểu diễn văn thông thường, đó, khóa luận sâu vào cách biểu diễn theo mơ hình vector, tức văn biểu diễn vector có thành phần từ khóa có mặt khơng có mặt văn Sau đó, khóa luận tìm hiểu phương pháp biểu diễn văn máy tìm kiếm Trình bày lý thuyết tập mờ, đề cập cách biểu diễn văn dựa khái niệm mờ Từ đề xuất hướng giải xuất từ đồng nghĩa văn Tiến hành thử nghiệm cách biểu diễn vào toán phân lớp văn Chỉ số kết phân lớp so sánh với phương pháp biểu diễn theo mơ hình vector thơng thường Từ rút số kết luận hướng phát triển ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường MỤC LỤC LỜI CẢM ƠN i TÓM TẮT .ii MỤC LỤC iii MỞ ĐẦU Chương KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Tổng quan khai phá liệu 1.1.1 Khái niệm 1.1.2 Các bước trình khai phá liệu 1.1.3 Ứng dụng khai phá liệu 1.2 Một số toán khai phá liệu văn 1.2.1 Tìm kiếm văn .6 1.2.2 Phân lớp văn .7 Chương CÁC PHƯƠNG PHÁP CƠ BẢN BIỂU DIỄN VĂN BẢN .10 2.1 Tiền xử lý văn 10 2.2 Mơ hình Logic .12 2.3 Mơ hình phân tích cú pháp 14 2.4 Mơ hình khơng gian vector 15 2.4.1 Mơ hình Boolean 17 2.4.2 Mơ hình tần suất .17 2.5 Biểu diễn văn máy tìm kiếm .20 2.5.1 Giới thiệu máy tìm kiếm 20 2.5.2 Mơ hình biểu diễn văn máy tìm kiếm 21 Chương BIỂU DIỄN VĂN BẢN SỬ DỤNG CÁC KHÁI NIỆM MỜ 23 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường 3.1 Lý thuyết mờ .23 3.1.1 Tập mờ 23 3.1.2 Các phép toán tập mờ 25 3.1.3 Quan hệ mờ .27 3.1.4 Các phép toán quan hệ mờ 27 3.2 Biểu diễn văn sử dụng khái niệm mờ 29 3.2.1 Khái niệm mờ 30 3.2.2 Biểu diễn văn .32 3.2.3 Đề xuất giải pháp cho vấn đề đồng nghĩa .32 Chương CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN 35 4.1 Tổng quan toán phân lớp 35 4.2 Các thuật toán phân lớp 36 4.2.1 Phân lớp dựa thuật toán Naive Bayes 36 4.2.2 Phân lớp dựa thuật toán K - Nearest Neighbor (KNN) .38 4.2.3 Phân lớp dựa vào thuật toán định 39 4.2.4 Phân lớp sử dụng Support Vector Machines (SVM) 41 Chương MỘT SỐ KẾT QUẢ THỰC NGHIỆM 43 5.1 Tập liệu tiền xử lý .43 5.2 Công cụ phương pháp phân lớp .44 5.3 Kết thực nghiệm 45 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 TÀI LIỆU THAM KHẢO 55 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường MỞ ĐẦU Ngày nay, phát triển mạnh mẽ Internet dẫn đến bùng nổ thông tin nhiều mặt kể nội dung lẫn số lượng Chỉ thao tác tìm kiếm đơn giản, ta nhận khối lượng khổng lồ trang web có chứa thơng tin liên quan tới nội dung ta tìm kiếm Tuy nhiên, dễ dàng mang đến cho người nhiều khó khăn việc chắt lọc thơng tin có ích để thu tri thức Phát tri thức khai phá liệu câu trả lời cho vấn đề nhằm phát tri thức từ khối liệu khổng lồ mà người có Trong loại liệu văn loại liệu phổ biến mà người thường gặp phải Mơ hình biểu diễn văn phổ biến mơ hình khơng gian vector, văn biểu diễn vector từ khóa Tuy nhiên tốn khai phá liệu văn thường gặp phải số khó khăn tính nhiều chiều văn bản, tính nhập nhằng ngơn ngữ… Trong khóa luận này, chúng tơi xin đề cập đến cách biểu diễn văn mới: biểu diễn dựa khái niệm mờ Trong đó, khái niệm xác định tập từ khóa liên quan Và mức độ liên quan khái niệm đến văn xác định hàm tích hợp mờ từ khóa Sau có tập khái niệm liên quan đến hay nhiều chủ đề cần phần lớp, văn xem vector có thành phần khái niệm mờ Với lượng thông tin dạng văn đồ sộ Internet, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin có hiệu Phân lớp (phân loại) thơng tin giải pháp hợp lý cho u cầu Khóa luận trình bày số thuật toán phân lớp tiêu biểu đưa hướng thực nghiệm cho phương pháp biểu diễn văn dựa khái niêm mờ Chúng áp dụng thuật toán KNN (k – người láng giềng gần nhất) phần mềm WEKA (K-người láng giếng gần nhất) để tiến hành phân lớp Phần thực nghiệm cho thấy phương pháp biểu diễn văn dựa khái niệm mờ có kết phân lớp tốt so với phương pháp biểu diễn văn theo vector từ khóa Ngồi phần mở đầu kết luận, nội dung luận văn trình bày chương: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Chương 1, giới thiệu tổng quan khai phá liệu văn bản, số định nghĩa số tốn điển hình Chương 2, trình bày số phương pháp biểu diễn văn truyền thống: mơ hình tần suất, mơ hình phân tích cú pháp, mơ hình khơng gian vector Đồng thời nêu cách biểu diễn văn thường dùng máy tìm kiếm Chương 3, giới thiệu tổng quan lý thuyết tập mờ [9][14] số phép toán tập mờ Nội dung chương đề cập cách biểu diễn văn dựa khái niệm mờ Chương 4, trình bày tốn phân lớp văn số thuật toán phân lớp tiêu biểu Chương 5, kết thực nghiệm có áp dụng mơ hình biểu diễn toán phân lớp văn Đánh giá so sánh với mơ hình biểu diễn thơng thường LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Chương KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Tổng quan khai phá liệu 1.1.1 Khái niệm Khai phá liệu[1][7][13] khái niệm đời vào năm cuối thập kỷ 80 kỷ 20 Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn kho liệu, sở liệu (CSDL) có dung lượng lớn Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu có tính hệ thống tập liệu Một số định nghĩa tiêu biểu Data mining: Khái niệm data mining định nghĩa sau: “The nontrivial extraction of implicit, previously unknown, and potentially useful information from data” [13], tạm dịch: “là việc trích rút cách phức tạp thơng tin - ẩn, khơng biết trước có khả hữu ích - từ liệu” “The science of extracting useful information from large data sets or databases” [1], tạm dịch là: “Nghành khoa học chun trích chọn thơng tin có giá trị từ tập liệu lớn CSDL” Năm 1989, Fayyad, Piatestky-Shapiro Smyth đưa khái niệm “Phát tri thức sở liệu” (Knowledge Discovery in Databases - KDD) để toàn q trình phát tri thức có ích từ tập liệu lớn [6] Trong đó, khai phá liệu bước đặc biệt quan trọng tồn q trình, sử dụng thuật tốn chuyên dụng để chiết xuất mẫu (pattern) từ liệu 1.1.2 Các bước trình khai phá liệu Các thuật toán khai phá liệu thường miêu tả chương trình hoạt động trực tiếp tệp liệu Với phương pháp học máy thống kê trước đây, thường bước thuật tốn nạp tồn liệu vào nhớ để xử lý Khi chuyển sang ứng dụng công nghiệp liên quan đến việc khai phá kho liệu lớn, mơ hình khơng thể đáp ứng Khơng nạp hết liệu vào nhớ mà cịn khơng thể chiết suất liệu tệp đơn giản để phân tích LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Quá trình khai phá liệu bắt đầu cách xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Bước thu thập liệu có liên quan xử lý chúng thành định dạng cho thuật tốn khai phá liệu hiểu Về lý thuyết đơn giản thực thực q trình khó khăn, gặp phải nhiều vướng mắc liệu phải nhiều (nếu chiết suất vào tệp), quản lý tập tệp liệu, phải lặp lặp lại nhiều lần tồn q trình (nếu mơ hình liệu thay đổi) Sẽ cồng kềnh với thuật toán khai phá liệu phải truy nhập vào toàn nội dung CSDL làm việc Vả lại, điều không cần thiết Có nhiều thuật tốn khai phá liệu thực thống kê tóm tắt đơn giản CSDL, mà tồn thơng tin CSDL dư thừa mục đích việc khai phá liệu Bước chọn thuật tốn khai phá liệu thích hợp thực việc khai phá để tìm mẫu có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa Thơng thường mẫu biểu diễn dạng luật phân loại, định, luật sản xuất, biểu thức hồi quy, Hình 1: Quá trình khai phá liệu Đặc điểm mẫu phải mới, hệ thống Độ đo tương ứng với độ thay đổi liệu (bằng cách so sánh giá trị với giá trị trước giá trị mong muốn), tri thức (mối liên hệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường phương pháp tìm phương pháp cũ nào) Thường độ mẫu đánh giá hàm logic hàm đo độ mới, độ bất ngờ mẫu Ngồi ra, mẫu phải có khả sử dụng tiềm tàng Các mẫu sau xử lý diễn giải phải dẫn đến hành động có ích đánh giá hàm lợi ích Ví dụ liệu khoản vay, hàm lợi ích đánh giá khả tăng lợi nhuận từ khoản vay Mẫu khai thác phải có giá trị liệu với độ xác Vì thi hành thuật toán nhiệm vụ khai phá liệu khác dạng mẫu chiết xuất đa dạng Theo cách đơn giản nhất, phân tích cho kết chiết xuất báo cáo số loại, bao gồm phép đo mang tính thống kê độ phù hợp mơ hình, liệu lạ Trong thực tế đầu phức tạp nhiều Mẫu chiết suất mơ tả xu hướng, dạng văn bản, đồ thị mô tả mối quan hệ mơ hình, hành động, ví dụ yêu cầu người dùng làm với khai thác CSDL Như nhận thấy kỹ thuật khai phá liệu thực chất kế thừa, kết hợp mở rộng kỹ thuật nghiên cứu từ trước học máy, nhận dạng, thống kê (hồi quy, xếp loại, phân nhóm), mơ hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia Tuy nhiên, với kết hợp hướng mục tiêu khai phá liệu, kỹ thuật có ưu hẳn phương pháp trước đó, đem lại nhiều triển vọng việc ứng dụng phát triển nghiên cứu khoa học làm tăng mức lợi nhuận hoạt động kinh doanh 1.1.3 Ứng dụng khai phá liệu Tuy hướng tiếp cận khai phá liệu thu hút nhiều quan tâm nhà nghiên cứu phát triển nhờ vào ứng dụng thực tiễn [xx] Chúng ta liệt kê số ứng dụng điển hình: Phân tích liệu hỗ trợ định (data analysis & decision support) Điều trị y học (medical treatment) Text mining & Web mining Tin-sinh học (bio-informatics) Tài thị trường chứng khoán (finance & stock market) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Cơng thức Phương trình siêu mặt phẳng chứa vector d i không gian: d i w + b = ⎧⎪+ 1, d i w + b > Đặt h (d i ) = sign (d i w + b) = ⎨ ⎪⎩− 1, d i w + b < Từ đó, h(d i ) biễu diễn phân lớp d i vào hai lớp nói Có y i = {±1}, với yi = +1, văn d i ∈ lớp “+”; với yi = - 1, d i ∈ lớp “-” Lúc muốn có siêu mặt phẳng h, ta giải tốn sau: Tìm Min || w ||, w b thỏa mãn điều kiện: ∀i ∈ 1, n : y i ( sign(d i w + b)) ≥ Khi ta sử dụng tốn tử Lagrange biến đổi thành dạng thức để giải toán Ở phương pháp SVM, mặt phẳng định phụ thuộc vào điểm gần (vector hỗ trợ - support vector) mà có khoảng cách đến là: w Khi điểm khác bị xóa khơng ảnh hưởng đến kết ban đầu 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Chương MỘT SỐ KẾT QUẢ THỰC NGHIỆM 5.1 Tập liệu tiền xử lý Mô tả liệu đầu vào Chúng tiến hành thử nghiệm sở liệu phân lớp chuẩn 20newsgroup có 19997 tài liệu, phân thành 20 lớp Mỗi lớp có khoảng 1000 tài liệu Tuy nhiên, số lượng văn tập liệu lớn, nên chọn lớp để thử nghiệm Đó lớp: rec.sport.; rec.autos Chúng tiến hành thực nghiệm với số lượng tài liệu lớp là: 50, 100, 500 Trong tỷ lệ tập train tập test là: 2/1 Biểu diễn văn qua từ khóa Với tập liệu kiểm tra, trước tiên thực bước tiền xử lý: loại bỏ từ dừng Chương trình loại bỏ từ dừng viết ngơn ngữ C/C++ Sau đó, chúng tơi tạo tập từ khóa tập liệu Sau hồn thành bước trên, tiến hành biểu diễn văn Các văn biểu diễn dạng vector từ khóa Định dạng vector sau: Name_VB(id1,TS1; id2,TS2;…idn,TSn), đó: Name_VB tên văn bản, idi số từ khóa thứ i tập từ khóa trên; TSi trọng số từ khóa thứ i Trọng số từ khóa tính cơng thức TF.IDF (chương II) Chương trình viết ngôn ngữ C/C++ Biểu diễn văn qua khái niệm mờ Từ tập từ khóa tạo trên, chúng tơi tìm cụm từ khóa có liên quan với Từ xác định khái niệm mờ đại diện cho cụm Một vài ví dụ cách biểu diễn cụm từ khóa liên quan khái niệm mờ sau: “sport” = {hockey, baseball, sport, winner, finals, won, game, teams, played, season , cup, stars, fans, newspaper, begin, goaltender, league, day, distribution, pic, predictions, champions, scorer, power, driver, time, finished, worried, public, matter, blow, car, miles} 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường “wood” = {hiller, wood} “academic” = {university, academic, computer, science, school, laboratory, college, staff, chemistry, technology, operating} “humour” = {jokes, humour, coyote, average} “cool” = {cool, air} “speed” = {speed, coordination, skating, hilarious, observation, advised, ranked} “raise” = {breakthrough, raise} Sau xác định khái niệm mờ kết hợp với tập từ khóa văn bản, biểu diễn văn theo khái niệm mờ Từ trọng số từ khóa văn bản, sử dụng hàm tích hợp mờ MAX, ta xác định độ liên quan khái niệm mờ văn Nếu từ khóa có liên quan khái niệm mờ không nằm văn xét, độ liên quan khái niệm đến văn 5.2 Công cụ phương pháp phân lớp Công cụ phân lớp: Chúng sử dụng công cụ phân lớp phần mềm Weka Khóa luận xin cung cấp số thông tin weka sau: Weka phần mềm nguồn mở khai phá liệu phát triển đại học University of Waikato nước New Zealand “Weka” từ viết tắt cho cụm từ Waikato Environment for Knowledge Analysis Weka sử dụng nhiều cấp độ khác Cấp độ đơn giản ta áp dụng thuật toán Weka để xử lý liệu từ dịng lệnh Nó bao gồm nhiều cơng cụ dùng cho việc biến đổi liệu, thuật tốn dùng để rời rạc hóa liệu Weka cung cấp tất chức khai phá liệu bao gồm thuật toán phân lớp (classifier), thuật toán tiền xử lý liệu (filter), thuật toán phân cụm (cluster), thuật toán kết tập luật (association rule) 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Chương trình chuyển từ biểu diễn theo từ khóa theo khái niệm mờ sang liệu chuẩn weka viết ngôn ngữ Java Tập văn trước biểu diễn theo vector trọng số từ khóa trở thành Input Sau đó, tiến hành chạy chương trình cho output file liệu chuẩn weka Phương pháp phân lớp : Trong chương 4, khóa luận trình bày số thuật tốn phân lớp Qua phân tích, chúng tơi nhận thấy rằng: phương pháp K - Nearest Neighbor phương pháp đơn giản đánh giá phương pháp tốt cho hiệu cao Vì vậy, chúng tơi chọn thuật toán K - Nearest Neighbor thực nghiệm 5.3 Kết thực nghiệm Có hai đại lượng thường dùng để đo hiệu suất phân lớp văn bản, precision (độ xác) recall (độ hồi tưởng) Ngồi người ta cịn xác định thêm thông số F1 F1 số cân độ xác độ hồi tưởng, F1 lớn độ xác độ hồi tưởng lớn cân bằng, F1 nhỏ độ xác độ hồi tưởng nhỏ không cân Mục tiêu toán F1 cao tốt Trong lớp văn C, kiểm tra độ xác phân lớp, người ta xác định đại lượng: precision, recall F1 sau: Trong đó: num_of_match: số lượng văn gán nhãn num_of_model: số lượng văn mơ hình gán nhãn lớp C num_of_manual: số lượng văn thuộc lớp C 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Khi phân lớp với liệu 50 văn Trong đó: Traning set: 34, Test set: 16 Sau thử với số giá trị tham số k, thấy k = 2, có kết phân lớp cao Biểu diễn văn tập từ khóa: Kết output sau: Correctly Classified Instanse: 10 62.5% InCorrectly Classified Instances: 37.5% -Precision Recall F1 Class 0.25 0.4 rec.autos_25 0.571 0.72 rec.Sport_25 -a b < -classified as | a = rec.autos_25 | b = rec.sport_25 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Biểu diễn khái niệm mờ: Kết output sau: Correctly Classified Instanse: 13 81.25% InCorrectly Classified Instances: 18.75% -Precision Recall F1 Class 0.625 0.769 rec.autos_25 0.727 0.842 rec.Sport_25 -a b < -classified as | a = rec.autos_25 | b = rec.sport_25 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Khi phân lớp với liệu 100 văn Trong đó: Traning set: 64, Test set: 32 Cũng giống với liệu gồm 50 văn bản, nhận thấy liệu này, k = cho ta kết phân lớp cao Biểu diễn văn tập từ khóa: Kết sau: Correctly Classified Instanse: 23 71.875% InCorrectly Classified Instances: 28.125% -Precision Recall F1 Class 0.438 0.609 rec.autos_50 0.64 0.780 rec.Sport_50 -a b < -classified as | a = rec.autos_50 16 | b = rec.sport_50 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Biểu diễn văn khái niệm mờ: Kết sau: Correctly Classified Instanse: 27 84.375% InCorrectly Classified Instances: 15.625% -Precision Recall F1 Class 0.688 0.815 rec.autos_50 0.762 0.865 rec.Sport_50 -a b < -classified as 11 | a = rec.autos_50 16 | b = rec.sport_50 Khi phân lớp với liệu 500 văn Trong đó: Traning set: 334, Test set: 166 Không giống với hai trường hợp trên, trường hợp này, k = cho kết phân lớp tốt 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Biểu diễn văn tập từ khóa: Kết sau: Correctly Classified Instanse: 131 78.916% InCorrectly Classified Instances: 35 24.084% -Precision Recall F1 Class 0.929 0.627 0.748 rec.autos_250 0.718 0.952 0.818 rec.Sport_250 -a b < -classified as 52 31 | a = rec.autos_250 79 | b = rec.sport_250 Biểu diễn văn tập khái niệm mờ: 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Kết sau: Correctly Classified Instanse: 146 87.952% InCorrectly Classified Instances: 20 12.048% -Precision Recall F1 Class 0.957 0.795 0.868 rec.autos_250 0.825 0.964 0.889 rec.Sport_250 -a b < -classified as 66 17 | a = rec.autos_250 80 | b = rec.sport_250 Qua ba trường hợp trên, nhận thấy: số lượng văn tập training tập test nhỏ, kết phân lớp với thuật tốn kNN khơng cao Khi tăng dần số 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường lượng văn lên, kết có tốt Giá trị tham số k tỷ lệ thuận với số lượng Đồ thị so sánh việc biểu diễn văn theo khái niệm mờ việc biểu diễn theo từ khóa thơng thường: 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt Dựa vào nghiên cứu gần tốn xử lý văn bản, khóa luận nghiên cứu, chọn lọc phát triển số vấn đề đạt kết ban đầu sau: Tìm hiểu trình bày số phương pháp biểu diễn văn Nghiên cứu lý thuyết tập mờ phép tốn liên quan Qua giới thiệu phương pháp biểu diễn văn dựa khái niệm mờ Nghiên cứu tìm hiểu tốn phân lớp, trình bày số thuật tốn phân lớp tiêu biểu Có kết thử nghiệm, so ban đầu áp dụng cách biểu diễn văn với cách biểu diễn thông thường Qua thấy số ưu điểm: Giảm bớt số chiều vector văn biểu diễn Giảm bớt phức tạp tính tốn Cho kết tốt áp dụng vào toán phân lớp với thuật toán kNN Hướng phát triển Chúng tơi xin đề xuất phương pháp tìm từ khóa có liên quan văn bản: Có tập từ khóa tập văn qua bước tiền xử lý Trong tập từ khóa này, tìm cụm từ xuất văn đếm số lần xuất Đặt ngưỡng α, số lần xuất vượt qua ngưỡng ta coi từ cụm có liên quan đến Có nhiều cách để chọn từ khóa cụm làm khái niệm, chẳng hạn lấy từ có trọng số cao 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường Thời gian tới, tiến hành phân lớp thuật tốn khác nhau: Nạve Bayes, Cây quyêt định, SVM… để so sánh kết phân lớp tìm thuật tốn phân lớp tốt áp dụng phương pháp biểu diễn theo khái niệm mờ 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đinh Trung Hiếu, Vũ Bội Hằng, Nguyễn Cẩm Tú, Giải pháp tìm kiếm theo lĩnh vực máy tìm kiếm, Báo cáo nghiên cứu khoa học Khoa Cơng Nghệ, ĐHQGHN năm 2004 [2] Đồn Sơn (2002) Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phá liệu văn Luận văn thạc sỹ Khoa Công Nghệ, ĐHQGHN, năm 2002 Tiếng Anh: [1] D Hand, H Mannila, P Smyth, Principles of Data Mining, MIT Press, Cambridge, MA, 2001 [2] D.Lewis, Representation and Learning in Information Retrieval, PhD Thesis, Graduate School of the University of Massachusetts, 1991 [3] D Tikk, J D Yang, and S L Bang, Hierarchical text categorization using fuzzy relational thesaurus Kybernetika, 39(5), pp 583–600, 2003 [4] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [5] F Sebastiani, Machine learning in automated text categorization, Technical Report IEI-B4-31-1999, Consiglio Nazionale delle Ricerche, Pisa, Italy, 1999 [6] G Piatetsky Shapiro, W Frawley (Eds), Knowledge Discovery in Databases, MIT Cambridge, MA,1991 [7] Ian H.Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, June 2005 [8]Maria-Luiza Antonie, Osmar R Zaıane, Text Document Categorization by Term Association, IEEE International Conference on Data Mining, pages 19 26, December 2002 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận tốt nghiệp Nguyễn Việt Cường [9] M Grabisch, S.A.Orlovski, R.R.Yager Fuzzy aggregation of numerical preferences, In R Slowinski, editor, Fuzzy Sets in Decision Analysis, Operations Research and Statistics, pages 31-68 [10] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 [11] S Eyheramendy, D Lewis and D Madigan, On the Naive Bayes Model for Text Categorization, In Proceedings of Artificial Intelligence & Statistics 2003 [12] T Joachims, Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp 137-142 [13] W Frawley, G Piatetsky-Shapiro, C Matheus, Knowledge Discovery in Databases: An Overview AI Magazine, Fall 1992 [14] H.J Zimmerman, Fuzzy set Theory and Its Applications, Kluwer Academic Publishers, 1991 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... biểu diễn văn dựa sở lý thuyết tập mờ áp dụng vào toán phân lớp văn Nội dung khóa luận tập trung vào vấn đề sau: Trình bày số phương pháp biểu diễn văn thơng thường, đó, khóa luận sâu vào cách biểu. .. Chương 4, trình bày tốn phân lớp văn số thuật toán phân lớp tiêu biểu Chương 5, kết thực nghiệm có áp dụng mơ hình biểu diễn toán phân lớp văn Đánh giá so sánh với mơ hình biểu diễn thơng thường LUAN... PHƯƠNG PHÁP CƠ BẢN BIỂU DIỄN VĂN BẢN 2.1 Tiền xử lý văn Trước bắt đầu trình biểu diễn văn bản, người ta tiến hành bước tiền xử lý văn Đây bước quan trọng có nhiệm vụ làm giảm số từ có biểu diễn văn