Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
820,47 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Tâm SỬDỤNGPHƯƠNGPHÁPXẾPHẠNGTRONGBÀITOÁNPHÂNCỤMTIẾNGVIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin \ HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Tâm SỬDỤNGPHƯƠNGPHÁPXẾPHẠNGTRONGBÀITOÁNPHÂNCỤMTIẾNGVIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S Trần Thị Oanh Cán bộ đồng hướng dẫn: CN Nguyễn Minh Tuấn HÀ NỘI - 2009 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh và Cử nhân Nguyễn Minh Tuấn, những người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi chân thành cảm ơn các thầy cô đã tạo cho tôi những điều kiện thuận lợi để họ c tập và nghiên cứu tại trường đại học Công nghệ. Tôi xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng Công nghệ tri thức và tương tác người máy – trường ĐH Công nghệ - ĐHQGHN đã tạo điều kiện và giúp tôi tiến hành thực nghiệm của khóa luận. Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè luôn bên cạnh và động viên cũng như tạo những điều kiện tốt nhất cho tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Sinh viên Phạm Thị Tâm i Tóm tắt Cùng với sự gia tăng nhanh chóng về số lượng các trang Web thì nhu cầu về khai phá dữ liệu Web ngày càng nhận được sự quan tâm của các nhà khoa học và các nhóm nghiên cứu. Trong lĩnh vực khai phá Web thì phâncụm Web là một trong những bàitoán cơ bản và quan trọng. Đây cũng là thành phần chịu nhiều ảnh hưởng của các đặc trưng ngôn ngữ. Khóa luận này tập trung nghiên cứu về bàitoánphâncụm Web sửdụngphươngphápxếp hạng. Trên cơ sở lý thuy ết phâncụm Web và lựa chọn các đặc trưng của tiếng Việt, khóa luận đã sửdụngphươngphápxếphạng các cụm từ quan trọng vào phâncụm các tài liệu Web tiếngViệt và tiến hành thực nghiệm. Kết quả thực nghiệm đánh giá theo các đặc trưng TFDF, độ dài (LEN), tương tự nội tại (ICS), entropy nội tại cụm văn bản (CE) cho thấy đặc trưng TFIDF và LEN có ảnh hưởng lớn h ơn so với các đặc trưng khác. ii Mục lục Tóm tắt i Mục lục ii Danh sách các bảng iv Danh sách các hình v Lời mở đầu 1 Chương 1. Khái quát về phâncụm Web 2 1.1. Giới thiệu về phâncụm Web 2 1.1.1. Đặc điểm bàitoánphâncụm web 3 1.1.2. Các yêu cầu đối với phâncụm web 4 1.1.3. Một số độ đo độ đánh giá 5 1.2. Một số thuật toánphâncụm web 6 1.2.1. Thuật toánphâncụm bottom-up (HAC - Hierarchical Agglomeraltive Clustering) 7 1.2.2. Thuật toánphâncụm top-down 9 1.3. Đánh giá các thuật toánphâncụm 18 Chương 2: Phâncụm văn bản tiếngViệt 19 2.1. Đặc trưng của tiếngViệt và tách từ trongtiếngviệt 19 2.1.1. Đặc trưng của tiếngViệt 19 2.1.2. Tách từ tiếngViệt 21 2.2. Một số nghiên cứu về phâncụmtiếngViệt 23 2.2.1. Phâncụm từ tiếngViệt bằng phươngpháp học máy cấu trúc 23 2.2.2. Đánh giá chất lượng phâncụmtrong máy tìm kiếm tiếngViệt 24 2.2.3. Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung chính của khối thông điệp trên diễn đàn thảo luận 26 iii Chương 3. Phâncụm văn bản sửdụng 27 phươngphápxếphạngcụm từ quan trọng 27 3.1. Khái quát bàitoán 27 3.1.1. Nhu cầu về phâncụm các kết quả tìm kiếm 27 3.1.2. Mô tả bàitoán và thuật toán 29 3.2. Trích các cụm từ quan trọng 31 3.2.1. Đặc trưng TFIDF 32 3.2.2. Đặc trưng độ dài 33 3.2.3. Đặc trưng tương tự nội tại cụm 33 3.2.4. Đặc trưng entropy nội tại cụm 34 3.2.5. Đặc trưng độc lập cụm từ 34 3.3. Xếphạng các cụm từ quan trọng 35 3.3.1. Hồi qui tuyến tính 35 3.3.2. Hồi qui logistic 36 3.3.3. Hồi qui hỗ trợ vector (Support vector regression) 36 Chương 4. Thực nghiệm và đánh giá 38 4.1. Dữ liệu của thực nghiệm 38 4.2. Cài đặt thực nghiệm 39 4.2.1. Phần cứng 39 4.2.2. Phần mềm 40 4.3. Phươngpháp đánh giá 40 4.4. Kết quả thực nghiệm và đánh giá 40 Kết luận 44 Tài liệu tham khảo 46 iv Danh sách các bảng Bảng 1: Kết quả phâncụm với truy vấn “Việt Nam” [15] 4 Bảng 2: Các tài liệu chứa cụm từ ở các node 16 Bảng 3: So sánh một số đặc điểm của tiếngViệt và tiếng Anh 21 Bảng 4: Các truy vấn trong tập huấn luyện 38 Bảng 5: Số cụm từ và số giá trị y=1 trong tập dữ liệu huấn luyện 39 Bảng 6: Độ chính xác khi sửdụng từng đặc trưng để xếphạng 41 Bảng 7: Độ chính xác của từng truy vấn 42 v Danh sách các hình Hình 1: Minh họa để tính cosin của hai vector 6 Hình 2: Cây hậu tố mở rộng 16 Hình 3: Kết quả sau khi trộn các tài liệu 17 Hình 4: Thống kê về tách từ tiếng Hoa và tiếngViệt [12] 22 Hình 5: Hệ thống phâncụm từ tiếngViệt theo phươngpháp học máy cầu trúc 24 Hình 6: Ví dụ với truy vấn “Việt Nam” trên máy tìm kiếm google[14] 28 Hình 7: Ví dụ với truy vấn “Việt Nam” trên máy tìm kiếm Vivisimo[15] 28 Hình 8: Biểu đồ độ chính xác khi sửdụng từng đặc trưng để xếphạng 41 Hình 9: Biểu đồ độ chính xác của từng truy vấn 42 1 Lời mở đầu Internet được phát triển nhanh chóng và sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web), đã trở thành một kênh quan trọng về mọi thông tin của đời sống. Chính vì vậy, lĩnh vực khai phá Web có tốc độ phát triển vượt bậc, nhận được nhiều sự quan tâm của các nhà khoa học và các nhóm nghiên cứu. Một trong những bàitoán quan trọngtrong lĩnh vực khai phá Web chính là phâncụm Web [6]. Số lượng các trang Web là rất lớ n và luôn luôn thay đổi, mỗi tài liệu không chỉ liên quan đến một khía cạnh mà còn đề cập đến nhiều khía cạnh khác nhau dẫn đến sự trùng lặp thông tin giữa các tài liệu. Xuất phát từ những đặc điểm này mà phâncụm Web chỉ nên thực hiện trên các tài liệu Web của một truy vấn trả về từ máy tìm kiếm. Sau đó kết quả sẽ được tổ chức lại cho người dùng theo các cụm. Khóa luận vớ i đề tài “Sử dụngphươngphápxếphạngtrongbàitoánphâncụmtiếng Việt” nghiên cứu về phâncụm Web, phâncụmtrongtiếngViệt và bàitoánphâncụm tài liệu Web dựa vào việc xếphạng các cụm từ quan trọng. Khóa luận cũng trình bày kết quả và đánh giá ban đầu về thực nghiệm ứng dụng kỹ thuật phâncụm trên trong các tài liệu web tiếng Việt. Khóa luận gồm 4 chương với nội dung các chươ ng được miêu tả như dưới đây: Chương 1: Khái quát về phâncụm Web. Chương 1 trình bày những nét cơ bản nhất về bàitoánphâncụm Web gồm: định nghĩa và đặc điểm của bài toán, một số độ đo độ đánh giá, các phươngphápphâncụm phổ biến, đánh giá về các phương pháp. Chương 2: Phâncụm văn bản tiếng Việt. Chương này sẽ trình bày về các đặc đ iểm của tiếngViệt và các hướng tiếp cận trong việc tách từ tiếng Việt, đồng thời cũng nêu ra một số đề tài đã được nghiên cứu về phâncụmtrongtiếng Việt. Chương 3: Phâncụm văn bản sửdụngphươngphápxếphạngcụm từ quan trọng. Nội dung chính của chương này là kỹ thuật phâncụm các kết quả trả về của máy tìm ki ếm dựa vào việc xếphạng các cụm từ quan trọng. Chương này đưa ra nhu cầu về phâncụm kết quả tìm kiếm, mô tả về bàitoán và thuật toán cũng như những tính toán để giải quyết bài toán. Chương 4: Thực nghiệm và đánh giá trình bày các bước tiến hành thực nghiệm trên các tài liệu Web tiếng Việt, việc thu thập dữ liệu huấn luyện, cài đặt thực nghiệm. Sau đó đưa ra k ết quả của thực nghiệm và đánh giá các kết quả này. 2 Chương 1. Khái quát về phâncụm Web 1.1. Giới thiệu về phâncụm Web Trong thời gian gần đây, sự phát triển nhanh chóng của mạng Internet đã tạo nên một khối lượng khổng lồ các dữ liệu dạng siêu văn bản. Vì vậy, nội dung khai phá Web rất được quan tâm. Và một trong những bàitoán quan trọngtrong lĩnh vực khai phá Web chính là bàitoánphâncụm Web. [6] Phâncụm Web - nói một cách khái quát - là việc tự động sinh ra các lớp tài liệu dựa vào sự tương tự của các tài liệu. Các lớp tài liệu ở đây là chưa bi ết trước, người dùng có thể chỉ yêu cầu số lượng các lớp cần phân loại, hệ thống sẽ đưa ra các tài liệu theo từng tập hợp, từng cụm, mỗi tập hợp chứa các tài liệu tương tự nhau. Phâncụm Web – hiểu một cách đơn giản - là phâncụm trên tập các tài liệu được lấy từ Web. Theo [6] có hai tình huống phâncụm tài liệu, đó là: • Tình huống thứ nhất là việc phân c ụm trên toàn bộ một cơ sở dữ liệu (CSDL) có sẵn gồm rất nhiều tài liệu Web. Thuật toánphâncụm cần tiến hành việc phâncụmtoàn bộ tập dữ liệu thuộc CSDL đó. Tình huống này thường được gọi là phâncụm không trực tuyến (off-line). • Tình huống thứ hai thường được áp dụng trên một tập tài liệu nhỏ là tập hợp các tài liệu do máy tìm kiếm trả về theo m ột truy vấn của người dùng. Trong trường hợp này, giải phápphâncụm được tiến hành kiểu trực tuyến (on-line) theo nghĩa việc phâncụm tiến hành theo từng bộ phận các tài liệu nhận được. Khi đó, thuật toán phải có tính chất “gia tăng” để tiến hành phâncụm ngay khi chưa có đủ tài liệu và phâncụm tiếp theo cần không tiến hành với dữ liệu đã được phân cụm. Do tập tài liệu trên Web là vô cùng lớn cho nên cách phân c ụm trực tuyến là thích hợp hơn và phải đòi hỏi tính "gia tăng" của thuật toánphân cụm. Việc xử lý truy vấn cũng như xếphạng các kết quả trả về của máy tìm kiếm phụ thuộc vào sự tính toán độ tương tự giữa tài liệu và truy vấn, giữa các tài liệu với nhau. Mặc dù các truy vấn liên quan phần nào đến các tài liệu cần tìm, nhưng nó thường quá ngắn và dễ xảy ra s ự nhập nhằng. Như đã biết, trung bình các truy vấn trên Web chỉ gồm hai đến ba từ do đó gây nên độ nhập nhằng. Chẳng hạn, truy vấn star dẫn đến sự nhập nhằng rất cao, các tài liệu lấy được liên quan đến astronomy, plants, animals, [...]... diễn đàn thảo luận[ 3] 2.2.1 Phâncụm từ tiếngViệt bằng phươngpháp học máy cấu trúc Nghiên cứu về phâncụm từ tiếngViệt là khá mới mẻ đối với bàitoántiếng Việt[ 2] Bàitoánphâncụm từ tiếngviệt được phát biểu như sau: gọi X là câu đầu vào tiếngViệt bao gồm một dãy các từ tố ký hiệu X=(X1, X2,…, Xn) Cần xác định Y=(Y1,Y2,…, Yn) là một dãy các nhãn cụm từ (cụm danh từ, cụm động từ) Bàitoán được qui... nghiên cứu về phâncụmtiếngViệt Cho đến nay đã có khá nhiều các công trình nghiên cứu về phâncụmtrongtiếngViệt và đều đạt được những kết quả khả quan Dưới đây, khóa luận sẽ trình bày ba nghiên cứu về phâncụmtrongtiếngViệt là phâncụm từ tiếngViệt bằng phươngpháp học máy cấu trúc [2], đánh giá chất lượng phâncụmtrong máy tìm kiếm tiếngViệt [1], gom cụm đồ thị và ứng dụng vào việc trích... kiếm thành các cụm làm cho người sửdụng dễ dàng hơn trong việc duyệt các kết quả tìm kiếm Theo [10] thì các kỹ thuật phâncụm truyền thống không phù hợp với phâncụm kết quả tìm kiếm bởi chúng tạo ra các tên cụm “khó đọc” Vì vậy, phương phápphân cụm ở đây sẽ đưa bàitoánphâncụm về bàitoánxếphạng các cụm từ quan trọng Đưa ra truy vấn và lấy về một danh sách các tài liệu đã được xếphạng từ máy tìm... từ tiếngviệt được thể hiện ở hình dưới [2]: 23 Hình 5: Hệ thống phâncụm từ tiếngViệt theo phươngpháp học máy cầu trúc Trong thực nghiệm, tác giả sửdụng dữ liệu huấn luyện từ VTB (VietTree Bank) cho bàitoánphâncụmsửdụng mô hình CRFs và mô hình học Online Learning Số lượng dữ liệu không nhiều (260 câu được gán nhãn) nhưng kết quả thực nghiệm rất khả quan 2.2.2 Đánh giá chất lượng phâncụm trong. .. chất lượng phâncụmtrong máy tìm kiếm tiếngViệt Nhóm tác giả nghiên cứu về các phương pháp đánh giá chất lượng phâncụm và áp dụng đánh giá chất lượng kết quả phâncụm của máy tìm kiếm VNSEN VNSEN là máy tìm kiếm dựa trên mã nguồn mở có tích hợp phâncụm do nhóm tác giả phát triển Có nhiều phương phápphân cụm khác nhau như k-mean, STC, HAC có thể áp dụng vào phâncụm các trang Web trả về của máy tìm... phâncụm của bộ phân cụm: độ đo chất lượng phân cụm, đo chất lượng của một hệ thống phâncụm bởi các mức Một số độ đo được sửdụng là MNI (normalized mutual information), độ hồi tưởng, độ chính xác, F, Purity (chỉ ra độ tinh khiết, rõ ràng của cụm i) Từ các phươngpháp trên tác giả đã tiến hành đánh giá chất lượng phâncụm của máy tìm kiếm VNSEN dựa trên cây phân cấp chủ đề và so sánh với kết quả phân. .. modul phâncụm có chất lượng tốt - So sánh kết quả phâncụm với máy tìm kiếm vivisimo: lựa chọn các truy vấn tiếngViệt mang nghĩa tổng quát để phâncụm được rõ ràng Tác giả lấy kết quả trả về của google và tiến hành phâncụm với VNSEN Sau đó so sánh kết quả phâncụm của VNSEN và vivisimo Nguyễn Thi Thu Chung và cộng sự [1] đã trình bày các phương pháp đánh giá chất lượng phâncụm và xây dựng cây phân. .. thuật phâncụm này đối với các văn bản tiếngViệt là kết quả trả về của máy tìm kiếm Google 26 Chương 3 Phâncụm văn bản sử dụngphươngpháp xếp hạngcụm từ quan trọng 3.1 Khái quát bàitoán Với sự phát triển nhanh chóng của công nghệ thông tin thì các tài nguyên trên internet cũng ngày càng phong phú và đa dạng Việc tìm kiếm thông tin trên internet là rất quan trọng và cần thiết đối với người sử dụng. .. [6] Thuật toán k-means thuộc vào lớp các thuật toánphâncụm thời gian tuyến tính và là những lựa chọn tốt nhất để đáp ứng yêu cầu về tốc độ của bàitoánphâncụm online Thời gian thực hiện của các thuật toán này là O(nk) trong đó k là số các cụm mong muốn [6] Thêm một ưu điểm của thuật toán K-means so với HAC là việc đáp ứng các yêu cầu của bàitoánphâncụm Web là nó có thể tạo ra các cụm có sự giao... thực hiện O(n) trong đó n là kích thước của tập tài liệu[6] 18 Chương 2 Phâncụm văn bản tiếngViệt 2.1 Đặc trưng của tiếngViệt và tách từ trongtiếngviệt Có thể nói, khai phá web là giao thoa của khai phá dữ liệu, xử lý ngôn ngữ tự nhiên và Word-Wide-Web Vì vậy để có thể làm việc được với các tài liệu web tiếngViệt cần phải tìm hiểu về các đặc trưng của tiếngViệt và việc tách từ tiếngViệt 2.1.1 Đặc . Sử dụng phương pháp xếp hạng trong bài toán phân cụm tiếng Việt nghiên cứu về phân cụm Web, phân cụm trong tiếng Việt và bài toán phân cụm tài liệu Web dựa vào việc xếp hạng các cụm từ quan. cứu về bài toán phân cụm Web sử dụng phương pháp xếp hạng. Trên cơ sở lý thuy ết phân cụm Web và lựa chọn các đặc trưng của tiếng Việt, khóa luận đã sử dụng phương pháp xếp hạng các cụm từ. phân cụm tiếng Việt 23 2.2.1. Phân cụm từ tiếng Việt bằng phương pháp học máy cấu trúc 23 2.2.2. Đánh giá chất lượng phân cụm trong máy tìm kiếm tiếng Việt 24 2.2.3. Gom cụm đồ thị và ứng dụng