Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	26
Dung lượng	1,13 MB

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Lê Mạnh Hùng Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm Chuyên Ngàng: Truyền Dữ Liệu Và Mạng Máy Tính Mã số: 10B60.48.15-0079 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012 Luậnvănđượchoànthànhtại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Ngườihướngdẫnkhoahọc: TS Nguyễn Hữu Quỳnh Phảnbiện 1: ……………………………………………………………… Phảnbiện 2: ……………………………………………………………… LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưu chínhViễnthông Vàolúc: giờ ngày tháng năm Cóthểtìmhiểuluậnvăntại: - ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông 1 MỞ ĐẦU Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Hằng ngày có hàng triệu văn bản, trang web được đưa lên hệ thống máy chủ, làm phong phú hệ thống tài nguyên khổng lồ này. Tuy nhiên, chúng ta không thể sử dụng thông tin trong hệ thống thông tin khổng lồ này nếu không tổ chức và khai thác nguồn tài nguyên này hiệu quả. Kỹ thuật tra cứu thông tin đã và đang được nghiên cứu, phát triển trong nhiều lĩnh vực khác nhau như y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra cứu thông tin là rất rộng và tổng hợp, bao gồm thuật toán, cấu trúc dữ liệu, cơ sở dữ liệu, các hệ thống phân tán, tính toán song song, tổ chức tệp (file), khai phá dữ liệu (data mining). Do đó, việc nghiên cứu về tra cứu thông tin sẽ rất hữu ích. Các nghiên cứu đối với tiếng Anh đã có một số công trình công bố và một số hệ thống được đưa vào ứng dụng []. Tuy nhiên đối với tiếng Việt, hiên nay chỉ có một số các công trình được công bố [9,10,19] mà chưa có ứng dụng cụ thể đối với tra cứu tiếng Việt. Vấn đề này chính là động lực để luận văn chọn đề tài “Tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm”. Các đóng góp của luận văn - Nghiên cứu, cải tiến một số phương pháp tra cứu đối với văn bản tiếng Anh áp dụng cho tiếng Việt. - Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên nhằm nâng cao hiệu năng của hệ thống tra cứu văn bản tiếng Việt. - Trên cơ sở phương pháp đã được nghiên cứu, luận văn tiến hành xây dựng hệ thống tra cứu thông tin và ứng dụng trong tra cứu thông tin tiếng Việt. Cấu trúc luận văn gồm có ba chương: Chương 1: Giới thiệu tổng quan về tra cứu văn bản. Chương 2: Trình bày kỹ thuật tra cứu thông tin sử dụng kỹ thuật phân cụm. Chương 3: Trình bày hệ thống tra cứu thông tin và ứng dụng vào tra cứu thông tin tiếng Việt. 2 Chương 1. TỔNG QUAN VỀ TRA CỨU VĂN BẢN 1.1 Tra cứu thông tin 1.1.1 Giới thiệu Tra cứu thông tin là một nhánh của khoa học máy tính nhằm mục tiêu lưu trữ và cho phép truy cập nhanh một lượng thông tin lớn. Thông tin này có thể là văn bản, đa phương tiện hoặc âm thanh [14, 16]. Lược đồ một hệ thống tra cứu thông tin được thể hiện như Hình 1. 1. Hinh 1.1 Tổng quan hệ thống tra cứu thông tin. 1.1.2 Các mô hình tra cứu thông tin Mô hình Boole vẫn là một mô hình được sử dụng phổ biến nhất trong các hệ thống tra cứu thông tin thương mại. Mô hình này dựa trên lý thuyết tập hợp. Các tài liệu được biểu diễn bởi các tập các thuật ngữ và chiến lược tìm kiếm Boole tra cứu các tài liệu khối với truy vấn (có giá trị true). Mô hình không gian véc tơ dựa trên giải thích không gian của cả các truy vấn và các tài liệu. Một cải tiến của biểu diễn tài liệu trên mô hình Boole thu được bởi việc kết hợp mỗi thuật ngữ chỉ số với một giá trị số, gọi là trọng số thuật ngữ chỉ số, biểu thị độ quan trọng mà thuật ngữ tổng hợp nội dung thông tin của tài liệu. 3 Mô hình xác suất [21] phân hạng các tài liệu theo thứ tự giảm dần của xác suất liên quan của các tài liệu với nhu cầu thông tin của người sử dụng. 1.1.3 Một số phương pháp tra cứu thông tin văn bản 1.1.3.1 Quét toàn bộ văn bản Cách đơn giản nhất để định vị các tài liệu chứa xâu (thuật ngữ) tìm kiếm nào đó là tìm kiếm tất cả các tài liệu với xâu được chỉ ra (kiểm tra xâu con). “Xâu” là một chuỗi các ký tự. Nếu truy vấn là một biểu diễn Boole phức hợp bao gồm nhiều xâu tìm kiếm, chúng ta cần thêm một bước để xác định các đối sánh thuật ngữ có được tìm thấy bởi các kiểmtra chuỗi con thỏa mãn biểu diễn Boole hay không. 1.1.3.2 Các tệp dấu hiệu Cách tiếp cận tệp dấu hiệu đã thu hút nhiều sự quan tâm. Trong phương pháp này, mỗi tài liệu sinh ra một xâu bít (‘dấu hiệu’), sử dụng bảng băm trên các từ. Các dấu hiệu tài liệu sinh ra được lưu trữ tuần tự trong một tệp rời rạc - tệp dấu hiệu (nhỏ hơn tệp gốc rất nhiều) và có thể được tìm kiếm nhanh hơn nhiều. 1.1.3.3 Phép đảo Mỗi tài liệu có thể được biểu diễn bởi một danh sách các từ (các từ khóa), mô tả các nội dung tài liệu cho mục tiêu tra cứu. Tra cứu nhanh có thể thu được nếu chúng ta đảo các từ khóa đó. Các từ khóa được lưu trữ, theo thứ tự alphabet, trong tệp chỉ số; với mỗi từ khóa chúng ta duy trì một danh sách các con trỏ đến các tài liệu đủ điều kiện. Phương pháp này có trong hầu hết tất cả các hệ thống thương mại [21]. 1.2 Các hệ thống tra cứu thông tin dựa vào phân cụm 1.2.1 Các hệ thống tra cứu thông tin dựa vào phân cụm Tìm kiếm dựa vào phân cụm cần thỏa mãn một truy vấn hiệu quả bởi nhận biết và chỉ tra cứu các cụm đó. Phân cụm cải tiến độ chính xác của tra cứu như sinh ra kết quả tra cứu có số tài liệu liên quan cao [14,16]. 1.2.2 Các phương pháp phân cụm Phương pháp phân cụm phân cấp Một thuật toán phân cấp có thể bắt đầu bởi xem xét tất cả các tài liệu như một cụm và sau đó tách nó thành các cụm nhỏ hơn (phân cụm chia nhỏ). Thuật toán có thể bắt đầu với các tài liệu riêng lẻ và nhóm chúng lại với nhau thành các cụm lớn hơn (phân cụm gộp). 4 Phân cụm Heuristic Thuật ngữ “Heuristic” được sử dụng bởi các tác giả như Rijsbergen [22] đối với các phương pháp mô tả nhận các phím tắt để thu được hiệu quả lớn hơn về mặt đòi hỏi không gian và thời gian. Phân cụm gia tăng Các phương pháp gia tăng sử dụng một độ đo tương tự nhưng các phương pháp không đòi hỏi các độ tương tự tính toán trước cho tất cả các cặp tài liệu. Tất cả các cặp tài liệu chưa sẵn có khi khởi tạo, bởi theo xác định, các phương pháp phân cụm một dòng các tài liệu đến. Các độ tương tự được tính toán bằng các tài liệu trong hệ thống phân cụm gia tăng [22]. 1.3 Đánh giá tra cứu thông tin 1.3.1 Đánh giá hệ thống tra cứu thông tin Để đo độ chính xác tra cứu thông tin theo cách chuẩn, chúng ta cần một tập kiểm tra gồm ba thứ: 1. Một tập tài liệu 2. Một bộ kiểm tra nhu cầu thông tin, có thể biểu diễn như các truy vấn. 3. Một tập các đánh giá liên quan, một đánh giá nhị phân hoặc liên quan hoặc không liên quan cho mỗi cặp tài liệu truy vấn. Một tài liệu là liên quan nếu nó nói đến nhu cầu thông tin đã được nêu, không phải vì nó vừa xảy ra để chứa tất cả các từ trong truy vấn. Điều khác biệt này thường bị hiểu lầm trong thực hành, bởi vì nhu cầu thông tin không được công khai. 1.3.2 Các tập kiểm tra chuẩn Đây là một danh sách các tập kiểm tra và các chuỗi đánh giá chuẩn. Chúng tôi tập trung vào các tập kiểm tra cho đánh giá hệ thống tra cứu thông tin đặc biệt, những cũng đề cập đến một cặp tập kiểm tra tương tự cho phân lớp văn bản. 1.3.3 Đánh giá các tập tra cứu không được phân hạng Những thành phần này được cho trước, độ chính xác hệ thống đo như thế nào? Hai độ đo cơ sở và thường được sử dụng nhất cho độ chính xác tra cứu là triệu hồi và chính xác. Đây là lần đầu tiên được xác định cho trường hợp đơn giản nơi một hệ thống tra cứu trả về một tập các tài liệu cho một truy vấn. 5 Độ chính xác của P - Precision (P) là phần của các tài liệu được tra cứu có liên quan cuu tra duoc muc cac sotong cuu tra duoc quan lien muc cac so Precision  (1-4) Triệu hồi của R - Recall(R) là phần của các tài liệu liên quan được tra cứu cuu tra muc cac sotong cuu tra duoc quan lien muc cac so ecallR  (1-5) Một độ đo mà khác dựa trên độ chính xác và triệu hồi là F measure, đó là trung bình điều hòa có trọng số của chính xác và triệu hồi:              1)1( 1 )1( 1 1 2 2 2 do trong RP PR Rp F (1-8) Hình 1.2 Biểu đồ so sánh trung bình điều hòa của các trung bình khác nhau 1.4 Đặc điểm của văn bản tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp. 1.4.1 Đặc điểm ngữ âm Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là một âm tiết. 6 1.4.2 Đặc điểm từ vựng Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy. 1.4.3 Đặc điểm ngữ pháp Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ. 1.5 Kết luận chương 1 Trong chương này, luận văn đã trình bày về tổng quan về khai phá dữ liệu văn bản, các phương pháp khai phá văn bản và các phương pháp, các kỹ thuật và quy trình tra cứu văn bản tiếng việt. Ngoài ra ở chương 1 luận văn cũng trình bày về các đặc điểm của văn bản tiếng việt. Từ những kiến thức tổng quan này chương hai luận văn sẽ lựa trình bày chi tiết về trích rút văn bản tiếng việt với một phương pháp cụ thể. Chương 2. TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM. Trong chương này, luận văn giới thiệu các phương pháp biểu diễn văn bản, đồng thời trình bày chi tiết một phương pháp biểu diễn văn bản tiếng Việt có sử dụng giảm chiều vector. Dựa trên phương pháp biểu diễn này, luận văn sử dụng phương pháp phân cụm tiếng Việt dựa trên thuật toán cây phân cấp và hệ thống tra cứu văn bản tiếng Việt dựa trên tập dữ liệu văn bản tiếng Việt đã được phân cụm. 2.1 Phương pháp biểu diễn văn bản 2.1.1 Khái niệm Biểu diễn văn bản là phương pháp mô tả nội dung hoặc đặc trưng của văn bản [1]. Khi biểu diễn văn bản dưới dạng véc tơ, người ta thường sử dụng thành phần véc tơ biểu diễn tương ứng với các đặc trưng là các từ (thuật ngữ). Với giá trị của mỗi đặc trưng này gọi là trọng số của từ (thuật ngữ), mô tả tần suất của từ (thuật ngữ) xuất hiện trong văn bản [1]. 7 2.1.1.1 Một số phương pháp biểu diễn văn bản Mô hình không gian vector Cách biểu diễn văn bản thông dụng nhất là thông qua vector biểu diễn theo mô hình không gian vector (Vector Space Model). Đây là một cách biểu diễn tương đối đơn giản và hiệu quả. Trong các cơ sở dữ liệu văn bản, mô hình vector là mô hình biểu diễn văn bản được sử dụng phổ biến nhất hiện nay. Mối quan hệ giữa các trang văn bản được thực hiện thông qua việc tính toán trên các vector biểu diễn vì vậy được thi hành khá hiệu quả. Hình 2.1 Mô hình không gian vector. Mô hình Boolean Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị đúng và sai (true và false, hoặc 0 và 1) gọi là mô hình Boolean. Hàm f tương ứng với từ khóa t i sẽ cho ra giá trị đúng nếu và chỉ nếu từ khóa t i xuất hiện trong văn bản đó. Mô hình phân tích cú pháp Trong mô hình này, mỗi văn bản đều phải được phân tích cú pháp và trả lại thông tin chi tiết về chủ đề của văn bản đó. Sau đó, người ta tiến hành đánh chỉ số các chủ đề của từng văn bản. Cách đánh chỉ số trên chủ đề cũng giống như khi đánh chỉ số trên văn bản nhưng chỉ đánh chỉ số trên các từ xuất hiện trong chủ đề. Mô hình tần suất Trong mô hình tần suất, ma trận W = {w ij } được xác định dựa trên tần số xuất hiện của từ khóa t i trong văn bản d j hoặc tần số xuất hiện của từ khóa t i trong toàn bộ cơ sở dữ liệu. Sau đây là một số phương pháp phổ biến: - Phương pháp dựa trên tần số từ khóa (TF – Term Frequency) 8 - Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) 2.1.1.2 Phương pháp tính trọng số của từ Trong các cách tiếp cận tính toán trọng số của từ để biểu diễn văn bản hiện nay. Phương pháp tính trọng số dựa trên tần suất xuất hiện của từ (thuật ngữ) được sử dụng phổ biến hiện nay. 2.1.2 Kỹ thuật giảm chiều vector biểu diễn trong văn bản tiếng Việt 2.1.2.1 Kỹ thuật giảm chiều véc tơ Xem xét một số ứng dụng ví dụ như trong một hệ thống xử lý dữ liệu (tín hiệu tiếng nói, ảnh hoặc nhận dạng mẫu nói chung) tập các đặc trưng nếu coi là tập hợp các vec tơ giá trị thực. Giả thiết rằng, hệ thống chỉ hiệu quả nếu số chiều của mỗi véc tơ riêng lẻ không quá lớn. Vấn đề của giảm chiều xuất hiện khi dữ liệu có số chiều lớn hơn khả năng xử lý của hệ thống [17 Hình 2.5 .Mô hình giảm chiều véc tơ. 2.1.2.2 Kỹ thuật giảm chiều véc tơ trong biểu diễn văn bản tiếng Việt Khái niệm giảm chiều lần đầu được công bố bởi Bellman (1961). Bellman cho rằng sẽ rất khó khăn khi tính toán số các đặc trưng khi số lượng từ quá nhiều. [...]... liệu văn bản tiếng Việt 3.1 Kiến trúc tổng quát của hệ thống Hệ thống tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm được chia thành hai pha chính: Pha phân cụm và pha tra cứu - Pha phân cụm: Pha thực hiện phân cụm văn bản thành các cụm riêng biệt Đồng thời từ đó có thể dựa trên đại diện biểu diễn của từng cụm để gán chủ đề cho cụm đó - Pha tra cứu: Pha thực hiện tra cứu trực tuyến trên nền... đã được trình bày ở mục 2.2.2.1, luận văn trình bày phương pháp phân cụm văn bản tiếng Việt ứng dụng thuật toán phân cấp thành các bước như sơ đồ sau: Hình 2.15 Hệ thống phân cụm văn bản 13 2.3 Tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm phân cấp Một hệ thống tra cứu văn bản thông thường cần liên quan tới các yếu tố sau - Câu truy vấn - Kho dữ liệu văn bản - Quy trình xử lý và phản hồi kết... rút gọn đặc trưng văn bản 2.2 Kỹ thuật phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp 2.2.1 Phân cụm văn bản 2.2.1.1 Khái niệm phân cụm văn bản Định nghĩa: Thuật toán phân cụm nhóm tập các văn bản vào các tập con hoặc các cụm Mục đích của thuật toán là tạo ra các nhóm có sự liên kết bên trong, nhưng khác biệt rõ ràng với các nhóm khác Một cách khác các văn bản trong một cụm có thể có độ tương... luận văn sẽ thực hiện quá trình cài đặt được mô tả ở chương tiếp theo Chương 3 XÂY DỰNG ỨNG DỤNG TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM Trong chương này, luận văn trình bày phương pháp lựa chọn dữ liệu, lưu trữ và xây dựng hệ thống ứng dụng tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm, đồng thời luận văn cũng có các thử nghiệm, đánh giá phương pháp được cài đặt với tập dữ liệu văn. .. hệ thống tra cứu văn bản dựa trên kỹ thuật phân cụm Hình 2.16 Hệ thống tra cứu ứng dụng phân cụm văn bản Thuật toán trong hình 2.17 dưới đây tính toán trọng số của một danh từ thuộc tập văn bản D Hình 2.17 Thuật toán tính trọng số của từ phụ thuộc tập văn bản 14 Hình 2.18 dưới đây mô tả thuật toán biểu diễn văn bản Mỗi văn bản được biểu diễn bởi tập các danh từ và trọng số của nó Hình 2.18 Thuật toán... D gồm 6 văn bản d1, d2, d3, d4, d5, d6 Bước 1: Khởi tạo Mỗi cụm văn bản ci được gán tương ứng là một văn bản di (xem Hình 2.11) Hình 2.11 Khởi tạo các cụm Bước N: Bước cuối ta sẽ nhận được kết quả cây phân cấp tương ứng được chỉ ra trong Hình 2.14 12 Hình 2.14 Cây phân cấp thu được sau quá trình phân cụm 2.2.2.2 Phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp Dựa trên thuật toán phân cấp... Chức năng tra cứu văn bản Trong chức năng tra cứu văn bản có bao gồm hai tính năng tra cứu chính là tính năng tra cứu theo câu hỏi (query) và tính năng tra cứu theo văn bản (file) Hình 3.3 dưới đây mô tả biểu đồ use case trường hợp tra cứu với hai tính năng đã được mô tả 18 System cau hoi truy van van ban tra cuu Quan tri Nguoi dung Hình 3.3 Biểu đồ ca sử dụng tra cứu Hình 3.4... câu hỏi tra cứu Hình 3.10 Kết quả tra cứu với câu truy vấn Hình 3.12 dưới đây mô tả kết quả tra cứu của hệ thống 22 Hình 3.12 Kết quả tra cứu với văn bản 3.3.3.2 Quản lý phân cụm Phần này mô tả một số giao diện trong phần xử lý phân cụm văn bản Hình 3.14 dưới đây mô tả chức năng quản lý lấy dữ liệu từ trong máy tính để tiến hành phân cụm dữ liệu Hình 3.14 Tính độ tương tự giữa các cặp văn bản trong... vấn và biểu diễn được đại diện cho mỗi cụm, việc thực hiện đối sánh giữa câu truy vấn với cơ sở dữ liệu để tìm ra độ tương đồng nhất giữa câu truy vấn và cụm văn bản 2.4 Kết luận chương 2 Trong chương này, luận văn đã trình bày được phương pháp tra cứu văn bản tiếng Việt dựa trên phân cụm phân cấp, đồng thời cũng mô tả chi tiết các thuật toán dùng trong phân cụm và phương pháp thể hiện biểu diễn câu... biểu diễn văn bản Hình 2.19 dưới đây mô tả thuật toán tính độ tương tự giữa từng cặp văn bản trong cả tập văn bản đầu vào D Hình 2.19 Thuật toán tính độ tương đồng giữa các văn bản trong tập D Sau khi mỗi văn bản được gom thành các cụm, luận văn sử dụng phương pháp tính trọng tâm để tính biểu diễn đại diện cho các cụm Đối với mỗi cụm, việc tìm đại diện biểu diễn được mô tả như sau: 15 Hình 2.20 Thuật toán . đặc trưng văn bản 2.2 Kỹ thuật phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp 2.2.1 Phân cụm văn bản 2.2.1.1 Khái niệm phân cụm văn bản Định. luận văn sử dụng phương pháp phân cụm tiếng Việt dựa trên thuật toán cây phân cấp và hệ thống tra cứu văn bản tiếng Việt dựa trên tập dữ liệu văn bản tiếng

Ngày đăng: 17/02/2014, 09:46

Xem thêm