XLNN trình Phát hiện tri thức trong cơ sở dữ liệu

66 122 0
XLNN trình Phát hiện tri thức trong cơ sở dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết MỤC LỤC MỞ ĐẨU MỞ ĐẨU CƠ SỞ LÝ THUYẾT 1.1 Tổng quan Xử lý ngôn ngữ tự nhiên .8 1.2 Các vấn đề Xử lý ngôn ngữ tự nhiên .9 1.2.1 Phân tách thuật ngữ - Phân tách đoạn câu 1.2.2 Gán nhãn từ loại 11 1.2.3 Phân tích cú pháp .11 1.2.4 Phân tích ngữ nghĩa 12 1.3 1.3.1 Ngữ âm âm vị 13 1.3.2 Từ pháp hình thái 14 1.3.3 Ngữ pháp 15 KHAI PHÁ VĂN BẢN 16 2.1 Tổng quan khai phá liệu 16 2.2 Khai phá văn 18 2.3 Biểu diễn văn 19 2.3.1 Mơ hình boolean 19 2.3.2 Mô hình khơng gian vector 20 2.3.3 Mơ hình tập thơ dung sai 21 2.4 Các toán Khai phá văn điển hình 22 2.4.1 Bài tốn Phân nhóm văn .22 2.4.2 Bài tốn Đánh mục - Tìm kiếm 22 2.4.3 Bài toán Tóm tắt văn 22 BÀI TỐN TĨM TẮT VĂN BẢN 24 3.1 Giới thiệu chung 24 3.1.1 Tóm tắt văn ? .24 3.1.2 Các tiêu chí đánh giá 25 3.1.3 Phân loại tốn Tóm tắt văn 26 3.2 Mơ hình Tóm tắt văn 29 3.2.1 Mơ hình chung 29 3.2.2 Các phương pháp áp dụng pha 30 3.2.3 Đánh giá kết tóm tắt 40 3.3 Các đặc trưng ngôn ngữ tiếng Việt 12 Một số hệ thống tóm tắt văn phổ biến 44 XÂY DỰNG HỆ THỐNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT - SUMMARIZER 46 4.1 Mơ hình xây dựng ứng dụng 46 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết 4.2 4.2.1 Chuẩn hóa văn 47 4.2.2 Mơ hình hóa văn 48 4.2.3 Tách thuật ngữ 49 4.3 Các phương pháp pha Phân tích 52 4.3.1 Phương pháp Title 53 4.3.2 Phương pháp Heading .54 4.3.3 Phương pháp NamedEntity - NE 55 4.3.4 Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 56 4.3.5 Phương pháp Tần suất xuất thuật ngữ 56 4.3.6 Phương pháp TFxIPF 57 4.4 Giai đoạn tiền xử lý văn tiếng Việt 47 Các phương pháp pha Biến đổi .58 4.4.1 Biến đổi nhờ vào rút gọn câu .58 4.4.2 Giản lược câu về mặt ngữ nghĩa .60 4.5 Các phương pháp pha Hiển thị 61 4.6 Xây dựng chương trình Summarizer .62 CHƯƠNG TRÌNH ỨNG DỤNG 63 5.1 Một số giao diện chương trình 63 5.2 Kiểm thử 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67 TÀI LIỆU THAM KHẢO 68 7.1 Links 68 7.2 Books 68 Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết MỤC LỤC HÌNH VẼ Hình 1: Phân tích cú pháp 12 Hình 2: Các bước trình phát tri thức 17 Hình 3: Mơ hình khai phá văn chung 18 Hình 4: Mơ tả tốn Phân nhóm văn 22 Hình 5: Tóm tắt trang tin 25 Hình 6: Mơ hình chung tóm tắt văn 29 Hình 7: Mơ hình trích rút văn .30 Hình 8: Mơ hình phương pháp quan hệ lẫn 32 Hình 9: Ví dụ về liên kết từ vựng 33 Hình 10: Mơ hình liên kết tham chiếu .33 Hình 11: Mơ hình hệ thống tóm tắt văn .47 Hình 12: Mơ hình hố văn 48 Hình 13: Cấu trúc chương trình Summarizer 62 Hình 14: Giao diện 63 Hình 15: Form cấu hình tóm tắt 63 Hình 16: Giao diện kiểm thử .64 Hình 17: Giao diện phân tách đoạn câu 65 Hình 18: Giao diện phân tách thuật ngữ đoạn 65 Hình 19: Kết thực thi phương pháp TFxIPF .66 Hình 20: Kết thực thi phương pháp Title 66 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết MỞ ĐẨU Hai thập kỷ gần đây, khắp nơi giới tràn ngập thơng tin Chính phát triển nhanh chóng Công nghệ thông tin Truyền thông đem lại cho giới mặt Các ứng dụng Công nghệ thông tin - Truyền thông diện hầu hết ngành, lĩnh vực sống: kinh tế tri thức, hợp tác tồn cầu, cơng việc quản lý, vận hành hoạt động từ vi mơ tới vĩ mơ doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp Đặc biệt, đời Internet - Mạng thơng tin tồn cầu - được coi nguyên nhân chính, thúc đẩy bùng nổ thơng tin tồn giới Thơng qua Internet, thông tin quý giá về lĩnh vực đều sẵn sàng đợi khám phá lĩnh hội Trong giới thông tin đa dạng phong phú vậy, nhu cầu thu thập được thông tin cần thiết, có giá trị đồng thời xử lý chúng thành dạng liệu mong muốn nhu cầu đáng cấp thiết nhân loại Lĩnh vực Công nghệ thơng tin đáp ứng nhu cầu to lớn Khai phá liệu Khai phá liệu, vốn giai đoạn bảy giai đoạn trình Phát tri thức sở liệu, nhiên, giai đoạn yếu, nên thường đồng nhất, hay nói xác lấy Khai phá liệu làm đại diện cho trình Phát tri thức sở liệu Và vậy, Khai phá liệu được hiểu trình lấy thông tin quan trọng từ dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ mục đích cụ thể người Các phương pháp thường dùng Khai phá liệu phương pháp Trích chọn, Thống kê hay Phân loại Do phần lớn liệu dạng văn nên lĩnh vực nhỏ Khai phá văn được quan tâm ý Trong lĩnh vực Khai phá liệu trở thành đề tài nóng bỏng, cấp thiết gần bùng nổ thơng tin tồn cầu ngành Khoa học máy tính, có lĩnh vực khác đời cách lâu, có nhiều thành tựu suốt q trình phát triển Đó lĩnh vực Xử lý ngơn ngữ tự nhiên Mục đích Xử lý ngơn ngữ tự nhiên giúp cho máy tính người hiểu hơn, thuận tiện trình làm việc đem lại lợi ích tối đa cho người Thông qua giao tiếp thân thiện, dễ hiểu người máy, việc đưa Công nghệ thông tin thật vào đời sống nhân loại mục tiêu lớn mà Xử lý ngôn ngữ tự nhiên hướng tới Xử lý ngôn ngữ tự nhiên q trình xử lý cho máy tính hiểu được thông tin giống cách mà người hiểu thơng tin thơng qua khía cạnh ngơn ngữ bao hàm Theo định nghĩa Xử lý ngơn ngữ tự nhiên phần Trí tuệ nhân tạo - làm cho máy tính nắm bắt, thao tác, mô cách mà người thực Vì phương pháp Trí tuệ nhân tạo thường được dùng lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với đặc trưng ngành Ngơn ngữ học hình thái, ngữ pháp, ngữ nghĩa… Các tốn điển hình Xử lý ngôn ngữ tự nhiên Trả lời tự động, Dịch máy, Sinh văn tự động, Kiểm tra tả… Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Như vậy, hai lĩnh vực Khai phá liệu Xử lý ngơn ngữ tự nhiên có nhiều điểm khác biệt mặc dù sử dụng số phương pháp Trí tuệ nhân tạo Nói đến Khai phá liệu nói đến việc tìm thơng tin quan trọng, thông tin mong muốn từ lượng lớn liệu, nói đến Xử lý ngơn ngữ tự nhiên nói đến việc máy tự phân tích hiểu khía cạnh ngơn ngữ thơng tin cụ thể Tuy nhiên, có tốn điển hình Khai phá liệu có sử dụng nhiều khái niệm, mơ hình, phương pháp Xử lý ngơn ngữ tự nhiên, tốn Tóm tắt văn Tóm tắt văn q trình chắt lọc thơng tin quan trọng từ nguồn để tạo ngắn gọn đáp ứng nhiệm vụ cụ thể người dùng cụ thể Tóm tắt văn làm nhiệm vụ chọn câu hàm chứa ý chính, câu quan trọng nên về chất thuộc lĩnh vực Khai phá văn Tuy nhiên trình chắt lọc, rút gọn cần có áp dụng phương pháp Xử lý ngôn ngữ tự nhiên muốn kết văn dễ đọc, dễ hiểu mang ý nghĩa ngơn ngữ tự nhiên đầu vào Trên giới có nhiều ứng dụng Tóm tắt văn bản, với mục đích nghiên cứu thương mại Nhưng với khó khăn thách thức riêng, Tóm tắt văn chưa được nghiên cứu nhiều Việt Nam Chính lý chúng tơi chọn Tóm tắt văn tiếng Việt đề tài tiểu luận, mong muốn góp phần công sức cho phát triển Khai phá văn tiếng Việt nói riêng Cơng nghệ thơng tin Việt Nam nói chung Trong tiểu luận chúng tơi muốn trình bày kết tìm hiểu về tốn Tóm tắt văn bước đầu xây dựng Ứng dụng tóm tắt văn tiếng Việt, sử dụng kết hợp phương pháp Khai phá văn Xử lý ngôn ngữ tự nhiên đồng thời xét tới đặc trưng về ngôn ngữ tiếng Việt Tiểu luận gồm phần sau :  Chương Trình bày về lĩnh vực Xử lý ngơn ngữ tự nhiên, vấn đề chung Xử lý ngôn ngữ tự nhiên, đặc trưng ngôn ngữ tiếng Việt vấn đề riêng xử lý tự động văn tiếng Việt  Chương Trình bày về lĩnh vực Khai phá liệu nói chung Khai phá văn nói riêng, vấn đề mơ hình hóa văn đề cập sơ qua số toán Khai phá văn điển hình  Chương Trình bày vấn đề về tốn Tóm tắt văn bản, khái niệm phân loại tốn Tóm tắt văn bản, lịch sử phát triển ứng dụng Tóm tắt văn bản, mơ hình chung phương pháp xây dựng ứng dụng Tóm tắt văn bản…  Chương Trình bày việc thiết kế xây dựng ứng dụng Tóm lược văn tiếng Việt SUMMARIZER dựa số phương pháp phương pháp nêu chương ba Ngoài chương này, cài đặt tiền xử lý văn được đề cập đến với nét so với công việc tương tự trước số nhà nghiên cứu lĩnh vực Khai phá văn tiếng Việt  Chương Trình bày việc kiểm thử đánh giá ứng dụng SUMMARIZER, kết thực nghiệm chương trình Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết  Sau phần kết luận hướng phát triển tới đề tài  Cuối phần tài liệu tham khảo Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết CƠ SỞ LÝ THUYẾT 2.1 Tổng quan Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên lĩnh vực thuộc ngành Khoa học máy tính xuất từ lâu Với việc sử dụng phương pháp Trí tuệ nhân tạo, Xử lý ngơn ngữ tự nhiên thường được coi ngành nghiên cứu hẹp lĩnh vực Ngôn ngữ tự nhiên (Natural Language) thuật ngữ dùng để ngôn ngữ giao tiếp người với tiếng Việt, tiếng Anh, tiếng Nhật…, để phân biệt với ngôn ngữ nhân tạo (Artificial Language) hay gọi ngơn ngữ lập trình (Programming Language) để ngơn ngữ nguời giao tiếp với máy tính Pascal, C/C++, Java… Lĩnh vực Xử lý ngôn ngữ tự nhiên đời lâu, trải qua nhiều nghiên cứu ứng dụng, ngày được hiểu lĩnh vực giúp máy tính xử lý vấn đề về ngôn ngữ tự nhiên, khơng ngồi mục đích giúp cho giao tiếp người-máy thuận tiện thân thiện Xử lý ngôn ngữ tự nhiên có nhiều hướng ứng dụng hướng ứng dụng lại ngành nghiên cứu thú vị Khi nói đến Xử lý ngơn ngữ tự nhiên phải nói đến sở ngơn ngữ tự nhiên Đó vấn đề ngôn ngữ mà lĩnh vực Xử lý ngôn ngữ tự nhiên bám sát nghiên cứu cho máy tính phân tích hiểu ngơn ngữ tự nhiên giống người hiểu hoặc chí gần cách người hiểu Các vấn đề ngôn ngữ tự nhiên bao gồm :  Phonology & Phonetics (Âm vị Ngữ âm): ngành nghiên cứu Ngôn ngữ học, chuyên nghiên cứu về đơn vị phát âm, cách phát âm biến thái chúng Hướng ứng dụng tương ứng chúng thuộc Xử lý ngôn ngữ tự nhiên ngành Xử lý - Nhận dạng tiếng nói  Morphology (Hình thái học): ngành nghiên cứu về hình thái từ, nghĩa tùy thuộc vào thời, thể, cách mà từ có biến đổi hay kết hợp khác Các thành tựu hình thái học được nhà khoa học về Máy tính sử dụng nghiên cứu mà họ lấy từ hay chữ đơn vị để xử lý Nhận dạng chữ viết, Kiểm tra sửa tả…  Grammar (Ngữ pháp): ngành nghiên cứu về từ pháp cú pháp Từ pháp đề cập đến đặc tính từ loại (Part Of Speech), giống, số từ Một số nhà ngôn ngữ xếp Hình thái học vào vấn đề Từ pháp học Cú pháp (Syntactic) đề cập đến liên kết từ, ngữ câu Ngữ pháp ngữ nghĩa hai vấn đề mà Xử lý ngôn ngữ tự nhiên quan tâm đạt được nhiều kết nghiên cứu  Semantic (Ngữ nghĩa): đề cập đến vấn đề ngữ nghĩa: từ, ngữ hay câu được “hiểu” nào, hàm chứa ý gì, quan hệ về nghĩa từ với Đặc biệt tiếng Anh xây dựng được nhiều nghiên cứu về ngữ nghĩa chí nhiều mạng ngữ nghĩa - mơ tả quan hệ về nghĩa từ theo nhiều khía cạnh Nổi tiếng có lẽ WordNet Mạng ngữ nghĩa kho tri thức khổng lồ được cung cấp miễn phí cho việc nghiên cứu Hiện nhiều mạng Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Wordnet cho thứ tiếng khác tiếng Anh được xây dựng, nhiên Wordnet Việt nam chưa được thức nghiên cứu xây dựng  Pragmatics (Ngữ dụng): ngành nghiên cứu việc dùng từ, ngữ lĩnh vực khác Các thống kê về việc tần suất sử dụng từ lĩnh vực khác thông số quan trọng cần thiết cho phương pháp thống kê Xử lý ngôn ngữ tự nhiên Trên lĩnh vực này, máy tính cần phải hiểu được ngơn ngữ mức cao Đó mức ngữ đoạn (Discourse) mức tri thức (World Knowledge) Mức ngữ đoạn quan hệ về mặt ngữ pháp ngữ nghĩa, chí ngữ dụng đoạn văn Đã có nhiều nghiên cứu về vấn đề này, tiếng Lý thuyết cấu trúc tu từ (Rhetorical Structure Theory - RST) RST biểu thị quan hệ ngữ pháp ngữ nghĩa câu với nhau, đoạn với thông qua quan hệ được định nghĩa sẵn Lý thuyết thường được áp dụng việc phân tích ngữ đoạn sinh văn tự động Mức tri thức mức rộng nhất, máy phải hiểu được tất vấn đề tiếng, từ, ngữ, câu, khái niệm, thông tin, tri thức Tất nhiên chưa có nghiên cứu đạt được mức nhiên có số nghiên cứu đặt tham vọng mơ hình hóa về tất đặc tính ngơn ngữ cho đơn vị từ, câu hoặc đoạn Ngôn ngữ tự nhiên vấn đề phức tạp với người, vậy, máy tính việc xử lý ngơn ngữ tự nhiên cơng việc khó khăn, thuộc lớp tốn kinh điển Khoa học máy tính Trí tuệ nhân tạo - tốn đòi hỏi chi phí tính tốn lớn Vì vậy, Xử lý ngôn ngữ tự nhiên trước phát triển chậm có xu hướng áp dụng thuật tốn dựa luật suy diễn Tuy nhiên vào thập kỷ gần đây, phát triển nhanh chóng phần cứng máy tính kéo theo đời máy tính nhỏ gọn, giá thành rẻ mà lại có hiệu suất tính tốn cao mở triển vọng cho lĩnh vực Trí tuệ nhân tạo nói chung Xử lý ngơn ngữ tự nhiên nói riêng Các thuật tốn thống kê ngày được áp dụng nhiều cho kết khả quan Những thành tựu Xử lý ngôn ngữ tự nhiên không áp dụng nghiên cứu mà được dùng để xây dựng ứng dụng mang tính thương mại đạt được nhiều thành công thị trường 2.2 Các vấn đề Xử lý ngôn ngữ tự nhiên Như đề cập, ngữ pháp ngữ nghĩa vấn đề được quan tâm có ứng dụng nhiều tốn điển hình lĩnh vực Xử lý ngơn ngữ tự nhiên Tóm tắt, Dịch máy, Trả lời tự động… Sau toán thuộc về ngữ pháp ngữ nghĩa mà nhà Xử lý ngôn ngữ tự nhiên thường phải giải 2.2.1 Phân tách thuật ngữ - Phân tách đoạn câu Phân tách thuật ngữ (Word Segmentation) công việc tách chuỗi văn thành term (thuật ngữ) xem term có từ điển, term khơng có từ điển (các tên riêng, ký hiệu, chữ viết tắt…) Công việc làm tiền đề cho việc mơ hình hóa văn Chúng ta phải thực việc trước vector hóa văn bản, đối sánh hay xác định độ liên quan… Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Các ngơn ngữ Latin tiếng Anh hay tiếng Pháp vấn đề không phức tạp ngôn ngữ khác tiếng Việt, tiếng Hoa hay tiếng Nhật… từ tiếng Anh hay tiếng Pháp được tách hay nhiều dấu cách tiếng Việt, Trung Quốc, Nhật… dấu cách khơng phải từ mà tiếng (chữ) - đơn vị nhỏ từ Ví dụ: Xét câu tiếng Anh sau : We announced that we have captured him Dựa vào dấu cách phân tách được từ dễ dàng : We | announced | that | we | have | captured | him Tuy nhiên ta xem câu tiếng Việt tương ứng : Chúng xin thông báo bắt ta Rõ ràng dùng dấu cách để phân tách từ cho câu Kết phân tách thuật ngữ phải sau : Chúng | xin | thông báo | | | | bắt | ta Để giải vấn đề nhà Xử lý ngôn ngữ tự nhiên Việt Nam, Trung Quốc, Nhật Bản… thường sử dụng phương pháp như: Đối sánh thuật ngữ dài (Maximum Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa cú pháp (Syntax-based Approach)… Mỗi phương pháp có ưu nhược điểm riêng phương pháp sử dụng từ điển hoặc danh sách từ vựng Do xác từ điển hay danh sách từ vựng yếu tố quan trọng ảnh hưởng đến xác phân tách thuật ngữ Ngồi có nhập nhằng ngơn ngữ nên toán toán khác Xử lý ngôn ngữ tự nhiên chưa được giải cách trọn vẹn Hiện phân tách thuật ngữ thường đạt được kết từ 85% đến 98% từ phân tách xác Bộ đốn nhận danh từ riêng, chữ viết tắt coi phần phân tách thuật ngữ được áp dụng rộng rãi Nhiều toán coi cơng việc danh từ riêng, chữ viết tắt… có tần suất xuất cao văn chúng hàm chứa mức độ quan trọng lớn Ngồi việc đốn nhận danh từ riêng, chữ viết tắt phần việc hợp giải tham chiếu (Coreference Resolution) - được dùng nhiều ứng dụng tóm tắt sinh ngôn ngữ tự nhiên (Natural Language Generating) Xét về phạm vi lớn ta phải đối mặt với vấn đề khác, Phân tách đoạn-câu (Sentence Segmentation) công việc phân tách văn thành đoạn câu nhằm tạo tiền đề cho việc phân tích cú pháp sau văn Bài tốn khơng phân biệt ngơn ngữ hầu hết ngôn ngữ thường phân tách câu dựa dấu hiệu dấu ngắt câu dấu chấm, chấm hỏi, chấm than Tuy vậy, văn đưa vào khơng chuẩn kết khơng thể đạt 100% Ví dụ, sau dấu chấm câu khơng viết hoa dẫn đến việc hiểu nhầm thành dấu ba chấm Ngồi ra, số phần trăm sai sót khác tượng dấu chấm câu được dùng ký hiệu thực chức khác khác gây Ví dụ, dấu chấm dùng để phân tách phần nguyên phần thập phân số Nói chung phân tách đoạn-câu có khả đạt được độ 10 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết xác cao dễ dàng cài đặt phân tách từ phạm vi áp dụng không rộng 2.2.2 Gán nhãn từ loại Gán nhãn từ loại công việc gán cho từ câu, hay đoạn thông tin về từ loại ( Part of speech) chúng Ví dụ : xét câu tiếng Việt sau : Học sinh học sinh học Câu gán nhãn từ loại : [Học sinh]N[học]V [sinh học]N Tuy nhiên để máy hiểu gán nhãn từ loại vấn đề Sự nhập nhằng ngôn ngữ cản trở việc máy đốn nhận Ngồi việc phân tách thuật ngữ ảnh hưởng tới việc gán nhãn danh sách thuật ngữ câu đầu vào cho gán nhãn từ loại Với ví dụ có nhiều gán nhãn từ loại gán sai dẫn tới kết luận sai về cú pháp Các phương pháp thường dùng để cài đặt gán nhãn từ loại bao gồm : Mơ hình Markov ẩn - Giải thuật Viterbi, Dựa luật cú pháp (Rule-based), Dựa nhớ (Memory-based), Độ hỗn loạn lớn (Maximum Entropy)… Trong phương pháp áp dụng mơ hình Markov ẩn (Hidden Markov Model - HMM) được sử dụng nhiều Các phương pháp Bigram, Trigram hay CFG (Context Free Grammar) đều thuộc loại Hiện gán nhãn từ loại (POS Tagger) xác đạt tới khả gán nhãn 98% số từ 2.2.3 Phân tích cú pháp Phân tích cú pháp tốn tổng quát gán nhãn từ loại Ngoài việc gán từ loại cho từ, phân tích cú pháp (Syntax Analyzer hay Parser) phải nhận biết được ngữ gán kiểu cho ngữ để có được câu hoàn chỉnh về mặt ngữ pháp Nếu khơng câu câu khơng hồn chỉnh Xét về ngơn ngữ học, khơng phải câu Kết việc gán từ, ngữ thường được biểu diễn thành cây, gọi cú pháp (Syntax Tree) Với ví dụ ta có : Hình 1: Phân tích cú pháp 11 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết 5.3.2 Phương pháp Heading - Heading thường câu thích cho ảnh, hình vẽ báo điện tử tên đề mục văn khoa học, tác phẩm văn học Các Heading được SUMMARIZER xác định theo cách tương tự Title : Khi mơ hình hóa văn bản, SUMMARIZER đánh dấu đoạn văn mà có câu Đến pha Phân tích, câu được kiểm tra nòng cốt Đề-thuyết Sau term câu được tách dùng làm tiêu chí để đánh giá câu khác văn thông qua việc gán điểm HeadingPoint Khi áp dụng phương pháp Heading, cần ý số vấn đề sau : 53 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết - Một Heading khơng đạt về tính hồn thiện ngữ pháp term được dùng để đánh giá câu khác, tất nhiên thân Heading không được chọn làm câu tóm tắt Điều rút từ nhận xét Heading thường chứa term quan trọng, sát với nội dung văn thường ngữ danh từ Ngược lại, Heading có đủ phần đề thuyết được chọn làm câu tóm tắt theo vị trí Heading văn đầu vào - Hệ số tuyến tính phương pháp Heading khơng cao phương pháp Title term Title có độ quan trọng cao 5.3.3 Phương pháp NamedEntity - NE - Các Named Entity tên riêng địa danh, tên người, tên tổ chức , chữ viết tắt, ký hiệu Các Named Entity “chứng cứ” quan trọng cho việc chọn câu tóm tắt, nói Named Entity có độ quan trọng cao term xét vị trí cụ thể Title, Heading hay câu bình thường văn - Việc xác định Named Entity văn dựa việc phân chia Named Entity làm hai loại áp dụng thuật toán khác cho hai loại : Thứ Named Entity gồm hai tiếng (bigram) trở lên Các Named Entity thường tên riêng tiếng Việt Thanh Lam, Che Ghevara (tên người), Hà Nội, Hoàn Kiếm (tên địa danh) Việc xác định Named Entity gần giống thuật toán tách thuật ngữ với đối tượng xét chuỗi có tiếng viết hoa liền Vấn đề việc xác định chuỗi có tiếng viết hoa liền phân biệt Named Entity đầu câu với term đầu câu bình thường khác Thứ hai Named Entity gồm tiếng (unigram) Các Named Entity thường tên riêng nước ngoài, thuật ngữ nước ngoài, chữ viết tắt, ký hiệu hóa học Việc xác định Named Entity sau : Đầu tiên chuỗi được tách tiếng viết hoa , sau kiểm tra xem tiếng có từ điển tiếng Việt hay khơng, khơng coi Named Entity Việc xác định đồng thời hai loại Named Entity dẫn tới trùng lặp hai danh sách SUMMARIZER có module nhỏ để loại bỏ dư thừa Thuật tốn xác định Named Entity đơn giản thông qua kiểm thử nhận thấy kết thu được có độ xác cao - Bằng phương pháp trêm, Title Heading được xác định Named Entity dùng Named Entity để đánh giá câu khác gán điểm NEPoint cho câu Tương tự trường hợp term, Named Entity Title có độ quan trọng cao Heading Ngồi Named Entity dùng cho module Hợp giải tham chiếu (Coreference Resolution) thuật toán sinh văn pha Hiển thị 54 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết 5.3.4 Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) - Phương pháp thuộc phương pháp cấu trúc pha Phân tích Các đoạn văn được xác định độ liên quan lẫn dựa vào độ liên quan ta gán điểm Cooccurence cho câu thuộc đoạn văn Thuật tốn cụ thể sau : Văn có n đoạn P1, P2, , Pn Ta tính quan hệ đoạn P i với đoạn Pj thông qua công thức Cosine : Pij = cos(Pi, Pj )   p p ( p )  ( p ik jk ik jk )2 với i= 1, n ;j= 1, n ; Các giá trị PCij được ghi vào phần tử i,j mảng hai chiều n n Điểm Cooccurence đoạn Pi được tính sau : n Point(Pi) =  PC ij , j 1, n j 1 Từ đó, câu thuộc đoạn P i được gán điểm Cooccurence điểm Cooccurence đoạn Pi Theo tiêu chí phương pháp này, câu có điểm Cooccurence lớn quan trọng Chúng ta ý câu đoạn có điểm Cooccurence nhau, điều ảnh hưởng phần tới độ xác thuật tốn Có thể khắc phục vấn đề cách tính quan hệ lẫn câu đoạn hoặc sau tính quan hệ lẫn đoạn tính quan hệ câu đoạn với đoạn để xem mức độ “đóng góp” vào điểm Cooccurence câu Tuy nhiên hai hướng đều đòi hỏi tốn thêm nhiều tài nguyên hệ thống thời gian xử lý nên không cài đặt theo hai hướng vừa nêu Một ý cách đánh giá tính tốn độ quan trọng phương pháp khác hẳn với phương pháp khác nên việc xác định hệ số tuyến tính phương pháp phải dựa kết kiểm thử mà cải thiện khơng thể dùng tiêu chí định lượng khác để đánh giá xác định hệ số Hiện SUMMARIZER để hệ số 5.3.5 Phương pháp Tần suất xuất thuật ngữ Phương pháp dựa cách đánh giá TF (Term Frequency) : Một term xuất văn nhiều ngưỡng được coi term đạt tiêu chuẩn TF danh sách term TF văn được dùng để đánh giá câu thông qua việc gán điểm TF tùy vào độ xuất term Thơng qua kết kiểm thử, phương pháp cho kết cao, nhiên thời gian xử lý lớn 55 Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết 5.3.6 Phương pháp TFxIPF TFxIPF từ viết tắt Term Frequency times Inverse Paragraph Frequency Phương pháp dựa cách đánh giá TFxIPF nêu chương một, phần biểu diễn văn mô hình khơng gian vector Theo cách đánh giá thuật ngữ quan trọng đặc trưng xuất nhiều văn xuất văn khác Ở đây, thuật ngữ được xét đoạn được tính điểm TFxIPF theo cơng thức : Trong tf số lần xuất term i đoạn, N tổng số đoạn văn bản, ni số đoạn chứa term i 56 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Sau tất thuật ngữ đều được tính điểm TFxIPF, xếp giảm dần theo điểm Một phần trăm thuật ngữ có số điểm TFxIPF cao được dùng để đánh giá câu văn giống cách phương pháp Title, Heading hay Tần suất xuất : gán điểm TFxIPF cho câu dựa có mặt thuật ngữ TFxIPF câu Trước áp dụng phương pháp nêu pha Phân tích, văn cần được loại bỏ từ dừng (Stopword) từ dừng ảnh hưởng lớn đến độ xác tiêu chí gán điểm Các từ dừng từ xuất nhiều văn không mang nhiều ý nghĩa về mặt nội dung, thường hư từ, mạo từ và, nên, thế, nhiên… SUMMARIZER loại bỏ từ dừng thông qua module đơn giản, kiểm tra term văn bản, đoạn văn, câu văn xem có term danh sách từ dừng tiếng Việt khơng, có loại bỏ Danh sách từ dừng tiếng Việt được xây dựng bán tự động dựa việc thu thập từ xuất nhiều lượng lớn văn thuộc lĩnh vực khác Rõ ràng với việc phân tán nội dung vậy, từ xuất nhiều từ dừng Sau danh sách từ dừng được chuẩn hóa tay Việc loại từ dừng khơng thực pha tiền xử lý nhiều từ dừng chứng cớ ngôn ngữ quan trọng cho pha sau, đặc biệt pha Hiển thị Trong pha hiển thị, dựa vào số từ dừng, thường từ nối, để sinh trở lại văn Trong pha phân tích, chúng tơi có cài đặt số phương pháp khác Ngữ cố định, Vị trí tối ưu, Chuỗi từ vựng, nhiên chưa tích hợp vào SUMMARIZER chưa chứng minh được tính đắn, chi phí tính tốn cho thuật tốn theo phương pháp lớn hoặc chưa áp dụng được với kiểu tài liệu đầu vào ngữ liệu tiếng Việt 5.4 Các phương pháp pha Biến đổi 5.4.1 Biến đổi nhờ vào rút gọn câu Như đề cập, phương pháp biến đổi nhờ vào rút gọn câu không tăng thêm độ xác ứng dụng tóm tắt, làm tăng độ nén làm cho người đọc dễ hiểu nắm bắt được vấn đề Trong tiểu luận chọn phương pháp rút gọn câu dựa theo luật cú pháp Các luật cú pháp rút gọn thông thường được thu về thông qua việc học, áp dụng vào câu phân tích cú pháp để rút gọn cấu trúc câu Nhưng chúng tơi chưa có phân tích cú pháp xác mà phân tích nơng (Shallow Parser) nên có số luật được áp dụng để rút gọn xóa ngữ đồng vị, xóa bỏ thích, xóa trạng ngữ, giữ lại danh từ ngữ danh từ Các thuật tốn loại bỏ ngữ đồng vị, xóa thích, xóa trạng ngữ hay giữ lại danh từ được cài đặt đồ án thuật toán khác dựa tập luật rút gọn thống Thông qua kiểm thử nhận thấy bốn thuật toán làm việc hiệu quả, áp dụng nhiều câu có độ xác cao so với việc học từ tập mẫu đưa tập luật rút gọn thống i Thuật toán loại bỏ ngữ đồng vị 57 Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Ngữ đồng vị ngữ đóng vai trò với thành phần câu, thường ngữ danh từ Các ngữ đồng vị không mang nhiều chức cú pháp, làm rõ nghĩa cho câu : Ví dụ: Bill Gate, chủ tịch tập đoàn Microsoft, người giàu giới Ở đây, chủ tịch tập đoàn Microsoft ngữ đồng vị, bỏ đi, kết chấp nhận chừng mực ta phải ưu tiên thực yêu cầu về độ nén Ngữ đồng vị trường hợp xuất nhiều mẩu tin, thường được phân cách cặp dấu phảy, dấu hiệu để phân tách ngữ đồng vị thành phần chức với chúng Chúng ta dễ dàng phân biệt ngữ đồng vị với tập liệt kê cụm danh từ - vốn loại bỏ - việc xét chức từ loại thành phần sau dấu phảy cuối : Ví dụ: Một BMW, hai Hyundai, hai Mercedez bị tạm giữ ngày Ví dụ tập liệt kê cụm danh từ ngữ sau dấu phảy cuối “hai Mercedez” vốn ngữ danh từ, khác với ngữ sau dấu phảy trường hợp ngữ đồng vị ngữ động từ Như ta kiểm tra xem ngữ sau dấu phảy cuối ngữ động từ hay ngữ danh từ Trong trường hợp ngữ động từ ngữ nằm hai dấu phảy cuối ngữ đồng vị ta loại bỏ Tất nhiên trước thực việc phải phân tách tập ngữ danh từ ngữ động từ - nòng cốt câu - phân tích cú pháp nơng để giảm thiểu sai sót gây dấu phảy nằm ngữ động từ ii Loại bỏ thích Chú thích thực phần lớn loại ngữ đồng vị, được phát dễ dàng thuật toán loại bỏ chúng đơn giản nhiều Điều kéo theo độ xác phương pháp cao so với phương pháp rút gọn khác Hiện tại, hệ thống coi phần nằm dấu ngoặc đơn, nằm hai dấu ngạch ngang (- -) thích Sau nhận biết, xóa thích Thuật tốn đơn giản kiểm tra câu có cặp “()” hay “- -” xóa phần nằm iii Loại bỏ trạng ngữ Trạng ngữ ngữ bổ nghĩa cho câu (chính xác bổ nghĩa cho động từ câu ) về mặt thời gian, nơi chốn, nguyên nhân, mục đích, cách thức Ví dụ: Từ ngày hơm nay, nhiều trường đại học địa bàn thành phố tiếp tục nhận hồ sơ thí sinh trúng tuyển nguyện vọng hai (Thời gian) Nằm xã Kim Thuỷ, huyện Lệ Thuỷ, Quảng Bình, suối Bang ngun nét hoang sơ kỳ bí với đường vào hẹp, quanh co dốc (Nơi chốn) Để tránh lộn xộn tải, ĐH Kinh tế tiếp nhận hồ sơ sinh viên theo khu vực (Mục đích) Các trạng ngữ được phát cách tương tự ngữ đồng vị : Ngữ trước dấu phảy câu được lấy kiểm tra xem có ngữ danh từ hay không, không 58 Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết phải, đồng thời ngữ sau dấu phảy ngữ danh từ chương trình coi trạng ngữ chương trình loại bỏ trạng ngữ Đây trường hợp xuất nhiều mẩu tin phương pháp có độ xác độ nén cao iv Giữ lại cụm danh từ ngữ danh từ : Đây phương pháp rút gọn đơn giản mang lại kết có độ nén thấp làm giảm độ xác ứng dụng tóm tắt Một ngữ danh từ thường gồm thành phần danh từ đơn vị, danh từ loại thể, danh từ , tính từ bổ nghĩa cho danh từ chính, trạng từ bổ nghĩa cho tính từ Ví dụ: Nokia 9960i điện thoại di động vô sang trọng Trong câu [một] [chiếc] [điện thoại di động] [vô cùng] [sang trọng] ngữ danh từ Chúng ta rút gọn ngữ danh từ [một] [chiếc] [điện thoại di động], bỏ hết tính từ bổ nghĩa cho danh từ chính, trạng từ bổ nghĩa cho tính từ Câu trở thành : Nokia 9960i điện thoại di động Như thấy nên áp dụng phương pháp trường hợp yêu cầu độ nén cao tính xác hệ thống giảm nhiều Tùy vào yêu cầu độ nén mà thành phần ngữ danh từ bỏ theo thứ tự trạng từ bổ nghĩa tính từ, tính từ bổ nghĩa danh từ chính, danh từ đơn vị danh từ loại thể Như ví dụ trên, yêu cầu độ nén không lớn ứng dụng cần loại bỏ trạng từ để có được câu sau : Nokia 9960i điện thoại di động sang trọng Các thành phần từ loại ngữ danh từ được gán trọng số “loại bỏ” Trọng số lớn mức độ ưu tiên loại bỏ lớn Một số trường hợp tương tự trạng từ bổ nghĩa động từ, mệnh đề quan hệ sử dụng chung mơ hình có được trọng số “loại bỏ” xác Đặc biệt thơng qua q trình học máy rút luật rút gọn gán trọng số tương ứng Ứng dụng chưa cài đặt mơ hình học tự động từ tập ngữ liệu Trong phương pháp rút gọn theo cú pháp trên, SUMMARIZER sử dụng ba phương pháp đầu độ xác tồn ứng dụng không bị ảnh hưởng, kết rút gọn đạt yêu cầu Phương pháp cuối chưa có phân tích cú pháp mơ hình học máy thích hợp chưa được đưa vào áp dụng để rút gọn câu 5.4.2 Giản lược câu mặt ngữ nghĩa Thông qua việc kiểm thử, thấy phương pháp giản lược câu về mặt ngữ nghĩa không nên áp dụng cho việc rút gọn mẩu tin tượng khái niệm cấp ý niệm lê, táo, đào có chung kiểu từ loại xuất mẩu tin Và quan trọng hơn, khơng có mạng ngữ nghĩa chi tiết độ xác tóm tắt giảm nhiều Sau câu tin chuyên mục sức khỏe nói về tác dụng chua me đất: 59 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Để chữa viêm họng dùng chua me đất, bồ công anh, cam thảo sắc uống ngày thang mỗi thứ 20g, chia làm hai đến ba lần Sau dựa vào mạng ngữ nghĩa về y học, tìm được khái niệm “dược thảo” khái niệm cấp khái niệm về “chua me đất”, “bồ công anh”, “cam thảo” thay chúng, ta được câu thật có ngắn gọn : Để chữa viêm họng dùng dược thảo sắc uống ngày thang mỗi thứ 20g, chia làm hai đến ba lần Tuy nhiên dễ dàng nhận thấy câu chả ý nghĩa ban đầu ! Người đọc khơng biết dược thảo loại nào, chung chung Như thấy không nên áp dụng phương pháp rút gọn câu dựa vào ngữ nghĩa mẩu tin phạm vi ứng dụng nhỏ, độ xác giảm nhiều đồng thời cơng sức xây dựng mạng ngữ nghĩa lớn 5.5 Các phương pháp pha Hiển thị Pha hiển thị SUMMARIZER được cài đặt đơn giản : Sắp xếp lại câu được chọn được rút gọn theo thứ tự ban đầu văn đưa vào Sau câu được đưa qua module hợp giải tham chiếu đơn giản hiển thị kết cuối Việc xếp câu theo thứ tự ban đầu việc đơn giản câu văn đầu vào sau được SUMMARIZER mơ hình hóa trở thành đối tượng clsSentence tương ứng, có thuộc tính thứ tự câu đoạn (tương đối) thứ tự câu toàn văn (tuyệt đối) Chính nhờ thuộc tính thứ tự câu tuyệt đối này, xếp nối chúng lại với theo thứ tự ban đầu Ví dụ : Minh thông minh Cậu thường đạt kết cao học tập Ngồi cậu có khả văn nghệ Module hợp giải tham chiếu SUMMARIZER cài đặt hai công việc : loại bỏ tham chiếu tự loại bỏ tham chiếu thường Tuy nhiên chúng tơi chưa tích hợp được phần vào chương trình độ xác thấp Loại bỏ tham chiếu tự được thực đơn giản sau : Các ngữ câu được tách (dựa vào dấu phảy), ngữ không ngữ danh từ, ngữ động từ, ngữ tính từ hoặc khơng mệnh đề, đồng thời chứa term có danh sách tham chiếu tự “đó”, “như vậy”, “như trên” …thì bị loại bỏ Loại bỏ tham chiếu thường phần quan trọng, cải thiện tính dễ đọc, dễ hiểu tính tự nhiên kết trả về Thuật toán loại bỏ tham chiếu thường dựa việc phát Named Entity tham chiếu từ pha Phân tích Ở pha phân tích, chuỗi đồng tham chiếu được xây dựng với đầu chuỗi Named Entity, phần tử sau đại từ câu, cuối đại từ trước Named Entity khác Các câu chứa đồng tham chiếu được thay 60 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết đại từ Named Entity đầu chuỗi đồng tham chiếu Các Named Entity ứng viên chọn làm đầu chuỗi đồng tham chiếu Named Entity đầu câu trường hợp có nhiều Named Entity câu 5.6 Xây dựng chương trình Summarizer SUMMARIZER được chúng tơi xây dựng môi trường NET ngôn ngữ C# Đây ngôn ngữ có khả xử lý sở liệu phẳng cách nhanh chóng, ngồi đối tượng cấu trúc liệu có sẵn C# DictionaryBase, HashTable, ArrayList… có chể quản lý tìm kiếm truy xuất phần tử tối ưu, linh hoạt, thích hợp cho tốn Khai phá văn Cơ sở liệu chương trình sở liệu phẳng, gồm file *.txt Điều cho phép dễ dàng truy nhập sửa đổi thêm bớt liệu Chúng tơi xây dựng chương trình gồm projects:  Preprocessor ứng với giai đoạn tiền xử lý  Analyzer ứng với giai đoạn phân tích biến đổi  UI bao gồm loạt form hiển thị ứng với giai đoạn hiển thị Hình 13: Cấu trúc chương trình Summarizer CHƯƠNG TRÌNH ỨNG DỤNG 6.1 Một số giao diện chương trình 61 Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Hình 14: Giao diện Hình 15: Form cấu hình tóm tắt 6.2 Kiểm thử Việc kiểm thử hệ thống được tách thành việc kiểm thử module thành phần, bao gồm module sau : phân tách thuật ngữ tiếng việt, phát tách Named Entity, chọn câu quan trọng 62 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết sát với ý văn bản, rút gọn câu Trong module chọn câu quan trọng (kết pha Phân tích) quan trọng định độ xác toàn ứng dụng Ứng dụng được kiểm thử dựa tập liệu tin báo điện tử VnExpress, Vietnamnet Với mục đích phục vụ nghiên cứu, cài đặt ứng dụng cài đặt chức kiểm thử đơn vị, tập hợp thành form riêng Sau hình ảnh form Hình 16: Giao diện kiểm thử Các kết trung gian mơ hình hố văn bản, tách đoạn, phân tách thuật ngữ văn được theo dõi trực quan dễ dàng thống kê, kiểm thử Kết pha Phân tích Biến đổi được hiển thị thông qua form 63 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Hình 17: Giao diện phân tách đoạn câu Hình 18: Giao diện phân tách thuật ngữ đoạn 64 Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết Hình 19: Kết thực thi phương pháp TFxIPF Hình 20: Kết thực thi phương pháp Title 65 Tiểu luận xử lý ngôn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Hệ thống Tóm tắt văn bản, đề cập tới tiểu luận này, có tên đầy đủ Hệ thống Tóm tắt văn tự động Một hệ thống Tóm tắt văn tự động ứng dụng sinh tự động mô tả ngắn gọn hay nhiều văn sa.o cho giữ lại được nội dung quan trọng hiển thị theo dạng yêu cầu người sử dụng Hiện tại, thời gian có hạn chúng tơi triển khai được số thuật toán hệ thống phương pháp tiêu đề, phương pháp TFIPF Trong tương lai thực thuật tốn lại để chương trình hồn 66 Tiểu luận xử lý ngơn ngữ - Xây dựng ứng dụng tóm tắt văn tiếng Viết TÀI LIỆU THAM KHẢO 8.1 Links  minipar: http://www.cs.rochester.edu/u/schubert/247-447/  link parser: http://www.link.cs.cmu.edu/link/  Charniak’s parser: http://www.cs.brown.edu/people/ec/#software  System Quick: http://www.mcs.surrey.ac.uk/SystemQ/  MEAD: http://www.summarization.com/mead/  Open sources  http://sourceforge.net/projects/grok (The OpenNLP Maximum Entropy Package)  http://sourceforge.net/projects/maxent (OpenNLP)  http://sourceforge.net/projects/opennlp (nlpFarm)  http://sourceforge.net/projects/nlpfarm (Pytalk)  http://sourceforge.net/projects/ghmm (Hidden Markov Model Development Kit)  http://www.clsp.jhu.edu/ws99/projects/mt/ (GATE, A General Architecture for Text Engineering) 8.2 Books  Bài giảng cô Lê Thanh Hương  Hồ Tú Bảo, Knowledge Discovery and Data Mining, Viện CNTT - Viện khoa học công nghệ tiên tiến Nhật Bản JAIST, Bài giảng đại học Bách Khoa Hà Nội, 12/2003  Christoper D Manning and Hinrich Schutze, Foundations of Statistical Natural Language Processing, MIT Press, 1999  Huỳnh Quyết Thắng, Hoàng Minh Sơn, Thử nghiệm giải thuật tách từ tiếng Việt xây dựng cấu trúc liệu tốn tìm kiếm văn tiếng Việt, Tài liệu khoa học - ĐHBKHN  Mani & Maybury, Automatic Summarization, ACL 2001  Eduard Hovy & Daniel Marcu, Automated Text Summarization Tutorial, COLING/ACL ’98 67 ... phá liệu Khai phá liệu, vốn giai đoạn bảy giai đoạn trình Phát tri thức sở liệu, nhiên, giai đoạn yếu, nên thường đồng nhất, hay nói xác lấy Khai phá liệu làm đại diện cho trình Phát tri thức sở. .. liên quan chặt chẽ với Phát tri thức khai phá liệu Trong phạm vi tiểu luận 3.2 Khai phá văn Trong sở liệu, phần lớn liệu dạng văn (text) Lĩnh vực Khai phá liệu áp dụng với liệu văn phi cấu trúc... rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian toàn qui trình phát tri thức Bước thứ ba khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Bước thứ tư hiểu tri thức

Ngày đăng: 05/04/2019, 10:32

Từ khóa liên quan

Mục lục

  • 1. MỞ ĐẨU

  • 2. CƠ SỞ LÝ THUYẾT

    • 2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên

    • 2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên

      • 2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu

      • 2.2.2. Gán nhãn từ loại

      • 2.2.3. Phân tích cú pháp

      • 2.2.4. Phân tích ngữ nghĩa

      • 2.3. Các đặc trưng ngôn ngữ của tiếng Việt

        • 2.3.1. Ngữ âm và âm vị

        • 2.3.2. Từ pháp và hình thái

        • 2.3.3. Ngữ pháp

        • 3. KHAI PHÁ VĂN BẢN

          • 3.1. Tổng quan khai phá dữ liệu

          • 3.2. Khai phá văn bản

          • 3.3. Biểu diễn văn bản

            • 3.3.1. Mô hình boolean

            • 3.3.2. Mô hình không gian vector

            • 3.3.3. Mô hình tập thô dung sai

            • 3.4. Các bài toán Khai phá văn bản điển hình

              • 3.4.1. Bài toán Phân nhóm văn bản

              • 3.4.2. Bài toán Đánh chỉ mục - Tìm kiếm

              • 3.4.3. Bài toán Tóm tắt văn bản

              • 4. BÀI TOÁN TÓM TẮT VĂN BẢN

                • 4.1. Giới thiệu chung

                  • 4.1.1. Tóm tắt văn bản là gì ?

                  • 4.1.2. Các tiêu chí đánh giá

                  • 4.1.3. Phân loại bài toán Tóm tắt văn bản

Tài liệu cùng người dùng

Tài liệu liên quan