1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình khai phá văn bản tiếng Việt

63 431 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 832 KB

Nội dung

Luận văn tốt nghiệp Trang 1 Ngành: Công nghệ thông tin LỜI CẢM ƠN Lời đầu tiên, chúng em xin chân thành cảm ơn thầy Nhiếp Văn Ngọc, đã trực tiếp hướng dẫn và tạo điều kiện cho chúng em nghiên cứu và hoàn thành luận văn này. Chúng em xin chân thành cảm ơn cô Nguyễn Thị Thu Hà, cô đã hỗ trợ, giúp đỡ chúng em rất nhiều trong quá trình thực hiện. Và chúng em xin chân thành cảm ơn các thầy cô trong khoa Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ chúng em trong suốt quá trình học tập trong trường. Và cuối cùng chúng tôi xin cảm ơn đến tất cả bạn bè, những người đã hỗ trợ giúp đỡ chúng tôi hoàn thiện luận văn này. Mặc dù chúng em đã cố gắng hoàn thiện luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn không tránh khỏi những sai sót. Em kính mong nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và bạn bè. Hà nội, tháng 7 năm 2008 Đỗ Đức Cường Nguyễn Đình Luận Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 2 Ngành: Công nghệ thông tin MỞ ĐẦU Trong những năm gần đây khối lượng các văn bản báo cáo, tổng kết, v.v trong các cơ quan, đơn vị, ngành nghề, rất lớn. Đồng thời do sự phát triển vượt bậc của công nghệ thông tin nên các văn bản đều được chuyển tải dưới dạng điện tử. Các văn bản này rất đa dạng đề cập đến nhiều lĩnh vực trong xã hội như : kinh tế, chính trị, văn hoá, khoa học, giáo dục v.v. Vấn đề đặt ra là làm thế nào để phân loại và khai phá được các văn bản báo cáo này khi mà khối lượng các văn bản báo cáo ngày càng nhiều. Mặt khác một số nơi do thời gian, điều kiện không tham khảo những văn bản đã có, dẫn đến ban hành các văn bản mới chồng chéo thậm chí trái luật, nhiều chỗ sai do sử dụng lại các mẫu văn bản cũ .v.v Vì vậy vấn đề phân loại và khai phá những văn bản đã ban hành là vấn đề rất cần thiết. Hiện nay ở Việt Nam việc phân loại và tóm tắt văn bản nói chung, văn bản báo cáo nói riêng vẫn phải làm bằng tay. Một thực tế là khi khối lượng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều không tưởng. Hướng giải quyết là một chương trình máy tính tự động phân loại và tóm tắt các thông tin của các văn bản báo cáo tiếng Việt. Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 3 Ngành: Công nghệ thông tin Chương 1. Tổng quan chung về khai phá văn bản 1. Data Mining 1.1. Bối cảnh ra đời của khai phá dữ liệu: Trước sự phát triển không ngừng của internet dẫn đến những kho dữ liệu đã lưu trữ một lượng dữ liệu khổng lồ. Trong lượng dữ liệu khổng lồ đó ẩn chứa rất nhiều những thông tin quan trọng, tuy nhiên, trước đây người ta vẫn thường sử dụng những phương pháp thủ công mà rất khó khăn để khai phá chúng. Mà những thông tin quan trọng luôn thôi thúc con người tìm cách để khai phá . Còn các hệ thống kho dữ liệu chỉ nhằm làm nhiệm vụ lưu trữ dữ liệu mà thôi. Cùng với sự phát triển của kỹ thuật máy tính và kỹ thuật thông tin, thông tin ngày càng được phát triển mạnh mẽ, đã vượt qua mọi khả năng phân tích thủ công của con người, cho dù hệ thống kho dữ liệu có thể nâng cao khả năng tìm kiếm, thống kê… nhưng không thể phát hiện được những mối quan hệ và những quy luật nằm bên trong dữ liệu, đồng thời cũng không thể căn cứ vào những phương pháp phân tích truyền thống được nữa. Trong một biển dữ liệu khổng lồ, làm thế nào để lấy được những thông tin có giá trị có tri thức đã trở thành một nhiệm vụ vô cùng quan trọng, Con người mong muốn loại bỏ những dữ liệu thô để chắt lọc những dữ liệu tinh, Khai phá dữ liệu DM bắt nguồn từ đây. Nó xuất hiện vào cuối những năm 80 của thế kỷ 20, từ những năm 90 nó bắt đầu khởi phát, cho tới thế kỷ 21, rất nhiều các khái niệm gần đúng với nó ví dụ KDD( Knowledge Data Development ), phân tích dữ liệu, Data Fusion, Data warehouse… Trong lúc này, một lĩnh vực nằm trong ngành trí tuệ nhân tạo là học máy đang không ngừng phát triển. Học máy làm nâng cao tính năng của những chương trình máy tính, nó thu nhận được từ nhiều ngành khoa học khác nhau bao gồm: trí tuệ nhân tạo, xác suất thống kê, tam lý học, triết học… rồi căn cứ vào những mô hình Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 4 Ngành: Công nghệ thông tin học khác nhau để đưa ra phương pháp học, ví dụ: tự học, học có giám sát, mạng noron và di truyền… Cuối cùng: Data Mining là việc tiến hành xử lý, khai phá từ trong kho dữ liệu lớn, không honaf chỉnh, nhiều nhiễu, mơ hồ, để trích rút ra những thông tin có giá trị, có tri thức. 1.2. Sự phát triển: Khái niệm về KDD lần đầu tiên được xuất hiện vào tháng 8 năm 1989 tại hội nghị trí tuệ nhân tạo quốc tế lần thứ 11. Từ đó tới nay, rất nhiều các chuyên gia, học giả ở nhiều quốc gia đã nghiên cứu về DM. Các hiệp hội được hình thành như ACM SIGKDD, IEEE, ICDM, SDM, PAKDD, VLDB, FSKD, MLDM… Tại Việt Nam, khoảng 5 năm trở lại đây, ngày càng có nhiều các chuyên gia nghiên cứu DM và DM cũng ngày được phát triển, nó đang là một xu thế mới trong nghiên cứu để ứng dụng vào cuộc sống. 1.3. Các khía cạnh khai phá chủ yếu Nhiệm vụ chủ yếu là phân tích dữ liệu, phân lớp, phân loại, đo lường, đo độ lệch … 1.3.1. Phân tích kết hợp (association analysic) Khai phá luật kết hợp do Rakesh Apwal và cộng sự cùng đưa ra. Giá trị giữa 2 biến lượng hoặc hai biến lượng trở lên tồn tại một tính quy luật được gọi là kết hợp. Luật kết hợp dữ liệu là một vấn đề khá quan trọng trong kho dữ liệu, để nhằm phát hiện ra tri thức. Kết hợp được phân thành kết hợp đơn giản, kết hợp time-series và kết hợp nhân quả. Mục đích của phân tích kết hợp là tìm ra mạng kết hợp tiềm ẩn trong kho dữ liệu. 1.3.2. Phân lớp ( clustering ) Phân lớp là căn cứ vào tính chất của dữ liệu để phân thành từng lớp khác nhau. Trong một lớp dữ liệu có nhiều đặc tính tương thích, phân lớp là căn cứ vào các đặc trưng khái quát của dữ liệu để phân chúng thành từng lớp khác nhau, ví dụ như căn cứ vào mô hình phân bố của dữ liệu, quan hệ giữa các thuộc tính của dữ liệu. Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 5 Ngành: Công nghệ thông tin 1.3.3. Phân loại ( classification ) Phân loại là tìm ra khái niệm miêu tả của một lớp nào đó, nó đại diện cho chỉnh thể tin tức của dữ liệu, rồi dựa vào hàm miêu tả, đồng thời dùng hàm mô tả này để miêu tả mô hình dữ liệu. Thông thường, dùng mô hình cây quyết định để biểu thị. Phân loại là lợi dụng việc huấn luyện tập dữ liệu thông qua một số các thuật toán nhất định để đạt được quy tắc phân loại. 1.3.4. Khẳng định ( predication ): Khẳng định là lợi dụng lịch sử của dữ liệu để tìm ra được quy luật biến hóa, xây dựng mô hình, đồng thời từ mô hình đó để áp dụng vào loại dữ liệu trong tương lai để tiến hành khẳng định, khẳng định quan tâm tới độ tinh và tính chuẩn xác, thông thường dùng phương sai của khẳng định để đo lường. 1.3.5. mô hình time –series: Time –series chỉ sự thông qua sự tuần tự của thời gian tìm kiếm những mô hình phát sinh. Tựa như hồi quy, nó cũng dùng để nhận biết giá trị tương lai của dữ liệu. 1.3.6. Độ lệch ( deviation) Trong độ lệch bao gồm rất nhiều tri thức, trong kho dữ liệu, dữ liệu tồn tại những khác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng. Độ lệch giữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế. 1.4. Quy trình của DM Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 6 Ngành: Công nghệ thông tin 1.4.1. Chuẩn bị dữ liệu : Chuẩn bị dữ liệu được phân thành 3 bước chính: Lựa chọn dữ liệu, Tiền xử lý và biến đổi dữ liệu. Mục đích của việc lựa chọn dữ liệu là tìm kiếm tất cả những thông tin của đối tượng liên quan để trích chọn ra dữ liệu cần thiết đưa vào xử lý, tiền xử lý thực chất là quá trình lọc nhiễu. Biến đổi dữ liệu là quá trình tìm kiếm những đặc trưng chuẩn bị cho giai đoạn khai phá dữ liệu. 1.4.2. Giai đoạn khai phá dữ liệu Giai đoạn khai phá dữ liệu đầu tiên phải xác định rõ nhiệm vụ hoặc mục đích khai phá. Tiếp theo xác định rõ sử dụng phương pháp nào để khai phá, hoặc có thể dùng các phương pháp khác nhau để thực hiện. Để lựa chọn phương pháp khai phá dựa vào 2 đặc điểm sau: - Với mỗi dạng dữ liệu khác nhau sẽ có đặc điểm khác nhau, do đó cần sử dụng phương pháp nào để đạt hiệu quả tốt nhất. - Do yêu cầu của người dùng hoặc hệ thống, có người dùng yêu cầu nhận được mô hình, có thể dễ dàng hiểu được tri thức, có người dùng hoặc hệ thống lại muốn nhận được sự đánh giá chuẩn xác tri thức. 1.4.3. Kết quả và đánh giá: Giai đoạn khai phá dữ liệu đã đưa ra được mô hình, thông qua người dùng hoặc máy để đánh giá và đưa ra tri thức. 2. Text Mining 2.1 Thế nào là khai phá dữ liệu văn bản: Khai phá dữ liệu văn bản là rút ra những thông tin có giá trị và có tri thức từ trong dữ liệu văn bản. Hay nói cách khác, là khai phá dữ liệu trong văn bản. Từ định nghĩa trên cho thấy, khai phá dữ liệu văn bản là một phần nằm trong khai phá dữ Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 7 Ngành: Công nghệ thông tin liệu, nó cũng sử dụng các công cụ khai phá như máy học, thống kê số học, xử lý ngôn ngữ tự nhiên … và là sự giao thoa của nhiều ngành khoa học khác nhau. Nó ứng dụng trong nhiều lĩnh vực khác nhau, ví dụ : thương mại tri thức ( business intelligence ), phục hồi dữ liệu (information retrieval ), xử lý thông tin sinh vật ( bioinformatics)…và được ứng dụng nhiều trong các lĩnh vực : quản lý quan hệ khách hàng ( customer relationship management ), tìm kiếm trên mạng ( web search )…. 2.2 Tại sao phải khai phá dữ liệu văn bản: Trong thực tế cuộc sống, rất nhiều các lĩnh vực đều chứa đựng lượng lớn dữ liệu, đặc biệt như là dữ liệu văn bản, làm thế nào để khai phá và trích rút dữ liệu có ích từ trong văn bản là một vấn đề vô cùng quan trọng, hay nói cách khác, khai phá dữ liệu văn bản đang là một ngành mới và là một ngành rất phát triển. - Dữ liệu text bao gồm : bán cấu trúc và không cấu trúc những bài báo, kết quả nghiên cứu, dữ liệu web, email, blog, diễn đàn … Bán cấu trúc có nghĩa : Các dạng văn bản bao gồm một số trường có cấu trúc như tên tiêu đề, tác giả … và một số trường không cấu trúc tựa như abstract hoặc nội dung ( content). Một trong những đặc điểm của textmining là có một số lớn lượng đặc trưng được miêu tả trong mỗi văn bản., điển hình một dữ liệu văn bản ta có thể rút ra một lượng lớn đặc trưng ví dụ như từ khóa, nội dung, thuật ngữ… Trong trường hợp ngược lại, khi phân tích một nhóm files hoặc bảng liên kết, ta tìm thấy những đặc trưng từ một vài cho đến vài trăm, những đặc trưng này xuất hiện rải rác trong các văn bản. Mỗi văn bản có thể chứa một số ít tập các từ khóa, và phần lớn các từ khóa xuất hiện trong một số hữu hạn các văn bản, do đó phần lớn các vector đặc trưng nhị phân được sử dụng để biểu diễn đặc trưng có thể mang giá trị 0. TextMining là sự giao thoa của nhiều lĩnh vực khoa học khác nhau: Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 8 Ngành: Công nghệ thông tin 2.3 Các khía cạnh khai phá dữ liệu văn bản Khai phá dữ liệu văn bản gồm 3 tầng chính : tầng dưới cùng là các công cụ khai phá cơ bản như máy học, đại số thống kê, xử lý ngôn ngữ tự nhiên … Tầng giữa bao gồm các kỹ thuật khai phá cơ bản ; trích rút thông tin, phân loại văn bản, phân cụm, nén văn bản và xử lý dữ liệu văn bản. Tầng trên là tầng ứng dụng bao gồm truy vấn thông tin, và phát hiện tri thức . 2.4 Các bước quan trọng trong khai phá dữ liệu văn bản: 2.4.1 Tiền xử lý văn bản: Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Truy vấn thông tin, Phát hiện tri thức Trích rút thông tin văn bản Phân loại văn bản Phân lớp văn bản Nén văn bản Xử lý dữ liệu văn bản Máy học, Đại số thống kê, Xử lý ngôn ngữ tự nhiên Luận văn tốt nghiệp Trang 9 Ngành: Công nghệ thông tin 1- Định nghĩa các quy tắc để trích rút, tập hợp của văn bản ( data selection and filtering ) 2- Định nghĩa định dạng của văn bản 3- Đưa văn bản về dạng chuẩn ( làm sạch, nhận dạng ngày và tiền tệ …) 4- Thu nhỏ và chuyển hóa văn bản ( loại bỏ các từ dừng, từ tầm thường …) 2.4.2 Xử lý từ : 1- Chọn đơn vị phân tích: từ( cách biểu diễn hoặc chú thích ) và biểu diễn từ ghép, thuật ngữ… 2- Định nghĩa quy tắc ngữ pháp để giải thích nghĩa bóng của văn bản 3- Ngôn ngữ và phân tích từ ( phát hiện từ khóa , điệp từ …) 4- Định nghĩa loại ngữ nghĩa, gán nhãn thuật ngữ 5- Phân tích teo định nghĩa hoặc siêu dữ liệu… 2.4.3 Xử lý khai phá văn bản: 1- Phân loại văn bản 2- Phân cụm và tóm tắt 3- Trích rút tri thức ( với sự kết hợp của hệ chuyên gia ) 4- Kết hợp kết quả của TM với xử lý dữ liệu 2.5 Xử lý ngôn ngữ tự nhiên ( Natural Laguage Processing –NLP): Là việc xử lý bằng ngôn ngữ của con người bằng công cụ máy vi tính thông qua các phương pháp học máy để nhận biết từ khóa, thuật ngữ, nhóm từ đồng thời xác định được các thành phần trong câu như : danh từ, tính từ, động từ, giới từ… để thông qua đó đưa ra quy luật trong việc tách ghép từ, tách câu, ghép câu trong các kỹ thuật khai phá văn bản… 2.5 Kỹ thuật tóm tắt văn bản ( Text – Summary): 2.5.1 Định nghĩa: Tóm tắt văn bản theo nội dung, không bao gồm lời bình luận, bổ sung, giải thích … 2.5.2 Phân loại tóm tắt: - Phân loại theo nhu cầu người dùng: Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận Luận văn tốt nghiệp Trang 10 Ngành: Công nghệ thông tin + Tóm tắt chung ( GS- Generic Summarization) + Tóm tắt có truy vấn ( User – query Summarization ) - Phân loại theo đối tượng văn bản: + Tóm tăt đơn văn bản ( Single document summarization ) + Tóm tắt đa văn bản ( Multiple document summarization ) - Phân loại theo phương thức: + Tóm tắt dựa trên trích rút ( SBE- Summarization based on Extraction ) + Tóm tắt dựa trên sự hiểu biết ( SBU – Summarization based on Understanding ) - Phân loại theo sự cần thiết + Tóm tắt có giám sát ( supervised summarization –SS) + Tóm tắt không giám sát ( US – Unsupervised summarization ) 2.5.3 Tóm tắt tự động : 1- Định nghĩa : Thông qua máy vi tính tiến hành trích rút nội dung tự động từ một văn bản nguồn để đưa ra nội dung trọng tâm cô đọng, đồng thời rút ngắn được chiều dài văn bản. 2- Hệ thống tóm tắt tự động: Hệ thống tóm tắt tự động có thể tóm tắt văn bản nguồn thành những văn bản tóm tắt ngắn với nội dung trọng tâm và cô đọng nhất. Hình 1-1 Mô hình tóm tắt tự động 3- Các phương pháp đánh giá Edmundson và Rouge Sinh viên thực hiện: Đỗ Đức Cường Lớp C4 -Tin Nguyễn Đình Luận [...]... Phân tách ngữ đoạn Tạo vector văn bản Loại văn bản Luật phân loại văn bản Xác định loại văn bản Hình 2-2 Mô hình phân loại một văn bản 2.1.7.2 Phân tách ngữ đoạn Từ văn bản cần phân loại, để có thể xác định được vector văn bản cần phân loại, ta cần phải sàng lọc văn bản cần phân loại, để xác định các từ phổ biến xuất hiện trong văn bản cần phân loại 2.1.7.3 Tạo vector văn bản Dựa trên tập các ngữ đoạn... ngữ như tiếng Hoa, Nhật, Hàn Quốc và Tiếng Việt của chúng ta phải xử lý hoàn toàn khác do đơn vị nhỏ nhất lại là tiếng Do đó, trước khi thực hiện phân loại, chúng ta phải tìm hiểu về các hướng tiếp cận cho việc tách từ tiếng Việt, một vấn đề khá thú vị không kém các phương pháp phân loại Chương 2: Xây dựng mô hình khai phá văn bản tiếng Việt 2.1 Phân loại văn bản Mục tiêu của phân loại văn bản là... gọn, ta xác định được vector văn bản cần phân loại 2.1.7.4 Xác định loại văn bản Dựa trên bộ luật phân loại văn bản, từ vector văn bản cần phân loại ta có thể xác định được loại của văn bản dựa trên phương pháp kết hợp luận lý Ta tiến hành so sánh kết hợp luận lý trong bộ luật phân loại tương ứng với từng loại văn bản để tìm ra loại của văn bản dựa trên vector văn bản của văn bản cần được phân loại Sinh... các vector văn bản tương ứng với các văn bản ban đầu Từ đó ta có thể áp dụng lý thuyết tập thô để tạo ra tập luật phân loại văn bản, xem hình 2-1 2.1.2 Lọc và phân loại văn bản Từ bộ dữ liệu văn bản thô ban đầu dưới dạng các tập tin văn bản, có được từ nhiều nguông khác nhau, theo từng loại văn bản đã định nghĩa trước Nguồn dữ liệu văn bản này có thể dễ dàng có được từ internet, hiện nay ở Việt Nam có... mọi luật phân loại ứng với loại văn bản Một khi văn bản không thoả mọi luật phân loại ứng với loại văn bản nào thì ta kết luận văn bản đó thuộc loại không thể xác định, và để xác định được loại của văn bản này thì cần phải có thêm tri thức 2.1.7.1 Mô hình phân loại một văn bản Sinh viên thực hiện: Đỗ Đức Cường Nguyễn Đình Luận Lớp C4 -Tin Luận văn tốt nghiệp Trang 35 Văn bản cần phân loại Ngành: Công... việc xây dựng hệ thống tóm tắt văn bản tự động, cụ thể là văn bản báo cáo tiếng Việt sẽ mang tới cho mọi người những luồng thông tin cô đọng hơn Tóm tắt văn bản tức là giữ lại được phần trọng tâm của văn bản, dễ dàng hơn trong việc chắt lọc những thông tin, đồng thời góp phần nhanh chóng hơn trong việc sắp xếp, phân loại, tìm kiếm các văn bản theo các chủ đề khác nhau (thay vì dựa trên các văn bản gốc... đã tạo tóm tắt văn bản tiếng Nhật Có hai phương pháp là rút câu dựa trên từ khóa và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây dựng độ đo mối liên kết giữa hai từ M Mitra (2002) đã đề xuất phương pháp tạo tóm tắt dựa trên việc trích rút các đoạn văn quan trọng bao gồm việc tạo bản đồ quan hệ văn bản dùng các đoạn văn, phân tích bản đồ quan hệ của các văn bản để ấn định đoạn văn nào là quan... phân loại văn bản, để giải quyết vấn đề này, ta sử dụng độ phổ biến văn bản DF đưa vào biểu thức biểu diễn văn bản:  d tfdf = (tf 1 × df , tf × df , , tf × df 1 2 2 n n ) trong đó: • tf • df là số lần xuất hiện của từ phổ biến thứ i i i = log N , với N là tổng số văn bản trong tập văn bản mẫu, n n là số văn bản có từ phổ biển thứ i xuất hiện Tuy nhiên, dù cho mô hình không gian vector văn bản được... phân loại văn bản là phân loại các văn bản vào những loại văn Sinh viên thực hiện: Đỗ Đức Cường Nguyễn Đình Luận Lớp C4 -Tin Luận văn tốt nghiệp Trang 27 Ngành: Công nghệ thông tin bản được định nghĩa trước Một văn bản có thể thuộc về một hay nhiều loại văn bản hay không thuộc về một loại văn bản nào Để có thể phân loại văn bản, ta cần phải có một bộ dữ liệu văn bản mẫu đã được phân loại, để dựa trên... vector văn bản, mạng nơron, bộ luật phân loại văn bản tuỳ vào phương pháp sử dụng để phân loại văn bản, được gọi là hệ hỗ trợ quyết định • Giai đoạn phân loại: Sử dụng dữ liệu văn bản và kết quả của giai đoạn huấn luyện là hệ hỗ trợ quyết định, để phân loại văn bản Văn bản, thực chất là những chuỗi các ký tự, cần phải được chuyển đổi sang một dạng thức phù hợp với mỗi cách tiếp cận phân loại văn bản . tỉ lệ chiều dài văn bản phải trích rút các câu theo độ quan trọng của các câu. Để xác định được độ quan trọng của câu chủ yếu dựa vào độ quan trọng của các thuật ngữ trong câu , ngoài ra còn phụ. liệu tồn tại những khác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng. Độ lệch giữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế. 1.4. Quy. rất nhiều những thông tin quan trọng, tuy nhiên, trước đây người ta vẫn thường sử dụng những phương pháp thủ công mà rất khó khăn để khai phá chúng. Mà những thông tin quan trọng luôn thôi thúc

Ngày đăng: 03/07/2015, 14:45

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w