1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx

58 492 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 1,18 MB

Nội dung

i TRƯỜNG …………………. KHOA……………………….  Báo cáo tốt nghiệp Đề tài: PHÂN TÁCH CỤM DANH TỪSỞ TRIẾNG ViỆT SỬ DỤNG HÌNH CRFs ii LỜI CAM ĐOAN Tôi xin cam đoan, kết quả luận văn hoàn toàn là kết quả của tự bản thân tôi tìm hiểu, nghiên cứu. Các tài liệu tham khảo được trích dẫn và chú thích đầy đủ. Học viên Nguyễn Thanh Huyền iii LỜI CẢM ƠN Trong suốt thời gian học tập, hoàn thành luận văn tôi đã được các Thầy, truyền đạt cho các kiến thức cũng như phương pháp nghiên cứu khoa học rất hữu ích và được gia đình, quan, đồng nghiệp và bạn bè quan tâm, động viên rất nhiều. Trước hết, tôi muốn gửi lời cảm đến các Thầy, trong khoa Công nghệ thông tin- Trường Đại học Công nghệ - Đại học Quốc gia Hà nội đã truyền đạt các kiến thức quý báu cho tôi trong suốt thời gian học tập tại trường. Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới thầy giáo hướng dẫn PGS.TS Đoàn Văn Ban, người Thầy đã tận tình chỉ bảo và hướng dẫn về mặt chuyên môn cho tôi trong suốt quá trình thực hiện luận văn này. Cũng qua đây, tôi xin gửi lời cảm ơn đến ban giám hiệu trường Trung cấp kinh tế Hà Nội, nơi tôi đangcông tác đã tạo mọi điều kiện thuận lợi cho tôi trong thời gian học tập cũng như trong suốt quá trình làm luận văn tốt nghiệp. Cuối cùng, tôi xin cảm ơn bố mẹ, anh, chị, chồng, con và các bạn bè, đồng nghiệp đã luôn ủng hộ, động viên tôi rất nhiều để tôi yên tâm nghiên cứu và hoàn thành luận văn. Trong suốt quá trình làm luận văn, bản thân tôi đã cố gắng tập trung tìm hiểu, nghiên cứu và tham khảo thêm nhiều tài liệu liên quan. Tuy nhiên, do thời gian hạn chế và bản thân còn chưa nhiều kinh nghiệm trong nghiên cứu khoa học, chắc chắn bản luận văn vẫn còn nhiều thiếu sót. Tôi rất mong được nhận sự chỉ bảo của các Thầy giáo và các góp ý của bạn bè, đồng nghiệp để luận văn được hoàn thiện hơn. Hà Nội, ngày 12 tháng 06 năm 2011 Nguyễn Thanh Huyền iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU 1 Chương 1 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 3 1.1. Giới thiệu về khai phá dữ liệu 3 1.1.1 Khám phá tri thức 3 1.1.2. Khai phá dữ liệu 4 1.2. Ứng dụng của khai phá dữ liệu 5 1.3. Một số phương pháp khai phá dữ liệu thông dụng 6 1.3.1. Phân lớp (Classification) 6 1.3.2. Phân cụm (Clustering) 8 1.3.3. Luật kết hợp (Association Rules) 9 1.4. Lý thuyết tập thô 9 1.4.1. Hệ thông tin 10 1.4.2. Bảng quyết định 10 1.4.3. Quan hệ không phân biệt được 12 1.4.4. Xấp xỉ tập hợp 12 1.5. Kết luận chương 1 14 Chương 2- CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 15 2.1. Tổng quan về cây quyết định 15 2.1.1. Định nghĩa 15 2.1.2. Thiết kế cây quyết định 16 2.1.3. Phương pháp tổng quát xây dựng cây quyết định 18 2.1.3. Ứng dụng cây quyết định trong khai phá dữ liệu 19 2.2. Thuật toán xây dựng cây quyết định dựa vào Entropy 20 2.2.1. Tiêu chí chọn thuộc tính phân lớp 20 2.2.2. Thuật toán ID3 21 2.2.3. Ví dụ về thuật toán ID3 23 2.3. Thuật toán xây dựng cây quyết định dựa vào độ phụ thuộc của thuộc tính 28 v 2.3.1. Độ phụ thuộc của thuộc tính theo lý thuyết tập thô 28 2.3.2. Độ phụ thuộc chính xác  theo lý thuyết tập thô 28 2.3.3. Tiêu chí chọn thuộc tính để phân lớp 28 2.3.4. Thuật toán xây dựng cây quyết định ADTDA 29 2.3.5. Ví dụ 30 2.4. Thuật toán xây dựng cây quyết định dựa vào Entropy và độ phụ thuộc của thuộc tính 33 2.4.1. Tiêu chí chọn thuộc tính để phân lớp 33 2.4.2. Thuật toán FID3 (Fixed Iterative Dichotomiser 3 [5] ) 34 2.4.3. Ví dụ 35 2.5. Kết luận chương 2 39 Chương 3 - ỨNG DỤNG KIỂM CHỨNG VÀ ĐÁNH GIÁ 40 3.1. Giới thiệu bài toán 40 3.2. Giới thiệu về sở dữ liệu 40 3.3. Cài đặt ứng dụng 41 3.4. Kết quả và đánh giá thuật toán 42 3.4.1. hình cây quyết định tương ứng với tập dữ liệu Bank_data 42 3.4.2. Các luật quyết định tương ứng với tập dữ liệu Bank_data 44 3.4.3. Đánh giá thuật toán 44 3.4.4. Ứng dụng cây quyết định trong khai phá dữ liệu 45 3.5. Kết luận chương 3 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 49 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CÁC KÝ HIỆU: S = (U, A) Hệ thông tin V a Tập các giá trị của thuộc tính a IND(B) Quan hệ tương đương của tập thuộc tính B [u i ] p Lớp tương đương chứa đối tượng u i U/B Phân hoạch của U sinh ra bởi quan hệ IND(B) DT=(U,CD) Bảng quyết định )(XB B-Xấp xỉ dưới của X )(XB B-xấp xỉ trên của X )(S C dPO Miền C-khẳng định của d |DT| Tổng số các đối tượng trong DT |U| Lực lượng của tập U [U] d Phân hoạch của U sinh ra bởi quan hệ IND(d) CÁC CHỮ VIẾT TẮT: ADTDA Algorithm for Buiding Decision Tree Based on Dependency of Attributes FID3 Fixed Iterative Dichotomiser 3 ID3 Iterative Dichotomiser 3 IG Information Gain vii DANH MỤC CÁC BẢNG Bảng 1. Hệ thông tin đơn giản 10 Bảng 2. Một bảng quyết định với C={Age, LEMS} và D={Walk} 11 Bảng 3. Dữ liệu huấn luyện 23 Bảng 4. Bảng các thuộc tính của tập dữ liệu Bank_data 41 Bảng 5. Độ chính xác của các thuật toán 45 viii DANH MỤC CÁC HÌNH Hình 1. Quá trình phân lớp dữ liệu – Bước xây dựng hình 7 Hình 2. Quá trình phân lớp dữ liệu – Ước lượng độ chính xác hình 8 Hình 3. Quá trình phân lớp dữ liệu –Phân lớp dữ liệu mới 8 Hình 4. Xấp xỉ tập đối tượng trong Bảng 2 bởi các thuộc tính điều kiện Age và LEMS 14 Hình 5. tả chung về cây quyết định 15 Hình 6. Ví dụ về Cây quyết định 16 Hình 7. hình phân lớp các mẫu mới 19 Hình 8. Cây sau khi chọn thuộc tính Humidity (ID3) 25 Hình 9. Cây sau khi chọn thuộc tính Outlook (ID3) 26 Hình 10. Cây kết quả (ID3) 27 Hình 11. Cây sau khi chọn thuộc tính Humidity (ADTDA) 31 Hình 12. Cây sau khi chọn thuộc tính Outlook (ADTDA) 32 Hình 13. Cây kết quả (ADTDA) 33 Hình 14. Cây quyết định sau khi chọn thuộc tính Humidity (FID3) 36 Hình 15. Cây quyết định sau khi chọn thuộc tính Windy (FID3) 38 Hình 16. Cây kết quả (FID3) 39 Hình 17. Dạng cây quyết định ID3 42 Hình 18. Dạng cây quyết định ADTDA 42 Hình 19. Dạng cây quyết định FID3 43 Hình 20. Một số luật của cây quyết định ID3 44 Hình 21. Một số luật của cây quyết định ADTDA 44 Hình 22. Một số luật của cây quyết định FID3 44 Hình 23. Giao diện ứng dụng 46 1 MỞ ĐẦU  Lý do chọn đề tài Trong những năm gần đây Công nghệ thông tin phát triển mạnh mẽ và những tiến bộ vượt bậc. Cùng với sự phát triển của Công nghệ thông tin là sự bùng nổ thông tin. Các thông tin tổ chức theo phương thức sử dụng giấy trong giao dịch đang dần được số hóa, do nhiều tính năng vượt trội mà phương thức này mang lại như: thể lưu trữ lâu dài, cập nhật, sửa đổi, tìm kiếm một cách nhanh chóng. Đó là lý do khiến cho số lượng thông tin số hóa ngày nay đang tăng dần theo cấp số nhân. Hiện nay, không một lĩnh vực nào lại không cần đến sự hỗ trợ của công nghệ thông tin và sự thành công của các lĩnh vực đó phụ thuộc rất nhiều vào việc nắm bắt thông tin một cách nhạy bén, nhanh chóng và hữu ích. Với nhu cầu như thế nếu chỉ sử dụng thao tác thủ công truyền thống thì độ chính xác không cao và mất rất nhiều thời gian. Do vậy việc khai phá tri thức từ dữ liệu trong các tập tài liệu lớn chứa đựng thông tin phục vụ nhu cầu nắm bắt thông tin vai trò hết sức to lớn. Việc khai phá tri thức đã từ lâu nhưng sự bùng nổ của nó thì mới chỉ xảy ra trong những năm gần đây. Các công cụ thu thập dữ liệu tự động và các công nghệ sở dữ liệu được phát triển dẫn đến vấn đề một lượng dữ liệu khổng lồ được lưu trữ trong sở dữ liệu và trong các kho thông tin của các tổ chức, cá nhân Do đó việc khai phá tri thức từ dữ liệu là một trong những vấn đề đã và đang nhận được nhiều sự quan tâm của các nhà nghiên cứu. Một vấn đề quan trọng và phổ biến trong kỹ thuật khai phá dữ liệu là phân lớp, nó đã và đang được ứng dụng rộng rãi trong thương mại, y tế, công nghiệp Trong những năm trước đây, phương pháp phân lớp đã được đề xuất, nhưng không phương pháp tiếp cận phân loại nào là cao hơn và chính xác hơn hẳn những phương pháp khác. Tuy nhiên với mỗi phương pháp một lợi thế và bất lợi riêng khi sử dụng. Một trong những công cụ khai phá tri thức hiệu quả hiện nay là sử dụng cây quyết định để tìm ra các luật phân lớp. Phân lớp sử dụng lý thuyết tập thô, được đề xuất bởi Zdzislaw Pawlak vào năm 1982, và đã được nghiên cứu rộng rãi trong những năm gần đây. Lý thuyết tập thô cung cấp cho nhiều nhà nghiên cứu và phân tích dữ liệu với nhiều kỹ thuật trong khai phá dữ liệu như là các khái niệm đặc trưng bằng cách sử dụng một số dữ kiện. Nhiều nhà nghiên cứu đã sử dụng lý thuyết tập thô trong các ứng dụng như phân biệt thuộc tính, giảm số chiều, khám phá tri thức, và phân 2 tích dữ liệu thời gian, Đây là một công cụ toán học mới được áp dụng trong khai phá dữ liệu thể được dùng để lựa chọn thuộc tính để phân nhánh trong việc xây dựng cấu trúc cây quyết định và nhiều cách tiếp cận khác nhau để chọn thuộc tính phân nhánh tối ưu, làm cho cây chiều cao nhỏ nhất. Chính vì vậy, trong luận văn này tôi đã tìm hiểu về các phương pháp xây dựng cây quyết định dựa vào tập thô. Việc ứng dụng cây quyết định để khai phá dữ liệu đã và đang được tiếp tục tìm hiểu, nghiên cứu. Với mong muốn tìm hiểu và nghiên cứu về lĩnh vực này, tôi đã chọn đề tài “Ứng dụng cây quyết định trong khai phá dữ liệu” làm luận văn tốt nghiệp.  Mục tiêu nghiên cứu Mục đích của luận văn là nghiên cứu các vấn đề bản của lý thuyết tập thô, cây quyết định và các thuật toán xây dựng cây quyết định trên hệ thông tin đầy đủ dựa trên tập thô; cài đặt và đánh giá các thuật toán xây dựng cây quyết định đã nghiên cứu; bước đầu áp dụng hình cây quyết định đã xây dựng vào trong khai phá dữ liệu (hỗ trợ ra quyết định trong vay vốn).  Bố cục luận văn Luận văn gồm 3 chương chính: Chương 1: Tổng quan về khai phá tri thức và lý thuyết tập thô Trong chương này trình bày tổng quan về khai phá dữ liệu và lý thuyết tập thô. Chương 2: Cây quyết định và các thuật tóan xây dựng cây quyết định. Trong chương này giới thiệu tổng quan về cây quyết đinh, phương pháp tổng quát xây dựng cây quyết định và ba thuật toán xây dựng cây quyết định: ID3, ADTDA, FID3 Chương 3: Thực nghiệm và đánh giá. Phát biểu bài toán, cài đặt ứng dụngđánh giá. [...]... trình này được tả như trong hình 1 Hình 1 Quá trình phân lớp dữ liệu – Bước xây dựng hình Bước 2: Sử dụng hình đã xây dựng để phân lớp dữ liệu Trong bước này việc đầu tiên là phải làm là tính độ chính xác của hình Nếu độ chính xác là chấp nhận được hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai Độ chính xác mang tính chất dự đoán của hình phân lớp... các tập con này 19 Trong bước 3, tiêu chuẩn sử dụng lựa chọn thuộc tính được hiểu là một số đo độ phù hợp, một số đo đánh giá độ thuần nhất, hay một quy tắc phân chia tập mẫu huấn luyện 2.1.3 Ứng dụng cây quyết định trong khai phá dữ liệu Sau khi đã xây dựng thành công cây quyết định ta sử dụng kết quả từ hình cây quyết định đó Đây là bước sử dụng hình để phân lớp dữ liệu hoặc rút ra các tri... chính của việc khai phá dữ liệu là phát hiện ra các quy luật, các hình từ trong CSDL Từ hình thu được ta rút ra các tri thức hay các quy luật dưới dạng cây hoặc các luật dưới dạng “If … Then…” Hai hình trên là tương đương, chúng thể được chuyển đổi qua lại giữa các hình đó với nhau 20 Ví dụ 2.2: Một trong các luật rút ra từ cây trong ví dụ 2.1 là +Luật 1: IF(Humidity: high) AND (Outlook:... Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo Độ chính xác của hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được hình phân lớp đúng (so với thực tế) 8 Hình 2 Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình Hình 3 Quá trình... được sẽ như thế nào khi bắt đầu quá trình Vì vậy, cần một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân loại thị trường, phân loại khách hàng, nhận dạng mẫu, phân loại trang web,… Ngoài ra 9 phân cụm dữ liệu còn thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác 1.3.3 Luật kết hợp (Association... nhiều bước tiền xử lý ứng dụng hiệu quả, nó sẽ giúp cải tiến hiệu quả phân lớp Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như: - Filtering Attributes: Chọn các thuộc tính phù hợp với hình - Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho hình - Transformation: Chuyển đổi dữ liệu cho phù hợp với các hình như chuyển đổi dữ liệu từ numeric sang nomial -... tri thức phát hiện được vào các ứng dụng cụ thể 1.1.2 Khai phá dữ liệu Khai phá dữ liệu chỉ là một bước trong quá trình khám phá tri thức từ sở dữ liệu Khai phá dữ liệu bao gồm các giai đoạn sau [7]: Giai đoạn 1: Gom dữ liệu (Gathering) Đây là bước tập hợp các dữ liệu được khai thác trong một sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web Giai đoạn 2: Trích lọc dữ... thực hiện, suy luận trên dữ liệu hiện để đưa ra các kết luận của dự đoán đó Dưới đây giới thiệu 3 phương pháp thông dụng nhất là: phân cụm dữ liệu, phân lớp dữ liệu và luật kết hợp 1.3.1 Phân lớp (Classification) Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: Bước 1: Xây dựng hình Trong bước này, một hình sẽ được... cách sử dụng các thuộc tính trong B từ việc xây dựng các tập hợp B-xấp xỉ dưới và B-xấp xỉ trên được định nghĩa như sau: B-xấp xỉ dưới của tập X: BX = {x  U | [x]B  X} B-xấp xỉ trên của tập X: B X = {x  U | [x]B X ≠  Tập hợp BX là tập các đối tượng trong U mà sử dụng các thuộc tính trong B ta thể biết chắc chắn được chúng là các phần tử của X Tập hợp B X là các đối tượng trong U mà sử dụng. .. lớp dữ liệu mới 1.3.2 Phân cụm (Clustering) Mục tiêu chính phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát Trong phương pháp này ta sẽ không thể biết kết quả các cụm thu được sẽ như thế nào . Đề tài: PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs ii LỜI CAM ĐOAN Tôi xin cam đoan, kết quả luận văn hoàn toàn là. toán 45 viii DANH MỤC CÁC HÌNH Hình 1. Quá trình phân lớp dữ liệu – Bước xây dựng mô hình 7 Hình 2. Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình 8 Hình 3. Quá trình phân. logic, hay mạng nơron. Quá trình này được mô tả như trong hình 1 Hình 1. Quá trình phân lớp dữ liệu – Bước xây dựng mô hình Bước 2: Sử dụng mô hình đã xây dựng để phân lớp dữ liệu Trong

Ngày đăng: 28/06/2014, 04:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hồ Thuần, Hoàng Thị Lan Giao (2005), “Một thuật toán tìm tập rút gọn sử dụng ma trận phân biệt được”, Chuyên san các công trình nghiên cứu triển khai Viễn thông và CNTT, (15), tr. 83-87 Sách, tạp chí
Tiêu đề: Một thuật toán tìm tập rút gọn sử dụng ma trận phân biệt được”, "Chuyên san các công trình nghiên cứu triển khai Viễn thông và CNTT
Tác giả: Hồ Thuần, Hoàng Thị Lan Giao
Năm: 2005
[2] Nguyễn Thanh Bình (2007), “Ứng dụng cây quyết định trong bài toán phân lớp”, Luận văn thạc sỹ khoa học. Trường đại học Khoa học - Đại học Huế Sách, tạp chí
Tiêu đề: Ứng dụng cây quyết định trong bài toán phân lớp”, "Luận văn thạc sỹ khoa học
Tác giả: Nguyễn Thanh Bình
Năm: 2007
[3] Nguyễn Thanh Tùng (2009), “Một tiêu chuẩn mới chọn nút xây dựng cây quyết định”, Tạp chí Khoa học và Công nghệ, 47(2), tr. 15–25.Tiếng Anh Sách, tạp chí
Tiêu đề: Một tiêu chuẩn mới chọn nút xây dựng cây quyết định”, "Tạp chí Khoa học và Công nghệ
Tác giả: Nguyễn Thanh Tùng
Năm: 2009
[5] Baoshi Ding, Yongqing Zheng, Shaoyu Zang (2009), "A New Decision Tree Algorithm Based on Rough Set Theory", Asia-Pacific Conference on Information Processing, (2), pp. 326-329 Sách, tạp chí
Tiêu đề: A New Decision Tree Algorithm Based on Rough Set Theory
Tác giả: Baoshi Ding, Yongqing Zheng, Shaoyu Zang
Năm: 2009
[6] Cuiru Wang, Fangfang OU (2008), "An Algorithm for Decision Tree Construction Based on Rough Set Theory", International Conference on Computer Science and Information Technology, pp. 295-298 Sách, tạp chí
Tiêu đề: An Algorithm for Decision Tree Construction Based on Rough Set Theory
Tác giả: Cuiru Wang, Fangfang OU
Năm: 2008
[7] Ho Tu Hao, Knowledge Discovery and Dataming Techniques and Practice, http:// www.netnam.vn/unescocourse/knowledge Sách, tạp chí
Tiêu đề: Knowledge Discovery and Dataming Techniques and Practice
[8] Jan Komorowski, Lech Polkowski, Andrzej Skowron, “Rough Sets: A Tutorial”. http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf[9]John Ross Quilan (1990), “Decision trees and decision making”, IEEEtransactions on Man and Cybernetics, (20), pp. 339-346 Sách, tạp chí
Tiêu đề: Rough Sets: A Tutorial”. http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf [9] John Ross Quilan (1990), “Decision trees and decision making”, "IEEE "transactions on Man and Cybernetics
Tác giả: Jan Komorowski, Lech Polkowski, Andrzej Skowron, “Rough Sets: A Tutorial”. http://www/folli.loria.fr/cds/1999/library/pdf/skowron.pdf[9]John Ross Quilan
Năm: 1990
[11] Ramadevi Yellasiri, C.R.Rao, Vivekchan Reddy (2007), “Decision Tree Induction Using Rough Set Theory – Comparative Study”, Journal of Theoretical and Applied Information Technology, pp. 110-114 Sách, tạp chí
Tiêu đề: Decision Tree Induction Using Rough Set Theory – Comparative Study”, "Journal of Theoretical and Applied Information Technology
Tác giả: Ramadevi Yellasiri, C.R.Rao, Vivekchan Reddy
Năm: 2007
[12] Sang Wook Han, Jae Yearn Kim (2007), "Rough Set-based Decision Tree using the Core Attributes Concept", Second International Conference on Innovative Computing Information and Control, pp. 298 - 301 Sách, tạp chí
Tiêu đề: Rough Set-based Decision Tree using the Core Attributes Concept
Tác giả: Sang Wook Han, Jae Yearn Kim
Năm: 2007
[13] Weijun Wen (2009), “A New Method for Constructing Decision Tree Based on Rough Set Theory”, Proceedings of the International Symposium on Intelligent Information Systems and Applications Qingdao China, pp. 416-419 Sách, tạp chí
Tiêu đề: A New Method for Constructing Decision Tree Based on Rough Set Theory”, "Proceedings of the International Symposium on Intelligent Information Systems and Applications Qingdao China
Tác giả: Weijun Wen
Năm: 2009
[14] Z. Pawlak (1998) - Rough Set Theory and Its Application to Data Analysis, Cybernetics and Systems: An International Journal 29, pp.661-688 Sách, tạp chí
Tiêu đề: Cybernetics and Systems: An International Journal 29
[10] Longjun Huang, Minghe Huang, Bin Guo, Zhimming Zhang (2007), "A New Method for Constructing Decision Tree Based on Rough Set Khác

HÌNH ẢNH LIÊN QUAN

Hình 1. Quá trình phân lớp dữ liệu – Bước xây dựng mô hình  Bước 2: Sử dụng mô hình đã xây dựng để phân lớp dữ liệu - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 1. Quá trình phân lớp dữ liệu – Bước xây dựng mô hình Bước 2: Sử dụng mô hình đã xây dựng để phân lớp dữ liệu (Trang 15)
Hình 2. Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 2. Quá trình phân lớp dữ liệu – Ước lượng độ chính xác mô hình (Trang 16)
Hình 3. Quá trình phân lớp dữ liệu –Phân lớp dữ liệu mới  1.3.2. Phân cụm (Clustering) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 3. Quá trình phân lớp dữ liệu –Phân lớp dữ liệu mới 1.3.2. Phân cụm (Clustering) (Trang 16)
Ví dụ 1.1. [8] Bảng dữ liệu dưới đây là một hệ thông tin với 7 đối tượng - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
d ụ 1.1. [8] Bảng dữ liệu dưới đây là một hệ thông tin với 7 đối tượng (Trang 18)
Định nghĩa 1.2: Bảng quyết định (hệ quyết định) là một dạng đặc biệt của - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
nh nghĩa 1.2: Bảng quyết định (hệ quyết định) là một dạng đặc biệt của (Trang 19)
Hình 4. Xấp xỉ tập đối tượng trong Bảng 2 bởi các thuộc tính điều kiện Age và - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 4. Xấp xỉ tập đối tượng trong Bảng 2 bởi các thuộc tính điều kiện Age và (Trang 22)
Hình 5. Mô tả chung về cây quyết định - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 5. Mô tả chung về cây quyết định (Trang 23)
Hình 6. Ví dụ về Cây quyết định - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 6. Ví dụ về Cây quyết định (Trang 24)
Hình 7. Mô hình phân lớp các mẫu mới - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 7. Mô hình phân lớp các mẫu mới (Trang 27)
Bảng 3. Dữ liệu huấn luyện - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Bảng 3. Dữ liệu huấn luyện (Trang 31)
Hình 8. Cây sau khi chọn thuộc tính Humidity (ID3) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 8. Cây sau khi chọn thuộc tính Humidity (ID3) (Trang 33)
Hình 9. Cây sau khi chọn thuộc tính Outlook (ID3) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 9. Cây sau khi chọn thuộc tính Outlook (ID3) (Trang 34)
Hình 10. Cây kết quả (ID3) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 10. Cây kết quả (ID3) (Trang 35)
Hình 11. Cây sau khi chọn thuộc tính Humidity (ADTDA) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 11. Cây sau khi chọn thuộc tính Humidity (ADTDA) (Trang 39)
Hình 12. Cây sau khi chọn thuộc tính Outlook (ADTDA) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 12. Cây sau khi chọn thuộc tính Outlook (ADTDA) (Trang 40)
Hình 13. Cây kết quả (ADTDA) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 13. Cây kết quả (ADTDA) (Trang 41)
Hình 15. Cây quyết định sau khi chọn thuộc tính Windy (FID3) - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 15. Cây quyết định sau khi chọn thuộc tính Windy (FID3) (Trang 46)
Bảng 4. Bảng các thuộc tính của tập dữ liệu Bank_data  3.3. Cài đặt ứng dụng - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Bảng 4. Bảng các thuộc tính của tập dữ liệu Bank_data 3.3. Cài đặt ứng dụng (Trang 49)
Hình 18. Dạng cây quyết định ADTDA - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 18. Dạng cây quyết định ADTDA (Trang 50)
Hình 17. Dạng cây quyết định ID3 - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 17. Dạng cây quyết định ID3 (Trang 50)
Hình 19. Dạng cây quyết định FID3 - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 19. Dạng cây quyết định FID3 (Trang 51)
Hình 21. Một số luật của cây quyết định ADTDA - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 21. Một số luật của cây quyết định ADTDA (Trang 52)
Hình 20. Một số luật của cây quyết định ID3 - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 20. Một số luật của cây quyết định ID3 (Trang 52)
Bảng 5. Độ chính xác của các thuật toán  3.4.4. Ứng dụng cây quyết định trong khai phá dữ liệu - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Bảng 5. Độ chính xác của các thuật toán 3.4.4. Ứng dụng cây quyết định trong khai phá dữ liệu (Trang 53)
Hình 23. Giao diện ứng dụng  3.5. Kết luận chương 3 - LUẬN VĂN:PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TRIẾNG ViỆT SỬ DỤNG MÔ HÌNH CRFs potx
Hình 23. Giao diện ứng dụng 3.5. Kết luận chương 3 (Trang 54)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w