1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu

54 379 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 743,69 KB

Nội dung

Khai phá dữliệu

ĐH Công Nghệ - ĐH QGHN CNTT Khóa luận tốt nghiệp Lê Thị Thùy Dương LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, Phó Giáo sư Tiến sĩ Hà Quang Thụy, ThS. Đỗ Cẩm Vân và CN.Trần Mai Vũ, những người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận tốt nghiệp. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm qua, những kiến thức mà em nhận được trên gi ảng đường đại học sẽ là hành trang giúp em vững bước trong tương lai. Em cũng muốn gửi lời cảm ơn đến các anh chị và các bạn trong nhóm seminar về “Khai phá dữ liệu” đã giúp đỡ và cho em những lời khuyên bổ ích về chuyên môn trong quá trình nghiên cứu. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt là cha mẹ và anh trai, những người luôn kịp thời động viên và giúp đỡ em vượ t qua những khó khăn trong cuộc sống. Sinh viên Lê Thị Thùy Dương ĐH Công Nghệ - ĐH QGHN CNTT Khóa luận tốt nghiệp Lê Thị Thùy Dương TÓM TẮT NỘI DUNG Phân lớp văn bản là quá trình gán văn bản một cách tự động vào một hoặc nhiều lớp cho trước. Tự động phân lớp văn bản là một nhiệm vụ rất quan trọng có thể giúp ích trong việc tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn. Mặt khác, phân lớp văn bản là một trong những thành phần cơ bản nhưng quan trọng nhất trong kiến trúc tổng thể của h ầu hết các máy tìm kiếm. Hiện nay, bài toán này đã và đang trở thành lĩnh vực nhận được nhiều sự quan tâm, nghiên cứu của nhiều nhà khoa học trên thế giới. Khóa luận tốt nghiệp với đề tài “Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng” nghiên cứu nội dung, các thuộc tính, các thuật toán giải quyết bài toán phân lớp. Khóa luận tập trung nghiên cứu phương pháp phân lớp văn bản trong lĩnh vực tài chính ngân hàng ti ếng Việt dựa trên hướng tiếp cận Entropy cực đại (maxent). Dựa trên việc khảo sát các đặc trưng tiếng Việt, sử dụng mô hình Entropy cực đại, khóa luận đã tiến hành thực nghiệm trên 5 lớp dữ liệu về lĩnh vực tài chính ngân hàng tự đề xuất (Huy động vốn, Tín dụng, Dịch vụ thanh toán, Ngoại tệ, Chứng khoán), kết quả thu được rất tốt với độ đ o F1 trung bình là 90.22% và thời gian huấn luyện 0.4594 giây/lần với 10 bước lặp. ĐH Công Nghệ - ĐH QGHN CNTT Khóa luận tốt nghiệp Lê Thị Thùy Dương MỤC LỤC LỜI MỞ ĐẦU 1 Chương 1. BÀI TOÁN PHÂN LỚP VĂN BẢN 3 1.1. Khái niệm .3 1.2. Phân loại bài toán phân lớp văn bản .5 1.3. Mô hình phân lớp văn bản .5 1.3.1. Mô hình phân lớp văn bản .5 1.3.2. Quá trình xây dựng bộ phân lớp văn bản 6 1.3.3. Quá trình tiền xử lý dữ liệu .7 1.3.3.1. Phương pháp biểu diễn tài liệu .8 1.3.3.2. Phương pháp lựa chọn thuộc tính .10 1.3.4. Đánh giá 12 1.3.4.1. Đánh giá cho bài toán phân lớp 12 1.3.4.2. Đánh giá dựa vào độ tương tự 14 Chương 2. CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN 17 2.1. Thuật toán K người láng giềng gần nhất 17 2.2. Mô hình cây quyết định (Decision Tree) .18 2.3. Thuật toán máy hỗ trợ vector (SVM – Suport Vector Machine) .21 2.4. Mô hình Entropy cực đại 26 2.4.1. Định nghĩa nguyên lý entropy cực đại 26 2.4.2. Các ràng buộc và đặc trưng .27 2.4.3. Mô hình Entropy cực đại .27 2.3.4. Entropy cực đại cho phân lớp văn bản 28 Chương 3. BÀI TOÁN PHÂN LỚP VĂN BẢN TÀI CHÍNH NGÂN HÀNG TIẾNG VIỆT 30 3.1. Một số đặc trưng của dữ liệu tài chính ngân hàng trong tiếng Việt.30 3.2. Xây dựng một số lớp trong lĩnh vực tài chính ngân hàng .31 3.3. Bài toán phân lớp văn bản tài chính ngân hàng trong Tiếng Việt .33 ĐH Công Nghệ - ĐH QGHN CNTT Khóa luận tốt nghiệp Lê Thị Thùy Dương 3.3.1. Phát biểu bài toán: .33 3.3.2. Phương pháp phân lớp .34 3.3.3. Mô hình của bài toán phân lớp văn bản tài chính ngân hàng 34 Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 4.1. Dữ liệu và chương trình 38 4.2. Môi trường thực nghiệm .39 4.3. Thiết kế và kết quả thực nghiệm 40 4.3.1. Thiết lập thông số cho Entropy cực đại .40 4.3.2. Kết quả thực nghiệm .40 4.4. Đánh giá kết quả thực nghiệm .44 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO .46 Tài liệu Tiếng Việt 46 Tài liệu Tiếng Anh 46 DANH SÁCH CÁC TỪ DỪNG 49 ĐH Công Nghệ - ĐH QGHN CNTT Khóa luận tốt nghiệp Lê Thị Thùy Dương Danh sách hình vẽ và bảng biểu Hình 1. Bài toán phân lớp văn bản 3 Hình 2. Sơ đồ khung một hệ thống phân lớp văn bản .6 Hình 3. Quá trình xây dựng mô hình được chia thành hai bước .8 Hình 4. Mối quan hệ giữa các siêu phẳng phân cách 1 Hình 5. Siêu phẳng tối ưu và biên .1 Hình 6. Mô hình bài toán phân lớp dữ liệu tài chính ngân hàng .35 Hình 7. Đồ thị biểu diễn sự phụ thuộc của độ đo F1 vào số lần lặp 43 Hình 8. Tổng hợp độ đo qua 10 lần huấn luyện 43 Hình 9. Biểu đồ biểu diễn độ đo F1 của các lớp trong lần lặp thứ 6 .44 Bảng 1. Phân bố dữ liệu học và kiểm tra .38 Bảng 2. Tập dữ liệu huấn luyện .39 Bảng 3. Tập dữ liệu kiểm tra .39 Bảng 4. Tham số huấn luyện mô hình Entropy cực đại 40 Bảng 5. Kết quả 10 lần huấn luyện với Entropy cực đại .41 Bảng 6. Kết quả của bước lặp thứ 6 42 ĐH Công Nghệ - ĐH QGHN CNTT                         ‐ 1 -  LỜI MỞ ĐẦU Hiện nay, sự phát triển mạnh mẽ của Internet đã dẫn đến sự bùng nổ thông tin về nhiều mặt kể cả nội dung lẫn số lượng. Chỉ bằng một thao tác tìm kiếm đơn giản, ta có thể nhận về một khối lượng khổng lồ các trang web có chứa thông tin liên quan tới nội dung cần tìm kiếm. Tuy nhiên, chính sự dễ dàng này cũng mang đến cho con người rất nhiều khó khăn trong việc chi ết lọc ra các thông tin có ích để thu được các tri thức mới. Phát hiện tri thức và khai phá dữ liệu là câu trả lời mới nhất cho vấn đề này nhằm phát hiện ra các tri thức mới từ khối dữ liệu khổng lồ mà con người có được. Trong thời gian gần đây, cùng với sự phát triển của nền kinh tế đất nước là sự phát triển vượt bậc của nền công nghệ thông tin. Tin học đã đượ c áp dụng trong tất cả các lĩnh vực như kinh tế, thương mại, y tế, ngân hàng… Hầu hết các lĩnh vực này đề lưu trữ một cơ sở dữ liệu rất lớn. Các kỹ thuật thống kê truyền thống và các công cụ quản lý dữ liệu trước đây không đáp ứng được nhu cầu phân tích tập dữ liệu lớn này. Từ đòi hỏi đó phải có nh ững phương pháp tiếp cận mới để khai phá tri thức trong các cơ sở dữ liệu. Trong các loại dữ liệu thì dữ liệu văn bản là phổ biến nhất. Khai phá dữ liệu văn bản là sự khảo sát và phân tích một tập lớn các văn bản không có cấu trúc một cách tự động hoặc bán tự động để khám phá ra những tri thức mới. Với lượng thông tin dạng văn bản đồ sộ của Internet, một yêu cầu lớn đặt ra là làm sao tổ chức và tìm kiếm thông tin có hiệu quả nhất. Phân lớp thông tin là một trong những giải pháp hợp lý cho vấn đề nêu trên. Bài toán phân lớp văn bản là một trong những bài toán cơ bản của khai phá dữ liệu văn bản. Cho trước một tập dữ liệu văn bản, bài toán thực hiện quá trình gán nhãn (phân lớp) cho từng tài liệu tương ứng với nội dung củ a nó thông qua bộ phân lớp. Luận văn tập trung nghiên cứu về bài toán phân lớp văn bản, cụ thể là những văn bản mang thông tin về lĩnh vực ngân hàng, tài chính với mục đích phân lớp cho những tài liệu này theo những lớp ứng dụng cụ thể trong lĩnh vực ngân hàng, tài chính. Vấn đề phân lớp văn bản đã được đặt ra từ rất lâu và đến nay đã có một số phương pháp hiệ u quả thực hiện việc phân lớp văn bản… Tuy nhiên việc phân lớp cho dữ liệu tiếng việt về lĩnh vực ngân hàng, tài chính là một bài toán mới và cho đến nay chưa có một kết quả nào được công bố. Thông qua việc tìm hiểu một số phương pháp tiếp cận bài toán thường được sử dụng như phương pháp K-người láng giềng, Máy hỗ trợ vector (SVM – Suport Vector Machine), Phương pháp sử dụng mô hình Entropy cực đại và ĐH Công Nghệ - ĐH QGHN CNTT                         ‐ 2 -  nghiên cứu ưu nhược điểm của từng phương pháp, luận văn hướng tới nghiên cứu áp dụng mô hình Entropy cực đại cho bài toán này. Luận văn bao gồm 4 chương có nội dung khái quát như sau: Chương 1. Bài toán phân lớp văn bản phát biểu và trình bày về các khái niệm và những nội dung cơ bản về bài toán phân lớp văn bản. Chương này cũng giới thiệu một số phương pháp đánh giá cho bài toán phân lớp và độ đo dựa vào khoảng cách và độ tương tự giữa các lớp. Chương 2. Các phương pháp giải quyết bài toán phân lớp văn bản. Trình bày một số thuật toán phân lớp văn bản điển hình, chỉ ra ưu nhược điểm của từng phương pháp. Qua đó lựa chọn phương pháp tốt nhất để thử nghiệm trong tiếng Việt. Chương 3. Bài toán phân lớp văn bản tài chính ngân hàng . Trình bày các đặc điểm đặc trưng của dữ liệu tài chính ngân hàng, xây dựng tập nhãn (lớp) trong lĩnh vực này và mô tả mô hình phân lớp sử dụng phương pháp Entropy cực đại đối với tập văn bản đó. Chương 4. Thực nghiệm và đánh giá. Trong chương này trình bày các kết quả thực nghiệm thu được khi áp dụng mô hình Entropy cực đại trên tập dữ liệu tài chính ngân hàng tiếng Việt. Đưa ra một s ố nhận xét, đánh giá kết luận. Trong phần kết luận, luận văn tóm lại những công việc đã thực hiện trong thời gian qua và các kết quả đã đạt được, đồng thời cũng đề cập đến những điểm còn hạn chế của luận văn và đề ra phương hướng nghiên cứu trong thời gian tới. ĐH Công Nghệ - ĐH QGHN CNTT                         ‐ 3 -  Chương 1. BÀI TOÁN PHÂN LỚP VĂN BẢN Trích chọn thông tin trên Web đã và đang tạo thêm nhiều tài nguyên thông tin, tri thức mới đáp ứng ngày càng hiệu quả nhu cầu thông tin của con người. Ngày nay, công nghệ trích chọn thông tin trên Web đã hình thành loại hình dịch vụ đầy triển vọng trong việc cung cấp thông tin phong phú và hữu ích từ nguồn dữ liệu được coi là vô hạn trên Web. Một trong những bài toán cơ bản và quan trọng trong trích chọn thông tin trên Web là bài toán phát hiện các quan hệ của các lớp đối tượng. Để thực hiện vi ệc phát hiện mối quan hệ giữa các lớp đối tượng trên Web thì bài toán đầu tiên cần giải quyết đó là bài toán phân lớp tự động các đối tượng. Tự động phân lớp văn bản là một nhiệm vụ rất quan trọng có thể giúp ích trong việc tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn. Ngày nay, khi mà sự phát triển và ứng dụng của Internet cực kỳ phổ biến thì khối lượng d ữ liệu đã tăng trưởng không ngừng theo cả hai phương diện tạo mới và lưu trữ. Sự phát triển vượt bậc của công nghệ khoa học kỹ thuật và sự mở rộng các dữ liệu khoa học về địa lý, địa chất, khí tượng thủy văn… cùng với việc tin học hóa sâu rộng trong hầu hết các lĩnh vực đã tạo ra một khối lượng dữ li ệu khổng lồ. Tự động phân lớp văn bản là một nhiệm vụ rất quan trọng, đặc biệt là trong việc tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn này. 1.1. Khái niệm Phân lớp văn bản (Text classification) là quá trình gán nhãn (tên lớp / nhãn lớp) các văn bản ngôn ngữ tự nhiên một cách tự động vào một hoặc nhiều lớp cho trước. Hình 1. Bài toán phân lớp văn bản Thông thường, các lớp cho trước là các chủ đề nào đó, nhưng cũng có nhiều ứng dụng mà các lớp được thiết lập theo những tiêu chí khác, như phân lớp theo độ ưu tiên, Dữ liệu vào Thuật toán phân lớp hoạt động Lớp 1 Lớp 2 Lớp n ĐH Công Nghệ - ĐH QGHN CNTT                         ‐ 4 -  phân lớp theo chủ đề… Hầu hết các bài toán này sẽ tốn rất nhiều thời gian, công sức và đôi khi không chính xác nếu được phân loại một cách thủ công – tức là đọc từng văn bản và gán vào một lớp nào đó. Đặc biệt với số lượng tài liệu cần phân lớp cực kỳ lớn như hiện nay thì việc phân lớp thủ công là một điều không thể. Phân loại những đối tượ ng mới vào các lớp bằng phương pháp thủ công gặp phải những khó khăn sau: - Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở dữ liệu về y tế, pháp luật, tài chính, ngân hàng . ) vào các lớp cho trước cần có hiểu biết về các lĩnh vực đó. - Phân loại bằng tay đôi khi không chính xác vì quyết định phụ thuộc vào sự hiểu biế t và động cơ của người thực hiện. - Quyết định của hai chuyên gia khác nhau có thể nảy sinh bất đồng ý kiến. Vì vậy những công cụ để tự động phân lớp văn bản vào các lớp sẽ rất hữu ích với công việc này nhất là khi thông tin tràn ngập như ngày nay. Một số phương pháp phân lớp thống kê và kĩ thuật học máy như Bayesian, máy vector hỗ trợ (Support Vector Machines), K người láng giềng gần nhấ t, mạng nơron . được áp dụng để giải quyết bài toán này. Chính vì những nhược điểm của phương pháp thủ công nên việc xây dựng một bộ phân lớp văn bản tự động là một điều rất quan trọng và cần thiết, đặc biệt là khi hầu hết các thông tin được sinh ra và lưu trữ điện tử. Các bài báo khoa học và giải trí là những ví dụ về tập các tài liệu đ iện tử. Với sự phát triển ngày càng mạnh mẽ của mạng Internet và Intranet đã tạo ra nguồn thông tin vô cùng phong phú. Các kỹ thuật phân lớp văn bản sẽ giúp cho nguồn dữ liệu này đã được lưu trữ tự động một cách hiệu quả và được tìm kiếm nhanh chóng. Phân lớp văn bản được xuất hiện từ những năm 1960, nhưng chỉ 15 năm sau, nó đã trở thành lĩnh vự c nghiên cứu chính trong hệ thống thông tin bởi sự đa dạng của các ứng dụng. Phân lớp văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin (Information Retrieval), chiết lọc thông tin (Information Extraction), lọc văn bản hoặc tự động dẫn đường cho các văn bản tới những chủ đề xác định trước. Một ứng dụng khác của phân lớp văn bản là trong lĩnh vực hi ểu văn bản. Phân lớp văn bản có thể được sử dụng để lọc văn bản hoặc một phần văn bản chứa dữ liệu cần tìm mà không làm mất đi tính phức tạp của ngôn ngữ tự nhiên. ĐH Công Nghệ - ĐH QGHN CNTT                         ‐ 5 -  Định nghĩa phân lớp văn bản [1]: Phân lớp văn bản là nhiệm vụ đặt một giá trị Boolean cho mỗi cặp (d j , c i ) CD×∈ , trong đó D là tập các văn bản và {} c cccC , ., 21 = là tập các lớp cho trước. Giá trị T (true) được gán cho cặp (d j , c i ) có nghĩa là tài liệu d j thuộc lớp c i Giá trị F (false) tức là tài liệu d j không thuộc lớp c i Hay nói cách khác, phân lớp văn bản là bài toán tìm một hàm {} FTCD ,: →×Φ trong đó D là tập các văn bản và { } c cccC , ., 21 = là tập các lớp cho trước, hàm { } FTCD ,: →×Φ được gọi là bộ phân lớp. 1.2. Phân loại bài toán phân lớp văn bản Tùy vào những ràng buộc khác nhau để phân loại bài toán phân lớp văn bản. Nhìn chung có thể phân biệt bài toán phân lớp theo hai cách sau: - Phân lớp văn bản nhị phân / đa lớp: Bài toán phân lớp văn bản được gọi là nhị phân nếu |C|=2, gọi là đa lớp nếu |C|>2. - Phân lớp văn bản đơn nhãn / đa nhãn: Bài toán phân lớp văn bản được gọi là đơn nhãn nếu mỗi tài liệu được gán vào chính xác một lớp. Bài toán phân lớp vă n bản được gọi là đa nhãn nếu một tài liệu có thể được gán nhiều hơn một nhãn. Trên thực tế, phân lớp hai lớp (phân lớp nhị phân) chỉ là một trường hợp đặc biệt của bài toán phân lớp song do xuất xứ cho nên phân lớp nhị phân có vị trí riêng cả về đặt bài toán lẫn về các giải pháp 1.3. Mô hình phân lớp văn bản 1.3.1. Mô hình phân lớp văn bản Phân lớp văn bản được các nhà nghiên cứu định nghĩa thống nhất như là việc gán tên các chủ đề (tên lớp / nhãn lớp) đã được xác định cho trước vào các văn bản Text dựa trên nội dung của nó. Phân lớp văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin (Information Retrieval), chiết lọc thông tin (Information Extraction), lọc văn bản hoặc tự động dẫn đường cho các văn bản tới nh ững chủ đề xác định trước. Để phân loại văn bản, người ta sử dụng phương pháp học máy có giám sát. Tập dữ liệu được chia ra làm hai tập là tập huấn luyện và tập kiểm tra, trước hết phải [...]... tng ng vi giỏ tr ớch c d oỏn cho cỏc bin K thut hc mỏy s dng vic xõy dng cõy quyt nh trờn tp d liu c gi l hc cõy quyt nh hay n gin ch l cõy quyt nh Hc cõy quyt nh cng l mt phng phỏp rt thụng dng trong khai phỏ d liu Trong ú cõy quyt nh mụ t cu trỳc cõy m ú cỏc lỏ i din cho cỏc lp v cỏc nhỏnh cõy biu din s kt hp ca cỏc c trng dn dt ti vic phõn lp Mt cõy quyt nh cú th c hc bng cỏch chia tp ngun thnh

Ngày đăng: 25/04/2013, 19:11

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Nguyễn Thị Hương Thảo, “Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng”, Khóa luận tốt nghiệp đại học, Đại học Công nghệ, ĐHQGHN, 2006 Sách, tạp chí
Tiêu đề: Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng
[2]. Nguyễn Minh Tuấn, “Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt trong lĩnh vực y tế ”, Khóa luận tốt nghiệp đại học, Đại học Công Nghệ, ĐHQGHN, 2008.Tài liệu Tiếng Anh Sách, tạp chí
Tiêu đề: Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt trong lĩnh vực y tế
[3]. Aixin Sun, Ee-Peng Lim. Hierarchical Text Classification and Evaluation. Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001) Pages 521-528, California, USA, November 2001 Sách, tạp chí
Tiêu đề: Hierarchical Text Classification and Evaluation
[6]. Nghiệp vụ ngân hàng. TS. Nguyễn Minh Kiều. Trường Đại Học Kinh Tế TPHCM. Nhà xuất bản Thống Kê, tháng 12-2005 Sách, tạp chí
Tiêu đề: Nghiệp vụ ngân hàng
Nhà XB: Nhà xuất bản Thống Kê
[7]. David J.C. MacKay. Information Theory, Inference, and Learning Algorthms Cambridge: Cambridge University Press, 2003. ISBN 0521642981 Sách, tạp chí
Tiêu đề: Information Theory, Inference, and Learning Algorthms
[8]. “Text Classification from Labeled and Unlabeled Documents using EM”. Machine Learning. Kluwer Academic Publishers, Boston. Manufactured in The Netherlands Sách, tạp chí
Tiêu đề: Text Classification from Labeled and Unlabeled Documents using EM”
[9]. “An Extensive Empirical Study of Feature Selection Metrics for Text Classification”. George Forman, Intelligent Enterprise Technology Laboratory. HP Laboratories Palo Alto, HPL-2002-147 (R.1), November 20 th , 2002* Sách, tạp chí
Tiêu đề: An Extensive Empirical Study of Feature Selection Metrics for Text Classification
[10]. K. Nigam, J. Lafferty, and A. McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999 Sách, tạp chí
Tiêu đề: Using maximunm Entropy for text classification
[11]. “Support Vector Machine Active Learning with Applications to Text Classification”. Simon Tong and Daphne Koller Sách, tạp chí
Tiêu đề: Support Vector Machine Active Learning with Applications to Text Classification
[12]. Lewis, D. and W.Gale: 1994, “A Sequential Algorithm for Training Text Classifiers”. In: Proceedings of the Seventeenth Annual International ACM- SIGIR Conference on Research and Development in Information Retrieval.pp. 3-12, Springer-Verlag Sách, tạp chí
Tiêu đề: A Sequential Algorithm for Training Text Classifiers”. In: "Proceedings of the Seventeenth Annual International ACM- SIGIR Conference on Research and Development in Information Retrieval
[13]. Soumen Chakrabarti. Mining the web- discovering knowledge from Hypertext Data Morgan Kaufman Publishers, trang 183-188 Sách, tạp chí
Tiêu đề: Mining the web- discovering knowledge from Hypertext Data
[14]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth. Modeling the Internet and the Web: Probabilistic Methods and Algorithms. Published by John Wiley& Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 Sách, tạp chí
Tiêu đề: Modeling the Internet and the Web: Probabilistic Methods and Algorithms
[15]. Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu (2006). A Maximum Entropy Model for Text Classification.The International Conference on Internet Information Retrieval 2006:134- 139, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea Sách, tạp chí
Tiêu đề: The International Conference on Internet Information Retrieval 2006
Tác giả: Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu
Năm: 2006
[16]. Sebastiani, F.:2001, “Machine Learning in Automated Text Categorisation”. Technical Report IEI-B4-31-1999, Istituto di Elaborazione dell’Informazione Sách, tạp chí
Tiêu đề: Machine Learning in Automated Text Categorisation
[17]. Svetlane Kiritchenko. Hierarchical Text Categorization and Its Application to Bioinformatics. Ph.D thesis in Computer Science – School of Information Technology and Engineering Faculty of Engineering University of Ottawa, Canada 2005 Sách, tạp chí
Tiêu đề: Hierarchical Text Categorization and Its Application to Bioinformatics
[18]. The Kluwer international Series in Engineering and Computer Science. “Data mining in finance”. Advances in Relational and Hybrid Methods.Boris Kovalerchuk, Central Washington University, USA and EvgenII Vityaev, Instutue of Mathematics Russian Academy of Sciences, Russia Sách, tạp chí
Tiêu đề: Data mining in finance
[19]. “Classification of Text Documents”. Department of Computer Science and Engineering, Michigan State University, East Lansing, Michigan, USA Sách, tạp chí
Tiêu đề: Classification of Text Documents
[20]. “Flexible Text Classification for Financia, ApplicationL The Facile Systeml”, Fabio Ciravegna and Luca Gilardoni and Alberto Lavelli Sách, tạp chí
Tiêu đề: Flexible Text Classification for Financia, ApplicationL The Facile Systeml
[21]. “The Effect of Financial Statement Classification of Hybrid Financial Instrucments on Financial Analysts’s Stock Price Judgments”. Patrick E.Hopkis Sách, tạp chí
Tiêu đề: The Effect of Financial Statement Classification of Hybrid Financial Instrucments on Financial Analysts’s Stock Price Judgments
[22]. Li, X. & Roth, D. “Learning Question Classifiers”, Proceedings of the 19th International Conference on Computational Linguistics (COLING):556–562, 2002 Sách, tạp chí
Tiêu đề: Learning Question Classifiers”, "Proceedings of the 19th International Conference on Computational Linguistics (COLING)

HÌNH ẢNH LIÊN QUAN

Hình 1. Bài tốn phân lớp văn bản - Khai phá dữ liệu
Hình 1. Bài tốn phân lớp văn bản (Trang 8)
Hình 1. Bài toán phân lớp văn bản - Khai phá dữ liệu
Hình 1. Bài toán phân lớp văn bản (Trang 8)
xây dựng mơ hình thơng qua các mẫu học bằng các tập huấn luyện, sau đĩ kiểm tra sự chính xác bằng tập dữ liệu kiểm tra - Khai phá dữ liệu
x ây dựng mơ hình thơng qua các mẫu học bằng các tập huấn luyện, sau đĩ kiểm tra sự chính xác bằng tập dữ liệu kiểm tra (Trang 11)
Hình 2. Sơ đồ khung một hệ thống phân lớp văn bản - Khai phá dữ liệu
Hình 2. Sơ đồ khung một hệ thống phân lớp văn bản (Trang 11)
trang văn bản trong cơ sở dữ liệu đã gán nhãn từ trước. Trong bước thứ hai, mơ hình này được sử dụng cho việc phân lớp các trang văn bản chưa được gán nhãn - Khai phá dữ liệu
trang văn bản trong cơ sở dữ liệu đã gán nhãn từ trước. Trong bước thứ hai, mơ hình này được sử dụng cho việc phân lớp các trang văn bản chưa được gán nhãn (Trang 13)
Hình 3. Quá trình xây dựng mô hình được chia thành hai bước - Khai phá dữ liệu
Hình 3. Quá trình xây dựng mô hình được chia thành hai bước (Trang 13)
- Rất dễ hiểu và dễ giải thích: mọi người đều cĩ thể hiểu mơ hình cây quyết định qua một số giải thích tổng quát ban đầu - Khai phá dữ liệu
t dễ hiểu và dễ giải thích: mọi người đều cĩ thể hiểu mơ hình cây quyết định qua một số giải thích tổng quát ban đầu (Trang 25)
Trong hình 4, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian, và được tạo ra với cùng một xác suất - Khai phá dữ liệu
rong hình 4, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian, và được tạo ra với cùng một xác suất (Trang 28)
Hình 4. Mối quan hệ giữa các siêu phẳng phân cách - Khai phá dữ liệu
Hình 4. Mối quan hệ giữa các siêu phẳng phân cách (Trang 28)
Hình 5. Siêu phẳng tối ưu và biên - Khai phá dữ liệu
Hình 5. Siêu phẳng tối ưu và biên (Trang 29)
Hình 5. Siêu phẳng tối ưu và biên - Khai phá dữ liệu
Hình 5. Siêu phẳng tối ưu và biên (Trang 29)
Hình 6. Mơ hình bài tốn phân lớp dữ liệu tài chính ngân hàng - Khai phá dữ liệu
Hình 6. Mơ hình bài tốn phân lớp dữ liệu tài chính ngân hàng (Trang 40)
Hình 6. Mô hình bài toán phân lớp dữ liệu tài chính ngân hàng - Khai phá dữ liệu
Hình 6. Mô hình bài toán phân lớp dữ liệu tài chính ngân hàng (Trang 40)
Bảng 1. Phân bố dữ liệu học và kiểm tra - Khai phá dữ liệu
Bảng 1. Phân bố dữ liệu học và kiểm tra (Trang 43)
Bảng 1. Phân bố dữ liệu học và kiểm tra - Khai phá dữ liệu
Bảng 1. Phân bố dữ liệu học và kiểm tra (Trang 43)
Bảng 2. Tập dữ liệu huấn luyện - Khai phá dữ liệu
Bảng 2. Tập dữ liệu huấn luyện (Trang 44)
Tập dữ liệu dùng để kiểm tra được mơ tả trong bảng 3, số lượng tài liệu của mỗi lớp tỉ lệ với số lượng tài liệu trong tập dữ liệu dùng để huấn luyện - Khai phá dữ liệu
p dữ liệu dùng để kiểm tra được mơ tả trong bảng 3, số lượng tài liệu của mỗi lớp tỉ lệ với số lượng tài liệu trong tập dữ liệu dùng để huấn luyện (Trang 44)
Bảng 2. Tập dữ liệu huấn luyện - Khai phá dữ liệu
Bảng 2. Tập dữ liệu huấn luyện (Trang 44)
Khĩa luận thử nghiệm theo mơ hình nguyên lý Entropy cực đại. - Khai phá dữ liệu
h ĩa luận thử nghiệm theo mơ hình nguyên lý Entropy cực đại (Trang 45)
Bảng 4. Tham số huấn luyện mô hình Entropy cực đại - Khai phá dữ liệu
Bảng 4. Tham số huấn luyện mô hình Entropy cực đại (Trang 45)
Bảng 5. Kết quả 10 lần huấn luyện với Entropy cực đại - Khai phá dữ liệu
Bảng 5. Kết quả 10 lần huấn luyện với Entropy cực đại (Trang 46)
Bảng 5. Kết quả 10 lần huấn luyện với Entropy cực đại - Khai phá dữ liệu
Bảng 5. Kết quả 10 lần huấn luyện với Entropy cực đại (Trang 46)
Qua bảng trên, cho thấy kết quả khả quan nhất là ở bước lặp thứ 6 với độ đo F1 đạt 90.22% chi tiết bước lặp này như sau:  - Khai phá dữ liệu
ua bảng trên, cho thấy kết quả khả quan nhất là ở bước lặp thứ 6 với độ đo F1 đạt 90.22% chi tiết bước lặp này như sau: (Trang 47)
Bảng 6. Kết quả của bước lặp thứ 6 - Khai phá dữ liệu
Bảng 6. Kết quả của bước lặp thứ 6 (Trang 47)
Bảng 6. Kết quả của bước lặp thứ 6 - Khai phá dữ liệu
Bảng 6. Kết quả của bước lặp thứ 6 (Trang 47)
Hình 8. Tổng hợp độ đo qua 10 lần huấn luyện - Khai phá dữ liệu
Hình 8. Tổng hợp độ đo qua 10 lần huấn luyện (Trang 48)
Hình 7. Đồ thị biểu diễn sự phụ thuộc của độ đo F1 vào số lần lặp - Khai phá dữ liệu
Hình 7. Đồ thị biểu diễn sự phụ thuộc của độ đo F1 vào số lần lặp (Trang 48)
Hình 7. Đồ thị biểu diễn sự phụ thuộc của độ đo F1 vào số lần lặp - Khai phá dữ liệu
Hình 7. Đồ thị biểu diễn sự phụ thuộc của độ đo F1 vào số lần lặp (Trang 48)
Hình 8. Tổng hợp độ đo qua 10 lần huấn luyện - Khai phá dữ liệu
Hình 8. Tổng hợp độ đo qua 10 lần huấn luyện (Trang 48)
Hình 9. Biểu đồ biểu diễn độ đo F1 của các lớp trong lần lặp thứ 6 - Khai phá dữ liệu
Hình 9. Biểu đồ biểu diễn độ đo F1 của các lớp trong lần lặp thứ 6 (Trang 49)
Hình 9. Biểu đồ biểu diễn độ đo F1 của các lớp trong lần lặp thứ 6 - Khai phá dữ liệu
Hình 9. Biểu đồ biểu diễn độ đo F1 của các lớp trong lần lặp thứ 6 (Trang 49)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w