Cây quyết định trong học máy và sử dụng phần mềm WEKA học máy và khám phá tri thức thực tế

42 1.3K 12
Cây quyết định trong học máy và sử dụng phần mềm WEKA học máy và khám phá tri thức thực tế

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP.HCM CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG ________________ BÁO CÁO THU HOẠCH CHUYÊN ĐỀ CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài:Cây quyết định trong học máy và sử dụng phần mềm WEKA học máy và khám phá tri thức thực tế . Giảng viên HD: Sinh Viên Thực Hiện: GS.TSKH Hoàng Kiếm Nguyễn Bảo Minh Mssv : CH1101104 Huỳnh Ái Nhân Mssv : CH1101116 Lớp Cao học CNTT Qua mạng Khóa 6 TP. HCM, 05/2012 Mục Lục MỤC LỤC CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 1 TP. HCM, 05/2012 1 LỜI MỞ ĐẦU 1 I Tổng quan về máy học và khám phá tri thức 2 1.1 Máy học 2 1.1.1 Thế nào là máy học ? 2 1.1.2 Phân loại máy học 2 1.1.2.1 Phân loại thô 2 1.1.2.2 Phân loại theo 2 tiêu chuẩn cùng lúc:”Cấp độ học” và “cách tiếp cận” 3 1.2 Khám phá tri thức 4 1.2.1. Định nghĩa khám phá tri thức 4 1.2.2. Các giai đoạn của quá trình khám phá tri thức 4 1.2.3. Khai mỏ dữ liệu 5 II. Cây quyết định 6 2.1 Giới thiệu chung 6 2.3 Xây dựng cây quyết định 7 2.3.1 Chọn thuộc tính phân tách 7 2.3.2 Chọn thuộc tính phân hoạch tốt nhất 8 2.3.2.1 Phân hoạch dựa vào vector đặc trưng 8 2.3.2.2 Phân hoạch dựa vào độ đo hỗn loạn 8 2.4 Ưu điểm của cây quyết định 9 2.5 Các thuật toán xây dựng cây quyết định 9 2.5.1 Thuật toán xây dựng cây quyết định ID3 10 2.5.1.1 Giới thiệu: 10 2.5.1.2 Thuật toán ID3 11 2.5.2 Thuật toán xây dựng cây quyết định C4.5 18 2.5.2.1 Thuật toán xây dựng cây quyết định: 18 2.5.2.2 Độ đo sử dụng để xác định điểm chia tốt nhất: 20 2.5.2.3 Một số vấn đề với thuộc tính: 20 2.5.2.4 Nhận xét về thuật toán C4.5 30 III Sử dụng phần mềm Weka trong học máy và khám phá tri thức 30 3.1 Giới thiệu 30 3.2 Ứng dụng Weka xử lý trong học máy và khai phá tri thức 33 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 Lời Mở Đầu LỜI MỞ ĐẦU Trong một vài năm gần đây, ngành công nghệ thông tin trên toàn thế giới đã phát triển mạnh mẽ với một tốc độ rất nhanh. Song song với điều đó chúng ta cũng phải đối mặt với một thách thức mới là sự bùng nổ về lượng thông tin. Tuy nhiên, một thực tế diễn ra rất phổ biến là mặc dù có một lượng dữ liệu rất lớn nhưng tri thức mà thực sự chúng ta có là rất ít, những hiểu biết thực sự của chúng ta về lượng dữ liệu mà chúng ta có còn rất hạn chế. Xuất phát từ thực tế đó mà trong một vài năm gần đây các nhà nguyên cứu và ứng dụng tin học phải nguyên cứu, tìm kiếm những phương pháp mới để khai thác những tri thức tìm ẩm có trong cơ sở dữ liệu khổng lồ đó. Từ cuối những năm của thập kỷ 1980 khái niệm phát hiện tri thức trong cơ sở dữ liệu lần đầu tiên được nói đến, đây là quá trình phát hiện tri thức tiềm ẩn, không biết trước và hữu ích trong các cơ sở dữ liệu lớn. Hiện nay cùng với sự phát triển của Công Nghệ Thông Tin ngày nay, khám phá tri thức trong các cơ sở dư liệu lớn là một trong nhưng lĩnh vực được rất nhiều nhà nguyên cứu và ứng dụng tin học đặc biệt quan tâm. Việc nguyên cứu những phương pháp có thể tự động phát hiện những tri thức mới trong cơ sở dư liệu trên máy tính đã tỏ ra thực sự hữu ích trong việc hỗ trợ quyết định cho con người. Trên thế giới có rất nhiều thuật toán khám phá tri thức bằng cách phân lớp và rời rạc dữ liệu như: Sử dụng cây quyết định, phương pháp thống kê, các mạng neural, thuật toán di truyền mỗi thuật toán đều có những ưu khuyết điểm của nó và tùy vào từng trường hợp, lĩnh vực cụ thể mà có thể áp dụng những thuật toán cho phù hợp. Trong bài thu hoạch này em xin trình bày về phương pháp sử dụng cây định danh trong học máy để khám phá tri thức . Báo cáo thu hoạch CNTT & Ứng dụng Trang 1 Máy Học I Tổng quan về máy học và khám phá tri thức 1.1 Máy học 1.1.1 Thế nào là máy học ?  Máy tính hay chương trình máy tính có khả năng tự hoàn thiện từ kinh nghiệm.  Máy học còn có nghĩa là việc mô hình hóa môi trường cung quanh hay khả năng một chương trình máy tính sinh ra một cấu trức dữ liệu mới khác với cấu trúc dữ liệu hiện có.Chẳng hạn tìm ra những luật IF… Then… từ tập dữ liệu đầu vào. 1.1.2 Phân loại máy học 1.1.2.1 Phân loại thô  Học có giám sát (supervised learning) Là phương pháp cho máy học ,và suy diễn ra từ cơ sơ dữ liệu. Các dữ liệu bao gồm dữ liệu đầu vào(thường là vector) và kết quả mong muốn. Nó là tình trạng học cần tập huấn luyện. Ví dụ: Nhận dạng chữ viết tay, Nhận dạng ký tự quang học, …… Đối tượng D đưa vào sẽ thuộc một trong 3 thuộc tính A,B,hay C.Với A,B,C là tập huấn luyện Các bước giải quyết vấn đề học giám sát + Xác định loại hình đào tạo + Thu thập thông tin để huấn luyện + Xác định tính năng dữ liệu đầu vào + Xác định cơ cấu, chức năng đã học và các thuật toán tương ứng + Chạy các thuật toán trên các tập dữ liệu  Học không giám sát (Unsupervised learning) Là cách học thông tin mà không cần tập dữ liệu huấn luyện được gán nhãn sẵn. Báo cáo thu hoạch CNTT & Ứng dụng Trang 2 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh Đối tượng D đưa vào có thể nằm trong 3 thuộc tính trên hoặc không. Quá trình học không giám sát là quá trình khám phá dữ liệu - Ví dụ:Kỹ thuật gom cụm (Hierarchical clustering, K-means,…) - Giải thuật Hierarchical clustering: Cho tập N đối tượng và một ma trận khoảng cách N*N, giải thuật sẽ xử lý như sau: - Tìm cặp cluster có khoảng cách ngắn nhất kết hợp chúng lại thành 1 nhóm. - Tính toán khoảng cách giữa các nhóm với nhóm cũ - Lặp lại bước 2 và 3 cho đến khi các items được nhóm vào trong 1 nhóm đơn kích cỡ N 1.1.2.2 Phân loại theo 2 tiêu chuẩn cùng lúc:”Cấp độ học” và “cách tiếp cận” Cấp độ học  Học vẹt (Rote learning). Hệ tiếp nhận các khẳng định của các quyết định đúng. Khi hệ tạo ra một quyết định không đúng, hệ sẽ đưa ra các luật hay quan hệ đúng mà hệ đã sử dụng. Hình thức học vẹt nhằm cho phép chuyên gia cung cấp tri thức theo kiểu tương tác.  Học theo giải thích ( by explanation ) :Thay vì đưa ra một luật cụ thể cần áp dụng vào tình huống cho trước, hệ thống sẽ được cung cấp bằng các chỉ dẫn tổng quát  Học theo ví dụ, trường hợp ( by examples,cases): Hệ thống được cung cấp một tập các ví dụ và kết luận được rút ra từ từng ví dụ. Hệ liên tục lọc các luật và quan hệ nhằm xử lý từng ví dụ mới.  Học khám phá ( by discovering) Thay vì có mục tiêu tường minh, hệ khám phá liên tục tìm kiếm các mẫu và quan hệ trong dữ liệu nhập. Các ví dụ về học khám phá bao gồm gom cụm dữ liệu, học để nhận dạng các đặc tính cơ bản như cạnh từ các điểm ảnh.  Cách tiếp cận  Tiếp cận thống kê  Tiếp cận toán tử logic  Tiếp cận hình học (Phân hoạch không gian,xây dựng cây định danh)  Tiếp cận mạng neural  Tiếp cận khai mỏ dữ liệu Báo cáo thu hoạch CNTT & Ứng dụng Trang 3 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh 1.2 Khám phá tri thức Phát hiện tri thức là khái niệm ra đời vào những năm cuối của thập kỷ 80 và đã trở thành một lĩnh vực được nghiên cứu rộng rãi trên toàn cầu. Sự ra đời của phát hiện tri thức là sự kết hợp kết quả nguyên cứu của nhiều ngành khoa học khác lại với nhau như: Quản trị cơ sở dữ liệu, máy học, thống kê v.v. 1.2.1. Định nghĩa khám phá tri thức Khám phá tri thức (Khám phá tri thức-Knowledge Discovery in Databases) trong các cơ sở dữ liệu là quá trình phát hiện những tri thức tiềm ẩn, không biết trước, và có ích trong trong cơ sở dữ liệu. Thực chất đó là quá trình tìm kiếm những thông tin có trong cơ sở dữ liệu nhưng bị che giấu trong các khối dữ liệu. Tri thức ở đây có thể được hiểu là một biểu thức trong một ngôn ngữ nào đó diễn tả một hoặc nhiều mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Các ngôn ngữ thường dùng để biểu diễn tri thức trong việc biểu diễn tri thức trong quá trình phát hiện tri thức từ cơ sở dư liệu là các khung (frames), các cây và đồ thị, các luật, các công thức trong logic mệnh đề hoặc logic tân từ cấp một . . . Việc khám phá tri thức thường được áp dụng để giải quyết một loạt những yều cầu phục vụ những mục đích nhất định. Do vậy nên quá trình phát hiện tri thức mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát hiện những tri thức phục vụ tốt một nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặc một chuyên gia phân tích với các công cụ tin học. 1.2.2. Các giai đoạn của quá trình khám phá tri thức Mục đích của quá trình khám phá tri thức: Từ những cơ sở dữ liệu ngoài cuộc sống thực tế sau một hoặc một số bước của quá trình sẽ rút ra được những tri thức mới. Các bước trong quá trình này có thể lặp đi lặp lại nhiều lần và được mô tả theo hình sau: Giai đoạn 1:Chuẩn bị dữ liệu. Báo cáo thu hoạch CNTT & Ứng dụng Trang 4 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh − Tìm hiểu lĩnh vực ứng dụng và nhiệm vụ đề ra, xác định các tri thức đã có và các mục tiêu của người sử dụng. − Tạo và chọn lựa cơ sở dữ liệu. Giai đoạn 2: Huấn luyện dữ liệu. − Xử lý và làm sạch dữ liệu trước: Bỏ đi các dữ liệu tạp bao gồm các lỗi và các dạng không bình thường. Xử lý dữ liệu bị mất, chuyển đổi dữ liệu phù hợp. − Rút gọn kích thước dữ liệu nhận được: Nhận ra các thuộc tính hữu ích cho quá trình phát hiện tri thức. Giai đoạn 3: Khai mỏ dữ liệu. − Chọn nhiệm vụ khai mỏ dữ liệu. − Lựa chọn các phương pháp khai mỏ dữ liệu. − Khai mỏ dữ liệu để rút ra các mẫu, các mô hình. Giai đoạn 4: Biểu diển tri thức. − Các tri thức phát hiện được tích hợp chặt chẽ trong hệ thống. Tuy nhiên để sử dụng được tri thức đó đôi khi cần đến các chuyên gia trong các lĩnh vực quan tâm vì tri thức rút ra có thể chỉ có tính chất hỗ trợ quyết định. − Tri thức tìm được có thể được sử dụng cho một quá trình khám phá tri thức khác. Giai đoạn 5:Kiểm tra đánh giá: Báo cáo kết quả các tri thức tìm được và tỉ lệ phần trăm tri thức có trong cơ sở dữ liệu đó. Như vậy khám phá tri thức gồm 5 giai đoạn chính, trong 5 giai đoạn trên thì giai đoạn khai mỏ dữ liệu là quan trọng nhất. Đây là giai đoạn duy nhất tìm được các thông tin tiềm ẩn trong cơ sở dữ liệu. 1.2.3. Khai mỏ dữ liệu Khai mỏ dữ liệu (hay data mining) được định nghĩa như là quá trình phát hiện các tri thức mới, có giá trị từ những dữ liệu lớn được lưu trữ trong cơ sở, datawarehouse hay các kho chứa thông tin khác. Khai mỏ dữ liệu là một giai đoạn quan trọng trong quá trình phát hiện tri thức. Về bản chất nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ần có trong cơ sở dữ liệu. Mục đích nguyên thủy của khai mỏ dữ liệu là mô tả và dự đoán. Các kỹ thuật khai mỏ dữ liệu được chia thành những mảng chính sau:  Phân cụm và phân lớp dữ liệu: Quá trình này có thể xem là quá trình phân tích một tập dữ liệu và sinh ra một tập nhóm các luật mà chúng ta có thể sử dụng để phân lớp dữ liệu trong tương lai. Khi phân lớp dữ liệu người ta thường dựa trên một tập các mẫu huấn luyện để sinh ra các luật. Có rất nhiều phương pháp để phân lớp dữ liệu được nguyên cứu như: Các phương pháp học cây quyết định, phương pháp thông kê, các mạng nơ ron, các mạng xác xuất Bayes,. . .  Khai mỏ luật kết hợp: Mong muốn tìm ra những mối quan hệ giữa các thuộc tính hoàn toàn độc lập với nhau trong cơ sở dữ liệu. Luật kết hợp có thể dùng để hỗ trợ quyết định. Ví dụ như các bài toán kinh doanh.  Khai mỏ chuỗi: Luật chuỗi và khai mỏ chuỗi có thể coi như là một cách trừu tượng của luật kết hợp và phát hiện các luật kết hợp trong cơ sở dữ liệu phụ thuộc thời gian.  Có rất nhiều phương pháp để có thể tiến hành khai mỏ dữ liệu đã được nguyên cứu và đề ra như: − Các phương pháp sinh cây quyết định. − Các phương pháp thống kê. Báo cáo thu hoạch CNTT & Ứng dụng Trang 5 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh − Các mạnh nơ ron. − Các mạng xác suất Bayes. − Các thuật toán di truyền. − Phương pháp người láng giềng gần nhất. − Luật suy diễn. − Trực quan hoá dữ liệu. − .v.v. Như vậy, khai mỏ dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức và nó đang được áp dụng rộng rãi trong nhiều lĩnh vực như: − Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) − Điều trị y học (medical treatment) − Text mining & Web mining − Tài chính và thị trường chứng khoán (finance & stock market) − Bảo hiểm (insurance) − Nhận dạng (pattern recognition) − .v.v. II. Cây quyết định 2.1 Giới thiệu chung Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định. Tóm lại ta có thể định nghĩa cây quyết định như sau: Cây quyết định là cấu trúc cây sao cho:  Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính  Mỗi nhánh biểu diễn kết quả phép kiểm tra  Các nút lá biểu diễn các lớp hay các phân bố lớp  Nút cao nhất trong cây là nút gốc. Học bằng cây quyết định cũng là một phương pháp thông dụng trong khám pha dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính . Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại. Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện. Báo cáo thu hoạch CNTT & Ứng dụng Trang 6 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước. Dữ liệu được cho dưới dạng các bản ghi có dạng: 1 2 3 ( , ) ( , , , , , ) k x y x x x x y= Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. 1 2 3 , , x x x là các biến sẽ giúp ta thực hiện công việc đó. 2.2 Các kiểu cây quyết định Cây quyết định còn có hai tên khác: Cây hồi quy (Regression tree): ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện) Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua). 2.3 Xây dựng cây quyết định 2.3.1 Chọn thuộc tính phân tách Lúc khởi đầu, ta có trong tay một tập luyện chứa tập các bản ghi được phân loại trước – tức là giá trị của biến đích được xác định trong tất cả các trường hợp. Cây quyết định được xây dựng bằng cách phân tách các bản ghi tại mỗi nút dựa trên một thuộc tính đầu vào. Rõ ràng nhiệm vụ đầu tiên là phải chọn ra xem thuộc tính nào đưa ra được sự phân tách tốt nhất tại nút đó. Độ đo được sử dụng để đánh giá khả năng phân tách là độ tinh khiết. Chúng ta sẽ có những phương pháp xác định để tính toán độ tinh khiết một cách chi tiết, tuy nhiên chúng đều cố gắng đạt được hiệu quả như nhau. Một sự phân tách tốt nhất là sự phân tách làm tăng độ tinh khiết của tập bản ghi với số lượng lớn nhất. Một sự phân tách tốt cũng phải tạo ra các nút có kích cỡ tương tự nhau, hay chí ít cũng không tạo ra các nút có quá ít bản ghi. Thuật toán xây dựng cây quyết định hết sức thấu đáo. Chúng bắt đầu bằng việc chọn mỗi biến đầu vào chưa được chọn và đo mức độ tăng độ tinh khiết trong các kết quả ứng với mỗi biến. Sau đó một phép tách tốt nhất sẽ được sử dụng trong phép tách khởi đầu, để tạo hai hay nhiều nút con. Nếu không phép phân tách nào có khả năng (có thể do có quá ít bản ghi) hoặc do không có phép phân tách nào làm tăng độ tinh khiết thì thuật toán kết thúc và nút đó trở thành nút lá. Báo cáo thu hoạch CNTT & Ứng dụng Trang 7 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh 2.3.2 Chọn thuộc tính phân hoạch tốt nhất 2.3.2.1 Phân hoạch dựa vào vector đặc trưng Quinlan quyết định thuộc tính phân hoạch bằng cách xây dựng các vector đặc trưng cho mỗi giá trị của từng thuộc tính dẫn xuất và thuộc tính mục tiêu. Cách tính cụ thể như sau : Với mỗi thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch, tính : VA(j) = ( T(j , r 1 ), T(j , r 2 ) , …, T(j , rn) ) T(j, ri) = (tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j và có giá trị thuộc tính mục tiêu là ri ) / ( tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j ) * trong đó r 1 , r 2 , … , rn là các giá trị của thuộc tính mục tiêu * Như vậy nếu một thuộc tính A có thể nhận một trong 5 giá trị khác nhau thì nó sẽ có 5 vector đặc trưng. Một vector V(Aj ) được gọi là vector đơn vị nếu nó chỉ có duy nhất một thành phần có giá trị 1 và những thành phần khác có giá trị 0. Thuộc tính được chọn để phân hoạch là thuộc tính có nhiều vector đơn vị nhất. 2.3.2.2 Phân hoạch dựa vào độ đo hỗn loạn Thay vì phải xây dựng các vector đặc trưng như phương pháp của Quinlan, ứng với mỗi thuộc tính dẫn xuất ta chỉ cần tính ra độ đo hỗn loạn và lựa chọn thuộc tính nào có độ đo hỗn loại là thấp nhất. Công thức tính như sau : TA = trong đó : b t là tổng số phần tử có trong phân hoạch b j là tổng số phần tử có thuộc tính dẫn xuất A có giá trị j. b ri : tổng số phần tử có thuộc tính dẫn xuất A có giá trị j và thuộc tính mục tiêu có giá trị i. - Entropy là đại lượng đặc trưng cho độ hỗn loạn dữ liệu - Entropy = 0 nếu tất cả các dữ liệu thuộc về 1 lớp - Entropy = 1 nếu phân lớp có tỉ lệ bằng nhau. Báo cáo thu hoạch CNTT & Ứng dụng Trang 8 [...]... phân lớp Cây là tiện ích rất có ý nghĩa đối với người sử dụng III Sử dụng phần mềm Weka trong học máy và khám phá tri thức 3.1 Giới thiệu WEKA là một công cụ phần mềm viết bằng Java phục vụ lĩnh vực học máy và khai phá dữ liệu Các tính năng chính của chương trình : Báo cáo thu hoạch CNTT & Ứng dụng Trang 30 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh Preprocess: Cho phép mở, điều chỉnh, lưu... lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định 2.5 Các thuật toán xây dựng cây quyết định Phương pháp học cây quyết định là một trong những phương pháp được sử dụng rông rãi nhất cho việc học quy nạp từ một tập mẫu lớn Đây là phương pháp xấp xỉ các hàm mục tiêu có giá trị rời rạc Mặt khác cây quyết định còn có thể chuyển...Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh 2.4 Ưu điểm của cây quyết định So với các phương pháp khám phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm: • Cây quyết định dễ hiểu Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn • Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết Các kỹ thuật... vị trí của hai giá trị của một thuộc tính 3.2 Ứng dụng Weka xử lý trong học máy và khai phá tri thức Đây là kết quả học tập và thi tốt nghiệp của Học Sinh một trường trung học Với dữ liệu như thế này thì sẽ có khăn cho quá trình học máy và khám phá tri thức nên ta sẽ chuyển về dạng như sau :  Loại bỏ thuộc tính HoTen  Chuyển các điểm số của các môn học về 3 nhóm như sau : Chọn Remove Bước 2:Nhóm... dạng tri thức là các luật Nếu – Thì (if then) Những bài toán nên sử dụng việc học cây quyết định: − Các mẫu huấn luyện được biểu diễn thành những cặp giá trị - thuộc tính, các thuộc tính là một tập cố định Các giá trị thuộc tính là rời rạc Tuy nhiên trong các thuật toán sinh cây quyết định cải tiến sau này cho phép các thuộc tính nhận giá trị là giá trị thực − Hàm mục tiêu phải có giá trị rời rạc, trong. .. Định Danh Trong quá trình tìm kiếm, giải thuật ID3 có xu hướng chọn cây quyết định ngắn hơn là những cây quyết định dài Đây là tính chất thiên lệch quy nạp của ID3 Các vấn đề tồn tại trong ID3  Cây quyết định học được quá khớp (overfitting) với các dữ liệu học  Xử lý các thuộc tính có kiểu giá trị liên tục (kiểu số thực)  Các đánh giá phù hợp hơn (tốt hơn Information Gain) đối với việc xác định thuộc... C4.5 có cơ chế sinh cây quyết định hiệu quả và chặt chẽ bằng việc sử dụng độ đo lựa chọn thuộc tính tốt nhất là gain-ratio Các cơ chế xử lý với giá trị lỗi, thiếu và chống “quá vừa” dữ liệu của C4.5 cùng với cơ chế cắt tỉa cây Thêm vào đó, mô hình phân lớp C4.5 còn có phần chuyển đổi từ cây quyết định sang luật dạng if-then, làm tăng độ chính xác và tính dễ hiểu của kết quả phân lớp Cây là tiện ích rất... Báo cáo thu hoạch CNTT & Ứng dụng Trang 31 Chuyên đề: Học Bằng Phương Pháp Xây Dựng Cây Định Danh • Add Cho phép bạn chèn thêm một thuộc tính cho bảng dữ liệu • AddEpression Cho phép chèn thêm một trường mà giá trị của trường này được tính theo một biểu thức toán học do người dùng nhập vào Expression: Nơi để nhập biểu thức toán học. Biểu thức có thể sử dụng các phép toán và các hàm sau: +, -, *, /, ^, . xét về thuật toán C4.5 30 III Sử dụng phần mềm Weka trong học máy và khám phá tri thức 30 3.1 Giới thiệu 30 3.2 Ứng dụng Weka xử lý trong học máy và khai phá tri thức 33 KẾT LUẬN 39 TÀI LIỆU THAM. thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định. Tóm lại ta có thể định nghĩa cây quyết định như sau: Cây quyết định. khám phá tri thức . Báo cáo thu hoạch CNTT & Ứng dụng Trang 1 Máy Học I Tổng quan về máy học và khám phá tri thức 1.1 Máy học 1.1.1 Thế nào là máy học ?  Máy tính hay chương trình máy tính

Ngày đăng: 10/04/2015, 16:26

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan