Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

55 549 1
Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

, 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 1 LỜI CẢM ƠN Em xin tỏ lòng biết ơn sâu sắc tới thầy giáo Nguyễn Trịnh Đông - người hướng dẫn trực tiếp, chỉ bảo tận tình, góp ý sâu sắc trong suốt quá trình học tập, nghiên cứu để em hoàn thành khóa luận này. Em xin bày tỏ lòng biết ơn đến các thầy cô giáo trong bộ môn Công nghệ thông tin trường Đại học Dân lập Hải Phòng đã trực tiếp giảng dạy, góp ý, động viên em trong suốt bốn năm học qua. Em xin gửi lời cảm ơn đến các thành viên lớp CT1002, những người bạn đã luôn ở bên cạnh động viên, tạo điều kiện thuận lợi và cùng em tìm hiểu, hoàn thành tốt khóa luận. Cuối cùng em xin bày tỏ lòng biết ơn đến gia đình, và các bạn bè đã chia sẻ và động viên em hoàn thành khóa luận này. Hải Phòng, Ngày 09 tháng 07 năm 2010. Sinh viên Phạm Ngọc Hùng , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 2 MỤC LỤC LỜI CẢM ƠN 1 MỤC LỤC 2 LỜI MỞ ĐẦU 3 DANH SÁCH HÌNH VẼ . 4 CHƯƠNG 1 : TỔNG QUAN VỀ DATA MINING 5 1.1 Tổng quan về Datamining 5 1.1.1 Giới thiệu chung về Datamining 5 1.1.2 Quá trình khám phá tri thức trong CSDL. . 5 1.1.3 Các kỹ thuật áp dụng trong Datamining 6 1.1.4 Ứng dụng của Datamining 7 1.2 Phân cụm dữ liệu và các thuật toán về phân cụm dữ liệu. . 8 1.2.1.Giới thiệu chung về phân cụm dữ liệu. 8 1.2.2 Một số thuật toán phân cụm dữ liệu. . 9 CHƯƠNG 2: PHẦN MỀM CLEMENTINE . 10 2.1 Giới thiệu chung về Clementine. . 10 2.2 Quá trình xử lý dữ liệu trong Clementine. . 11 CHƯƠNG 3: ÁP DỤNG CLEMENTINE VÀO BÀI TOÁN 25 KHAI PHÁ DỮ LIỆU . 25 KẾT LUẬN 38 TÀI LIỆU THAM KHẢO . 39 PHỤ LỤC A: CÁC NÚT ĐỂ XÂY DỰNG MÔ HÌNH 40 , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 3 LỜI MỞ ĐẦU Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining). Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. . Trên cơ sở đó áp dụng vào bài khai phá dữ liệu thống dân số. , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 4 DANH SÁCH HÌNH VẼ 6 Hình 2: Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL 7 Hình 3: Mô phỏng vấn đề PCDL . 8 , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 5 CHƯƠNG 1 : TỔNG QUAN VỀ DATA MINING 1.1 Tổng quan về Datamining 1.1.1 Giới thiệu chung về Datamining. Data Mining là một lĩnh vực mới xuất hiện, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn của các đơn vị, tổ chức, doanh nghiệp,…. từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Các kết quả khoa học cùng những ứng dụng thành công trong khám phá tri thức, cho thấy, Data Mining là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay, Data Mining đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như : Thương mại, tài chính, điều trị y học, viễn thông, tin – sinh,…. Data Mining là một hướng nghiên cứu mới ra đời hơn một thập niên trở lại đây, các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, và tính toán hiệu năng cao. Do sự phát triển nhanh của Data Mining về phạm vi áp dụng và các phương pháp tìm kiếm tri thức, nên đã có nhiều quan điểm khác nhau về Data Mining. Tuy nhiên, ở một mức trừu tượng nhất định, chúng ta định nghĩa Data Mining như sau : Định nghĩa : DATA MINING là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn. Khám phá tri thức trong CSDL (Knowledge Discovery in Databases - KDD) là mục tiêu chính của Data Mining, do vậy hai khái niệm Data Mining và KDD được các nhà khoa học trên hai lĩnh vực được xem là tương đương với nhau. Thế nhưng, nếu phân chia một cách chi tiết thì Data Mining là một bước chính trong quá trình KDD. 1.1.2 Quá trình khám phá tri thức trong CSDL. Quá trình khám phá tri thức trong CSDL gồm các giai đoạn sau: Trích chọn dữ liệu : là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định. Tiền xử lý dữ liệu : là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, .v.v.), rút gọn dữ liệu (sử dụng hàm nhóm , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 6 và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, .v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, .v.v.). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa. Biến đổi dữ liệu : đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau. Data mining: đây là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD. Đánh giá và biểu diễn tri thức : những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, .v.v. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. Hình 1: 1.1.3 Các kỹ thuật áp dụng trong Datamining Nếu đứng trên quan điểm của học máy (Machine Learning), thì các kỹ thuật trong Data Mining, bao gồm :  Học có giám sát (Supervised learning):  Học không có giám sát (Unsupervised learning):  Học nửa giám sát (Semi - Supervised learning): Nếu căn cứ vào lớp các bài toán cần giải quyết, thì Data Mining bao gồm các kỹ thuật áp dụng sau : Phân lớp và dự đoán (classification and prediction): , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 7 Luật kết hợp (association rules): Phân tích chuỗi theo thời gian (sequential/ temporal patterns Phân cụm (clustering/ segmentation): Mô tả khái niệm (concept description and summarization): Hình 2: Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL 1.1.4 Ứng dụng của Datamining Khai phá dữ liệu có nhiều ứng dụng trong thực tế. Một trong số ứng dụng điển hình như: Bảo hiểm Tài chính và thị trường chứng khoán : phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận… Phân tích liệu và hỗ trợ ra quyết định. Điều trị và chăm sóc y tế : Một số thông tin về chuẩn đoán lưu bệnh trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc ). Sản xuất chế biến: Quy trình, phương pháp chế biến và xử lý sự cố Text mining & Web mining: phân lớp văn bản và các trang web, tóm tắt văn bản … , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 8 Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền. Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố chất lượng dịch vụ… Lĩnh vực xã hội: bài toán thống dân số, bài toán dự báo về dân số…để từ đó đưa ra cách khắc phục thích hợp nhất. 1.2 Phân cụm dữ liệu và các thuật toán về phân cụm dữ liệu. 1.2.1.Giới thiệu chung về phân cụm dữ liệu. Phân cụm dữ liệu là một lĩnh vực liên ngành và đang còn được phát triển mạnh mẽ như thống kê, học máy, nhận dạng, Data mining, … Ở một mức cơ bản nhất, người ta đã đưa ra định nghĩa PCDL như sau : "PCDL là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định" Như vậy, PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" (Similar) với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" (Dissimilar) với nhau. Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định của phương pháp phân cụm. Chúng ta có thể minh hoạ vấn đề phân cụm như hình 3 sau đây : Hình 3: Mô phỏng vấn đề PCDL , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 9 Trong hình trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử "gần nhau" hay là "tương tự" thì được xếp vào một cụm, trong khi đó các phần tử "xa nhau" hay là "phi tương tự" thì chúng thuộc về các cụm khác nhau. 1.2.2 Một số thuật toán phân cụm dữ liệu. a. Họ các thuật toán phân hoạch. - Thuật toán k-means. - Thuật toán PAM (Partioning Around Medoids). - Thuật toán CLARA (Clustering LARge Applications). - Thuật toán CLARANS (Clustering LARge ApplicatioNS). b. Các thuật toán phân cụm phân cấp. - Thuật toán BIRCH - Thuật toán CURE c. Các thuật toán phân cụm dựa trên mật độ. - Thuật toán DBSCAN - Thuật toán OPTICS - Thuật toán DENCLUE d. Một số thuật toán phân cụm dữ liệu đặc thù. - Thuật toán STING - Thuật toán CLIQUE - Thuật toán EM e. Phân cụm dữ liệu mờ. - Thuật toán FCM - Thụât toán FCM f. Phân cụm song song trên tập dữ liệu hỗn hợp. - Thuật toán k- prototypes - Thuật toán song song k - prototypes , 7/2010. Phạm Ngọc Hùng – Lớp CT1002. 10 CHƯƠNG 2: PHẦN MỀM CLEMENTINE 2.1 Giới thiệu chung về Clementine. Clementine là một sản phẩm của SPSS inc, SPSS Clementine là một trong sản phẩm mô hình hóa quá trình khai phá dữ liệu, cho phép người dùng nhanh chóng phát triển các mô hình đã được dự đoán trước bằng cách sử dụng kinh nghiệm thực tế và triển khai chúng vào các lĩnh vực cụ thể được tốt hơn. Phần mềm Clementine gồm có 8 tab chính: 1. Tab Favorites: Chỉnh sửa các nút được lựa chọn mặc định. 2. Tab Source : Nguồn dữ liệu, nhập dữ liệu vào Clementine. 3. Tab Record Ops : Thực hiện các thao tác trên bản ghi dữ liệu như ; lựa chọn, trộn, thêm . trường dữ liệu. 4. Tab Field Ops : Thực hiện các thao tác trên các trường dữ liệu như lọc, chuyển hóa trường dữ liệu mới, xác định kiểu dữ liệu . 5. Tab Graphs( đồ thị) : bao gồm các nút hiển thị đồ họa trước và sau khi Modeling ( mô hình hóa) gồm các nút Plot, nút Web, nút Histogram, biểu đồ đánh giá .

Ngày đăng: 21/12/2013, 20:21

Hình ảnh liên quan

Hình 1: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

Hình 1.

Xem tại trang 6 của tài liệu.
Hình 2: Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

Hình 2.

Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL Xem tại trang 7 của tài liệu.
Chúng ta có thể minh hoạ vấn đề phân cụm như hình 3 sau đâ y: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

úng ta có thể minh hoạ vấn đề phân cụm như hình 3 sau đâ y: Xem tại trang 8 của tài liệu.
Nhấp vào nú t( hình vuông) ngay bên phải của hộp Var.File để duyệt đến thư mục cần chọn - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

ấp vào nú t( hình vuông) ngay bên phải của hộp Var.File để duyệt đến thư mục cần chọn Xem tại trang 15 của tài liệu.
từ bảng màu - hoặc nhấn vào tab Sources để tìm nút theo yêu cầ u. Tiếp theo, nhấp đúp vào nút vừa được đặt để mở hộp thoại của nó - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

t.

ừ bảng màu - hoặc nhấn vào tab Sources để tìm nút theo yêu cầ u. Tiếp theo, nhấp đúp vào nút vừa được đặt để mở hộp thoại của nó Xem tại trang 15 của tài liệu.
Nhấn đúp chuột vào nút Tabel từ bảng màu, nó sẽ tự động kết nối nó với tập dữ liệu gốc - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

ấn đúp chuột vào nút Tabel từ bảng màu, nó sẽ tự động kết nối nó với tập dữ liệu gốc Xem tại trang 17 của tài liệu.
Kết quả là một biểu đồ hiển thị. Dựa trên màn hình, bạn có thể kết luận rằng khi giá trị Na_to_K là lớn hơn hoặc bằng 15, thuốc Y là thuốc được lựa chọn - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

t.

quả là một biểu đồ hiển thị. Dựa trên màn hình, bạn có thể kết luận rằng khi giá trị Na_to_K là lớn hơn hoặc bằng 15, thuốc Y là thuốc được lựa chọn Xem tại trang 24 của tài liệu.
Từ tập Nguoi100_3.sav, chọn nút Custom Table, màn hình xuất hiện như sau: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

t.

ập Nguoi100_3.sav, chọn nút Custom Table, màn hình xuất hiện như sau: Xem tại trang 26 của tài liệu.
Nhấn đúp vào nút Custom Table, trích chọn dữ liệu như hình sau: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

ấn đúp vào nút Custom Table, trích chọn dữ liệu như hình sau: Xem tại trang 26 của tài liệu.
Chọn nút Filter, màn hình xuất hiện như hình sau: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

ọn nút Filter, màn hình xuất hiện như hình sau: Xem tại trang 27 của tài liệu.
Để vẽ biểu đồ chọn nút Distribution, màn hình xuất hiện như sau: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

v.

ẽ biểu đồ chọn nút Distribution, màn hình xuất hiện như sau: Xem tại trang 27 của tài liệu.
Kết quả là hình vẽ như sau: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

t.

quả là hình vẽ như sau: Xem tại trang 28 của tài liệu.
Dựa vào bảng kết quả thống kê và biểu đồ cho ta thấy tỷ lệ số người chưa qua đào tạo chuyên môn kỹ thuật và sơ cấp nghề của các nhóm độ tuổi là cao - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

a.

vào bảng kết quả thống kê và biểu đồ cho ta thấy tỷ lệ số người chưa qua đào tạo chuyên môn kỹ thuật và sơ cấp nghề của các nhóm độ tuổi là cao Xem tại trang 28 của tài liệu.
Nhấn Execute để chạy, kết quả là bảng như sau: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

ấn Execute để chạy, kết quả là bảng như sau: Xem tại trang 32 của tài liệu.
Nhấn Execute để chạy, kết quả như bảng sau: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

ấn Execute để chạy, kết quả như bảng sau: Xem tại trang 33 của tài liệu.
Kích đúp vào Distribution hoặc gắp thả chúng vào màn hình bên trong. - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

ch.

đúp vào Distribution hoặc gắp thả chúng vào màn hình bên trong Xem tại trang 34 của tài liệu.
Kích đúp vào Distribution và chon trường dữ liệu như hình vẽ: - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

ch.

đúp vào Distribution và chon trường dữ liệu như hình vẽ: Xem tại trang 35 của tài liệu.
PHỤ LỤC A: CÁC NÚT ĐỂ XÂY DỰNG MÔ HÌNH - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số
PHỤ LỤC A: CÁC NÚT ĐỂ XÂY DỰNG MÔ HÌNH Xem tại trang 40 của tài liệu.
32. Ensemble Nút Ensembl e: kết hợp hai hoặc nhiều mô hình nuggets để có được những dự đoán chính xác hơn có thể thu được từ bất kỳ mô  hình một - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

32..

Ensemble Nút Ensembl e: kết hợp hai hoặc nhiều mô hình nuggets để có được những dự đoán chính xác hơn có thể thu được từ bất kỳ mô hình một Xem tại trang 45 của tài liệu.
nghiệm, và giai đoạn xây dựng mô hình. - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

nghi.

ệm, và giai đoạn xây dựng mô hình Xem tại trang 46 của tài liệu.
Nút Evaluatio n: đánh giá và so sánh các mô hình được dự báo. Biểu đồ cho thấy đánh giá như thế nào dự đoán kết quả các  mô  hình cụ thể - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

t.

Evaluatio n: đánh giá và so sánh các mô hình được dự báo. Biểu đồ cho thấy đánh giá như thế nào dự đoán kết quả các mô hình cụ thể Xem tại trang 48 của tài liệu.
mô hình dữ liệu chuỗi thời gian và tạo ra các dự báo về hiệu quả trong tương lai. Một nút Time Series luôn luôn phải được đi trước  bởi một nút khoảng thời gian - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

m.

ô hình dữ liệu chuỗi thời gian và tạo ra các dự báo về hiệu quả trong tương lai. Một nút Time Series luôn luôn phải được đi trước bởi một nút khoảng thời gian Xem tại trang 49 của tài liệu.
Mô hình generalized linear (tuyến tính tổng quát) mở rộng mô hình tuyến tính tổng quát để các biến phụ thuộc là tuyến tính liên  quan  đến  các  yếu  tố  và  thông  qua  một  chức  năng  liên  kết  nhất  định - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

h.

ình generalized linear (tuyến tính tổng quát) mở rộng mô hình tuyến tính tổng quát để các biến phụ thuộc là tuyến tính liên quan đến các yếu tố và thông qua một chức năng liên kết nhất định Xem tại trang 50 của tài liệu.
Nút Cox (hồi quy) cho phép bạn xây dựng một mô hình cho sự tồn tai thời gian . Mô hình này tạo ra một chức năng để dự đoán  xác  suất  các  sự kiện  quan  tâm đã xảy ra  tại một thời  gian nhất  định (t) cho các giá trị của các biến có yếu tố dự báo - Tìm hiểu clementine, áp dụng vào bài khai phá dữ liệu thống kê dân số

t.

Cox (hồi quy) cho phép bạn xây dựng một mô hình cho sự tồn tai thời gian . Mô hình này tạo ra một chức năng để dự đoán xác suất các sự kiện quan tâm đã xảy ra tại một thời gian nhất định (t) cho các giá trị của các biến có yếu tố dự báo Xem tại trang 51 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan