Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,81 MB
Nội dung
ĐỒ ÁN MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS®Enterprise Miner™ GVHD : HVTH : Võ Trúc Vy MSHV : TPHCM, 6/2014 PGS.TS Đỗ Phúc CH1301073 LỜI CÁM ƠN Em xin chân thành cám ơn Thầy PGS.TS Đõ Phúc đã tận tình giảng dạy môn Hệ hỗ trợ quyết định Thầy không chỉ dạy chúng em kiến thức mà Thầy đã dạy chúng em tinh thần làm việc tích cực và say mê công việc Thầy dạy chúng em lòng nhiệt tình và trách nhiệm với bản thân và cộng đồng 2 Em xin chân thành cám ơn Thầy MỤC LỤC 3 Chương 1 TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu Là một quá trình trích xuất tri thức từ lượng lớn dữ liệu Là một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu Các thuật ngữ thường được dùng tương đương: knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence Lượng lớn dữ liệu sẵn có để khai phá • Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc • Dữ liệu được lưu trữ • Các tập tin truyền thống (flat files) • Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ đối tượng (object relational databases) • Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữ liệu (data warehouses) • Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian (spatial databases), cơ sở dữ liệu thời gian (temporal databases), cơ sở dữ liệu không thời gian (spatio-temporal databases), cơ sở dữ liệu chuỗi thời gian (time series databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), … • Các kho thông tin: the World Wide Web, … • Dữ liệu tạm thời: các dòng dữ liệu (data streams) Tri thức đạt được từ quá trình khai phá • Mô tả lớp/khái niệm (đặc trưng hóa và phân biệt hóa) • Mẫu thường xuyên, các mối quan hệ kết hợp/tương quan • Mô hình phân loại và dự đoán • Mô hình gom cụm • Các phần tử biên • Xu hướng hay mức độ thường xuyên của các đối tượng có hành vi thay đổi • theo thời gian … 4 • Tri thức đạt được có thể có tính mô tả hay dự đoán tùy thuộc vào quá trình khai phá cụ thể o Mô tả (Descriptive): có khả năng đặc trưng hóa các thuộc tính chung của dữ liệu được khai phá (Tình huống 1) • Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có để dự đoán • Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi cấu trúc • Tri thức đạt được có thể được/không được người dùng quan tâm à các độ • đo đánh giá tri thức đạt được Tri thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điều khiển quy trình, quản lý thông tin, xử lý truy vấn … Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ Khai phá dữ liệu và công nghệ cơ sở dữ liệu • Khả năng đóng góp của công nghệ cơ sở dữ liệu • Công nghệ cơ sở dữ liệu cho việc quản lý dữ liệu được khai phá 5 • • • Dữ liệu rất lớn, có thể vượt quá khả năng của bộ nhớ chính (main memory) Dữ liệu được thu thập theo thời gian Các hệ cơ sở dữ liệu có khả năng xử lý hiệu quả lượng lớn dữ liệu với các cơ chế phân trang (paging) và hoán chuyển (swapping) dữ liệu vào/ra bộ nhớ chính • Các hệ cơ sở dữ liệu hiện đại có khả năng xử lý nhiều loại dữ liệu phức tạp • (spatial, temporal, spatiotemporal, multimedia, text, Web, …) Các chức năng khác (xử lý đồng thời, bảo mật, hiệu năng, tối ưu hóa, …) của các hệ cơ sở dữ liệu đã được phát triển tốt Thực trạng đóng góp của công nghệ cơ sở dữ liệu • Các hệ quản trị cơ sở dữ liệu (DBMS) hỗ trợ khai phá dữ liệu • Oracle Data Mining (Oracle 9i, 10g, 11g) • Các công cụ khai phá dữ liệu của Microsoft (MS SQL Server 2000, 2005, 2008) • Intelligent Miner (IBM) • Các hệ cơ sở dữ liệu qui nạp (inductive database) hỗ trợ khám phá tri thức • Chuẩn SQL/MM 6:Data Mining của ISO/IEC 13249-6:2006 hỗ trợ khai phá dữ liệu • Đặc tả giao diện SQL cho các ứng dụng và dịch vụ khai phá dữ liệu từ các cơ sở dữ liệu quan hệ Khai phá dữ liệu và lý thuyết thống kê Khai phá dữ liệu và học máy 6 “Natural groupings” Khai phá dữ liệu và trực quan hóa - Dữ liệu: 3D cubes,distribution charts, curves, surfaces, link graphs, image frames and movies, parallel coordinates Temporal evolution 7 Mean Feature Image Label Image - Kết quả (tri thức): pie charts, scatter plots, box plots, association rules, parallel coordinates, dendograms, temporal evolution 1.2 Các tác vụ khai phá dữ liệu 8 e oth rs Năm thành tố cơ bản để đặc tả một tác vụ khai phá dữ liệu • Dữ liệu cụ thể sẽ được khai phá (task-relevant data) • Loại tri thức sẽ đạt được (kind of knowledge) • Tri thức nền (background knowledge) • Các độ đo (interestingness measures) 9 • Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualization and knowledge presentation) Dữ liệu cụ thể sẽ được khai phá (task-relevant data) • Phần dữ liệu từ các dữ liệu nguồn được quan tâm • Tương ứng với các thuộc tính hay chiều dữ liệu được quan tâm • Bao gồm: tên kho dữ liệu/cơ sở dữ liệu, các bảng dữ liệu hay các khối dữ liệu, các điều kiện chọn dữ liệu, các thuộc tính hay chiều dữ liệu được tâm, các tiêu chí gom nhóm dữ liệu Loại tri thức sẽ đạt được (kind of knowledge) • Bao gồm: đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, mô hình phân tích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, mô hình gom cụm, mô hình phân tích phần tử biên, mô hình phân tích tiến hóa Tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ được thực thi Tri thức nền (background knowledge) • Tương ứng với lĩnh vực cụ thể sẽ được khai phá • Hướng dẫn quá trình khám phá tri thức • Hỗ trợ khai phá dữ liệu ở nhiều mức trừu tượng khác nhau • Đánh giá các mẫu được tìm thấy • Bao gồm: các phân cấp ý niệm, niềm tin của người sử dụng về các mối • quan hệ của dữ liệu Các độ đo (interestingness measures) • Thường đi kèm với các ngưỡng giá trị (threshold) • Dẫn đường cho quá trình khai phá hoặc đánh giá các mẫu được tìm thấy • Tương ứng với loại tri thức sẽ đạt được và do đó, tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ được thực thi • Kiểm tra: tính đơn giản (simplicity), tính chắc chắn (certainty), tính hữu dụng (utility), tính mới (novelty) Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualization and knowledge presentation) • Xác định dạng các mẫu/tri thức được tìm thấy để thể hiện đến người sử dụng • Bao gồm: luật (rules), bảng (tables), báo cáo (reports), biểu đồ (charts), đồ thị (graphs), cây (trees), và khối (cubes) Khai phá dữ liệu • Phân loại dữ liệu • Giải thuật phân loại với cây quyết định 10 Sau một bộ tương tự như các bước cho cây 5 cho phép so sánh hai cây ở hơn mức độ hạt.Hình 10 hiển thị các vòng cây cho cây quyết định 5 mà bốn điểm phân chia cho mỗi đầu vào đã được cho phép trong mỗi cấp độ của cây Cho phép tự do hơn các thuật toán trong tách đầu vào dẫn đến một cây có ít mức độ mà các địa chỉ nhiều hơn các dữ liệu – trong đặc biệt là cả nam và nữ Nhìn lướt qua các vòng cây có thể đề nghị là 5 cây hơn phức tạp hơn so với cây 4 Tuy nhiên, mỗi đầu vào xuất hiện ở chỉ có một mức trong cây, làm cho quy tắc dễ hiểu hơn Hình 10: Cây nhẫn Sơ đồ cây quyết định 5 Cây quyết định 5 được hiển thị đồ họa trong Hình 11 là một tập hợp các phần chia nhỏ (quyết định) 56 Hình 11: Quy định cho cây 5 Một quy tắc ví dụ trong hình 11 xác định rằng 9,8 phần trăm của các hồ sơ gian lận có thể mô tả như sau: • nam • từ hai loại người cụ thể hoặc 'mất tích' thể loại • tình trạng thanh toán U • nhận được thanh toán từ $ 11,567 và $ 40,851 3.8.8 Kết luận cho trường hợp nghiên cứu 1 Dựa trên số lượng và loại dữ liệu có sẵn, một cây quyết định với các quy tắc rất đơn giản để tiếp theo cung cấp cái nhìn sâu sắc nhất vào dữ liệu này Tất nhiên, khuyến cáo tốt nhất là có được nhiều dữ liệu hơn, sử dụng một bộ dữ liệu xác nhận, và có chuyên môn chủ đề áp dụng cho tăng cường phân tích này 57 3.9 Trường hợp nghiên cứu 2: Phát hiện gian lận thẻ mua hàng Một cơ quan liên bang đã thu thập dữ liệu về giao dịch thẻ mua nhân viên của mình và trên Tài khoản thẻ mua 40.000 nhân viên Các dữ liệu giao dịch chứa thông tin về các mua ngày được thực hiện, số tiền mua hàng, tên của thương gia, địa chỉ của thương gia, và sự phân loại công nghiệp tiêu chuẩn (SIC) mã của các thương gia trong khác các lĩnh vực Các dữ liệu tài khoản chứa thông tin về tài khoản của cá nhân như thông tin về chủ tài khoản, hạn mức giao dịch duy nhất của tài khoản, mua chu kỳ thanh toán giới hạn cho tài khoản và lịch sử mua cho mỗi tài khoản trong các lĩnh vực khác 3.9.1 Định nghĩa vấn đề Một tổ chức chính phủ tìm cách xác định những nhóm mua tồn tại trong mua chương trình thẻ có thể là dấu hiệu của một sự lạm dụng công quỹ Tổ chức đã thu thập thông tin về đặc điểm mua để nhận biết một sự lạm dụng vốn của chính phủ Thông tin này là cư dân trong các báo cáo về nguy cơ thẻ mua hàng Cư trú thông tin bổ sung với các chuyên gia tên miền Các tổ chức tìm kiếm để xác định loại gì khác giao dịch nhóm cùng với kiến thức hiện vì lợi ích của việc ngăn chặn tiếp tục lạm dụng quỹ của các cá nhân có thẩm quyền Tổ chức mong muốn xây dựng một hệ thống phát hiện gian lận hiệu quả sử dụng dữ liệu riêng của mình như một bắt đầu từ điểm 3.9.2 Bộ sưu tập dữ liệu và tăng cường 58 Sau khi xác định các vấn đề kinh doanh, bước tiếp theo trong quá trình khai phá dữ liệu là để liên kết các nguồn dữ liệu khác nhau Trong nghiên cứu trường hợp này, dữ liệu từ các tập tin giao dịch tài khoản và được liên kết Dữ liệu được tham gia ở mức độ giao dịch bởi vì các câu hỏi kinh doanh tập trung vào xác khai phá các thuộc tính vốn có của giao dịch để nhận biết gian lận sử dụng vốn Thông thường, không phải tất cả các dữ liệu đã được tham gia sẽ được lựa chọn cho các đầu vào mô hình Một số tập hợp con của các trường sẽ được sử dụng để phát triển các mô hình khai phá dữ liệu Chuyển đổi dữ liệu có thể được thực hiện trên các dữ liệu thu thập được Chuyển đổi dữ liệu liên quan đến chuyển đổi đầu vào nguyên liệu Ví dụ, chuyển đổi dữ liệu có thể nhóm biến phân loại hạt như mã SIC vào nhóm tổng quát hơn, hoặc hồ sơ tổng hợp Dữ liệu biến đổi sử dụng hiệu quả hơn các thông tin nhúng trong dữ liệu thô Dữ liệu biến đổi có thể được thực hiện với sự hỗ trợ của chuyên gia tên miền Trong nghiên cứu trường hợp này, các chuyên gia đã chỉ ra một số miền SIC đang mua cho một sự lạm dụng vốn Thông thường, khai phá dữ liệu đòi hỏi phải có bản vẽ mẫu từ các bản ghi trong dữ liệu tham gia do các nguồn lực cường độ cao cần thiết trong việc đào tạo của các thuật toán khai phá dữ liệu Mẫu cần phải là đại diện của dân số để mô hình có một cơ hội để "nhìn thấy" kết hợp có thể có của các lĩnh vực 3.9.3 Mô hình chiến lược Trong nghiên cứu trường hợp này, không có trường mục tiêu tồn tại bởi vì tổ chức này đã không bao giờ phân tích dữ liệu thẻ mua trong tìm kiếm gian lận Do đó, các quyết định được thực hiện để sử dụng không có giám sát phương pháp học tập để phát hiện ra trong dữ liệu Học không giám sát sẽ được sử dụng để nhóm các dữ liệu vào bộ các trường hợp tương tự 59 Hình 12 hiển thị việc lựa chọn một phương pháp học không giám sát sử dụng SAS Enterprise Miner Một ví dụ về khoảng 13.000 tài khoản được tạo ra Phân đoạn phân tích cụm các dữ liệu mẫu vào bộ tương tự Hình 12: Lựa chọn các cụm theo Phương pháp học tập có giám sát Phương pháp học không giám sát được lựa chọn trong hình 12 thực hiện phân tích cụm phân chia trên cơ sở khoảng cách Euclide tính từ một hay nhiều biến số lượng và các loại hạt được tạo ra và cập nhật bởi một thuật toán phân cụm Về cơ bản các phương pháp phân nhóm thùng các dữ liệu thành các nhóm theo cách như vậy là để giảm thiểu sự khác biệt trong các nhóm đồng thời gian mà nó tối đa hóa sự khác biệt giữa các nhóm Tiêu chí cụm được sử dụng trong ví dụ này là Least squares thông thường (OLS), trong đó cụm là xây dựng sao cho tổng các khoảng cách bình phương của các quan sát với các phương tiện cụm được giảm thiểu 3.9.4 Đào tạo, xác thực, và kiểm tra các mô hình 60 Hình 13 hiển thị kết quả phân nhóm giả Những thánh giá lớn đại diện cho cụm trung tâm Các trường hợp được giao cho ba cụm (mỗi với một hình elip được rút ra về nó) Trong không gian đại diện, không có cách nào tốt hơn để chỉ định trường hợp các cụm để giảm thiểu khoảng cách từ mỗi điểm dữ liệu đến các trung tâm của mỗi cụm Tất nhiên, ví dụ này hiển thị một đại diện hai chiều đơn giản; phân tích nhóm thực hiện thói quen tối ưu hóa của nó trong m không gian chiều, nơi m là số lượng các trường hoặc các biến Do đó, nếu có 20 biến trong các hoạt động nhóm, không gian trong đó phân nhóm được thực hiện là Không gian 20 chiều Hình 13: Cụm Phân tích hiệu quả phân đoạn dữ liệu vào Nhóm các trường hợp tương tự Sự khác biệt giữa phân tích thăm dò và phát hiện mô hình trong mối quan tâm phân nhóm những gì tạo nên một kết quả như thế nào và kết quả sẽ được đưa vào sử 61 dụng Phân tích thăm dò có thể hài lòng để khám phá một số trường hợp thú vị trong dữ liệu Phát hiện mô hình sẽ tận dụng cụm hiện có và các mô hình chung gắn liền với những cụm chỉ định trường hợp các cụm mới Là kết quả của việc này khách quan hơn về phía trước, tìm kiếm, phân tích cụm trong mô hình phát hiện đòi hỏi mô hình cụm được thử nghiệm trước khi triển khai Kiểm tra này đảm bảo một kết quả đáng tin cậy, một trong đó có thể giúp đảm bảo rằng "phát hiện" cụm trong các dữ liệu tồn tại trong trường hợp tổng quát Trong nghiên cứu trường hợp này, phân tích cụm được sử dụng như một kỹ thuật phát hiện mô hình; do đó,kết quả mô hình cụm sẽ cần phải được kiểm tra được nó được áp dụng Một phần của quá trình đào tạo mô hình liên quan đến các thông số lựa chọn cho mô hình cụm Hình 14 cho thấy các thiết lập thông số cho mô hình cụm hiện hành Trong trường hợp này, bốn trung tâm cụm được lựa chọn Hình 14: Lựa chọn cụm mô hình tham số Các thiết lập mô hình trong hình 14 sẽ tạo ra một mô hình cụm với bốn trung tâm Các thuật toán sẽ cố gắng sắp xếp các dữ liệu xung quanh bốn cụm theo cách như vậy là để giảm thiểu sự khác biệt trong cụm cùng một lúc mà nó tối đa hóa sự khác biệt giữa các cụm 62 3.9.5 Kết quả phân tích Hình 15 hiển thị kết quả phân tích cụm sử dụng dữ liệu thẻ mua hàng Các thông số để phân tích cụm đã được thiết lập đến 40 cụm Chiều cao và màu sắc của mỗi chiếc bánh lát đại diện số trường hợp trong cluster Chiều rộng lát đề cập đến bán kính của vòng tròn đó chuyển đổi tất cả các điểm dữ liệu trong cụm được đo từ trung tâm của cụm Cụm 31 tổ chức số lượng lớn nhất các trường hợp tại 6334, trong khi các cụm 1,11, và 19 từng có trong quá 500 trường hợp Cụm 6 có 345 trường hợp Hình 15: Kết quả phân tích cụm Hình 16 hiển thị cụm số liệu thống kê Các chức danh đại diện cho cột phân loại công nghiệp tiêu chuẩn (SIC) Mã nơi mua đã diễn ra Số lượng trong mỗi tế bào tương ứng với tần số trung bình của mua hàng của chủ tài khoản trong tài khoản đó Trong 63 trường hợp này,cụm 6 (với 345 trường hợp) được đánh dấu như chủ tài khoản trong nhóm này kiếm được trung bình 6.51 thể thao và giải trí mua mỗi một Hình 16: Cụm Thống kê Nhìn vào các dữ liệu thô cho các trường hợp trong cụm 6, chúng tôi thấy rằng chủ tài khoản trong cụm đó cũng làm cho một số tiền cao cuối tuần và ngày lễ mua hàng, mua hàng và chi phí khách sạn Các tài khoản này có vấn đề như các mô hình trưng bày của họ thể hiện rõ sử dụng không đúng thẻ mua cho chi phí cá nhân và / hoặc không có cơ sở Như điều tra của cụm tiền, nó cũng là cần thiết để đảm bảo rằng đủ của một phân chia xảy ra giữa các cụm, mà sẽ chứng minh rằng sự khác biệt đủ tồn tại giữa cụm Cuối cùng, điều quan trọng là xác định sự liên quan của các cụm, mà là đạt được với sự trợ giúp của các chuyên gia tên miền Cá nhân có kiến thức về sử dụng thẻ mua có thể giúp chỉ ra những lô dữ liệu được triển vọng cho các câu hỏi kinh doanh Mô hình này sẽ vẫn cần phải được kiểm tra bằng cách sử dụng dữ liệu mới để đảm bảo rằng các cụm phát triển phù hợp với các mô hình hiện tại 64 3.9.6 Xây dựng từ có giám sát để học tập có giám sát Phát hiện mô hình cung cấp thêm thông tin về các hành vi gian lận hơn chỉ đơn giản là báo cáo trường hợp ngoại lệ và có thể chứng minh có giá trị trong tương lai để xây dựng một nền tảng kiến thức để dự đoán gian lận Ví dụ, phân tích cụm trong nghiên cứu trường hợp này mang lại kết quả thú vị Trong thực tế, một của cụm giữ lời hứa của phát hiện giao dịch gian lận, mà có thể yêu cầu điều tra thông qua kiểm toán tài khoản Các kết quả cuối cùng của cuộc điều tra nên được lưu trữ trong một cơ sở tri thức, có thể được sử dụng để xác nhận mô hình cụm Nên điều tra cho phán đoán của mô hình là sai lầm, phân tích cụm sẽ cần phải được xem xét lại Mô hình cụm thử nghiệm có thể tiếp tục được áp dụng cho dữ liệu mới, trường hợp sản xuất để điều tra Đổi lại, các kiến thức cơ bản sẽ tích lũy các trường hợp gian lận được biết đến 3.9.7 Kết luận cho trường hợp nghiên cứu Phân tích cụm mang lại kết quả đáng kể trong sự vắng mặt của một lĩnh vực mục tiêu Sử dụng một cách khôn ngoan, cụm phân tích có thể giúp một tổ chức quan tâm đến việc phát hiện gian lận xây dựng một cơ sở tri thức của gian lận Mục tiêu cuối cùng sẽ là việc tạo ra các mô hình học có giám sát như một mạng lưới thần kinh được tập trung vào việc phát hiện các giao dịch gian lận 65 3.10 Kết luận tổng thể Khai phá dữ liệu phát hiện ra mẫu ẩn trong dữ liệu để cung cấp kiến thức để giải quyết câu hỏi kinh doanh Ngay cả trong trường hợp không có các lĩnh vực mục tiêu, khai phá dữ liệu có thể hướng dẫn một tổ chức của hành động hướng tới giải quyết các câu hỏi kinh doanh của mình và xây dựng một cơ sở tri thức ngày càng tăng Các công cụ khai phá dữ liệu mạnh mẽ được tìm thấy trong phần mềm SAS Enterprise Miner làm cho nó dễ dàng cho tổ chức để trích xuất dữ liệu từ kiến thức để sử dụng trong việc giải quyết các câu hỏi kinh doanh cốt lõi Khi theo sau, các bước trong quá trình khai phá dữ liệu (định nghĩa vấn đề, thu thập dữ liệu và tăng cường; mô hình chiến lược; đào tạo và xác nhận mô hình; phân tích kết quả; mô hình lặp đi lặp lại; và thực hiện các kết quả) cung cấp kết quả mạnh mẽ cho các tổ chức 66 67 Tiểu sử I Philip Matkovsky Tổng công ty dữ liệu liên bang 4800 Hampden Lane Bethesda, MD 20814 301.961.7024 pmatkovsky@feddata.com Là nhà quản lý hoạt động cho phân tích hệ thống Tập đoàn dữ liệu liên bang, Philip Matkovsky cung cấp lãnh đạo kỹ thuật và hướng dẫn khai phá dữ liệu, phân tích định lượng, và cam kết tư vấn quản lý cho cả công chúng và khách hàng khu vực tư nhân Philip có Cử nhân Khoa học Chính trị tại Đại học Pennsylvania, bằng Thạc sĩ Khoa học Chính trị /Chính sách công tại Đại học Mỹ và hiện đang hoàn tất nghiên cứu tiến sĩ của mình trong Chính sách công tại Đại học Mỹ Philip đã áp dụng thành công nhiều phân tích / phương pháp nghiên cứu (bao gồm cả nghiên cứu khảo sát, trò chơi mô hình lý thuyết, mô hình định lượng, và khai phá dữ liệu) cho các khách hàng khu vực công và tư nhân II.Kristin Rahn Nauta SAS Institute, Inc SAS Campus Drive Cary, NC 27513 919.677.8000 x4346 saskrl@wnt.sas.com 68 Là một cổ phần của Trung tâm Công nghệ liên bang tại SAS Institute Inc, Kristin Rahn Nauta là quản lý chương trình liên bang cho khai phá dữ liệu Trước đây là chương trình khai phá dữ liệu của Viện SAS quản lý đối với Canada và các sản phẩm phân tích giám đốc tiếp thị của Mỹ, Kristin có bằng cử nhân toán học tại Đại học Clemson và thạc sĩ kê từ Bắc Đại học bang Carolina Kristin đã tư vấn trong nhiều lĩnh vực bao gồm dược phẩm nghiên cứu và thiết kế thuốc, gửi NDA dược phẩm, cơ sở dữ liệu tiếp thị và hải quản lý quan hệ Tomer 69 ... RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS? ?Enterprise Miner? ??” 3.1 Tóm tắt Khai phá liệu kết hợp kỹ thuật phân tích liệu với công nghệ cao cấp để sử dụng q trình Mục tiêu khai phá liệu để phát... giải cách sử dụng nhiều kỹ thuật khai phá liệu liệt kê bảng Lựa chọn kỹ thuật khai phá liệu để triển khai vấn đề kinh doanh phụ thuộc vào mục tiêu kinh doanh liệu liên quan Hiếm nỗ lực khai phá. .. hỗ trợ khai phá liệu • Đặc tả giao diện SQL cho ứng dụng dịch vụ khai phá liệu từ sở liệu quan hệ Khai phá liệu lý thuyết thống kê Khai phá liệu học máy “Natural groupings” Khai phá liệu