dự đoán mức lương khởi điểm được input đầu vào là dữ liệu về các quảng cáo văn bản phi cấu trúc và được demo bằng WEKA. Hướng tiếp cận sẽ đi từ việc phân tích các đặc trưng liên quan đến quản lý cho vay, tới lựa chọn thuật toán để giải quyết bài toán, rồi đến việc xây dựng tập huấn luyện và tập kiểm thử. Và cuối cùng là demo bằng WEKA.
MACHINE LEARNING FINAL PROJECT JOB SALARY PREDICTION (DỰ ĐOÁN LƯƠNG) TÓM TẮT Phần mềm đưa dự đoán mức lương khởi điểm input đầu vào liệu quảng cáo văn phi cấu trúc demo WEKA Hướng tiếp cận từ việc phân tích đặc trưng liên quan đến quản lý cho vay, tới lựa chọn thuật toán để giải toán, đến việc xây dựng tập huấn luyện tập kiểm thử Và cuối demo WEKA 1 MÔ TẢ NGHIỆP VỤ 1.1 Giới thiệu Thông thường quảng cáo việc làm đăng mạng, người lao động không ý việc đề cập đến mức lương Để cá nhân tìm kiếm công việc, điều đặt tình khó xử, làm họ có nguy lãng phí thời gian quý báu điều tra công việc trả lương thấp, bỏ qua quảng cáo tuyệt vời nguy bỏ qua hội tuyệt vời Nhiệm vụ thực từ thi Kaggle Với quảng cáo cho việc cần người làm, mục tiêu để dự đoán mức lương khởi điểm cho công việc đăng Phần lớn liệu quảng cáo văn phi cấu trúc, số cấu trúc liệu cho tốt Một mối quan hệ địa lý địa điểm công việc cung cấp Nhiệm vụ tương tự ví dụ chạy giảng dự đoán mức lương khởi điểm, có tính hữu dụng giới thực để công ty thông báo vấn đề MÔ TẢ YÊU CẦU PHẦN MỀM Tập liệu bao gồm nhiều hàng biểu diễn quảng cáo công việc riêng, loạt trường quảng cáo công việc Có trường sau: • Id - Một định danh cho quảng cáo việc làm • Title - Một trường cung cấp cho nhà quảng cáo công việc tiêu đề quảng cáo công việc Thông thường, tóm tắt tiêu đề công việc vai trò • FullDescription - Các nội dung đầy đủ quảng cáo công việc cung cấp nhà quảng cáo công việc Khi bạn thấy *** s, tách giá trị từ mô tả để bảo đảm thông tin lương không xuất mô tả Có thể có số tổn thất phụ đây, nơi loại bỏ liệu số khác • LocationRaw - Vị trí cung cấp nhà quảng cáo công việc • LocationNormalized - vị trí Adzuna từ bên location tree riêng chúng tôi, giải thích chúng dựa vị trí nguyên Tiêu chuẩn hoàn hảo ! • ContractType - full time part time, giải thích Adzuna từ mô tả trường bổ sung cụ thể, nhận từ nhà quảng cáo • ContractTime - cố định hợp đồng, giải thích Adzuna từ mô tả trường bổ sung cụ thể, nhận từ nhà quảng cáo • Company - tên nhà tuyển dụng cung cấp cho nhà quảng cáo công việc • Category - có 30 tiêu chuẩn loại công việc quảng cáo đặt vào, suy luận theo cách lộn xộn dựa nguồn quảng cáo đến từ đâu Chúng biết có nhiều nhiễu sai trường • SalaryRaw – trường lương nhận quảng cáo việc làm từ nhà quảng cáo • SalaryNormalised - mức lương hàng năm giải thích Adzuna từ tiền lương Lưu ý luôn giá trị dựa điểm phạm vi lương Đây giá trị, cố gắng để dự đoán • SourceName - tên trang web quảng cáo từ người mà nhận quảng cáo công việc PHẦN MỀM WEKA 3.1 Giới thiệu tổng quan phần mền weka Weka phần mềm viết ngôn ngữ JAVA Witten Frank xây dựng Weka bao gồm phương pháp học máy phục vụ cho mục tiêu sau: o Tiền xử lý liệu, phương pháp học máy phương pháp đánh giá mô hình o Sử dụng đồ họa để biểu diễn liệu o Là môi trường dùng để so sánh thuật toán học Giao diện Giao diện Weka Hình Giao diện Explorer Explorer Các chức chính: + Preprocess(tiền xữ lý liệu): Chọn thay đổi liệu + Phân lớp hồi quy (Classification or regression): Học kiểm tra mô hình cho toán phân lớp toán dự đoán + Phân cụm (Cluster) Học cụm từ liệu + Luật kết hợp (Associate): Học luật kết hợp từ liệu + Lựa chọn thuộc tính (Select attributes): Lựa chọn thuộc tính “hữu ích” để biểu diễn liệu + Trực quan hóa (Visualize) Hiển thị biểu đồ 2D Đưa liệu vào Trong tab Preprocess có: - Nút Open file mỡ file có sẵn máy - Nút Open URL mỡ file từ máy khác - Nút Open DB đọc liệu từ sở liệu - Nút Generate phần mềm tự tạo liệu cho bạn theo lữa chọn bạn - Sử dụng nút Open file đọc tập in nhiều định dạng khác nhau: định dạng ARFF, CSV, C4.5 GIẢI THUẬT LINEAR REGRESSION 4.1 Giới thiệu giải thuật Hồi quy tuyến tính (Linear regression) hồi quy có tính chất tuyến tính Tính chất tuyến tính (linear) mang ý nghĩa giá trị x tác động (ảnh hưởng) y Hồi quy tuyến tính đơn (simple liner regression) có biến độc lập x (independent variable, gọi exploratory variable) liên quan cách tuyến tính với biến phụ thuộc y (dependent variable, gọi response variable), theo phương trình sau: y = β0 + β1x + ε Hồi quy tuyến tính đa biến (multiple linear regression) biến phụ thuộc y liên quan cách tuyến tính với nhiều biến độc lập xi , theo phương trình sau: y = β0 + β1x1 + βnxn + ε 4.2 Tuyến tính hồi quy bình phương tối tiểu - Linear least squares regression Khi phân tích hồi quy, mục đích tìm phương trình hồi quy mẫu thông qua ước lượng hệ số β1, β2 Dựa vào liệu mẫu ta thu ước lượng tương ứng β , β0 Nhưng β , β0 ước lượng điểm β1, β2 Vì ta chưa biết chất lượng ước lượng Ta cần đưa số giả thiết phương trình bình phương tối thiểu để thu tốt cho β1, β2 Từ thu giá trị Y i ước lượng tốt cho E(Y |Xi) Thủ tục ước lượng dùng phổ biến phương pháp bình phương tối tiểu Tiêu chuẩn tối ưu sử dụng phương pháp bình phương tối tiểu cực tiểu hóa hàm mục tiêu Phương pháp bình phương nhỏ phương pháp đưa nhà toán học Đức Carl Friedrich Gauss, phương pháp mạnh nhiều người sử dụng, thường ký hiệu OLS (ordinary least squares) Tư tưởng phương pháp cực tiểu tổng bình phương phần dư Do nói để có đường hồi quy thích hợp nhất, chọn ước lượng tung độ gốc độ dốc cho phần dư nhỏ Ta đặt: Yi : Ký hiệu giá trị thực biến y quan sát i Y i : Ký hiệu hàm hồi quy mẫu ei : ký hiệu phần dư Yi − Y i Do cực tiểu hóa P(Yi − Y i ) tương dduong với cực tiểu Pe i từ tìm β1, β2 Chất lượng ước lượng phụ thuộc phụ thuộc vào yếu tố sau: - Dạng hàm mô hình chọn - Phụ thuộc vào Xi Ui - Phụ thuộc vào cỡ mẫu Ta có giả thuyết Xi Ui để ước lượng thu không chệch có phương sai nhỏ Giả thiết 1: Biến giải thích X có giá trị quan sát Xi khác với giá trị lại, tức biến giải thích Xi phải khác Giả thiết 2: Giá trị trung bình sai số mang dấu âm dương giá trị quan sát mặt trung bình Giả thiết 3: Các giá trị X cho trước không ngẫu nhiên, tức Xi cho trước biến ngẫu nhiên Điều nghĩa Xi Ui không tường quan với Tức có nghĩa biến giải thích Xi thay đổi lớn hay nhỏ yếu tố sai số e không thay đổi CoV (Xi , Ui) = E(Xi , Ui) − E(Xi).E(Ui) = XiE(Ui) − XiE(Ui) = Đây giả thiết quan trọng X U có tương quan X thay đổi, U thay đổi theo Vì giá trị kỳ vọng Y khác β1 + β2X Giả thiết 4: Phương sai sai số không đổi: Tất giá trị u phân phối giống với phương sai σ cho V ar(ui) = E(u i ) = σ Điều gọi phương sai số không đổi V ar(Ui) = V ar(Uj ) = σ (Vi 6= j) Với giả thiết trên, ta có tính chất ước lượng theo phương pháp bình phương tối thiểu sau: Định lý Gauss-Markov: Định lý cho khẳng định ước lượng β , β0 β1, β2 có phương pháp bình phương tối thiểu ước lượng không chệch có phương sai tối thiểu ước lượng không chệch β1, β2 4.3 Sequential learning Kỹ thuật hàng loạt, liên qua đến việc xử lý toàn liệu lần đi, nên cần độ tính xác cao, tốn cho tập liệu lớn Như ta biết, tập liệu đủ lớn, đáng giá để sử dụng thuật toán tuần tự, gọi thuật toán đường (on-line), điểm liệu coi điểm thời gian định, thống số mô hình cập nhật sau xử lý xong thuật toán Sequential learning thích hợp cho ứng dụng thời gian thực, liệu đến dòng liên tục, dự đoán phải thực trước tất điểm liệu nhìn thấy Chúng có thuật toán học cách áp dụng kỹ thuật stochastic gradient descent, gọi sequetial gradient descent Nếu hàm lỗi bao gồm tổng tất điểm liệu E = P n En, sau biểu diễn mô hình n, thuật toán stochastic gradient descent cập nhật tham số w sử dụng: t số lần lặp, η tham sô tỷ lể học Chúng ta thảo luận lựa chọn giá trị cho η Giá trị w khơi tạo số khởi đầu vector w(0) HỒI QUY LUẬN LÝ - LOGISTICS REGRESSION 5.1 Giới thiệu: Mục tiêu hồi quy luận lý (Logistic Regression) nghiên cứu mối tương quan (hay nhiều) yếu tố nguy (risk factor) đối tượng phân tích (outcomt) Chẳng hạn nghiên cưu mối tương quan thói quyen hút thuốc nguy mắc ung thư phổi yếu tố nguy thói quen hút thuốc đối tượng phân tích là nguy mắc ung thư phổi Trong hồi qui luận lý đối tượng nghiên cứu thường thể qua biến số nhị phân (binary) xảy ra/không xảy ra; chết/sống; có/không; Còn yếu tố nguy thể qua biến số liên tục (tuổi, huyết áp, ) biến nhị phân (giới tính) hay biến thứ bậc (thu nhập: cao, trung bình, thấp) Vấn đề đặt cho nghiên cứu dạng để ước tính độ tương quan yếu tố nguy đối tượng phân tích Các phương pháp phân tích hồi quy tuyến tính không áp dụng biến phụ thuộc biến liên tục mà biến nhị phân Nhà thống kê học David R Cox phát triển mô hình có tên Logistic Regression Model (1970s) để phân tích biến nhị phân Ví dụ: bảng liệu thu nhập để nghiên cứu mối tương quan tình trạng phơi nhiễm chất độc gia cam (Agent Orange - AO) ung thư tuyến tiền liệt Số liệu bảng cho thấy 23.4% (11/36) người bị ung thư tuyến tiền liệt bị phơi nhiễm AO Tỷ lệ nhóm đối chứng 11.8% (17/144) vấn đề đặt có tương quan tình trạng phơi nhiễm AO ung thu tuyến tiền liệt hay không? Nghiên cứu cần trả lời vấn đề sau: - Nguy mắc bệnh ung thư tuyến tiền liệt người bị phơi nhiễm AO so với nguy người không bị phơi nhiễm bao nhiêu? - Sự khác biệt nguy ung thư tuyến tiền liệt nhóm phơi nhiễm không phơi nhiễm AO có ý nghĩa thống kê không? (hay ngẫu nhiên) Mô hình hồi quy luận lý trả lời câu hỏi Số tỷ số nguy (Odds radio - OR) Chỉ số thống kê quan trọng hồi qui Logistics tỷ số nguy (Odds Ratio – OR) Trong tiếng anh odd có nghĩa nguy hay khả Nói cách khác odd tỷ số giá trị biến nhị phân Do đó, OR tỷ số hai odds Trong bảng liệu trên, ta có: odd mắc ung thu nhóm phơi nhiễm AO 11/17 = 0.647 odd mắc ung thư nhóm không bị phơi nhiễm AO 36/127 = 0.283 Và Odds Ratio (OR) mắc ung thư nhóm bị phơi nhiễm AO so với nhóm không bị phơi nhiễm 0.647/0.283= 2.28 Thực tính OR đơn giản = (11X127)/(36X17) = 2.28 ) OR = 2.28 cho biết nguy mắc ung thư tuyến tiền liệt người phơi nhiễm AO cao gấp 2.8 lần người không bị phơi nhiễm AO Chú ý kết phân tích dựa mẫu nhất, ước tính OR dao động từ mẫu sang mẫu khác Giá trị OR có ước tính OR thật (real OR) ta OR thật dao động từ thấp đến cao Nếu OR thật thấp 1, điều có nghĩa nguy mắc ung thư người bị phơi nhiễm AO thấp người không bị phơi nhiễm Nếu OR thật lớn điều có nghĩa nguy mắc ung thư người bị phơi nhiễm AO cao người không bị phơi nhiễm Nếu OR = có nghĩa mối liên hệ phơi nhiễm AO ung thư tuyến tiền liệt Trong thực tế, ta OR thật nên vấn đề quan trọng phải trả lời câu hỏi mối tương quan phản ánh qua OR có ý nghĩa thống kê hay không? Nói cách khác nghiên cứu lặp lại nhiều lần độ dao động OR bao nhiêu? Giả sử ta thực nghiên cứu 100 lần, có 95 lần OR dao động từ 1.1 đến 3.8, lần OR nhỏ 1.1 cao 3.8 có chứng để phát biểu mối quan hệ phơi nhiễm AO ung thư tuyến tiền liệt có ý nghĩa thống kê (không phải ngẫu nhiên) với độ tin 95%˙ Nói cách khác, cần tính sai số chuẩn (Standard Error – SE) cho OR với khoảng tin cậy 95%Vì OR tỷ số nên tính SE cho OR cách trực tiếp mà phải thông qua phương ˙ pháp gián tiếp Một phương pháp gián tiếp phương pháp Woolf sau: - Trước tiên hoán chuyển OR sang logarit (natural logarithm - ln) logOR = log(OR) = log(2.28)=ln(2.28) = 0.824 - Bước : Tính sai số chuẩn logOR sau: - Bước 3: Theo luật phân phối chuẩn, khoảng tin cậy 95% logOR là: logOR ± 1.96XSE Trong ví dụ trên, khoảng tin 95% logOR 0.824 − 1.96X0.430 = −0.0188 0.824 + 1.96X0.430 = +1.6681 - Bước 4: Vì khoảng tin cậy vừa tính log, nên ta chuyển khoảng tin cậy 95% đơn vị tỉ số lúc đầu: logOR từ -0.0188 đến 1.668 nên ta có khoảng tin cậy 95% OR nằm khoảng từ e −0.0188 = 0.98Øne1.6681 = 5.30 Kết phân tích ta thấy trung bình OR 2.28 khoảng tin cậy 95% OR dao động từ 0.98 đến 5.30 Nói cách khác, nghiên cứu lặp lại 100 lần có 95 nghiên cứu cho thấy OR thấp (0.98) hay cao (thậm chí cao đến 5.3) Do ta kết luận: Bởi khoảng tin cậy 95% OR thấp mà cao nên ta kết luận mối liên hệ tình trạng phơi nhiễm AO ung thư tuyến tiền liệt ý nghĩa thống kê 5.2 Mô hình hồi qui Logistics Từ ví dụ minh họa trên, ta xây dựng công thức chung mô hình hồi qui logistic sau : Gọi p xác suất kiện (chẳn hạn ví dụ kiện mắc ung thư tuyến tiền liệt) Khi odd định nghĩa sau : odd = p /(1−p) Gọi yếu tố nguy x (trong ví dụ x tình trạng phơi nhiễm AO, x có giá trị x =0 : không phơi nhiễm AO x=1 : phơi nhiễm AO) Mô hình hồi qui logistic phát biểu log(odd) phụ thuộc vào giá trị x qua hàm số tuyến tính sau : log(odd) = α + βx +ε hay log p/ (1−p) = α + βx+ε(1) Trong đó, log(odd) hay log p/( 1−p) gọi logit(p) (và có tên logistic) α β tham số ước tính từ liệu, ε phần dư (residual) tức phần không giải thích x Lý chuyển p thành logit(p) p xác suất có giá trị khoảng 0,1 logit(p) có giá trị không giới hạn thích hợp cho việc phân tích theo mô hình hồi quy tuyến tính Mô hình giả định ε tuân theo luật phân phối chuẩn (normal distribution) với trung bình phương sai không đổi Với giả định giá trị kỳ vọng (expected value) hay giá trị trung bình log p 1−p với giá trị x log p 1−p =α+β giá trị trung bình ε = Nói cách khác, odd bị ung thư từ phương trình (1) odd = p 1−p = e α+β (2) Như vậy, mô hình hồi qui logistic phát biểu odd kiện (ung thư tuyến tiền liệt) tùy thuộc vào yếu tố nguy x (tình trạng phơi nhiệm AO) Dựa vào phương trình (2) odd mắc ung thư nhóm không bị phơi nhiễm AO (x=0) odd0 = e α odd mắc ung thư nhóm bị phơi nhiễm tỷ số nguy OR = odd1 odd0 = e α+β eα = e β AO (x=1) odd1 = e α+β Như vậy, mô hình hồi qui logistic phát biểu odd kiện (ung thư tuyến tiền liệt) tùy thuộc vào yếu tố nguy x (tình trạng phơi nhiệm AO) Dựa vào phương trình (2) odd mắc ung thư nhóm không bị phơi nhiễm AO (x=0) odd0 = e α odd mắc ung thư nhóm bị phơi nhiễm AO (x=1) odd1 = e α+β tỷ số nguy OR = odd1 odd0 = e α+β eα = e β Như vậy, tỷ số nguy OR phản ánh nguy (odd) bị ung thư nhóm bị phơi nhiễm AO so với nguy nhóm không bị phơi nhiễm AO ví dụ OR = e 0.824 = 2.28 Có nghĩa nguy mắc ung thư tuyến tiền liệt người phơi nhiễm AO cao hgaaps 2.8 lần người không bị phơi nhiễm AO 5.3 Dự đoán với logistic regression Mô hình hồi qui logistic tổng quát với k yếu tố nguy x1,x2, xk mô tả phương trình sau (CT3): Trong đó, z định nghĩa sau: z = α + β1x1 + β2x2 + + βkxk Trong đó: α: hệ số chặn (intercept) Giá trị z tất biến độc lập β1, β2, βk: hệ số hồi qui (regression cofficients) yếu tố nguy x1, x2 xk Hệ số hồi qui cho biết độ mạnh chiều ảnh hưởng yếu tố nguy đến xác suất xảy kiện nghiên cứu Nếu hệ số hồ qui dương yếu tố nguy làm tăng khả (xác suất) xảy kiện nghiên cứu ngược lại Đồ thị hồi qui logistic có trục hoành giá trị z trục tung giá trị f(z) (xác suất xảy kiện) z nhận giá trị âm dương f(z) nhận giá trị khoảng z dùng để mô tả ảnh hưởng tất biến độc lập (yếu tố nguy – risk factor) đến đối tượng nghiên cứu (outcome) f(z) xác suất kiện xảy [...]... từng bị phơi nhiễm AO trong ví dụ này là OR = e 0.824 = 2.28 Có nghĩa là nguy cơ mắc ung thư tuyến tiền liệt của những người phơi nhiễm AO cao hơn hgaaps 2.8 lần những người không bị phơi nhiễm AO 5.3 Dự đoán với logistic regression Mô hình hồi qui logistic tổng quát với k yếu tố nguy cơ x1,x2, xk được mô tả bởi phương trình sau (CT3): Trong đó, z được định nghĩa như sau: z = α + β1x1 + β2x2 + + βkxk ... nguồn quảng cáo đến từ đâu Chúng biết có nhiều nhiễu sai trường • SalaryRaw – trường lương nhận quảng cáo việc làm từ nhà quảng cáo • SalaryNormalised - mức lương hàng năm giải thích Adzuna từ tiền... thống số mô hình cập nhật sau xử lý xong thuật toán Sequential learning thích hợp cho ứng dụng thời gian thực, liệu đến dòng liên tục, dự đoán phải thực trước tất điểm liệu nhìn thấy Chúng có thuật... hội tuyệt vời Nhiệm vụ thực từ thi Kaggle Với quảng cáo cho việc cần người làm, mục tiêu để dự đoán mức lương khởi điểm cho công việc đăng Phần lớn liệu quảng cáo văn phi cấu trúc, số cấu trúc