Bài viết này sẽ hệ thống lại một cách khoa học các kiến thức về mô hình hồi quy LASSO và ứng dụng LASSO trong phân tích dữ liệu ung thư vú. Kết quả cho thấy, LASSO hoạt động tương đối tốt trong phân tích mức độ biểu hiện gen và chỉ ra được những gen có liên quan tới gen gây ung thư vú BRC1 là các gen NBR2, AASDH, KIAA2013, VPS25, NBR1, SEC22C, RPL27, CBLN3, KHDRBS1, XRCC2.
TNU Journal of Science and Technology 227(08): 433 - 440 LASSO REGRESSION AND AN APPLICATION IN BREAST CANCER DATA ANALYSIS Nong Quynh Van*, Tran Dinh Hung TNU - University of Education ARTICLE INFO Received: 25/4/2022 Revised: 30/5/2022 Published: 31/5/2022 KEYWORDS Regression Ordinary least square LASSO L1 regularization Penalized regression Breast cancer ABSTRACT The LASSO is one of the regularized regression methods proposed by Tibshirani in 1996 The goal of LASSO is to select and estimate parameters in a linear regression model by exactly shrinking some coefficients to zero In particular, the LASSO is useful in analyzing microarray gen data in which the number of predictors (genes) is much larger than the number of sample observations (number of patients) In this paper, we introduce a brief summary of the LASSO and apply this method to study gene in breast cancer data The aim was to assess the genes interactions associated with breast cancer microarray data The results show that the LASSO method performs relatively well in analyzing gene expression levels and indicates genes that related to the breast cancer gene BRCA1 such as genes NBR2, AASDH, KIAA2013, VPS25, NBR1, SEC22C, RPL27, CBLN3, KHDRBS1, XRCC2 In fact, the NBR2 gene is adjacent to BRCA1 on chromosome 17, and two genes share the same promoter region Thus, breast cancer prognosis determined by regression will help us to better understand the mechanism underlying the occurrence of breast cancer of young women HỒI QUY LASSO VÀ ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU UNG THƯ VÚ Nơng Quỳnh Vân*, Trần Đình Hùng Trường Đại học Sư phạm - ĐH Thái Nguyên THÔNG TIN BÀI BÁO Ngày nhận bài: 25/4/2022 Ngày hoàn thiện: 30/5/2022 Ngày đăng: 31/5/2022 TỪ KHĨA Hồi quy Bình phương tối thiểu LASSO Chính quy hóa L1 Hồi quy phạt Ung thư vú TÓM TẮT Hồi quy LASSO phương pháp hồi quy phạt đề xuất Tibshirani vào năm 1996 Mục tiêu LASSO lựa chọn ước lượng tham số mơ hình hồi quy tuyến tính cách hiệu chỉnh số hệ số Đặc biệt, LASSO hữu ích việc phân tích liệu gen, số lượng yếu tố dự báo (gen) lớn nhiều so với số lượng quan sát mẫu (số bệnh nhân) Trong báo này, hệ thống lại kiến thức hồi quy LASSO áp dụng phương pháp LASSO cho nghiên cứu gen bệnh nhân ung thư vú Mục tiêu xác định gen ảnh hưởng đến mức độ nghiêm trọng ung thư vú theo liệu microarray Kết cho thấy, LASSO hoạt động tương đối tốt phân tích mức độ biểu gen gen có liên quan tới gen gây ung thư vú BRC1 gen NBR2, AASDH, KIAA2013, VPS25, NBR1, SEC22C, RPL27, CBLN3, KHDRBS1, XRCC2 Trên thực tế, gen NBR2 tiếp giáp với BRCA1 nhiễm sắc thể 17 hai gen có chung vùng gen khởi động Như vậy, tiên lượng ung thư vú xác định hồi quy giúp hiểu rõ chế tiềm ẩn xuất ung thư vú phụ nữ trẻ DOI: https://doi.org/10.34238/tnu-jst.5901 * Corresponding author Email: vannq@tnue.edu.vn http://jst.tnu.edu.vn 433 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 433 - 440 Giới thiệu Các phương pháp phân tích liệu Khoa học thống kê giúp mô tả khám phá mối liên quan bí ẩn tập liệu Phân tích hồi quy tuyến tính có lẽ phương pháp phân tích liệu thơng dụng giúp có nhiều phát quan trọng khám phá gen, đánh giá hiệu thuốc, xây dựng mơ hình dự báo Kỹ thuật cổ điển nối tiếng để xây dựng mơ hình hồi quy tuyến tính phương pháp bình phương bé Carl F Gauss phát triển vào kỷ 18 Tuy nhiên, ước lượng tham số tìm từ phương pháp bình phương bé thường có độ chệch lớn phương sai nhỏ Điều ảnh hưởng tới độ xác kết dự đốn từ mơ hình hồi quy Đồng thời trường hợp số quan sát nhỏ số biến việc áp dụng phương pháp bình phương bé khơng khả thi tích ma trận quan sát khơng khả nghịch Từ phương pháp hiệu chỉnh (hay phương pháp phạt) đề xuất, xem [1]-[8] Một phương pháp hiệu chỉnh phổ biến tiếng phương pháp LASSO (viết tắt Least absolute and selection operator, hiệu chỉnh trị tuyệt đối bé lựa chọn biến) [9] LASSO đề xuất vào năm 1996 Robert Tibshirani, nhà thống kê Đại học Stanford Như tên gọi mình, LASSO khắc phục nhược điểm phương pháp bình phương bé đồng thời thực "lựa chọn biến" mơ hình Đó là, "hiệu chỉnh" số hệ số ước lượng biến dự báo biến quan trọng mơ hình Với ưu điểm vậy, hồi quy LASSO ứng dụng rộng rãi lĩnh vực y học, kinh tế, công nghiệp, nông nghiệp nghiên cứu khoa học liên ngành [10] Bài báo hệ thống lại cách khoa học kiến thức mơ hình hồi quy LASSO ứng dụng LASSO phân tích liệu ung thư vú Hồi quy LASSO LASSO "hiệu chỉnh trị tuyệt đối bé lựa chọn biến" phương pháp để ước lượng tham số mơ hình hồi quy tuyến tính đề xuất Tibshirani vào năm 1996 Mục tiêu LASSO cực tiểu tổng bình phương sai số với ràng buộc tổng trị tuyệt đối tham số ước lượng mơ hình nhỏ số 2.1 Định nghĩa Trong mơ hình hồi quy tuyến tính đa biến, ảnh hưởng biến dự báo lên biến tiên lượng mơ hình hóa phương trình sau: p yi = + j xij + i (1) j =1 Trong đó, 1 , , , n biến ngẫu nhiên độc lập, phân phối xác suất với kỳ vọng phương sai số, yi (i = 1, , n) n giá trị biến tiên lượng, xij ( j = 1, , p) p biến dự báo , 1 , , p hệ số (hay tham số) mơ hình hồi quy Bằng cách bỏ qua hệ số chặn , hệ số hồi quy LASSO định nghĩa nghiệm tốn tối ưu có ràng buộc sau: p n ˆ LASSO = arg yi − j xij i =1 j =1 p với ràng buộc | j =1 j (2) |t Trong đó, t gọi tham số hiệu chỉnh mơ hình LASSO Tham số đóng vai trị quan trọng mơ hình, định số hệ số hồi quy ước lượng Bài tốn tối ưu ràng buộc (2) viết dạng hàm phạt sau: http://jst.tnu.edu.vn 434 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 433 - 440 p p n LASSO ˆ = arg yi − j xij + | j | (3) i =1 j =1 j =1 viết dạng ma trận ˆ LASSO = arg Y − X + (4) với tham số Lagrangian có ảnh hưởng tới việc lựa chọn biến mơ hình hồi quy LASSO Như vậy, toán (2) (3) tương đương nhau, theo nghĩa, với giá trị cho trước tồn tham số hiệu chỉnh t cho hai tốn (2), (3) có tập nghiệm Nếu = tốn (3) trở thành tốn tìm hệ số hồi quy tuyến tính đa biến thơng thường (phương pháp bình phương tối thiểu) Mối quan hệ t mối quan hệ nghịch chiều Nếu t tiến tới vơ tiệm cận tới Ngược lại, t tiến tới tiến tới vơ lớn ˆ LASSO nhỏ, nghĩa nhiều hệ số hồi quy LASSO 2.2 Ý nghĩa hình học LASSO Với tính chất hàm trị tuyệt đối ràng buộc (2), hồi quy LASSO thực lựa chọn biến, theo nghĩa hệ số hồi quy ước lượng biến loại xác Để hình dung rõ tính chất LASSO, ta minh họa LASSO khơng gian chiều (chỉ có biến giải thích) Hình thể ý nghĩa hình học LASSO với p = = ( 1 , )T Trong đó, ước lượng bình phương tối thiểu hệ số hồi quy Các đường cong ellip minh họa cho đồ thị hàm tổng bình phương sai số (2) miền ràng buộc | 1 | + | | t thể hình vng xoay có tâm gốc tọa độ Khi nghiệm LASSO điểm tiếp xúc đường cong ellip với hình vng Quan sát hình ta thấy, điểm tiếp xúc đỉnh hình vng, tức hệ số hồi quy Trong trường hợp này, với t = ta có nghiệm LASSO 1 = = Như vậy, thông qua hồi quy LASSO ta loại biến thứ (ứng với hệ số hồi quy 0) khỏi mô hình Hình Minh họa LASSO khơng gian chiều 2.3 Các thuật tốn tìm nghiệm LASSO Khơng giống trường hợp hồi quy tuyến tính đa biến thơng thường, nghiệm LASSO hay ước lượng hệ số hồi quy LASSO khơng có cơng thức dạng tường minh Vì vậy, Tibshirani nhà nghiên cứu khoa học đề xuất số thuật toán vận dụng máy tính để tìm nghiệm LASSO Tibshirani xác định cơng thức LASSO với ràng buộc (2) thiết lập tốn tìm cực tiểu hàm mục tiêu dạng toàn phương với ràng buộc xác định tập http://jst.tnu.edu.vn 435 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 433 - 440 lồi Khi nghiệm tốn nghiệm tối ưu toàn cục Đồng thời Tibshirani nghiệm LASSO X ma trận trực giao XTX có hạng đầy đủ Kể từ phương pháp tìm nghiệm LASSO Tibshirani đề xuất, nhiều phương pháp phức tạp phát triển để giải tốn tìm cực trị với nhiều ràng buộc Đáng ý số bao gồm cơng trình Osborne cộng [8] cho phương pháp tuyến tính hóa địa phương, Efron cộng [1] giới thiệu hồi quy góc nhỏ (LARS) - kỹ thuật giải LASSO tốn tìm cực trị khác hiệu Những kỹ thuật có đặc tính hội tụ nhanh sử dụng số lượng tham số vượt số lượng quan sát Tuy nhiên tính phức tạp chúng, kỹ thuật không mô tả chi tiết Đối với dạng hàm phạt, cách hữu hiệu để tìm nghiệm phương trình (3) sử dụng phương pháp lặp Newton-Raphson Nelder-Mead Tuy nhiên, phương pháp chứng minh có độ phức tạp tính tốn lớn Tibshirani có gợi ý phương pháp liên quan đến hồi quy Ridge để tìm nghiệm LASSO, khơng mơ tả cụ thể báo ơng cho phương pháp khơng hiệu Một phương pháp với ý tưởng tương tự sau đề xuất Fan Li [2] mô tả hiệu kết hợp với thuật tốn NewtonRaphson Phương pháp sử dụng xấp xỉ sau: j j2 (5) j Thay giá trị gần vào công thức hàm phạt LASSO (3) thu biểu thức sau: new = ( X T X + .diag (| |)−1 )−1 X Y T (6) Sử dụng new biểu thức (6) sau vịng lặp ta tìm hệ số hồi quy ước lượng tốt diag (| |) −1 ma trận nghịch đảo tổng quát ma trận với phần tử đường chéo thành phần vectơ Việc đưa ma trận nghịch đảo tổng quát vào vòng lặp cần thiết để loại bỏ j gần khỏi mơ hình tránh ổn định thuật toán 2.4 Lựa chọn tham số hiệu chỉnh Tùy thuộc vào công thức sử dụng, xác định giá trị cụ thể t cần thiết để tính tốn nghiệm LASSO Như vậy, với tham số t khác nhau, ta lại có nghiệm hệ số hồi quy LASSO khác Thơng thường, muốn chọn tham số hiệu chỉnh cho thu mơ hình hồi quy tối ưu, tức mơ hình có trung bình bình phương sai số (MSE) bé Tibshirani đề xuất hai phương pháp để lựa chọn mơ hình, kiểm định chéo k mức (CV) kiểm định chéo tổng quát (GCV) Trong phương pháp CV, tập liệu đầy đủ L chia ngẫu nhiên thành k tập có kích thước Với k mẫu con, s mẫu chọn làm tập kiểm định, ký hiệu Ls, k-s mẫu cịn lại sử dụng để ước lượng mơ hình gọi tập huấn luyện, ký hiệu L- Ls, s = 1, , k Ước lượng kiểm định chéo sai số dự đoán định nghĩa sau: k CV (t ) = s =1 ( yi , xi )Ls k ( yi − yi ) = s =1 ( yi , xi )Ls ( yi − xiT s ) (7) Trong đó, s ước lượng tập huấn luyện Khi ta chọn tham số hiệu chỉnh t cho t hàm CV(t) đạt cực tiểu, tức là: t = arg CV (t ) (8) t http://jst.tnu.edu.vn 436 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 433 - 440 Ứng dụng LASSO phân tích liệu ung thư vú 3.1 Mô tả liệu Bộ liệu “bcTCGA” lấy từ mẫu mô ung thư vú dự án Bản đồ gen ung thư (TCGA), Hiệp hội ung thư Hoa Kỳ tải trực tiếp trang web https://myweb.uiowa.edu/pbreheny/data/bcTCGA Các kết tập liệu thu cách sử dụng kỹ thuật microarray (vi mạch) phân tích biểu gen Tên “BRCA” chữ viết tắt “gen BReast Cancer - gen ung thư vú” BRCA1 BRCA2 hai gen khác phát có tác động đến khả phát triển ung thư vú người Mỗi người có gen BRCA1 BRCA2 Không giống với tên gọi mình, gen BRCA khơng gây ung thư vú Trên thực tế, gen thường đóng vai trò quan trọng việc ngăn ngừa ung thư vú Chúng giúp sửa chữa đứt gãy DNA dẫn đến ung thư phát triển không kiểm sốt khối u Do đó, gen BRCA cịn gọi gen ức chế khối u Tuy nhiên, số người, gen ức chế khối u khơng hoạt động bình thường Khi gen bị thay đổi bị hỏng, khơng hoạt động xác Đây gọi đột biến gen Khi gen BRCA bị đột biến, gen khơng hiệu việc sửa chữa DNA bị hỏng giúp ngăn ngừa ung thư vú Do đó, người có đột biến gen BRCA dễ bị ung thư vú dễ mắc bệnh độ tuổi trẻ Người mang gen đột biến truyền đột biến gen cho họ Trong hai gen, BRCA1 gen xác định làm tăng nguy ung thư vú khởi phát sớm Vì BRCA1 có khả tương tác với nhiều gen khác, bao gồm chất ức chế khối u chất điều hòa chu kỳ phân chia tế bào nên việc tìm gen có mức độ biểu liên quan đến BRCA1 quan trọng y học lâm sàng nghiên cứu y khoa Do đó, mục tiêu nghiên cứu chúng tơi báo tìm gen có ảnh hưởng liên quan tới gen BRCA1 phương pháp LASSO Như vậy, biến tiên lượng (𝑦) mơ hình LASSO biến BRCA1, biến dự báo cấu hình biểu gen khối u ung thư vú bệnh nhân Tập liệu chứa phép đo biểu 17814 gen từ 536 bệnh nhân; tất phép đo ghi lại theo thang đo logarit 3.2 Kết phân tích liệu Để hỗ trợ phân tích liệu, chúng tơi sử dụng ngơn ngữ lập trình R tích hợp số gói lệnh phù hợp với mơ hình hồi quy tuyến tính mơ hình lựa chọn liệu Kết phân tích thể Hình Hình http://jst.tnu.edu.vn 437 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 433 - 440 Hình Lựa chọn biến Hình thể mối liên hệ tham số 𝜆 hệ số ứng với biến mơ hình hồi quy Mỗi đường cong đại diện cho biến dự báo thể vai trị biến với biến tiên lượng BRCA1 Đường cong biến thu hẹp dần tới hệ số biến mơ hình gần 0, tức ta loại biến khỏi mơ hình Phân tích biểu đồ Hình 2, nói hai biến có ảnh hưởng nhiều đến mơ hình biến NBR2 biến AASDH Do đó, giả định hai biểu gen có liên quan để đánh giá xem mẫu có khối u hay không Thực tế, NBR2 tiếp giáp với BRCA1 nhiễm sắc thể 17, gần nhiều chứng thực nghiệm hai gen có chung vùng gen khởi động (là vùng trình tự gen cần thiết trình phiên mã mRNA sinh vật nhân thực) [11] Vì xuất gen NBR2 mơ hình hồi quy LASSO thể phân tích chúng tơi có ý nghĩa thực tiễn Cần lưu ý rằng, NBR2 gen xuất phát chùm đường cong LASSO, tức là, khơng phải gen có liên kết biên cao với BRCA1 Điều minh họa sức mạnh phương pháp hồi quy LASSO so với phương pháp kiểm tra liên kết gen đơn lẻ để xác định yếu tố sinh học quan trọng từ khối lượng lớn liệu nhiễu Ngoài ra, lựa chọn biến quan trọng khác cách xem xét xu hướng chúng, chẳng hạn như: VPS25, KIAA2013, NBR1, SEC22C, Các biến cịn lại dường quan trọng mơ hình Chú ý, hình có 10 biến quan trọng nhất, liên quan đến gen BRC1 kể tên Hình Lựa chọn tham số 𝜆 Bước chọn giá trị 𝜆 để xem xét xây dựng mơ hình, hay nói cách khác lựa chọn mơ hình tối ưu Trên phương diện thống kê, mơ hình tối ưu hiểu theo nghĩa mơ hình có biến số cung cấp nhiều thơng tin Gói lệnh cv.glmnet R giúp chọn giá trị thích hợp cho 𝜆 thuật toán kiểm định chéo Kết kiểm định mơ hình minh họa Hình Hình vẽ thể mối liên quan log(𝜆) MSE (trung bình bình phương sai số) Giá trị MSE đại diện cho hiệu suất mơ hình, MSE nhỏ mơ hình dự báo chuẩn xác Vì vậy, ta mong muốn lựa chọn giá trị 𝜆 làm MSE đạt giá trị nhỏ Phần biểu đồ số biến dự báo có ảnh hưởng đến mơ hình (tức biến có hệ số hồi quy khác khơng) Các đường nét đứt giá trị 𝜆𝑚𝑖𝑛 𝜆1𝑠𝑒 , hai giá trị chọn cho λ Cụ thể, 𝜆𝑚𝑖𝑛 ứng với mơ hình có MSE nhỏ nhất, cịn 𝜆1𝑠𝑒 đưa mơ hình có MSE nằm http://jst.tnu.edu.vn 438 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 433 - 440 sai số tiêu chuẩn MSE nhỏ Tùy tốn cụ thể, ta chọn hai giá trị 𝜆 cho phù hợp với vấn đề nghiên cứu Với liệu chúng ta, thuật toán kiểm định chéo đưa kết 𝜆𝑚𝑖𝑛 = 0,04269802 𝜆1𝑠𝑒 = 0.06798732 Hơn nữa, giá trị 𝜆𝑚𝑖𝑛 cho kết 73 gen chọn 17814 gen, nghĩa gen có ảnh hưởng tới gen tiên lượng ung thư vú BRC1 Hệ số gen mơ hình hồi quy LASSO minh họa Hình Lasso Coefficients with = 0,04269802 0.2 coefficient 0.0 -0.2 (In ter c AAept AN A SD) KRCY H AND1 P2 AR AKRDB HG P3 APM1 AR 19 B I C CAH1 C 0or S2 17 f7 C orf56 C orf13 4o C rf14 C CCDBLN EA C CA C M6 C ENP8 E C NP K E C NPM HT Q F1 C CL C LCAC C M O TM L C 20A C OL O 9A M M C D D OQ1 AR D DDXS2 EF B D 11 M RT D3 EC TL E H EI IF11 F B FA ES 4G M C O F 03 FLG FRA1 J1 L 02 G 41 G GA H HINS H ISP EC1 I P S H T1 D2 A IS H A T1 2B H J H HMBL SP M K R KH BT 0B1 B KI DR D5 AA BS KL0101 HL M KS13 AG R M EF1 C N NBM6 FA R TC N NLE1 M UR O O IP5 R PC5J2 P A PCCCF GA PG PD F1 LY YN PI RP PP P WIL3 P1 PM R R P 16BB AB S 11 ME F R IP4 C3 H R RF NF X1 14 R S SL ETMPL2 C2 A 5A R SP SP 22 IN AG SY K5 N L TA GR3 D TM TH A3L PROC TOSS4 T P2 TS RA A TU PY IP B L2 VDA1B A W VPSC1 D R X 51 YTRC A H C ZMDC2 ZN YM2 ZNF18 ZNF599 F6 ZR Z AN P4 B3 -0.4 Hình Hệ số mơ hình hồi quy LASSO ứng với 𝜆𝑚𝑖𝑛 = 0,04269802 Như vậy, sử dụng phân tích này, chúng tơi thu gen có liên quan việc phát bệnh ung thư vú bao gồm gen sau: NBR2, AASDH, KIAA2013, VPS25, NBR1, SEC22C, RPL27, CBLN3, KHDRBS1, XRCC2 Kết luận Một khó khăn phân tích mơ hình hồi quy tuyến tính tìm mơ hình tối ưu Mơ hình tối ưu hiểu theo nghĩa biến dự báo nhất, dự đốn xác Đồng thời, trường hợp đa cộng tuyến xảy ra, nghĩa hay nhiều biến dự báo có liên quan mật thiết với nhau, việc xây dựng mơ hình hồi quy trở nên khó khăn Vì vậy, báo tập trung nghiên cứu phương pháp giải vấn đề trên, phương pháp hồi quy LASSO Hồi quy LASSO phương pháp thay cho kỹ thuật hồi quy tiêu chuẩn kỹ thuật lựa chọn biến Thu hẹp kích thước hệ số hồi quy lựa chọn biến mục tiêu quan trọng phân tích liệu microarray, số lượng mẫu thu thập nhỏ nhiều so với số lượng gen chip, tức số lượng biến dự báo lớn nhiều so với kích thước mẫu Việc ước lượng hệ số hồi quy trường hợp thực cách sử dụng LASSO Chúng đề xuất sử dụng phương pháp LASSO xây dựng mơ hình hồi quy tuyến tính biểu thị mối quan hệ gen BRC1 gen khác bệnh nhân ung thư vú Mục tiêu xác định gen ảnh hưởng đến mức độ nghiêm trọng ung thư vú theo liệu microarray Hồi quy LASSO cho hiệu suất dự đoán tương đối tốt hợp lý Tóm lại, tập hợp hệ số LASSO khác khơng đại diện cho gen có ảnh hưởng tới gen BRC1 Đó gen NBR2, AASDH, KIAA2013, VPS25, NBR1, SEC22C, RPL27, CBLN3, KHDRBS1, XRCC2 TÀI LIỆU THAM KHẢO/ REFERENCES [1] B Efron, T Hastie, I Johnstone, and R Tibshirani, “Least Angle Regression (with discussion),” Annals of Statistics, vol 32, pp 407-499, 2004 http://jst.tnu.edu.vn 439 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 433 - 440 [2] J Fan and R Li, “Variable selection via non concave penalized likelihood and its oracle properties,” Journal of American Statistical Association, vol 96, pp 1348–1360, 2001 [3] J Fan and J Lv, “A selective overview of variable selection in high dimensional feature space,” Statistica Sinica, vol 20, pp 101-148, 2010 [4] W J Fu, “Penalized regression: The bridge versus the LASSO,” Journal of Computational and Graphical Statistics, vol 7, pp 397-416, 1998 [5] H Zou and T Hastie, “Regularization and Variable Selection via the Elastic Net,” Journal of the Royal Statistical Society Series B, vol 67, pp 301-320, 2005 [6] H Zou, “The adaptive lasso and its oracle properties,” Journal of American Statistical Association, vol 101, pp 1418-1429, 2006 [7] T Hastie, R Tibshirani, and J Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer: New York, NY, USA, 2008 [8] M R Osborne, B Presnell, A Brevin, and B Turlach, “On the LASSO and its dual,” Journal of Computational and Graphical Statistics, vol 9, no 2, pp 319-338, 2000 [9] R Tibshirani, “Regression shrinkage and selection via the LASSO,” Journal of the Royal Statistical Society Series B, vol 58, pp 267-288, 1996 [10] A S Amusan and I O Adeshina, “Multicollinearity Regularization Using Lasso and Ridge Regression on Economic Data,” Kasu Journal of Mathematical Sciences, vol 2, no 2, pp 43-54, 2021 [11] A Brown, F Xu, H Nicolai, B Griffiths, A Chambers, D Black, and E Solomon, “The 5' end of the BRCA1 gene lies within a duplicated region of human chromosome 17q21,” Oncogene, vol 12, pp 2507-2513, 1996 http://jst.tnu.edu.vn 440 Email: jst@tnu.edu.vn ... Technology 227(08): 433 - 440 Ứng dụng LASSO phân tích liệu ung thư vú 3.1 Mô tả liệu Bộ liệu “bcTCGA” lấy từ mẫu mô ung thư vú dự án Bản đồ gen ung thư (TCGA), Hiệp hội ung thư Hoa Kỳ tải trực tiếp... dụng LASSO phân tích liệu ung thư vú Hồi quy LASSO LASSO "hiệu chỉnh trị tuyệt đối bé lựa chọn biến" phương pháp để ước lượng tham số mô hình hồi quy tuyến tính đề xuất Tibshirani vào năm 1996... logarit 3.2 Kết phân tích liệu Để hỗ trợ phân tích liệu, chúng tơi sử dụng ngơn ngữ lập trình R tích hợp số gói lệnh phù hợp với mơ hình hồi quy tuyến tính mơ hình lựa chọn liệu Kết phân tích thể Hình