Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Bài viết Áp dụng học máy để nâng cao độ chính xác cho dự đoán nguy cơ đa di truyền với dữ liệu rối loạn phổ tự kỷ trình bày các nội dung chính sau: Tính điểm nguy cơ đa di truyền; Tính toán phân tầng quần thể; Phương pháp nhóm và đặt ngưỡng (“C+T”); Phương pháp sử dụng hồi quy logistic phạt; Phương pháp loại bỏ đặc trưng đệ quy dựa trên máy vec-tơ tựa. | ÁP DỤNG HỌC MÁY ĐỂ NÂNG CAO ĐỘ CHÍNH XÁC CHO DỰ ĐOÁN NGUY CƠ ĐA DI TRUYỀN VỚI DỮ LIỆU RỐI LOẠN PHỔ TỰ KỶ APPLYING MACHINE LEARNING TO IMPROVE THE ACCURACY OF POLYGENIC RISK SCORES WITH AUTISM SPECTRUM DISORDER DATA Trịnh Thị Xuân Lê Thị Thanh Thuỳ Tạ Văn Nhân Hoàng Đỗ Thanh Tùng Trương Nam Hải Trần Đăng Hưng Ngày tòa soạn nhận được bài báo 03 11 2021 Ngày nhận kết quả phản biện đánh giá 05 05 2022 Ngày bài báo được duyệt đăng 26 05 2022 Tóm tắt Điểm nguy cơ đa di truyền polygenic risk scores PRS là một giá trị ước lượng tương đối nguy cơ mắc bệnh dựa vào việc xác định tập hợp các biến dị di truyền ảnh hưởng. Trong những năm gần đây đã có nhiều cố gắng đưa tính toán PRS ứng dụng vào lâm sàng tuy nhiên việc lựa chọn các biến dị di truyền ảnh hưởng đến bệnh có độ chính xác chưa cao dẫn đến hiệu quả mô hình chưa đạt kỳ vọng. Trong nghiên cứu này chúng tôi đã thực nghiệm các mô hình khác nhau để chọn ra tập hợp các biến dị cho giá trị dự đoán tốt nhất. Dữ liệu được sử dụng là dữ liệu trong các nghiên cứu tương quan toàn hệ gen Genome-Wide Association Studies GWAS về rối loạn phổ tự kỷ Autism Spectrum Disorder ASD . Tập hợp các biến dị ban đầu được thu gọn bằng phương pháp nhóm và đặt ngưỡng Clumping and Thresholding C T hồi quy logistic phạt Penalized Logistic Regression PLR và loại bỏ đặc trưng đệ quy dựa trên máy vec-tơ tựa Support Vector Machine Recursive Feature Selection SVM-RFE . Kết quả cho thấy phương pháp SVM-RFE đưa ra được một tập SNPs mà mô hình dự đoán đạt hiệu năng tốt nhất. Từ khóa Bệnh đa di truyền điểm nguy cơ đa di truyền GWAS SNPs mảng SNP học máy bệnh tự kỷ. Abstract Polygenic risk scores PRS are relative estimation values of disease risk based on identification of effect variant set. In recent years there have been many attempts to apply PRS calculation to clinical practice however selection of genetic variants affecting Khoa Công nghệ thông tin Trường Đại học Mở Hà Nội Khoa Công nghệ thông tin Trường Đại học Mở Hà Nội Công ty TNHH LOBI Việt Nam .