TAILIEUCHUNG - Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn

Bài viết trình bày một giải pháp sử dụng các dữ liệu chưa gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân. | Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn JOURNAL OF SCIENCE OF HNUE DOI: Educational Sci., 2015, Vol. 60, No. 7A, pp. 61-69 This paper is available online at MỘT PHƯƠNG PHÁP DỰ ĐOÁN GEN GÂY BỆNH SỬ DỤNG DỮ LIỆU CHƯA CÓ NHÃN 1 Lê Thu Hương 2 Thái Thị Thanh Vân và 3 Trần Đăng Hưng 1 Khoa Tự nhiên, Trường Cao đẳng Sư phạm Điện Biên 2 KhoaCông nghệ Thông tin, Học viện Kỹ thuật Mật mã 3 Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Trong bài báo này, chúng tôi trình bày một giải pháp sử dụng các dữ liệu chưa gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân. Tuy nhiên, trong bài toán này dữ liệu âm tính (negative) thường khó xác định, nên hiệu quả của các phương pháp dự đoán chưa cao. Chúng tôi đã đề xuất một phương án xây dựng tập âm tính bằng cách sử dụng dữ liệu chưa có nhãn để huấn luyện các mô hình học máy nhằm tăng hiệu quả dự đoán. Từ khóa: Dự đoán, gen gây bệnh, dữ liệu chưa có nhãn, phân lớp nhị phân. 1. Mở đầu Từ các nghiên cứu thực nghiệm cho thấy rằng với từng loại bệnh cụ thể, có thể do một số gen quy định gây ra. Tuy nhiên, các nhà thực nghiệm chỉ tìm ra được các gen gây bệnh một cách đơn lẻ trên một số cá thể, hơn nữa các thực nghiệm này rất mất thời gian và chi phí lớn. Khi số lượng dữ liệu sinh học phân tử ngày càng nhiều, các nhà sinh học tính toán có thể đưa ra các phương pháp tính toán dựa trên những gen gây bệnh đã biết để tiên lượng các gen khác. Triết lí chung của các phương pháp tính toán là các gen có quan hệ “gần” với nhau sẽ có khả năng có chung một số chức năng nào đó. Giả sử rằng, ta biết được thông tin quan hệ giữa các gen trong một loài sinh vật thì có thể dự đoán chức năng cho các gen mới. Nhìn từ lĩnh vực khai phá dữ liệu, có thể coi bài toán dự đoán gen gây bệnh là một bài toán phân .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.