TAILIEUCHUNG - Áp dụng mô hình ẩn kết hợp thuật toán Bimeta trong việc gom nhóm trình tự Metagenomic

Bài báo trình bày giải pháp gom nhóm các trình tự trong metagenomic áp dụng mô hình ẩn (Latent Dirichlet Allocation) để tìm chủ đề ẩn có ý nghĩa, làm chủ đề đặc trưng cho trình tự. Từ chủ đề đặc trưng, tiến hành xác định nhóm của trình tự bằng phương pháp Kullback Leibler dựa trên sự phân bổ của chủ đề thay vì tính toán trực tiếp giữa các trình tự. Giải pháp kế thừa thuật toán BiMeta, tạo các nhóm trình tự gốc dựa vào thông tin trùng lắp trước khi áp dụng mô hình ẩn tìm chủ đề, khi đó, dữ liệu phân tích để tìm chủ đề ẩn được giảm đáng kể. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI ÁP DỤNG MÔ HÌNH ẨN KẾT HỢP THUẬT TOÁN BIMETA TRONG VIỆC GOM NHÓM TRÌNH TỰ METAGENOMIC Văn Đình Vỹ Phƣơng1 3 Trần Văn Lăng3 Trần Văn Hoài1 Lê Văn Vinh2 1 Khoa Khoa học và Kỹ thuật máy tính Trường Đại học Bách khoa TPHCM 2 Khoa Công nghệ thông tin Trường Đại học Sư phạm Kỹ thuật TPHCM 3 Khoa Công nghệ thông tin Trường Đại học Lạc Hồng phuongvdv@ lang@ hoai@ vinhlv@ TÓM TẮT Phân nhóm và xác định loài trong metagenomic là một trong những bài toán lớn của lĩnh vực Sinh-Tin học hiện nay. Bài báo trình bày giải pháp gom nhóm các trình tự trong metagenomic áp dụng mô hình ẩn Latent Dirichlet Allocation để tìm chủ đề ẩn có ý nghĩa làm chủ đề đặc trưng cho trình tự. Từ chủ đề đặc trưng tiến hành xác định nhóm của trình tự bằng phương pháp Kullback Leibler dựa trên sự phân bổ của chủ đề thay vì tính toán trực tiếp giữa các trình tự. Giải pháp kế thừa thuật toán BiMeta tạo các nhóm trình tự gốc dựa vào thông tin trùng lắp trước khi áp dụng mô hình ẩn tìm chủ đề khi đó dữ liệu phân tích để tìm chủ đề ẩn được giảm đáng kể. Từ khóa metagenomic gom nhóm trình tự LDA. I. GIỚI THIỆU Sinh-Tin học bioinformatics là một khái niệm không còn xa lạ trong lĩnh vực nghiên cứu hiện nay. Việc giải mã trình tự DNA luôn là vấn đề tối quan trọng để hiểu rõ bản chất của sinh vật vi sinh vật sống. Cho đến thời điểm hiện nay giải mã trình tự có 2 cách tiếp cận theo phương pháp truyền thống Chain-termination methods gọi tắt là Sanger và phương pháp giải trình tự thế hệ mới Next Generation Sequencing gọi tắt là NGS 1 . Mỗi phương pháp vẫn có những ưu nhược điểm riêng. Môi trường sống luôn là một tập thể của nhiều vi sinh vật có sự tác động qua lại lẫn nhau cũng như sự cộng sinh trong việc tồn tại vì thế việc tách độc lập bộ gen để nuôi cấy và tiến hành nghiên cứu là một vấn đề tốn nhiều chi

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.