TAILIEUCHUNG - Bài giảng Học sâu và ứng dụng: Bài 5 - ĐH Bách khoa Hà Nội

Bài giảng Học sâu và ứng dụng: Bài 5 Huấn luyện mạng nơ-ron, cung cấp cho người học những kiến thức như: Các giải thuật tối ưu cho mạng nơ-ron; Chiến lược thay đổi tốc độ học; Một số kỹ thuật chống overfitting; Làm giàu dữ liệu (data augmentation); Lựa chọn siêu tham số; Kỹ thuật kết hợp nhiều mô hình (ensemble); Kỹ thuật học tái sử dụng (transfer learning). Mời các bạn cùng tham khảo! | Bài 5 Huấn luyện mạng nơ-ron Phần 2 1 Nội dung Các giải thuật tối ưu cho mạng nơ-ron Chiến lược thay đổi tốc độ học Một số kỹ thuật chống overfitting Làm giàu dữ liệu data augmentation Lựa chọn siêu tham số Kỹ thuật kết hợp nhiều mô hình ensemble Kỹ thuật học tái sử dụng transfer learning 2 Các giải thuật tối ưu 3 Phương pháp SGD 4 Vấn đề với SGD Điều gì sẽ xảy ra khi hàm mục tiêu thay đổi nhanh theo một chiều và thay đổi chậm theo chiều khác Khi đó SGD sẽ làm việc như thế nào Hàm mục tiêu có số điều kiện lớn tỉ lệ giữa giá trị riêng lớn nhất và giá trị riêng nhỏ nhất của ma trận Hessian là lớn. 5 Vấn đề với SGD Điều gì sẽ xảy ra khi hàm mục tiêu thay đổi nhanh theo một chiều và thay đổi chậm theo chiều khác Khi đó SGD sẽ làm việc như thế nào Thuật toán hội tụ rất chậm nhảy từ bên này qua bên kia bề mặt hàm mục tiêu Hàm mục tiêu có số điều kiện lớn tỉ lệ giữa giá trị riêng lớn nhất và giá trị riêng nhỏ nhất của ma trận Hessian là lớn. 6 Vấn đề với SGD Chuyện gì xảy ra nếu hàm mục tiêu có cực tiểu địa phương hoặc điểm yên ngựa saddle point 7 Vấn đề với SGD Chuyện gì xảy ra nếu hàm mục tiêu có cực tiểu địa phương hoặc điểm yên ngựa saddle point Gradient bằng 0 thuật toán SGD bị tắc Điểm yên ngựa thường xuất hiện với các hàm mục tiêu nhiều biến 8 Vấn đề với SGD SGD xấp xỉ gradient theo từng lô dữ liệu nên thường rất nhiễu 9 SGD momentum Xây dựng đại lượng vận tốc bằng trung bình dịch chuyển của gradients Lực ma sát rho thường bằng hoặc . Tại thời điểm ban đầu rho có thể thấp hơn do hướng di chuyển chưa rõ ràng ví dụ rho 10 SGD momentum SGD momentum có thể phát biểu theo nhiều cách khác nhau nhưng chúng tương đương nhau và đều đưa ra cùng một dãy x 11 SGD momentum 12 Nesterov Momentum 13 Nesterov Momentum Thường người ta muốn tính theo Đặt và chuyển về 14 AdaGrad Mỗi trọng số có tốc độ học riêng Per-parameter learning rates hoặc adaptive learning rates Tốc độ học của mỗi trọng số tỉ lệ nghịch với tổng bình phương độ lớn đạo hàm riêng của hàm mục tiêu đối .

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.