TAILIEUCHUNG - THEORETICAL NEUROSCIENCE - PART 9

Học để dự đoán một phần thưởng. A) Cốt truyện bề mặt cho thấy các dự đoán lỗi δ (t) như một hàm của thời gian trong một thử nghiệm, qua thử nghiệm. Trong các thử nghiệm đầu tiên, các lỗi cao điểm xảy ra tại thời điểm khen thưởng (t = 200), trong khi trong các thử nghiệm sau đó | 8 Classical Conditioning and Reinforcement Learning A B 2 Ỏ 1- Q 1 0 100 200 before after 0 100 200 t Figure Learning to predict a reward. A The surface plot shows the prediction error 8 t as a function of time within a trial across trials. In the early trials the peak error occurs at the time of the reward t 200 while in later trials it occurs at the time of the stimulus t 100 . B The rows show the stimulus u t the reward r t the prediction v t the temporal difference between predictions Av t 1 v t v t 1 and the full temporal difference error 8 t 1 r t 1 Av t 1 . The reward is presented over a short interval and the prediction v sums the total reward. The left column shows the behavior before training and the right column after training. Av t 1 and 8 t 1 are plotted instead of Av t and 8 t because the latter quantities cannot be computed until time t 1 when v t 1 is available. and a reward is given for a short interval around t 200. Initially w t 0 for all T. Figure shows that the temporal difference error starts off being non-zero only at the time of the reward t 200 and then over trials moves backward in time eventually stabilizing around the time of the stimulus where it takes the value 2. This is equal to the integrated total reward provided over the course of each trial. Figure shows the behavior during a trial of a number of variables before and after learning. After learning the prediction v t is 2 from the time the stimulus is first presented t 100 until the time the reward starts to be delivered. Thus the temporal difference prediction error has a spike at t 99. This spike persists because u t 0 for t 100. The temporal difference term Av t is negative around t 200 exactly compensating for the delivery of reward and so making 8 0. As the peak in 8 moves backwards from the time of the reward to the time of the stimulus weights w t for T 100 99 . successively grow. This gradually extends the prediction of future reward v t from an initial .

TÀI LIỆU MỚI ĐĂNG
6    141    0    28-12-2024
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.