TAILIEUCHUNG - Computer organization and design Design 2nd phần 6

Ví dụ, IBM RS/6000 mô hình Power 2 900 có thể hướng dẫn cho mỗi chu kỳ đồng hồ, và bộ nhớ cache dữ liệu của nó có thể cung cấp truy cập 128-bit trên mỗi chu kỳ đồng hồ. RS/6000 thực hiện điều này bằng cách làm cho bộ nhớ cache hướng dẫn và bộ nhớ cache dữ liệu rộng và bằng cách làm hai lần đọc vào bộ nhớ cache dữ liệu mỗi chu kỳ đồng hồ, | 458 Chapter 5 Memory-Hierarchy Design For example the IBM RS 6000 Power 2 model 900 can issue up to six instructions per clock cycle and its data cache can supply two 128-bit accesses per clock cycle. The RS 6000 does this by making the instruction cache and data cache wide and by making two reads to the data cache each clock cycle certainly likely to be the critical path in the machine. Speculative Execution and the Memory System Inherent in CPUs that support speculative execution or conditional instructions is the possibility of generating invalid addresses that would not occur without speculative execution. Not only would this be incorrect behavior if exceptions were taken the benefits of speculative execution would be swamped by false exception overhead. Hence the memory system must identify speculatively executed instructions and conditionally executed instructions and suppress the corresponding exception. By similar reasoning we cannot allow such instructions to cause the cache to stall on a miss for again unnecessary stalls could overwhelm the benefits of speculation. Hence these CPUs must be matched with nonblocking caches see page 414 . Compiler Optimization Instruction-Level Parallelism versus Reducing Cache Misses Sometimes the compiler must choose between improving instruction-level parallelism and improving cache performance. For example the code below for i 0 i 512 i i 1 for j 1 j 512 j j 1 x i jj 2 x i j-1 accesses the data in the order they are stored thereby minimizing cache misses. Unfortunately the dependency limits parallel execution. Unrolling the loop shows this dependency for i 0 i 512 i i 1 for j 1 j 512 j j 4 x i jj 2 x i j-1 x i j 1 2 x i j x i j 2 2 x i j 1 x i j 3 2 x i j 2 Crosscutting Issues in the Design of Memory Hierarchies 459 Each of the last three statements has a RAW dependency on the prior statement. We can improve parallelism by interchanging the two loops for j 1 j 512 j j 1 for i 0 i 512 i i 1 x i j 2 x i j-1 .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.