TAILIEUCHUNG - Phát triển Java 2.0: Phân tích dữ liệu lớn bằng MapReduce của Hadoop

Khi Google tung ra tính năng tìm kiếm hình ảnh vào năm 2001, Google đã có 250 triệu hình ảnh được lập chỉ mục. Gần một thập kỷ sau đó, gã khổng lồ tìm kiếm này đã lập chỉ mục hơn 10 tỷ hình ảnh. Ba mươi lăm giờ nội dung được tải lên YouTube mỗi phút. Tính trung bình, Twitter được cho là xử lý 55 triệu mẫu tin ngắn mỗi ngày. Đầu năm nay, 600 triệu truy cập hàng ngày đã đăng nhập vào tính năng tìm kiếm của Twitter. Đó là những gì chúng tôi muốn đưa. | Phát triển Java Phân tích dữ liệu lớn bằng MapReduce của Hadoop Khi Google tung ra tính năng t ìm kiếm hình ảnh vào năm 2001 Google đã có 250 triệu hình ảnh được lập chỉ mục. Gần một thập kỷ sau đó gã khổng lồ tìm kiếm này đã lập chỉ mục hơn 10 tỷ hình ảnh. Ba mươi lăm giờ nội dung được tải lên YouTube mỗi phút. Tính trung bình Twitter được cho là xử lý 55 triệu mẫu tin ngắn mỗi ngày. Đầu năm nay 600 triệu truy cập hàng ngày đã đăng nhập vào tính năng tìm kiếm của Twitter. Đó là những gì chúng tôi muốn đưa ra khi nói về dữ liệu lớn. về loạt bài này Viễn cảnh phát triển Java đã thay đổi hoàn toàn kể từ khi công nghệ Java xuất hiện lần đầu tiên. Nhờ hoàn thiện các framework mở và các cơ sở hạ tầng triển khai cho thuê đáng tin cậy bây giờ chúng ta có thể tích hợp thử nghiệm chạy và bảo trì các ứng dụng Java một cách nhanh chóng và không tốn kém. Trong loạt bài này Andrew Glover khám phá một loạt các công nghệ và các công cụ làm cơ sở phát triển Java kiểu mới này thành hiện thực. Đã có lúc dữ liệu trên một quy mô lớn như vậy chỉ được sử dụng trong các tập đoàn lớn các trường đại học và chính phủ những nơi có khả năng mua siêu máy tính đắt tiền và thuê nhân viên để duy trì. Ngày nay với việc hạ thấp chi phí lưu trữ và sức mạnh xử lý trở nên thông dụng các công ty nhỏ hơn và một số cá nhân đã bắt đầu lưu trữ và khai phá dữ liệu tương tự như vậy thúc đẩy một làn sóng về đổi mới ứng dụng. Một trong những công nghệ tạo khả năng của cuộc cách mạng dữ liệu lớn là MapReduce một mô hình lập trình và công cụ được Google phát triển để xử lý các tập hợp dữ liệu phân tán quy mô lớn. Trong bài này tôi giới thiệu công cụ MapReduce nguồn mở của Apache đó là Hadoop mà một số người đã gọi là ứng dụng sát thủ của điện toán đám mây. Giới thiệu Hadoop Về cơ bản Hadoop framework khung công tác Hadoop của Apache là một cơ chế dùng để phân tích các tập dữ liệu rất lớn mà không cần đặt trong một kho dữ liệu. Hadoop trừu tượng hóa công cụ phân tích dữ liệu to lớn của MapReduce làm nó trở .

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.