TAILIEUCHUNG - Nhận dạng tự động ngôn ngữ tiếng Anh.

Nhận dạng tự động ngôn ngữ tiếng Anh. Trong lý thuyết của mình, năm 1948 ông đưa ra khái niệm entropi như sự đo đạc độ bất định như là xác suất về các khả năng xảy ra sự kiện, và bit là đơn vị đo xác suất ấy. Dù cho Shannon từ chối dùng từ "thông tin" mô tả phép đo này, vì nó thuần túy mang tính hình thức, bỏ qua ý nghĩa của tín hiệu nhưng lý thuyết này đến nay vẫn được gọi là Lý thuyết Thông tin. . | Tạp chí Tin học và Đĩêu khiền học T. 18 s. 3 2002 268-272 NHẬN DẠNG Tự ĐỘNG NGÔN NGỮ TIẾNG anh TRẦN DUY HƯNG NGUYỄN NGỌC CƯƠNG Abstract. In practice there are many problems which require the recognition of the language used in a text especially a short message. This study flexibly applies some mathematical formula to determine whether the language used in a message of tens of characters is English or not. Tóm tắt. Trong thuc tế có nhiều bài toán yêu cầu phải giải quyết vấn đề tu đông nhân dang ngôn ngũ sủ dụng trong văn bản đặc biệt là đối với nhũng đoạn văn ngan. Nghiên cứu này áp dụng mềm dẻo một số công thức toán học nhằm kiểm định ngôn ngũ sủ dụng trong một đoạn văn có độ dài cỡ vài chục ký tự có là tiếng Anh hay không. 1. MỞ ĐẦU Mỗi bản văn có ý nghĩa đều được viết bởi một hoặc một vài ngôn ngữ nhất định. Ví dụ một câu tiếng Anh một ghi chép cuộc hội thoại bang tiếng Việt có xen lẫn một vài từ câu tiếng Anh một đoạn chương trình máy tính viết bang Pascal . Hầu hết những đoạn văn ngan trong thực tế thường sử dụng một ngôn ngữ duy nhất. Đã có nhiều nghiên cứu kết luận ngôn ngữ có thể được biểu diễn bằng một mô hình xích Markov hữu hạn có bậc lớn hơn không. Quá trình thiết lập đoạn văn là quá trình xích Markov chuyển từ trạng thái này sang trạng thái kia với xác suất chuyển giữa chúng thể hiện đặc trưng của ngôn ngữ. Nói cách khác ngôn ngữ viết được mô hình hóa bang tập các trạng thái của xích Markov và ma trận xác suất chuyển giữa chúng. Người ta có thể dựa vào mô hình Markov này để giải quyết bài toán nhận dạng ngôn ngữ. Tuy nhiên việc nhận dạng tự động bang máy tính đòi hỏi độ dài của đoạn văn phải đủ lớn để các qui luật này thể hiện rõ ràng giảm thiểu sai lầm. Người ta cho rằng bài toán nhận dạng tự động ngôn ngữ của một văn bản có thể xếp vào một trong bốn bài toán tổng quát sau Bảng 1. Bốn bài toán nhận dạng ngôn ngữ tổng quát stt Mô tả bài toán Giả thiết Ho Đối thiết 1 Nhận dạng ngôn ngữ đã biết B Pm Pb Pm Pb 2 Phân biệt ngôn ngữ đã biết B với nhiễu ngẫu .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.