Các thước đo thông tin ở cấp độ cú pháp. Phương pháp đánh giá định lượng thông tin: thống kê, ngữ nghĩa, thực dụng và cấu trúc

thước đo cú pháp thông tin

Cơm. 1.1. Biện pháp thông tin

Thước đo cú pháp hoạt động dựa trên khối lượng dữ liệu và lượng thông tin I được biểu thị thông qua entropy (khái niệm về độ không chắc chắn về trạng thái của hệ thống).

Thước đo ngữ nghĩa hoạt động dựa trên lượng thông tin được thể hiện thông qua khối lượng và mức độ nội dung của nó.

Biện pháp thực dụngđược xác định bởi công dụng của nó, thể hiện qua hiệu quả kinh tế tương ứng.

Thước đo cú pháp của thông tin

Thước đo lượng thông tin này hoạt động với thông tin khách quan không thể hiện mối quan hệ ngữ nghĩa với đối tượng.

Nổi tiếng nhất hiện nay phương pháp sau đây đo lường định lượng thông tin: thể tích, entropy, thuật toán.

Thể tích là cách đơn giản và thô sơ nhất để đo lường thông tin. Việc đánh giá định lượng tương ứng của thông tin đương nhiên có thể được gọi là khối lượng thông tin.

Lượng thông tin là số ký tự trong tin nhắn. Vì cùng một số có thể được viết bởi nhiều người những cách khác, tức là sử dụng các bảng chữ cái khác nhau, ví dụ hai mươi mốt - 21 - XXI - 11001, thì phương pháp này nhạy cảm với hình thức trình bày (ghi âm) của thông điệp. TRONG công nghệ máy tính tất cả thông tin được xử lý và lưu trữ, bất kể bản chất của nó (số, văn bản, hiển thị), đều được trình bày dưới dạng nhị phân (sử dụng bảng chữ cái chỉ gồm hai ký tự “0” và “1”).

TRONG hệ thống nhị phân ký hiệu đơn vị đo là bit (bit – chữ số nhị phân – chữ số nhị phân).

Trong lý thuyết thông tin, một bit là lượng thông tin cần thiết để phân biệt giữa hai thông điệp có khả năng xảy ra như nhau; và trong điện toán, một bit là “phần” bộ nhớ nhỏ nhất cần thiết để lưu trữ một trong hai ký tự “0” và “1” được sử dụng để biểu diễn dữ liệu và lệnh bên trong máy. Đây là một đơn vị đo lường quá nhỏ; trong thực tế, đơn vị lớn hơn thường được sử dụng - một byte - bằng 8 bit cần thiết để mã hóa bất kỳ ký tự nào trong số 256 ký tự của bảng chữ cái bàn phím máy tính (256 = 2 8).

Thậm chí các đơn vị thông tin dẫn xuất lớn hơn cũng được sử dụng rộng rãi:

1 kilobyte (kbyte) = 1024 byte = 2 10 byte;

1 Megabyte (MB) = 1024 KB = 2 20 byte;

1 Gigabyte (GB) = 1024 MB = 2 30 byte.

TRONG Gần đây Liên quan đến sự gia tăng khối lượng thông tin được xử lý, các đơn vị dẫn xuất sau đây được sử dụng:

1 Terabyte (TB) = 1024 GB = 2 40 byte;

1 Petabyte (PB) = 1024 TB = 2 50 byte.

TRONG hệ thống thập phân ký hiệu đơn vị đo là dit (chữ số thập phân).

Tin nhắn trong hệ thống nhị phân dưới dạng tám bit mã nhị phân 1011 1011 có khối lượng dữ liệu V D = 8 bit.

Một thông báo trong hệ thập phân dưới dạng số có sáu chữ số 275 903 có khối lượng dữ liệu V D = 6 bit.

Trong lý thuyết thông tin và mã hóa, phương pháp entropy để đo lường thông tin được áp dụng. Việc thu thập thông tin về một hệ thống luôn gắn liền với sự thay đổi về mức độ thiếu hiểu biết của người nhận về trạng thái của hệ thống này. Phương pháp đo lường này xuất phát từ mô hình sau.

Hãy để người tiêu dùng có một số thông tin sơ bộ (tiên nghiệm) về hệ thống α trước khi nhận được thông tin. Sau khi nhận được tin nhắn b, người nhận đã có được một số Thông tin thêm I(b), làm giảm sự thiếu hiểu biết của anh ấy. Thông tin này có trong trường hợp chung không đáng tin cậy và được thể hiện bằng xác suất mà anh ta mong đợi sự kiện này hoặc sự kiện kia. Thước đo chung của độ không đảm bảo (entropy) được đặc trưng bởi một số sự phụ thuộc toán học vào tổng các xác suất này. Lượng thông tin trong một tin nhắn được xác định bằng mức độ giảm đi của biện pháp này sau khi nhận được tin nhắn.

Do đó, kỹ sư người Mỹ R. Hartley (1928) coi quá trình thu thập thông tin là việc lựa chọn một thông báo từ một tập hợp hữu hạn N thông báo có xác suất bằng nhau được xác định trước và lượng thông tin tôi chứa trong thông báo đã chọn được định nghĩa là nhị phân. logarit của N (công thức Hartley):

Giả sử bạn cần đoán một số từ một dãy số từ một đến một trăm. Sử dụng công thức của Hartley, bạn có thể tính toán lượng thông tin cần thiết cho việc này: , tức là, một thông báo về một số được đoán đúng chứa một lượng thông tin xấp xỉ bằng 6,644 đơn vị thông tin.

Các ví dụ khác về các tin nhắn có khả năng tương đương:

1) khi tung một đồng xu, “nó ngửa”, “ngưng”;

2) trên trang sách “số chữ cái là số chẵn”, “số chữ cái là số lẻ”.

Không thể trả lời một cách dứt khoát câu hỏi liệu thông điệp “người phụ nữ sẽ là người đầu tiên rời khỏi cửa tòa nhà” và “người đàn ông sẽ là người đầu tiên rời khỏi cửa tòa nhà” có khả năng xảy ra như nhau hay không. Tất cả phụ thuộc vào tòa nhà nào Chúng ta đang nói về. Ví dụ: nếu đây là ga tàu điện ngầm, thì xác suất ra khỏi cửa trước đối với nam và nữ là như nhau, còn nếu đây là doanh trại quân đội thì đối với nam, xác suất này cao hơn nhiều so với nữ .

Đối với những vấn đề thuộc loại này, nhà khoa học người Mỹ Claude Shannon đã đề xuất vào năm 1948 một công thức khác để xác định lượng thông tin, có tính đến xác suất có thể không bằng nhau của các thông điệp trong một tập hợp (công thức của Shannon):

xác suất chính xác là ở đâu tin nhắn thứ iđược đánh dấu trong một tập hợp N tin nhắn.

Dễ dàng nhận thấy rằng nếu các xác suất ... bằng nhau thì mỗi xác suất đó bằng nhau và công thức Shannon trở thành công thức Hartley.

Ngoài hai phương pháp được xem xét để xác định lượng thông tin, còn có những phương pháp khác. Điều quan trọng cần nhớ là bất kỳ kết quả lý thuyết nào cũng chỉ có thể áp dụng được cho một phạm vi trường hợp nhất định, được vạch ra bởi các giả định ban đầu.

Lý thuyết thông tin thuật toán (một phần của lý thuyết thuật toán) đề xuất một phương pháp thuật toán để đánh giá thông tin trong một tin nhắn. Bất kỳ thông báo nào cũng có thể được gán một đặc tính định lượng phản ánh độ phức tạp (kích thước) của chương trình cho phép tạo ra nó.

Hệ số (mức độ) nội dung thông tin (sự ngắn gọn) của một tin nhắn được xác định bằng tỷ lệ giữa lượng thông tin trên tổng khối lượng dữ liệu nhận được:

và 0< Y < 1.

Khi Y tăng lên, khối lượng công việc chuyển đổi thông tin (dữ liệu) trong hệ thống sẽ giảm đi. Vì vậy, cần phải cố gắng nâng cao nội dung thông tin, theo đó các phương pháp đặc biệt để mã hóa thông tin tối ưu đang được phát triển.

1.4.2.2 Đo lường ngữ nghĩa của thông tin

Ngữ nghĩa là khoa học về ý nghĩa, nội dung của thông tin.

Để đo lường nội dung ngữ nghĩa của thông tin, tức là số lượng của nó trên mỗi mức độ ngữ nghĩa, thước đo từ điển đồng nghĩa kết nối thuộc tính ngữ nghĩa thông tin với khả năng của người dùng để nhận được tin nhắn đến. Như nhau Thông báo(bài báo, quảng cáo, thư, điện tín, chứng chỉ, câu chuyện, tranh vẽ, phát thanh, v.v.) có thể chứa số lượng khác nhau thông tin cho người khác tùy thuộc vào kiến ​​thức trước đây của họ, mức độ hiểu biết về thông điệp và sự quan tâm đến nó.

Để đo số lượng thông tin ngữ nghĩa khái niệm “từ điển đồng nghĩa của người dùng” được sử dụng, tức là toàn bộ thông tin có sẵn cho người dùng hoặc hệ thống.

Tùy thuộc vào mối quan hệ giữa nội dung ngữ nghĩa của thông tin S và từ điển đồng nghĩa S p của người dùng, lượng thông tin ngữ nghĩa mà người dùng cảm nhận được và sau đó được anh ta đưa vào từ điển đồng nghĩa của mình sẽ thay đổi. Bản chất của sự phụ thuộc này được thể hiện trong Hình 1.2.

Cơm. 1. 2. Sự phụ thuộc của lượng thông tin ngữ nghĩa mà người tiêu dùng cảm nhận được vào từ điển đồng nghĩa I C = f(S p)

Hãy xem xét hai trường hợp giới hạn khi lượng thông tin ngữ nghĩa I C bằng 0:

Tại người dùng không nhận biết hoặc hiểu thông tin đến;

Tại người dùng biết mọi thứ và không cần thông tin đến.

Số tiền tối đa Người tiêu dùng có được thông tin ngữ nghĩa bằng cách phối hợp nội dung ngữ nghĩa S của nó với từ điển đồng nghĩa của mình ( ), khi thông tin đến có thể hiểu được đối với người dùng và cung cấp cho anh ta thông tin chưa biết trước đó (không có trong từ điển đồng nghĩa của anh ta).

Vì vậy, lượng thông tin ngữ nghĩa và kiến ​​thức mới trong một thông điệp mà người dùng nhận được là một giá trị tương đối.

Thước đo tương đối của lượng thông tin ngữ nghĩa có thể là hệ số nội dung C, được định nghĩa là tỷ lệ giữa lượng thông tin ngữ nghĩa với khối lượng của nó.

Tương tác thông tin. Các phương thức truyền tải thông tin. Phân loại thông tin.

Khái niệm về thông tin. Thuộc tính của thông tin. Các hình thức trình bày thông tin.

Thông tin (từ tiếng Latin informatio - “giải thích, trình bày, nhận thức”) - thông tin về một cái gì đó, bất kể hình thức trình bày của nó.

Thông tin có thể được chia thành các loại theo các tiêu chí khác nhau:

bằng nhận thức:

Thị giác - được cảm nhận bởi các cơ quan thị giác.

Thính giác - được cảm nhận bởi cơ quan thính giác.

Xúc giác - được cảm nhận bởi các thụ thể xúc giác.

Khứu giác - được cảm nhận bởi các thụ thể khứu giác.

Vị giác - được cảm nhận bởi vị giác.

theo hình thức trình bày:

Văn bản - được truyền dưới dạng ký hiệu nhằm biểu thị các từ vựng của ngôn ngữ.

Số - ở dạng số và dấu hiệu biểu thị các phép toán.

Đồ họa - ở dạng hình ảnh, đồ vật, đồ thị.

Âm thanh - truyền miệng hoặc dưới hình thức ghi âm và truyền tải các từ vựng ngôn ngữ bằng phương tiện thính giác.

theo mục đích:

Khối lượng - chứa thông tin tầm thường và hoạt động với một tập hợp các khái niệm dễ hiểu đối với hầu hết xã hội.

Đặc biệt - chứa một tập hợp các khái niệm cụ thể; khi được sử dụng, thông tin được truyền đi có thể không thể hiểu được đối với phần lớn xã hội, nhưng cần thiết và dễ hiểu trong một khuôn khổ hẹp nhóm xã hội nơi thông tin này được sử dụng.

Bí mật - được truyền đến một nhóm người hẹp và thông qua các kênh kín (được bảo vệ).

Cá nhân (riêng tư) - một tập hợp thông tin về một người, xác định địa vị xã hội và các loại tương tác xã hội trong dân chúng.

theo giá trị:

Cập nhật - thông tin có giá trị trong khoảnh khắc này thời gian.

Đáng tin cậy - thông tin thu được mà không bị bóp méo.

Có thể hiểu được - thông tin được thể hiện bằng ngôn ngữ rõ ràng với anh ấy nó được dự định dành cho ai.

Hoàn thành - thông tin đủ để chấp nhận quyết định đúng đắn hoặc sự hiểu biết.

Hữu ích - tính hữu ích của thông tin được xác định bởi chủ thể nhận được thông tin tùy thuộc vào phạm vi khả năng sử dụng thông tin đó.

trong sự thật:

ĐÚNG VẬY

Trong khoa học máy tính, chủ đề nghiên cứu thông tin chính xác là dữ liệu: các phương pháp tạo, lưu trữ, xử lý và truyền tải chúng.

Truyền thông tin là quá trình truyền không gian từ nguồn đến người nhận (người nhận). Con người đã học cách truyền và nhận thông tin thậm chí còn sớm hơn cả việc lưu trữ nó. Lời nói là một phương thức truyền tải mà tổ tiên xa xưa của chúng ta đã sử dụng trong tiếp xúc trực tiếp (hội thoại) - đến nay chúng ta vẫn sử dụng nó. Để chuyển thông tin tới khoảng cách xa Các quy trình thông tin phức tạp hơn đáng kể phải được sử dụng.



Để thực hiện quá trình này, thông tin phải được định dạng (trình bày) theo một cách nào đó. Để trình bày thông tin, nhiều hệ thống ký hiệu khác nhau được sử dụng - bộ ký hiệu ngữ nghĩa được xác định trước: đồ vật, hình ảnh, chữ viết hoặc chữ in của ngôn ngữ tự nhiên. Thông tin ngữ nghĩa về bất kỳ đối tượng, hiện tượng hoặc quá trình nào được trình bày với sự trợ giúp của chúng được gọi là thông điệp.

Rõ ràng, để truyền tải một thông điệp đi xa, thông tin phải được truyền tới một loại phương tiện di động nào đó. Người vận chuyển có thể di chuyển trong không gian bằng cách sử dụng Phương tiện giao thông, như xảy ra với những lá thư được gửi qua đường bưu điện. Phương pháp này đảm bảo độ tin cậy hoàn toàn của việc truyền thông tin, vì người nhận nhận được tin nhắn ban đầu, nhưng cần thời gian truyền đáng kể. Kể từ giữa thế kỷ 19, các phương pháp truyền tải thông tin đã trở nên phổ biến bằng cách sử dụng phương tiện thông tin lan truyền tự nhiên - rung động điện từ(dao động điện, sóng vô tuyến, ánh sáng). Các thiết bị thực hiện quá trình truyền dữ liệu từ hệ thống truyền thông. Tùy thuộc vào phương pháp trình bày thông tin, hệ thống thông tin liên lạc có thể được chia thành hệ thống tín hiệu (điện báo, telefax), âm thanh (điện thoại), video và hệ thống kết hợp (truyền hình). Hầu hết hệ thống phát triển Truyền thông trong thời đại chúng ta là Internet.

Đơn vị thông tin được sử dụng để đo lường các đặc điểm khác nhau liên quan đến thông tin.

Thông thường, đo lường thông tin liên quan đến đo điện dung bộ nhớ máy tính(thiết bị lưu trữ) và đo lượng dữ liệu được truyền qua kênh kỹ thuật số thông tin liên lạc. Lượng thông tin ít được đo lường phổ biến hơn.

Bit (chữ số nhị phân tiếng Anh - Số nhị phân; cũng chơi chữ: tiếng Anh. bit - mảnh, hạt) - đơn vị đo lượng thông tin, bằng một chữ số trong hệ thống số nhị phân. Được chỉ định theo GOST 8.417-2002

Claude Shannon năm 1948 đề xuất sử dụng từ bit để biểu thị đơn vị thông tin nhỏ nhất:

Một bit là logarit nhị phân của xác suất xảy ra các sự kiện có khả năng xảy ra như nhau hoặc tổng các tích của xác suất bằng logarit nhị phân của xác suất xảy ra các sự kiện có khả năng xảy ra như nhau; xem entropy thông tin.

Bit - đơn vị đo lường cơ bản của lượng thông tin, bằng lượng thông tin có trong một trải nghiệm có hai kết quả có thể xảy ra như nhau; xem entropy thông tin. Điều này giống với lượng thông tin trong câu trả lời cho một câu hỏi cho phép bạn trả lời “có” hoặc “không” và không có gì khác (nghĩa là lượng thông tin cho phép bạn trả lời rõ ràng câu hỏi được đặt ra).

Thước đo cú pháp của thông tin

Sự xuất hiện của khoa học thông tin với tư cách là một khoa học có thể bắt nguồn từ cuối những năm 50 của thế kỷ chúng ta, khi kỹ sư người Mỹ R. Hartley cố gắng đưa ra một thước đo định lượng cho thông tin được truyền qua các kênh truyền thông. Hãy xem xét một cách đơn giản tình huống trò chơi. Trước khi nhận được thông báo về kết quả của việc tung đồng xu, một người ở trong trạng thái không chắc chắn về kết quả của lần tung đồng xu tiếp theo. Tin nhắn của đối tác cung cấp thông tin loại bỏ sự không chắc chắn này. Lưu ý rằng số kết quả có thể xảy ra trong tình huống được mô tả là 2, chúng bằng nhau (xác suất như nhau) và mỗi lần thông tin được truyền đi sẽ loại bỏ hoàn toàn sự không chắc chắn nảy sinh. Hartley lấy “lượng thông tin” được truyền qua một kênh liên lạc về hai kết quả như nhau và loại bỏ sự không chắc chắn bằng cách tác động đến một trong số chúng, dưới dạng một đơn vị thông tin được gọi là “bit”.

Đo lường ngữ nghĩa của thông tin

Giai đoạn mới Việc mở rộng về mặt lý thuyết của khái niệm thông tin gắn liền với điều khiển học - khoa học về điều khiển và giao tiếp trong các sinh vật sống, xã hội và máy móc. Giữ nguyên quan điểm của cách tiếp cận Shannon, điều khiển học hình thành nguyên tắc thống nhất giữa thông tin và kiểm soát, điều này đặc biệt quan trọng để phân tích bản chất của các quá trình xảy ra trong các hệ thống sinh học và xã hội tự quản, tự tổ chức. Khái niệm được phát triển trong các tác phẩm của N. Wiener giả định rằng quy trình điều khiển trong các hệ thống được đề cập là một quá trình xử lý (chuyển đổi) bởi một số thiết bị trung tâm thông tin nhận được từ các nguồn thông tin chính (thụ thể cảm giác) và truyền nó đến các bộ phận đó của cơ thể. hệ thống mà các phần tử của nó coi nó như một mệnh lệnh để thực hiện hành động này hoặc hành động kia. Sau hành động đó, các cơ quan thụ cảm sẵn sàng truyền thông tin về tình huống đã thay đổi để thực hiện một chu trình điều khiển mới. Đây là cách nó được tổ chức thuật toán quay vòng(trình tự hành động) quản lý và lưu thông thông tin trong hệ thống. Điều quan trọng là vai trò chính ở đây được thực hiện bởi nội dung thông tin được truyền bởi các thụ thể và thiết bị trung tâm. Thông tin, theo Wiener, là “sự chỉ định nội dung thu được từ thế giới bên ngoài trong quá trình chúng ta thích ứng với nó và thích ứng cảm xúc của chúng ta với nó.”

Đo lường thông tin thực dụng

Trong các khái niệm thực dụng về thông tin, khía cạnh này là trung tâm, dẫn đến nhu cầu tính đến giá trị, tính hữu ích, hiệu quả, tính kinh tế của thông tin, tức là. những phẩm chất của nó có ảnh hưởng quyết định đến hành vi của các hệ thống điều khiển học có mục đích, tự tổ chức, tự quản lý (sinh học, xã hội, con người-máy móc).

Một trong đại diện tiêu biểu Các lý thuyết thông tin thực dụng là một mô hình giao tiếp hành vi - mô hình hành vi của Ackoff-Miles. Điểm khởi đầu trong mô hình này là mong muốn đưa ra quyết định của người nhận thông tin. vấn đề cụ thể. Người nhận sẽ ở trong “trạng thái hướng đến mục tiêu” nếu anh ta phấn đấu vì điều gì đó và có những con đường thay thế có hiệu quả không đồng đều để đạt được mục tiêu. Một tin nhắn được truyền đến người nhận sẽ mang tính thông tin nếu nó thay đổi "trạng thái có mục đích" của người đó.

Vì “trạng thái có mục đích” được đặc trưng bởi trình tự hành động có thể(các lựa chọn thay thế), tính hiệu quả của hành động và tầm quan trọng của kết quả, khi đó thông điệp truyền đến người nhận có thể ảnh hưởng đến cả ba thành phần ở các mức độ khác nhau. Theo đó, thông tin được truyền tải khác nhau theo loại thành “thông báo”, “hướng dẫn” và “động viên”. Vì vậy, đối với người nhận, giá trị thực dụng của thông điệp nằm ở chỗ nó cho phép anh ta vạch ra chiến lược hành vi để đạt được mục tiêu bằng cách xây dựng câu trả lời cho các câu hỏi: phải làm gì, như thế nào và tại sao ở mỗi bước tiếp theo? Đối với mỗi loại thông tin, mô hình hành vi đưa ra thước đo riêng và giá trị thực dụng tổng thể của thông tin được xác định là hàm của sự khác biệt giữa các đại lượng này trong “trạng thái hướng mục tiêu” trước và sau khi thay đổi sang “mục tiêu” mới. trạng thái định hướng.”

Số lượng và chất lượng thông tin

Mức độ của vấn đề truyền tải thông tin

Khi triển khai quá trình thông tin Luôn có sự chuyển giao thông tin trong không gian và thời gian từ nguồn thông tin đến người nhận (người nhận) bằng tín hiệu. Tín hiệu - quá trình vật lý(hiện tượng) mang thông điệp (thông tin) về một sự kiện hoặc trạng thái của đối tượng được quan sát.

Tin nhắn- một hình thức thể hiện thông tin dưới dạng một tập hợp các dấu hiệu (ký hiệu) dùng để truyền tải.

Một thông điệp như một tập hợp các dấu hiệu theo quan điểm ký hiệu học - một ngành khoa học nghiên cứu các đặc tính của dấu hiệu và hệ thống dấu hiệu - có thể được nghiên cứu ở ba cấp độ:

1) cú pháp, trong đó các thuộc tính bên trong của thông điệp được xem xét, tức là mối quan hệ giữa các dấu hiệu, phản ánh cấu trúc của một hệ thống dấu hiệu nhất định.

2) ngữ nghĩa, trong đó các mối quan hệ giữa các dấu hiệu và đối tượng, hành động, phẩm chất mà chúng biểu thị được phân tích, tức là nội dung ngữ nghĩa của thông điệp, mối quan hệ của nó với nguồn thông tin;

3) thực dụng, trong đó mối quan hệ giữa tin nhắn và người nhận được xem xét, tức là nội dung người tiêu dùng của tin nhắn, mối quan hệ của nó với người nhận.

Các vấn đề cấp độ cú pháp quan tâm đến việc tạo ra cơ sở lý thuyết sự thi công hệ thông thông tin. Ở cấp độ này, họ xem xét các vấn đề trong việc gửi tin nhắn đến người nhận dưới dạng một tập hợp các ký tự, có tính đến loại phương tiện và phương pháp trình bày thông tin, tốc độ truyền và xử lý, kích thước của mã trình bày thông tin, độ tin cậy và độ chính xác của việc chuyển đổi các mã này, v.v., trừu tượng hóa hoàn toàn nội dung ngữ nghĩa của tin nhắn và mục đích dự định của chúng. Ở cấp độ này, thông tin chỉ được xem xét từ góc độ cú pháp thường được gọi là dữ liệu, vì khía cạnh ngữ nghĩa không quan trọng.

Các vấn đề mức độ ngữ nghĩa liên quan đến việc chính thức hóa và có tính đến ý nghĩa thông tin được truyền đi, xác định mức độ tương ứng giữa ảnh của vật và chính vật đó. TRÊN cấp độ này thông tin mà thông tin phản ánh được phân tích, các kết nối ngữ nghĩa được kiểm tra, các khái niệm và ý tưởng được hình thành, ý nghĩa và nội dung của thông tin được tiết lộ và việc khái quát hóa nó được thực hiện.



TRÊN mức độ thực dụng quan tâm đến hậu quả của việc người tiêu dùng nhận và sử dụng thông tin này. Các vấn đề ở cấp độ này liên quan đến việc xác định giá trị và tính hữu ích của việc sử dụng thông tin khi người tiêu dùng phát triển giải pháp để đạt được mục tiêu của mình. Khó khăn chính ở đây là giá trị và tính hữu ích của thông tin có thể hoàn toàn khác nhau đối với những người nhận khác nhau và ngoài ra, nó còn phụ thuộc vào một số yếu tố, chẳng hạn như tính kịp thời của việc cung cấp và sử dụng thông tin đó.

Biện pháp thông tin

Các thước đo thông tin ở cấp độ cú pháp

Để đo lường thông tin ở cấp độ cú pháp, hai tham số được đưa ra: lượng thông tin (dữ liệu) - V D(cách tiếp cận khối lượng) và lượng thông tin - TÔI(phương pháp entropy).

Khối lượng thông tin V D. Khi thực hiện các quy trình thông tin, thông tin được truyền đi dưới dạng tin nhắn, là một tập hợp các ký hiệu của bảng chữ cái. Nếu lượng thông tin chứa trong tin nhắn có một ký tự được coi là một thì khối lượng thông tin (dữ liệu) V D trong bất kỳ tin nhắn nào khác sẽ bằng số ký tự (chữ số) trong tin nhắn này.

Như vậy, trong hệ thập phân, một chữ số có trọng số bằng 10 và theo đó đơn vị đo lường thông tin sẽ là dit (chữ số thập phân). Trong trường hợp này, một tin nhắn có dạng N V D= P như vậy. Ví dụ: số có bốn chữ số 2003 có khối lượng dữ liệu V D = 4 điểm.

Trong hệ nhị phân, một chữ số có trọng số bằng 2 và theo đó đơn vị đo thông tin sẽ là bit. (bit (chữ số nhị phân)- chữ số nhị phân). Trong trường hợp này, một tin nhắn có dạng N-số kỹ thuật số có khối lượng dữ liệu V D = p chút. Ví dụ: mã nhị phân 8 bit 11001011 có khối lượng dữ liệu V D= 8 bit.

Trong công nghệ tính toán hiện đại, cùng với đơn vị tối thiểu Khi đo các bit dữ liệu, một đơn vị đo lớn gọi là byte, bằng 8 bit, được sử dụng rộng rãi. Khi làm việc với khối lượng thông tin lớn, các đơn vị đo lường lớn hơn được sử dụng để tính toán số lượng của nó, chẳng hạn như kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB):

1 kbyte = 1024 byte = 2 10 byte;

1 MB = 1024 KB = 2 20 byte = 1.048.576 byte;

1 GB = 1024 MB = 2 30 byte = 1.073.741.824 byte; .

1 TB = 1024 GB = 2 40 byte = 1.099.511.627.776 byte.

Lượng thông tin I (phương pháp entropy). Trong lý thuyết thông tin và mã hóa, phương pháp entropy để đo lường thông tin được áp dụng. Cách tiếp cận này dựa trên thực tế là việc thu thập thông tin luôn gắn liền với việc giảm tính đa dạng hoặc độ không chắc chắn (entropy) của hệ thống. Dựa trên điều này, lượng thông tin trong một tin nhắn được xác định như một thước đo để giảm sự không chắc chắn về trạng thái của một hệ thống nhất định sau khi nhận được tin nhắn. Khi người quan sát đã xác định được thứ gì đó trong một hệ vật lý, thì entropy của hệ sẽ giảm vì đối với người quan sát, hệ thống đã trở nên có trật tự hơn.

Như vậy, với cách tiếp cận entropy, thông tin được hiểu là giá trị định lượng của độ không đảm bảo đã biến mất trong quá trình nào đó (thử nghiệm, đo lường, v.v.). Trong trường hợp này, entropy được đưa vào như thước đo độ không chắc chắn N, và lượng thông tin là:

Ở đâu H tháng 4 - entropy tiên nghiệm về trạng thái của hệ thống đang nghiên cứu;

Có lẽ- entropy sau.

Hậu thế- bắt nguồn từ kinh nghiệm (kiểm tra, đo lường).

Một tiên nghiệm- một khái niệm đặc trưng cho kiến ​​thức có trước kinh nghiệm (kiểm tra) và độc lập với nó.

Trong trường hợp trong quá trình thử nghiệm, độ không đảm bảo đo hiện tại được loại bỏ (thu được kết quả cụ thể, tức là Có lẽ = 0), lượng thông tin nhận được trùng với entropy ban đầu

Chúng ta hãy xem hệ thống đang được nghiên cứu là một nguồn thông tin rời rạc (nguồn của các thông điệp rời rạc), theo đó chúng ta muốn nói đến một hệ thống vật lý có một tập hợp hữu hạn các trạng thái có thể có. Đây là rất nhiều MỘT= (Một 1, Một 2 , ..., một p) Các trạng thái của một hệ thống trong lý thuyết thông tin được gọi là bảng chữ cái trừu tượng hoặc bảng chữ cái của nguồn thông báo.

Các tiểu bang riêng lẻ a 1, a 2,..., a�được gọi là các chữ cái hoặc ký hiệu của bảng chữ cái.

Một hệ thống như vậy có thể bất cứ lúc nào ngẫu nhiên chấp nhận một trong một tập hợp hữu hạn các trạng thái có thể và tôi.

Vì một số trạng thái được nguồn chọn thường xuyên hơn và các trạng thái khác ít thường xuyên hơn, nên trong trường hợp chung, nó được đặc trưng bởi một tập hợp MỘT, tức là một tập hợp đầy đủ các trạng thái có xác suất xảy ra cộng lại bằng một:

và (2.2)

Hãy để chúng tôi giới thiệu thước đo độ không chắc chắn trong việc lựa chọn trạng thái nguồn. Nó cũng có thể được coi là thước đo lượng thông tin thu được khi loại bỏ hoàn toàn sự không chắc chắn về các trạng thái nguồn có khả năng xảy ra như nhau.

(2.3)

Sau đó tại N=1 chúng tôi nhận được TRÊN)= 0.

Cách đo này được nhà khoa học người Mỹ R. Hartley đề xuất vào năm 1928. Cơ số logarit trong công thức (2.3) không có tầm quan trọng cơ bản và chỉ xác định thang đo hoặc đơn vị đo.Tùy thuộc vào cơ số logarit, các đơn vị sau phép đo được sử dụng.

1. Bit - trong trường hợp này cơ số của logarit bằng 2:

(2.4)

2. Nits - trong trường hợp này cơ số của logarit bằng e:

3. Dits - trong trường hợp này cơ số của logarit bằng 10:

Trong khoa học máy tính, công thức (2.4) thường được sử dụng làm thước đo độ không đảm bảo. Trong trường hợp này, đơn vị của độ không đảm bảo được gọi là đơn vị nhị phân hoặc bit và biểu thị độ không đảm bảo của việc lựa chọn từ hai sự kiện có khả năng xảy ra như nhau.

Công thức (2.4) có thể thu được bằng thực nghiệm: để loại bỏ sự không chắc chắn trong tình huống có hai sự kiện có khả năng xảy ra như nhau, cần một kinh nghiệm và theo đó, một bit thông tin; trong trường hợp độ không đảm bảo bao gồm bốn sự kiện có khả năng xảy ra như nhau, thì cần 2 bit thông tin là đủ để đoán sự thật mong muốn. Để xác định một lá bài từ bộ bài 32 lá, 5 bit thông tin là đủ, tức là chỉ cần đặt 5 câu hỏi với câu trả lời “có” hoặc “không” là đủ để xác định lá bài bạn đang tìm kiếm.

Biện pháp đề xuất cho phép giải quyết một số vấn đề thực tế, khi tất cả các trạng thái có thể có của nguồn thông tin có cùng xác suất.

Nói chung, mức độ không chắc chắn trong việc thực hiện trạng thái của nguồn thông tin không chỉ phụ thuộc vào số lượng trạng thái mà còn phụ thuộc vào xác suất của các trạng thái này. Ví dụ: nếu một nguồn thông tin có hai trạng thái có thể có với xác suất 0,99 và 0,01, thì độ không chắc chắn của lựa chọn sẽ nhỏ hơn đáng kể so với nguồn có hai trạng thái có thể xảy ra như nhau, vì trong trường hợp này, kết quả thực tế đã được xác định trước ( hiện thực hóa trạng thái, xác suất bằng 0,99).

Nhà khoa học người Mỹ K. Shannon khái quát hóa khái niệm thước đo độ bất định của lựa chọn H trong trường hợp H không chỉ phụ thuộc vào số lượng trạng thái mà còn phụ thuộc vào xác suất của các trạng thái này (xác suất số Pi lựa chọn nhân vật và tôi, bảng chữ cái A). Biện pháp này, đại diện cho độ không đảm bảo trung bình trên mỗi trạng thái, được gọi là entropy của một nguồn thông tin rời rạc:

(2.5)

Nếu chúng ta lại tập trung vào việc đo lường sự không chắc chắn trong đơn vị nhị phân, thì cơ số của logarit phải được lấy bằng hai:

(2.6)

Trong các cuộc bầu cử có thể xác suất được, xác suất p tôi =1/N công thức (2.6) được chuyển thành công thức của R. Hartley (2.3):

Biện pháp đề xuất được gọi là entropy không phải ngẫu nhiên. Vấn đề là cấu trúc hình thức của biểu thức (2.5) trùng khớp với entropy hệ thống vật lý, được định nghĩa trước đây bởi Boltzmann.

Sử dụng công thức (2.4) và (2.6), ta có thể xác định độ dư D bảng chữ cái nguồn tin nhắn MỘT, nó cho thấy các ký hiệu được sử dụng một cách hợp lý như thế nào của bảng chữ cái này:

Ở đâu N tối đa (A) - entropy tối đa có thể được xác định theo công thức (2.4);

TRÊN) - entropy của nguồn xác định theo công thức (2.6).

Bản chất của biện pháp này là với một lựa chọn có khả năng xảy ra như nhau, tải thông tin tương tự trên một dấu hiệu có thể được đảm bảo bằng cách sử dụng bảng chữ cái nhỏ hơn so với trường hợp lựa chọn không bằng nhau.

MỨC ĐỘ VẤN ĐỀ TRUYỀN THÔNG TIN

Khi thực hiện các quá trình thông tin, thông tin luôn được truyền tải trong không gian và thời gian từ nguồn thông tin đến người nhận (người nhận). Trong trường hợp này, các dấu hiệu hoặc ký hiệu khác nhau được sử dụng để truyền tải thông tin, ví dụ: ngôn ngữ tự nhiên hoặc nhân tạo (trang trọng), cho phép nó được thể hiện dưới một số dạng gọi là thông điệp.

Tin nhắn- một hình thức thể hiện thông tin dưới dạng một tập hợp các dấu hiệu (ký hiệu) dùng để truyền tải.

Một thông điệp như một tập hợp các dấu hiệu theo quan điểm ký hiệu học (từ tiếng Hy Lạp. semeion - ký hiệu, thuộc tính) - một ngành khoa học nghiên cứu tính chất của ký hiệu và hệ thống ký hiệu - có thể được nghiên cứu ở ba cấp độ:

1) cú pháp, trong đó các thuộc tính bên trong của thông điệp được xem xét, tức là mối quan hệ giữa các dấu hiệu, phản ánh cấu trúc của một hệ thống dấu hiệu nhất định. Thuộc tính bên ngoài nghiên cứu ở cấp độ ngữ nghĩa và thực dụng;

2) ngữ nghĩa, trong đó các mối quan hệ giữa các dấu hiệu và đối tượng, hành động, phẩm chất mà chúng biểu thị được phân tích, tức là nội dung ngữ nghĩa của thông điệp, mối quan hệ của nó với nguồn thông tin;

3) thực dụng, trong đó mối quan hệ giữa tin nhắn và người nhận được xem xét, tức là nội dung người tiêu dùng của tin nhắn, mối quan hệ của nó với người nhận.

Như vậy, xét đến mối quan hệ nhất định giữa vấn đề truyền tải thông tin và cấp độ nghiên cứu hệ thống ký hiệu, chúng được chia thành ba cấp độ: cú pháp, ngữ nghĩa và thực dụng.

Các vấn đề cấp độ cú pháp liên quan đến việc tạo ra các nền tảng lý thuyết để xây dựng hệ thống thông tin, các chỉ số hoạt động chính của chúng sẽ gần đạt mức tối đa có thể, cũng như cải thiện hệ thống hiện có nhằm nâng cao hiệu quả sử dụng chúng. Nó sạch sẽ vấn đề kỹ thuật cải thiện các phương pháp truyền tin nhắn và phương tiện truyền thông vật chất- tín hiệu. Ở cấp độ này, họ xem xét các vấn đề trong việc gửi tin nhắn đến người nhận dưới dạng một tập hợp các ký tự, có tính đến loại phương tiện và phương pháp trình bày thông tin, tốc độ truyền và xử lý, kích thước của mã trình bày thông tin, độ tin cậy và độ chính xác của việc chuyển đổi các mã này, v.v., trừu tượng hóa hoàn toàn nội dung ngữ nghĩa của tin nhắn và mục đích dự định của chúng. Ở cấp độ này, thông tin chỉ được xem xét từ góc độ cú pháp thường được gọi là dữ liệu, vì khía cạnh ngữ nghĩa không quan trọng.

Lý thuyết thông tin hiện đại chủ yếu nghiên cứu các vấn đề ở cấp độ này. Nó dựa trên khái niệm “lượng thông tin”, là thước đo tần suất sử dụng các dấu hiệu, không phản ánh ý nghĩa hoặc tầm quan trọng tin nhắn được truyền đi. Về vấn đề này, đôi khi người ta cho rằng lý thuyết thông tin hiện đại ở cấp độ cú pháp.

Các vấn đề mức độ ngữ nghĩa gắn liền với việc hình thức hóa và tính đến ý nghĩa của thông tin được truyền đi, xác định mức độ tương ứng giữa hình ảnh của đối tượng và chính đối tượng đó. Ở cấp độ này, thông tin mà thông tin phản ánh được phân tích, các kết nối ngữ nghĩa được xem xét, các khái niệm và ý tưởng được hình thành, ý nghĩa và nội dung của thông tin được tiết lộ và việc khái quát hóa nó được thực hiện.

Các vấn đề ở cấp độ này cực kỳ phức tạp, vì nội dung ngữ nghĩa của thông tin phụ thuộc nhiều vào người nhận hơn là ngữ nghĩa của thông điệp được trình bày bằng bất kỳ ngôn ngữ nào.

Ở mức độ thực tế, chúng tôi quan tâm đến hậu quả của việc người tiêu dùng nhận và sử dụng thông tin này. Các vấn đề ở cấp độ này liên quan đến việc xác định giá trị và tính hữu ích của việc sử dụng thông tin khi người tiêu dùng phát triển giải pháp để đạt được mục tiêu của mình. Khó khăn chính ở đây là giá trị và tính hữu ích của thông tin có thể hoàn toàn khác nhau đối với những người nhận khác nhau và ngoài ra, nó còn phụ thuộc vào một số yếu tố, chẳng hạn như tính kịp thời của việc cung cấp và sử dụng thông tin đó. Yêu cầu cao về tốc độ cung cấp thông tin thường được quyết định bởi thực tế là các hành động kiểm soát phải được thực hiện trong thời gian thực, tức là ở tốc độ thay đổi trạng thái của các đối tượng hoặc quy trình được kiểm soát. Sự chậm trễ trong việc cung cấp hoặc sử dụng thông tin có thể gây ra hậu quả thảm khốc.

Để đo lường thông tin, hai tham số được đưa ra: lượng thông tin I và lượng dữ liệu V d.

Các tham số này có cách biểu đạt và giải thích khác nhau tùy thuộc vào hình thức tính đầy đủ đang được xem xét.

Sự đầy đủ về mặt cú pháp. Nó hiển thị các đặc điểm hình thức và cấu trúc của thông tin và không ảnh hưởng đến nội dung ngữ nghĩa của nó. Ở cấp độ cú pháp, loại phương tiện và phương pháp trình bày thông tin, tốc độ truyền và xử lý, kích thước của mã trình bày thông tin, độ tin cậy và độ chính xác của việc chuyển đổi các mã này, v.v. đều được tính đến.

Thông tin chỉ được xem xét từ vị trí cú pháp thường được gọi là dữ liệu, vì khía cạnh ngữ nghĩa không quan trọng.

Sự đầy đủ về mặt ngữ nghĩa (khái niệm). Hình thức này xác định mức độ tương ứng giữa hình ảnh của đối tượng và chính đối tượng đó. Khía cạnh ngữ nghĩa liên quan đến việc tính đến nội dung ngữ nghĩa của thông tin. Ở cấp độ này, thông tin mà thông tin phản ánh được phân tích và các kết nối ngữ nghĩa được xem xét. Trong khoa học máy tính, các kết nối ngữ nghĩa được thiết lập giữa các mã để biểu diễn thông tin. Hình thức này dùng để hình thành các khái niệm, ý tưởng, xác định ý nghĩa, nội dung thông tin và sự khái quát hóa của nó.

Sự thỏa đáng thực tế (người tiêu dùng). Nó phản ánh mối quan hệ giữa thông tin và người tiêu dùng, sự tương ứng của thông tin với mục tiêu quản lý được thực hiện trên cơ sở đó. Các thuộc tính thực dụng của thông tin chỉ xuất hiện nếu có sự thống nhất giữa thông tin (đối tượng), người dùng và mục tiêu quản lý.

Khía cạnh thực dụng Sự cân nhắc gắn liền với giá trị, sự hữu ích của việc sử dụng thông tin khi người tiêu dùng phát triển giải pháp để đạt được mục tiêu của mình. Từ quan điểm này, các thuộc tính của thông tin người tiêu dùng được phân tích. Hình thức đầy đủ này liên quan trực tiếp đến công dụng thực tế thông tin, với sự tuân thủ của nó hàm mục tiêu hoạt động hệ thống.

Mỗi dạng mức độ đầy đủ tương ứng với thước đo riêng về lượng thông tin và khối lượng dữ liệu (Hình 2.1).

Cơm. 2.1. Biện pháp thông tin

2.2.1. Thước đo cú pháp của thông tin

thước đo cú pháp lượng thông tin hoạt động với thông tin khách quan không thể hiện mối quan hệ ngữ nghĩa với đối tượng.

Khối lượng dữ liệu V d trong một tin nhắn được đo bằng số ký tự (bit) trong tin nhắn này. TRONG hệ thống khác nhau Trong ký hiệu, một chữ số có trọng số khác nhau và đơn vị đo dữ liệu thay đổi tương ứng:

  • trong hệ thống số nhị phân đơn vị đo là bit ( chút - chữ số nhị phân - chữ số nhị phân);
  • Trong hệ thập phân, đơn vị đo là dit (chữ số thập phân).

Ví dụ. Một thông báo trong hệ thống nhị phân ở dạng mã nhị phân 8 bit 10111011 có khối lượng dữ liệu V d = 8 bit.

Một thông điệp trong hệ thập phân dưới dạng số có sáu chữ số 275903 có khối lượng dữ liệu là V d = 6 dit.

Lượng thông tin được xác định theo công thức:

trong đó H (α) là entropy, tức là lượng thông tin được đo bằng sự thay đổi (giảm) độ không chắc chắn của trạng thái hệ thống.

Entropy của hệ H (α), có N trạng thái khả dĩ, theo công thức của Shannon, bằng:

trong đó p i là xác suất hệ thống ở trạng thái thứ i.

Đối với trường hợp khi tất cả các trạng thái của hệ đều có xác suất như nhau thì entropy của nó được xác định bởi hệ thức

trong đó N là số lượng tất cả các trạng thái hiển thị có thể có;

m - cơ sở của hệ thống số (nhiều ký hiệu được sử dụng trong bảng chữ cái);

n là số bit (ký tự) trong tin nhắn.

2.2.2. Đo lường ngữ nghĩa của thông tin

Để đo lường nội dung ngữ nghĩa của thông tin, tức là số lượng của nó ở cấp độ ngữ nghĩa, được công nhận nhiều nhất là thước đo từ điển đồng nghĩa, kết nối các thuộc tính ngữ nghĩa của thông tin với khả năng chấp nhận tin nhắn đến của người dùng. Với mục đích này, khái niệm được sử dụng từ điển đồng nghĩa của người dùng.

Từ điển đồng nghĩa là tập hợp thông tin có sẵn cho người dùng hoặc hệ thống.

Tùy thuộc vào mối quan hệ giữa nội dung ngữ nghĩa của thông tin S và từ điển đồng nghĩa S p của người dùng, lượng thông tin ngữ nghĩa mà người dùng cảm nhận được và sau đó được anh ta đưa vào từ điển đồng nghĩa của mình sẽ thay đổi. Bản chất của sự phụ thuộc này được thể hiện trong Hình 2.2:

  • khi S p = 0 người dùng không nhận biết hoặc hiểu được thông tin đến;
  • khi S p → ∞ người dùng biết mọi thứ, anh ta không cần thông tin đến.

Cơm. 2.2. Sự phụ thuộc của lượng thông tin ngữ nghĩa mà người tiêu dùng cảm nhận được vào từ điển đồng nghĩa I c = f (S p)

Khi đánh giá khía cạnh ngữ nghĩa (nội dung) của thông tin, cần cố gắng dung hòa các giá trị của S và S p.

Thước đo tương đối của lượng thông tin ngữ nghĩa có thể là hệ số nội dung C, được định nghĩa là tỷ lệ giữa lượng thông tin ngữ nghĩa với khối lượng của nó:

2.2.3. Đo lường thông tin thực dụng

Biện pháp này xác định tính hữu ích của thông tin (giá trị) đối với người dùng để đạt được mục tiêu của mình. Thước đo này cũng là một giá trị tương đối, được xác định bởi đặc thù của việc sử dụng thông tin trong một hệ thống cụ thể. Nên đo giá trị của thông tin trong cùng đơn vị (hoặc gần với chúng) trong đó hàm mục tiêu được đo.

Để so sánh, chúng tôi trình bày các thước đo thông tin đã nhập trong bảng. 2.1.

Bảng 2.1. Đơn vị thông tin và ví dụ

Đo lường thông tin Các đơn vị Ví dụ (đối với lĩnh vực máy tính)
Cú pháp:

Cách tiếp cận của Shannon

phương pháp máy tính

Mức độ giảm độ không chắc chắn Xác suất của sự kiện
Đơn vị trình bày thông tin Bit, byte, KB, v.v.
Ngữ nghĩa Từ điển đồng nghĩa Túi nhựa chương trình ứng dụng, Máy tính cá nhân, mạng máy tính vân vân.
Chỉ số kinh tế Khả năng sinh lời, năng suất, tỷ lệ khấu hao, v.v.
thực dụng Giá trị sử dụng Giá trị tiền tệ
Dung lượng bộ nhớ, hiệu suất máy tính, tốc độ truyền dữ liệu, v.v. Thời gian xử lý thông tin và ra quyết định