Mã ascii thập phân. Mã hóa thông tin văn bản

Tháng mười hai	lục giác	Biểu tượng	Tháng mười hai	lục giác	Biểu tượng
000	00	chuyên gia. KHÔNG	128	80	Ђ
001	01	chuyên gia. SOH	129	81	Ѓ
002	02	chuyên gia. STX	130	82	‚
003	03	chuyên gia. ETX	131	83	ѓ
004	04	chuyên gia. EOT	132	84	„
005	05	chuyên gia. ENQ	133	85	…
006	06	chuyên gia. ACK	134	86	†
007	07	chuyên gia. BEL	135	87	‡
008	08	chuyên gia. B.S.	136	88	€
009	09	chuyên gia. CHUYỂN HƯỚNG	137	89	‰
010	0A	chuyên gia. LF	138	8A	Љ
011	0B	chuyên gia. VT	139	8B	‹ ‹
012	0C	chuyên gia. FF	140	8C	Њ
013	0D	chuyên gia. CR	141	8D	Ќ
014	0E	chuyên gia. VÌ THẾ	142	8E	Ћ
015	0F	chuyên gia. S.I.	143	8F	Џ
016	10	chuyên gia. DLE	144	90	ђ
017	11	chuyên gia. DC1	145	91	‘
018	12	chuyên gia. DC2	146	92	’
019	13	chuyên gia. DC3	147	93	“
020	14	chuyên gia. DC4	148	94	”
021	15	chuyên gia. N.A.K.	149	95
022	16	chuyên gia. SYN	150	96	–
023	17	chuyên gia. ETB	151	97	—
024	18	chuyên gia. CÓ THỂ	152	98
025	19	chuyên gia. E.M.	153	99	™
026	1A	chuyên gia. PHỤ	154	9A	љ
027	1B	chuyên gia. THOÁT	155	9B	›
028	1C	chuyên gia. FS	156	9C	њ
029	1D	chuyên gia. G.S.	157	9D	ќ
030	1E	chuyên gia. R.S.	158	9E	ћ
031	1F	chuyên gia. CHÚNG TA	159	9F	џ
032	20	ly hợp SP (Không gian)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	yo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	AC.	¬
045	2D	-	173	QUẢNG CÁO
046	2E	.	174	A.E.	®
047	2F	/	175	A. F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B 4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	BA.	є
059	3B	;	187	BB	»
060	3C	<	188	BC	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	LÀ	ѕ
063	3F	?	191	B. F.	ї
064	40	@	192	C0	MỘT
065	41	MỘT	193	C1	B
066	42	B	194	C2	TRONG
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C 6	VÀ
071	47	G	199	C7	Z
072	48	H	200	C8	VÀ
073	49	TÔI	201	C9	Y
074	4A	J	202	CA	ĐẾN
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	đĩa CD	N
078	4E	N	206	C.E.	VỀ
079	4F	ồ	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	VỚI
082	52	R	210	D2	T
083	53	S	211	D3	bạn
084	54	T	212	D4	F
085	55	bạn	213	D5	X
086	56	V.	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	ĐĐ	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	TÔI
096	60	`	224	E0	MỘT
097	61	Một	225	E1	b
098	62	b	226	E2	V.
099	63	c	227	E3	G
100	64	d	228	E 4	d
101	65	e	229	E5	e
102	66	f	230	E6	Và
103	67	g	231	E7	h
104	68	h	232	E8	Và
105	69	Tôi	233	E9	quần què
106	6A	j	234	E.A.	ĐẾN
107	6B	k	235	E.B.	tôi
108	6C	tôi	236	E.C.	tôi
109	6D	tôi	237	ED	N
110	6E	N	238	EE	ồ
111	6F	ồ	239	E. F.	P
112	70	P	240	F0	R
113	71	q	241	F1	Với
114	72	r	242	F2	T
115	73	S	243	F3	Tại
116	74	t	244	F4	f
117	75	bạn	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	học
122	7A	z	250	F.A.	ъ
123	7B	{	251	FB	S
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	ừ
126	7E	~	254	F.E.	Yu
127	7F	Chuyên gia. DEL	255	FF	TÔI

Bảng mã ký tự ASCII Windows.
Mô tả các ký tự (điều khiển) đặc biệt

Cần lưu ý rằng các ký tự điều khiển bảng ASCII ban đầu được sử dụng để đảm bảo trao đổi dữ liệu qua máy đánh chữ từ xa, nhập dữ liệu từ băng đục lỗ và để điều khiển đơn giản các thiết bị bên ngoài.
Hiện tại, hầu hết các ký tự điều khiển bảng ASCII không còn mang tải này nữa và có thể được sử dụng cho các mục đích khác.

Mã số	Sự miêu tả
NUL, 00	Không, trống rỗng
SOH, 01	Bắt đầu tiêu đề
STX, 02	Bắt đầu TeXt, phần đầu của văn bản.
ETX, 03	Cuối TeXt, cuối văn bản
EOT, 04	Kết thúc truyền, kết thúc truyền
ENQ, 05	Hỏi thăm. Vui lòng xác nhận
ACK, 06	Nhìn nhận. tôi xác nhận
BEL, 07	Chuông, gọi
BS, 08	Backspace, quay lại một ký tự
TAB, 09	Tab, tab ngang
LF, 0A	Nguồn cấp dữ liệu, nguồn cấp dữ liệu. Ngày nay trong hầu hết các ngôn ngữ lập trình, nó được ký hiệu là \n
VT, 0B	Tab dọc, lập bảng dọc.
FF, 0C	Nguồn cấp dữ liệu biểu mẫu, nguồn cấp dữ liệu trang, trang mới
CR, 0D	Vận chuyển trở lại, vận chuyển trở lại. Ngày nay trong hầu hết các ngôn ngữ lập trình, nó được ký hiệu là \r
SO,0E	Shift Out, đổi màu ribbon mực trong máy in
SI, 0F	Shift In, trả lại màu ruy băng mực trong thiết bị in
DLE, 10	Thoát liên kết dữ liệu, chuyển kênh sang truyền dữ liệu
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Điều khiển thiết bị, ký hiệu điều khiển thiết bị
NAK, 15	Xác nhận tiêu cực, tôi không xác nhận.
SYN, 16	Đồng bộ hóa. Biểu tượng đồng bộ hóa
ETB, 17	Kết thúc khối văn bản, kết thúc khối văn bản
CÓ THỂ, 18	Hủy, hủy lệnh đã truyền trước đó
EM, 19	Kết thúc phương tiện
PHỤ, 1A	Thay thế, thay thế. Được đặt thay cho một biểu tượng có ý nghĩa bị mất hoặc bị sai lệch trong quá trình truyền tải
ESC, 1B	Trình tự kiểm soát thoát
FS, 1C	Trình phân tách tệp, trình phân tách tệp
GS, 1D	Dấu tách nhóm
RS, 1E	Dấu tách bản ghi, dấu tách bản ghi
Mỹ, 1F	Dấu phân cách đơn vị
DEL, 7F	Xóa, xóa ký tự cuối cùng.

Để sử dụng ASCII một cách chính xác, bạn cần mở rộng kiến thức về lĩnh vực này và về khả năng mã hóa.

Nó là gì?

ASCII là bảng mã hóa các ký tự in (xem ảnh chụp màn hình số 1) được gõ trên bàn phím máy tính để truyền thông tin và một số mã. Nói cách khác, bảng chữ cái và chữ số thập phân được mã hóa thành các ký hiệu tương ứng thể hiện và mang thông tin cần thiết.

ASCII được phát triển ở Mỹ nên bộ ký tự tiêu chuẩn thường bao gồm bảng chữ cái tiếng Anh kèm theo các con số, tổng cộng khoảng 128 ký tự. Nhưng sau đó một câu hỏi công bằng được đặt ra: phải làm gì nếu cần mã hóa bảng chữ cái quốc gia?

Các phiên bản khác của bảng ASCII đã được phát triển để giải quyết các vấn đề tương tự. Ví dụ: đối với các ngôn ngữ có cấu trúc nước ngoài, các chữ cái trong bảng chữ cái tiếng Anh đã bị xóa hoặc các ký tự bổ sung được thêm vào chúng dưới dạng bảng chữ cái quốc gia. Do đó, bảng mã ASCII có thể chứa các chữ cái tiếng Nga để sử dụng trong nước (xem ảnh chụp màn hình số 2).

Hệ thống mã hóa ASCII được sử dụng ở đâu?

Hệ thống mã hóa này không chỉ cần thiết để gõ thông tin văn bản trên bàn phím. Nó cũng được sử dụng trong đồ họa. Ví dụ: trong chương trình ASCII Art Maker, hình ảnh đồ họa của nhiều tiện ích mở rộng khác nhau bao gồm một loạt ký tự ASCII (xem ảnh chụp màn hình số 3).

Theo quy định, các chương trình như vậy có thể được chia thành các chương trình thực hiện chức năng của trình soạn thảo đồ họa, đảo ngược hình ảnh thành văn bản và các chương trình chuyển đổi hình ảnh thành đồ họa ASCII. Biểu tượng cảm xúc nổi tiếng (hay còn gọi là “ khuôn mặt con người đang mỉm cười") cũng là một ví dụ về ký tự mã hóa.

Phương pháp mã hóa này cũng có thể được sử dụng khi viết hoặc tạo tài liệu HTML. Ví dụ: bạn nhập một bộ ký tự cụ thể và cần thiết và khi xem chính trang đó, ký hiệu tương ứng với mã này sẽ được hiển thị trên màn hình.

Trong số những thứ khác, loại mã hóa này là cần thiết khi tạo một trang web đa ngôn ngữ, bởi vì các ký tự không có trong bảng quốc gia này hoặc bảng quốc gia khác sẽ cần phải được thay thế bằng mã ASCII. Nếu người đọc được kết nối trực tiếp với công nghệ thông tin và truyền thông (ICT), thì sẽ rất hữu ích nếu người đọc làm quen với các hệ thống như:

Bộ ký tự di động;
Nhân vật điều khiển;
EBCDIC;
VISCII;
YUSCII;
Unicode;
nghệ thuật ASCII;
KOI-8.

Thuộc tính bảng ASCII

Giống như bất kỳ chương trình hệ thống nào, ASCII có những đặc tính riêng. Vì vậy, ví dụ, hệ thống số thập phân (các chữ số từ 0 đến 9) được chuyển đổi sang hệ thống số nhị phân (tức là mỗi chữ số thập phân được chuyển đổi thành 288 nhị phân tương ứng = 1001000).

Các chữ cái nằm ở cột trên và cột dưới chỉ khác nhau một chút, điều này làm giảm đáng kể mức độ phức tạp của việc kiểm tra và chỉnh sửa trường hợp.

Với tất cả các thuộc tính này, mã hóa ASCII hoạt động ở dạng tám bit, mặc dù ban đầu nó được dự định là bảy bit.

Sử dụng ASCII trong các chương trình Microsoft Office:

Nếu cần, tùy chọn mã hóa thông tin này có thể được sử dụng trong Microsoft Notepad và Microsoft Office Word. Trong các ứng dụng này, tài liệu có thể được lưu ở định dạng ASCII, nhưng trong trường hợp này, bạn sẽ không thể sử dụng một số chức năng khi nhập văn bản.

Đặc biệt, tính năng in đậm và in đậm sẽ không khả dụng vì mã hóa chỉ giữ lại ý nghĩa của thông tin được đánh máy chứ không giữ lại hình thức và hình thức chung. Bạn có thể thêm các mã như vậy vào tài liệu bằng các ứng dụng phần mềm sau:

Microsoft Excel;
Trang trước của Microsoft;
Microsoft InfoPath;
Microsoft OneNote;
Microsoft Outlook;
Microsoft Powerpoint;
Dự án Microsoft.

Điều đáng lưu ý là khi gõ mã ASCII trong các ứng dụng này, bạn phải giữ phím ALT.

Tất nhiên, tất cả các mã cần thiết đều yêu cầu nghiên cứu lâu hơn và chi tiết hơn, nhưng điều này nằm ngoài phạm vi bài viết của chúng tôi ngày hôm nay. Tôi hy vọng bạn thấy nó thực sự hữu ích.

Hẹn gặp lại!

Tốt xấu

[Mã hóa 8 bit: ASCII, KOI-8R và CP1251] Bảng mã hóa đầu tiên được tạo ở Hoa Kỳ không sử dụng bit thứ tám trong một byte. Văn bản được biểu diễn dưới dạng một chuỗi byte, nhưng bit thứ tám không được tính đến (nó được sử dụng cho mục đích chính thức).

Bảng đã trở thành một tiêu chuẩn được chấp nhận rộng rãi ASCII(Bộ luật tiêu chuẩn Mỹ về trao đổi thông tin). 32 ký tự đầu tiên của bảng ASCII (00 đến 1F) được sử dụng cho các ký tự không in được. Chúng được thiết kế để điều khiển một thiết bị in, v.v. Phần còn lại - từ 20 đến 7F - là các ký tự thông thường (có thể in được).

Bảng 1 - Mã hóa ASCII

Tháng mười hai	lục giác	Tháng 10	Char	Sự miêu tả
0	0	000		vô giá trị
1	1	001		bắt đầu tiêu đề
2	2	002		bắt đầu văn bản
3	3	003		cuối văn bản
4	4	004		kết thúc truyền tải
5	5	005		cuộc điều tra
6	6	006		thừa nhận
7	7	007		chuông
8	8	010		xóa lùi
9	9	011		Tab ngang
10	MỘT	012		dòng mới
11	B	013		tab dọc
12	C	014		trang mới
13	D	015		vận chuyển trở lại
14	E	016		chuyển ra ngoài
15	F	017		thay đổi trong
16	10	020		thoát liên kết dữ liệu
17	11	021		điều khiển thiết bị 1
18	12	022		điều khiển thiết bị 2
19	13	023		điều khiển thiết bị 3
20	14	024		điều khiển thiết bị 4
21	15	025		thừa nhận tiêu cực
22	16	026		nhàn rỗi đồng bộ
23	17	027		kết thúc quá trình chuyển đổi. khối
24	18	030		Hủy bỏ
25	19	031		kết thúc phương tiện
26	1A	032		thay thế
27	1B	033		bỏ trốn
28	1C	034		phân tách tập tin
29	1D	035		dấu tách nhóm
30	1E	036		dấu tách bản ghi
31	1F	037		dấu phân cách đơn vị
32	20	040		không gian
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

Tháng mười hai	lục giác	Tháng 10	Char
64	40	100	@
65	41	101	MỘT
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	TÔI
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	ồ
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	bạn
86	56	126	V.
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	Một
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	Tôi
106	6A	152	j
107	6B	153	k
108	6C	154	tôi
109	6D	155	tôi
110	6E	156	N
111	6F	157	ồ
112	70	160	P
113	71	161	q
114	72	162	r
115	73	163	S
116	74	164	t
117	75	165	bạn
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Như bạn có thể dễ dàng thấy, bảng mã này chỉ chứa các chữ cái Latinh và những chữ cái được sử dụng bằng tiếng Anh. Ngoài ra còn có số học và các ký hiệu dịch vụ khác. Nhưng không có chữ cái tiếng Nga, thậm chí không có chữ cái Latinh đặc biệt dành cho tiếng Đức hoặc tiếng Pháp. Điều này rất dễ giải thích - mã hóa được phát triển đặc biệt theo tiêu chuẩn của Mỹ. Khi máy tính bắt đầu được sử dụng trên toàn thế giới, các ký tự khác cần được mã hóa.

Để làm điều này, người ta quyết định sử dụng bit thứ tám trong mỗi byte. Điều này làm cho có thêm 128 giá trị (từ 80 đến FF) có thể được sử dụng để mã hóa các ký tự. Bảng đầu tiên trong số 8 bit là “ASCII mở rộng” ( ASCII mở rộng) - bao gồm nhiều biến thể khác nhau của ký tự Latinh được sử dụng trong một số ngôn ngữ Tây Âu. Nó cũng chứa các ký hiệu bổ sung khác, bao gồm cả bút danh.

Các ký tự giả cho phép bạn cung cấp một số hình ảnh đồ họa bằng cách chỉ hiển thị các ký tự văn bản trên màn hình. Ví dụ: chương trình quản lý tệp FAR Manager hoạt động bằng cách sử dụng đồ họa giả.

Không có chữ cái tiếng Nga nào trong bảng ASCII mở rộng. Nga (trước đây là Liên Xô) và các quốc gia khác đã tạo ra bảng mã riêng của họ để có thể thể hiện các ký tự “quốc gia” cụ thể trong các tệp văn bản 8 bit - các chữ cái Latinh của tiếng Ba Lan và tiếng Séc, Cyrillic (bao gồm cả các chữ cái tiếng Nga) và các bảng chữ cái khác.

Trong tất cả các mã hóa đã trở nên phổ biến, 127 ký tự đầu tiên (nghĩa là giá trị byte có bit thứ tám bằng 0) đều giống như ASCII. Vì vậy, tệp ASCII hoạt động ở một trong hai bảng mã này; Các chữ cái trong tiếng Anh được thể hiện theo cách tương tự.

Tổ chức ISO(Tổ chức tiêu chuẩn hóa quốc tế) đã thông qua một nhóm tiêu chuẩn ISO 8859. Nó xác định mã hóa 8 bit cho các nhóm ngôn ngữ khác nhau. Vì vậy, ISO 8859-1 là bảng ASCII mở rộng dành cho Hoa Kỳ và Tây Âu. Và ISO 8859-5 là bảng dành cho bảng chữ cái Cyrillic (bao gồm cả tiếng Nga).

Tuy nhiên, vì lý do lịch sử, mã hóa ISO 8859-5 đã không có hiệu lực. Trong thực tế, các bảng mã sau được sử dụng cho tiếng Nga:

Mã trang 866 ( CP866), hay còn gọi là “DOS”, hay còn gọi là “mã hóa GOST thay thế”. Được sử dụng rộng rãi cho đến giữa những năm 90; nay được sử dụng ở mức độ hạn chế. Thực tế không được sử dụng để phân phối văn bản trên Internet.
- KOI-8. Được phát triển vào những năm 70-80. Đây là một tiêu chuẩn được chấp nhận rộng rãi để truyền tải các email trên Internet của Nga. Nó cũng được sử dụng rộng rãi trong các hệ điều hành thuộc họ Unix, bao gồm cả Linux. Phiên bản KOI-8, được thiết kế cho người Nga, được gọi là KOI-8R; Có các phiên bản dành cho các ngôn ngữ Cyrillic khác (ví dụ: KOI8-U là phiên bản dành cho tiếng Ukraina).
- Mã trang 1251, CP1251,Windows-1251. Được phát triển bởi Microsoft để hỗ trợ tiếng Nga trong Windows.

Ưu điểm chính của CP866 là bảo toàn các ký tự đồ họa giả ở những vị trí giống như trong Extended ASCII; do đó, các chương trình văn bản nước ngoài, chẳng hạn như Norton Commander nổi tiếng, có thể hoạt động mà không cần thay đổi. CP866 hiện được sử dụng cho các chương trình Windows chạy trong cửa sổ văn bản hoặc chế độ văn bản toàn màn hình, bao gồm cả Trình quản lý FAR.

Các văn bản trong CP866 khá hiếm trong những năm gần đây (nhưng nó được sử dụng để mã hóa tên tệp tiếng Nga trong Windows). Do đó, chúng tôi sẽ trình bày chi tiết hơn về hai bảng mã khác - KOI-8R và CP1251.

Như bạn có thể thấy, trong bảng mã hóa CP1251, các chữ cái tiếng Nga được sắp xếp theo thứ tự bảng chữ cái (tuy nhiên, ngoại trừ chữ E). Sự sắp xếp này giúp các chương trình máy tính dễ dàng sắp xếp theo thứ tự bảng chữ cái.

Nhưng trong KOI-8R thứ tự các chữ cái tiếng Nga có vẻ ngẫu nhiên. Nhưng thực tế thì không phải vậy.

Trong nhiều chương trình cũ, bit thứ 8 bị mất khi xử lý hoặc truyền văn bản. (Bây giờ những chương trình như vậy thực tế đã “tuyệt chủng”, nhưng vào cuối những năm 80 - đầu những năm 90, chúng đã lan rộng). Để nhận giá trị 7 bit từ giá trị 8 bit, chỉ cần trừ 8 từ chữ số có nghĩa nhất; ví dụ: E1 trở thành 61.

Bây giờ so sánh KOI-8R với bảng ASCII (Bảng 1). Bạn sẽ thấy rằng các chữ cái tiếng Nga được đặt tương ứng rõ ràng với các chữ cái Latinh. Nếu bit thứ tám biến mất, các chữ cái tiếng Nga viết thường sẽ chuyển thành chữ cái Latinh viết hoa và các chữ cái tiếng Nga viết hoa sẽ chuyển thành chữ cái Latinh viết thường. Vì vậy, E1 trong KOI-8 là chữ “A” trong tiếng Nga, trong khi 61 trong ASCII là chữ “a” trong tiếng Latin.

Vì vậy, KOI-8 cho phép bạn duy trì khả năng đọc của văn bản tiếng Nga khi mất bit thứ 8. “Xin chào mọi người” trở thành “PRIWET WSEM”.

Gần đây, cả thứ tự chữ cái của các ký tự trong bảng mã hóa và khả năng đọc khi mất bit thứ 8 đều mất đi tầm quan trọng mang tính quyết định. Bit thứ tám trong máy tính hiện đại không bị mất trong quá trình truyền hoặc xử lý. Và việc sắp xếp theo thứ tự bảng chữ cái được thực hiện có tính đến việc mã hóa chứ không chỉ bằng cách so sánh các mã. (Nhân tiện, mã CP1251 không được sắp xếp hoàn toàn theo thứ tự bảng chữ cái - chữ E không ở đúng vị trí của nó).

Do có hai cách mã hóa phổ biến nên khi làm việc với Internet (thư, duyệt các trang Web), đôi khi bạn có thể thấy một tập hợp các chữ cái vô nghĩa thay vì văn bản tiếng Nga. Ví dụ: “TÔI LÀ SBYUFEMHEL.” Đây chỉ là những từ “với sự tôn trọng”; nhưng chúng được mã hóa bằng mã hóa CP1251 và máy tính đã giải mã văn bản bằng bảng KOI-8. Ngược lại, nếu các từ tương tự được mã hóa bằng KOI-8 và máy tính giải mã văn bản theo bảng CP1251 thì kết quả sẽ là “U HCHBTSEOYEN”.

Đôi khi xảy ra trường hợp máy tính giải mã các chữ cái tiếng Nga bằng cách sử dụng một bảng không dành cho tiếng Nga. Sau đó, thay vì các chữ cái tiếng Nga, một bộ ký hiệu vô nghĩa xuất hiện (ví dụ: các chữ cái Latinh của các ngôn ngữ Đông Âu); chúng thường được gọi là “crocozybras”.

Trong hầu hết các trường hợp, các chương trình hiện đại có thể xử lý việc xác định mã hóa của tài liệu Internet (email và trang Web) một cách độc lập. Nhưng đôi khi chúng “bắn nhầm”, và sau đó bạn có thể thấy những chuỗi chữ cái tiếng Nga hoặc “krokozyabry” kỳ lạ. Theo quy định, trong tình huống như vậy, để hiển thị văn bản thực trên màn hình, chỉ cần chọn mã hóa thủ công trong menu chương trình là đủ.

Thông tin từ trang http://open-office.edusite.ru/TextProcessor/p5aa1.html đã được sử dụng cho bài viết này.

Tài liệu được lấy từ trang web:

Unicode (Unicode trong tiếng Anh) là một chuẩn mã hóa ký tự. Nói một cách đơn giản, đây là bảng tương ứng giữa các ký tự văn bản ( , chữ cái, yếu tố dấu câu) mã nhị phân. Máy tính chỉ hiểu được dãy số 0 và số 1. Để nó biết chính xác những gì nó sẽ hiển thị trên màn hình, cần phải gán cho mỗi ký tự một số duy nhất. Vào những năm 80, các ký tự được mã hóa thành một byte, nghĩa là tám bit (mỗi bit là 0 hoặc 1). Vì vậy, hóa ra một bảng (còn gọi là mã hóa hoặc bộ) chỉ có thể chứa 256 ký tự. Điều này có thể không đủ ngay cả đối với một ngôn ngữ. Do đó, nhiều bảng mã khác nhau đã xuất hiện, sự nhầm lẫn thường dẫn đến một số lỗi vô nghĩa kỳ lạ xuất hiện trên màn hình thay vì văn bản có thể đọc được. Cần có một tiêu chuẩn duy nhất, đó là tiêu chuẩn mà Unicode đã trở thành. Mã hóa được sử dụng nhiều nhất là UTF-8 (Định dạng chuyển đổi Unicode), sử dụng 1 đến 4 byte để biểu thị một ký tự.

Biểu tượng

Các ký tự trong bảng Unicode được đánh số bằng số thập lục phân. Ví dụ: chữ in hoa Cyrillic M được ký hiệu là U+041C. Điều này có nghĩa là nó nằm ở giao điểm của hàng 041 và cột C. Bạn chỉ cần sao chép và dán vào đâu đó. Để không phải lục tung danh sách dài hàng km, bạn nên sử dụng tính năng tìm kiếm. Khi bạn truy cập trang ký hiệu, bạn sẽ thấy số Unicode của nó và cách nó được viết bằng các phông chữ khác nhau. Bạn có thể nhập chính ký hiệu đó vào thanh tìm kiếm, ngay cả khi thay vào đó là một hình vuông được vẽ, ít nhất là để tìm ra nó là gì. Ngoài ra, trên trang này còn có các bộ biểu tượng đặc biệt (và ngẫu nhiên) cùng loại, được thu thập từ các phần khác nhau để dễ sử dụng.

Tiêu chuẩn Unicode là quốc tế. Nó bao gồm các nhân vật từ hầu hết các chữ viết trên thế giới. Bao gồm cả những thứ không còn được sử dụng nữa. Chữ tượng hình Ai Cập, chữ rune của người Đức, chữ viết của người Maya, chữ hình nêm và bảng chữ cái của các quốc gia cổ đại. Các ký hiệu về trọng lượng và thước đo, ký hiệu âm nhạc và các khái niệm toán học cũng được trình bày.

Bản thân Hiệp hội Unicode không phát minh ra các ký tự mới. Những biểu tượng được sử dụng trong xã hội sẽ được thêm vào bảng. Ví dụ: ký hiệu đồng rúp đã được sử dụng tích cực trong sáu năm trước khi nó được thêm vào Unicode. Chữ tượng hình Emoji (biểu tượng cảm xúc) cũng lần đầu tiên được sử dụng rộng rãi ở Nhật Bản trước khi được đưa vào bảng mã. Nhưng về nguyên tắc, nhãn hiệu và logo công ty không được thêm vào. Ngay cả những cái phổ biến như quả táo Apple hay cờ Windows. Đến nay, khoảng 120 nghìn ký tự được mã hóa trong phiên bản 8.0.

Hãy nhớ lại một số sự thật chúng ta biết:

Tập hợp các ký hiệu dùng để viết văn bản được gọi là bảng chữ cái.

Số lượng ký tự trong một bảng chữ cái là số lượng ký tự của nó.

Công thức xác định lượng thông tin: N = 2 b,

trong đó N là lũy thừa của bảng chữ cái (số ký tự),

b - số bit (trọng số thông tin của ký hiệu).

Bảng chữ cái có dung lượng 256 ký tự, có thể chứa hầu hết các ký tự cần thiết. Một bảng chữ cái như vậy được gọi là đủ.

Bởi vì 256 = 2 8 thì trọng số của 1 ký tự là 8 bit.

Đơn vị đo 8 bit được đặt tên là 1 byte:

1 byte = 8 bit.

Mã nhị phân của mỗi ký tự trong văn bản máy tính chiếm 1 byte bộ nhớ.

Thông tin văn bản được thể hiện như thế nào trong bộ nhớ máy tính?

Mã hóa bao gồm việc gán cho mỗi ký tự một mã thập phân duy nhất từ 0 đến 255 hoặc mã nhị phân tương ứng từ 00000000 đến 11111111. Do đó, một người phân biệt các ký tự bằng đường viền của chúng và máy tính bằng mã của chúng.

Sự tiện lợi của việc mã hóa ký tự theo từng byte là rõ ràng vì byte là phần bộ nhớ có thể định địa chỉ nhỏ nhất và do đó, bộ xử lý có thể truy cập từng ký tự riêng biệt khi xử lý văn bản. Mặt khác, 256 ký tự là con số khá đủ để thể hiện nhiều loại thông tin biểu tượng.

Bây giờ câu hỏi đặt ra là mã nhị phân 8 bit nào để gán cho mỗi ký tự.

Rõ ràng đây là vấn đề có điều kiện, bạn có thể nghĩ ra nhiều phương pháp mã hóa.

Bảng ASCII đã trở thành tiêu chuẩn quốc tế cho PC (đọc aski) (Mã tiêu chuẩn Mỹ về trao đổi thông tin).

Chỉ nửa đầu của bảng là tiêu chuẩn quốc tế, tức là ký tự có số từ 0 (00000000), đến 127 (01111111).

Số seri		Biểu tượng
	00000000 - 00011111	Chức năng của chúng là điều khiển quá trình hiển thị văn bản trên màn hình hoặc in ấn, phát ra tín hiệu âm thanh, đánh dấu văn bản, v.v.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Nửa sau của bảng mã ASCII, được gọi là trang mã (128 mã, bắt đầu bằng 10000000 và kết thúc bằng 11111111), có thể có các biến thể khác nhau, mỗi biến thể có số riêng.

Xin lưu ý rằng trong bảng mã hóa, các chữ cái (chữ hoa và chữ thường) được sắp xếp theo thứ tự bảng chữ cái và các số được sắp xếp theo thứ tự tăng dần. Việc tuân thủ thứ tự từ điển trong việc sắp xếp các ký hiệu này được gọi là nguyên tắc mã hóa tuần tự của bảng chữ cái.

Mã hóa phổ biến nhất hiện nay được sử dụng là Microsoft Windows, viết tắt CP1251.

Từ cuối những năm 90, vấn đề chuẩn hóa bảng mã ký tự đã được giải quyết nhờ sự ra đời của một tiêu chuẩn quốc tế mới mang tên Unicode. . Đây là mã hóa 16 bit, tức là nó phân bổ 2 byte bộ nhớ cho mỗi ký tự. Tất nhiên, điều này làm tăng dung lượng bộ nhớ bị chiếm dụng lên gấp 2 lần. Nhưng bảng mã như vậy cho phép bao gồm tối đa 65536 ký tự. Đặc tả đầy đủ của tiêu chuẩn Unicode bao gồm tất cả các bảng chữ cái hiện có, đã tuyệt chủng và được tạo ra một cách nhân tạo trên thế giới, cũng như nhiều ký hiệu toán học, âm nhạc, hóa học và các ký hiệu khác.

Hãy thử sử dụng bảng ASCII để tưởng tượng các từ sẽ trông như thế nào trong bộ nhớ máy tính.

Từ

Ký ức

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Khi nhập thông tin văn bản vào máy tính, các ký tự (chữ cái, số, ký hiệu) được mã hóa bằng nhiều hệ thống mã khác nhau, bao gồm một bộ bảng mã nằm trên các trang tương ứng của tiêu chuẩn mã hóa thông tin văn bản. Trong các bảng như vậy, mỗi ký tự được gán một mã số cụ thể trong hệ thập lục phân hoặc số thập phân, tức là các bảng mã phản ánh sự tương ứng giữa hình ảnh ký hiệu và mã số và nhằm mục đích mã hóa và giải mã thông tin văn bản. Khi nhập thông tin văn bản bằng bàn phím máy tính, mỗi ký tự nhập vào sẽ được mã hóa, tức là được chuyển đổi thành mã số; khi thông tin văn bản được xuất ra thiết bị đầu ra của máy tính (màn hình, máy in hoặc máy vẽ), hình ảnh của nó được xây dựng bằng mã số của nhân vật. Việc gán một mã số cụ thể cho một biểu tượng là kết quả của sự thỏa thuận giữa các tổ chức liên quan ở các quốc gia khác nhau. Hiện tại, không có bảng mã phổ quát nào khớp với các chữ cái trong bảng chữ cái quốc gia của các quốc gia khác nhau.

Các bảng mã hiện đại bao gồm các phần quốc tế và quốc gia, tức là chúng chứa các chữ cái trong bảng chữ cái Latinh và quốc gia, số, phép tính số học và dấu chấm câu, ký hiệu toán học và điều khiển cũng như ký hiệu giả. Phần quốc tế của bảng mã dựa trên tiêu chuẩn ASCII (Mã tiêu chuẩn Mỹ để trao đổi thông tin), mã hóa nửa đầu ký tự trong bảng mã bằng các mã số từ 0 đến 7 F 16, hoặc trong hệ thống số thập phân từ 0 đến 127. Trong trường hợp này, các mã từ 0 đến 20 16 (0 ? 32 10) được gán cho các phím chức năng (F1, F2, F3, v.v.) của bàn phím máy tính cá nhân. Trong bộ lễ phục. 3.1 thể hiện phần quốc tế của bảng mã dựa trên tiêu chuẩn ASCII. Các ô trong bảng được đánh số tương ứng theo hệ thống số thập phân và thập lục phân.

Hình 3.1. Phần quốc tế của bảng mã (tiêu chuẩn ASCII) với các số ô được trình bày theo hệ thống số thập phân (a) và thập lục phân (b)

Phần bảng mã quốc gia chứa các mã của bảng chữ cái quốc gia, còn gọi là bảng bộ ký tự (bộ ký tự).

Hiện nay, để hỗ trợ các chữ cái trong bảng chữ cái tiếng Nga (Cyrillic), có một số bảng mã (mã hóa) được các hệ điều hành khác nhau sử dụng, đây là một nhược điểm đáng kể và trong một số trường hợp dẫn đến các vấn đề liên quan đến hoạt động giải mã các giá trị ký tự số. Trong bảng Bảng 3.1 cho thấy tên của các trang mã (tiêu chuẩn) chứa bảng mã Cyrillic (mã hóa).

Bảng 3.1

Một trong những tiêu chuẩn đầu tiên để mã hóa bảng chữ cái Cyrillic trên máy tính là tiêu chuẩn KOI8-R. Phần quốc gia của bảng mã của tiêu chuẩn này được hiển thị trong Hình. 3.2.

Cơm. 3.2. Phần quốc gia của bảng mã của tiêu chuẩn KOI8-R

Hiện nay, bảng mã nằm ở trang CP866 của chuẩn mã hóa thông tin văn bản được sử dụng trong hệ điều hành cũng được sử dụng MS DOS hoặc phiên MS DOSđể mã hóa bảng chữ cái Cyrillic (Hình 3.3, MỘT).

Cơm. 3.3. Phần quốc gia của bảng mã nằm ở trang CP866 (a) và trang CP1251 (b) của tiêu chuẩn mã hóa thông tin văn bản

Hiện nay, bảng mã được sử dụng rộng rãi nhất để mã hóa bảng chữ cái Cyrillic nằm ở trang CP1251 của tiêu chuẩn tương ứng, được sử dụng trong các hệ điều hành thuộc họ này. các cửa sổ các công ty Microsoft(Hình 3.2, b). Trong tất cả các bảng mã được trình bày, ngoại trừ bảng tiêu chuẩn bảng mã UnicodeĐể mã hóa một ký tự, 8 chữ số nhị phân (8 bit) được phân bổ.

Vào cuối thế kỷ trước, một tiêu chuẩn quốc tế mới xuất hiện bảng mã Unicode trong đó một ký tự được biểu diễn dưới dạng mã nhị phân hai byte. Việc áp dụng tiêu chuẩn này là sự tiếp nối sự phát triển của một tiêu chuẩn quốc tế phổ quát nhằm giải quyết vấn đề về tính tương thích của bảng mã ký tự quốc gia. Sử dụng tiêu chuẩn này, có thể mã hóa 2 16 = 65536 ký tự khác nhau. Trong bộ lễ phục. 3.4 hiển thị bảng mã 0400 (bảng chữ cái tiếng Nga) của tiêu chuẩn Unicode.

Cơm. 3.4. Bảng mã Unicode 0400

Hãy để chúng tôi giải thích những gì đã nói về việc mã hóa thông tin văn bản bằng một ví dụ.

Ví dụ 3.1

Mã hóa từ “Máy tính” dưới dạng một chuỗi các số thập phân và thập lục phân bằng cách sử dụng mã hóa CP1251. Những ký tự nào sẽ được hiển thị trong bảng mã CP866 và KOI8-R khi sử dụng mã nhận được.

Chuỗi mã thập lục phân và nhị phân của từ “Máy tính” dựa trên bảng mã hóa CP1251 (xem Hình 3.3, b) sẽ trông như thế này:

Chuỗi mã này trong bảng mã SR866 và KOI8-R sẽ hiển thị các ký tự sau:

Để chuyển đổi các tài liệu văn bản tiếng Nga từ tiêu chuẩn mã hóa thông tin văn bản này sang tiêu chuẩn mã hóa thông tin văn bản khác, các chương trình đặc biệt - bộ chuyển đổi sẽ được sử dụng. Bộ chuyển đổi thường được tích hợp vào các chương trình khác. Một ví dụ sẽ là một chương trình trình duyệt - Internet Explorer (IE), có bộ chuyển đổi tích hợp. Chương trình trình duyệt là một chương trình đặc biệt để xem nội dung. trang web trên mạng máy tính toàn cầu Internet. Hãy sử dụng chương trình này để xác nhận kết quả ánh xạ ký hiệu thu được trong ví dụ 3.1. Để làm điều này, chúng tôi sẽ thực hiện các bước sau.

1. Khởi chạy chương trình Notepad (Sổ tay). Chương trình Notepad trong hệ điều hành Windows XPđược khởi chạy bằng lệnh: [Button Bắt đầu– Chương trình – Tiêu chuẩn – Notepad]. Trong cửa sổ chương trình Notepad mở ra, nhập từ “Máy tính” bằng cú pháp của ngôn ngữ đánh dấu tài liệu siêu văn bản - HTML (Ngôn ngữ đánh dấu siêu văn bản). Ngôn ngữ này được sử dụng để tạo tài liệu trên Internet. Văn bản sẽ trông như thế này:

nước máy tính

, Ở đâu

Và

thẻ (cấu trúc đặc biệt) của ngôn ngữ HTMLđể đánh dấu tiêu đề. Trong bộ lễ phục. Hình 3.5 thể hiện kết quả của những hành động này.

Cơm. 3.5. Hiển thị văn bản trong cửa sổ Notepad

Chúng ta hãy lưu văn bản này bằng cách thực hiện lệnh: [File - Save as...] vào thư mục thích hợp trên máy tính, khi lưu văn bản, chúng ta sẽ đặt tên cho file - Lưu ý, có đuôi file. html.

2. Hãy khởi động chương trình Trình duyệt web IE, bằng cách thực hiện lệnh: [Button Bắt đầu- Chương trình - Trình duyệt web IE]. Khi bạn khởi động chương trình, cửa sổ hiển thị trong Hình. 3.6

Cơm. 3.6. Cửa sổ truy cập ngoại tuyến

Chọn và kích hoạt nút Ngoại tuyến Trong trường hợp này, máy tính sẽ không kết nối được với Internet toàn cầu. Cửa sổ chương trình chính sẽ xuất hiện Microsoft Internet Explorer, thể hiện trong hình. 3.7.

Cơm. 3.7. Cửa sổ chính của Microsoft Internet Explorer

Hãy thực hiện lệnh sau: [File – Open], một cửa sổ sẽ xuất hiện (Hình 3.8), trong đó bạn cần chỉ định tên tệp và nhấp vào nút ĐƯỢC RỒI hoặc nhấn nút Ôn tập… và tìm tập tin Prim.html.

Cơm. 3.8. Mở cửa sổ

Cửa sổ chính của chương trình Internet Explorer sẽ có dạng như trong Hình. 3.9. Từ “Computer” sẽ xuất hiện trong cửa sổ. Tiếp theo, sử dụng menu trên cùng của chương trình Trình duyệt web IE, chạy lệnh sau: [Xem – Mã hóa – Cyrillic (DOS)]. Sau khi thực hiện lệnh này trong cửa sổ chương trình trình duyệt web IE Các biểu tượng trong hình sẽ được hiển thị. 3.10. Khi thực hiện lệnh: [View – Encoding – Cyrillic (KOI8-R)] trong cửa sổ chương trình trình duyệt web IE Các biểu tượng trong hình sẽ được hiển thị. 3.11.

Cơm. 3.9. Các ký tự được hiển thị với mã hóa CP1251

Cơm. 3.10. Các ký tự được hiển thị khi bật mã hóa CP866 cho chuỗi mã được biểu thị bằng mã hóa CP1251

Cơm. 3.11. Các ký tự được hiển thị khi bật mã hóa KOI8-R cho chuỗi mã được biểu thị bằng mã hóa CP1251

Do đó, thu được bằng cách sử dụng chương trình trình duyệt web IE các chuỗi ký tự trùng với các chuỗi ký tự thu được khi sử dụng bảng mã CP866 và KOI8-R trong ví dụ 3.1.

3.2. Mã hóa thông tin đồ họa

Thông tin đồ họa được trình bày dưới dạng hình ảnh, ảnh chụp, slide, hình ảnh chuyển động (hoạt hình, video), sơ đồ, bản vẽ có thể được tạo và chỉnh sửa bằng máy tính và được mã hóa tương ứng. Hiện nay, có khá nhiều chương trình ứng dụng xử lý thông tin đồ họa, nhưng chúng đều thực hiện ba loại đồ họa máy tính: raster, vector và fractal.

Nếu bạn nhìn kỹ hơn vào hình ảnh đồ họa trên màn hình máy tính, bạn có thể thấy một số lượng lớn các chấm nhiều màu (pixel - từ tiếng Anh. điểm ảnhđược giáo dục từ yếu tố hình ảnh – phần tử của hình ảnh), khi được tập hợp lại với nhau sẽ tạo thành một hình ảnh đồ họa nhất định. Từ đó chúng ta có thể kết luận: hình ảnh đồ họa trên máy tính được mã hóa theo một cách nhất định và phải được trình bày dưới dạng tệp đồ họa. Tệp là đơn vị cấu trúc cơ bản để tổ chức và lưu trữ dữ liệu trên máy tính và trong trường hợp này phải chứa thông tin về cách trình bày tập hợp điểm này trên màn hình điều khiển.

Các tệp được tạo trên cơ sở đồ họa vector chứa thông tin dưới dạng các mối quan hệ toán học (các hàm toán học mô tả các mối quan hệ tuyến tính) và dữ liệu tương ứng về cách xây dựng hình ảnh của một đối tượng bằng cách sử dụng các đoạn đường (vectơ) khi hiển thị trên màn hình máy tính.

Các tệp được tạo dựa trên đồ họa raster yêu cầu lưu trữ dữ liệu về từng điểm riêng lẻ trong ảnh. Để hiển thị đồ họa raster, không cần phải tính toán toán học phức tạp, chỉ cần lấy dữ liệu về từng điểm của hình ảnh (tọa độ và màu sắc của nó) và hiển thị chúng trên màn hình điều khiển máy tính.

Trong quá trình mã hóa, hình ảnh được rời rạc hóa về mặt không gian, tức là hình ảnh được chia thành các điểm riêng lẻ và mỗi điểm được cấp một mã màu (vàng, đỏ, xanh, v.v.). Để mã hóa từng điểm của hình ảnh đồ họa màu, nguyên tắc phân tách một màu tùy ý thành các thành phần chính của nó được sử dụng, trong đó ba màu cơ bản được sử dụng: đỏ (từ tiếng Anh Màu đỏ,được biểu thị bằng một chữ cái ĐẾN), màu xanh lá (Màu xanh lá,được biểu thị bằng một chữ cái G), màu xanh da trời (Màu xanh da trời, ký hiệu là cây sồi TRONG). Bất kỳ màu nào của một chấm mà mắt người cảm nhận được đều có thể thu được bằng cách cộng (trộn) phụ gia (tỷ lệ) của ba màu cơ bản - đỏ, lục và lam. Hệ thống mã hóa này được gọi là hệ thống màu sắc RGB. Các tệp đồ họa sử dụng hệ màu RGB biểu thị từng điểm của hình ảnh dưới dạng bộ ba màu - ba giá trị số R G Và TRONG, cường độ tương ứng của các màu đỏ, lục và lam. Quá trình mã hóa hình ảnh đồ họa được thực hiện bằng nhiều phương tiện kỹ thuật khác nhau (máy quét, máy ảnh kỹ thuật số, máy quay video kỹ thuật số, v.v.); kết quả là một hình ảnh raster. Khi tái tạo hình ảnh đồ họa màu trên màn hình máy tính màu, màu của từng điểm (pixel) của hình ảnh đó thu được bằng cách trộn ba màu cơ bản R G Và B.

Chất lượng của hình ảnh raster được xác định bởi hai thông số chính - độ phân giải (số pixel theo chiều ngang và chiều dọc) và bảng màu được sử dụng (số lượng màu được chỉ định cho mỗi pixel trong ảnh). Độ phân giải được chỉ định bằng cách chỉ ra số lượng pixel theo chiều ngang và chiều dọc, ví dụ 800 x 600 pixel.

Có mối quan hệ giữa số lượng màu được gán cho một điểm trong ảnh raster và lượng thông tin phải được phân bổ để lưu trữ màu của điểm, được xác định bởi mối quan hệ (công thức của R. Hartley):

Ở đâu TÔI- lượng thông tin; N - số lượng màu sắc được gán cho điểm đó.

Lượng thông tin cần thiết để lưu trữ màu của một điểm còn được gọi là độ sâu màu hoặc chất lượng hiển thị màu.

Vì vậy, nếu số lượng màu được chỉ định cho một điểm hình ảnh là N= 256 thì lượng thông tin cần thiết để lưu trữ (độ sâu màu) theo công thức (3.1) sẽ bằng TÔI= 8 bit.

Máy tính sử dụng nhiều chế độ đồ họa khác nhau của màn hình để hiển thị thông tin đồ họa. Cần lưu ý ở đây rằng ngoài chế độ đồ họa của màn hình còn có chế độ văn bản, trong đó màn hình điều khiển thường được chia thành 25 dòng, mỗi dòng 80 ký tự. Các chế độ đồ họa này được đặc trưng bởi độ phân giải màn hình và chất lượng màu sắc (độ sâu màu) của màn hình. Để thiết lập chế độ đồ họa của màn hình điều khiển trong hệ điều hành MS Windows XP bạn cần thực hiện lệnh: [Button Bắt đầu– Cài đặt – Bảng điều khiển – Màn hình]. Trong hộp thoại “Thuộc tính: Màn hình” xuất hiện (Hình 3.12), bạn phải chọn tab “Tham số” và sử dụng thanh trượt “Độ phân giải màn hình” để chọn độ phân giải màn hình phù hợp (800 x 600 pixel, 1024 x 768 pixel, vân vân.). Sử dụng danh sách thả xuống “Chất lượng màu”, bạn có thể chọn độ sâu màu - “Cao nhất (32 bit)”, “Trung bình (16 bit)”, v.v. và số lượng màu được gán cho mỗi điểm trong ảnh sẽ lần lượt là 2 32 (4294967296), 2 16 (65536), v.v.

Cơm. 3.12. Hộp thoại Thuộc tính Hiển thị

Để thực hiện từng chế độ đồ họa của màn hình điều khiển, cần có một lượng bộ nhớ video máy tính nhất định. Khối lượng thông tin cần thiết của bộ nhớ video (V)được xác định từ mối quan hệ

Ở đâu ĐẾN - số điểm hình ảnh trên màn hình điều khiển (K = A · B); MỘT - số chấm ngang trên màn hình điều khiển; TRONG - số chấm dọc trên màn hình điều khiển; TÔI– lượng thông tin (độ sâu màu).

Vì vậy, nếu màn hình điều khiển có độ phân giải 1024 x 768 pixel và bảng màu gồm 65.536 màu thì độ sâu màu theo công thức (3.1) sẽ là I = log 2 65.538 = 16 bit thì số pixel của ảnh sẽ bằng với: K = 1024 x 768 = 786432 và dung lượng thông tin cần thiết của bộ nhớ video theo (3.2) sẽ bằng

V= 786432 · 16 bit = 12582912 bit = 1572864 byte = 1536 KB = 1,5 MB.

Tóm lại, cần lưu ý rằng ngoài các đặc điểm được liệt kê, các đặc điểm quan trọng nhất của màn hình là kích thước hình học của màn hình và các điểm hình ảnh. Kích thước hình học của màn hình được xác định bởi kích thước đường chéo của màn hình. Kích thước đường chéo của màn hình được xác định bằng inch (1 inch = 1" = 25,4 mm) và có thể lấy các giá trị bằng: 14", 15", 17", 21", v.v. Công nghệ sản xuất màn hình hiện đại có thể cung cấp hình ảnh kích thước điểm bằng 0,22 mm.

Do đó, đối với mỗi màn hình, có một độ phân giải màn hình tối đa có thể có về mặt vật lý, được xác định bởi kích thước đường chéo của nó và kích thước của điểm hình ảnh.

Bài tập để tự làm

1. Sử dụng chương trình MS Excel chuyển đổi bảng mã ASCII, SR866, SR1251, KOI8-R thành bảng có dạng: trong các ô cột đầu tiên của bảng viết theo thứ tự bảng chữ cái chữ hoa, chữ thường của bảng chữ cái Latin và Cyrillic, trong các ô của bảng chữ cái cột thứ hai - các mã tương ứng với các chữ cái trong hệ thống số thập phân, trong các ô cột thứ ba là các mã tương ứng với các chữ cái trong hệ thống số thập lục phân. Giá trị mã phải được chọn từ bảng mã tương ứng.

2. Mã hóa và viết các từ sau dưới dạng dãy số trong hệ thập phân và hệ thập lục phân:

Một) Trình duyệt web IE, b) Microsoft Office; V) Tên một phần mềm đồ họa.

Việc mã hóa được thực hiện bằng cách sử dụng bảng mã hóa ASCII hiện đại hóa thu được trong bài tập trước.

3. Sử dụng bảng mã KOI8-R hiện đại hóa, giải mã dãy số viết theo hệ thập lục phân:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Từ “Cybernetics” viết bằng bảng mã SR1251 sẽ trông như thế nào khi sử dụng bảng mã SR866 và KOI8-R? Kiểm tra kết quả bằng chương trình Trình duyệt web IE.

5. Sử dụng bảng mã hiển thị trong Hình. 3.1 MỘT, giải mã các chuỗi mã sau được viết bằng hệ số nhị phân:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Xác định khối lượng thông tin của từ “Kinh tế”, được mã hóa bằng bảng mã SR866, SR1251, Unicode và KOI8-R.

7. Xác định khối lượng thông tin của file thu được khi quét ảnh màu có kích thước 12x12 cm, độ phân giải của máy scan dùng để quét ảnh này là 600 dpi. Máy quét đặt độ sâu màu của điểm hình ảnh thành 16 bit.

Độ phân giải máy quét 600 dpi (máy chấm inch - số chấm trên mỗi inch) xác định khả năng của máy quét có độ phân giải này để phân biệt 600 điểm trên phân đoạn 1 inch.

8. Xác định khối lượng thông tin của tệp thu được khi quét ảnh màu khổ A4. Độ phân giải của máy quét được sử dụng để quét hình ảnh này là 1200 dpi. Máy quét đặt độ sâu màu của điểm hình ảnh thành 24 bit.

9. Xác định số lượng màu trong bảng màu ở độ sâu màu 8, 16, 24 và 32 bit.

10. Xác định dung lượng bộ nhớ video cần thiết cho các chế độ đồ họa của màn hình điều khiển 640 x 480, 800 x 600, 1024 x 768 và 1280 x 1024 pixel với độ sâu màu pixel hình ảnh là 8, 16, 24 và 32 bit. Tóm tắt kết quả vào bảng. Phát triển ở MS Excel chương trình tự động tính toán.

11. Xác định số lượng màu tối đa có thể được sử dụng để lưu trữ hình ảnh có kích thước 32 x 32 pixel, nếu máy tính có 2 KB bộ nhớ được phân bổ cho hình ảnh.

12. Xác định độ phân giải tối đa có thể có của màn hình điều khiển có chiều dài đường chéo là 15" và kích thước điểm ảnh là 0,28 mm.

13. Bộ nhớ video 64 MB có thể cung cấp những chế độ đồ họa nào của màn hình?

Nội dung

I. Lịch sử mã hóa thông tin………………………..3

II. Mã hóa thông tin……………………………………………………4

III. Mã hóa thông tin văn bản……………………….4

IV. Các loại bảng mã hóa…………………………………………………….6

V. Tính toán lượng thông tin văn bản………….14

Danh sách tài liệu tham khảo………………………..16

TÔI . Lịch sử mã hóa thông tin

Nhân loại đã sử dụng mã hóa văn bản (encoding) ngay từ thời điểm những thông tin bí mật đầu tiên xuất hiện. Dưới đây là một số kỹ thuật mã hóa văn bản được phát minh ở các giai đoạn phát triển khác nhau của tư duy con người:

Mật mã là cách viết bí mật, một hệ thống thay đổi cách viết để làm cho văn bản không thể hiểu được đối với những người chưa quen;

Mã Morse hoặc mã điện báo không đồng đều, trong đó mỗi chữ cái hoặc ký hiệu được thể hiện bằng sự kết hợp riêng của các chùm dòng điện cơ bản ngắn (dấu chấm) và các chùm cơ bản có thời lượng ba lần (dấu gạch ngang);

ngôn ngữ ký hiệu là ngôn ngữ ký hiệu được người khiếm thính sử dụng.

Một trong những phương pháp mã hóa sớm nhất được biết đến được đặt theo tên của hoàng đế La Mã Julius Caesar (thế kỷ 1 trước Công nguyên). Phương pháp này dựa trên việc thay thế từng chữ cái của văn bản được mã hóa bằng một chữ cái khác, bằng cách dịch chuyển bảng chữ cái từ chữ cái gốc theo một số ký tự cố định và bảng chữ cái được đọc theo vòng tròn, nghĩa là sau chữ cái i, a được coi là . Vì vậy, từ “byte”, khi dịch chuyển hai ký tự sang phải, sẽ được mã hóa thành từ “gwlf”. Quá trình giải mã ngược lại một từ nhất định là cần thiết để thay thế mỗi chữ cái được mã hóa bằng chữ cái thứ hai ở bên trái của nó.

II. Thông tin mã hóa

Mã là một tập hợp các quy ước (hoặc tín hiệu) để ghi lại (hoặc truyền đạt) một số khái niệm được xác định trước.

Mã hóa thông tin là quá trình hình thành một biểu diễn thông tin cụ thể. Theo nghĩa hẹp hơn, thuật ngữ “mã hóa” thường được hiểu là sự chuyển đổi từ dạng biểu diễn thông tin này sang dạng biểu diễn thông tin khác, thuận tiện hơn cho việc lưu trữ, truyền tải hoặc xử lý.

Thông thường, mỗi hình ảnh khi mã hóa (đôi khi được gọi là mã hóa) được thể hiện bằng một dấu hiệu riêng.

Dấu hiệu là một phần tử của một tập hữu hạn các phần tử khác nhau.

Theo nghĩa hẹp hơn, thuật ngữ “mã hóa” thường ám chỉ sự chuyển đổi từ dạng biểu diễn thông tin này sang dạng biểu diễn thông tin khác, thuận tiện hơn cho việc lưu trữ, truyền tải hoặc xử lý.

Bạn có thể xử lý thông tin văn bản trên máy tính. Khi nhập vào máy tính, mỗi chữ cái được mã hóa bằng một số nhất định và khi xuất ra thiết bị bên ngoài (màn hình hoặc bản in), hình ảnh của các chữ cái được xây dựng từ những con số này để con người nhận thức. Sự tương ứng giữa một tập hợp các chữ cái và số được gọi là mã hóa ký tự.

Theo quy định, tất cả các số trong máy tính đều được biểu diễn bằng số 0 và số 1 (không phải mười chữ số như thường lệ đối với mọi người). Nói cách khác, máy tính thường hoạt động ở hệ thống số nhị phân, vì điều này làm cho các thiết bị xử lý chúng đơn giản hơn nhiều. Việc nhập số vào máy tính và xuất ra để con người đọc có thể được thực hiện ở dạng thập phân thông thường và tất cả các chuyển đổi cần thiết được thực hiện bởi các chương trình chạy trên máy tính.

III. Mã hóa thông tin văn bản

Thông tin tương tự có thể được trình bày (mã hóa) dưới nhiều hình thức. Với sự ra đời của máy tính, nhu cầu mã hóa tất cả các loại thông tin mà cả cá nhân và nhân loại nói chung đều nảy sinh. Nhưng loài người đã bắt đầu giải quyết vấn đề mã hóa thông tin từ rất lâu trước khi máy tính ra đời. Những thành tựu to lớn của nhân loại - chữ viết và số học - không gì khác hơn là một hệ thống mã hóa thông tin lời nói và số. Thông tin không bao giờ xuất hiện ở dạng thuần túy, nó luôn được trình bày bằng cách nào đó, được mã hóa bằng cách nào đó.

Mã hóa nhị phân là một trong những cách phổ biến để thể hiện thông tin. Trong máy tính, robot và máy điều khiển số, theo quy luật, tất cả thông tin mà thiết bị xử lý đều được mã hóa dưới dạng các từ của bảng chữ cái nhị phân.

Kể từ cuối những năm 60, máy tính ngày càng được sử dụng nhiều hơn để xử lý thông tin văn bản và hiện nay phần lớn máy tính cá nhân trên thế giới (và hầu hết thời gian) đều bận rộn với việc xử lý thông tin văn bản. Tất cả các loại thông tin này trong máy tính được trình bày dưới dạng mã nhị phân, nghĩa là sử dụng bảng chữ cái có lũy thừa hai (chỉ có hai ký tự 0 và 1). Điều này là do việc biểu diễn thông tin dưới dạng một chuỗi các xung điện sẽ thuận tiện: không có xung (0), có xung (1).

Mã hóa như vậy thường được gọi là nhị phân và các chuỗi logic của số 0 và số 1 được gọi là ngôn ngữ máy.

Theo quan điểm của máy tính, văn bản bao gồm các ký tự riêng lẻ. Các ký hiệu không chỉ bao gồm các chữ cái (chữ hoa hoặc chữ thường, tiếng Latin hoặc tiếng Nga), mà còn bao gồm các số, dấu chấm câu, các ký tự đặc biệt như "=", "(", "&", v.v. và thậm chí (đặc biệt chú ý!) khoảng trống giữa các từ.

Văn bản được nhập vào bộ nhớ của máy tính bằng bàn phím. Các chữ cái, số, dấu chấm câu và các ký hiệu khác mà chúng ta quen thuộc đều được viết trên các phím. Họ nhập RAM bằng mã nhị phân. Điều này có nghĩa là mỗi ký tự được biểu thị bằng mã nhị phân 8 bit.

Theo truyền thống, để mã hóa một ký tự, lượng thông tin bằng 1 byte được sử dụng, tức là I = 1 byte = 8 bit. Sử dụng công thức kết nối số sự kiện có thể xảy ra K và lượng thông tin I, bạn có thể tính toán có thể mã hóa bao nhiêu ký hiệu khác nhau (giả sử rằng các ký hiệu đó là sự kiện có thể xảy ra): K = 2 I = 2 8 = 256, tức là đối với To thể hiện thông tin văn bản, bạn có thể sử dụng bảng chữ cái có dung lượng 256 ký tự.

Số lượng ký tự này khá đủ để thể hiện thông tin văn bản, bao gồm chữ hoa và chữ thường của bảng chữ cái tiếng Nga và tiếng Latin, số, ký hiệu, ký hiệu đồ họa, v.v.

Trong quá trình hiển thị ký hiệu trên màn hình máy tính, quá trình ngược lại được thực hiện - giải mã, nghĩa là chuyển mã ký hiệu thành hình ảnh của nó. Điều quan trọng là việc gán một mã cụ thể cho một ký hiệu phải được thỏa thuận, được ghi trong bảng mã.

Bây giờ câu hỏi đặt ra là mã nhị phân 8 bit nào để gán cho mỗi ký tự. Rõ ràng đây là vấn đề có điều kiện, bạn có thể nghĩ ra nhiều phương pháp mã hóa.

Tất cả các ký tự trong bảng chữ cái máy tính được đánh số từ 0 đến 255. Mỗi số tương ứng với một mã nhị phân 8 bit từ 00000000 đến 11111111. Mã này đơn giản là số sê-ri của ký tự trong hệ thống số nhị phân.

IV . Các loại bảng mã hóa

Một bảng trong đó tất cả các ký tự trong bảng chữ cái máy tính được gán số sê-ri được gọi là bảng mã hóa.

Các loại máy tính khác nhau sử dụng các bảng mã hóa khác nhau.

Bảng mã ASCII (American Standard Code for Information Interchange) đã được thông qua như một tiêu chuẩn quốc tế, mã hóa nửa đầu ký tự bằng mã số từ 0 đến 127 (mã từ 0 đến 32 không được gán cho ký tự mà cho các phím chức năng) .

Bảng mã ASCII được chia thành hai phần.

Chỉ nửa đầu của bảng là tiêu chuẩn quốc tế, tức là ký tự có số từ 0 (00000000), đến 127 (01111111).

Cấu trúc bảng mã hóa ASCII

Số seri	Mã số	Biểu tượng
0 - 31	00000000 - 00011111	Các ký hiệu có số từ 0 đến 31 thường được gọi là ký hiệu điều khiển. Chức năng của chúng là điều khiển quá trình hiển thị văn bản trên màn hình hoặc in ấn, phát ra tín hiệu âm thanh, đánh dấu văn bản, v.v.
32 - 127	0100000 - 01111111	Phần tiêu chuẩn của bảng (tiếng Anh). Điều này bao gồm chữ thường và chữ in hoa của bảng chữ cái Latinh, số thập phân, dấu chấm câu, tất cả các loại dấu ngoặc, ký hiệu thương mại và các ký hiệu khác. Ký tự 32 là một khoảng trắng, tức là vị trí trống trong văn bản. Tất cả những người khác được phản ánh bởi các dấu hiệu nhất định.
128 - 255	10000000 - 11111111	Phần thay thế của bảng (tiếng Nga). Nửa sau của bảng mã ASCII, gọi là trang mã (128 mã, bắt đầu từ 10000000 và kết thúc bằng 11111111), có thể có các tùy chọn khác nhau, mỗi tùy chọn có số riêng. Trang mã chủ yếu được sử dụng để chứa các bảng chữ cái quốc gia khác ngoài tiếng Latinh. Trong bảng mã quốc gia của Nga, các ký tự trong bảng chữ cái tiếng Nga được đặt trong phần này của bảng.

Nửa đầu của bảng mã ASCII

Đối với các chữ cái trong bảng chữ cái tiếng Nga, nguyên tắc mã hóa tuần tự cũng được tuân thủ.

Nửa sau của bảng mã ASCII

Thật không may, hiện có năm bảng mã Cyrillic khác nhau (KOI8-R, Windows. MS-DOS, Macintosh và ISO). Vì điều này, các vấn đề thường nảy sinh khi chuyển văn bản tiếng Nga từ máy tính này sang máy tính khác, từ hệ thống phần mềm này sang hệ thống phần mềm khác.

Theo thời gian, một trong những tiêu chuẩn đầu tiên để mã hóa các chữ cái tiếng Nga trên máy tính là KOI8 ("Mã trao đổi thông tin, 8-bit"). Mã hóa này đã được sử dụng từ những năm 70 trên các máy tính thuộc dòng máy tính ES và từ giữa những năm 80, nó bắt đầu được sử dụng trong các phiên bản Nga hóa đầu tiên của hệ điều hành UNIX.

Từ đầu những năm 90, thời điểm hệ điều hành MS DOS thống trị, bảng mã CP866 vẫn được giữ nguyên ("CP" có nghĩa là "Trang mã", "trang mã").

Máy tính Apple chạy hệ điều hành Mac OS sử dụng mã hóa Mac của riêng họ.

Ngoài ra, Tổ chức Tiêu chuẩn Quốc tế (ISO) đã phê duyệt một bảng mã khác gọi là ISO 8859-5 làm tiêu chuẩn cho tiếng Nga.

Mã hóa phổ biến nhất hiện nay được sử dụng là Microsoft Windows, viết tắt CP1251. Được giới thiệu bởi Microsoft; Có tính đến sự phân phối rộng rãi của hệ điều hành (OS) và các sản phẩm phần mềm khác của công ty này tại Liên bang Nga, nó đã tìm thấy sự phân phối rộng rãi.

Từ cuối những năm 90, vấn đề chuẩn hóa bảng mã ký tự đã được giải quyết bằng sự ra đời của một tiêu chuẩn quốc tế mới mang tên Unicode.

Đây là mã hóa 16 bit, tức là nó phân bổ 2 byte bộ nhớ cho mỗi ký tự. Tất nhiên, điều này làm tăng dung lượng bộ nhớ bị chiếm dụng lên gấp 2 lần. Nhưng bảng mã như vậy cho phép bao gồm tối đa 65536 ký tự. Đặc tả đầy đủ của tiêu chuẩn Unicode bao gồm tất cả các bảng chữ cái hiện có, đã tuyệt chủng và được tạo ra một cách nhân tạo trên thế giới, cũng như nhiều ký hiệu toán học, âm nhạc, hóa học và các ký hiệu khác.

Biểu diễn nội bộ của các từ trong bộ nhớ máy tính

sử dụng bảng ASCII

Đôi khi, điều đó xảy ra là không thể đọc được văn bản bao gồm các chữ cái trong bảng chữ cái tiếng Nga nhận được từ một máy tính khác - một loại "abracadabra" nào đó hiển thị trên màn hình điều khiển. Điều này xảy ra vì máy tính sử dụng các cách mã hóa ký tự khác nhau cho tiếng Nga.

Vì vậy, mỗi bảng mã được xác định bằng bảng mã riêng của nó. Như có thể thấy từ bảng, các ký tự khác nhau được gán cho cùng một mã nhị phân trong các bảng mã khác nhau.

Ví dụ: dãy mã số 221, 194, 204 trong bảng mã CP1251 tạo thành từ “máy tính”, trong khi ở các bảng mã khác nó sẽ là một tập hợp ký tự vô nghĩa.

May mắn thay, trong hầu hết các trường hợp, người dùng không phải lo lắng về việc chuyển mã tài liệu văn bản, vì việc này được thực hiện bằng các chương trình chuyển đổi đặc biệt được tích hợp trong ứng dụng.

V. . Tính toán lượng thông tin văn bản

Nhiệm vụ 1: Mã hóa từ “Rome” bằng bảng mã hóa KOI8-R và CP1251.

Giải pháp:

Nhiệm vụ 2: Giả sử mỗi ký tự được mã hóa thành một byte, hãy ước tính khối lượng thông tin của câu sau:

“Chú tôi có những quy tắc trung thực nhất,

Khi tôi lâm bệnh nặng,

Anh buộc mình phải tôn trọng

Và tôi không thể nghĩ ra điều gì tốt hơn.”

Giải pháp: Cụm từ này có 108 ký tự, bao gồm dấu câu, dấu ngoặc kép và dấu cách. Chúng tôi nhân số này với 8 bit. Chúng tôi nhận được 108*8=864 bit.

Nhiệm vụ 3: Hai văn bản có cùng số ký tự. Văn bản đầu tiên được viết bằng tiếng Nga và văn bản thứ hai bằng ngôn ngữ của bộ tộc Naguri, bảng chữ cái bao gồm 16 ký tự. Văn bản của ai chứa nhiều thông tin hơn?

Giải pháp:

1) I = K * a (khối lượng thông tin của văn bản bằng tích của số ký tự và trọng lượng thông tin của một ký tự).

2) Bởi vì Cả hai văn bản đều có cùng số ký tự (K), sau đó sự khác biệt phụ thuộc vào nội dung thông tin của một ký tự trong bảng chữ cái (a).

3) 2 a1 = 32, tức là a 1 = 5 bit, 2 a2 = 16, tức là và 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Điều này có nghĩa là văn bản viết bằng tiếng Nga mang lượng thông tin nhiều hơn 5/4 lần.

Nhiệm vụ 4: Kích thước của tin nhắn, chứa 2048 ký tự, là 1/512 MB. Xác định sức mạnh của bảng chữ cái.

Giải pháp:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - chuyển đổi khối lượng thông tin của tin nhắn thành bit.

2) a = I / K = 16384 /1024 = 16 bit - chiếm một ký tự của bảng chữ cái.

3) 2*16*2048 = 65536 ký tự – sức mạnh của bảng chữ cái được sử dụng.

Nhiệm vụ 5: Máy in laser Canon LBP in ở tốc độ trung bình 6,3 Kbps. Sẽ mất bao lâu để in một tài liệu 8 trang, nếu bạn biết rằng một trang có trung bình 45 dòng và 70 ký tự trên mỗi dòng (1 ký tự - 1 byte)?

Giải pháp:

1) Tìm lượng thông tin có trên 1 trang: 45 * 70 * 8 bit = 25200 bit

2) Tìm lượng thông tin trên 8 trang: 25200 * 8 = 201600 bit

3) Chúng tôi rút gọn về các đơn vị đo lường thông thường. Để thực hiện việc này, chúng tôi chuyển đổi Mbit thành bit: 6,3*1024=6451,2 bit/giây.

4) Tìm thời gian in: 201600: 6451,2 =31 giây.

Thư mục

1. Ageev V.M. Lý thuyết thông tin và mã hóa: lấy mẫu và mã hóa thông tin đo lường. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Nguyên tắc cơ bản của lý thuyết thông tin và mã hóa. - Kyiv, trường Vishcha, 1986.

3. Các phương pháp mã hóa văn bản đơn giản nhất / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 tr.

4. Ugrinovich N.D. Khoa học máy tính và công nghệ thông tin. Sách giáo khoa lớp 10-11/N.D. Ugrinovich. – M.: BINOM. Phòng thí nghiệm Tri thức, 2003. – 512 tr.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Tài liệu tự học chủ đề Bài giảng 2

Mã hóa ASCII

Bảng mã hóa ASCII (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

Tổng cộng có 256 ký tự khác nhau có thể được mã hóa bằng bảng mã hóa ASCII (Hình 1). Bảng này được chia thành hai phần: phần chính (có mã từ OOh đến 7Fh) và phần bổ sung (từ 80h đến FFh, trong đó chữ h chỉ ra rằng mã thuộc hệ thập lục phân).

Bức tranh 1

Để mã hóa một ký tự từ bảng, 8 bit (1 byte) được phân bổ. Khi xử lý thông tin văn bản, một byte có thể chứa mã của một ký tự nhất định - một chữ cái, số, dấu chấm câu, dấu hiệu hành động, v.v. Mỗi ký tự có mã riêng ở dạng số nguyên. Trong trường hợp này, tất cả các mã được thu thập trong các bảng đặc biệt gọi là bảng mã hóa. Với sự trợ giúp của họ, mã ký hiệu sẽ được chuyển đổi thành dạng hiển thị rõ ràng trên màn hình điều khiển. Kết quả là, bất kỳ văn bản nào trong bộ nhớ máy tính đều được biểu diễn dưới dạng một chuỗi byte có mã ký tự.

Ví dụ: từ xin chào! sẽ được mã hóa như sau (Bảng 1).

Bảng 1


Mã nhị phân
Mã thập phân

Hình 1 cho thấy các ký tự có trong mã hóa ASCII tiêu chuẩn (tiếng Anh) và mở rộng (tiếng Nga).

Nửa đầu của bảng ASCII được chuẩn hóa. Nó chứa mã kiểm soát (từ 00h đến 20h và 77h). Các mã này đã bị xóa khỏi bảng vì chúng không áp dụng cho các thành phần văn bản. Các dấu câu và ký hiệu toán học cũng được đặt ở đây: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., chữ Latin lớn và nhỏ: 41h - A, 61h – a.

Nửa sau của bảng chứa các phông chữ quốc gia, các ký hiệu giả mà từ đó các bảng có thể được xây dựng và các ký hiệu toán học đặc biệt. Phần dưới của bảng mã hóa có thể được thay thế bằng các trình điều khiển thích hợp - các chương trình phụ trợ điều khiển. Kỹ thuật này cho phép bạn sử dụng một số phông chữ và kiểu chữ của chúng.

Màn hình hiển thị cho mỗi mã ký hiệu sẽ hiển thị hình ảnh của ký hiệu - không chỉ là mã kỹ thuật số mà còn là hình ảnh tương ứng, vì mỗi ký hiệu có hình dạng riêng. Mô tả về hình dạng của từng ký tự được lưu trữ trong bộ nhớ hiển thị đặc biệt - bộ tạo ký tự. Ví dụ, việc làm nổi bật một ký tự trên màn hình của màn hình PC IBM được thực hiện bằng cách sử dụng các dấu chấm tạo thành ma trận ký tự. Mỗi pixel trong ma trận như vậy là một thành phần hình ảnh và có thể sáng hoặc tối. Chấm tối được mã hóa là 0, chấm sáng (sáng) là 1. Nếu bạn biểu thị các pixel tối trong trường ma trận của ký hiệu dưới dạng dấu chấm và pixel sáng dưới dạng dấu hoa thị, bạn có thể mô tả bằng đồ họa hình dạng của ký hiệu.

Người dân ở các quốc gia khác nhau sử dụng các ký hiệu để viết từ bằng ngôn ngữ mẹ đẻ của họ. Ngày nay, hầu hết các ứng dụng, bao gồm hệ thống email và trình duyệt web, đều là 8 bit thuần túy, nghĩa là chúng chỉ có thể hiển thị và chấp nhận chính xác các ký tự 8 bit, theo tiêu chuẩn ISO-8859-1.

Có hơn 256 ký tự trên thế giới (nếu tính đến chữ Cyrillic, tiếng Ả Rập, tiếng Trung, tiếng Nhật, tiếng Hàn và tiếng Thái), và ngày càng có nhiều ký tự mới xuất hiện. Và điều này tạo ra những khoảng trống sau cho nhiều người dùng:

Không thể sử dụng các ký tự từ các bộ mã hóa khác nhau trong cùng một tài liệu. Vì mỗi tài liệu văn bản sử dụng bộ mã hóa riêng nên việc nhận dạng văn bản tự động gặp nhiều khó khăn.

Các ký hiệu mới xuất hiện (ví dụ: Euro), do đó ISO đang phát triển một tiêu chuẩn mới, ISO-8859-15, rất giống với tiêu chuẩn ISO-8859-1. Điểm khác biệt là bảng mã hóa ISO-8859-1 cũ đã loại bỏ các ký hiệu cho các loại tiền cũ hiện không được sử dụng để nhường chỗ cho các ký hiệu mới được giới thiệu (chẳng hạn như đồng Euro). Kết quả là người dùng có thể có cùng một tài liệu trên đĩa của họ nhưng ở các bảng mã khác nhau. Giải pháp cho những vấn đề này là việc áp dụng một bộ mã hóa quốc tế duy nhất được gọi là Mã hóa phổ quát hoặc Unicode.

Mã hóa bảng mã Unicode

Tiêu chuẩn này được đề xuất vào năm 1991 bởi tổ chức phi lợi nhuận Unicode Consortium (Unicode Inc.). Việc sử dụng tiêu chuẩn này cho phép bạn mã hóa một số lượng rất lớn các ký tự từ các tập lệnh khác nhau: Tài liệu Unicode có thể chứa các ký tự tiếng Trung, ký hiệu toán học, các chữ cái trong bảng chữ cái Hy Lạp, bảng chữ cái Latinh và Cyrillic và việc chuyển đổi các trang mã trở nên không cần thiết.

Tiêu chuẩn này bao gồm hai phần chính: bộ ký tự phổ quát (UCS) và họ mã hóa (UTF, định dạng chuyển đổi Unicode). Bộ ký tự phổ quát chỉ định sự tương ứng một-một giữa các ký tự và mã - các phần tử của không gian mã biểu thị các số nguyên không âm. Họ mã hóa xác định cách biểu diễn máy của một chuỗi mã UCS.

Tiêu chuẩn Unicode được phát triển để tạo ra một mã hóa ký tự đơn cho tất cả các ngôn ngữ viết hiện đại và cổ xưa. Mỗi ký tự trong tiêu chuẩn này được mã hóa bằng 16 bit, cho phép nó bao gồm số lượng ký tự lớn hơn nhiều so với mã hóa 8 bit được chấp nhận trước đó. Một điểm khác biệt quan trọng khác giữa Unicode và các hệ thống mã hóa khác là nó không chỉ gán một mã duy nhất cho mỗi ký tự mà còn xác định các đặc điểm khác nhau của ký tự đó, ví dụ:

loại ký tự (chữ hoa, chữ thường, số, dấu chấm câu, v.v.);

thuộc tính ký tự (hiển thị từ trái sang phải hoặc phải sang trái, dấu cách, ngắt dòng, v.v.);

chữ hoa hoặc chữ thường tương ứng (tương ứng với chữ thường và chữ in hoa);

giá trị số tương ứng (đối với ký tự số).

Toàn bộ phạm vi mã từ 0 đến FFFF được chia thành nhiều tập hợp con tiêu chuẩn, mỗi tập hợp con tương ứng với bảng chữ cái của ngôn ngữ hoặc với một nhóm ký tự đặc biệt có chức năng tương tự nhau. Sơ đồ bên dưới chứa danh sách chung các tập hợp con Unicode 3.0 (Hình 2).

Hình 2

Chuẩn Unicode là cơ sở để lưu trữ văn bản trong nhiều hệ thống máy tính hiện đại. Tuy nhiên, nó không tương thích với hầu hết các giao thức Internet vì mã của nó có thể chứa bất kỳ giá trị byte nào và các giao thức thường sử dụng byte 00 - 1F và FE - FF làm byte dịch vụ. Để đạt được khả năng tương thích, một số Định dạng chuyển đổi Unicode (UTF) đã được phát triển, trong đó UTF-8 là phổ biến nhất. Định dạng này xác định các quy tắc sau để chuyển đổi từng mã Unicode thành một tập hợp byte (một đến ba) phù hợp để truyền tải bằng các giao thức Internet.

Ở đây x,y,z biểu thị các bit của mã nguồn cần được trích xuất, bắt đầu bằng bit có ý nghĩa nhỏ nhất và được nhập vào các byte kết quả từ phải sang trái cho đến khi tất cả các vị trí được chỉ định được lấp đầy.

Sự phát triển hơn nữa của tiêu chuẩn Unicode gắn liền với việc bổ sung các mặt phẳng ngôn ngữ mới, tức là. các ký tự trong phạm vi 10000 - 1FFFF, 20000 - 2FFFF, v.v., trong đó nó được cho là bao gồm mã hóa cho các tập lệnh của ngôn ngữ chết không có trong bảng trên. Một định dạng mới, UTF-16, đã được phát triển để mã hóa các ký tự bổ sung này.

Vì vậy, có 4 cách chính để mã hóa byte Unicode:

UTF-8: 128 ký tự được mã hóa thành một byte (định dạng ASCII), 1920 ký tự được mã hóa thành 2 byte ((ký tự La Mã, Hy Lạp, Cyrillic, Coptic, Armenia, tiếng Do Thái, tiếng Ả Rập), 63488 ký tự được mã hóa thành 3 byte (tiếng Trung, tiếng Nhật, v.v.) .) 2.147.418.112 ký tự còn lại (chưa được sử dụng) có thể được mã hóa bằng 4, 5 hoặc 6 byte.

UCS-2: Mỗi ký tự được biểu thị bằng 2 byte. Mã hóa này chỉ bao gồm 65.535 ký tự đầu tiên từ định dạng Unicode.

UTF-16: Phần mở rộng của UCS-2, nó chứa 1.114.112 ký tự định dạng Unicode. 65.535 ký tự đầu tiên được biểu thị bằng 2 byte, phần còn lại bằng 4 byte.

USC-4: Mỗi ký tự được mã hóa thành 4 byte.