Cod ascii zecimal. Codificarea informațiilor text

Dec Hex Simbol Dec Hex Simbol
000 00 specialist. NOP 128 80 Ђ
001 01 specialist. DECI H 129 81 Ѓ
002 02 specialist. STX 130 82
003 03 specialist. ETX 131 83 ѓ
004 04 specialist. EOT 132 84
005 05 specialist. ENQ 133 85
006 06 specialist. ACK 134 86
007 07 specialist. BEL 135 87
008 08 specialist. B.S. 136 88
009 09 specialist. TAB 137 89
010 0Aspecialist. LF 138 8AЉ
011 0Bspecialist. VT 139 8B‹ ‹
012 0Cspecialist. FF 140 8CЊ
013 0Dspecialist. CR 141 8 DЌ
014 0Especialist. ASA DE 142 8EЋ
015 0Fspecialist. SI. 143 8FЏ
016 10 specialist. DLE 144 90 ђ
017 11 specialist. DC1 145 91
018 12 specialist. DC2 146 92
019 13 specialist. DC3 147 93
020 14 specialist. DC4 148 94
021 15 specialist. N.A.K. 149 95
022 16 specialist. SYN 150 96
023 17 specialist. ETB 151 97
024 18 specialist. POATE SA 152 98
025 19 specialist. E.M. 153 99
026 1Aspecialist. SUB 154 9Aљ
027 1Bspecialist. ESC 155 9B
028 1Cspecialist. FS 156 9Cњ
029 1Dspecialist. G.S. 157 9Dќ
030 1Especialist. R.S. 158 9Eћ
031 1Fspecialist. NE 159 9Fџ
032 20 ambreiaj SP (Spațiu) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Eu
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 ANUNȚ­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 B.C.ј
061 3D= 189 BDЅ
062 3E> 190 FIѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 ÎN
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 ȘI
071 47 G 199 C7 Z
072 48 H 200 C8 ȘI
073 49 eu 201 C9 Y
074 4AJ 202 C.A. LA
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. DESPRE
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 CU
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 SH
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF eu
096 60 ` 224 E0 A
097 61 A 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 și
103 67 g 231 E7 h
104 68 h 232 E8 Și
105 69 i 233 E9 th
106 6Aj 234 E.A. La
107 6Bk 235 E.B. l
108 6Cl 236 E.C. m
109 6Dm 237 ED n
110 6En 238 E.E. O
111 6Fo 239 E.F. P
112 70 p 240 F0 R
113 71 q 241 F1 Cu
114 72 r 242 F2 T
115 73 s 243 F3 la
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 X 248 F8 w
121 79 y 249 F9 sch
122 7Az 250 FA. ъ
123 7B{ 251 FB s
124 7C| 252 F.C. b
125 7D} 253 FD uh
126 7E~ 254 F.E. Yu
127 7FSpecialist. DEL 255 FF eu

Tabel de coduri de caractere ASCII Windows.
Descrierea caracterelor speciale (de control).

Trebuie remarcat faptul că caracterele de control ale tabelului ASCII au fost utilizate inițial pentru a asigura schimbul de date prin telemașină, introducerea datelor de pe bandă perforată și pentru controlul simplu al dispozitivelor externe.
În prezent, majoritatea caracterelor de control ale tabelelor ASCII nu mai poartă această sarcină și pot fi folosite în alte scopuri.
Cod Descriere
NUL, 00Nul, gol
SOH, 01Începutul titlului
STX, 02Începutul textului, începutul textului.
ETX, 03Sfârșitul textului, sfârșitul textului
EOT, 04Sfârșitul transmisiei, sfârșitul transmisiei
ENQ, 05Întreba. Vă rugăm să confirmați
ACK, 06Confirmare. confirm
BEL, 07Bell, sună
BS, 08Backspace, întoarceți un caracter înapoi
TAB, 09Filă, filă orizontală
LF, 0ALine Feed, line feed.
În zilele noastre, în majoritatea limbajelor de programare este notat ca \n
VT, 0BFilă verticală, tabulare verticală.
FF, 0CFeed de formulare, feed de pagini, pagină nouă
CR, 0DÎntoarcere cu cărucior, întoarcere cu cărucior.
În prezent, în majoritatea limbajelor de programare este notat cu \r
deci,0EShift Out, schimbați culoarea benzii de cerneală din dispozitivul de imprimare
SI, 0FSchimbați, întoarceți înapoi culoarea benzii de cerneală din dispozitivul de imprimare
DLE, 10Data Link Escape, comutarea canalului la transmisia de date
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Controlul dispozitivului, simboluri de control al dispozitivului
NAK, 15Confirmare negativă, nu confirm.
SYN, 16Sincronizare. Simbol de sincronizare
ETB, 17Sfârșitul blocului de text, sfârșitul blocului de text
CAN, 18Anulare, anulare a unui transmis anterior
EM, 19Sfârșitul Mediului
SUB, 1AÎnlocuitor, înlocuitor. Plasat în locul unui simbol al cărui sens a fost pierdut sau corupt în timpul transmiterii
ESC, 1BSecvență de control de evacuare
FS, 1CSeparator de fișiere, separator de fișiere
GS, 1DSeparator de grup
RS, 1ESeparator de înregistrări, separator de înregistrări
SUA, 1FSeparator de unități
DEL, 7FȘtergeți, ștergeți ultimul caracter.

Pentru a utiliza corect ASCII, este necesar să vă extindeți cunoștințele în acest domeniu și despre capabilitățile de codare.

Ce este?

ASCII este un tabel de codificare de caractere tipărite (vezi captura de ecran nr. 1) tastate pe tastatura unui computer pentru a transmite informații și unele coduri. Cu alte cuvinte, alfabetul și cifrele zecimale sunt codificate în simboluri corespunzătoare care reprezintă și poartă informațiile necesare.

ASCII a fost dezvoltat în America, astfel încât setul de caractere standard include de obicei alfabetul englezesc cu numere, pentru un total de aproximativ 128 de caractere. Dar atunci apare o întrebare corectă: ce să faceți dacă este necesară codificarea alfabetului național?

Alte versiuni ale tabelului ASCII au fost dezvoltate pentru a aborda probleme similare. De exemplu, pentru limbile cu o structură străină, literele alfabetului englez au fost fie eliminate, fie li s-au adăugat caractere suplimentare sub forma unui alfabet național. Astfel, codificarea ASCII poate conține litere rusești pentru uz național (vezi captura de ecran nr. 2).

Unde este folosit sistemul de codare ASCII?

Acest sistem de codare este necesar nu numai pentru tastarea informațiilor text pe tastatură. Este folosit și în grafică. De exemplu, în programul ASCII Art Maker, imaginile grafice ale diferitelor extensii constau dintr-o serie de caractere ASCII (vezi captura de ecran nr. 3).


De regulă, astfel de programe pot fi împărțite în cele care îndeplinesc funcția de editor grafic, inversând o imagine în text și cele care convertesc o imagine în grafică ASCII. Emoticonul binecunoscut (sau cum se mai numește și „ chip uman zâmbitor") este, de asemenea, un exemplu de caracter de codificare.

Această metodă de codificare poate fi folosită și la scrierea sau crearea unui document HTML. De exemplu, introduceți un set specific și necesar de caractere, iar la vizualizarea paginii în sine, simbolul corespunzător acestui cod va fi afișat pe ecran.

Printre altele, acest tip de codificare este necesar la crearea unui site web multilingv, deoarece caracterele care nu sunt incluse într-unul sau altul tabel național vor trebui înlocuite cu coduri ASCII. Dacă cititorul este conectat direct cu tehnologiile informației și comunicațiilor (TIC), atunci îi va fi util să se familiarizeze cu sisteme precum:

  1. set de caractere portabil;
  2. Personaje de control;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. arta ASCII;
  8. KOI-8.

Proprietăți tabelului ASCII

Ca orice program sistematic, ASCII are propriile sale proprietăți caracteristice. Deci, de exemplu, sistemul numeric zecimal (cifre de la 0 la 9) este convertit în sistemul numeric binar (adică, fiecare cifră zecimală este convertită în binar 288 = 1001000, respectiv).

Literele situate în coloanele superioare și inferioare diferă unele de altele doar printr-un pic, ceea ce reduce semnificativ nivelul de complexitate al verificării și editării cazului.

Cu toate aceste proprietăți, codificarea ASCII funcționează ca pe opt biți, deși inițial a fost intenționat să fie pe șapte biți.

Utilizarea ASCII în programele Microsoft Office:

Dacă este necesar, această opțiune pentru codificarea informațiilor poate fi utilizată în Microsoft Notepad și Microsoft Office Word. În cadrul acestor aplicații, documentul poate fi salvat în format ASCII, dar în acest caz, nu veți putea folosi unele funcții la introducerea textului.

În special, caracterele aldine și aldine nu vor fi disponibile deoarece codificarea păstrează doar sensul informațiilor tastate, și nu aspectul și forma generală. Puteți adăuga astfel de coduri la un document utilizând următoarele aplicații software:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft InfoPath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft powerpoint;
  • Microsoft Project.

Merită să luați în considerare faptul că atunci când introduceți cod ASCII în aceste aplicații, trebuie să țineți apăsată tasta ALT.

Desigur, toate codurile necesare necesită un studiu mai lung și mai detaliat, dar acest lucru depășește scopul articolului nostru de astăzi. Sper că l-ai găsit cu adevărat util.

Ne mai vedem!

Rău Bun

[Codări pe 8 biți: ASCII, KOI-8R și CP1251] Primele tabele de codificare create în Statele Unite nu au folosit al optulea bit dintr-un octet. Textul a fost reprezentat ca o secvență de octeți, dar al optulea bit nu a fost luat în considerare (a fost folosit în scopuri oficiale).

Tabelul a devenit un standard general acceptat ASCII(Codul American Standard pentru Schimbul de Informații). Primele 32 de caractere ale tabelului ASCII (de la 00 la 1F) au fost folosite pentru caracterele care nu se imprimă. Au fost concepute pentru a controla un dispozitiv de imprimare etc. Restul - de la 20 la 7F - sunt caractere obișnuite (printabile).

Tabelul 1 - Codificare ASCII

DecHexoctCharDescriere
0 0 000 nul
1 1 001 începutul direcției
2 2 002 începutul textului
3 3 003 sfârşitul textului
4 4 004 sfârşitul transmisiei
5 5 005 Anchetă
6 6 006 recunoaște
7 7 007 clopot
8 8 010 backspace
9 9 011 filă orizontală
10 A 012 linie nouă
11 B 013 filă verticală
12 C 014 pagina noua
13 D 015 retur transport
14 E 016 schimbă afară
15 F 017 schimbă în
16 10 020 evadare legaturii de date
17 11 021 controlul dispozitivului 1
18 12 022 controlul dispozitivului 2
19 13 023 controlul dispozitivului 3
20 14 024 controlul dispozitivului 4
21 15 025 recunoaștere negativă
22 16 026 inactiv sincron
23 17 027 sfârşitul trans. bloc
24 18 030 Anulare
25 19 031 sfârşitul mediei
26 1A 032 substitui
27 1B 033 evadare
28 1C 034 separator de fișiere
29 1D 035 separator de grup
30 1E 036 separator de înregistrări
31 1F 037 separator de unitate
32 20 040 spaţiu
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
DecHexoctChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 eu
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 A
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 p
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 X
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

După cum puteți vedea cu ușurință, această codificare conține doar litere latine și cele care sunt folosite în limba engleză. Există, de asemenea, aritmetice și alte simboluri de serviciu. Dar nu există nici litere rusești, nici măcar latine speciale pentru germană sau franceză. Acest lucru este ușor de explicat - codificarea a fost dezvoltată special ca standard american. Pe măsură ce computerele au început să fie folosite în întreaga lume, alte caractere au trebuit să fie codificate.

Pentru a face acest lucru, s-a decis să se folosească al optulea bit din fiecare octet. Acest lucru a făcut să fie disponibile încă 128 de valori (de la 80 la FF) care ar putea fi folosite pentru a codifica caractere. Primul dintre tabelele de opt biți este „ASCII extins” ( ASCII extins) - a inclus diverse variante de caractere latine utilizate în unele limbi ale Europei de Vest. Conținea și alte simboluri suplimentare, inclusiv pseudografice.

Caracterele pseudografice vă permit să oferiți o imagine de grafică afișând doar caractere text pe ecran. De exemplu, programul de gestionare a fișierelor FAR Manager funcționează folosind pseudografice.

Nu existau litere rusești în tabelul ASCII extins. Rusia (fosta URSS) și alte țări și-au creat propriile codificări care au făcut posibilă reprezentarea unor caractere „naționale” specifice în fișiere text pe 8 biți - litere latine ale limbilor poloneză și cehă, chirilice (inclusiv litere rusești) și alte alfabete.

În toate codificările care au devenit răspândite, primele 127 de caractere (adică valoarea octetului cu al optulea bit egal cu 0) sunt aceleași cu ASCII. Deci, un fișier ASCII funcționează în oricare dintre aceste codificări; Literele limbii engleze sunt reprezentate în același mod.

Organizare ISO(International Standardization Organization) a adoptat un grup de standarde ISO 8859. Acesta definește codificări pe 8 biți pentru diferite grupuri de limbi. Deci, ISO 8859-1 este un tabel ASCII extins pentru SUA și Europa de Vest. Și ISO 8859-5 este un tabel pentru alfabetul chirilic (inclusiv rus).

Cu toate acestea, din motive istorice, codarea ISO 8859-5 nu a prins rădăcini. În realitate, pentru limba rusă sunt folosite următoarele codificări:

Pagina de cod 866 ( CP866), alias „DOS”, alias „codare GOST alternativă”. Folosit pe scară largă până la mijlocul anilor 90; folosit acum într-o măsură limitată. Practic nu este folosit pentru distribuirea de texte pe Internet.
- KOI-8. Dezvoltat în anii 70-80. Este un standard general acceptat pentru transmiterea mesajelor de e-mail pe internetul rusesc. De asemenea, este utilizat pe scară largă în sistemele de operare din familia Unix, inclusiv Linux. Se numește versiunea KOI-8, concepută pentru rusă KOI-8R; Există versiuni pentru alte limbi chirilice (de exemplu, KOI8-U este o versiune pentru limba ucraineană).
- Pagina de cod 1251, CP1251,Windows-1251. Dezvoltat de Microsoft pentru a sprijini limba rusă în Windows.

Principalul avantaj al CP866 a fost păstrarea caracterelor pseudo-grafice în aceleași locuri ca în ASCII extins; prin urmare, programele cu text străin, de exemplu, celebrul Norton Commander, ar putea funcționa fără modificări. CP866 este acum utilizat pentru programele Windows care rulează în ferestre text sau în modul text pe ecran complet, inclusiv FAR Manager.

Textele din CP866 au fost destul de rare în ultimii ani (dar este folosit pentru a codifica numele fișierelor rusești în Windows). Prin urmare, ne vom opri mai detaliat asupra altor două codificări - KOI-8R și CP1251.



După cum puteți vedea, în tabelul de codificare CP1251, literele rusești sunt aranjate în ordine alfabetică (cu excepția, însă, a literei E). Acest aranjament facilitează sortarea alfabetică a programelor de calculator.

Dar în KOI-8R ordinea literelor rusești pare aleatorie. Dar de fapt nu este.

În multe programe mai vechi, al 8-lea bit a fost pierdut la procesarea sau transmiterea textului. (Acum, astfel de programe sunt practic „disparute”, dar la sfârșitul anilor 80 - începutul anilor 90 erau răspândite). Pentru a obține o valoare de 7 biți dintr-o valoare de 8 biți, doar scădeți 8 din cifra cea mai semnificativă; de exemplu, E1 devine 61.

Acum comparați KOI-8R cu tabelul ASCII (Tabelul 1). Veți descoperi că literele rusești sunt plasate în corespondență clară cu cele latine. Dacă al optulea bit dispare, literele rusești mici se transformă în litere latine mari, iar literele rusești mari se transformă în litere latine mici. Deci, E1 în KOI-8 este „A” rusesc, în timp ce 61 în ASCII este „a” latin.

Deci, KOI-8 vă permite să mențineți lizibilitatea textului rusesc atunci când al 8-lea bit este pierdut. „Salut tuturor” devine „pRIWET WSEM”.

Recent, atât ordinea alfabetică a caracterelor din tabelul de codificare, cât și lizibilitatea cu pierderea celui de-al 8-lea bit și-au pierdut importanța decisivă. Al optulea bit în computerele moderne nu se pierde în timpul transmisiei sau procesării. Iar sortarea alfabetică se face ținând cont de codificare, și nu prin simpla comparare a codurilor. (Apropo, codurile CP1251 nu sunt complet aranjate alfabetic - litera E nu este la locul ei).

Datorită faptului că există două codificări comune, atunci când lucrați cu Internetul (e-mail, navigarea pe site-uri web), uneori puteți vedea un set de litere fără sens în loc de text rusesc. De exemplu, „EU SUNT SBYUFEMHEL”. Acestea sunt doar cuvintele „cu respect”; dar au fost codificate în codificare CP1251, iar computerul a decodat textul folosind tabelul KOI-8. Dacă aceleași cuvinte, dimpotrivă, ar fi codificate în KOI-8, iar computerul ar decoda textul conform tabelului CP1251, rezultatul ar fi „U HCHBTSEOYEN”.

Uneori se întâmplă ca un computer să descifreze literele în limba rusă folosind un tabel care nu este destinat limbii ruse. Apoi, în locul literelor rusești, apare un set de simboluri fără sens (de exemplu, litere latine ale limbilor est-europene); ele sunt adesea numite „crocozybras”.

În cele mai multe cazuri, programele moderne se ocupă de determinarea în mod independent a codificărilor documentelor de pe Internet (e-mailuri și pagini web). Dar uneori „raușesc”, apoi puteți vedea secvențe ciudate de litere rusești sau „krokozyabry”. De regulă, într-o astfel de situație, pentru a afișa text real pe ecran, este suficient să selectați codarea manual în meniul programului.

Pentru acest articol au fost folosite informații de pe pagina http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Material preluat de pe site:

Unicode (Unicode în engleză) este un standard de codificare a caracterelor. Mai simplu spus, acesta este un tabel de corespondență între caracterele textului ( , litere, elemente de punctuație) coduri binare. Calculatorul înțelege doar succesiunea de zerouri și unu. Pentru ca acesta să știe exact ce ar trebui să afișeze pe ecran, este necesar să atribuie fiecărui caracter propriul său număr unic. În anii optzeci, caracterele erau codificate într-un octet, adică opt biți (fiecare bit este un 0 sau 1). Astfel, s-a dovedit că un tabel (aka codificare sau set) poate găzdui doar 256 de caractere. Acest lucru poate să nu fie suficient chiar și pentru o singură limbă. Prin urmare, au apărut multe codificări diferite, confuzia cu care a dus adesea la apariția unor farfurii ciudate pe ecran în loc de text care poate fi citit. Era necesar un singur standard, ceea ce a devenit Unicode. Cea mai folosită codificare este UTF-8 (Unicode Transformation Format), care utilizează 1 până la 4 octeți pentru a reprezenta un caracter.

Simboluri

Caracterele din tabelele Unicode sunt numerotate cu numere hexazecimale. De exemplu, litera majusculă chirilică M este desemnată U+041C. Aceasta înseamnă că se află la intersecția rândului 041 și coloanei C. Puteți să-l copiați pur și simplu și apoi să-l lipiți undeva. Pentru a nu scotoci printr-o listă de mai mulți kilometri, ar trebui să folosiți căutarea. Când accesați pagina cu simboluri, veți vedea numărul său Unicode și cum este scris în diferite fonturi. Puteți introduce semnul în sine în bara de căutare, chiar dacă în schimb este desenat un pătrat, măcar pentru a afla ce a fost. De asemenea, pe acest site există seturi speciale (și aleatorii) de același tip de pictograme, colectate din diferite secțiuni, pentru ușurință în utilizare.

Standardul Unicode este internațional. Include personaje din aproape toate scenariile lumii. Inclusiv cele care nu mai sunt folosite. Hieroglife egiptene, rune germanice, scriere mayașă, cuneiforme și alfabete ale statelor antice. Sunt prezentate, de asemenea, denumiri ale greutăților și măsurilor, notația muzicală și conceptele matematice.

Consorțiul Unicode în sine nu inventează caractere noi. Acele icoane care își găsesc utilizarea în societate sunt adăugate pe tabele. De exemplu, semnul rublei a fost folosit în mod activ timp de șase ani înainte de a fi adăugat la Unicode. Pictogramele emoji (emoticoane) au fost, de asemenea, utilizate pe scară largă în Japonia înainte de a fi incluse în codificare. Dar mărcile comerciale și siglele companiei nu sunt adăugate în principiu. Chiar și cele obișnuite precum Apple Apple sau Windows flag. Până în prezent, aproximativ 120 de mii de caractere sunt codificate în versiunea 8.0.

Să ne amintim câteva fapte pe care le știm:

Setul de simboluri cu care este scris textul se numește alfabet.

Numărul de caractere dintr-un alfabet este cardinalitatea acestuia.

Formula pentru determinarea cantității de informații: N = 2 b,

unde N este puterea alfabetului (numărul de caractere),

b - numărul de biți (greutatea informației simbolului).

Alfabetul cu o capacitate de 256 de caractere poate găzdui aproape toate caracterele necesare. Un astfel de alfabet se numește suficient.

Deoarece 256 = 2 8 , atunci greutatea unui caracter este de 8 biți.

Unitatea de măsură 8 biți a primit numele 1 octet:

1 octet = 8 biți.

Codul binar al fiecărui caracter din textul computerului ocupă 1 octet de memorie.

Cum sunt reprezentate informațiile text în memoria computerului?

Codarea constă în atribuirea fiecărui caracter un cod zecimal unic de la 0 la 255 sau un cod binar corespunzător de la 00000000 la 11111111. Astfel, o persoană distinge caracterele după conturul lor, iar un computer după codul lor.

Comoditatea codificării caracterelor octet cu octet este evidentă deoarece un octet este cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul poate accesa fiecare caracter separat atunci când procesează text. Pe de altă parte, 256 de caractere reprezintă un număr destul de suficient pentru a reprezenta o mare varietate de informații simbolice.

Acum se pune întrebarea, ce cod binar de opt biți să aloce fiecărui caracter.

Este clar că aceasta este o chestiune condiționată; puteți veni cu multe metode de codificare.

Tabelul ASCII a devenit standardul internațional pentru computere (citiți aski) (Codul standard american pentru schimbul de informații).

Doar prima jumătate a tabelului este standardul internațional, adică. caractere cu numere de la 0 (00000000), la 127 (01111111).

Număr de serie

Simbol

00000000 - 00011111


Funcția lor este de a controla procesul de afișare a textului pe ecran sau de tipărire, emiterea unui semnal sonor, marcarea textului etc.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


A doua jumătate a tabelului de coduri ASCII, numită pagina de coduri (128 de coduri, începând cu 10000000 și terminând cu 11111111), poate avea diferite variante, fiecare variantă având propriul număr.


Vă rugăm să rețineți că în tabelul de codificare, literele (majuscule și mici) sunt aranjate în ordine alfabetică, iar numerele sunt ordonate crescător. Această respectare a ordinii lexicografice în aranjarea simbolurilor se numește principiul codificării secvențiale a alfabetului.


Cea mai comună codificare utilizată în prezent este Microsoft Windows, prescurtat CP1251.

De la sfârșitul anilor 90, problema standardizării codificării caracterelor a fost rezolvată prin introducerea unui nou standard internațional numit Unicode. . Aceasta este o codificare pe 16 biți, adică alocă 2 octeți de memorie pentru fiecare caracter. Desigur, acest lucru crește de 2 ori cantitatea de memorie ocupată. Dar un astfel de tabel de coduri permite includerea a până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial din lume, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.

Să încercăm să folosim un tabel ASCII pentru a ne imagina cum vor arăta cuvintele în memoria computerului.

Cuvinte

Memorie

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

La introducerea informațiilor text într-un computer, caracterele (litere, cifre, semne) sunt codificate folosind diferite sisteme de codare, care constau dintr-un set de tabele de coduri situate pe paginile corespunzătoare ale standardelor pentru codificarea informațiilor text. În astfel de tabele, fiecărui caracter i se atribuie un cod numeric specific într-un sistem numeric hexazecimal sau zecimal, adică tabelele de coduri reflectă corespondența dintre imaginile simbol și codurile numerice și sunt destinate codificării și decodării informațiilor de text. La introducerea informațiilor text folosind tastatura computerului, fiecare caracter introdus este codificat, adică convertit într-un cod numeric; atunci când informațiile text sunt transmise la un dispozitiv de ieșire al computerului (afișaj, imprimantă sau plotter), imaginea sa este construită folosind codul numeric al caracterul. Atribuirea unui anumit cod numeric unui simbol este rezultatul unui acord între organizațiile relevante din diferite țări. În prezent, nu există un singur tabel universal de coduri care să se potrivească cu literele alfabetelor naționale ale diferitelor țări.

Tabelele moderne de coduri includ părți internaționale și naționale, adică conțin litere ale alfabetului latin și național, numere, operații aritmetice și semne de punctuație, simboluri matematice și de control și simboluri pseudografice. Parte internațională a tabelului de coduri bazată pe standard ASCII (Codul standard american pentru schimbul de informații), codifică prima jumătate a caracterelor din tabelul de coduri cu coduri numerice de la 0 la 7 F 16, sau în sistemul numeric zecimal de la 0 la 127. În acest caz, codurile de la 0 la 20 16 (0 ? 32 10) sunt alocate tastelor funcționale (F1, F2, F3 etc.) ale tastaturii computerului personal. În fig. 3.1 prezintă partea internațională a tabelelor de coduri bazate pe standard ASCII. Celulele de tabel sunt numerotate în sisteme de numere zecimale și, respectiv, hexazecimale.

Figura 3.1. Partea internațională a tabelului de coduri (standard ASCII) cu numere de celule prezentate în sisteme numerice zecimal (a) și hexazecimal (b).


Partea națională a tabelelor de coduri conține coduri ale alfabetelor naționale, care se mai numește și un tabel de seturi de caractere (set de caractere).

În prezent, pentru a sprijini literele alfabetului rus (chirilic), există mai multe tabele de coduri (codificări) care sunt utilizate de diferite sisteme de operare, ceea ce reprezintă un dezavantaj semnificativ și, în unele cazuri, duce la probleme asociate cu operațiunile de decodare a valorilor de caractere numerice. În tabel 3.1 arată numele paginilor de coduri (standarde) pe care se află tabelele de coduri chirilice (codificări).

Tabelul 3.1

Unul dintre primele standarde pentru codificarea alfabetului chirilic pe computere a fost standardul KOI8-R. Partea națională a tabelului de coduri al acestui standard este prezentată în Fig. 3.2.

Orez. 3.2. Partea națională a tabelului de coduri al standardului KOI8-R


În prezent, este utilizat și tabelul de coduri situat pe pagina CP866 a standardului de codificare a informațiilor text, care este utilizat în sistemul de operare. MS DOS sau sesiune MS DOS pentru codificarea alfabetului chirilic (Fig. 3.3, A).

Orez. 3.3. Partea națională a tabelului de coduri, situată la pagina CP866 (a) și la pagina CP1251 (b) a standardului de codificare a informațiilor text


În prezent, cel mai utilizat tabel de coduri pentru codificarea alfabetului chirilic se află pe pagina CP1251 a standardului corespunzător, care este utilizat în sistemele de operare ale familiei Windows companiilor Microsoft(Fig. 3.2, b).În toate tabelele de coduri prezentate, cu excepția tabelului standard Unicode Pentru a codifica un caracter, sunt alocate 8 cifre binare (8 biți).

La sfârșitul secolului trecut, a apărut un nou standard internațional Unicodeîn care un caracter este reprezentat ca un cod binar de doi octeți. Aplicarea acestui standard este o continuare a dezvoltării unui standard internațional universal pentru a rezolva problema compatibilității codificărilor naționale de caractere. Folosind acest standard, pot fi codificate 2 16 = 65536 de caractere diferite. În fig. 3.4 arată tabelul de coduri 0400 (alfabet rus) al standardului Unicode.

Orez. 3.4. Tabelul de coduri Unicode 0400


Să explicăm ce s-a spus cu privire la codificarea informațiilor text folosind un exemplu.

Exemplul 3.1

Codificați cuvântul „Computer” ca o secvență de numere zecimale și hexazecimale utilizând codificarea CP1251. Ce caractere vor fi afișate în tabelele de coduri CP866 și KOI8-R când se utilizează codul primit.

Secvențe de cod hexazecimal și binar ale cuvântului „Computer” bazate pe tabelul de codificare CP1251 (vezi Fig. 3.3, b) va arata asa:

Această secvență de cod în codificări SR866 și KOI8-R va avea ca rezultat afișarea următoarelor caractere:

Pentru a converti documentele text în limba rusă dintr-un standard de codificare a informațiilor text în altul, se folosesc programe speciale - convertoare. Convertoarele sunt de obicei încorporate în alte programe. Un exemplu ar fi un program de browser - Internet Explorer (IE), care are un convertor încorporat. Un program de browser este un program special pentru vizualizarea conținutului. pagini web pe rețeaua globală de calculatoare Internet. Să folosim acest program pentru a confirma rezultatul mapării simbolurilor obținut în exemplul 3.1. Pentru a face acest lucru, vom efectua următorii pași.

1. Lansați programul Notepad (NotePad). Programul Notepad în sistemul de operare Windows XP lansat folosind comanda: [Button start– Programe – Standard – Notepad]. În fereastra programului Notepad care se deschide, tastați cuvântul „Computer” folosind sintaxa limbajului de marcare a documentului hipertext - HTML (Hyper Text Markup Language). Acest limbaj este folosit pentru a crea documente pe Internet. Textul ar trebui să arate astfel:

Apa de calculator

, Unde

Și

etichete (constructe speciale) ale limbajului HTML pentru marcarea antetului. În fig. Figura 3.5 prezintă rezultatul acestor acțiuni.

Orez. 3.5. Afișarea textului în fereastra Notepad


Să salvăm acest text executând comanda: [Fișier - Salvare ca...] în folderul corespunzător de pe computer; la salvarea textului, vom da fișierului un nume - Notă, cu extensia de fișier. html.

2. Să lansăm programul Internet Explorer, prin executarea comenzii: [Button start- Programe - Internet Explorer]. Când porniți programul, fereastra prezentată în Fig. 3.6

Orez. 3.6. Fereastra de acces offline


Selectați și activați butonul DeconectatÎn acest caz, computerul nu se va conecta la internetul global. Va apărea fereastra principală a programului Microsoft Internet Explorer, prezentată în fig. 3.7.

Orez. 3.7. Fereastra principală Microsoft Internet Explorer


Să executăm următoarea comandă: [Fișier – Deschidere], va apărea o fereastră (Fig. 3.8), în care trebuie să specificați numele fișierului și să faceți clic pe butonul Bine sau apăsați butonul Revizuire…și găsiți fișierul Prim.html.

Orez. 3.8. Deschide fereastra


Fereastra principală a programului Internet Explorer va lua forma prezentată în Fig. 3.9. Cuvântul „Computer” va apărea în fereastră. Apoi, folosind meniul de sus al programului Internet Explorer, rulați următoarea comandă: [Vizualizare – Codificare – Chirilic (DOS)]. După executarea acestei comenzi în fereastra programului Internet Explorer Vor fi afișate simbolurile prezentate în fig. 3.10. La executarea comenzii: [Vizualizare – Codificare – Chirilic (KOI8-R)]în fereastra programului Internet Explorer Vor fi afișate simbolurile prezentate în fig. 3.11.

Orez. 3.9. Caractere afișate cu codificare CP1251


Orez. 3.10. Caractere afișate atunci când codarea CP866 este activată pentru o secvență de cod reprezentată în codificarea CP1251


Orez. 3.11. Caractere afișate atunci când codarea KOI8-R este activată pentru o secvență de cod reprezentată în codificarea CP1251


Astfel, obținut folosind programul Internet Explorer secvențele de caractere coincid cu secvențele de caractere obținute folosind tabelele de coduri CP866 și KOI8-R din exemplul 3.1.

3.2. Codificarea informațiilor grafice

Informațiile grafice prezentate sub formă de imagini, fotografii, diapozitive, imagini în mișcare (animație, video), diagrame, desene pot fi create și editate folosind un computer și sunt codificate corespunzător. În prezent, există un număr destul de mare de programe de aplicație pentru procesarea informațiilor grafice, dar toate implementează trei tipuri de grafică pe computer: raster, vectorială și fractală.

Dacă aruncați o privire mai atentă la imaginea grafică de pe ecranul monitorului computerului, puteți vedea un număr mare de puncte multicolore (pixeli - din engleză. pixel educat din element de imagine - element al imaginii), care, atunci când sunt colectate, formează o anumită imagine grafică. Din aceasta putem concluziona: o imagine grafică pe un computer este codificată într-un anumit mod și trebuie prezentată sub forma unui fișier grafic. Un fișier este unitatea structurală de bază de organizare și stocare a datelor pe un computer și, în acest caz, trebuie să conțină informații despre cum să prezinte acest set de puncte pe ecranul monitorului.

Fișierele create pe baza graficelor vectoriale conțin informații sub formă de relații matematice (funcții matematice care descriu relații liniare) și date corespunzătoare despre cum se construiește o imagine a unui obiect folosind segmente de linie (vectori) atunci când sunt afișate pe un monitor de computer.

Fișierele create pe baza graficelor raster necesită stocarea datelor despre fiecare punct individual din imagine. Pentru a afișa grafice raster, nu sunt necesare calcule matematice complexe; este suficient să obțineți pur și simplu date despre fiecare punct al imaginii (coordonatele și culoarea acestuia) și să le afișați pe ecranul monitorului computerului.

În timpul procesului de codificare, o imagine este discretizată spațial, adică imaginea este împărțită în puncte individuale și fiecărui punct i se atribuie un cod de culoare (galben, roșu, albastru etc.). Pentru a codifica fiecare punct al unei imagini grafice color, se folosește principiul descompunerii unei culori arbitrare în componentele sale principale, pentru care se folosesc trei culori primare: roșu (cuvânt englezesc). Roșu, notat printr-o literă LA), verde (Verde, notat printr-o literă G), albastru (Albastru, notat cu fag ÎN). Orice culoare a unui punct percepută de ochiul uman poate fi obținută prin adăugarea (amestecarea) aditivă (proporțională) a trei culori primare - roșu, verde și albastru. Acest sistem de codare se numește sistem de culoare RGB. Fișiere grafice care utilizează un sistem de culoare RGB reprezintă fiecare punct al imaginii ca un triplet de culoare - trei valori numerice R, GȘi ÎN, intensitățile corespunzătoare ale culorilor roșu, verde și albastru. Procesul de codificare a unei imagini grafice se realizează folosind diverse mijloace tehnice (scanner, cameră digitală, cameră video digitală etc.); rezultatul este o imagine raster. La reproducerea imaginilor grafice color pe un monitor color de computer, culoarea fiecărui punct (pixel) al unei astfel de imagini este obținută prin amestecarea a trei culori primare R,GȘi B.

Calitatea unei imagini raster este determinată de doi parametri principali - rezoluția (numărul de pixeli pe orizontală și pe verticală) și paleta de culori utilizată (numărul de culori specificate pentru fiecare pixel al imaginii). Rezoluția este specificată indicând numărul de pixeli pe orizontală și pe verticală, de exemplu 800 pe 600 pixeli.

Există o relație între numărul de culori atribuite unui punct dintr-o imagine raster și cantitatea de informații care trebuie alocată pentru a stoca culoarea punctului, determinată de relație (formula lui R. Hartley):

Unde eu– cantitatea de informații; N – numărul de culori atribuite punctului.

Cantitatea de informații necesare pentru a stoca culoarea unui punct se mai numește și adâncimea culorii sau calitatea redării culorii.

Deci, dacă numărul de culori specificat pentru un punct de imagine este N= 256, atunci cantitatea de informații necesară pentru stocarea acesteia (adâncimea culorii) în conformitate cu formula (3.1) va fi egală cu eu= 8 biți.

Calculatoarele folosesc diferite moduri grafice ale monitorului pentru a afișa informații grafice. Trebuie remarcat aici că, pe lângă modul grafic al monitorului, există și un mod text, în care ecranul monitorului este împărțit în mod convențional în 25 de linii a câte 80 de caractere pe linie. Aceste moduri grafice sunt caracterizate de rezoluția ecranului monitorului și de calitatea culorii (adâncimea culorii). Pentru a seta modul grafic al ecranului monitorului în sistemul de operare MS Windows XP trebuie să executați comanda: [Button start– Setări – Panou de control – Ecran]. În caseta de dialog „Properties: Screen” care apare (Fig. 3.12), trebuie să selectați fila „Parameters” și să utilizați glisorul „Screen Resolution” pentru a selecta rezoluția corespunzătoare a ecranului (800 x 600 pixeli, 1024 x 768 pixeli, etc.). Folosind lista derulantă „Calitatea culorii”, puteți selecta adâncimea culorii - „Cea mai mare (32 biți)”, „Mediu (16 biți)”, etc., iar numărul de culori atribuit fiecărui punct din imagine va fie respectiv 2 32 (4294967296), 2 16 (65536), etc.

Orez. 3.12. Caseta de dialog Display Properties


Pentru a implementa fiecare dintre modurile grafice ale ecranului monitorului, este necesară o anumită cantitate de memorie video de computer. Volumul de informații necesar al memoriei video (V) este determinată din relație

Unde LA - numărul de puncte de imagine de pe ecranul monitorului (K = A · B); A - numărul de puncte orizontale de pe ecranul monitorului; IN - numărul de puncte verticale de pe ecranul monitorului; eu– cantitatea de informații (profunzimea culorii).

Deci, dacă ecranul monitorului are o rezoluție de 1024 pe 768 pixeli și o paletă constând din 65.536 de culori, atunci adâncimea culorii conform formulei (3.1) va fi I = log 2 65.538 = 16 biți, numărul de pixeli ai imaginii va fi fi egal cu: K = 1024 x 768 = 786432, iar volumul de informații necesar al memoriei video în conformitate cu (3.2) va fi egal cu

V= 786432 · 16 biți = 12582912 biți = 1572864 octeți = 1536 KB = 1,5 MB.

În concluzie, trebuie menționat că, pe lângă caracteristicile enumerate, cele mai importante caracteristici ale unui monitor sunt dimensiunile geometrice ale ecranului și punctele de imagine. Dimensiunile geometrice ale ecranului sunt determinate de dimensiunea diagonală a monitorului. Dimensiunea diagonală a monitoarelor este specificată în inci (1 inch = 1" = 25,4 mm) și poate lua valori egale cu: 14", 15", 17", 21", etc. Tehnologiile moderne de producție a monitoarelor pot oferi o imagine dimensiunea punctului egală cu 0,22 mm.

Astfel, pentru fiecare monitor există o rezoluție maximă fizică posibilă a ecranului, determinată de dimensiunea diagonalei sale și de dimensiunea punctului imaginii.

Exerciții de făcut pe cont propriu

1. Utilizarea programului MS Excel convertiți tabelele de coduri ASCII, SR866, SR1251, KOI8-R în tabele de forma: în celulele primei coloane a tabelelor scrieți în ordine alfabetică literele mari și apoi mici ale alfabetului latin și chirilic, în celulele a doua coloană - codurile corespunzătoare literelor din sistemul numeric zecimal, în celule a treia coloană este codurile corespunzătoare literelor din sistemul numeric hexazecimal. Valorile codului trebuie selectate din tabelele de coduri corespunzătoare.

2. Codificați și scrieți următoarele cuvinte ca o secvență de numere în sistemele numerice zecimal și hexazecimal:

A) Internet Explorer, b) Microsoft Office; V) Corel Draw.

Codificarea se realizează folosind tabelul de codificare ASCII modernizat obținut în exercițiul anterior.

3. Folosind tabelul de codificare KOI8-R modernizat, decodați secvențe de numere scrise în sistemul numeric hexazecimal:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Cum va arăta cuvântul „Cibernetică” scris în codificarea SR1251 când se utilizează codificări SR866 și KOI8-R? Verificați rezultatele utilizând programul Internet Explorer.

5. Folosind tabelul de coduri prezentat în Fig. 3.1 A, decodificați următoarele secvențe de cod scrise în sistem de numere binar:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Determinați volumul de informații al cuvântului „Economie”, codificat folosind tabelele de coduri SR866, SR1251, Unicode și KOI8-R.

7. Determinați volumul de informații al fișierului obținut în urma scanării unei imagini color cu dimensiunile 12x12 cm.Rezoluția scanerului utilizat pentru scanarea acestei imagini este de 600 dpi. Scanerul setează adâncimea de culoare a punctului de imagine la 16 biți.

Rezoluția scanerului 600 dpi (dotper inch - puncte pe inch) determină capacitatea unui scaner cu această rezoluție de a distinge 600 de puncte pe un segment de 1 inch.

8. Determinați volumul de informații al fișierului obținut în urma scanării unei imagini color de dimensiune A4. Rezoluția scanerului utilizat pentru scanarea acestei imagini este de 1200 dpi. Scanerul setează adâncimea de culoare a punctului de imagine la 24 de biți.

9. Determinați numărul de culori din paletă la adâncimi de culoare de 8, 16, 24 și 32 de biți.

10. Determinați cantitatea necesară de memorie video pentru modurile grafice ale ecranului monitorului 640 x 480, 800 x 600, 1024 x 768 și 1280 x 1024 pixeli cu o adâncime de culoare a pixelilor imaginii de 8, 16, 24 și 32 de biți. Rezumați rezultatele într-un tabel. Dezvoltați în MS Excel program de automatizare a calculelor.

11. Determinați numărul maxim de culori care pot fi folosite pentru a stoca o imagine de 32 pe 32 de pixeli, dacă computerul are 2 KB de memorie alocată pentru imagine.

12. Determinați rezoluția maximă posibilă a unui ecran de monitor cu o lungime a diagonalei de 15" și o dimensiune a punctului imaginii de 0,28 mm.

13. Ce moduri grafice ale monitorului pot fi furnizate de 64 MB de memorie video?

Cuprins

I. Istoricul codificării informațiilor………………………………………..3

II. Codificarea informațiilor…………………………………………………… 4

III. Codificarea informațiilor de tip text………………………….4

IV. Tipuri de tabele de codificare…………………………………………………………6

V. Calculul cantității de informații text………………………14

Lista referințelor……………………………..16

eu . Istoricul codificării informațiilor

Omenirea folosește criptarea textului (codificarea) chiar din momentul în care au apărut primele informații secrete. Iată câteva tehnici de codificare a textului care au fost inventate în diferite etape ale dezvoltării gândirii umane:

Criptografia este scriere secretă, un sistem de schimbare a scrisului pentru a face textul de neînțeles pentru cei neinițiați;

Cod Morse sau cod telegrafic neuniform, în care fiecare literă sau semn este reprezentat de propria sa combinație de rafale elementare scurte de curent electric (puncte) și rafale elementare de durată triplă (liniuță);

limbajul semnelor este un limbaj gestual folosit de persoanele cu deficiențe de auz.

Una dintre cele mai vechi metode de criptare cunoscute este numită după împăratul roman Iulius Cezar (secolul I î.Hr.). Această metodă se bazează pe înlocuirea fiecărei litere a textului criptat cu alta, prin deplasarea alfabetului de la litera originală cu un număr fix de caractere, iar alfabetul se citește în cerc, adică după litera i se consideră a . Deci, cuvântul „octet”, atunci când este deplasat cu două caractere la dreapta, este codificat ca cuvântul „gwlf”. Procesul invers de descifrare a unui anumit cuvânt este necesar pentru a înlocui fiecare literă criptată cu a doua din stânga acesteia.

II. Codificarea informațiilor

Un cod este un set de convenții (sau semnale) pentru înregistrarea (sau comunicarea) unor concepte predefinite.

Codarea informațiilor este procesul de formare a unei reprezentări specifice a informațiilor. Într-un sens mai restrâns, termenul „codificare” este adesea înțeles ca o tranziție de la o formă de reprezentare a informațiilor la alta, mai convenabilă pentru stocare, transmitere sau procesare.

De obicei, fiecare imagine la codificare (uneori numită criptare) este reprezentată printr-un semn separat.

Un semn este un element dintr-un set finit de elemente distincte unele de altele.

Într-un sens mai restrâns, termenul „codificare” este adesea înțeles ca o tranziție de la o formă de reprezentare a informațiilor la alta, mai convenabilă pentru stocare, transmitere sau procesare.

Puteți procesa informații text pe un computer. Când este introdusă într-un computer, fiecare literă este codificată cu un anumit număr, iar atunci când este transmisă către dispozitive externe (ecran sau imprimare), imaginile literelor sunt construite din aceste numere pentru percepția umană. Corespondența dintre un set de litere și numere se numește codificare de caractere.

De regulă, toate numerele dintr-un computer sunt reprezentate folosind zerouri și unu (nu zece cifre, așa cum este de obicei pentru oameni). Cu alte cuvinte, computerele funcționează de obicei în sistemul de numere binar, deoarece acest lucru face ca dispozitivele de procesare a acestora să fie mult mai simple. Introducerea numerelor într-un computer și scoaterea lor pentru citire umană se poate face în forma zecimală obișnuită, iar toate conversiile necesare sunt efectuate de programe care rulează pe computer.

III. Codificarea informațiilor text

Aceeași informații pot fi prezentate (codificate) sub mai multe forme. Odată cu apariția computerelor, a apărut nevoia de a codifica toate tipurile de informații cu care se confruntă atât un individ, cât și umanitatea în ansamblu. Dar omenirea a început să rezolve problema codificării informațiilor cu mult înainte de apariția computerelor. Realizările grandioase ale omenirii - scrisul și aritmetica - nu sunt altceva decât un sistem de codificare a vorbirii și a informațiilor numerice. Informația nu apare niciodată în forma ei pură, este întotdeauna prezentată cumva, codificată cumva.

Codarea binară este una dintre modalitățile comune de reprezentare a informațiilor. În calculatoare, roboți și mașini controlate numeric, de regulă, toate informațiile cu care se ocupă dispozitivul sunt codificate sub formă de cuvinte din alfabetul binar.

De la sfârșitul anilor 60, computerele au fost din ce în ce mai folosite pentru a procesa informații text, iar în prezent majoritatea computerelor personale din lume (și de cele mai multe ori) sunt ocupate cu procesarea informațiilor text. Toate aceste tipuri de informații dintr-un computer sunt prezentate în cod binar, adică se folosește un alfabet cu puterea doi (doar două caractere 0 și 1). Acest lucru se datorează faptului că este convenabil să se reprezinte informația sub forma unei secvențe de impulsuri electrice: nu există impuls (0), există un impuls (1).

O astfel de codificare este de obicei numită binară, iar secvențele logice de zerouri și unități în sine sunt numite limbaj mașină.

Din punct de vedere informatic, textul este format din caractere individuale. Simbolurile includ nu numai litere (majuscule sau mici, latină sau rusă), ci și numere, semne de punctuație, caractere speciale precum „=", „(”, „&”, etc., și chiar (acordați o atenție deosebită!) spații dintre cuvinte.

Textele sunt introduse în memoria computerului folosind tastatura. Literele, cifrele, semnele de punctuație și alte simboluri cu care suntem familiarizați sunt scrise pe taste. Ei introduc RAM în cod binar. Aceasta înseamnă că fiecare caracter este reprezentat de cod binar de 8 biți.

În mod tradițional, pentru a codifica un caracter, se utilizează o cantitate de informații egală cu 1 octet, adică I = 1 octet = 8 biți. Folosind o formulă care conectează numărul de evenimente posibile K și cantitatea de informații I, puteți calcula câte simboluri diferite pot fi codificate (presupunând că simbolurile sunt evenimente posibile): K = 2 I = 2 8 = 256, adică pentru To reprezintă informații text, puteți utiliza un alfabet cu o capacitate de 256 de caractere.

Acest număr de caractere este suficient pentru a reprezenta informații text, inclusiv litere mari și mici ale alfabetului rus și latin, numere, semne, simboluri grafice etc.

Codarea constă în atribuirea fiecărui caracter un cod zecimal unic de la 0 la 255 sau un cod binar corespunzător de la 00000000 la 11111111. Astfel, o persoană distinge caracterele după conturul lor, iar un computer după codul lor.

Comoditatea codificării caracterelor octet cu octet este evidentă deoarece un octet este cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul poate accesa fiecare caracter separat atunci când procesează text. Pe de altă parte, 256 de caractere reprezintă un număr destul de suficient pentru a reprezenta o mare varietate de informații simbolice.

În procesul de afișare a unui simbol pe ecranul unui computer, se efectuează procesul invers - decodificare, adică conversia codului simbolului în imaginea sa. Este important ca atribuirea unui anumit cod unui simbol să fie o chestiune de acord, care este înregistrată în tabelul de coduri.

Acum se pune întrebarea, ce cod binar de opt biți să aloce fiecărui caracter. Este clar că aceasta este o chestiune condiționată; puteți veni cu multe metode de codificare.

Toate caracterele alfabetului computerului sunt numerotate de la 0 la 255. Fiecare număr corespunde unui cod binar de opt biți de la 00000000 la 11111111. Acest cod este pur și simplu numărul de serie al caracterului din sistemul de numere binar.

IV . Tipuri de tabele de codificare

Un tabel în care tuturor caracterelor alfabetului computerului li se atribuie numere de serie se numește tabel de codificare.

Diferite tipuri de computere folosesc tabele de codificare diferite.

Tabelul de coduri ASCII (American Standard Code for Information Interchange) a fost adoptat ca standard internațional, codând prima jumătate a caracterelor cu coduri numerice de la 0 la 127 (codurile de la 0 la 32 sunt atribuite nu caracterelor, ci tastelor funcționale) .

Tabelul de coduri ASCII este împărțit în două părți.

Doar prima jumătate a tabelului este standardul internațional, adică. caractere cu numere de la 0 (00000000), la 127 (01111111).

Structura tabelului de codificare ASCII

Număr de serie Cod Simbol
0 - 31 00000000 - 00011111

Simbolurile cu numere de la 0 la 31 sunt de obicei numite simboluri de control.

Funcția lor este de a controla procesul de afișare a textului pe ecran sau de tipărire, emiterea unui semnal sonor, marcarea textului etc.

32 - 127 0100000 - 01111111

Parte standard a tabelului (engleză). Aceasta include litere mici și mari ale alfabetului latin, numere zecimale, semne de punctuație, tot felul de paranteze, simboluri comerciale și alte simboluri.

Caracterul 32 este un spațiu, adică. poziție goală în text.

Toate celelalte sunt reflectate de anumite semne.

128 - 255 10000000 - 11111111

Parte alternativă a tabelului (rusă).

A doua jumătate a tabelului de coduri ASCII, numită pagina de coduri (128 de coduri, începând de la 10000000 și terminând cu 11111111), poate avea opțiuni diferite, fiecare opțiune având propriul număr.

Pagina de coduri este folosită în primul rând pentru a găzdui alfabetele naționale, altele decât latină. În codificările naționale rusești, caracterele din alfabetul rus sunt plasate în această parte a tabelului.

Prima jumătate a tabelului de coduri ASCII

Vă rugăm să rețineți că în tabelul de codificare, literele (majuscule și mici) sunt aranjate în ordine alfabetică, iar numerele sunt ordonate crescător. Această respectare a ordinii lexicografice în aranjarea simbolurilor se numește principiul codificării secvențiale a alfabetului.

Pentru literele alfabetului rus, se respectă și principiul codificării secvențiale.

A doua jumătate a tabelului de coduri ASCII

Din păcate, în prezent există cinci codificări chirilice diferite (KOI8-R, Windows. MS-DOS, Macintosh și ISO). Din această cauză, apar adesea probleme cu transferul textului rusesc de la un computer la altul, de la un sistem software la altul.

Din punct de vedere cronologic, unul dintre primele standarde pentru codificarea literelor rusești pe computere a fost KOI8 („Cod de schimb de informații, 8 biți”). Această codificare a fost folosită încă din anii 70 pe computerele din seria de calculatoare ES, iar de la mijlocul anilor 80 a început să fie folosită în primele versiuni rusificate ale sistemului de operare UNIX.

De la începutul anilor 90, vremea dominației sistemului de operare MS DOS, codificarea CP866 rămâne („CP” înseamnă „Pagină de coduri”, „pagină de coduri”).

Computerele Apple care rulează sistemul de operare Mac OS folosesc propria lor codificare Mac.

În plus, Organizația Internațională de Standardizare (ISO) a aprobat o altă codificare numită ISO 8859-5 ca standard pentru limba rusă.

Cea mai comună codificare utilizată în prezent este Microsoft Windows, prescurtat CP1251. Introdus de Microsoft; Luând în considerare distribuția pe scară largă a sistemelor de operare (OS) și a altor produse software ale acestei companii în Federația Rusă, a găsit o distribuție largă.

De la sfârșitul anilor 90, problema standardizării codificării caracterelor a fost rezolvată prin introducerea unui nou standard internațional numit Unicode.

Aceasta este o codificare pe 16 biți, adică alocă 2 octeți de memorie pentru fiecare caracter. Desigur, acest lucru crește de 2 ori cantitatea de memorie ocupată. Dar un astfel de tabel de coduri permite includerea a până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial din lume, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.

Reprezentarea internă a cuvintelor în memoria computerului

folosind un tabel ASCII

Uneori se întâmplă ca un text format din litere ale alfabetului rus primit de la un alt computer să nu poată fi citit - un fel de „abracadabra” este vizibil pe ecranul monitorului. Acest lucru se întâmplă deoarece computerele folosesc diferite codificări de caractere pentru limba rusă.

Astfel, fiecare codificare este specificată de propria sa tabelă de coduri. După cum se poate vedea din tabel, caractere diferite sunt atribuite aceluiași cod binar în codificări diferite.

De exemplu, secvența de coduri numerice 221, 194, 204 din codificarea CP1251 formează cuvântul „calculator”, în timp ce în alte codificări va fi un set de caractere fără sens.

Din fericire, în cele mai multe cazuri, utilizatorul nu trebuie să-și facă griji cu privire la transcodarea documentelor text, deoarece aceasta se face prin programe speciale de conversie încorporate în aplicații.

V . Calculul cantității de informații text

Sarcina 1: Codificați cuvântul „Roma” folosind tabelele de codificare KOI8-R și CP1251.

Soluţie:

Sarcina 2: Presupunând că fiecare caracter este codificat într-un octet, estimați volumul de informații al următoarei propoziții:

„Unchiul meu are cele mai oneste reguli,

Când m-am îmbolnăvit grav,

S-a obligat să respecte

Și nu m-am putut gândi la ceva mai bun.”

Soluţie: Această expresie are 108 caractere, inclusiv semne de punctuație, ghilimele și spații. Înmulțim acest număr cu 8 biți. Obținem 108*8=864 biți.

Sarcina 3: Cele două texte conțin același număr de caractere. Primul text este scris în rusă, iar al doilea în limba tribului Naguri, al cărui alfabet este format din 16 caractere. Al cui text conține mai multe informații?

Soluţie:

1) I = K * a (volumul de informații al textului este egal cu produsul dintre numărul de caractere și greutatea informațională a unui caracter).

2) Pentru că Ambele texte au același număr de caractere (K), apoi diferența depinde de conținutul informațional al unui caracter al alfabetului (a).

3) 2 a1 = 32, i.e. a 1 = 5 biți, 2 a2 = 16, adică și 2 = 4 biți.

4) I 1 = K * 5 biți, I 2 = K * 4 biți.

5) Aceasta înseamnă că textul scris în limba rusă conține de 5/4 ori mai multe informații.

Sarcina 4: Dimensiunea mesajului, care conține 2048 de caractere, a fost de 1/512 dintr-un MB. Determinați puterea alfabetului.

Soluţie:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 biți - a convertit volumul de informații al mesajului în biți.

2) a = I / K = 16384 /1024 = 16 biți - reprezintă un caracter al alfabetului.

3) 2*16*2048 = 65536 caractere – puterea alfabetului folosit.

Sarcina 5: Imprimanta laser Canon LBP imprimă la o viteză medie de 6,3 Kbps. Cât timp va dura să tipăriți un document de 8 pagini, dacă știți că o pagină are în medie 45 de linii și 70 de caractere pe linie (1 caracter - 1 octet)?

Soluţie:

1) Găsiți cantitatea de informații conținute pe 1 pagină: 45 * 70 * 8 biți = 25200 biți

2) Găsiți cantitatea de informații pe 8 pagini: 25200 * 8 = 201600 biți

3) Reducem la unități de măsură comune. Pentru a face acest lucru, convertim Mbiți în biți: 6,3*1024=6451,2 biți/sec.

4) Găsiți timpul de imprimare: 201600: 6451.2 =31 secunde.

Bibliografie

1. Ageev V.M. Teoria informației și codării: eșantionarea și codificarea informațiilor de măsurare. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Fundamentele teoriei și codificării informațiilor. - Kiev, școala Vishcha, 1986.

3. Cele mai simple metode de criptare a textului / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 p.

4. Ugrinovich N.D. Informatica si tehnologia informatiei. Manual pentru clasele 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratorul de Cunoaștere, 2003. – 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Material pentru auto-studiu pe tema Lecției 2

Codificare ASCII

Tabel de codificare ASCII (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

În total, 256 de caractere diferite pot fi codificate folosind tabelul de codificare ASCII (Figura 1). Acest tabel este împărțit în două părți: cea principală (cu coduri de la OOh la 7Fh) și cea suplimentară (de la 80h la FFh, unde litera h indică faptul că codul aparține sistemului numeric hexazecimal).

Poza 1

Pentru a codifica un caracter din tabel, sunt alocați 8 biți (1 octet). La procesarea informațiilor text, un octet poate conține codul unui anumit caracter - o literă, un număr, un semn de punctuație, un semn de acțiune etc. Fiecare caracter are propriul cod sub forma unui număr întreg. În acest caz, toate codurile sunt colectate în tabele speciale numite tabele de codificare. Cu ajutorul lor, codul simbol este convertit în reprezentarea sa vizibilă pe ecranul monitorului. Ca rezultat, orice text din memoria computerului este reprezentat ca o secvență de octeți cu coduri de caractere.

De exemplu, cuvântul salut! vor fi codificate după cum urmează (Tabelul 1).

tabelul 1

Cod binar

Cod zecimal

Figura 1 prezintă caracterele incluse în codarea ASCII standard (engleză) și extinsă (rusă).

Prima jumătate a tabelului ASCII este standardizată. Conține coduri de control (de la 00h la 20h și 77h). Aceste coduri au fost eliminate din tabel deoarece nu se aplică elementelor de text. Aici sunt plasate și semnele de punctuație și simbolurile matematice: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., litere mari și mici latine: 41h - A, 61h – a.

A doua jumătate a tabelului conține fonturi naționale, simboluri pseudografice din care pot fi construite tabele și simboluri matematice speciale. Partea inferioară a tabelului de codificare poate fi înlocuită folosind drivere adecvate - programe auxiliare de control. Această tehnică vă permite să utilizați mai multe fonturi și fonturile lor.

Afișajul pentru fiecare cod de simbol ar trebui să afișeze o imagine a simbolului - nu doar un cod digital, ci o imagine corespunzătoare, deoarece fiecare simbol are propria sa formă. O descriere a formei fiecărui caracter este stocată într-o memorie specială de afișare - un generator de caractere. Evidențierea unui caracter pe ecranul unui afișaj IBM PC, de exemplu, se realizează folosind puncte care formează o matrice de caractere. Fiecare pixel dintr-o astfel de matrice este un element de imagine și poate fi luminos sau întunecat. Un punct întunecat este codificat ca 0, un punct deschis (luminos) ca 1. Dacă reprezentați pixeli întunecați în câmpul matricei al unui semn sub formă de punct și pixeli deschisi ca un asterisc, puteți reprezenta grafic forma simbolului.

Oamenii din diferite țări folosesc simboluri pentru a scrie cuvinte în limba lor maternă. În zilele noastre, majoritatea aplicațiilor, inclusiv sistemele de e-mail și browserele web, sunt puri pe 8 biți, ceea ce înseamnă că pot afișa și accepta corect doar caractere de 8 biți, conform standardului ISO-8859-1.

Există peste 256 de caractere în lume (dacă luați în considerare chirilica, arabă, chineză, japoneză, coreeană și thailandeză) și apar tot mai multe caractere noi. Și acest lucru creează următoarele lacune pentru mulți utilizatori:

Nu este posibil să utilizați caractere din seturi de codare diferite în același document. Deoarece fiecare document text folosește propriul set de codificări, există mari dificultăți cu recunoașterea automată a textului.

Apar simboluri noi (de exemplu: Euro), drept urmare ISO dezvoltă un nou standard, ISO-8859-15, care este foarte asemănător cu standardul ISO-8859-1. Diferența este că vechiul tabel de codificare ISO-8859-1 a eliminat simbolurile pentru monedele vechi care nu sunt utilizate în prezent pentru a face loc pentru simbolurile nou introduse (cum ar fi euro). Drept urmare, utilizatorii pot avea aceleași documente pe discuri, dar în codificări diferite. Soluția la aceste probleme este adoptarea unui singur set internațional de codificări numit Universal Coding sau Unicode.

Codificare Unicode

Standardul a fost propus în 1991 de către organizația non-profit Unicode Consortium (Unicode Inc.). Utilizarea acestui standard vă permite să codificați un număr foarte mare de caractere din diferite scripturi: documentele Unicode pot conține caractere chinezești, simboluri matematice, litere ale alfabetului grecesc, alfabet latin și chirilic, iar schimbarea paginilor de cod devine inutilă.

Standardul constă din două secțiuni principale: setul de caractere universal (UCS) și familia de codare (UTF, format de transformare Unicode). Setul de caractere universal specifică o corespondență unu-la-unu între caractere și coduri - elemente ale spațiului de cod reprezentând numere întregi nenegative. O familie de codificare definește reprezentarea automată a unei secvențe de coduri UCS.

Standardul Unicode a fost dezvoltat pentru a crea o singură codificare a caracterelor pentru toate limbile scrise moderne și pentru multe limbi antice. Fiecare caracter din acest standard este codificat cu 16 biți, ceea ce îi permite să acopere un număr incomparabil mai mare de caractere decât codificările de 8 biți acceptate anterior. O altă diferență importantă între Unicode și alte sisteme de codare este că nu numai că atribuie un cod unic fiecărui caracter, ci și definește diferite caracteristici ale caracterului respectiv, de exemplu:

    tipul de caractere (majuscule, minuscule, număr, semn de punctuație etc.);

    atributele caracterului (afișare de la stânga la dreapta sau de la dreapta la stânga, spațiu, întrerupere de linie etc.);

    litera majuscule sau minuscule corespunzătoare (pentru litere mici, respectiv majuscule);

    valoarea numerică corespunzătoare (pentru caractere numerice).

Întreaga gamă de coduri de la 0 la FFFF este împărțită în mai multe subseturi standard, fiecare dintre ele corespunde fie alfabetului unei limbi, fie unui grup de caractere speciale care sunt similare în funcțiile lor. Diagrama de mai jos conține o listă generală de subseturi Unicode 3.0 (Figura 2).

Figura 2

Standardul Unicode este baza pentru stocarea textului în multe sisteme informatice moderne. Cu toate acestea, nu este compatibil cu majoritatea protocoalelor de Internet, deoarece codurile sale pot conține orice valoare de octet, iar protocoalele folosesc de obicei octeții 00 - 1F și FE - FF ca octeți de serviciu. Pentru a obține compatibilitatea, au fost dezvoltate mai multe formate de transformare Unicode (UTF, Unicode Transformation Formats), dintre care UTF-8 este cel mai comun astăzi. Acest format definește următoarele reguli pentru conversia fiecărui cod Unicode într-un set de octeți (unu până la trei) potriviti pentru transport prin protocoale Internet.

Aici x,y,z indică biții codului sursă care ar trebui extrași, începând cu cel mai puțin semnificativ, și introduși în octeții de rezultat de la dreapta la stânga până când toate pozițiile specificate sunt umplute.

Dezvoltarea ulterioară a standardului Unicode este asociată cu adăugarea de noi planuri de limbaj, de ex. caractere în intervalele 10000 - 1FFFF, 20000 - 2FFFF etc., unde ar trebui să includă codificarea pentru scripturi ale limbilor moarte care nu sunt incluse în tabelul de mai sus. Un nou format, UTF-16, a fost dezvoltat pentru a codifica aceste caractere suplimentare.

Deci, există 4 moduri principale de a codifica octeții Unicode:

UTF-8: 128 de caractere codificate într-un octet (format ASCII), 1920 de caractere codificate pe 2 octeți ((caractere romane, grecești, chirilice, copte, armene, ebraice, arabe), 63488 de caractere codificate în 3 octeți (chineză, japoneză etc. .) Cele 2.147.418.112 de caractere rămase (neutilizate încă) pot fi codificate cu 4, 5 sau 6 octeți.

UCS-2: Fiecare caracter este reprezentat de 2 octeți. Această codificare include doar primele 65.535 de caractere din formatul Unicode.

UTF-16: O extensie a UCS-2, conține 1.114.112 de caractere în format Unicode. Primele 65.535 de caractere sunt reprezentate de 2 octeți, restul de 4 octeți.

USC-4: Fiecare caracter este codificat în 4 octeți.