Mã nhị phân Ascii. Mã hóa thông tin văn bản

Excel cho Office 365 Word cho Office 365 Outlook cho Office 365 PowerPoint cho Office 365 Nhà xuất bản cho Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Nhà xuất bản 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Nhà xuất bản 201 6 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Nhà xuất bản 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Nhà xuất bản 2010 Visio 2010 Excel 2007 Word 2007 Outlook 200 7 PowerPoint 2007 Nhà xuất bản 2007 Truy cập 2007 Visio 2007 OneNote 2007 Office Tiêu chuẩn Visio 2010 Tiêu chuẩn Visio 2007 Tiêu chuẩn Visio 2010 Ít hơn

Trong bài viết này: Chèn ký tự ASCII hoặc Unicode vào tài liệu

Nếu chỉ cần nhập một vài ký tự hoặc ký hiệu đặc biệt, bạn có thể sử dụng phím tắt. Để biết danh sách các ký tự ASCII, hãy xem các bảng sau hoặc bài viết Chèn bảng chữ cái quốc gia bằng phím tắt.

Ghi chú:

Chèn ký tự ASCII

Để chèn ký tự ASCII, nhấn và giữ phím ALT trong khi nhập mã ký tự. Ví dụ: để chèn ký hiệu độ (°), hãy nhấn và giữ phím ALT, sau đó nhập 0176 trên bàn phím số.

Để nhập số, hãy sử dụng bàn phím số thay vì các số trên bàn phím chính. Nếu bạn cần nhập số trên bàn phím số, hãy đảm bảo đèn báo NUM LOCK được bật.

Chèn ký tự Unicode

Để chèn ký tự Unicode, hãy nhập mã ký tự, sau đó nhấn ALT và X. Ví dụ: để chèn ký hiệu đô la ($), hãy nhập 0024 rồi nhấn ALT và X. Để biết tất cả các mã ký tự Unicode, hãy xem .

Quan trọng: Một số chương trình Microsoft Office, chẳng hạn như PowerPoint và InfoPath, không hỗ trợ chuyển đổi mã Unicode thành ký tự. Nếu bạn cần chèn ký tự Unicode vào một trong các chương trình này, hãy sử dụng .

Ghi chú:

    Nếu ký tự Unicode sai xuất hiện sau khi bạn nhấn ALT+X, hãy chọn mã đúng, rồi nhấn lại ALT+X.

    Ngoài ra, bạn phải nhập "U+" trước mã. Ví dụ: nếu bạn nhập "1U+B5" và nhấn ALT+X, văn bản "1µ" sẽ được hiển thị và nếu bạn nhập "1B5" và nhấn ALT+X, ký hiệu "Ƶ" sẽ được hiển thị.

Sử dụng bảng ký hiệu

Bảng ký tự là một chương trình được tích hợp trong Microsoft Windows cho phép bạn xem các ký tự có sẵn cho phông chữ đã chọn.

Sử dụng bảng ký hiệu, bạn có thể sao chép các ký hiệu riêng lẻ hoặc một nhóm ký hiệu vào bảng tạm và dán chúng vào bất kỳ chương trình nào hỗ trợ hiển thị các ký hiệu đó. Mở bảng ký hiệu

    Trong Windows 10, nhập từ "ký hiệu" vào hộp tìm kiếm trên thanh tác vụ và chọn bảng ký hiệu từ kết quả tìm kiếm.

    Trong Windows 8, nhập "ký hiệu" trên màn hình Bắt đầu và chọn bảng ký hiệu từ kết quả tìm kiếm.

    Trong Windows 7, bấm vào nút Bắt đầu, chọn Tất cả chương trình, Phụ kiện, Công cụ hệ thống, rồi bấm vào Bản đồ ký tự.

Các ký tự được nhóm theo phông chữ. Bấm vào danh sách phông chữ để chọn bộ ký tự phù hợp. Để chọn một biểu tượng, hãy nhấp vào biểu tượng đó, sau đó nhấp vào nút Chọn. Để chèn ký hiệu, bấm chuột phải vào vị trí mong muốn trong tài liệu và chọn Dán.

Mã ký tự thường dùng

Để biết danh sách đầy đủ các ký tự, hãy xem Máy tính, Bảng mã ký tự ASCII hoặc Bảng ký tự Unicode được tổ chức theo bộ.

Glyph

Glyph

Tiền tệ

Ký hiệu pháp lý

Ký hiệu toán học

Phân số

Dấu câu và ký hiệu phương ngữ

Ký hiệu hình dạng

Các mã dấu phụ thường dùng

Để biết danh sách đầy đủ các ký tự và mã tương ứng, hãy xem.

Glyph

Glyph

Ký tự điều khiển ASCII không in được

Các ký tự được sử dụng để điều khiển một số thiết bị ngoại vi, chẳng hạn như máy in, được đánh số từ 0–31 trong bảng ASCII. Ví dụ: nguồn cấp trang/ký tự trang mới là số 12. Ký tự này báo cho máy in di chuyển đến đầu trang tiếp theo.

Bảng ký tự điều khiển ASCII không in được

Số thập phân

Dấu hiệu

Số thập phân

Dấu hiệu

Giải phóng kênh dữ liệu

Bắt đầu tiêu đề

Mã điều khiển thiết bị đầu tiên

Bắt đầu văn bản

Mã điều khiển thiết bị thứ hai

Kết thúc văn bản

Mã điều khiển thiết bị thứ ba

Kết thúc truyền tải

Mã điều khiển thiết bị thứ tư

năm cánh

Xác nhận tiêu cực

Xác nhận

Chế độ truyền đồng bộ

Tín hiệu âm thanh

Kết thúc khối dữ liệu được truyền

Lập bảng theo chiều ngang

Kết thúc phương tiện truyền thông

Nguồn cấp dữ liệu/dòng mới

Ký hiệu thay thế

Tab dọc

quá

Dịch trang/trang mới

Mười hai

Dấu tách tập tin

Vận chuyển trở lại

Dấu phân cách nhóm

Dịch chuyển mà không lưu trữ bit

Dấu phân cách bản ghi

Dịch chuyển bảo toàn bit

mười lăm

Dấu phân cách dữ liệu

Theo Liên minh Viễn thông Quốc tế, năm 2016, ba tỷ rưỡi người sử dụng Internet một cách đều đặn. Hầu hết họ thậm chí không nghĩ đến thực tế rằng bất kỳ tin nhắn nào họ gửi qua PC hoặc thiết bị di động, cũng như văn bản hiển thị trên tất cả các loại màn hình, thực chất là sự kết hợp của 0 và 1. Việc biểu diễn thông tin này được gọi là mã hóa . Nó đảm bảo và tạo điều kiện thuận lợi rất nhiều cho việc lưu trữ, xử lý và truyền tải. Năm 1963, bảng mã ASCII của Mỹ được phát triển và đây là chủ đề của bài viết này.

Trình bày thông tin trên máy tính

Theo quan điểm của bất kỳ máy tính điện tử nào, văn bản là một tập hợp các ký tự riêng lẻ. Chúng không chỉ bao gồm các chữ cái, bao gồm cả chữ in hoa, mà còn cả dấu chấm câu và số. Ngoài ra, các ký tự đặc biệt “=”, “&”, “(” và dấu cách cũng được sử dụng.

Tập hợp các ký tự tạo nên văn bản được gọi là bảng chữ cái và số lượng của chúng được gọi là số lượng (ký hiệu là N). Để xác định nó, biểu thức N = 2^b được sử dụng, trong đó b là số bit hoặc trọng số thông tin của một ký hiệu cụ thể.

Người ta đã chứng minh rằng một bảng chữ cái có dung lượng 256 ký tự có thể biểu diễn tất cả các ký tự cần thiết.

Vì 256 đại diện cho lũy thừa thứ 8 của 2 nên trọng số của mỗi ký tự là 8 bit.

Đơn vị đo 8 bit được gọi là 1 byte, do đó, người ta thường nói rằng bất kỳ ký tự nào trong văn bản được lưu trữ trên máy tính đều chiếm một byte bộ nhớ.

Việc mã hóa được thực hiện như thế nào?

Bất kỳ văn bản nào cũng được nhập vào bộ nhớ của máy tính cá nhân bằng các phím trên bàn phím để viết số, chữ cái, dấu chấm câu và các ký hiệu khác. Chúng được chuyển sang RAM ở dạng mã nhị phân, tức là mỗi ký tự được liên kết với một mã thập phân quen thuộc với con người, từ 0 đến 255, tương ứng với mã nhị phân - từ 00000000 đến 11111111.

Mã hóa ký tự byte-byte cho phép bộ xử lý thực hiện xử lý văn bản truy cập từng ký tự riêng lẻ. Đồng thời, 256 ký tự là khá đủ để thể hiện bất kỳ thông tin tượng trưng nào.

mã hóa ký tự ASCII

Chữ viết tắt này trong tiếng Anh là viết tắt của mã trao đổi thông tin.

Ngay cả vào buổi bình minh của tin học hóa, rõ ràng là có thể nghĩ ra nhiều cách khác nhau để mã hóa thông tin. Tuy nhiên, để truyền thông tin từ máy tính này sang máy tính khác cần phải xây dựng một tiêu chuẩn thống nhất. Vì vậy, vào năm 1963, bảng mã hóa ASCII đã xuất hiện ở Mỹ. Trong đó, bất kỳ ký hiệu nào của bảng chữ cái máy tính đều được liên kết với số sê-ri của nó dưới dạng biểu diễn nhị phân. ASCII ban đầu chỉ được sử dụng ở Hoa Kỳ và sau đó trở thành tiêu chuẩn quốc tế cho PC.

Mã ASCII được chia thành 2 phần. Chỉ nửa đầu của bảng này được coi là tiêu chuẩn quốc tế. Nó bao gồm các ký tự có số sê-ri từ 0 (mã hóa là 00000000) đến 127 (mã hóa 01111111).

Số seri

mã hóa văn bản ASCII

Biểu tượng

0000 0000 - 0001 1111

Các ký tự có N từ 0 đến 31 được gọi là ký tự điều khiển. Chức năng của chúng là “quản lý” quá trình hiển thị văn bản trên màn hình hoặc thiết bị in, đưa ra tín hiệu âm thanh, v.v.

0010 0000 - 0111 1111

Các ký tự từ N từ 32 đến 127 (phần tiêu chuẩn của bảng) - chữ hoa và chữ thường của bảng chữ cái Latinh, chữ số thứ 10, dấu chấm câu, cũng như các dấu ngoặc, ký hiệu thương mại và các ký hiệu khác. Ký tự 32 đại diện cho một khoảng trắng.

1000 0000 - 1111 1111

Các ký tự có N từ 128 đến 255 (phần thay thế của bảng hoặc trang mã) có thể có các biến thể khác nhau, mỗi biến thể có số riêng. Trang mã được sử dụng để chỉ định bảng chữ cái quốc gia khác với tiếng Latin. Đặc biệt, với sự trợ giúp của nó, việc mã hóa ASCII cho các ký tự tiếng Nga đã được thực hiện.

Trong bảng, các bảng mã được viết hoa và nối tiếp nhau theo thứ tự bảng chữ cái, các số theo thứ tự tăng dần. Nguyên tắc này vẫn được giữ nguyên đối với bảng chữ cái tiếng Nga.

Ký tự điều khiển

Bảng mã hóa ASCII ban đầu được tạo ra để nhận và truyền thông tin qua một thiết bị đã lâu không được sử dụng, chẳng hạn như máy teletype. Về vấn đề này, các ký tự không in được đã được đưa vào bộ ký tự, được sử dụng làm lệnh để điều khiển thiết bị này. Các lệnh tương tự đã được sử dụng trong các phương thức nhắn tin trước máy tính như mã Morse, v.v.

Ký tự teletype phổ biến nhất là NUL (00). Ngày nay nó vẫn được sử dụng trong hầu hết các ngôn ngữ lập trình để biểu thị sự kết thúc của một dòng.

Mã hóa ASCII được sử dụng ở đâu?

Mã Tiêu chuẩn Hoa Kỳ không chỉ cần thiết để nhập thông tin văn bản trên bàn phím. Nó cũng được sử dụng trong đồ họa. Đặc biệt, trong ASCII Art Maker, hình ảnh của các phần mở rộng khác nhau đại diện cho nhiều ký tự ASCII.

Có hai loại sản phẩm như vậy: loại thực hiện chức năng của trình chỉnh sửa đồ họa bằng cách chuyển đổi hình ảnh thành văn bản và loại chuyển đổi “bản vẽ” thành đồ họa ASCII. Ví dụ: biểu tượng cảm xúc nổi tiếng là ví dụ điển hình về ký hiệu mã hóa.

ASCII cũng có thể được sử dụng khi tạo tài liệu HTML. Trong trường hợp này, bạn có thể nhập một bộ ký tự nhất định và khi xem trang, một biểu tượng tương ứng với mã này sẽ xuất hiện trên màn hình.

ASCII cũng cần thiết để tạo các trang web đa ngôn ngữ, vì các ký tự không có trong bảng quốc gia cụ thể sẽ được thay thế bằng mã ASCII.

Một số tính năng

ASCII ban đầu được sử dụng để mã hóa thông tin văn bản bằng 7 bit (một bit để trống), nhưng ngày nay nó hoạt động ở mức 8 bit.

Các chữ cái nằm trong các cột nằm ở trên và dưới chỉ khác nhau ở một bit duy nhất. Điều này làm giảm đáng kể sự phức tạp của cuộc kiểm toán.

Sử dụng ASCII trong Microsoft Office

Nếu cần, loại mã hóa thông tin văn bản này có thể được sử dụng trong các trình soạn thảo văn bản của Microsoft như Notepad và Office Word. Tuy nhiên, bạn có thể không sử dụng được một số chức năng khi gõ trong trường hợp này. Ví dụ: bạn sẽ không thể sử dụng văn bản in đậm vì mã hóa ASCII chỉ bảo tồn ý nghĩa của thông tin mà bỏ qua hình thức và hình thức chung của nó.

Tiêu chuẩn hóa

Tổ chức ISO đã áp dụng tiêu chuẩn ISO 8859. Nhóm này xác định mã hóa 8 bit cho các nhóm ngôn ngữ khác nhau. Cụ thể, ISO 8859-1 là bảng ASCII mở rộng dành cho Hoa Kỳ và các nước Tây Âu. Và ISO 8859-5 là bảng dùng cho bảng chữ cái Cyrillic, bao gồm cả tiếng Nga.

Vì một số lý do lịch sử, tiêu chuẩn ISO 8859-5 đã được sử dụng trong một thời gian rất ngắn.

Đối với tiếng Nga, các bảng mã sau đây thực sự được sử dụng vào thời điểm hiện tại:

  • CP866 (Mã trang 866) hoặc DOS, thường được gọi là mã hóa GOST thay thế. Nó được sử dụng tích cực cho đến giữa những năm 90 của thế kỷ trước. Hiện tại nó thực tế không được sử dụng.
  • KOI-8. Mã hóa được phát triển vào những năm 1970 và 80 và hiện là tiêu chuẩn được chấp nhận rộng rãi cho các email trên RuNet. Nó được sử dụng rộng rãi trong các hệ điều hành Unix, bao gồm cả Linux. Phiên bản KOI-8 của Nga được gọi là KOI-8R. Ngoài ra, còn có các phiên bản dành cho các ngôn ngữ Cyrillic khác, chẳng hạn như tiếng Ukraina.
  • Mã trang 1251 (CP 1251, Windows - 1251).Được phát triển bởi Microsoft để cung cấp hỗ trợ cho ngôn ngữ tiếng Nga trong môi trường Windows.

Ưu điểm chính của tiêu chuẩn CP866 đầu tiên là bảo toàn các ký tự giả ở cùng vị trí như trong Extended ASCII. Điều này giúp có thể chạy các chương trình văn bản do nước ngoài sản xuất, chẳng hạn như Norton Commander nổi tiếng mà không cần sửa đổi. Hiện tại, CP866 được sử dụng cho các chương trình được phát triển cho Windows chạy ở chế độ văn bản toàn màn hình hoặc trong cửa sổ văn bản, bao gồm cả Trình quản lý FAR.

Ngày nay, văn bản máy tính được viết bằng mã hóa CP866 khá hiếm, nhưng nó là văn bản được sử dụng cho tên tệp tiếng Nga trong Windows.

"Unicode"

Hiện tại, mã hóa này được sử dụng rộng rãi nhất. Mã Unicode được chia thành các khu vực. Đầu tiên (U+0000 đến U+007F) bao gồm các ký tự ASCII có mã. Tiếp theo là các khu vực ký tự của các chữ viết quốc gia khác nhau, cũng như các dấu câu và ký hiệu kỹ thuật. Ngoài ra, một số mã Unicode được dự trữ trong trường hợp có nhu cầu đưa vào các ký tự mới trong tương lai.

Bây giờ bạn biết rằng trong ASCII, mỗi ký tự được biểu diễn dưới dạng kết hợp của 8 số 0 và 1. Đối với những người không phải là chuyên gia, thông tin này có vẻ không cần thiết và không thú vị, nhưng bạn có muốn biết điều gì đang diễn ra “trong não” PC của mình không?!

Nhân tiện, trên trang web của chúng tôi, bạn có thể chuyển đổi bất kỳ văn bản nào thành mã thập phân, thập lục phân, mã nhị phân bằng Máy tính mã trực tuyến.

bảng ASCII

ASCII (Mã tiêu chuẩn Mỹ để trao đổi thông tin)

Bảng tổng hợp mã ASCII

Bảng mã ký tự ASCII Windows (Win-1251)

Biểu tượng

chuyên gia. lập bảng

chuyên gia. LF (Trả lại vận chuyển)

chuyên gia. CR (Dòng mới)

ly hợp SP (Không gian)

Biểu tượng

Bảng mã ASCII mở rộng
Các ký hiệu định dạng.

Backspace (Trả về một ký tự). Cho biết cơ chế in hoặc con trỏ hiển thị đang di chuyển lùi lại một vị trí.

Lập bảng theo chiều ngang. Cho biết chuyển động của công cụ in hoặc con trỏ hiển thị tới "điểm dừng tab" được quy định tiếp theo.

Nguồn cấp dữ liệu dòng. Cho biết chuyển động của cơ chế in hoặc hiển thị con trỏ đến đầu dòng tiếp theo (xuống một dòng).

Lập bảng theo chiều dọc. Cho biết chuyển động của công cụ in hoặc con trỏ hiển thị tới nhóm dòng tiếp theo.

Thức ăn dạng. Cho biết chuyển động của công cụ in hoặc con trỏ hiển thị đến vị trí bắt đầu của trang, biểu mẫu hoặc màn hình tiếp theo.

Vận chuyển trở lại. Cho biết chuyển động của cơ chế in hoặc con trỏ hiển thị đến vị trí đầu tiên (ngoài cùng bên trái) của dòng hiện tại.

Truyền dữ liệu.

Bắt đầu tiêu đề. Được sử dụng để xác định phần bắt đầu của tiêu đề, có thể chứa thông tin định tuyến hoặc địa chỉ.

Bắt đầu văn bản. Hiển thị phần đầu của văn bản và đồng thời phần cuối của tiêu đề.

Kết thúc văn bản. Áp dụng khi kết thúc văn bản bắt đầu bằng ký tự STX.

Cuộc điều tra. Yêu cầu dữ liệu nhận dạng (chẳng hạn như "Bạn là ai?") từ một trạm từ xa.

Thừa nhận. Thiết bị nhận truyền ký tự này đến người gửi dưới dạng xác nhận việc nhận dữ liệu thành công.

Sự thừa nhận tiêu cực. Thiết bị nhận truyền ký tự này cho người gửi trong trường hợp việc nhận dữ liệu bị từ chối (không thành công).

Đồng bộ/Nhàn rỗi. Được sử dụng trong các hệ thống truyền dẫn đồng bộ. Khi không có đường truyền dữ liệu, hệ thống liên tục gửi ký hiệu SYN để đảm bảo đồng bộ.

Kết thúc khối truyền tải. Cho biết sự kết thúc của khối dữ liệu cho mục đích liên lạc. Dùng để chia một lượng lớn dữ liệu thành các khối riêng biệt.

Dấu phân chia khi truyền tải thông tin. Các biểu tượng khác.

Vô giá trị. (Không có ký tự - không có dữ liệu). Được sử dụng để truyền khi không có dữ liệu.

Chuông (Gọi). Dùng để điều khiển các thiết bị báo động.

Chuyển ra ngoài. Chỉ ra rằng tất cả các từ mã tiếp theo phải được giải thích theo bộ ký tự bên ngoài trước khi ký tự SI xuất hiện.

Thay đổi trong. Chỉ ra rằng các tổ hợp mã tiếp theo phải được diễn giải theo bộ ký tự chuẩn.

Thoát liên kết dữ liệu. Thay đổi ý nghĩa của các ký tự sau. Được sử dụng để điều khiển bổ sung hoặc để truyền một tổ hợp bit tùy ý.

DC1, DC2, DC3, DC4

Điều khiển thiết bị. Ký hiệu vận hành các thiết bị phụ trợ (chức năng đặc biệt).

Hủy bỏ. Cho biết rằng dữ liệu đứng trước ký tự này trong thông báo hoặc khối nên được bỏ qua (thường là nếu phát hiện thấy lỗi).

Kết thúc phương tiện. Cho biết điểm cuối vật lý của băng hoặc phương tiện lưu trữ khác

Thay thế. Được sử dụng để thay thế một ký tự sai hoặc không hợp lệ.

Thoát (Mở rộng). Được sử dụng để mở rộng mã bằng cách chỉ ra rằng ký tự tiếp theo có ý nghĩa khác.

Không gian. Ký tự không in được dùng để phân tách các từ hoặc di chuyển công cụ in hoặc hiển thị con trỏ về phía trước một vị trí.

Xóa bỏ. Dùng để loại bỏ (xóa) ký tự trước đó trong tin nhắn

[Mã hóa 8 bit: ASCII, KOI-8R và CP1251] Các bảng mã hóa đầu tiên được tạo ở Hoa Kỳ không sử dụng bit thứ tám trong một byte. Văn bản được biểu diễn dưới dạng một chuỗi byte, nhưng bit thứ tám không được tính đến (nó được sử dụng cho mục đích chính thức).

Bảng ASCII (Mã tiêu chuẩn Mỹ để trao đổi thông tin) đã trở thành một tiêu chuẩn được chấp nhận rộng rãi. 32 ký tự đầu tiên của bảng ASCII (00 đến 1F) được sử dụng cho các ký tự không in được. Chúng được thiết kế để điều khiển một thiết bị in, v.v. Phần còn lại - từ 20 đến 7F - là các ký tự thông thường (có thể in được).

Bảng 1 - Mã hóa ASCII

Tháng mười hai Hex Tháng mười Char Mô tả
0 0 000 vô giá trị
1 1 001 bắt đầu tiêu đề
2 2 002 bắt đầu văn bản
3 3 003 cuối văn bản
4 4 004 kết thúc truyền tải
5 5 005 cuộc điều tra
6 6 006 thừa nhận
7 7 007 chuông
8 8 010 xóa lùi
9 9 011 Tab ngang
10 MỘT 012 dòng mới
11 B 013 tab dọc
12 C 014 trang mới
13 D 015 vận chuyển trở lại
14 E 016 chuyển ra ngoài
15 F 017 thay đổi trong
16 10 020 thoát liên kết dữ liệu
17 11 021 điều khiển thiết bị 1
18 12 022 điều khiển thiết bị 2
19 13 023 điều khiển thiết bị 3
20 14 024 điều khiển thiết bị 4
21 15 025 thừa nhận tiêu cực
22 16 026 nhàn rỗi đồng bộ
23 17 027 kết thúc quá trình chuyển đổi. khối
24 18 030 Hủy bỏ
25 19 031 kết thúc phương tiện
26 1A 032 thay thế
27 1B 033 bỏ trốn
28 1C 034 phân tách tập tin
29 1D 035 dấu tách nhóm
30 1E 036 dấu tách bản ghi
31 1F 037 dấu phân cách đơn vị
32 20 040 không gian
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
Tháng mười hai Hex Tháng mười Char
64 40 100 @
65 41 101 MỘT
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 TÔI
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 bạn
86 56 126 V.
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 Một
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 Tôi
106 6A 152 j
107 6B 153 k
108 6C 154 tôi
109 6D 155 tôi
110 6E 156 N
111 6F 157
112 70 160 P
113 71 161 q
114 72 162 r
115 73 163 S
116 74 164 t
117 75 165 bạn
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Như bạn có thể dễ dàng thấy, bảng mã này chỉ chứa các chữ cái Latinh và những chữ cái được sử dụng bằng tiếng Anh. Ngoài ra còn có số học và các ký hiệu dịch vụ khác. Nhưng không có chữ cái tiếng Nga, thậm chí không có chữ cái Latinh đặc biệt dành cho tiếng Đức hoặc tiếng Pháp. Điều này rất dễ giải thích - mã hóa được phát triển đặc biệt theo tiêu chuẩn của Mỹ. Khi máy tính bắt đầu được sử dụng trên toàn thế giới, các ký tự khác cần được mã hóa.

Để làm điều này, người ta quyết định sử dụng bit thứ tám trong mỗi byte. Điều này làm cho có thêm 128 giá trị (từ 80 đến FF) có thể được sử dụng để mã hóa các ký tự. Bảng đầu tiên trong số tám bit - “ASCII mở rộng” ( ASCII mở rộng) - bao gồm nhiều biến thể khác nhau của các ký tự Latinh được sử dụng trong một số ngôn ngữ ở Tây Âu. Nó cũng chứa các ký hiệu bổ sung khác, bao gồm cả bút danh.

Các ký tự giả cho phép bạn cung cấp một số hình ảnh đồ họa bằng cách chỉ hiển thị các ký tự văn bản trên màn hình. Ví dụ: chương trình quản lý tệp FAR Manager hoạt động bằng cách sử dụng đồ họa giả.

Không có chữ cái tiếng Nga nào trong bảng ASCII mở rộng. Nga (trước đây là Liên Xô) và các quốc gia khác đã tạo ra bảng mã riêng của họ để có thể thể hiện các ký tự “quốc gia” cụ thể trong các tệp văn bản 8 bit - các chữ cái Latinh của tiếng Ba Lan và tiếng Séc, Cyrillic (bao gồm cả các chữ cái tiếng Nga) và các bảng chữ cái khác.

Trong tất cả các mã hóa đã trở nên phổ biến, 127 ký tự đầu tiên (nghĩa là giá trị byte có bit thứ tám bằng 0) đều giống như ASCII. Vì vậy, tệp ASCII hoạt động ở một trong hai bảng mã này; Các chữ cái trong tiếng Anh được thể hiện theo cách tương tự.

Tổ chức ISO (Tổ chức tiêu chuẩn hóa quốc tế) đã áp dụng nhóm tiêu chuẩn ISO 8859. Nó xác định mã hóa 8 bit cho các nhóm ngôn ngữ khác nhau. Vì vậy, ISO 8859-1 là bảng ASCII mở rộng dành cho Hoa Kỳ và Tây Âu. Và ISO 8859-5 là bảng dành cho bảng chữ cái Cyrillic (bao gồm cả tiếng Nga).

Tuy nhiên, vì lý do lịch sử, mã hóa ISO 8859-5 đã không có hiệu lực. Trong thực tế, các bảng mã sau được sử dụng cho tiếng Nga:

Mã Trang 866 (CP866), hay còn gọi là “DOS”, hay còn gọi là “mã hóa GOST thay thế”. Được sử dụng rộng rãi cho đến giữa những năm 90; nay được sử dụng ở mức độ hạn chế. Thực tế không được sử dụng để phân phối văn bản trên Internet.
- KOI-8. Được phát triển vào những năm 70-80. Đây là một tiêu chuẩn được chấp nhận rộng rãi để truyền tải các email trên Internet của Nga. Nó cũng được sử dụng rộng rãi trong các hệ điều hành thuộc họ Unix, bao gồm cả Linux. Phiên bản tiếng Nga của KOI-8 được gọi là KOI-8R; Có các phiên bản dành cho các ngôn ngữ Cyrillic khác (ví dụ: KOI8-U là phiên bản dành cho tiếng Ukraina).
- Mã trang 1251, CP1251, Windows-1251. Được phát triển bởi Microsoft để hỗ trợ tiếng Nga trong Windows.

Ưu điểm chính của CP866 là bảo toàn các ký tự đồ họa giả ở những vị trí giống như trong Extended ASCII; do đó, các chương trình văn bản nước ngoài, chẳng hạn như Norton Commander nổi tiếng, có thể hoạt động mà không cần thay đổi. CP866 hiện được sử dụng cho các chương trình Windows chạy trong cửa sổ văn bản hoặc chế độ văn bản toàn màn hình, bao gồm cả Trình quản lý FAR.

Các văn bản trong CP866 khá hiếm trong những năm gần đây (nhưng nó được sử dụng để mã hóa tên tệp tiếng Nga trong Windows). Do đó, chúng tôi sẽ trình bày chi tiết hơn về hai bảng mã khác - KOI-8R và CP1251.



Như bạn có thể thấy, trong bảng mã hóa CP1251, các chữ cái tiếng Nga được sắp xếp theo thứ tự bảng chữ cái (tuy nhiên, ngoại trừ chữ E). Sự sắp xếp này giúp các chương trình máy tính dễ dàng sắp xếp theo thứ tự bảng chữ cái.

Nhưng trong KOI-8R thứ tự các chữ cái tiếng Nga có vẻ ngẫu nhiên. Nhưng thực tế thì không phải vậy.

Trong nhiều chương trình cũ, bit thứ 8 bị mất khi xử lý hoặc truyền văn bản. (Bây giờ những chương trình như vậy thực tế đã “tuyệt chủng”, nhưng vào cuối những năm 80 - đầu những năm 90, chúng đã lan rộng). Để nhận giá trị 7 bit từ giá trị 8 bit, chỉ cần trừ 8 từ chữ số có nghĩa nhất; ví dụ: E1 trở thành 61.

Bây giờ so sánh KOI-8R với bảng ASCII (Bảng 1). Bạn sẽ thấy rằng các chữ cái tiếng Nga được đặt tương ứng rõ ràng với các chữ cái Latinh. Nếu bit thứ tám biến mất, các chữ cái tiếng Nga viết thường sẽ chuyển thành chữ cái Latinh viết hoa và các chữ cái tiếng Nga viết hoa sẽ chuyển thành chữ cái Latinh viết thường. Vì vậy, E1 trong KOI-8 là chữ “A” trong tiếng Nga, trong khi 61 trong ASCII là chữ “a” trong tiếng Latin.

Vì vậy, KOI-8 cho phép bạn duy trì khả năng đọc của văn bản tiếng Nga khi mất bit thứ 8. “Xin chào mọi người” trở thành “PRIWET WSEM”.

Gần đây, cả thứ tự chữ cái của các ký tự trong bảng mã hóa và khả năng đọc khi mất bit thứ 8 đều mất đi tầm quan trọng mang tính quyết định. Bit thứ tám trong máy tính hiện đại không bị mất trong quá trình truyền hoặc xử lý. Và việc sắp xếp theo thứ tự bảng chữ cái được thực hiện có tính đến việc mã hóa chứ không chỉ bằng cách so sánh các mã. (Nhân tiện, mã CP1251 không được sắp xếp hoàn toàn theo thứ tự bảng chữ cái - chữ E không ở đúng vị trí của nó).

Do có hai cách mã hóa phổ biến nên khi làm việc với Internet (thư, duyệt các trang Web), đôi khi bạn có thể thấy một tập hợp các chữ cái vô nghĩa thay vì văn bản tiếng Nga. Ví dụ: “TÔI LÀ SBYUFEMHEL.” Đây chỉ là những từ “với sự tôn trọng”; nhưng chúng được mã hóa bằng mã hóa CP1251 và máy tính đã giải mã văn bản bằng bảng KOI-8. Ngược lại, nếu các từ tương tự được mã hóa bằng KOI-8 và máy tính giải mã văn bản theo bảng CP1251 thì kết quả sẽ là “U HCHBTSEOYEN”.

Đôi khi xảy ra trường hợp máy tính giải mã các chữ cái tiếng Nga bằng cách sử dụng một bảng không dành cho tiếng Nga. Sau đó, thay vì các chữ cái tiếng Nga, một bộ ký hiệu vô nghĩa xuất hiện (ví dụ: các chữ cái Latinh của các ngôn ngữ Đông Âu); chúng thường được gọi là “crocozybras”.

Trong hầu hết các trường hợp, các chương trình hiện đại có thể xử lý việc xác định mã hóa của tài liệu Internet (email và trang Web) một cách độc lập. Nhưng đôi khi chúng “bắn nhầm”, và sau đó bạn có thể thấy những chuỗi chữ cái tiếng Nga hoặc “krokozyabry” kỳ lạ. Theo quy định, trong tình huống như vậy, để hiển thị văn bản thực trên màn hình, chỉ cần chọn mã hóa thủ công trong menu chương trình là đủ.

Thông tin từ trang http://open-office.edusite.ru/TextProcessor/p5aa1.html đã được sử dụng cho bài viết này.

Tài liệu được lấy từ trang web:

Tháng mười hailục giácBiểu tượng Tháng mười hailục giácBiểu tượng
000 00 chuyên gia. KHÔNG 128 80 Ђ
001 01 chuyên gia. SOH 129 81 Ѓ
002 02 chuyên gia. STX 130 82
003 03 chuyên gia. ETX 131 83 ѓ
004 04 chuyên gia. EOT 132 84
005 05 chuyên gia. ENQ 133 85
006 06 chuyên gia. ACK 134 86
007 07 chuyên gia. BEL 135 87
008 08 chuyên gia. B.S. 136 88
009 09 chuyên gia. CHUYỂN HƯỚNG 137 89
010 0Achuyên gia. LF 138 8AЉ
011 0Bchuyên gia. VT 139 8B‹ ‹
012 0Cchuyên gia. FF 140 8CЊ
013 0Dchuyên gia. CR 141 8DЌ
014 0Echuyên gia. VÌ THẾ 142 8EЋ
015 0Fchuyên gia. S.I. 143 8FЏ
016 10 chuyên gia. DLE 144 90 ђ
017 11 chuyên gia. DC1 145 91
018 12 chuyên gia. DC2 146 92
019 13 chuyên gia. DC3 147 93
020 14 chuyên gia. DC4 148 94
021 15 chuyên gia. N.A.K. 149 95
022 16 chuyên gia. SYN 150 96
023 17 chuyên gia. ETB 151 97
024 18 chuyên gia. CÓ THỂ 152 98
025 19 chuyên gia. E.M. 153 99
026 1Achuyên gia. PHỤ 154 9Aљ
027 1Bchuyên gia. THOÁT 155 9B
028 1Cchuyên gia. FS 156 9Cњ
029 1Dchuyên gia. G.S. 157 9Dќ
030 1Echuyên gia. R.S. 158 9Eћ
031 1Fchuyên gia. CHÚNG TA 159 9Fџ
032 20 ly hợp SP (Không gian) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8yo
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 AC.¬
045 2D- 173 QUẢNG CÁO­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B 4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 BA.є
059 3B; 187 BB»
060 3C< 188 BCј
061 3D= 189 BDЅ
062 3E> 190 ѕ
063 3F? 191 B. F.ї
064 40 @ 192 C0 MỘT
065 41 MỘT 193 C1 B
066 42 B 194 C2 TRONG
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C 6
071 47 G 199 C7 Z
072 48 H 200 C8
073 49 TÔI 201 C9 Y
074 4AJ 202 CA ĐẾN
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 đĩa CD N
078 4EN 206 C.E. VỀ
079 4F 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 VỚI
082 52 R 210 D2 T
083 53 S 211 D3 bạn
084 54 T 212 D4 F
085 55 bạn 213 D5 X
086 56 V. 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 Sh
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 ĐĐ E
094 5E^ 222 DE YU
095 5F_ 223 DF TÔI
096 60 ` 224 E0 MỘT
097 61 Một 225 E1 b
098 62 b 226 E2 V.
099 63 c 227 E3 G
100 64 d 228 E 4 d
101 65 e 229 E5 e
102 66 f 230 E6
103 67 g 231 E7 h
104 68 h 232 E8
105 69 Tôi 233 E9 quần què
106 6Aj 234 E.A. ĐẾN
107 6Bk 235 E.B. tôi
108 6Ctôi 236 E.C. tôi
109 6Dtôi 237 ED N
110 6EN 238 EE
111 6F 239 E. F. P
112 70 P 240 F0 R
113 71 q 241 F1 Với
114 72 r 242 F2 T
115 73 S 243 F3 Tại
116 74 t 244 F4 f
117 75 bạn 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 học
122 7Az 250 F.A. ъ
123 7B{ 251 FB S
124 7C| 252 F.C. b
125 7D} 253 FD
126 7E~ 254 F.E. Yu
127 7FChuyên gia. DEL 255 FF TÔI
Bảng mã ký tự ASCII Windows.
Mô tả các ký tự (điều khiển) đặc biệt Cần lưu ý rằng các ký tự điều khiển ban đầu của bảng ASCII được sử dụng để đảm bảo trao đổi dữ liệu qua teletype, nhập dữ liệu từ băng đục lỗ và để điều khiển đơn giản các thiết bị bên ngoài.
Hiện tại, hầu hết các ký tự điều khiển bảng ASCII không còn mang tải này nữa và có thể được sử dụng cho các mục đích khác. Mô tả mã
NUL, 00Không, trống rỗng
SOH, 01Bắt đầu tiêu đề
STX, 02Bắt đầu TeXt, phần đầu của văn bản.
ETX, 03Cuối TeXt, cuối văn bản
EOT, 04Kết thúc truyền, kết thúc truyền
ENQ, 05Hỏi thăm. Vui lòng xác nhận
ACK, 06Nhìn nhận. tôi xác nhận
BEL, 07Chuông, gọi
BS, 08Backspace, quay lại một ký tự
TAB, 09Tab, tab ngang
LF, 0ANguồn cấp dữ liệu, nguồn cấp dữ liệu.
Ngày nay trong hầu hết các ngôn ngữ lập trình, nó được ký hiệu là \n
VT, 0BTab dọc, lập bảng dọc.
FF, 0CNguồn cấp dữ liệu biểu mẫu, nguồn cấp dữ liệu trang, trang mới
CR, 0DVận chuyển trở lại, vận chuyển trở lại.
Ngày nay trong hầu hết các ngôn ngữ lập trình, nó được ký hiệu là \r
SO,0EShift Out, đổi màu ribbon mực trong máy in
SI, 0FShift In, trả lại màu ruy băng mực trong thiết bị in
DLE, 10Thoát liên kết dữ liệu, chuyển kênh sang truyền dữ liệu
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Điều khiển thiết bị, ký hiệu điều khiển thiết bị
NAK, 15Xác nhận tiêu cực, tôi không xác nhận.
SYN, 16Đồng bộ hóa. Biểu tượng đồng bộ hóa
ETB, 17Kết thúc khối văn bản, kết thúc khối văn bản
CÓ THỂ, 18Hủy, hủy lệnh đã truyền trước đó
EM, 19Kết thúc phương tiện
PHỤ, 1AThay thế, thay thế. Được đặt thay cho một biểu tượng có ý nghĩa bị mất hoặc bị sai lệch trong quá trình truyền tải
ESC, 1BTrình tự kiểm soát thoát
FS, 1CTrình phân tách tệp, trình phân tách tệp
GS, 1DDấu tách nhóm
RS, 1EDấu tách bản ghi, dấu tách bản ghi
Mỹ, 1FDấu phân cách đơn vị
DEL, 7FXóa, xóa ký tự cuối cùng.