Tất cả các tập tin văn bản. Tóm tắt: Tệp văn bản. Trình soạn thảo tập tin văn bản. Thủ tục làm việc với các biến tập tin

Sau khi đóng một tệp, mối liên kết của biến tệp với tệp vật lý không bị hỏng và tệp có thể được mở lại mà không cần gọi thêm thủ tục Gán.

Thủ tục đóng sẽ đóng một tập tin đang mở.

đóng(file_variable);

Việc đóng tệp đảm bảo rằng tệp vật lý được an toàn và đầy đủ.

Nếu chương trình bị hủy do lỗi trước khi đóng tệp, tệp sẽ vẫn được tạo trên phương tiện nhưng nội dung của bộ đệm cuối cùng sẽ không được chuyển vào tệp.

Điều tương tự sẽ xảy ra nếu bạn quên thực hiện lệnh gọi Đóng trong chương trình.


tập tin văn bản là tập hợp các chuỗi ký tự có độ dài thay đổi.

Chuỗi bao gồm các ký tự trong mã ASCII cho MS-DOS và mã ANSI cho Windows.

Nó có thể được tạo và chỉnh sửa bằng bất kỳ trình soạn thảo mã văn bản Delphi, Lazarus hoặc Word, WorPad hoặc NotePad.

(Khi tạo trong Delphi, chọn Tệp ÞMới ÞKhác từ menu chính, hộp thoại Mục mới sẽ mở ra. Trong tab Mới, chọn biểu tượng Văn bản và nhấn phím OK

Khi tạo trong Lazarus, chọn Tệp ÞMới từ menu chính, hộp thoại Mới... sẽ mở ra. Trong hộp thoại, chọn ModuleÞText và nhấn phím OK).

Các tệp văn bản có phần mở rộng *.txt.

Sơ đồ biểu diễn của tệp văn bản:

Ký tự điều khiển #13 và #10 (lùi đầu dòng - nhập các ký tự tiếp theo sẽ bắt đầu từ vị trí đầu tiên và nạp dòng - nhập sẽ bắt đầu từ một dòng trống.).

Ký hiệu #13 và #10 – điểm đánh dấu cuối dòng.

Chuỗi trống chỉ chứa các ký tự #13 và #10.

Cuối file có dấu kết thúc file - ký tự điều khiển #26 ( điểm đánh dấu cuối tập tin).

Một tệp văn bản trống chứa một ký tự #26.

Khi viết số, chuỗi và giá trị logic, chúng được chuyển đổi thành dạng ký hiệu (văn bản).

Khi đọc số và chuỗi, chúng sẽ tự động được chuyển đổi từ dạng văn bản sang dạng biểu diễn bằng máy.

Để làm việc với một tệp văn bản, bạn cần xác định một biến tệp:

Nếu tệp được mở để ghi (Thủ tục ghi lại), chỉ cho phép ghi dữ liệu.

Nếu tệp được mở để đọc (Quy trình đặt lại), chỉ được phép đọc.

Việc đọc dữ liệu từ file văn bản được thực hiện bằng thủ tục Read và Readln:

Đọc

đọc(file_variable, input_list);

input_list – danh sách các biến kiểu ký tự, chuỗi, số nguyên và kiểu thực.

Các loại có cấu trúc phức tạp (chẳng hạn như mảng, bộ, bản ghi, v.v.) chỉ có thể được nhập bởi các phần tử (theo trường bản ghi).

Sau khi đọc một thành phần cụ thể, con trỏ tệp sẽ được chuyển sang thành phần tiếp theo.


Nếu bạn đang đọc một tập tin vào một biến char, thì thủ tục Đọc sẽ đọc một ký tự. Khi đến cuối dòng, kết quả đọc là ký tự cuối dòng, #13 và #10, và khi đến cuối tệp, ký tự cuối tệp, #26, được đọc.

Trong khi đọc một giá trị vào một số nguyên hoặc một biến thựcĐầu tiên, một chuỗi con được trích xuất trong đó tất cả các khoảng trắng ở đầu, tab (#9) và điểm đánh dấu cuối dòng đều bị xóa.

Quá trình đọc dừng lại khi gặp dấu cách đầu tiên, điểm đánh dấu cuối dòng hoặc ký tự tab.

Chuỗi ký tự số đọc được sẽ được chuyển đổi thành số, được gán cho biến tương ứng.

Thao tác đọc tiếp theo bắt đầu bằng khoảng trắng (điểm đánh dấu cuối dòng, ký tự tab, v.v.).

Nếu chuỗi con được chọn chứa các ký tự không phải số thì sẽ xảy ra lỗi I/O.

Trong khi đọc dữ liệu vào một biến chuỗi Thủ tục Đọc đọc tất cả các ký tự cho đến điểm đánh dấu cuối dòng.

Nếu số ký tự của một dòng trong tệp lớn hơn số được chỉ định trong khai báo biến chuỗi thì các ký tự phụ sẽ không được đọc.

Nếu thủ tục Đọc đã đọc toàn bộ một dòng cụ thể thì vào lần tiếp theo nó được gọi, quá trình đọc sẽ bắt đầu ở điểm đánh dấu cuối dòng, nghĩa là một dòng có độ dài bằng 0 sẽ được đọc.

Thủ tục Đọc không chuyển con trỏ tệp tới dòng ký tự tiếp theo và do đó không thể sử dụng để đọc một chuỗi các dòng.

Thủ tục Readln đọc tất cả các ký tự trong một dòng bao gồm cả dấu kết thúc, thao tác này buộc con trỏ tệp đến một dòng mới.

Một thủ tục có thể được gọi mà không có danh sách đầu vào, điều này sẽ khiến con trỏ tệp di chuyển đến đầu dòng tiếp theo của tệp mà không cần đọc dòng trước đó.

Khi sử dụng quy trình Readln để đọc số, hãy lưu ý rằng sau khi đọc chữ số cuối cùng của số, tất cả ký tự văn bản còn lại trước dấu cuối dòng sẽ bị bỏ qua và ký tự đầu tiên của dòng tiếp theo của số đó sẽ bị bỏ qua. tập tin văn bản sẽ có sẵn.


Việc ghi vào một tập tin văn bản được thực hiện bằng cách sử dụng các thủ tục ViếtViết:

Viết

Viết(file_variable, đầu ra_list);

Ở đây file_variable là một biến kiểu văn bản;

danh sách đầu ra là danh sách các biến hoặc biểu thức của ký tự, chuỗi, số nguyên, số thực hoặc kiểu Boolean.

Sự khác biệt giữa thủ tục Write và Writeln là một dòng được ghi vào tệp bằng thủ tục Writeln được kết thúc bằng ký tự cuối dòng.

Nếu thủ tục Writeln được sử dụng mà không có danh sách đầu ra thì một chuỗi trống sẽ được ghi vào tệp.

Để đọc tất cả dữ liệu từ một file văn bản, bạn cần sử dụng hàm ôi, xác định xem đã đạt đến cuối tập tin hay chưa. Cú pháp gọi hàm này.

Eof(file_variable);

Nó trả về một giá trị boolean. Nếu con trỏ tệp nằm ngoài phần tử cuối cùng của tệp hoặc nếu tệp trống thì hàm trả về True. Ngược lại nó trả về Sai.

Tệp văn bản

Trước tiên, hãy tìm hiểu tệp văn bản là gì và chúng khác với tệp nhị phân như thế nào. Tệp văn bản là tập hợp con của tệp nhị phân, nhưng không giống như tệp nhị phân, chúng không thể chứa toàn bộ bộ ký tự. Tất cả thông tin trong tệp được chia thành các dòng được phân cách bằng ký tự xuống dòng (CR) và ký tự cấp dòng (LF). Ký tự hợp lệ là ký tự có mã từ 32 đến 255, ký tự có mã dưới 32 là ký tự điều khiển và chỉ cho phép các mã sau:

· 08 (BS) - quay lại một bước

· 09 (TAB) - lập bảng

· 0A (LF) - nguồn cấp dữ liệu

· 0C (FF) – chuyển tờ

· 0D (CR) – trả lại vận chuyển

· 1A (EOF) – cuối tập tin

Tình trạng này nảy sinh từ xa xưa, khi máy đánh chữ là thiết bị đầu ra, sau đó là máy đánh chữ, rồi màn hình xuất hiện. Nhưng các kênh liên lạc không cho phép truyền dữ liệu nhị phân và bản thân chúng đầu tiên là 5 bit, sau đó là 7 bit và chỉ sau đó bảng ký hiệu mới được mở rộng thành 8 bit, để hỗ trợ các ngôn ngữ quốc gia và tương thích hoàn toàn với máy tính, trong đó đơn vị chính là byte. Các mã còn lại được sử dụng để điều khiển kênh truyền hoặc điều khiển các thiết bị đặc biệt.

Pascal hỗ trợ làm việc với các tệp như vậy thông qua một biến tệp kiểu TextFile, trong đó đơn vị cơ bản là một chuỗi bao gồm các loại cơ sở chính (ở dạng văn bản, cách nhau bằng dấu cách), thường chỉ là một chuỗi, giống như một tập hợp các ký tự. Ví dụ: hãy viết chương trình chuyển đổi từ mã hóa DOS (OEM) sang Windows (ANSI). Nhiệm vụ kỹ thuật:

1. Chương trình phải chạy ở chế độ console và nhận thông số đầu vào thông qua dòng lệnh.

2. Chương trình có tên Oem2Ansi

3. Đầu vào nhận được hai tham số, tên của tệp nguồn và tên của tệp đầu ra;

4. Tên của tệp đầu ra có thể được bỏ qua, trong trường hợp này tên của tệp đầu vào được sử dụng, thay đổi phần mở rộng đầu ra thành .ANS;

5. Nếu tên không được chỉ định, phần trợ giúp về cú pháp lệnh sẽ được hiển thị;

6. Chúng tôi sẽ xử lý lỗi ở mức tối thiểu; mã lỗi được cấp dưới dạng ErrorLevel và có sẵn để xử lý trong tệp .bat.

Nội dung chương trình Oem2Ansi

chương trìnhOem2Ansi; ($APPTYPE CONSOLE) sử dụng Windows, SysUtils; var InFile: TextFile; OutFile: TextFile; Tên tệp: chuỗi; Tên tệp ngoài: chuỗi; S:chuỗi; bắt đầu nếu ParamCount = 0 thì bắt đầu WriteLn("Cú pháp là: Oem2Ansi Infile "); Halt(1);// Hết lỗi cú pháp; InFilename:= ParamStr(1); nếu ParamCount = 2 thì OutFileName:= ParamStr(1) khác OutFileName:= ChangeFileExt(InFilename, ".ans"); GánFile(InFile, InFilename);// liên kết tập tin đầu vào GánFile(OutFile, OutFilename);// và tập tin đầu ra hãy thử Reset(InFile);// mở tập tin đầu vào Rewrite(OutFile);// tạo một tập tin đầu ra trong khi không phải EOF(InFile) do// quay đến cuối tập tin bắt đầu Readln(Infile, S );// đọc dòng nếu Độ dài(S) > 0 // đầu vào hàm có thể được // chỉ các dòng không trống mới bắt đầu OemToChar(Pchar(S), Pchar(S)); WriteLn(Outfile, S);// ghi cuối dòng, ngược lại bắt đầu WriteLn(Outfile);// ghi cuối dòng trống; kết thúc; ngoại trừ Halt(2); // có lỗi // không thể chuyển đổi tập tin end; cuối cùng là CloseFile(InFile); CloseFile(OutFile); kết thúc; kết thúc.

Chúng ta hãy xem cách chương trình hoạt động từng phần một. Đầu tiên, hai biến tệp thuộc loại văn bản và hai biến cho tên tệp được khai báo, cũng như một biến để lưu trữ và xử lý một chuỗi. Sau đó, các tham số đầu vào được phân tích, nếu các tham số không được chỉ định, một thông báo lỗi sẽ hiển thị và chương trình kết thúc với mã thoát 1. Hãy chú ý đến dạng của thủ tục WriteLn nếu một biến tệp không được chỉ định trong các tham số; đầu ra được tạo ra cho bảng điều khiển, thuận tiện cho việc đưa ra nhiều thông báo khác nhau, biểu mẫu này chỉ có thể áp dụng cho ứng dụng bảng điều khiển và không áp dụng được trong ứng dụng GUI.

Sau đó, tham số đầu tiên được sao chép vào biến InFilename, nếu có hai tham số thì tham số thứ hai được sao chép sang biến OutFilename, nếu không thì tên tệp đầu vào được sử dụng và phần mở rộng được thay đổi thành phần mở rộng mặc định.ANS

Tên tệp sau đó được liên kết với các biến tệp. Bây giờ chúng tôi đã sẵn sàng chuyển đổi tệp, việc này sẽ được thực hiện trong hai khối được bảo vệ, khối đầu tiên để bảo vệ tài nguyên và khối thứ hai để bảo vệ khỏi các lỗi có thể xảy ra khi làm việc với tệp; nếu có bất kỳ lỗi nào, mã lỗi 2 sẽ được trả về.

Hành động đầu tiên là mở tệp, tệp đầu vào được mở bằng quy trình Đặt lại - đây là mở tệp văn bản ở chế độ đọc và thao tác thứ hai bằng cách sử dụng Rewrite là mở ở chế độ ghi, nếu tệp tồn tại thì nó sẽ được viết lại. Còn có một dạng mở file văn bản khác đó là chức năng Append(FileVar), mở ở chế độ thêm dòng, nếu file tồn tại thì con trỏ ở vị trí cuối file và file được mở ở chế độ ghi. , nếu tệp không tồn tại thì nó sẽ được tạo. Sau đó, quyền điều khiển được chuyển sang khối cuối cùng. Nếu xảy ra lỗi, điều khiển đầu tiên được chuyển tới khối ngoại trừ và sau đó đến khối cuối cùng.

Sau đó, một chu trình đọc được tạo cho đến khi đạt đến cuối tệp, gặp ký tự vật lý hoặc ký tự EOF. Hàm EOF(FileVar).

Bên trong vòng lặp, một chuỗi được đọc vào biến tạm thời Readln(Infile, S) và một biện pháp phòng ngừa được thực hiện ở đây: các chuỗi trống KHÔNG THỂ được chuyển đến hàm Oem2Char, do đó độ dài của chuỗi sẽ được phân tích, nếu chuỗi đó không rỗng , sau đó nó được chuyển đổi và ghi vào tệp đầu ra bằng thủ tục WriteLn (Outfile, S), nếu không thì một dòng trống sẽ được ghi vào tệp.

Khi kết thúc vòng lặp hoặc trong trường hợp xảy ra lỗi, điều khiển sẽ chuyển đến khối cuối cùng được bảo vệ, nơi cả hai tệp đều được đóng và điều khiển được chuyển sang hệ điều hành.

Bài tập về nhà - viết lại trong Ansi2Oem để thực hiện chức năng đảo ngược, với thông số kỹ thuật tương tự, phần mở rộng OEM mặc định

Dành cho những người đặc biệt muốn tạo phiên bản GUI, có hộp thoại chọn tệp, có thanh tiến trình, có bản xem trước 10-20 dòng đầu tiên của tệp đầu vào (chuyển đổi bằng nút OEM/ANSI), để xác định hướng chuyển mã, với những tiếng chuông và tiếng huýt sáo khác mà tâm hồn có thể nghĩ ra, chẳng hạn như xử lý hàng loạt tất cả các tệp từ một thư mục.

GIỚI THIỆU

Hầu hết mọi người dùng máy tính đều có nhu cầu chuẩn bị một số tài liệu nhất định - thư từ, bài báo, bản ghi nhớ, báo cáo, tài liệu quảng cáo, v.v. Tất nhiên, những tài liệu này có thể được chuẩn bị mà không cần máy tính, chẳng hạn như trên máy đánh chữ. Tuy nhiên, với sự ra đời của máy tính cá nhân, việc chuẩn bị tài liệu bằng máy tính đã trở nên dễ dàng và thuận tiện hơn nhiều và do đó mang lại nhiều lợi nhuận hơn.

Khi sử dụng máy tính cá nhân để chuẩn bị tài liệu, văn bản của tài liệu đang được chỉnh sửa sẽ được hiển thị trên màn hình và người dùng có thể thực hiện các thay đổi trực tuyến. Tất cả các thay đổi được thực hiện sẽ được hiển thị ngay lập tức trên màn hình máy tính, sau đó khi in ra, văn bản đẹp và được định dạng chính xác sẽ được hiển thị, có tính đến tất cả các chỉnh sửa do người dùng thực hiện. Người dùng có thể chuyển các đoạn văn bản từ nơi này sang nơi khác trong tài liệu, sử dụng một số loại phông chữ để đánh dấu từng phần văn bản và in tài liệu đã chuẩn bị trên máy in với số lượng bản sao cần thiết.

Sự tiện lợi và hiệu quả của việc sử dụng máy tính để soạn thảo văn bản đã dẫn đến việc tạo ra nhiều chương trình xử lý tài liệu. Những chương trình như vậy được gọi là soạn thảo văn bản(Bộ xử lý từ ngữ). Khả năng của các chương trình này rất đa dạng - từ các chương trình được thiết kế để chuẩn bị các tài liệu nhỏ có cấu trúc đơn giản, đến các chương trình đánh máy, thiết kế và chuẩn bị hoàn chỉnh cho việc in sách và tạp chí (hệ thống xuất bản).


Trước khi bắt đầu khám phá menu MS-DOS Editor, bạn nên luyện tập gõ phím. Văn bản được gõ từ bàn phím như trên máy đánh chữ thông thường; cuối mỗi dòng nhấn Enter.

Để chia một dòng quá dài thành hai dòng, hãy nhấn Enter ở vị trí cuối dòng.

Mỗi lần nhấn Enter sẽ thêm một dòng trống. Nếu như dư thừa được hình thành dòng trống, xóa chúng bạn có thể nhấn Shay Del.

Bạn có thể sửa lỗi trong văn bản bằng cách di chuyển con trỏ qua trường làm việc bằng phím hoặc chuột. Để xóa một ký tự, sử dụng phím Del nếu con trỏ ở trước ký tự bạn muốn xóa hoặc phím Backspace nếu con trỏ ở sau ký tự đó.

Nếu bạn chỉ cần xóa một ký tự để gõ một ký tự khác vào vị trí của nó thì việc chuyển bàn phím sang chế độ thay thế sẽ thuận tiện hơn. Theo mặc định, bàn phím ở chế độ chèn. Phím Ins chuyển giữa chế độ chèn và thay thế.

Khi chèn vào, tất cả các ký tự tiếp theo sẽ được dịch sang phải.

Khi được thay thế, ký tự hiện tại sẽ biến mất.

Các tài liệu được tạo trong MS-DOS Editor có thể được lưu dưới dạng tệp văn bản; để thực hiện việc này, hãy sử dụng menu Lưu tệp. Menu Lưu tệp dưới dạng... sẽ cho phép bạn lưu tệp dưới một tên khác.

Để xóa trình chỉnh sửa và bắt đầu làm việc với một tệp mới, hãy sử dụng menu Tệp mới.Để tải tệp tạo sẵn vào trình chỉnh sửa, hãy sử dụng menu Mở tập tin. Trong bảng hộp thoại, chọn tên của tệp cần thiết bằng con trỏ. Thực đơn In tập tin cho phép bạn in một phần đã chọn của tài liệu hoặc toàn bộ văn bản.

Trong số các trình soạn thảo văn bản đơn giản ở Nga, LEXICON được sử dụng rộng rãi nhất.

Từ điển xử lý văn bản

Trình xử lý văn bản Lexicon được phát triển E.N.Veselov vào năm 1985 tại Trung tâm Máy tính của Viện Hàn lâm Khoa học Liên Xô. Từ năm 1991 do công ty cung cấp Thông tin vi mô. Nó có giao diện bằng tiếng Nga và cho phép bạn chuẩn bị các tài liệu đơn giản với văn bản bằng tiếng Nga và tiếng Anh. LEXICON đã lấp đầy thành công “ngách sinh thái” của mình - nó khá phù hợp cho những ai cần một công cụ đơn giản để chuẩn bị các tài liệu nhỏ và không phức tạp, đồng thời không yêu cầu chất lượng in cao.

Để bắt đầu làm việc trên một tệp mới, bạn cần đưa ra lệnh menu Xóa văn bản hoặc sử dụng bất kỳ cửa sổ Lexicon miễn phí nào. Có tổng cộng 10 cửa sổ có sẵn và bằng cách nhấn A + "khí fra trên bàn phím chữ và số, bạn có thể vào cửa sổ có số tương ứng.

Để tải một tập tin làm sẵn, sử dụng lệnh menu Tải văn bản xuống và chọn tên của tệp cần thiết trong menu bằng con trỏ.

Lệnh menu In văn bản t Bắt đầu sẽ cho phép bạn in tài liệu trên máy in nếu công tắc PRINTER1FILE 1SCREEN được đặt ở vị trí PRINTER. Khi ở vị trí SCREEN, bạn có thể xem chính xác văn bản được in trên máy in sẽ trông như thế nào.

Biên tập viên MS-Word

Đây chỉ là một số tính năng được Word hỗ trợ:

· sử dụng nhiều phông chữ khác nhau (kích thước và kiểu dáng) của các ký tự và các cách khác nhau để làm nổi bật chúng (ký tự in đậm, in nghiêng, gạch chân, v.v.); quy định các thông số của đoạn văn bản và trang tài liệu; gõ văn bản theo nhiều cột; in đầu trang và chân trang thuộc bất kỳ loại nào; tự động tạo mục lục và các loại chỉ mục khác nhau;

· thiết kế các bảng và đoạn văn “cạnh nhau”; bao gồm các bản vẽ (tệp đồ họa); đặt các đoạn văn (ví dụ: hình ảnh) ở bất kỳ đâu trên trang (phần còn lại của văn bản có thể "uốn cong" hình ảnh).

Người dùng có kinh nghiệm thực sự đánh giá cao các tính năng phong cách của Word. Word cho phép bạn ghi lại trong cái gọi là biểu định kiểu tất cả các tham số của các loại định dạng văn bản được sử dụng phổ biến nhất: đoạn văn, ký tự và phần tài liệu. Nếu bạn làm điều này thì bất kỳ phần nào của văn bản đều có thể được gán một trong các kiểu thiết kế “tiêu chuẩn” bằng cách sử dụng một hoặc hai các lần nhấn phím. Điều này không chỉ tăng tốc đáng kể việc gõ tài liệu mà còn tăng tính linh hoạt trong thiết kế của nó. Ví dụ: để thay đổi phông chữ và vị trí của tất cả các tiêu đề ở một cấp độ nhất định (chẳng hạn như tiêu đề đoạn văn), bạn không cần phải tìm kiếm các tiêu đề này và thay đổi định dạng của chúng theo cách thủ công - chỉ cần sửa kiểu cho các tiêu đề này và chúng sẽ tự động lấy thiết kế mong muốn.

Shift+Ctri với "M""1", "N""VỚI", «(» và "5" (ở bên phải bàn phím) được dành riêng.

Trên thực tế, còn có nhiều cách kết hợp “bị cấm” hơn. Nếu bạn xác định các kết hợp bằng Shift cho các chương trình của mình, thì đôi khi người dùng sẽ hoàn toàn bất ngờ “rơi ra” trình soạn thảo văn bản khi cố gắng viết chữ in hoa và các kết hợp với Alt sẽ không vô ích khi làm việc trong các chương trình mà các tùy chọn menu được gọi lên bởi Alt+chữ cái- giống như trong chính MS-DOS Shell. Trong Microsoft Word, hầu hết tất cả các tổ hợp phím có thể có đều được dành riêng cho nhu cầu nội bộ!

Bản thân công tắc tác vụ là một chương trình DOSSWAP.EXE tải trước khi bất kỳ chương trình ứng dụng nào được thực thi và thoát ra sau khi chương trình đó thoát ra, quay trở lại MS-DOS Shell. Chương trình DOSSWAP chiếm khoảng 30 KB RAM.

Khi soạn thảo tài liệu văn bản trên máy tính, bạn không thể không chú ý đến số lượng lớn các định dạng tệp văn bản. Chúng ta hãy cố gắng hiểu sự phong phú của các định dạng này và xem mục đích của từng định dạng đó.

TXT

Định dạng này xuất hiện cùng với chiếc máy tính đầu tiên. Tệp *.txt chỉ chứa thông tin văn bản và không có gì khác - dữ liệu về định dạng, phông chữ và hình ảnh không thể được lưu ở đó. Định dạng này là phổ biến nhất - nó có thể được mở trên tất cả các thiết bị sử dụng bất kỳ ứng dụng nào.

RTF

Rich Text Format được Microsoft phát triển như một định dạng đa nền tảng phổ biến để lưu trữ thông tin văn bản. Lưu dữ liệu định dạng và cho phép bạn chèn các đối tượng bổ sung:

  • Công thức;
  • Những cái bàn;
  • Chú thích vv.

Tính năng chính của định dạng rtf là sử dụng các từ "điều khiển" đặc biệt, được đánh dấu bằng các ký tự đặc biệt, dẫn đến kích thước tệp tăng đáng kể.

tài liệu

Định dạng *.doc cũng được Microsoft phát triển và được sử dụng trong trình soạn thảo văn bản. Nói chính xác, tệp doc thực chất là tệp nhị phân và có thể mở được trong hầu hết các trình soạn thảo văn bản hiện đại. Chúng có khả năng lưu định dạng, kiểu dáng, nhúng hình ảnh và các đối tượng khác vào văn bản, cũng như hỗ trợ các siêu liên kết.

DOCX

Một định dạng được cải tiến và cấp phép từ Microsoft, được giới thiệu lần đầu tiên với Office 2007. Nó thể hiện giai đoạn tiếp theo của định dạng *.doc.

HTML

Các định dạng dựa trên Ngôn ngữ đánh dấu siêu văn bản (HTML) hiện nay khá phổ biến - HTM, CHM, MHT, v.v. Ngôn ngữ HTML được phát triển đặc biệt để tạo các trang web, nhưng do tính linh hoạt, tiện lợi và kích thước nhỏ nên nó đã được sử dụng rộng rãi để lưu trữ dữ liệu văn bản. Bất kỳ tài liệu HTML nào cũng có thể được đọc bằng các công cụ hệ điều hành tiêu chuẩn mà không cần sử dụng các chương trình của bên thứ ba.

PDF

Định dạng được Adobe phát triển riêng cho nhu cầu in ấn. Sau đó, người dùng đánh giá cao tính dễ sử dụng của tệp PDF và định dạng này đã trở thành tiêu chuẩn để trao đổi tài liệu.

ODT

Tập hợp các quy tắc theo đó dữ liệu được lưu trữ trong một tệp được gọi là định dạng tệp. Các loại tệp khác nhau, chẳng hạn như tệp văn bản, đồ họa raster, v.v., sử dụng các định dạng khác nhau. Nói chung, một số định dạng khác nhau có thể được xác định cho cùng một loại tệp, mặc dù loại và định dạng tệp thường có nghĩa giống nhau. Định dạng tệp được xác định bằng phần mở rộng tên tệp được thêm vào tên tệp khi tệp được lưu ở định dạng cụ thể, chẳng hạn như DOC, GIF, v.v.

Thông thường, các định dạng tệp được tạo để sử dụng trong một chương trình ứng dụng được xác định nghiêm ngặt. Ví dụ: các đối tượng đồ họa được tạo trong gói đồ họa vector nổi tiếng CorelDRAW được lưu dưới dạng tệp có phần mở rộng CDR và ​​hình ảnh được tạo bởi gói đồ họa khác, CorelXara, được ghi vào đĩa dưới dạng tệp có phần mở rộng XAR. Một số định dạng không được liên kết với các ứng dụng cụ thể, nghĩa là chúng mang tính phổ quát. Một trong những định dạng phổ biến được biết đến nhiều nhất là định dạng TXT (định dạng tệp văn bản DOS).

Nén tập tin máy tính thường được sử dụng để tiết kiệm không gian lưu trữ. Có nhiều cách để nén tập tin. Các phương pháp này phụ thuộc vào định dạng tệp nguồn. Nhìn chung, tỷ lệ nén càng cao thì thao tác đọc và ghi càng chậm.

Về thuật toán nén, có cả thuật toán nén không mất dữ liệu và thuật toán có thể dẫn đến mất dữ liệu.

Nén không mất dữ liệu đảm bảo rằng tất cả dữ liệu có trong tệp trước khi nén sẽ xuất hiện sau khi tệp được giải nén. Cơ chế nén không mất dữ liệu được sử dụng khi lưu trữ dữ liệu văn bản hoặc số, chẳng hạn như bảng tính hoặc tệp tài liệu. Ví dụ về các thuật toán nén không mất dữ liệu bao gồm các thuật toán nổi tiếng ZIP, ARJ và các thuật toán khác.

Hãy mô tả ngắn gọn về các định dạng chính được sử dụng:

§ Mã tiêu chuẩn Mỹ cho trao đổi thông tin ASCII (TXT). Định dạng tệp văn bản được phát triển bởi Viện Tiêu chuẩn Quốc gia Hoa Kỳ. Được hỗ trợ bởi tất cả các hệ điều hành và tất cả các chương trình. Đó là một tệp văn bản ở dạng mã hóa DOS, không có chức năng chèn ảnh, không có định dạng, nó hoạt động trên tất cả các máy, chỉ có thể tạo các tệp nhỏ.



§ ANSI (TXT). Định dạng tệp văn bản ANSI (đối với trang mã Microsoft Windows)

§ MsWord cho DOS, Windows (.DOC). Định dạng tài liệu do Tập đoàn Microsoft phát triển, được hỗ trợ bởi các chương trình MS-DOS và hầu hết các trình xử lý văn bản. Nó giữ nguyên định dạng ban đầu của tài liệu cũng như kiểu ký tự. Ngoài thông tin văn bản, các tệp ở định dạng này có thể chứa hình ảnh đồ họa với nhiều thông số khác nhau. Hỗ trợ 256 màu. Không hỗ trợ nén. Được sử dụng chủ yếu để trao đổi dữ liệu văn bản được định dạng giữa các nền tảng và ứng dụng khác nhau.

§ Ngôn ngữ đánh dấu siêu văn bản HTML (HTM, HTML). Ngôn ngữ đánh dấu cho tài liệu siêu văn bản. Tất cả các trang trên Internet đều được tạo bằng ngôn ngữ đặc biệt này. Tài liệu HTML là các tệp ASCII có thể được xem và chỉnh sửa trong bất kỳ trình soạn thảo văn bản nào. Sự khác biệt so với tệp văn bản thông thường là tài liệu HTML chứa các lệnh thẻ đặc biệt xác định quy tắc định dạng tài liệu. Nếu bạn thành thạo ngôn ngữ HTML thì bạn có thể tạo các trang cho Internet. Bằng cách thêm thẻ (nhãn) vào văn bản thuần túy, bạn buộc người xem hiển thị văn bản đó theo một cách nhất định và đặt hình ảnh trên trang. Nếu bạn đã học Java và JavaScript, bạn sẽ biết cách mở rộng HTML bằng cách đặt các lệnh được viết bằng ngôn ngữ kịch bản bên trong các thẻ.

§ Định dạng tài liệu di động PDF (.PDF). Định dạng lưu trữ tài liệu này do Adobe phát triển, được tuyên bố là một tiêu chuẩn kiểu chữ mở cho Web. Nó được coi là một sự thay thế cho HTML. Nhược điểm của HTML là tài liệu được dịch sang HTML thường không giữ được định dạng ban đầu và HTML cung cấp số lượng phông chữ rất hạn chế khi xem. Ngược lại, người dùng các công cụ Acrobat và PDF để tạo, chia sẻ và xem tài liệu ở định dạng ban đầu biết rằng người đọc sẽ thấy ấn phẩm chính xác như khi nó được tạo. Định dạng PDF là không thể thiếu nếu bạn cần có được bản sao chính xác của tài liệu được yêu cầu. Là một ví dụ về việc sử dụng thành công PDF cho các tài liệu bằng tiếng Nga, chúng tôi sẽ cung cấp Internet cho máy chủ Moscow News. Các tài liệu được trình bày trên đó ở dạng điện tử sao chép hoàn toàn bản gốc trên giấy in.

§ Ngôn ngữ đánh dấu tổng quát tiêu chuẩn (SGML). Sự phát triển của HTML chuyển thành ngôn ngữ đánh dấu tổng quát tiêu chuẩn. Nó là bộ công cụ gồm các cơ chế tạo tài liệu có cấu trúc được đánh dấu bằng cách sử dụng bộ mô tả (thẻ). So với HTML, nó cung cấp các tùy chọn định dạng linh hoạt và linh hoạt hơn trên Web. Tuy nhiên, SGML cũng có tốc độ tăng lên nên PDF được sử dụng như một công cụ đơn giản hơn. Sức mạnh của SGML nằm ở cách tiếp cận có cấu trúc đa nền tảng để mô tả nội dung tài liệu. SGML thực sự là một ngôn ngữ kim loại, tức là nhằm mô tả các ngôn ngữ đánh dấu được sử dụng để tạo tài liệu.