Các định dạng nén âm thanh sử dụng mp3 và FLAC làm ví dụ. Phương pháp nén âm thanh kỹ thuật số

Bài giảng 15 – 16. Nén thông tin âm thanh Bố cục bài giảng 1. Thông tin chung. 2. Cấu trúc của bộ mã hóa nén dữ liệu âm thanh số. 3. Mô hình âm thanh tâm lý (PAM). 4. Hệ thống mã hóa cơ bản.

1. Phương pháp nén âm thanh dựa trên việc loại bỏ sự dư thừa của nó. Có sự khác biệt giữa sự dư thừa về mặt thống kê và âm thanh tâm lý của các tín hiệu âm thanh tự nhiên. Việc giảm mức độ dư thừa thống kê dựa trên việc tính đến các đặc tính của chính tín hiệu âm thanh và mức độ dư thừa âm thanh tâm lý dựa trên việc tính đến các đặc tính của nhận thức thính giác. 2

Sự dư thừa thống kê là do sự hiện diện của mối tương quan giữa các mẫu liền kề của hàm thời gian của tín hiệu âm thanh (SS) trong quá trình lấy mẫu. Điều trị đầy đủ được sử dụng để giảm bớt nó. Nếu không có thông tin, các thuật toán phức tạp của chúng sẽ được sử dụng, tuy nhiên, sự mất tín hiệu ban đầu sẽ được biểu diễn dưới dạng 3 nhỏ gọn hơn.

dạng, đòi hỏi ít bit hơn để mã hóa nó. Tuy nhiên, ngay cả khi sử dụng các quy trình xử lý khá phức tạp, việc loại bỏ sự dư thừa thống kê của tín hiệu âm thanh khiến thông lượng cần thiết của kênh liên lạc chỉ tăng 15...25% so với giá trị ban đầu, đây không thể coi là một thành tựu mang tính cách mạng. . 4

Sau khi loại bỏ sự dư thừa thống kê, tốc độ của luồng kỹ thuật số khi truyền tín hiệu chất lượng cao và khả năng xử lý chúng của con người khác nhau ít nhất vài bậc độ lớn. 5

Điều này cũng cho thấy sự dư thừa đáng kể về âm thanh tâm lý của ES kỹ thuật số chính và do đó có khả năng giảm bớt nó. Điều hứa hẹn nhất theo quan điểm này là các phương pháp tính đến các đặc tính như khả năng nghe như khả năng che phủ. Nếu bạn biết phần nào của tín hiệu âm thanh mà tai cảm nhận được và phần nào không do bị che khuất, thì bạn có thể 6

chọn và sau đó chỉ truyền qua kênh liên lạc những phần tín hiệu mà tai có khả năng cảm nhận được, còn những phần không nghe được có thể loại bỏ. Ngoài ra, các tín hiệu có thể được lượng tử hóa với độ phân giải ở mức thấp nhất có thể để các biến dạng lượng tử hóa, thay đổi về cường độ theo sự thay đổi về mức của tín hiệu, vẫn duy trì ở mức 7

sẽ không nghe được - chúng sẽ bị tín hiệu ban đầu che khuất. Tuy nhiên, sau khi loại bỏ sự dư thừa về âm thanh tâm lý, việc khôi phục chính xác hình dạng chức năng thời gian của VS trong quá trình giải mã là không thể nữa. số 8

Hai tính năng quan trọng để thực hành: Nếu việc nén tín hiệu âm thanh kỹ thuật số đã được sử dụng trong kênh liên lạc thì việc sử dụng lặp đi lặp lại sẽ dẫn đến biến dạng đáng kể, tức là điều quan trọng là phải biết “lịch sử” của tín hiệu số và phương pháp mã hóa nào đã sử dụng đã được sử dụng. 9

Các phương pháp đánh giá chất lượng truyền thống (ví dụ: trên tín hiệu âm thanh) không phù hợp với các codec có nén dữ liệu âm thanh được thực hiện trên tín hiệu âm thanh kỹ thuật số và âm thanh thực. 10

Công việc phân tích chất lượng và đánh giá hiệu quả của các thuật toán kỹ thuật số đối với dữ liệu âm thanh có nén nhằm mục đích tiêu chuẩn hóa tiếp theo của chúng bắt đầu vào năm 1988, khi nhóm chuyên gia quốc tế MPEG (Nhóm chuyên gia hình ảnh chuyển động) được thành lập. mười một

Kết quả công việc của nhóm này ở giai đoạn đầu tiên là việc áp dụng tiêu chuẩn quốc tế MPEG-1 ISO/IEC 11172 -3 vào tháng 11 năm 1992 (số 3 sau số tiêu chuẩn đề cập đến mã hóa tín hiệu âm thanh). 12

Cho đến nay, một số tiêu chuẩn MPEG khác đã trở nên phổ biến, chẳng hạn như MPEG-2 ISO/IEC 13818-3, 13818-7 và MPEG-4 ISO/IEC 14496-3. Ngược lại, ở Hoa Kỳ, chuẩn Dolby AC-3 được phát triển để thay thế cho chuẩn MPEG. 13

Một thời gian sau, hai nền tảng công nghệ số khác nhau dành cho phát thanh và truyền hình đã xuất hiện rõ ràng - đó là DAB (Phát sóng âm thanh kỹ thuật số), DRM (Đài phát thanh kỹ thuật số Mondiale), DVB (với các loại DVB-T mặt đất, DVB-C cáp, DVB-S vệ tinh) và ATSC (Dolby AC-3). 14

Sản phẩm đầu tiên trong số đó (DAB, DRM) được quảng bá bởi Châu Âu, ATSC - bởi Hoa Kỳ. Các nền tảng này khác nhau về thuật toán, trước hết là về việc nén dữ liệu âm thanh kỹ thuật số đã chọn, loại điều chế kỹ thuật số và quy trình mã hóa chống nhiễu của tín hiệu âm thanh. 15

2. Mặc dù có nhiều thuật toán nén dữ liệu âm thanh kỹ thuật số khác nhau nhưng cấu trúc của bộ mã hóa thực hiện thuật toán xử lý tín hiệu như vậy có thể được biểu diễn dưới dạng sơ đồ tổng quát: 16

Trong khối phân đoạn thời gian và tần số, tín hiệu âm thanh gốc được chia thành các thành phần băng con và được phân đoạn theo thời gian. Độ dài của mẫu được mã hóa phụ thuộc vào đặc tính định thời của tín hiệu âm thanh. 18

Trong trường hợp không có các ngoại lệ rõ ràng về biên độ, cái gọi là mẫu dài được sử dụng. những thay đổi về mức giảm được mã hóa, trong trường hợp biên độ lấy mẫu sắc nét, giúp độ dài tín hiệu có độ phân giải thời gian cao hơn đáng kể. 19

20

21

22

Mô hình NMR sử dụng các thuộc tính thính giác sau: Ngưỡng nghe tuyệt đối. Các dải thính giác quan trọng (các nhóm tần số mà một người phân chia tín hiệu âm thanh khi cảm nhận được nó), thậm chí còn có đơn vị đo cao độ riêng của chúng. 23

Che lấp tương đối trong ngưỡng nghe miền tần số. và Khi thính giác tiếp xúc đồng thời với hai tín hiệu, một tín hiệu có thể không được nghe thấy trên nền của tín hiệu kia - đây là hiện tượng che lấp và ngưỡng nghe tương đối là ngưỡng nghe được của một tín hiệu khi có sự hiện diện của tín hiệu kia, có tính đến che giấu tần số tài khoản 24

Che giấu trong miền thời gian - đặc trưng cho các đặc tính động của thính giác, cho thấy sự thay đổi theo thời gian của ngưỡng nghe tương đối khi tín hiệu che và che không phát ra đồng thời. 25

Trong trường hợp này, có sự khác biệt giữa mặt nạ sau (thay đổi ngưỡng âm thanh sau tín hiệu mức cao) và mặt nạ trước (thay đổi ngưỡng âm thanh trước khi tín hiệu mức cao xuất hiện). Kiểu che lấp này, khi âm thanh không chồng lên nhau theo thời gian, được gọi là che lấp tạm thời. 26

Mặt nạ sau xuất hiện trong khoảng thời gian 100... 200 ms sau khi kết thúc tín hiệu mặt nạ và mặt nạ trước - khoảng 10 ms, được xác định bởi các đặc điểm của một người cụ thể. Vì lý do này, mặt nạ tạm thời thực tế không được sử dụng trong mã hóa kỹ thuật số. 27

Các quy trình tính toán chính được thực hiện trên cơ sở phân tích tâm lý âm thanh, thực hiện trên cơ sở NMR - mô hình dựa trên nguyên lý tác động phụ (phụ thuộc lẫn nhau) lên cơ quan thính giác của các thành phần quang phổ nếu chúng hoạt động đồng thời. Tín hiệu PCM sơ cấp 28 được cung cấp cho đầu vào khối phân tích âm thanh tâm lý của bộ mã hóa (slide 17)

ở tốc độ 48*16 = 768 Kbps. Các quy trình sau được thực hiện: Quy trình 1. Tính toán phổ năng lượng của mẫu ES đầu vào và sự chuẩn hóa của nó. Ví dụ: đặt độ dài mẫu FFT là N=512 (Lớp 1) hoặc 1024 mẫu (Lớp 2). Hãy ký hiệu n là số mẫu tín hiệu trong mẫu; k – chỉ số hệ số FFT. 29

Ở đầu ra của khối FFT, chúng ta có phổ vạch X(k) tính bằng dB, với độ phân giải tần số ΔF = fd/N. Với fd = 48 k Hz và N = 1024 chúng ta thu được ΔF = 46,875 Hz. FFT được thực hiện với chức năng cửa sổ Hanna để triệt tiêu hiệu ứng Gibbs. ba mươi

Phổ tính toán được chuẩn hóa, thành phần phổ tối đa được ấn định ở mức 92 dB. Quy trình 2. Tính toán năng lượng tín hiệu lấy mẫu trong các băng con mã hóa. Quy trình 3. Tính cực đại cục bộ của phổ năng lượng của tín hiệu mẫu. Thuật toán ở đây rất đơn giản: thành phần phổ X(k) sẽ là cực đại cục bộ, 32

Nếu nó lớn hơn X(k-1) trước đó, nhưng không nhỏ hơn X(k+1) tiếp theo. Quy trình 4. Lập danh sách các thành phần âm sắc. Trong trường hợp này, vùng tần số cực đại được kiểm tra và gần từng thành phần phổ cục bộ được đưa vào danh sách các thành phần âm sắc (X(k)), nếu trong vùng này là 33

vượt quá bất kỳ thành phần nào (ngoại trừ hai thành phần lân cận, được tính đến khi tính mức năng lượng của chúng) không ít hơn 7 d B. Quy trình 5. Việc lập danh sách các thành phần không âm (giống như tiếng ồn) được thực hiện. sau khi hình thành một danh sách các thành phần âm sắc. Để làm điều này, âm và 34

các thành phần lân cận được tính đến trước đó. Thủ tục này là cần thiết để tính đến các hệ số che phủ tương ứng. Quy trình 6. Việc làm mỏng phổ của các thành phần âm sắc và không âm sắc được thực hiện với mục đích che giấu bên ngoài dải thính giác quan trọng, giống nhau đối với cả thành phần âm sắc và không âm sắc. 35

Sau khi làm mỏng, một lưới các thành phần quang phổ mới được hình thành: trong ba băng con đầu tiên (0... 2250 Hz) các thành phần được tính đến trong cả ba băng tần con tiếp theo (2250... 4500 Hz) - mỗi giây, trong ba băng con tiếp theo (4500... 6750 Hz) - mỗi băng con thứ tư và trong 20 băng con còn lại - chỉ mỗi thành phần quang phổ thứ tám. 36

Do đó, nếu tần số trên của ES là 22500 Hz, thì sau khi làm mỏng như vậy sẽ thu được phổ gồm 126 thành phần phổ (phổ ban đầu có 512 thành phần). Cách tiến hành 7. Tính hệ số ngụy trang. Quy trình 8. Tính toán ngưỡng che phủ. 37

Quy trình 9. Tính toán đường cong ngưỡng che phủ toàn cầu. Ở đây, ngưỡng che phủ toàn cầu được hình thành cho từng băng con và giá trị cho phép của mức nhiễu cho mỗi lượng tử hóa được xác định, đặc biệt là biểu đồ phân bố bit khi mã hóa các mẫu băng con được xây dựng. 38

4. 1. Phần âm thanh của tiêu chuẩn MPEG-1 (ISO/IEC 11172-3) bao gồm ba thuật toán có mức độ phức tạp khác nhau: Lớp I, Lớp II và Lớp III. Cấu trúc chung của quá trình mã hóa là giống nhau ở tất cả các cấp độ, nhưng chúng khác nhau về mục đích sử dụng và cơ chế bên trong. Mỗi cấp độ có luồng kỹ thuật số riêng, nghĩa là có tổng cộng 39

độ rộng luồng và thuật toán giải mã riêng của nó. Các mức này có sự khác biệt về tỷ lệ nén và chất lượng âm thanh được cung cấp của luồng kết quả. MPEG-1 được thiết kế để mã hóa tín hiệu số hóa ở tốc độ lấy mẫu là 32, 44,1 và 48 kHz. 40

Chuẩn MPEG-1 chuẩn hóa tốc độ luồng kỹ thuật số sau cho cả ba cấp độ: 32, 48, 56, 64, 96, 112, 192, 256, 384 và 448 kbit/s, số lượng mức lượng tử hóa tín hiệu đầu vào là từ 16 đến 24. 41

Tín hiệu đầu vào tiêu chuẩn cho bộ mã hóa MPEG-1 là tín hiệu số AES/EBU (tín hiệu âm thanh kỹ thuật số hai kênh có khả năng lượng tử hóa 20...24 bit trên mỗi mẫu). Các chế độ hoạt động của bộ mã hóa âm thanh sau đây được cung cấp: kênh đơn (mono), kênh kép (âm thanh nổi hoặc hai kênh mono) và 42

âm thanh nổi chung (tín hiệu tách một phần kênh phải và trái). Thuộc tính quan trọng nhất của MPEG-1 là khả năng tương thích ngược hoàn toàn ở cả ba cấp độ. Điều này có nghĩa là mỗi bộ giải mã có thể giải mã tín hiệu không chỉ từ tín hiệu của chính nó mà còn từ các lớp thấp hơn. 43

Thuật toán Cấp I dựa trên định dạng DCC (Digital Compact Cassette) do Philips phát triển để ghi trên băng cassette nhỏ gọn. Mã hóa cấp một được sử dụng khi mức độ nén không quan trọng lắm và các yếu tố quyết định là độ phức tạp và chi phí của bộ mã hóa và giải mã. 44

Bộ mã hóa Cấp I cung cấp luồng âm thanh kỹ thuật số 384 kbps chất lượng cao cho mỗi chương trình âm thanh nổi. Cấp II yêu cầu bộ mã hóa phức tạp hơn và bộ giải mã phức tạp hơn một chút, nhưng cung cấp khả năng nén tốt hơn - 45

“Độ trong suốt” của kênh đã đạt được ở tốc độ 256 kbit/s. Nó cho phép tối đa 8 mã hóa/giải mã mà không làm giảm đáng kể chất lượng âm thanh. Thuật toán Cấp II dựa trên định dạng MUSICAM, phổ biến ở Châu Âu. 46

Cấp độ III phức tạp nhất bao gồm tất cả các công cụ nén cơ bản: mã hóa băng thông, DCT bổ sung, mã hóa entropy, SAM nâng cao. Do sự phức tạp của bộ mã hóa và bộ giải mã, nó cung cấp mức độ nén cao - người ta tin rằng kênh “trong suốt” đã được hình thành ở tốc độ 47

128 kbps, mặc dù có thể truyền chất lượng cao ở tốc độ thấp hơn. Tiêu chuẩn khuyến nghị hai mô hình âm thanh tâm lý: Mô hình 1 đơn giản hơn và Mô hình 2 phức tạp hơn nhưng cũng có chất lượng cao hơn. Chúng khác nhau về thuật toán xử lý mẫu. Cả hai mô hình đều có thể được sử dụng cho cả ba cấp độ, 48

nhưng Model 2 có một sửa đổi đặc biệt dành cho Cấp III. MPEG-1 hóa ra là tiêu chuẩn quốc tế đầu tiên về nén tín hiệu âm thanh kỹ thuật số và điều này dẫn đến việc nó được sử dụng rộng rãi trong nhiều lĩnh vực: 49

ứng dụng phát thanh, ghi âm, truyền thông đa phương tiện. và Cấp II được sử dụng rộng rãi nhất, nó đã trở thành một phần của tiêu chuẩn Châu Âu về phát sóng truyền hình kỹ thuật số qua vệ tinh, cáp và mặt đất, tiêu chuẩn phát sóng âm thanh, ghi DVD, 50

Khuyến nghị của BS ITU. 1115 và J. 52. Cấp III (còn gọi là MP-3) được sử dụng rộng rãi trong các mạng kỹ thuật số dịch vụ tích hợp (ISDN) và Internet. Phần lớn các tập tin nhạc trên Internet được ghi theo tiêu chuẩn này. 51

4. 2. MPEG-2 là phần mở rộng của MPEG-1 hướng tới âm thanh đa kênh. MPEG-2 tính đến sự khác biệt trong chế độ truyền âm thanh đa kênh, bao gồm định dạng năm kênh, âm thanh bảy kênh 52

với hai loa bổ sung được sử dụng trong các rạp chiếu phim có màn hình rất rộng, mở rộng các định dạng này bằng kênh tần số thấp. 53

4. 3. Với tất cả những cách tiếp cận đổi mới mà MPEG-4 đưa ra, các phần âm thanh của tiêu chuẩn có lẽ là phần thú vị và mang tính cách mạng nhất của nó. Cách tiếp cận dựa trên đối tượng đối với hình ảnh là phương pháp mới đối với truyền hình nhưng trước đây nó đã được sử dụng trong một số hệ thống hoạt hình. 54

Về chất lượng âm thanh của tiêu chuẩn (được gọi là âm thanh đối tượng), đơn giản là không có hệ thống nào có thể so sánh được với MPEG-4 về độ phức tạp của cách tiếp cận, phạm vi công nghệ được sử dụng và phạm vi ứng dụng. 55

Sự khác biệt cơ bản giữa MPEG-7 là nó hoàn toàn không được phát triển để thiết lập bất kỳ quy tắc nào về nén dữ liệu âm thanh và video hoặc nhập và mô tả đặc tính của bất kỳ loại dữ liệu cụ thể nào. 56

4. 4. Tiêu chuẩn MPEG-7 được thiết kế như một tiêu chuẩn mô tả, nhằm điều chỉnh các đặc điểm của bất kỳ loại đa phương tiện nào, đối với dữ liệu từ analog đến dữ liệu tương tự và được ghi ở các định dạng khác nhau (ví dụ: với các độ phân giải khung hình không gian và thời gian khác nhau) . 57

Bộ nhớ của thẻ WT càng lớn thì âm thanh càng trung thực (vì càng có nhiều mẫu ghi ở độ phân giải cao hơn được lưu trong bộ nhớ). Tiêu chuẩn Tổng quan MIDI mô tả hơn 200 nhạc cụ; việc lưu trữ các mẫu âm thanh (bảng) của chúng cần ít nhất 8 MB bộ nhớ (tối thiểu 20 KB cho mỗi mẫu).

Phương pháp WF được biết đến ( Sóng Hình thức) tạo âm thanh, dựa trên việc chuyển đổi âm thanh thành các công thức toán học phức tạp và sau đó sử dụng các công thức này để điều khiển bộ xử lý mạnh mẽ nhằm tái tạo âm thanh; Tổng hợp WF dự kiến ​​sẽ cung cấp âm thanh thực tế hơn nữa (so với công nghệ FM và WT) của các nhạc cụ với số lượng tệp âm thanh hạn chế.

Sơ đồ điển hình để kết nối các thiết bị bên ngoài với card âm thanh hướng PC của IBM ( bản đồ) được thể hiện trong hình 4.8.

Để giảm luồng dữ liệu, khác ( xuất sắc từ PCM) phương pháp mã hóa tín hiệu tương tự. Ví dụ, một kỹ thuật mã hóa dựa trên các đặc điểm đã biết của tín hiệu tương tự được biết là làm giảm đáng kể lượng dữ liệu được lưu trữ; với cái gọi là -mã hóa tương tự tín hiệu được chuyển đổi thành mã kỹ thuật số được xác định bằng logarit của cường độ tín hiệu (chứ không phải bằng phép biến đổi tuyến tính của nó). Nhược điểm của phương pháp này là cần có thông tin tiên nghiệm về các đặc tính của tín hiệu gốc.

Có những phương pháp chuyển đổi đã biết không yêu cầu thông tin tiên nghiệm về tín hiệu nguồn. Tại điều chế mã xung vi sai(DPCM ,Khác biệt Xung Mã số điều chế) chỉ sự khác biệt giữa mức tín hiệu hiện tại và trước đó được lưu trữ (sự khác biệt yêu cầu biểu diễn kỹ thuật số ít hơn số bit lớn hơn biên độ đầy đủ). Tại điều chế delta(DM ,Đồng bằng điều chế) mỗi vật mẫu chỉ bao gồm một bit xác định dấu hiệu thay đổi của tín hiệu gốc (tăng hoặc giảm); Điều chế Delta yêu cầu tốc độ lấy mẫu cao hơn. Các công nghệ điều chế mã xung vi sai có liên quan đến lỗi tích lũy theo thời gian, do đó các biện pháp đặc biệt được thực hiện để hiệu chỉnh ADC định kỳ.

Phương pháp được sử dụng rộng rãi nhất để ghi âm là điều chế mã xung thích ứng (ADPCM, Thích ứng Xung Mã số điều chế), sử dụng mã hóa 8 hoặc 4 bit cho tín hiệu khác biệt. Công nghệ này lần đầu tiên được công ty sử dụng Sáng tạo Phòng thí nghiệm và cung cấp khả năng nén dữ liệu lên tới 4:1.

Tuy nhiên, các phương pháp nén/giải nén thông tin âm thanh (phần mềm) khác thường được sử dụng; Trong số đó, định dạng phổ biến nhất gần đây là MP3, được phát triển bởi viện Fraunhofer IIS (Fraunhofer Viện tích hợp Schaltungen, www.iis.fhg.de) và bởi THOMSON (thông số kỹ thuật định dạng MP3 đầy đủ được xuất bản tại www.mp3tech.org). Tên đầy đủ của chuẩn MP3 là MPEG-Audio Layer-3 (trong đó MPEG nước hoa Nhóm chuyên gia về hình ảnh chuyển động, đừng nhầm lẫn với tiêu chuẩn MPEG-3 dành cho truyền hình độ phân giải cao).

Mã hóa dữ liệu MP3 xảy ra bằng cách tách các khối dữ liệu - khung riêng biệt độc lập. Để làm điều này, tín hiệu gốc trong quá trình mã hóa được chia thành các phần có thời lượng bằng nhau, được gọi là các khung và được mã hóa riêng biệt (để giảm thêm lượng dữ liệu, việc nén được sử dụng bằng cách sử dụng Thuật toán Heffman); trong quá trình giải mã, tín hiệu được hình thành từ một chuỗi các khung được giải mã. Quá trình mã hóa đòi hỏi thời gian đáng kể, trong khi việc giải mã (trong khi phát lại) được thực hiện nhanh chóng.

Định dạng MP3 mang lại chất lượng âm thanh tốt nhất với kích thước tệp nhỏ nhất. Điều này đạt được bằng cách tính đến các đặc điểm của thính giác con người, bao gồm cả tác động che đậy tín hiệu yếu của một dải tần số bởi tín hiệu mạnh hơn của dải tần lân cận (khi nó xảy ra) hoặc tín hiệu mạnh của khung trước đó, làm giảm tạm thời độ nhạy của tai đối với tín hiệu của khung hiện tại (nói cách khác từ, âm thanh thứ cấp mà tai người không nghe được do sự hiện diện của /thời điểm trước đó của âm thanh khác - âm thanh to hơn). Nó cũng tính đến việc hầu hết mọi người không có khả năng phân biệt giữa các tín hiệu dưới một mức công suất nhất định, mức này thay đổi theo các dải tần số khác nhau. Quá trình này được gọi là mã hóa thích ứng và cho phép bạn tiết kiệm ít nhất có ý nghĩa từ quan điểm nhận thức của con người về các chi tiết âm thanh. Mức độ nén (và do đó chất lượng) được xác định không phải bởi định dạng MP3 mà bởi độ rộng luồng dữ liệu khi mã hóa.

Thông tin âm thanh được nén bằng công nghệ này có thể được phát trực tuyến hoặc lưu trữ dưới dạng tệp MP3 hoặc WAV-MP3. Sự khác biệt giữa cái thứ hai và cái thứ nhất là sự hiện diện của một tiêu đề bổ sung của tệp WAV, cho phép, nếu có codec MP3 (codec, bộ mã hóa và bộ giải mã trong phiên bản phức tạp) trong hệ thống, hãy sử dụng các công cụ Windows tiêu chuẩn để làm việc với một tập tin như vậy. Các thông số nén khi mã hóa một tập tin có thể thay đổi trong giới hạn rộng. Chất lượng mà hầu hết người nghe bình thường không thể phân biệt được với chất lượng CD, đạt được ở tốc độ bit ( tốc độ bit, tốc độ bit) 112128 KB mỗi giây; tỷ lệ nén xấp xỉ 14:1 so với âm lượng ban đầu. Các chuyên gia thường yêu cầu tốc độ truyền 256320 KB/giây (điều này chỉ tương ứng với tốc độ gấp đôi tốc độ của đầu đĩa CD, nhưng không có sẵn trên hầu hết các đường Internet trong nước).

Tính năng cơ bản của mã hóa MPEG (cả thông tin video và âm thanh) là nén có tổn hao. Sau khi đóng gói và giải nén file âm thanh bằng phương pháp MP3, kết quả là không giống với bản gốc`bit to bit'. Ngược lại, việc đóng gói có chủ đích loại trừ các thành phần không quan trọng khỏi tín hiệu được đóng gói, dẫn đến tỷ lệ nén tăng lên rất nhiều (nén lên tới 96:1 với chất lượng của kênh điện thoại).

Rất nhiều phần mềm thân thiện với người dùng cũng đã được viết cho MP3. Việc sản xuất máy nghe nhạc MP3 phần cứng (bỏ túi và ô tô) đã được triển khai (MP3 hỗ trợ tối đa 5 kênh).

Vào đầu năm 1998-1999 công ty XingTech(www.xingtech.com) là công ty đầu tiên sử dụng công nghệ này tốc độ bit thay đổi(VBR, Biến đổi Cắn Tỷ lệ). Trong trường hợp VBR, mức tối đa chấp nhận được mức mất mát và bộ mã hóa chọn tốc độ bit tối thiểu đủ để hoàn thành nhiệm vụ. Các khung liền kề nhau trong luồng cuối cùng có thể được mã hóa với các tham số khác nhau.

Theo các chuyên gia, MP3 sẽ vẫn còn phù hợp trong thập kỷ tới (ngay cả khi có sự tồn tại của các định dạng AAG và VQF cũng như định dạng MS được quảng bá). WMA). Về sự tồn tại của người khác lập trình viên(chuyển đổi thông tin từ định dạng này sang định dạng khác) xem www.sulaco.org/mp3/free.html và www.xiph.org.

Một đối thủ cạnh tranh tiềm năng với MP3 trong tương lai (không quá gần) có thể là định dạng MPEG-4 (chính xác hơn là thành phần âm thanh của nó), dựa trên cách tiếp cận dựa trên đối tượng đối với các cảnh âm thanh (ngôn ngữ). BIFS cho phép bạn xác định vị trí các nguồn âm thanh trong không gian ba chiều của cảnh, kiểm soát các đặc điểm của chúng và áp dụng các hiệu ứng cho chúng một cách độc lập với nhau, v.v., trong các phiên bản tương lai, dự kiến ​​sẽ bổ sung thêm khả năng thiết lập các thông số âm thanh của môi trường ).

Để mã hóa các đối tượng âm thanh, MPEG-4 cung cấp bộ công cụ cho cả âm thanh trực tiếp và âm thanh tổng hợp. MPEG-4 chỉ định cú pháp dòng bit và quy trình giải mã theo bộ công cụ, cho phép sử dụng nhiều thuật toán nén khác nhau. âm thanh trực tiếp - từ 2 đến 128 KB/giây trở lên. Khi mã hóa với tốc độ bit thay đổi, tốc độ trung bình tối thiểu thậm chí có thể thấp hơn (khoảng 1,2 KB/giây) Để có âm thanh chất lượng cao nhất, thuật toán AAC được sử dụng, mang lại chất lượng. tốt hơn thế. CD có luồng nhỏ hơn 10 lần. Một thuật toán khả thi khác để mã hóa âm thanh trực tiếp là. TwinVQ. Các thuật toán được đề xuất để mã hóa giọng nói HVXC(Mã hóa kích thích vectơ điều hòa) cho tốc độ dòng 24 KB/giây và CELP(Mã dự đoán tuyến tính kích thích) với tốc độ 424 KB/giây.

MPEG-4 giả định khả năng tổng hợp giọng nói. Đầu vào của bộ tổng hợp sẽ nhận văn bản được nói, cũng như các thông số khác nhau về “màu sắc” của giọng nói - trọng âm, thay đổi cao độ, tốc độ phát âm của âm vị, v.v. Bạn cũng có thể đặt giới tính, tuổi tác, “người nói”, giọng, v.v. Bạn có thể chèn một điều khiển vào thông tin văn bản, khi phát hiện, bộ tổng hợp, đồng bộ với cách phát âm của âm vị tương ứng, sẽ truyền tham số hoặc lệnh đến các thành phần khác của hệ thống (ví dụ: song song với giọng nói , có thể tạo ra một luồng tham số cho hoạt ảnh khuôn mặt). Như mọi khi, MPEG-4 xác định các quy tắc hoạt động và giao diện của bộ tổng hợp chứ không xác định cấu trúc bên trong của nó.

Một phần thú vị của thành phần “âm thanh” là phương tiện tổng hợp âm thanh và âm nhạc tùy ý mà MPEG-4 đưa ra như một phương pháp tiếp cận tiêu chuẩn được phát triển trong cái nôi của nhiều công nghệ tiên tiến - Phòng thí nghiệm truyền thông MIT. và được đặt tên là SA ( Âm thanh có cấu trúc, Âm thanh có cấu trúc). Đây không phải là một phương pháp tổng hợp cụ thể mà là một định dạng để mô tả các phương pháp tổng hợp trong đó bất kỳ phương pháp hiện có nào (và được cho là các phương pháp trong tương lai) đều có thể được chỉ định. Có hai ngôn ngữ có sẵn cho việc này - SAOL (Ngôn ngữ dàn nhạc âm thanh có cấu trúc) Và SASL (Ngôn ngữ điểm âm thanh có cấu trúc). Phần đầu tiên chỉ định dàn nhạc và phần thứ hai chỉ định dàn nhạc này sẽ chơi gì. Một dàn nhạc bao gồm các nhạc cụ, mỗi nhạc cụ được thể hiện bằng một mạng lưới các phần tử xử lý tín hiệu số - bộ tổng hợp, bộ lọc kỹ thuật số, tất cả cùng nhau tổng hợp ra âm thanh mong muốn. Với SAOL, bạn có thể lập trình hầu hết mọi nhạc cụ, âm thanh tự nhiên hoặc nhân tạo mong muốn. Đầu tiên, một bộ nhạc cụ được tải vào bộ giải mã, sau đó luồng dữ liệu SASL sẽ khiến dàn nhạc này chơi, kiểm soát quá trình tổng hợp; Điều này đảm bảo âm thanh giống nhau trên tất cả các bộ giải mã với lưu lượng đầu vào rất thấp và độ chính xác điều khiển cao. Với sự ra đời của MPEG-4, ý tưởng về ITV thực sự trở nên thực tế hơn và dễ hiểu hơn ( Tương tác TeleVision, Truyền hình tương tác), đã được tranh luận trong vài năm nay và theo đó mọi người đều hiểu điều gì đó khác nhau (từ “video theo yêu cầu” đơn giản đến truyện trinh thám với cách phát triển cốt truyện đa biến và sự tham gia của người xem).

Dữ liệu trên MPEG-4 được cung cấp chủ yếu để cung cấp thông tin về các xu hướng hiện nay trong việc ghi và tổng hợp phương tiện truyền thông; những ai quan tâm có thể tham khảo cselt.it/mpeg và www.mpeg.org. Vào cuối năm 2000, nhóm phát triển MPEG đã lên kế hoạch thông báo hoàn thành công việc trên tiêu chuẩn MPEG-7 (tên chính thức - Giao diện mô tả nội dung đa phương tiện).

Thông tin âm thanh có thể thu được bằng các phương pháp đặc biệt dựa trên phân tích cấu trúc dữ liệu và nén sau đó với một số tổn thất.

Khả năng xử lý âm thanh thực sự có chất lượng tương đương với các ví dụ tương tự hiện có chỉ xuất hiện vào cuối những năm 80. Năm 1988, Tổ chức Tiêu chuẩn Quốc tế (ISO) đã thành lập ủy ban MPEG (Nhóm chuyên gia về Hình ảnh Chuyển động), có nhiệm vụ chính là phát triển các tiêu chuẩn mã hóa cho hình ảnh chuyển động, âm thanh và sự kết hợp của chúng. Trong mười năm tồn tại, ủy ban đã phát triển một số tiêu chuẩn về vấn đề này. Kết quả là, sau khi tóm tắt nghiên cứu sâu rộng trong lĩnh vực này, một số định dạng cụ thể để lưu trữ dữ liệu đã được đề xuất, khác nhau về chất lượng kết quả và tốc độ truyền dữ liệu.

Hiện nay, ba tiêu chuẩn phổ biến nhất để lưu trữ dữ liệu video là MPEG-1, MPEG-2 và MPEG-4. Trong hai định dạng đầu tiên, cũng có các định dạng lưu trữ thông tin âm thanh - Lớp 1, Lớp 2 và Lớp 3. Ba định dạng âm thanh này được xác định cho MPEG-1 và được sử dụng cùng với các phần mở rộng nhỏ trong MPEG-2. Cả ba định dạng đều tương tự nhau nhưng sử dụng các mức độ cân bằng khác nhau giữa độ nén và độ phức tạp. Lớp 1 là cấp độ đơn giản nhất, nó không yêu cầu chi phí nén đáng kể nhưng cũng cung cấp mức độ nén không đáng kể. Lớp 3 tốn nhiều công sức nhất và cung cấp khả năng nén tốt nhất. Gần đây, định dạng này đã trở nên phổ biến rộng rãi. Nó thường được gọi là MP3. Tên này đề cập đến phần mở rộng của tệp âm thanh được lưu trữ ở định dạng này.

Ý tưởng cơ bản mà tất cả các kỹ thuật nén âm thanh bị suy hao đều dựa trên đó là bỏ qua những chi tiết tinh tế của âm thanh gốc nằm ngoài phạm vi mà tai người có thể cảm nhận được. Một số điểm có thể được nhấn mạnh ở đây.

Mức độ ồn. Việc nén âm thanh dựa trên một thực tế đơn giản - nếu một người ở gần tiếng còi báo động lớn, thì anh ta khó có thể nghe thấy cuộc trò chuyện của những người đứng gần đó. Hơn nữa, điều này xảy ra không phải vì một người chú ý nhiều đến âm thanh lớn, mà ở mức độ lớn hơn là do tai con người thực sự mất đi những âm thanh nằm trong cùng dải tần với âm thanh lớn hơn. Hiệu ứng này được gọi là mặt nạ và nó thay đổi theo sự khác biệt về âm lượng và tần số.

Điểm thứ hai là việc phân chia dải tần âm thanh thành các băng con, mỗi băng con sẽ được xử lý riêng biệt. Chương trình mã hóa sẽ tách những âm thanh lớn nhất trong mỗi băng tần và sử dụng thông tin này để xác định mức tiếng ồn có thể chấp nhận được cho băng tần đó. Các chương trình mã hóa tốt nhất cũng tính đến ảnh hưởng của các băng tần lân cận. Âm thanh rất lớn trong một dải có thể ảnh hưởng đến hiệu ứng che lấp trên các dải gần đó.

Một điểm khác của mã hóa là việc sử dụng mô hình âm thanh tâm lý, dựa trên đặc điểm nhận thức của con người về âm thanh. Việc nén bằng mô hình này dựa trên việc loại bỏ các tần số rõ ràng là không nghe được trong khi vẫn giữ lại cẩn thận hơn những âm thanh mà tai người có thể phân biệt rõ ràng. Thật không may, không thể có công thức toán học chính xác ở đây. Nhận thức của con người về âm thanh là một quá trình phức tạp, chưa được hiểu đầy đủ nên việc lựa chọn phương pháp nén được thực hiện trên cơ sở phân tích khả năng nghe và so sánh các âm thanh được nén khác nhau của các nhóm chuyên gia. Nhưng ở đây có những khả năng thực tế không giới hạn trong lĩnh vực cải tiến các mô hình âm thanh tâm lý. Hầu hết các thuật toán hiện có để mã hóa giọng nói của con người đều dựa trên khả năng dự đoán cao của tín hiệu đó - các thuật toán nén MPEG phổ quát cố gắng áp dụng kỹ thuật này với mức độ thành công khác nhau.

Một kỹ thuật nén khác là sử dụng cái gọi là âm thanh nổi kết hợp. Được biết, máy trợ thính của con người chỉ có thể xác định hướng của các tần số trung bình - âm thanh cao và thấp như thể tách biệt với nguồn phát. Điều này có nghĩa là các tần số nền này có thể được mã hóa thành tín hiệu đơn âm. Ngoài tất cả những điều này, sự khác biệt về độ phức tạp của các luồng trong các kênh được sử dụng để nén. Ví dụ: nếu kênh bên phải hoàn toàn im lặng trong một thời gian, vị trí "dành riêng" này được sử dụng để cải thiện chất lượng của kênh bên trái hoặc các bit cần thiết không vừa với luồng trước đó một chút sẽ bị "xóa" ở đó. Giai đoạn nén cuối cùng sử dụng thuật toán nén Huffman. Quá trình này cải thiện tỷ lệ nén cho các tín hiệu tương đối đồng nhất được nén kém bằng cách sử dụng các kỹ thuật được mô tả ở trên. Dựa trên những ý tưởng được mô tả, các thuật toán nén được xây dựng để có thể đạt được tỷ lệ nén 10:1 hoặc cao hơn mà hầu như không làm giảm chất lượng âm thanh. Trong quá trình mã hóa, mức nén yêu cầu được đặt và thuật toán nén đạt được giá trị mức nén yêu cầu nhưng phải trả giá bằng việc giảm chất lượng. Mức nén yêu cầu thường được chỉ định dưới dạng tốc độ bit, được đo bằng Kbit/giây.

Là bước đầu tiên trong xử lý hình ảnh, các định dạng nén MPEG-1 và MPEG-2 chia các khung tham chiếu thành nhiều khối bằng nhau, sau đó các khối này phải chịu biến đổi cosine đĩa (DCT). So với MPEG-1, định dạng nén MPEG-2 cung cấp độ phân giải hình ảnh tốt hơn với tốc độ truyền dữ liệu video cao hơn thông qua việc sử dụng thuật toán nén mới và loại bỏ thông tin dư thừa, cũng như mã hóa luồng dữ liệu đầu ra. Ngoài ra, định dạng nén MPEG-2 cho phép bạn chọn mức nén do độ chính xác lượng tử hóa. Đối với video có độ phân giải 352x288 pixel, định dạng nén MPEG-1 cung cấp tốc độ truyền 1,2 – 3 Mbit/s và MPEG-2 – lên tới 4 Mbit/s.

So với MPEG-1, định dạng nén MPEG-2 có những ưu điểm sau:

  • MPEG-2 cung cấp khả năng mở rộng các mức chất lượng hình ảnh khác nhau trong một luồng video.
  • Ở định dạng nén MPEG-2, độ chính xác của vectơ chuyển động được tăng lên 1/2 pixel.
  • Người dùng có thể chọn độ chính xác tùy ý của phép biến đổi cosine rời rạc.
  • Định dạng nén MPEG-2 bao gồm các chế độ dự đoán bổ sung.

MPEG-4 sử dụng cái gọi là công nghệ nén hình ảnh fractal. Nén fractal (dựa trên đường viền) liên quan đến việc trích xuất các đường viền và kết cấu của các đối tượng từ hình ảnh. Các đường viền được trình bày dưới dạng cái gọi là splines (hàm đa thức) và được mã hóa bởi các điểm tham chiếu. Kết cấu có thể được biểu diễn dưới dạng hệ số của biến đổi tần số không gian (ví dụ: biến đổi cosine hoặc wavelet rời rạc).

Phạm vi tốc độ dữ liệu mà định dạng nén video MPEG 4 hỗ trợ rộng hơn nhiều so với MPEG 1 và MPEG 2. Những phát triển tiếp theo của các chuyên gia nhằm mục đích thay thế hoàn toàn các phương pháp xử lý được sử dụng bởi định dạng MPEG 2. Định dạng nén video MPEG 4 hỗ trợ nhiều tiêu chuẩn và tốc độ dữ liệu. MPEG 4 bao gồm các kỹ thuật quét lũy tiến và quét xen kẽ, đồng thời hỗ trợ độ phân giải không gian và tốc độ bit tùy ý từ 5 kbps đến 10 Mbps. MPEG 4 có thuật toán nén được cải tiến, chất lượng và hiệu quả được tăng lên ở mọi tốc độ bit được hỗ trợ.


Mặt sauĐến nội dung Phía trước

Nén âm thanh cho người yêu âm nhạc

Sự thật về tốc độ bit cao khi nén bị mất dữ liệu

Lời nói đầu

Theo cách hiểu của hầu hết mọi người, từ người yêu âm nhạc thường gắn liền với một người không chỉ yêu thích và sưu tầm âm nhạc mà còn đánh giá cao âm nhạc chất lượng cao, không chỉ về mặt nghệ thuật và thẩm mỹ mà còn cả chất lượng ghi âm của bản thân bản ghi âm. Nghĩ mà xem, chỉ vài năm trước, CD âm thanh được coi là tiêu chuẩn cho chất lượng âm nhạc, nhưng máy tính, ngay cả trong giấc mơ của tôi, cũng không thể cạnh tranh được với chất lượng CD. Tuy nhiên, thời gian là một kẻ hay đùa giỡn và thường thích đảo lộn mọi thứ. Có vẻ như đã khá lâu rồi, khoảng một hoặc hai năm và... thế là đĩa CD trên PC lùi dần xuống nền. Đừng hỏi “tại sao?”, chính bạn cũng biết câu trả lời cho câu hỏi này. Tất cả là nhờ cuộc cách mạng trong thế giới âm thanh trên máy tính - nén âm thanh (sau đây gọi tắt là nén âm thanh ngụ ý nén mất dữ liệu để giảm kích thước của tệp âm thanh), giúp lưu trữ nhạc trên ổ cứng, rất nhiều nhạc! Hơn nữa, nó có thể được trao đổi thông qua Internet. Các card âm thanh mới đã được phát hành có khả năng nâng cao chất lượng gần như phòng thu của phần cứng dường như vô dụng về mặt âm nhạc. Ngày nay, ngay cả khi bạn có một chiếc máy tính có hiệu năng không nhanh lắm, nếu bạn mua card âm thanh Creative SoundBlaster Live! và hãy nhớ rằng kể từ thời Liên Xô, bạn đã có một bộ khuếch đại tốt và âm thanh chất lượng cao, bạn sẽ không nhận được gì khác ngoài một trung tâm âm nhạc chất lượng cao, âm thanh của nó chỉ thua kém các thiết bị âm thanh rất đắt tiền (trung bình hoặc thậm chí cao nhất Hi -Fi thể loại). Thêm vào đó là sự sẵn có của các tệp nhạc và bạn sẽ hiểu rằng bạn có quyền lực trong tay. Và rồi một cuộc cách mạng xảy ra, và bạn hiểu rằng đĩa CD không còn tiện lợi nữa, một thứ hoàn toàn khác đang mê hoặc bạn - những dấu hiệu kỳ diệu của “MP3”. Bạn không thể ăn cũng như không ngủ - bạn phải đối mặt với một câu hỏi dường như không thể giải quyết được “con gà và quả trứng”: “bóp” bằng cái gì và quan trọng nhất là làm thế nào để “bóp”...

Theo tôi, trong số các định dạng nén âm thanh hiện nay, có ba định dạng đáng được chú ý: MP3 (hoặc MPEG-1 Audio Layer III), LQT (với tư cách là thành viên của dòng MPEG-2 AAC / MPEG-4) và định dạng OGG hoàn toàn mới (Ogg Vorbis), được phát triển bởi một nhóm những người đam mê:

  • Ngày nay MP3 là loại phổ biến nhất (chủ yếu vì nó miễn phí). Hãy để tôi nhắc bạn rằng chính nhờ định dạng MP3 mà cuộc tuần hành thắng lợi của âm thanh nén đã diễn ra. Tuy nhiên, như thường lệ xảy ra với những người tiên phong, nó đang dần mất đi vị thế và nhường chỗ cho những hình thức mới hơn và tốt hơn.
  • Định dạng thứ hai, LQT, là đại diện cho một hướng mới của thuật toán mã hóa âm thanh, đại diện của dòng AAC. Đây là một định dạng chất lượng khá cao nhưng mang tính thương mại và được phân loại nghiêm ngặt.
  • OGG đã được công chúng biết đến rộng rãi vào mùa hè này và hiện đang phát triển nhanh chóng; sớm (với việc phát hành bộ mã hóa và giải mã), nó sẽ đánh bại MP3 với chất lượng âm thanh tốt hơn với ít tệp hơn.

Tôi sẽ không mô tả chi tiết về công nghệ và định dạng ở đây; bạn có thể dễ dàng tìm thấy chúng. Sẽ chỉ có sự thật, kết luận và khuyến nghị. Tôi dự định trình bày nghiên cứu của mình riêng biệt cho từng định dạng trong các bài viết riêng biệt.

Nhiệm vụ

Tôi quyết định “đẩy đầu” theo ba định dạng được chỉ định để có được âm thanh chất lượng cao nhất với kích thước tệp tối thiểu. Để thử nghiệm, một số mẫu đã được chọn (ở đây mẫu là một đoạn nhỏ được cắt từ tệp PCM) từ các tác phẩm thuộc hai loại. Đầu tiên là âm thanh rất dày đặc và to với tính năng chuẩn hóa biên độ (nén âm thanh “theo chiều dọc” để vừa với 16 bit từ bản gốc 24 bit) và nén dải động (để âm thanh của tất cả các nhạc cụ luôn to). Đối với loại đầu tiên (như trong các thử nghiệm trước đây của tôi), bố cục Crush On You trong album Have A Nice Day của Roxette đã được chọn; ba mẫu, mỗi mẫu 15-20 giây từ các phần khác nhau của bố cục đã được nghiên cứu. Mẫu thứ hai sạch sẽ và trong suốt (dàn nhạc nhẹ hoặc sắp xếp âm thanh). Loại thứ hai được lấy từ sáng tác Mano a Mano trong album Tango của nghệ sĩ piano nổi tiếng Richard Clayderman.

Tại sao lại có những hồ sơ cụ thể này? Trong các mẫu Roxette có lực nén động rất mạnh (giá trị biên độ thường bằng giá trị tối đa (rất tệ) và dẫn đến tình trạng quá tải của thiết bị tái tạo và biến dạng nghiêm trọng).

Trên những mẫu như vậy, bộ mã hóa phải hoạt động ở chế độ cực cao, đó là lý do tại sao mọi biến dạng đều có thể dễ dàng nghe thấy được, bởi vì Các biến dạng mã hóa được thêm vào các biến dạng ban đầu hiện có. Bạn có thể hỏi, “tại sao lại lấy mẫu như vậy làm bài kiểm tra?” Nó là cần thiết và làm thế nào. Phần lớn các album hiện đang phát hành đều được ghi theo cách này. Do đó, bộ mã hóa phải chịu được âm thanh quá tải.

Với các mẫu của Clayderman, tình hình hoàn toàn ngược lại. Bản ghi âm analog ban đầu, sau khi chỉnh sửa lại kỹ thuật số với chất lượng rất cao, đã được ghi vào đĩa CD mà không cần nén động.

Âm thanh tuyệt vời, âm cao rất dễ chịu và mềm mại. Chúng tôi sẽ đặc biệt chú ý đến chúng trong quá trình phân tích và cố gắng bảo tồn chúng. Nhưng đây là những tần số mà các lập trình viên sẽ khó truyền tải nhất.

Chúng ta nhấn cái gì?

Nghiên cứu của tôi về chất lượng tham chiếu cho các bộ mã hóa và tốc độ bit MP3 khác nhau được thể hiện trong chương trình OrlSoft MPeg eXtension. Các thông số mã hóa được lựa chọn dựa trên kết quả thử nghiệm.

Dẫn đầu không thể tranh cãi về chất lượng tốc độ bit cao là bộ mã hóa LAME. Bộ mã hóa Fraunhofer IIS vẫn chỉ hoạt động tốt với tốc độ bit thấp - 128 và 160 kbps. Tôi thậm chí sẽ không nói về người khác. Chỉ cần KHÔNG BAO GIỜ xử lý các bộ mã hóa dựa trên mã XING (đại diện nổi tiếng nhất là Audio Catalyst) - đây là những bộ mã hóa tệ nhất, âm thanh thật khủng khiếp.

Đối với hầu hết người dùng định dạng MP3, vấn đề về chất lượng âm thanh thường được đặt ra như sau: “256 hay 320? Có thể thử VBR?” Và câu hỏi này dày vò họ mỗi ngày. Không phải tất cả các bản ghi âm đều có âm thanh tốt ở mức 256 - có những tổn thất mạnh về âm thanh và hình ảnh (bằng phép đo) ở tần số cao. Khi sử dụng chế độ VBR (còn gọi là luồng bitrate thay đổi), thường xảy ra trường hợp nhạc nghe vào tai tốt hơn 256, nhưng điều này không thể coi là nguyên tắc chung. Mã hóa các bản ghi có ít giá trị hoặc chất lượng không cao - bạn không thể sai được. Các tham số VBR của tôi được chọn để đạt được chất lượng tối đa cho VBR.

Đối với định dạng LQT thương mại, chỉ có một bộ mã hóa độc quyền của tác giả - Liquifier Pro. Chúng tôi nhấn chúng. Tôi lưu ý rằng định dạng LQT ban đầu dựa trên mã hóa VBR, vì vậy chỉ có một số chế độ cho nó, chẳng hạn như “xấu”, “tốt” và “xuất sắc”. Đương nhiên, đối với các thử nghiệm của chúng tôi, chúng tôi sử dụng chế độ “xuất sắc” (Audiophile), dẫn đến luồng từ 192 đến 256, thường là 200-220 kbps. Hãy để tôi nhắc bạn rằng định dạng LQT dựa trên nhóm thuật toán MPEG-2 AAC. Hơn nữa, đây là cách triển khai AAC có chất lượng cao nhất cho đến nay (đã được thử nghiệm trên các thiết bị tương tự).

Định dạng OGG là họ hàng của định dạng MP3, nhưng chứa một mô hình âm thanh tâm lý khác và một số cải tiến kỹ thuật mà MP3 không có. Đầu tiên, OGG ban đầu chỉ hỗ trợ chế độ VBR. Người dùng đặt tốc độ bit gần đúng và bộ mã hóa cố gắng nén càng gần tốc độ đó càng tốt. Phạm vi thay đổi cực kỳ rộng: từ 8 đến 512 kbps và rời rạc hơn nhiều so với MP3. Giới hạn trên lên tới 512 kbps, trong khi các bộ mã hóa MP3 ngày nay thực sự chỉ “kéo” lên tới 320. Bạn có thể hỏi, “có thực sự là 320 là không đủ?” Vâng, nó xảy ra, nhưng hiếm khi.

mẫu roxette

Chà, bây giờ chúng ta đến phần thú vị nhất. Hãy bắt đầu với cảm giác thính giác của tôi.

Đối với MP3 ở luồng 256 kbit/s, có thể nghe thấy rõ sự nhiễu loạn trong âm thanh ở tần số cao. Âm thanh không chỉ bị thiếu một phần đáng kể mà còn có hiện tượng méo tiếng mạnh, tiếng thở khò khè, tiếng kêu kim loại và các “sự quyến rũ” khác. Đây là dấu hiệu cho thấy 256 rõ ràng là không đủ nên bạn cần phải cố gắng cao hơn. Chúng tôi lấy một mẫu nén đến 320. Âm thanh đã thay đổi đáng kể - đây là một vấn đề hoàn toàn khác: phần trên đã ở đúng vị trí, tai không phát hiện ra sự khác biệt nào. Để đảm bảo tính thuần khiết của thí nghiệm, chúng ta hãy xem điều gì xảy ra ở chế độ tốc độ dòng chảy thả nổi. Chúng tôi nhận được tốc độ bit trung bình là 290 kbit/s, điều này cho thấy rằng 256 sẽ không đủ cho mẫu đang nghiên cứu. Quả thực, đối với tai, mẫu mã hóa ở chế độ VBR nghe hay hơn 256 một chút, nhưng rõ ràng không đạt được âm thanh 320. Trong trường hợp sử dụng MP3, chỉ mã hóa ở chế độ 320 kbit/s là phù hợp với âm thanh cao. nén chất lượng, tức là đến mức tối đa có thể.

Hãy coi OGG là "MP3 đã được sửa đổi". Có năm tốc độ bit gần đúng cho bộ mã hóa: 128, 160, 192, 256 và 350. Hãy thử 192 và 256. Chúng tôi sẽ không lấy tốc độ bit 350, bởi vì... Chúng ta đã biết rằng MP3 ở tốc độ 320 kbit/s rõ ràng truyền tải chất lượng tuyệt vời; dường như không cần bất cứ điều gì tốt hơn. Đối với chế độ 192, chúng tôi nhận được luồng trung bình là 226 và đối với chế độ 256 - tối đa 315 kbps. Rất nhiều cho độ chính xác. Độ lệch lớn so với điểm tham chiếu như vậy là tín hiệu cho vật liệu âm thanh được mã hóa rất phức tạp; với mẫu có mật độ đơn giản hơn thì độ chính xác sẽ cao hơn. Thành thật mà nói, tôi đã mất một thời gian dài để đánh giá 320 MP3 và 315 OGG và đi đến kết luận rằng cả hai đều có âm thanh gần giống với âm thanh gốc. Nhưng chúng dựa trên các mô hình âm thanh tâm lý khác nhau và màu sắc âm thanh của chúng cũng khác nhau. Cá nhân tôi thích MP3 hơn một chút. Tuy nhiên, đây thực sự là một vấn đề gây tranh cãi - xét cho cùng thì bộ mã hóa OGG vẫn chỉ là phiên bản beta. Khi nó được phát hành, tôi nghĩ nó sẽ vượt qua MP3 về chất lượng. So sánh chúng một cách riêng biệt với bản gốc, tôi có xu hướng tin rằng OGG vẫn có âm thanh gần với bản gốc hơn, nhưng có điều gì đó không ổn ở tần số trên của bộ mã hóa này. Vì điều này, MP3 nghe hay hơn một chút. Tôi không nghĩ cần phải nói rằng ở chế độ 350 (tốc độ bit trung bình là 365), OGG sao chép “hoàn hảo” bản gốc.

Bây giờ về một định dạng ít được biết đến nhưng được quảng cáo rộng rãi là định dạng “chất lượng cao nhất” - định dạng LQT. Và quan trọng nhất, về tổng thể nó thực sự có âm thanh rất hay, tuy nhiên, sau khi nghe, tôi nhận ra mình không thích điều gì ở âm thanh của nó. Nó không làm biến dạng các tần số cao như MP3 ở tốc độ 256 kbps, nhưng nó làm mờ âm thanh và làm mờ âm thanh rất nhiều. Âm thanh sắc nét mờ dần theo thời gian. Vâng, điều này thật tệ. Nhưng thực tế là việc so sánh LQT ở tốc độ bit chỉ 230 kbit/s với MP3 ở cùng tốc độ bit là vô ích; MP3 kém hơn về mặt âm thanh tổng thể. Tất nhiên là có điều gì đó để phàn nàn. MP3 mất và biến dạng các tần số phía trên, trong khi LQT lại phần nào “giảm” các tần số trung bình và làm mờ các tần số phía trên. Nói chung ở đây ai sẽ thích cái gì hơn. Nhưng đây là một chủ đề cho một bài viết khác. Hôm nay chúng ta chỉ nói về tốc độ bit cao hơn. Đúng, LQT cho chất lượng tốt, nhưng không có nghĩa là tuyệt vời. Rõ ràng, điều này là do thiếu tốc độ bit, tức là nếu chế độ tốc độ bit cao hơn xuất hiện trong LQT, nó sẽ đánh bại cả MP3 320 kbps trên các bản ghi giống như bản ghi đang được nghiên cứu.

Đây là những ấn tượng hoàn toàn chủ quan của tôi. Bây giờ chúng ta hãy chuyển sang các bài kiểm tra khách quan hơn. Chúng tôi điều tra đáp ứng tần số (nghĩa là, đáp ứng biên độ-tần số) được công nhận là tốt nhất (320 cho MP3, 315 cho OGG và 230 cho LQT). Sơ đồ được trình bày được gọi là "sonarm" - biểu diễn tần số thời gian của âm thanh. Theo chiều ngang có thang thời gian, theo chiều dọc có thang tần số tuyến tính.

Bạn có nhìn kỹ không? Đây là sự xác nhận rõ ràng cho lời nói của tôi: định dạng Ogg Vorbis mới nhất ở chế độ 256 rõ ràng là không ngang bằng - việc cắt tần số có thể nhìn thấy bằng mắt thường. Định dạng LQT “siêu thương mại” dường như truyền tải dải tần số cao thậm chí còn tốt hơn LAME, nhưng chất lượng tổng thể lại kém hơn. Thực tế là trong LQT không có chế độ âm thanh nổi thuần túy - trên thực tế, nó luôn là Joint-Stereo (bộ mã hóa đầu tiên nén kênh bên trái, sau đó chỉ mã hóa sự khác biệt giữa trái và phải). Do đó, các mức cao bị nhòe khi thiếu tốc độ bit, có thể thấy rõ trong hình minh họa, cộng với kết luận này có thể dễ dàng được xác nhận bằng cách kiểm tra tín hiệu trong ma trận MS, tức là. khi chuyển nó sang kênh trung tâm + chế độ âm thanh nổi. Chúng ta có thể nói gì về mẫu LAME... mọi thứ đều tuyệt vời - các tần số trên hơi bị cắt đi một chút, nhưng có thể chấp nhận được; Cũng không có thất bại rõ ràng nào được ghi nhận.

Hãy tóm tắt. Về đích dành cho mẫu Roxette, mẫu OGG 256 kbit/s và LQT rời cuộc đua; mẫu OGG 350 kbit/s không hề thua kém người dẫn đầu. Tuy nhiên, chúng ta đừng chôn vùi định dạng mới trước - hãy chờ phát hành. Sau đó, chúng tôi sẽ chạy thử nghiệm lại: OGG 256 vs LAME 320.

Mẫu của Richard Clayderman

Với các mẫu Roxette, mọi thứ dường như đã rõ ràng - hiện tại, tốt hơn hết là bạn nên nén âm thanh dày đặc bằng bộ mã hóa LAME ở chế độ 320 kbps. Thế còn âm thanh trong suốt hơn thì sao? Trước tiên, hãy thử nén ở chế độ 256 kbit/s và theo lý thuyết, mọi người sẽ hài lòng. Kết quả: các tần số thấp dường như vẫn được giữ nguyên, và các tần số trung cũng vậy, nhưng các tần số cao... các tần số cao đã biến mất! Họ ở đó, nhưng họ không còn lại âm thanh đẹp đẽ đó, điều này rất khó để không chú ý đến trong bản ghi âm này. Tần số cao nhìn chung được áp dụng và không có hiện tượng suy hao mạnh, nhưng âm thanh của những “chũm chọe” đã trở nên hơi tổng hợp, chói tai và rất khó chịu. Âm thanh như vậy không có quyền khẳng định là có chất lượng cao. Chà, chúng ta sẽ phải sử dụng lại 320, nhưng tôi thực sự muốn nén nó thành 256... Nếu chúng ta so sánh 320 với âm thanh của 256, thì việc truyền tần số cao đã trở nên tốt hơn nhiều. Tuy nhiên, khi so sánh với bản gốc, có thể thấy bản thu âm vẫn chưa đạt yêu cầu về mặt chất lượng. Sau khi so sánh thêm một vài mẫu, có thể thấy rõ đây là những lỗi trong mô hình âm thanh tâm lý. Ngay cả ở tốc độ 320 kbit/s, MP3 thường không truyền tần số cao trên loại bản ghi đang được nghiên cứu. Các tần số phía trên trở nên sắc nét hơn, nhiều kim loại hơn, chúng có mùi giống như chất tổng hợp và kỳ lạ thay, chúng có vẻ to hơn (các phép đo đáp ứng tần số không chứng minh được điều này - một hiệu ứng thính giác thuần túy).

Hãy cùng khám phá Ogg Vorbis ngay bây giờ. Như trong thử nghiệm trước, chúng tôi lấy mẫu được nén ở chế độ 256 kbit/s. Sau thất bại với MP3, thật khó tin vào kết quả thu được - âm thanh của Ogg Vorbis tốt hơn về mọi mặt và không thể so sánh với những gì LAME tạo ra ở tốc độ 320 kbps! So sánh với bản gốc cũng rất khó tìm ra sự khác biệt. Ogg Vorbis ở tốc độ bit 287 đánh bại LAME ở tốc độ bit 320. Đây chính xác là những gì tôi đã nói ở đầu bài viết: định dạng OGG có thể đánh bại MP3.

Được rồi, định dạng LQT từng đoạt giải thưởng có thể cho chúng ta biết điều gì ở tốc độ bit chỉ 252? Nhưng ở đây người ta cũng thu được một kết quả gây sốc - một kết quả cực kỳ trùng khớp với nguyên bản! Ít nhất, sự khác biệt nhỏ đến mức có thể coi là không đáng kể. Ngoài ra, hãy chú ý đến một thực tế thú vị: khi mã hóa các mẫu Roxette, tốc độ bit trung bình là khoảng 230 kbps và trên các mẫu Clayderman có vẻ đơn giản hơn - 250 kbps. Điều này cho thấy LQT thích ứng tốt hơn với âm thanh thực tế của âm nhạc; nó tính đến tất cả các sắc thái một cách chính xác hơn. Định dạng tuyệt vời. Những gì anh ấy muốn là một bộ mã hóa bình thường không có bất kỳ kiểu cách nào và tốc độ bit cao hơn một chút để anh ấy có thể mã hóa các mẫu phức tạp hơn.

Đây là những nghiên cứu “thính giác” chủ quan của tôi. Bây giờ chúng ta hãy nhìn vào đáp ứng tần số.

Và một lần nữa, phân tích đáp ứng tần số của tín hiệu chỉ xác nhận kết luận của tôi dựa trên kết quả nghe: LQT tạo ra kết quả vượt trội, lần này tốt hơn LAME. Khả năng truyền dải tần tuyệt vời và tổn thất ở tần số 21 kHz là nhiễu tần số cao từ xa, điều này thậm chí còn được hoan nghênh. LAME đứng sau nhưng không nhiều. Đúng như mong đợi, dải tần của MP3 vẫn ổn. Nhưng đáp ứng tần số của mẫu Ogg Vorbis thật đáng thất vọng: hãy nhìn vào việc giảm tần số. Nhưng nó nghe có vẻ hay hơn người ta nghĩ khi nhìn vào đáp ứng tần số của nó. Rõ ràng, bằng cách cắt giảm một số tần số, hình ảnh âm thanh tổng thể có thể được truyền tải chính xác hơn.

Và kết quả là chúng ta nhận được gì? Hai nhà lãnh đạo: LAME và LQT ở tốc độ bit tối đa. OGG đang đi sau MP3 và sẽ giành chiến thắng trong tương lai nếu các nhà phát triển của nó đưa ý tưởng của họ đến phương án cuối cùng: kích thước nhỏ hơn và chất lượng tốt hơn.

Nghiên cứu tín hiệu Delta

Định dạng MP3, do tốc độ bit cao, sẽ tốt hơn trên hầu hết các bản ghi. Tuy nhiên, nó sẽ mất điểm khi chúng ta xử lý âm thanh chất lượng rất cao. Ở đây LQT là một sự yêu thích tuyệt đối. Nhưng sự khác biệt giữa 256 và 320 không quá lớn, vì vậy hầu hết nó có thể được hy sinh để có một định dạng thuận tiện và phổ biến hơn. Nhiều người, bao gồm cả tôi, làm điều này trong thư viện nhạc của họ và họ chỉ cần mua những bản ghi chất lượng cao trên đĩa.

Tất cả điều này tất nhiên là tốt, nhưng hai định dạng nghe có vẻ khác nhau và điều này khiến nhiều người khó chịu. Có một nghiên cứu thú vị khác. Có thể tính toán tín hiệu chênh lệch (sau đây gọi là tín hiệu tam giác) hai mẫu và từ đó tìm ra chúng khác nhau như thế nào. Tất nhiên, đây là một nghiên cứu kỹ thuật số thuần túy, bởi vì... sự khác biệt có thể không đủ lớn để có thể nghe thấy. Trong trường hợp của chúng tôi, mọi thứ hóa ra hoàn toàn khác.

Âm lượng của tín hiệu chênh lệch đạt -25 dB và đáp ứng tần số của nó trông rất giống nhiễu băng thông rộng. Nếu bạn nghe tín hiệu delta, nó có vẻ giống như một tập hợp các biến dạng băng thông rộng, tức là. bạn có thể nghe rõ sự khác biệt giữa các mẫu âm thanh tâm lý của MP3 và LQT.

So sánh MP3 với định dạng OGG bằng cách sử dụng cùng một sơ đồ, chúng tôi không nhận được điều gì mới (tất nhiên, sự khác biệt là nhỏ hơn nhưng vẫn đáng kể):

Kết quả tương tự cũng thu được đối với cặp LQT và OGG.

Kết quả nghiên cứu tín hiệu delta chỉ ra rằng các mô hình âm thanh tâm lý của ba định dạng được xem xét rất khác nhau và việc so sánh chúng với nhau về sự khác biệt trong đáp ứng tần số là vô nghĩa.

Phần kết luận

Chà, chúng ta hãy thử rút ra một số kết luận cuối cùng, trình bày chúng dưới dạng khuyến nghị thực tế:

  1. LAME là đại diện tốt nhất cho các bộ mã hóa định dạng MP3, nó tạo ra gần như mức tối đa có thể thu được từ MP3. Đối với tất cả các bản ghi âm rất to và dày đặc, tôi khuyên bạn nên sử dụng LAME ở mức 320.
  2. OGG là một số sửa đổi cấu trúc của định dạng MP3 với mô hình âm thanh tâm lý mới, cách xử lý toán học và triển khai thực tế về cơ bản khác với MP3. Đối với các bản ghi có giá trị thấp và chất lượng thấp, OGG ở chế độ 192 kbit/s sẽ được sử dụng (hoặc LQT ở chế độ 128 Transparent, trung bình 160-180 kbit/s).
  3. Không giống như MP3 và OGG, là đại diện của bộ mã hóa định dạng MPEG-1, định dạng LQT dựa trên thông số kỹ thuật MPEG-2 AAC. Định dạng AAC mang lại chất lượng tốt hơn đáng kể ở tốc độ bit thấp hơn do quá trình xử lý âm thanh về cơ bản khác nhau. Đối với các bản ghi có giá trị trung bình, tôi khuyên dùng LQT (tối đa) hoặc lựa chọn của bạn (sự khác biệt giữa chúng là nhỏ): OGG ở chế độ 256 kbps, LAME ở 256. Tốt hơn là không sử dụng chế độ VBR của bộ mã hóa LAME , nó tệ hơn đáng kể.
  4. Đối với bản ghi chất lượng rất cao, ngay cả khi được mã hóa ở tốc độ 320 kbps, bạn vẫn có thể nghe rõ sự vắng mặt của bất kỳ điều gì đáng kể trong âm thanh của mẫu, hãy thử mã hóa mẫu bằng bộ mã hóa Ogg Vorbis ở tốc độ 350 kbps.
  5. Nếu bạn vẫn chưa hài lòng với âm thanh bị nén bị mất, bạn sẽ phải mua những tác phẩm bạn thích trên đĩa CD-DA.

Có lẽ một phần nào đó của bài viết khiến bạn quan tâm hơn. Viết thư cho tôi - Tôi sẽ rất vui khi nghe phản hồi của bạn.

BỘ NÔNG NGHIỆP

CƠ SỞ GIÁO DỤC TIỂU BANG LIÊN BANG VỀ GIÁO DỤC CHUYÊN NGHIỆP CAO CẤP

TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP TIỂU BANG STAVROPOL

Khoa Kinh tế

Khoa Tin học ứng dụng

ĐỘC LẬP

CÔNG VIỆC ĐƯỢC KIỂM SOÁT

trong bộ môn "Đa phương tiện"

Chủ đề “Nén thông tin âm thanh”

Hoàn thành:

Sinh viên nhóm 2PO

Đã kiểm tra:

Phó Giáo sư Khoa PI,

Tiến sĩ, Phó giáo sư

Stavropol, 2011

NÉN THÔNG TIN ÂM THANH

Thông tin chung

Trong quá trình mã hóa chính trong kênh phòng thu, lượng tử hóa đồng nhất các mẫu tín hiệu âm thanh (AS) được sử dụng với độ phân giải ∆A = 16...24 bit/mẫu ở tần số lấy mẫu f = 44,1...96 kHz. Trong các kênh chất lượng studio thường

∆A = 16 bit/mẫu, f = 48 kHz, dải tần của tín hiệu âm thanh được mã hóa

∆F = 20...20000 Hz. Dải động của kênh kỹ thuật số như vậy là khoảng 54 dB. Nếu f = 48 kHz và ∆A = 16 bit/mẫu thì tốc độ luồng kỹ thuật số khi truyền một tín hiệu như vậy bằng V = 48x16 = 768 kbit/s. Điều này yêu cầu tổng dung lượng kênh liên lạc khi truyền tín hiệu âm thanh ở định dạng 5.1 (Dolby Digital) hoặc 3/2 cộng với kênh tần số cực thấp (Dolby Around, Dolby-Pro-Logic, Dolby THX) trên 3.840 Mbit/s . Nhưng một người chỉ có khả năng xử lý một cách có ý thức khoảng 100 bit thông tin bằng các giác quan của mình. Do đó, chúng ta có thể nói về sự dư thừa đáng kể vốn có trong tín hiệu âm thanh kỹ thuật số cơ bản.

Có sự khác biệt giữa sự dư thừa về mặt thống kê và âm thanh tâm lý của các tín hiệu số sơ cấp. Việc giảm mức độ dư thừa thống kê dựa trên việc tính đến các đặc tính của chính tín hiệu âm thanh và mức độ dư thừa âm thanh tâm lý dựa trên việc tính đến các đặc tính của nhận thức thính giác.

Sự dư thừa thống kê là do sự hiện diện của mối tương quan giữa các mẫu liền kề của hàm thời gian của tín hiệu âm thanh trong quá trình lấy mẫu. Để giảm bớt nó, các thuật toán xử lý khá phức tạp được sử dụng. Khi sử dụng chúng, không bị mất thông tin nhưng tín hiệu gốc được trình bày ở dạng nhỏ gọn hơn, cần ít bit hơn khi mã hóa. Điều quan trọng là tất cả các thuật toán này có thể khôi phục tín hiệu gốc mà không bị biến dạng trong quá trình chuyển đổi ngược. Các phép biến đổi trực giao thường được sử dụng nhất cho mục đích này. Phương pháp tối ưu theo quan điểm này là phép biến đổi Karhunen-Loeve. Nhưng việc thực hiện nó đòi hỏi chi phí tính toán đáng kể. Biến đổi cosine rời rạc được sửa đổi (MDCT) có hiệu quả kém hơn một chút. Điều quan trọng nữa là các thuật toán tính toán nhanh đã được phát triển để triển khai MDCT. Ngoài ra, có một mối liên hệ đơn giản giữa các hệ số biến đổi Fourier (mà tất cả chúng ta đều quen thuộc) và các hệ số MDCT, cho phép chúng ta trình bày kết quả tính toán ở dạng khá phù hợp với hoạt động của cơ chế thính giác. Các phương pháp mã hóa có tính đến các đặc tính của tín hiệu âm thanh (ví dụ: xác suất xuất hiện các mức âm thanh có kích thước khác nhau) cũng giúp có thể giảm hơn nữa tốc độ của luồng kỹ thuật số. Một ví dụ về cách tính toán như vậy là mã Huffman, trong đó các giá trị tín hiệu có xác suất cao nhất được gán các từ mã ngắn hơn và các giá trị của các mẫu có xác suất xuất hiện thấp được mã hóa bằng các từ mã dài hơn. Chính vì hai lý do này mà trong các thuật toán nén dữ liệu âm thanh kỹ thuật số hiệu quả nhất, không phải bản thân các mẫu SV được mã hóa mà các hệ số MDCT và bảng mã Huffman được sử dụng để mã hóa chúng. Lưu ý rằng số lượng bảng như vậy khá lớn và mỗi bảng đều được điều chỉnh phù hợp với tín hiệu âm thanh của một thể loại nhất định.

Tuy nhiên, ngay cả khi sử dụng các quy trình xử lý khá phức tạp, việc loại bỏ sự dư thừa thống kê của tín hiệu âm thanh cuối cùng cũng giúp giảm dung lượng kênh liên lạc cần thiết chỉ 15...25% so với giá trị ban đầu, đây không thể coi là một thành tựu mang tính cách mạng.

Sau khi loại bỏ sự dư thừa thống kê, tốc độ kỹ thuật số khi truyền tín hiệu chất lượng cao và khả năng xử lý chúng của con người khác nhau ít nhất vài bậc độ lớn. Điều này cũng cho thấy sự dư thừa đáng kể về âm thanh tâm lý của ES kỹ thuật số chính và do đó có khả năng giảm bớt nó. Theo quan điểm này, hứa hẹn nhất hóa ra là các phương pháp tính đến các đặc tính của thính giác như che, che trước và che sau. Nếu biết được phần (phần) nào của tín hiệu âm thanh mà tai cảm nhận được và phần nào không do bị che lấp thì chỉ những phần (phần) tín hiệu mà tai có khả năng cảm nhận được mới có thể được cô lập và sau đó truyền qua kênh liên lạc, và những phần không nghe được (các thành phần của tín hiệu gốc) có thể bị loại bỏ (không truyền qua kênh liên lạc). Ngoài ra, các tín hiệu có thể được lượng tử hóa với độ phân giải ở mức thấp nhất có thể, do đó các biến dạng lượng tử hóa, thay đổi về cường độ theo sự thay đổi về mức của tín hiệu, vẫn không thể nghe được, tức là sẽ bị tín hiệu gốc che khuất. Tuy nhiên, sau khi loại bỏ sự dư thừa về âm thanh tâm lý, việc khôi phục chính xác hình dạng chức năng thời gian của GS trong quá trình giải mã là không thể nữa.

Về vấn đề này, cần chú ý đến hai đặc điểm rất quan trọng đối với việc thực hành. Nếu việc nén dữ liệu âm thanh kỹ thuật số đã được sử dụng trước đó trong kênh liên lạc khi phân phối một chương trình, thì việc sử dụng lại nó thường dẫn đến biến dạng đáng kể, mặc dù đối với chúng tôi, tín hiệu gốc dường như có chất lượng khá tốt trước khi mã hóa lại. Do đó, điều rất quan trọng là phải biết “lịch sử” của tín hiệu số và phương pháp mã hóa nào đã được sử dụng trong quá trình truyền tín hiệu đó. Nếu chúng ta đo các thông số chất lượng của các codec đó bằng tín hiệu âm bằng các phương pháp truyền thống (như thường được thực hiện), thì chúng ta sẽ thu được cho chúng ở các giá trị khác nhau, thậm chí là các giá trị cài đặt nhỏ nhất của tốc độ luồng kỹ thuật số, gần như các giá trị lý tưởng của các thông số đo được. Kết quả nghe thử đối với chúng, được thực hiện trên tín hiệu âm thanh thực, về cơ bản sẽ khác nhau, các phương pháp đánh giá chất lượng truyền thống đối với codec nén dữ liệu âm thanh kỹ thuật số là không phù hợp.

Công việc phân tích chất lượng và đánh giá hiệu quả của các thuật toán nén dữ liệu âm thanh kỹ thuật số nhằm mục đích tiêu chuẩn hóa tiếp theo của chúng bắt đầu vào năm 1988, khi nhóm chuyên gia quốc tế MPEG (Nhóm chuyên gia hình ảnh chuyển động) được thành lập. Kết quả công việc của nhóm này ở giai đoạn đầu tiên là việc áp dụng tiêu chuẩn quốc tế MPEG 1 ISO/IEC 11172-3 vào tháng 11 năm 1992 (sau đây, số 3 sau số tiêu chuẩn đề cập đến phần liên quan đến mã hóa tín hiệu âm thanh). ).

Cho đến nay, một số tiêu chuẩn MPEG khác cũng đã trở nên phổ biến trong phát sóng vô tuyến, chẳng hạn như MPEG-2 ISO/IEC 13818-3, 13818-7 và MPEG-4 ISO/IEC 14496-3.

Ngược lại, ở Hoa Kỳ, tiêu chuẩn Dolby AC-3 (ad/52) được phát triển để thay thế cho các tiêu chuẩn MPEG. Một thời gian sau, hai nền tảng công nghệ kỹ thuật số khác nhau dành cho phát thanh và truyền hình đã xuất hiện rõ ràng - đó là DAB (Digital Audi o Broadcasting), DRM (Digital Radio Mondiale), DVB (với DVB-T mặt đất, DVB-C cáp, DVB vệ tinh- S) và ATSC (Dolby AC-3). Sản phẩm đầu tiên trong số đó (DAB, DRM) được quảng bá bởi Châu Âu, ATSC - bởi Hoa Kỳ. Trước hết, các nền tảng này khác nhau ở thuật toán nén đã chọn cho dữ liệu âm thanh kỹ thuật số, loại điều chế kỹ thuật số và quy trình mã hóa chống nhiễu của tín hiệu âm thanh.

Mặc dù có nhiều thuật toán nén dữ liệu âm thanh kỹ thuật số khác nhau nhưng cấu trúc của bộ mã hóa thực hiện thuật toán xử lý tín hiệu như vậy có thể được biểu diễn dưới dạng sơ đồ tổng quát như trong Hình 2. 4.1. Trong khối phân đoạn thời gian và tần số, tín hiệu âm thanh gốc được chia thành các thành phần băng con và được phân đoạn theo thời gian. Trong trường hợp không có các xung biên độ sắc nét, cái gọi là mẫu dài được sử dụng, cung cấp độ phân giải tần số cao. Trong trường hợp biên độ tín hiệu thay đổi đột ngột, độ dài của mẫu được mã hóa giảm mạnh, mang lại độ phân giải thời gian cao hơn. Quyết định thay đổi độ dài của mẫu mã hóa được đưa ra bởi đơn vị phân tích psychoacoustic, tính toán giá trị entropy psychoacoustic của tín hiệu. Sau khi phân đoạn, các tín hiệu băng con được chuẩn hóa, lượng tử hóa và mã hóa. Trong các thuật toán nén hiệu quả nhất, không phải bản thân các mẫu mẫu ES được mã hóa mà là các hệ số MDCT tương ứng.

Thông thường, khi nén dữ liệu âm thanh kỹ thuật số, mã hóa entropy được sử dụng, mã hóa này đồng thời tính đến cả đặc tính thính giác của con người và đặc tính thống kê của tín hiệu âm thanh. Tuy nhiên, vai trò chính được thực hiện bởi các thủ tục loại bỏ sự dư thừa về âm thanh tâm lý. Có tính đến các mô hình nhận thức thính giác về tín hiệu âm thanh được thực hiện trong khối phân tích âm thanh tâm lý. Ở đây, bằng cách sử dụng một quy trình đặc biệt, mức độ méo lượng tử hóa (nhiễu) tối đa cho phép được tính cho từng tín hiệu băng con, tại đó chúng vẫn bị che bởi tín hiệu hữu ích của băng con này. Khối phân phối bit động, theo yêu cầu của mô hình âm thanh tâm lý, phân bổ cho mỗi băng con mã hóa số lượng bit tối thiểu có thể có mà tại đó mức độ biến dạng do lượng tử hóa gây ra không vượt quá ngưỡng nghe được của chúng được tính toán bởi mô hình âm thanh học. Các thuật toán nén hiện đại cũng sử dụng các thủ tục đặc biệt dưới dạng các vòng lặp, giúp kiểm soát lượng năng lượng của biến dạng lượng tử hóa trong các băng con khi không có đủ số bit để mã hóa.

Các thuật toán nén âm thanh MPEG dựa trên đặc tính nhận biết tín hiệu âm thanh của máy trợ thính con người được mô tả trong chương đầu tiên. Sử dụng hiệu ứng mặt nạ có thể làm giảm đáng kể lượng dữ liệu âm thanh trong khi vẫn duy trì chất lượng âm thanh ở mức chấp nhận được. Nguyên tắc ở đây khá đơn giản: “Nếu thành phần nào đó không nghe được thì sẽ không có dấu vết của nó”. Trong thực tế, điều này có nghĩa là trong vùng che phủ, số bit trên mỗi mẫu có thể giảm đến mức nhiễu lượng tử hóa vẫn ở dưới ngưỡng che lấp. Vì vậy, để bộ mã hóa âm thanh hoạt động, cần phải biết ngưỡng che chắn cho các tổ hợp tín hiệu ảnh hưởng khác nhau. Một nút quan trọng trong bộ mã hóa, mô hình thính giác tâm lý (PAM), chịu trách nhiệm tính toán các ngưỡng này. Nó phân tích tín hiệu đầu vào trong các khoảng thời gian liên tiếp và xác định các thành phần quang phổ và vùng che tương ứng cho từng khối mẫu. Tín hiệu đầu vào được phân tích trong miền tần số; để làm điều này, một khối mẫu được lấy theo thời gian sẽ được chuyển đổi thành một tập hợp các hệ số cho các thành phần phổ tần số của tín hiệu bằng cách sử dụng biến đổi Fourier rời rạc. Các nhà phát triển bộ mã hóa nén có quyền tự do đáng kể trong việc xây dựng mô hình; độ chính xác hoạt động của nó phụ thuộc vào tỷ lệ nén được yêu cầu;

Khối mã hóa và lọc băng thông. Phương pháp tốt nhất để mã hóa âm thanh có tính đến hiệu ứng che lấp là mã hóa băng thông. Bản chất của nó là như sau. Một nhóm mẫu tín hiệu âm thanh đầu vào, được gọi là khung, được đưa đến khối bộ lọc (FB), theo quy tắc, chứa 32 bộ lọc thông dải. Xem xét những gì đã được nói về các dải quan trọng và mặt nạ, sẽ tốt hơn nếu có các dải thông trong khối bộ lọc, nếu có thể, trùng với các dải quan trọng. Tuy nhiên, việc triển khai thực tế khối bộ lọc kỹ thuật số có băng tần không bằng nhau là khá phức tạp và chỉ hợp lý trong các thiết bị thuộc loại cao nhất. Thông thường, một khối bộ lọc được sử dụng dựa trên các bộ lọc gương cầu phương có băng thông bằng nhau, bao phủ toàn bộ băng tần. tần số âm thanh có ít sự chồng chéo lẫn nhau (Hình 4.2). Trong trường hợp này, băng thông của bộ lọc bằng π/32T và tần số trung tâm của các dải bằng (2k + 1) π/64T, trong đó T là Thời gian lấy mẫu;

k = 0,1,..., 31. Ở tốc độ lấy mẫu 48 kHz, băng thông phần bộ lọc là 750 Hz.

Đầu ra của mỗi bộ lọc là một phần tín hiệu đầu vào nằm trong dải thông của bộ lọc này. Tiếp theo, trong mỗi băng tần sử dụng SAM, thành phần phổ của tín hiệu được phân tích và ước tính phần nào của tín hiệu sẽ được truyền đi mà không bị suy giảm, phần nào nằm dưới ngưỡng che phủ và có thể được định lượng lại thành ít bit hơn. Vì trong tín hiệu âm thanh thực, năng lượng tối đa thường tập trung chính xác ở một số dải tần, nên có thể tín hiệu ở các dải tần khác không chứa âm thanh có thể phân biệt được và có thể không được truyền đi, chẳng hạn như sự hiện diện của một tín hiệu mạnh; trong một băng tần có nghĩa là một số băng tần nằm phía trên sẽ bị che đi và có thể được mã hóa bằng các bit ngẫu nhiên nhỏ hơn.

Để giảm phạm vi động tối đa, mẫu tối đa trong khung được xác định và hệ số tỷ lệ được tính toán, đưa mẫu này lên mức lượng tử hóa cao hơn. Hoạt động này tương tự như việc nén trong phát sóng analog. Tất cả các số khác được nhân với cùng một hệ số. Hệ số tỷ lệ được gửi đến bộ giải mã cùng với dữ liệu được mã hóa để điều chỉnh mức tăng sau này. Sau khi chia tỷ lệ, ngưỡng che lấp được ước tính và tổng số bit được phân phối lại giữa tất cả các băng tần.

Lượng tử hóa và phân phối bit. Tất cả các hoạt động trên không làm giảm đáng kể lượng dữ liệu; chúng giống như một giai đoạn chuẩn bị cho quá trình nén âm thanh thực tế. Giống như nén video kỹ thuật số, hầu hết quá trình nén xảy ra trong bộ lượng tử hóa. Dựa trên các quyết định do SAM đưa ra để định lượng lại các mẫu trong các dải tần số riêng lẻ, bộ lượng tử hóa sẽ thay đổi bước lượng tử hóa theo cách đưa nhiễu lượng tử hóa của một dải nhất định đến gần ngưỡng che phủ được tính toán. Trong trường hợp này, một mẫu có thể chỉ cần 4 hoặc 5 bit.

Việc ra quyết định về các thành phần tín hiệu được truyền trong mỗi băng tần diễn ra độc lập với các thành phần khác và cần có một "bộ điều phối" nhất định để phân bổ cho mỗi tín hiệu trong số 32 tín hiệu băng tần một phần trong tổng tài nguyên bit tương ứng với tầm quan trọng của tín hiệu này trong quần thể tổng thể. Vai trò của bộ điều phối như vậy được thực hiện bởi một thiết bị phân phối bit động.

Chiến lược phân bổ ba bit là có thể.

Trong hệ thống thích ứng trực tiếp, bộ mã hóa thực hiện tất cả các phép tính và gửi kết quả đến bộ giải mã. Ưu điểm của phương pháp này là thuật toán phân bổ bit có thể được cập nhật và thay đổi mà không ảnh hưởng đến hoạt động của bộ giải mã. Tuy nhiên, việc gửi dữ liệu bổ sung tới bộ giải mã sẽ tiêu tốn một phần đáng kể trong tổng nguồn cung cấp bit.

Hệ thống thích ứng ngược thực hiện các phép tính giống nhau ở cả bộ mã hóa và bộ giải mã, do đó không cần gửi thêm dữ liệu đến bộ giải mã. Tuy nhiên, độ phức tạp và chi phí của bộ giải mã cao hơn đáng kể so với phiên bản trước và bất kỳ thay đổi nào trong thuật toán đều yêu cầu cập nhật hoặc làm lại bộ giải mã.

Một hệ thống thỏa hiệp với khả năng thích ứng tiến và lùi sẽ phân tách các chức năng tính toán phân bổ bit giữa bộ mã hóa và bộ giải mã theo cách mà bộ mã hóa thực hiện các phép tính phức tạp nhất và chỉ gửi các tham số chính đến bộ giải mã, chi tiêu tương đối ít bit cho việc này. , bộ giải mã chỉ thực hiện các phép tính đơn giản. Trong hệ thống như vậy, bộ mã hóa không thể thay đổi đáng kể nhưng việc điều chỉnh một số thông số có thể chấp nhận được.

Sơ đồ tổng quát của bộ mã hóa và giải mã âm thanh thực hiện nén kỹ thuật số theo thuật toán được mô tả với khả năng thích ứng trực tiếp được thể hiện trên Hình 4.3a. Các tín hiệu ở đầu ra của dải tần được kết hợp thành một luồng kỹ thuật số duy nhất bằng bộ ghép kênh.

Trong bộ giải mã, các quá trình diễn ra theo thứ tự ngược lại. Tín hiệu được phân kênh, chia cho hệ số tỷ lệ, các giá trị ban đầu của các mẫu kỹ thuật số trong dải tần được khôi phục và đưa vào khối bộ lọc kết hợp, tạo ra luồng dữ liệu âm thanh đầu ra phù hợp với đầu vào từ điểm quan điểm về nhận thức tâm sinh lý đối với tín hiệu âm thanh của tai con người.

Nhóm tiêu chuẩn MPEG

MPEG là viết tắt của Nhóm chuyên gia mã hóa hình ảnh chuyển động, nghĩa đen là một nhóm các chuyên gia mã hóa hình ảnh chuyển động. MPEG có từ tháng 1 năm 1988. Từ cuộc họp đầu tiên vào tháng 5 năm 1988, nhóm bắt đầu phát triển và trở thành một nhóm rất lớn gồm các chuyên gia. Thông thường, có khoảng 350 chuyên gia từ hơn 200 công ty tham gia cuộc họp MPEG. Phần lớn những người tham gia MPEG là các chuyên gia làm việc trong các tổ chức khoa học và học thuật khác nhau.

Chuẩn MPEG-1

Tiêu chuẩn MPEG-1 (ISO/IEC 11172-3) bao gồm ba thuật toán có mức độ phức tạp khác nhau: Lớp I, Lớp II và Lớp III. Cấu trúc chung của quá trình mã hóa là giống nhau ở mọi cấp độ. Tuy nhiên, bất chấp sự giống nhau về các cấp độ trong cách tiếp cận chung về mã hóa, các cấp độ khác nhau trong cách sử dụng và cơ chế bên trong của chúng. Đối với mỗi cấp độ, một luồng kỹ thuật số (tổng chiều rộng luồng) được xác định và thuật toán giải mã MPEG-1 riêng của nó được thiết kế để mã hóa các tín hiệu được số hóa ở tốc độ lấy mẫu là 32, 44,1 và 48 KHz. Như đã nêu ở trên, MPEG-1 có ba lớp (Lớp I, II và III). Các mức này có sự khác biệt về tỷ lệ nén được cung cấp và chất lượng âm thanh của luồng thu được. MPEG-1 bình thường hóa tốc độ luồng kỹ thuật số sau cho cả ba cấp độ: 32, 48, 56, 64, 96, 112, 192, 256, 384 và 448 kbit/s, số lượng mức lượng tử hóa tín hiệu đầu vào là từ 16 đến 24. Đầu vào tiêu chuẩn ^Tín hiệu cho bộ mã hóa MPEG-1 là tín hiệu số AES/EBU (tín hiệu âm thanh kỹ thuật số hai kênh với các bit lượng tử hóa trên mỗi báo cáo). Các chế độ hoạt động sau của bộ mã hóa âm thanh được cung cấp:

■ kênh đơn (mono);

■ kênh đôi (âm thanh nổi hoặc hai kênh đơn âm);

■ âm thanh nổi chung (tín hiệu tách một phần kênh phải và trái). Thuộc tính quan trọng nhất của MPEG-1 là khả năng tương thích ngược hoàn toàn ở cả ba cấp độ. Điều này có nghĩa là mỗi bộ giải mã có thể giải mã tín hiệu không chỉ từ tín hiệu của chính nó mà còn từ các lớp thấp hơn.

Thuật toán Cấp I dựa trên định dạng DCC (Digital Compact Cassette) do Philips phát triển để ghi trên băng cassette nhỏ gọn. Mã hóa cấp một được sử dụng khi mức độ nén không quan trọng lắm và các yếu tố quyết định là độ phức tạp và chi phí của bộ mã hóa và giải mã. Bộ mã hóa Cấp I cung cấp âm thanh chất lượng cao ở tốc độ bit 384 kbps cho mỗi chương trình âm thanh nổi.

Cấp II yêu cầu một bộ mã hóa phức tạp hơn và một bộ giải mã phức tạp hơn một chút, nhưng cung cấp khả năng nén tốt hơn - “độ trong suốt” của kênh đã đạt được ở tốc độ 256 kbit/s. Nó cho phép tối đa 8 mã hóa/giải mã mà không làm giảm đáng kể chất lượng âm thanh. Thuật toán Cấp P dựa trên định dạng MUSICAM, phổ biến ở Châu Âu.

Cấp độ III phức tạp nhất bao gồm tất cả các công cụ nén cơ bản: mã hóa băng thông, DCT bổ sung, mã hóa entropy, SAM nâng cao. Do sự phức tạp của bộ mã hóa và bộ giải mã, nó cung cấp mức độ nén cao - người ta tin rằng kênh “trong suốt” được hình thành ở tốc độ 128 kbit/s, mặc dù có thể truyền chất lượng cao ở tốc độ thấp hơn. Tiêu chuẩn khuyến nghị hai mô hình âm thanh tâm lý: Mô hình 1 đơn giản hơn và Mô hình 2 phức tạp hơn nhưng cũng có chất lượng cao hơn. Chúng khác nhau về thuật toán xử lý mẫu. Cả hai mô hình đều có thể được sử dụng ở cả ba cấp độ, nhưng Mô hình 2 có một sửa đổi đặc biệt dành cho Cấp độ III.

MPEG-1 hóa ra là tiêu chuẩn quốc tế đầu tiên về nén âm thanh kỹ thuật số và điều này dẫn đến việc nó được sử dụng rộng rãi trong nhiều lĩnh vực: phát thanh truyền hình, ghi âm, truyền thông và các ứng dụng đa phương tiện. Cấp II được sử dụng rộng rãi nhất và đã trở thành một phần của tiêu chuẩn phát sóng truyền hình kỹ thuật số mặt đất, cáp và vệ tinh của Châu Âu, tiêu chuẩn phát sóng âm thanh, ghi DVD, Khuyến nghị ITU BS.1115 và J.52. Cấp độ III (còn gọi là MP-3) được sử dụng rộng rãi trong các mạng kỹ thuật số dịch vụ tích hợp (ISDN) và trên Internet. Phần lớn các tệp nhạc trên mạng được ghi theo tiêu chuẩn này.

Lập trình viên cấp một. Chúng ta hãy xem xét kỹ hơn hoạt động của bộ mã hóa cấp độ đầu tiên (Hình 4.4). Bộ lọc (FB) xử lý đồng thời 384 dữ liệu âm thanh và phân phối chúng với mẫu con thích hợp thành 32 băng tần, 12 mẫu trong mỗi băng tần với tần số lấy mẫu là 48/32 = 1,5 kHz. Thời lượng khung ở tốc độ lấy mẫu 48 kHz là 8 ms. Mô hình âm thanh tâm lý đơn giản hóa chỉ đánh giá việc che giấu tần số bằng sự hiện diện và mức độ "tức thời" của các thành phần tín hiệu trong mỗi băng tần. Dựa trên kết quả đánh giá, lượng tử hóa thô nhất có thể được ấn định cho mỗi băng tần, nhưng sao cho nhiễu lượng tử hóa không vượt quá ngưỡng che phủ. Hệ số tỷ lệ rộng 6 bit và bao phủ dải động 120 dB với bước nhảy 2 dB. Luồng kỹ thuật số cũng mang mã phân bổ 32 bit. Chúng có độ rộng 4 bit và biểu thị độ dài của từ mã mẫu trong một dải nhất định sau khi lượng tử hóa lại.

Trong bộ giải mã, các mẫu của mỗi dải tần được phân tách bằng bộ tách kênh và đưa đến bộ nhân, giúp khôi phục dải động ban đầu của chúng. Trước đó, độ sâu bit ban đầu của các mẫu được khôi phục - các bit ít quan trọng nhất bị loại bỏ trong bộ lượng tử hóa được thay thế bằng số 0. Mã phân bổ bit giúp bộ tách kênh phân tách các từ mã dòng nối tiếp thuộc các mẫu khác nhau và được truyền bằng mã có độ dài từ thay đổi. Sau đó, các mẫu của tất cả 32 kênh được đưa đến BF tổng hợp, thực hiện việc lấy mẫu lại và sắp xếp các mẫu đúng lúc, khôi phục dạng sóng ban đầu.

Lập trình viên cấp hai. Bộ mã hóa cấp hai loại bỏ những nhược điểm chính của mô hình mã hóa băng thông cơ bản liên quan đến sự khác biệt giữa các dải thính giác quan trọng và các dải BF thực, đó là lý do tại sao hiệu ứng che lấp trên thực tế không được sử dụng ở các phần tần số thấp của dải. Kích thước khung hình đã tăng gấp ba lần, lên tới 24 ms ở tần số lấy mẫu 48 kHz và 1152 mẫu được xử lý đồng thời (3 khung con, mỗi khung 384 mẫu). Tín hiệu đầu vào cho SAM không phải là tín hiệu băng thông từ đầu ra của BF, mà là hệ số phổ thu được nhờ phép biến đổi Fourier 512 điểm của tín hiệu đầu vào bộ mã hóa. Do thời lượng của khung hình tăng lên và độ chính xác của phân tích quang phổ nên hiệu quả của SAM tăng lên.

Ở cấp độ thứ hai, thuật toán phân phối bit phức tạp hơn được sử dụng. Các dải có số từ 0 đến 10 được xử lý bằng mã phân phối bốn bit (lựa chọn bất kỳ thang đo lượng tử hóa nào trong số 15 thang đo lượng tử), đối với các dải có số từ 11 đến 22, lựa chọn giảm xuống còn 3 chữ số (lựa chọn một trong 7 thang đo), các dải có số từ 23 đến 26 cung cấp lựa chọn một trong 3 thang đo (mã hai bit) và các dải có số từ 27 đến 31 (trên 20 kHz) không được truyền đi. Nếu thang đo lượng tử hóa được chọn cho tất cả các khối khung giống nhau thì số thang đo chỉ được truyền một lần.

Một sự khác biệt đáng kể khác trong thuật toán cấp hai là không phải tất cả các hệ số tỷ lệ đều được truyền qua kênh truyền thông. Nếu chênh lệch về số nhân của ba khung con liên tiếp vượt quá 2 dB trong không quá 10% thời gian thì chỉ một bộ số nhân được truyền đi và điều này giúp tiết kiệm mức tiêu thụ bit. Nếu xảy ra những thay đổi nhanh chóng về mức âm thanh trong một băng tần nhất định thì hai hoặc cả ba bộ hệ số tỷ lệ sẽ được truyền đi. Theo đó, bộ giải mã phải ghi nhớ số lượng của các hệ số lượng tử hóa và tỷ lệ đã chọn và áp dụng chúng, nếu cần, cho khung con tiếp theo. Lập trình viên cấp 3. Bộ mã hóa Cấp III sử dụng thuật toán mã hóa nâng cao có thêm DCT.

Nhược điểm chính của bộ mã hóa cấp hai - xử lý không hiệu quả các chuyển tiếp thay đổi nhanh chóng và tăng mức âm thanh - được loại bỏ nhờ sự ra đời của hai loại khối DCT - “dài” với 18 mẫu và “ngắn” với 6 mẫu. Việc lựa chọn chế độ được thực hiện một cách thích ứng bằng cách chuyển đổi các chức năng cửa sổ ở mỗi dải tần trong số 32 dải tần. Các khối dài cung cấp độ phân giải tần số tốt hơn của tín hiệu có đặc tính tiêu chuẩn, trong khi các khối ngắn cải thiện việc xử lý các chuyển tiếp nhanh. Một khung có thể chứa cả khối dài và khối ngắn, nhưng tổng số hệ số DCT không thay đổi, vì thay vì một khối dài, ba khối ngắn được truyền đi. Những cải tiến sau đây cũng được áp dụng để cải thiện khả năng mã hóa.

■ Lượng tử hóa không đồng nhất (bộ lượng tử hóa tăng các mẫu lên công suất 3/4 trước khi lượng tử hóa để cải thiện tỷ lệ tín hiệu trên tạp âm; theo đó, bộ giải mã tăng chúng lên công suất 4/3 để tuyến tính hóa nghịch đảo).

■ Không giống như các bộ mã hóa cấp một và cấp hai, hệ số chia tỷ lệ ở cấp thứ ba không được gán cho từng dải tần trong số 32 dải tần của BF mà cho các dải tỷ lệ - các phần của phổ không liên kết với các dải này và gần tương ứng với dải tần tới hạn. ban nhạc.

■ Mã hóa Entropy của các hệ số lượng tử hóa bằng mã Huffman.

■ Sự hiện diện của “kho bit” - lượng dự trữ mà bộ mã hóa tạo ra trong các khoảng thời gian tín hiệu đầu vào đứng yên.

Bộ mã hóa cấp thứ ba xử lý đầy đủ hơn tín hiệu âm thanh nổi ở định dạng âm thanh nổi chung (MS Stereo). Trong khi các bộ mã hóa cấp thấp hơn chỉ hoạt động ở chế độ mã hóa cường độ, trong đó các kênh trái và phải ở các dải trên 2 kHz được mã hóa thành một tín hiệu (nhưng có hệ số tỷ lệ độc lập), thì bộ mã hóa cấp ba cũng có thể hoạt động ở chế độ tổng sai phân, cung cấp mức độ nén cao hơn của kênh khác biệt. Tín hiệu âm thanh nổi được phân tách thành tín hiệu trung bình giữa các kênh và tín hiệu chênh lệch. Trong trường hợp này, cái thứ hai được mã hóa ở tốc độ thấp hơn. Điều này cho phép bạn tăng nhẹ chất lượng mã hóa trong tình huống bình thường khi các kênh cùng pha. Nhưng điều này cũng dẫn đến sự suy giảm nghiêm trọng nếu tín hiệu được mã hóa không khớp pha, đặc biệt, sự lệch pha hầu như luôn xuất hiện trong các bản ghi được số hóa từ băng cassette, nhưng cũng được tìm thấy trên đĩa CD, đặc biệt nếu bản thân đĩa CD được ghi. cùng một lúc từ một băng âm thanh.

Ở cấp độ thứ ba, có thể mã hóa tín hiệu âm thanh nổi bằng ba phương pháp khác nhau.

■ Joint Stereo (MS/IS Stereo) giới thiệu một kỹ thuật đơn giản hóa âm thanh nổi khác giúp cải thiện chất lượng mã hóa ở tốc độ bit đặc biệt thấp. Nó bao gồm thực tế là đối với một số dải tần, thậm chí không còn lại tín hiệu chênh lệch mà chỉ còn lại tỷ lệ công suất tín hiệu trong các kênh khác nhau. Rõ ràng là tốc độ thậm chí còn thấp hơn được sử dụng để mã hóa thông tin này. Không giống như tất cả các phương pháp khác, phương pháp này dẫn đến mất thông tin về pha, nhưng lợi ích của việc tiết kiệm không gian để dành cho tín hiệu trung bình sẽ lớn hơn ở tốc độ rất thấp. Chế độ này được sử dụng theo mặc định cho tần số cao ở tốc độ từ 96 kbit/s trở xuống (chế độ này thực tế không được các bộ mã hóa chất lượng cao khác sử dụng). Tuy nhiên, như đã đề cập, khi sử dụng chế độ này, thông tin về pha sẽ bị mất. Ngoài ra, mọi tín hiệu lệch pha cũng bị mất.

■ Kênh đôi - mỗi kênh nhận chính xác một nửa luồng và được mã hóa riêng thành tín hiệu đơn âm. Phương pháp này được khuyến nghị chủ yếu trong trường hợp các kênh khác nhau chứa các tín hiệu cơ bản khác nhau, ví dụ: văn bản ở các ngôn ngữ khác nhau. Chế độ này được cài đặt trong một số bộ mã hóa theo yêu cầu.

■ Âm thanh nổi - Mỗi kênh được mã hóa riêng biệt nhưng bộ mã hóa có thể quyết định dành nhiều không gian hơn cho kênh này so với kênh khác. Điều này có thể hữu ích trong trường hợp, sau khi loại bỏ phần tín hiệu nằm dưới ngưỡng nghe được hoặc bị che hoàn toàn, mã không lấp đầy hoàn toàn âm lượng được phân bổ cho một kênh nhất định và bộ mã hóa có cơ hội sử dụng không gian này để mã hóa một kênh khác. Ví dụ: điều này tránh mã hóa "im lặng" trong một kênh khi có tín hiệu ở kênh khác. Chế độ này được sử dụng ở tốc độ trên 192 kbit/s. Nó cũng có thể áp dụng ở tốc độ thấp hơn theo thứ tự kbit/s.

Các bộ mã hóa Cấp III chính được sử dụng là bộ mã hóa XingTech, bộ mã hóa FhG IIS và bộ mã hóa dựa trên mã nguồn ISO.

Bộ mã hóa XingTech không có chất lượng mã hóa cao nhưng khá phù hợp để mã hóa nhạc điện tử. Tốc độ của chúng khiến chúng trở thành bộ mã hóa lý tưởng cho âm nhạc không yêu cầu mã hóa chất lượng cao.

Bộ mã hóa FhG IIS được biết đến với chất lượng mã hóa cao nhất ở tốc độ thấp và trung bình, nhờ mô hình âm thanh tâm lý phù hợp nhất với tốc độ đó. Trong số các bộ mã hóa bảng điều khiển thuộc nhóm này, thích hợp nhất là 13eps 2,61. Hiện tại, bộ mã hóa MP3eps 3.1 cũng được sử dụng, nhưng chưa có ai thử nghiệm nghiêm túc bộ mã hóa sau. Các bộ mã hóa khác, chẳng hạn như Audio Active hoặc MP3 Maker, có những thiếu sót đáng kể, chủ yếu là do các tùy chọn tùy chỉnh hạn chế và giao diện kém phát triển.

Các bộ mã hóa còn lại truy tìm nguồn gốc của chúng theo mã nguồn ISO. Có hai hướng phát triển chính - tối ưu hóa mã cho tốc độ và tối ưu hóa thuật toán cho chất lượng. Hướng đầu tiên được thể hiện tốt nhất bằng bộ mã hóa BladeEnc, sử dụng mô hình ISO gốc nhưng đã thực hiện nhiều tối ưu hóa mã và mô hình thứ hai được thể hiện bằng mpegEnc.

Bộ mã hóa MP3Pro được Coding Technologies cùng với Tomson Multimedia và Viện Fraunhofer công bố vào tháng 7 năm 2001. Định dạng MP3Pro là sự phát triển của Cấp III (MP3). MP3Pro tương thích ngược (hoàn toàn) và chuyển tiếp (một phần) với MP3, nghĩa là các tệp được mã hóa bằng MP3Pro có thể được phát trên các trình phát thông thường. Tuy nhiên, chất lượng âm thanh kém hơn đáng kể so với khi chơi trên một trình phát đặc biệt. Điều này là do các tệp MP3Pro có hai luồng âm thanh, trong khi các trình phát thông thường chỉ nhận ra một luồng trong đó, tức là MPEG-1 Lớp 3 thông thường.

MP3Pro sử dụng công nghệ mới - SBR (Spectral Band Replication). Nó được thiết kế để truyền dải tần số trên. Thực tế là các công nghệ sử dụng mô hình âm thanh tâm lý trước đây đều có một nhược điểm chung: chúng đều hoạt động hiệu quả, bắt đầu ở tốc độ 128 kbit/s. Ở tốc độ thấp hơn, nhiều vấn đề khác nhau bắt đầu: dải tần phải bị cắt để truyền âm thanh hoặc mã hóa dẫn đến sự xuất hiện của nhiều hiện vật khác nhau. Công nghệ SBR mới bổ sung cho việc sử dụng các mô hình âm thanh tâm lý. Dải tần số hẹp hơn một chút so với bình thường sẽ được truyền đi (mã hóa) (tức là với mức “cao” bị cắt) và các tần số cao hơn được chính bộ giải mã tái tạo (khôi phục) dựa trên thông tin về các thành phần tần số thấp hơn. Vì vậy, công nghệ SBR thực tế không được sử dụng nhiều ở giai đoạn nén mà ở giai đoạn giải mã. Luồng dữ liệu thứ hai, được đề cập ở trên, chính xác là thông tin cần thiết tối thiểu được sử dụng trong quá trình phát lại để khôi phục tần số cao. Người ta vẫn chưa biết chắc chắn thông tin chính xác mà luồng này mang theo là gì, tuy nhiên, các nghiên cứu đã chỉ ra rằng thông tin này là về công suất trung bình ở một số dải tần ở dải trên.