Ứng dụng nào sử dụng hướng dẫn avx avx2. Intel sẽ bổ sung thêm hướng dẫn deep learning cho CPU

Hướng dẫn lập trình viên làm việc với tập lệnh mở rộng AVX-512. Dự kiến, các khối xử lý các giá trị số nguyên và dấu phẩy động có hỗ trợ lệnh 512-bit sẽ xuất hiện như một phần của bộ xử lý Intel Skylake thế hệ 14nm. Sau đó, người ta biết rằng ở thế hệ Skylake, hỗ trợ AVX-512 sẽ chỉ có trong bộ xử lý máy chủ Intel Xeon và bộ tăng tốc tính toán Xeon Phi (trong thế hệ máy gia tốc Knights Landing 14-nm). Máy gia tốc Knights Landing hứa hẹn hỗ trợ một bộ tiện ích mở rộng AVX-512 lớn hơn so với trường hợp của Bộ xử lý Xeon mục đích chung. Điều này được giải thích là do tập lệnh mở rộng của AVX-512 nhằm mục đích phát triển tính song song trong tính toán, trong đó ở giai đoạn này dễ thực hiện hơn (và có kết quả tốt hơn) trong các máy gia tốc tính toán.

Nhân tiện, bộ tăng tốc Intel Knights Landing dựa trên kiến ​​trúc Atom Silvermont được thiết kế lại đáng kể. Trong cấu hình 72 lõi, bộ xử lý Knights Landing có thể xử lý tới 288 luồng đồng thời và cung cấp tới 3 teraflop với độ chính xác kép và lên đến 6 teraflop với độ chính xác đơn. Đối với những giải pháp như vậy, hỗ trợ AVX-512 chỉ là những gì bác sĩ yêu cầu. Tính song song là bản chất của họ. Vì Knights Landing sẽ bắt đầu vận chuyển trong quý này, phần mềm với việc triển khai các hướng dẫn SIMD AVX-512 là một câu hỏi Hôm nay. Vì bộ xử lý Skylake-EP, ngoại trừ một số ngoại lệ, sẽ sử dụng cùng bộ AVX-512 như Knights Landing, nên vào thời điểm các mẫu Skylake-EP được tung ra thị trường, sẽ có một sự thiết lập nghiêm túc cho các bản mở rộng mới. hỗ trợ phần mềm. Chúng tôi xin nhắc bạn rằng việc phát hành Skylake-EP dự kiến ​​vào nửa cuối năm 2017.

Hỗ trợ hướng dẫn AVX chuyên sâu trên máy tính để bàn và máy chủ Nền tảng Intel(Intel, ComputerBase.de)

Cũng trong nửa cuối năm 2017, bộ vi xử lý 10nm đầu tiên của Intel sẽ xuất hiện mà ngày nay chúng ta quen thuộc với tên mã Cannon Lake. Trong một tài liệu gần đây của Intel dành cho các lập trình viên, các tác giả của ComputerBase.de đã phát hiện ra rằng bộ xử lý máy khách Cannon Lake cũng sẽ hỗ trợ AVX-512. Ở mức tối thiểu, chúng ta đang nói về các tiện ích mở rộng AVX512IFMA, AVX512VBMI, SHA và UMPI. Tất cả cùng nhau chỉ ra rằng vào cuối năm 2017, chúng ta có thể mong đợi sự hỗ trợ rộng rãi cho AVX-512 từ các lập trình viên. Đối với các ứng dụng khách, sử dụng AVX-512 có nghĩa là xử lý dữ liệu đa phương tiện lớn với tải CPU ít hơn. Chính xác hơn, làm việc bằng tài nguyên phần cứng tương thích với AVX-512 sẽ hiệu quả nhất có thể. Đối với những nhiệm vụ này, mức tiêu thụ sẽ giảm và năng suất sẽ tăng lên.

Lợi ích từ việc triển khai AVX-512 so với AVX-256/128 và các hướng dẫn "đa phương tiện" trước đó

Hãy thêm kiến ​​trúc Bộ xử lý AMD Zen, sẽ bắt đầu hoạt động trong các sản phẩm của công ty vào cuối năm 2016 hoặc đầu năm 2017, sẽ hoạt động trên hai lệnh AVX 256-bit trong mỗi chu kỳ đồng hồ. Để thực hiện điều này, mỗi lõi Zen sẽ nhận được hai FMAC 256-bit (khả năng hợp nhất nhân - cộng). Trong thực tế, kiến ​​trúc như vậy sẽ cho phép thực hiện một lệnh 512 bit trong một chu kỳ xung nhịp. Chúng tôi chưa thể nói cách thức này được triển khai trong bộ xử lý Intel Cannon Lake.

Cải tiến

  • Sơ đồ mã hóa lệnh VEX mới
  • Kích thước của thanh ghi vectơ SIMD tăng từ 128 (XMM) lên 256 bit (thanh ghi YMM0 - YMM15). Các lệnh SSE 128 bit hiện tại sẽ sử dụng nửa thấp của thanh ghi YMM mới mà không thay đổi nửa cao. Hướng dẫn AVX 256-bit mới đã được thêm vào để hoạt động với các thanh ghi YMM. Trong tương lai, có thể mở rộng thanh ghi vectơ SIMD lên 512 hoặc 1024 bit.

Sơ đồ mã hóa mới

Sơ đồ mã hóa lệnh VEX mới sử dụng tiền tố VEX. Hiện tại có hai tiền tố VEX, dài 2 và 3 byte. Đối với tiền tố VEX 2 byte, byte đầu tiên là 0xC5, đối với tiền tố VEX 3 byte, 0xC4. Ở chế độ 64 bit, byte đầu tiên của tiền tố VEX là duy nhất. Ở chế độ 32 bit có xung đột với các lệnh LES và LDS, được giải quyết bằng bit quan trọng nhất của byte thứ hai; nó chỉ có ý nghĩa ở chế độ 64 bit, thông qua các dạng lệnh LES và LDS không được hỗ trợ. Độ dài của các lệnh AVX hiện có, bao gồm tiền tố VEX, không vượt quá 11 byte. Hướng dẫn dài hơn được mong đợi trong các phiên bản trong tương lai.

Hướng dẫn mới

Hướng dẫn Sự miêu tả
VBROADCASTSS, VBROADCASTSD, VBROADCASTF128 Sao chép toán hạng 32, 64 hoặc 128 bit từ bộ nhớ sang tất cả các phần tử của thanh ghi vectơ XMM hoặc YMM.
VINSERTF128 Thay thế nửa thấp hoặc nửa cao của thanh ghi YMM 256 bit bằng giá trị của toán hạng 128 bit. Phần khác của thanh ghi đích không thay đổi.
VEXTRACTF128 Truy xuất nửa thấp hoặc nửa cao của thanh ghi YMM 256 bit và sao chép nó vào toán hạng đích 128 bit.
VMASKMOVPS, VMASKMOVPD Đọc có điều kiện bất kỳ số phần tử nào từ toán hạng vectơ từ bộ nhớ vào thanh ghi đích, không đọc các phần tử còn lại và xóa các phần tử tương ứng của thanh ghi đích về 0. Nó cũng có thể ghi có điều kiện bất kỳ số phần tử nào từ thanh ghi vectơ vào toán hạng vectơ trong bộ nhớ, giữ nguyên các phần tử còn lại của toán hạng bộ nhớ
VPERMILPS, VPERMILPD Sắp xếp lại các phần tử vectơ 32 hoặc 64 bit theo toán hạng bộ chọn (từ bộ nhớ hoặc từ thanh ghi).
VPERM2F128 Sắp xếp lại 4 phần tử 128 bit của hai thanh ghi 256 bit thành toán hạng đích 256 bit bằng cách sử dụng hằng số tức thời (imm) làm bộ chọn.
VZEROALL Xóa tất cả các thanh ghi YMM và đánh dấu chúng là không sử dụng. Được sử dụng khi chuyển đổi giữa chế độ 128 bit và chế độ 256 bit.
VZEROUPPER Đặt lại nửa cao của tất cả các thanh ghi YMM về 0. Được sử dụng khi chuyển đổi giữa chế độ 128 bit và chế độ 256 bit.

Đặc tả AVX cũng mô tả một nhóm lệnh gọi là PCLMUL (Nhân song song ít mang, CLMUL song song)

  • PCLMULLQLQDQ xmmreg,xmmrm
  • PCLMULHQLQDQ xmmreg,xmmrm
  • PCLMULLQHQDQ xmmreg,xmmrm
  • PCLMULHQHQDQ xmmreg,xmmrm
  • PCLMULQDQ xmmreg,xmmrm,imm

Ứng dụng

Thích hợp để tính toán dấu phẩy động chuyên sâu trong các chương trình đa phương tiện và các nhiệm vụ khoa học. Khi có thể đạt được mức độ song song cao hơn, hiệu suất sẽ tăng lên với số thực.

Hỗ trợ hệ điều hành

Việc sử dụng thanh ghi YMM cần có sự hỗ trợ từ hệ điều hành. Hệ thống theo dõi hỗ trợ thanh ghi YMM:

Bộ vi xử lý với AVX

Khả năng tương thích giữa việc triển khai Intel và AMD được thảo luận trong tập lệnh XOP.

Tiện ích mở rộng trong tương lai

Sơ đồ mã hóa lệnh VEX dễ dàng cho phép mở rộng hơn nữa tập lệnh AVX. Trong phiên bản tiếp theo, AVX2, dự kiến ​​​​sẽ bổ sung thêm hướng dẫn làm việc với số nguyên, FMA3 (sẽ tăng hiệu suất khi xử lý số dấu phẩy động lên 2 lần), tải vectơ phân phối trong bộ nhớ (thu thập), v.v.

Các bổ sung được lên kế hoạch khác nhau cho tập lệnh x86:

  • CLMUL
  • AMD FMA4
  • AMD XOP
  • AMD CVT16

Ghi chú


Bộ mở rộng hướng dẫn cơ bản bộ xử lý gia đình x86
MMX | MMXEXT | SSE | SSE2 | SSE3 | SSSE3 | SSE4 | ATA | 3DNgay bây giờ! | 3DNowExt | SSE5 | AVX| AES

Quỹ Wikimedia. 2010.

  • Tổng cục An ninh Nhà nước (Hungary)

Xem "AVX" là gì trong các từ điển khác:

    trung bình- (((hình ảnh))) Sigles d une seule lettre Sigles de deux lettertres > Sigles de trois lettres AAA à DZZ EAA à HZZ IAA à LZZ MAA à PZZ QAA à TZZ UAA à XXZ … Wikipédia en Français

    AVX- Sigles d'une seule lettre Sigles de deux lettres > Sigles de trois lettres Sigles de quatre lettres Sigles de cinq lettres Sigles de six lettres Sigles de sept… … Wikipédia en Français

Mô tả hệ thống thử nghiệm và phương pháp thử nghiệm

Mục đích chính của thử nghiệm là xác định mức tăng hiệu suất có thể đạt được bằng cách ép xung các bộ xử lý không ép xung. Vì vậy, các đại diện cấp dưới được chúng tôi đưa đi kiểm tra Dòng cốt lõi Bộ xử lý i5 và i3 Core i5-6400 và i3-6100 đã được thử nghiệm hai lần: ở chế độ hoạt động danh nghĩa và ở tần số 4,7 GHz, theo kinh nghiệm của chúng tôi, có thể được coi là chế độ ép xung khá điển hình cho CPU thế hệ Skylake. Ngoài ra, bộ xử lý ép xung dòng K chính thức, Core i5-6600K, cũng đã tham gia thử nghiệm. Sự hiện diện của nó trong các thử nghiệm là cần thiết để đánh giá xem hiệu suất ép xung có khác nhau giữa các bộ xử lý dự định và không dành cho hoạt động ở chế độ khẩn cấp hay không và nếu có thì ở mức độ nào. Chúng tôi đã thử nghiệm Core i5-6600K hai lần: cả ở chế độ danh nghĩa và khi được ép xung lên 4,6 GHz (đây là tần số tối đa có thể đạt được đối với mẫu của chúng tôi với điện áp nguồn tăng lên 1,425 V).

Danh sách đầy đủ các thành phần liên quan đến hệ thống thử nghiệm như sau:

  • Bộ xử lý:
    • Intel Core i5-6600K (Skylake, 4 nhân, 3,5-3,9 GHz, 6 MB L3);
    • Intel Core i5-6400 (Skylake, 4 nhân, 2,7-3,3 GHz, 6 MB L3);
    • Intel Core i3-6100 (Skylake, 2 nhân + HT, 3,7 GHz, 3 MB L3).
    • Bộ làm mát CPU: Noctua NH-U14S.
    • Bo mạch chủ: ASUS Maximus VIII Ranger (LGA1151, Intel Z170).
    • Bộ nhớ: 2 × 8 GB DDR4-3200 SDRAM, 16-18-18-36 (Corsair Vengeance LPX CMK16GX4M2B3200C16R).
    • Card màn hình: NVIDIA GeForce GTX 980 Ti (6 GB/384-bit GDDR5, 1000-1076/7010 MHz).
    • Hệ thống con đĩa: Kingston HyperX Savage 480 GB (SHSS37A/480G).
    • Nguồn điện: Corsair RM850i ​​​​(80 Plus Gold, 850 W).

Thử nghiệm được thực hiện ở hệ điều hành Microsoft Windows 10 Enterprise Build 10586 sử dụng bộ driver sau:

  • Trình điều khiển Chipset Intel 10.1.1.8;
  • Trình điều khiển Giao diện Công cụ Quản lý Intel 11.0.0.1157;
  • Trình điều khiển NVIDIA GeForce 361.43.

Mô tả các công cụ được sử dụng để đo hiệu năng tính toán:

Điểm chuẩn:

  • BAPCo SYSmark 2014 ver 1.5 - thử nghiệm trong các tình huống Năng suất Văn phòng ( công việc văn phòng: chuẩn bị văn bản, xử lý bảng tính, làm việc với bằng email và truy cập các trang Internet), Sáng tạo phương tiện (làm việc về nội dung đa phương tiện - tạo quảng cáo bằng cách sử dụng các đoạn phim được quay trước) hình ảnh kỹ thuật số và video) và Phân tích dữ liệu/tài chính ( Phân tích thống kê và dự báo đầu tư dựa trên một mô hình tài chính nhất định).
  • Futuremark 3DMark Professional Edition 1.5.915 - thử nghiệm trong các cảnh Sky Diver, Cloud Gate và Fire Strike.

Các ứng dụng:

  • Adobe After Effects CC 2015 - kiểm tra tốc độ kết xuất bằng phương pháp dò tia. Thời gian mà hệ thống dành cho việc hiển thị video được chuẩn bị trước ở 1920 × 1080 @ 30 khung hình/giây được đo.
  • Adobe Photoshop CC 2015 - kiểm tra hiệu năng khi xử lý ảnh đồ họa. Thời gian thực hiện trung bình được đo kịch bản thử nghiệm, Bài kiểm tra tốc độ Photoshop của Retouch Artists được làm lại một cách sáng tạo bao gồm quá trình xử lý điển hình của bốn hình ảnh 24 megapixel được chụp máy ảnh kỹ thuật số.
  • Adobe Photoshop Lightroom 6.1 - kiểm tra hiệu suất khi xử lý hàng loạt một loạt ảnh ở định dạng RAW. Kịch bản thử nghiệm bao gồm xử lý hậu kỳ và xuất sang JPEG ở độ phân giải 1920 × 1080 và chất lượng tối đa của hai trăm ảnh RAW 12 megapixel được chụp bằng máy ảnh kỹ thuật số Nikon D300.
  • Adobe Premiere Pro CC 2015 - thử nghiệm hiệu suất để chỉnh sửa video phi tuyến tính. Thời gian hiển thị dự án Blu-Ray chứa video HDV 1080p25 với nhiều hiệu ứng khác nhau được áp dụng sẽ được đo.
  • Autodesk 3ds max 2016 - kiểm tra tốc độ kết xuất cuối cùng. Đo thời gian cần thiết để hiển thị ở độ phân giải 1920 x 1080 bằng cách sử dụng trình kết xuất tia tinh thần của cảnh Hummer tiêu chuẩn.
  • Blender 2.76 - kiểm tra tốc độ kết xuất cuối cùng của một trong những gói miễn phí phổ biến để tạo đồ họa ba chiều. Thời gian xây dựng mô hình cuối cùng từ Blender Cycles Benchmark rev4 được đo lường.
  • Microsoft Edge 20.10240.16384.0 - kiểm tra hiệu năng của các ứng dụng Internet được xây dựng bằng cách sử dụng công nghệ hiện đại. Một bài kiểm tra chuyên biệt, WebXPRT 2015, được sử dụng để triển khai các thuật toán thực sự được sử dụng trong các ứng dụng Internet bằng HTML5 và JavaScript.
  • TrueCrypt 7.2 - kiểm tra hiệu suất mật mã. Điểm chuẩn được tích hợp trong chương trình được sử dụng sử dụng mã hóa ba lớp AES-Twofish-Serpent.
  • WinRAR 5.30 - kiểm tra tốc độ lưu trữ. Thời gian mà người lưu trữ dành để nén một thư mục với nhiều tập tin khác nhau được đo tổng khối lượng 1,7GB. Mức độ nén tối đa được sử dụng.
  • x264 r2638 - kiểm tra tốc độ chuyển mã video sang định dạng H.264/AVC. Để đánh giá hiệu suất, chúng tôi sử dụng tệp video AVC 1080p@50FPS gốc với tốc độ bit khoảng 30 Mbps.
  • x265 1.8+188 8bpp - kiểm tra tốc độ chuyển mã video sang định dạng H.265/HEVC đầy hứa hẹn. Để đánh giá hiệu suất, tệp video tương tự được sử dụng như trong bài kiểm tra tốc độ chuyển mã bộ mã hóa x264.

Trò chơi:

  • Đại đội anh hùng 2. Cài đặt cho độ phân giải 1280×800: Chất lượng hình ảnh tối đa, Khử răng cưa = Tắt, Chi tiết họa tiết cao hơn, Chi tiết tuyết cao, Vật lý = Tắt. Cài đặt cho độ phân giải 1920×1080: Chất lượng hình ảnh tối đa, Khử răng cưa cao, Chi tiết họa tiết cao hơn, Chi tiết tuyết cao, Vật lý = Cao.
  • lớn Trộm xe ô tô V. Cài đặt cho độ phân giải 1280×800: Phiên bản DirectX = DirectX 11, FXAA = Tắt, MSAA = Tắt, NVIDIA TXAA = Tắt, Mật độ dân số = Tối đa, Đa dạng dân số = Tối đa, Tỷ lệ khoảng cách = Tối đa, Chất lượng kết cấu = Rất cao, Chất lượng đổ bóng = Rất cao, Chất lượng bóng = Rất cao, Chất lượng phản chiếu = Ultra, Phản chiếu MSAA = Tắt, Chất lượng nước = Rất cao, Chất lượng hạt = Rất cao, Chất lượng cỏ = Ultra, Bóng mềm = Mềm nhất, Post FX = Ultra, Độ sâu trong trò chơi Hiệu ứng trường = Bật, Lọc bất đẳng hướng = x16, Hút môi trường xung quanh = Cao, Tessellation = Rất cao, Bóng dài = Bật, Bóng có độ phân giải cao = Bật, Truyền phát chi tiết cao khi bay = Bật, Chia tỷ lệ khoảng cách mở rộng = Tối đa, Khoảng cách bóng mở rộng = Tối đa. Cài đặt cho độ phân giải 1920×1080: Phiên bản DirectX = DirectX 11, FXAA = Tắt, MSAA = x4, NVIDIA TXAA = Tắt, Mật độ dân số = Tối đa, Đa dạng dân số = Tối đa, Tỷ lệ khoảng cách = Tối đa, Chất lượng kết cấu = Rất cao, Chất lượng đổ bóng = Rất cao, Chất lượng bóng = Rất cao, Chất lượng phản chiếu = Ultra, Phản xạ MSAA = x4, Chất lượng nước = Rất cao, Chất lượng hạt = Rất cao, Chất lượng cỏ = Ultra, Bóng mềm = Mềm nhất, Post FX = Ultra, Độ sâu trong trò chơi Hiệu ứng trường = Bật, Lọc bất đẳng hướng = x16, Hút môi trường xung quanh = Cao, Tessellation = Rất cao, Bóng dài = Bật, Bóng có độ phân giải cao = Bật, Truyền phát chi tiết cao khi bay = Bật, Chia tỷ lệ khoảng cách mở rộng = Tối đa, Khoảng cách bóng mở rộng = Tối đa.
  • F1 2015. Cài đặt cho độ phân giải 1280×800: Chất lượng cực cao, 0xAA, 16xAF. Cài đặt cho độ phân giải 1920×1080: Chất lượng cực cao, SMAA + TAA, 16xAF. Cuộc thử nghiệm sử dụng đường đua Melbourne.
  • Hitman: Sự tha thứ. Cài đặt cho độ phân giải 1280×800: Chất lượng cực cao, MSAA = Tắt, Chất lượng kết cấu cao, Aniso kết cấu 16x, Siêu bóng, SSAO cao, Chiếu sáng toàn cầu = Bật, Phản xạ cao, FXAA = Bật, Mức độ chi tiết cực cao, Độ sâu trường ảnh cao, Tesselation = Bật, Hoa nở bình thường. Cài đặt cho độ phân giải 1920×1080: Chất lượng cực cao, 8x MSAA, Chất lượng kết cấu cao, Aniso kết cấu 16x, Bóng siêu cao, SSAO cao, Chiếu sáng toàn cầu = Bật, Phản xạ cao, FXAA = Bật, Mức độ chi tiết cực cao, Độ sâu trường ảnh cao, Tesselation = Bật, Hoa nở bình thường.
  • Metro: Redux ánh sáng cuối cùng. Cài đặt cho độ phân giải 1280×800: DirectX 11, Chất lượng cao, Lọc họa tiết = AF 16X, Motion Blur = Bình thường, SSAA = Tắt, Tessellation = Bình thường, PhysX nâng cao = Tắt. Cài đặt cho độ phân giải 1920×1080: DirectX 11, Chất lượng rất cao, Lọc họa tiết = AF 16X, Motion Blur = Bình thường, SSAA = Bật, Tessellation = Bình thường, PhysX nâng cao = Tắt. Cảnh 1 được sử dụng để thử nghiệm.
  • Tom clancy's cầu vồng sáu Cuộc vây hãm. Cài đặt cho độ phân giải 1280×800: Chất lượng kết cấu = Ultra, Lọc kết cấu = Dị hướng 16x, Chất lượng LOD = Ultra, Chất lượng tạo bóng = Cao, Chất lượng bóng = Rất cao, Chất lượng phản chiếu = Cao, Độ che phủ xung quanh = SSBC, Hiệu ứng ống kính = Bloom + Ống kính Ánh sáng lóa, Độ sâu trường ảnh phóng to = Bật, Khử răng cưa sau xử lý = Tắt, Khử răng cưa nhiều mẫu = Tắt. Cài đặt cho độ phân giải 1920×1080: Chất lượng kết cấu = Ultra, Lọc kết cấu = Anisotropic 16x, Chất lượng LOD = Ultra, Chất lượng tạo bóng = Cao, Chất lượng bóng = Rất cao, Chất lượng phản chiếu = Cao, Độ che phủ xung quanh = SSBC, Hiệu ứng ống kính = Bloom + Ống kính Ánh sáng lóa, Độ sâu trường ảnh phóng to = Bật, Khử răng cưa sau xử lý = Tắt, Khử răng cưa nhiều mẫu = MSAA 4x.
  • Tên trộm. Cài đặt cho độ phân giải 1280×800: Chất lượng kết cấu = Rất cao, Chất lượng bóng = Rất cao, Chất lượng độ sâu trường ảnh = Cao, Chất lượng lọc kết cấu = 8x Bất đẳng hướng, SSAA = Tắt, Phản xạ không gian màn hình = Bật, Ánh xạ tắc thị sai = Bật, FXAA = Tắt, Bóng làm cứng tiếp xúc = Bật, Tessellation = Bật, Phản chiếu dựa trên hình ảnh = Bật. Cài đặt cho độ phân giải 1920×1080: Chất lượng kết cấu = Rất cao, Chất lượng bóng = Rất cao, Chất lượng độ sâu trường ảnh = Cao, Chất lượng lọc kết cấu = 8x Bất đẳng hướng, SSAA = Cao, Phản xạ không gian màn hình = Bật, Ánh xạ tắc thị sai = Bật, FXAA = Bật, Bóng làm cứng tiếp xúc = Bật, Tessellation = Bật, Phản chiếu dựa trên hình ảnh = Bật.
  • Chiến tranh tổng lực: Attila. Cài đặt cho độ phân giải 1280×800: Khử răng cưa = Tắt, Độ phân giải họa tiết = Ultra; Lọc kết cấu = Bất đẳng hướng 4x, Bóng = Tối đa. Chất lượng, Nước = Max. Chất lượng, Bầu trời = Tối đa. Chất lượng, Độ sâu trường ảnh = Tắt, Hiệu ứng hạt = Tối đa. Chất lượng, Phản xạ không gian màn hình = Max. Chất lượng, Cỏ = Tối đa. Chất lượng, Cây = Tối đa. Chất lượng, Địa hình = Tối đa. Chất lượng, Chi tiết đơn vị = Max. Chất lượng, Chi tiết tòa nhà = Tối đa. Chất lượng, Kích thước đơn vị = Ultra, Chất lượng lỗ thông hơi = 3D, Bộ nhớ video không giới hạn = Tắt, V-Sync = Tắt, SSAO = Bật, Hiệu ứng biến dạng = Bật, Họa tiết = Tắt, Làm mờ vùng lân cận = Bật, Máu = Bật. Cài đặt cho độ phân giải 1920 × 1080: Chất lượng tối đa.

Vì vậy, việc ép xung, như chúng ta đã biết cách đây vài năm - trước khi Intel bắt đầu phát hành bộ xử lý ép xung chuyên dụng và chặn khả năng tăng tần số hoạt động trong các CPU khác, cuối cùng đã quay trở lại. Thật khó để nói giải pháp cho vấn đề loại bỏ khóa tần số của bộ tạo xung nhịp cơ bản cho toàn bộ dòng sản phẩm Skylake thực sự đến từ đâu. Có lẽ khả năng bảo vệ BCLK Governor của Intel hóa ra không quá mạnh và chịu áp lực từ các nhà phát triển BIOS bo mạch chủ tấm. Nhưng cũng có thể chính Intel đã đẩy họ đi đúng hướng, vì cuối cùng ai cũng thắng: gã khổng lồ vi xử lý, nhà sản xuất bo mạch và người dùng.

Thật vậy, nhờ các cơ hội ép xung mới được mở ra, người mua có những lập luận mới ủng hộ việc chuyển sang nền tảng LGA1151. Không còn nghi ngờ gì nữa điều này sẽ kích thích ở một mức độ nhất định bán bộ xử lý mới. Đồng thời, các nhà sản xuất bo mạch cũng sẽ nhận được những khách hàng mới, những người chắc chắn sẽ có thể tăng doanh số bán mô hình bằng cách dựa trên Intel Z170. Người dùng nhiệt tình cũng sẽ không bị bỏ rơi. Họ không chỉ phải đối mặt với phạm vi thử nghiệm bổ sung mà còn có cơ hội thu được lợi ích tài chính khá rõ ràng. Suy cho cùng, giờ đây các hệ thống ép xung có thể được lắp ráp từ các linh kiện rẻ hơn trước.

Nhưng điều làm cho toàn bộ tình huống này trở nên đặc biệt thú vị là mọi thứ diễn ra tốt đẹp như thế nào đối với Intel. Rốt cuộc, việc phát hiện ra khả năng ép xung bất kỳ bộ xử lý LGA1151 nào, kể cả không ép xung, có thể dễ dàng làm giảm nhu cầu về mô hình hàng đầu Skylake. Tuy nhiên, doanh số bán Skylake cũ hơn với khả năng ép xung được phê duyệt chính thức vẫn an toàn. Thực tế là khi ép xung các bộ xử lý không phải K, rất nhiều vấn đề bất ngờ nảy sinh, trong đó tệ nhất là tốc độ thực thi các lệnh AVX/AVX2 giảm. Kết quả là, hiệu suất khi làm việc với một số chương trình trong quá trình ép xung không những không tăng mà ngược lại còn giảm. Nghĩa là, lợi ích thực sự từ việc ép xung như vậy chỉ có thể đạt được trong trường hợp chúng ta đang nói riêng về việc làm việc trong các ứng dụng không liên quan đến khả năng hiện đại bộ xử lý FPU.

Tất cả điều này có nghĩa là nếu chúng ta đang nói về các hoạt động nghề nghiệp mà những người làm việc ở mức danh nghĩa không có đủ năng suất. chế độ CPU, - bạn có thể chọn, như trước đây, chỉ từ Core i5-6600K hoặc Core i7-6700K. Việc ép xung bộ xử lý không phải K thực sự chỉ phù hợp để chơi đùa - theo cả hai nghĩa của từ này. Một mặt, việc thử nghiệm ép xung những bộ xử lý như vậy là vô cùng thú vị, bởi vì đây thực sự là một điều gì đó mới và có phần bị cấm. Mặt khác, trò chơi nằm trong số những ứng dụng mà lệnh AVX/AVX2 (chưa?) chưa sử dụng.

Tuy nhiên, ngay cả khi bạn chỉ quan tâm đến các trò chơi và chương trình không sử dụng tiện ích mở rộng AVX/AVX2 và chắc chắn sẽ không được sử dụng, thì khả năng ép xung đã xuất hiện trong thế hệ bộ xử lý ép xung mới Skylake hoàn toàn không có nghĩa là bạn, Nói một cách hình tượng, sẽ có thể tua ngược thời gian và trở về thời kỳ hoàng kim của Celeron 300A. Trong thực tế ngày nay, tăng năng suất bộ xử lý giá rẻ lên cấp độ hàng đầu là không thể trong mọi trường hợp. Sau khi Intel chia phạm vi bộ xử lý tiêu dùng thành các loại dựa trên số lượng lõi và danh sách các công nghệ được hỗ trợ vào giữa những năm 2000, bất kỳ “cuộc đấu tranh giữa các loại” nào cũng không thể thay đổi được đã là quá khứ. Và điều này đã được thể hiện rõ ràng qua các bài kiểm tra. Core i3-6100 trẻ hơn chỉ có thể giả vờ cố gắng đạt hiệu năng ban đầu khi ép xung Mô hình cốt lõi i5. Và Core i5-6400 trẻ hơn có thể cố gắng cạnh tranh với Core i5-6600K, nhưng đương nhiên là nó không có khả năng cạnh tranh với Core i7-6700K.

Ngày 15 tháng 10 năm 2016 lúc 03:34 chiều

Intel sẽ thêm các lệnh vào CPU để học kĩ càng

  • Trí tuệ nhân tạo ,
  • Bộ xử lý

Một số bộ vi xử lý mới nhất Intel hỗ trợ dòng hướng dẫn vectơ AVX-512. Chúng được thực thi theo khối 512 bit (64 byte). Ưu điểm của việc hỗ trợ phần cứng cho các lệnh lớn như vậy là bộ xử lý xử lý nhiều dữ liệu hơn trên mỗi chu kỳ xung nhịp.

Nếu mã được tải bằng các từ 64 bit (8 byte), thì về mặt lý thuyết, nếu bạn không tính đến các yếu tố khác, bạn có thể tăng tốc độ thực thi mã lên gấp 8 lần nếu sử dụng lệnh AVX-512.

Phần mở rộng AVX-512 cho tập lệnh x86 hỗ trợ 8 thanh ghi mặt nạ, định dạng đóng gói 512 bit cho số nguyên và số phân số cũng như các thao tác trên chúng, kiểm soát tốt các chế độ làm tròn (cho phép bạn ghi đè cài đặt chung), hoạt động phát sóng, ngăn chặn lỗi trong hoạt động với số phân số, các phép toán tập hợp/phân tán, các phép toán nhanh, mã hóa nhỏ gọn các độ lệch lớn.

Bộ AVX-512 ban đầu bao gồm tám nhóm hướng dẫn:

  • Hướng dẫn phát hiện xung đột AVX-512 (CDI)
  • AVX-512 Hướng dẫn lũy thừa và đối ứng (ERI)
  • Hướng dẫn tìm nạp trước AVX-512 (PFI)
  • Phần mở rộng chiều dài vectơ AVX-512 (VL)
  • Hướng dẫn từ và byte AVX-512 (BW)
  • Hướng dẫn từ đôi và bốn từ AVX-512 (DQ)
  • AVX-512 Phép cộng nhân số nguyên (IFMA)
  • Hướng dẫn thao tác byte vectơ AVX-512 (VBMI)
Dòng AVX-512 được hỗ trợ trong bộ đồng xử lý Intel Xeon Phi (trước đây là Intel MIC) Knights Landing, một số bộ xử lý Skylake Xeon (SKX) và bộ xử lý Cannonlake tương lai có sẵn vào năm 2017. Bộ xử lý được liệt kê không hỗ trợ tất cả các hướng dẫn. Ví dụ: Knights Landing Xeon Phi chỉ hỗ trợ CD, ER và PF. bộ xử lý Skylake Xeon (SKX) hỗ trợ CD, VL, BW và DQ. Bộ xử lý Cannonlake - CD, VL, BW, DQ, IFMA.

Đương nhiên, không phải tất cả mã đều có thể được chuyển đổi thành hướng dẫn vectơ, nhưng bạn không cần phải làm điều này với tất cả mã, Daniel Lemire, giáo sư khoa học máy tính tại Đại học Quebec, viết trên blog của mình. Theo anh, điều quan trọng là phải tối ưu hóa “ mã nóng", chiếm nhiều tài nguyên CPU nhất. Trong nhiều hệ thống, mã nóng được xây dựng từ một loạt vòng lặp được lặp lại hàng tỷ lần. Đây chính xác là những gì cần được tối ưu hóa, đây là lợi ích chính.

Ví dụ: nếu mã Python như vậy được biên dịch lại từ các lệnh 64-bit tiêu chuẩn sang AVX-512 bằng MKL Numpy, thì thời gian thực thi sẽ giảm từ 6-7 giây xuống còn 1 giây trên cùng một bộ xử lý.

Nhập numpy dưới dạng np np.random.seed(1234) xx = np.random.rand(1000000).reshape(1000, 1000) %timeit np.linalg.eig(xx)

Hỗ trợ phần cứng cho deep learning

Mạng lưới thần kinh và học sâu là một trong những xu hướng sáng giá nhất thời gian gần đây. Google, Facebook và những người khác các công ty lớnđang cố gắng sử dụng mạng lưới thần kinh bất cứ khi nào có thể: trong hệ thống đề xuất, nhận dạng khuôn mặt, dịch văn bản, nhận dạng giọng nói, phân loại ảnh và thậm chí trò chơi trên bàn như cờ vây (nhưng điều này nhằm mục đích PR hơn là vì lợi ích thương mại). Một số đang cố gắng áp dụng deep learning vào các lĩnh vực độc đáo như .

Hiện nay, các nhà đầu tư mạo hiểm đều hiểu rằng kế hoạch hiệu quả nhất để làm giàu nhanh chóng là khởi động một công ty khởi nghiệp trong lĩnh vực học sâu, công ty này sẽ ngay lập tức được mua lại bởi một công ty từ Big Five (Facebook, Google, Apple, Microsoft, Amazon). Các hãng này ở Gần đây cạnh tranh khốc liệt trong lĩnh vực mua nhân tài nên startup sẽ rời đi ngay lập tức và mãi mãi. giá cao dựa trên mức tối thiểu 10 triệu USD cho mỗi nhân viên. Kế hoạch kinh doanh này thậm chí còn trở nên dễ dàng hơn khi các công ty phát hành các công cụ phát triển nguồn mở, giống như Google đã làm với TensorFlow.

Thật không may cho Intel, công ty đang tụt lại phía sau và hầu như không tham gia vào cuộc chơi. Giáo sư Lemire thừa nhận rằng tiêu chuẩn ngành hiện nay GPU Nvidia. Trên đó họ chạy mã cho các chương trình học máy.

Không phải các kỹ sư của Intel đã ngủ quên theo xu hướng này. Chỉ là GPU của riêng chúng, không có bất kỳ hướng dẫn đặc biệt nào, sẽ phù hợp hơn cho việc tính toán học kĩ càng.

Tuy nhiên, Intel đang chuẩn bị một đòn phản công có thể lật ngược tình thế. Vào tháng 9, công ty đã xuất bản một sản phẩm mới hướng dẫn tham khảo Tham chiếu lập trình mở rộng tập lệnh kiến ​​trúc Intel xác định tất cả các hướng dẫn sẽ được hỗ trợ trong các bộ xử lý trong tương lai. Nếu bạn nhìn vào tài liệu này, một điều ngạc nhiên thú vị đang chờ đợi chúng ta. Hóa ra họ lệnh AVX-512 đã được chia thành nhiều nhóm và được mở rộng.

Đặc biệt, hai nhóm hướng dẫn được thiết kế riêng cho deep learning: AVX512_4VNNIW và AVX512_4FMAPS. Đánh giá theo mô tả, những hướng dẫn này có thể hữu ích không chỉ trong học sâu mà còn trong nhiều nhiệm vụ khác.

  • AVX512_4VNNIW: Hướng dẫn vectơ cho deep learning nâng cao độ chính xác của biến từ
  • AVX512_4FMAPS: Hướng dẫn vectơ cho độ chính xác đơn dấu phẩy động trong deep learning

Hôm nay tôi muốn bắt đầu cuộc trò chuyện về các lệnh avx trong bộ xử lý, chúng được sử dụng ở đâu và để làm gì.

Người mua sắm thông thường đến cửa hàng và muốn mua một chiếc máy tính/máy tính xách tay để làm việc và giải trí. Trong thực tế, việc viết một bài luận bằng Word rồi chơi sẽ hiệu quả hơn và rẻ hơn.
Đối với bộ xử lý, có những gốc cây giận dữ trên kệ có sức mạnh tương đương với i-3. I3 có phải là một âm mưu tiếp thị? Pentium có thực sự “cùng loại 3 chỉ rẻ hơn”? Có và không. Vấn đề là như thế này.

Để viết một bài luận bằng Word, Celeron rẻ nhất là đủ (và bạn có thể mua một "bộ xử lý cắm" thậm chí còn rẻ hơn nếu bạn mua nó ở chợ trời kèm theo biên lai và phần còn lại của bảo hành).
Để chơi tất cả các trò chơi sau bản tóm tắt, Pentium với cấu tạo của i-3 (2 lõi 4 luồng) là phù hợp. Đối với trò chơi, không cần có hướng dẫn AVX (miễn là có các SSE cần thiết).

Nhưng đối với các tác vụ chuyên nghiệp, ảo hóa phần cứng và hỗ trợ hướng dẫn AVX sẽ hữu ích, vì vậy tốt hơn hết bạn nên sử dụng ít nhất i-3.

Tại sao cần có hướng dẫn AVX?

Một số nhiệm vụ chuyên môn bao gồm những gì? Theo quy định, những viên đá thiếu AVX cũng thiếu khả năng tăng tốc ảo hóa phần cứng.
Phát triển cho Android, sẽ yêu cầu một máy ảo thuộc cùng nhóm này (một số trình giả lập thậm chí sẽ không khởi động, một số sẽ hoạt động đáng buồn, tải hạt nhân rất nhiều).
Xử lý dữ liệu đa phương tiện (từ xử lý ảnh đến mã hóa video và cắt đồ họa 3D, vì vậy người chơi Let's Play nên bỏ ra nhiều tiền hơn để có bộ xử lý đắt tiền hơn).

Nếu không có AVX

Bộ xử lý có các thanh ghi để hướng dẫn.
Thanh ghi SSE là 128 bit và thanh ghi AVX là 256 bit.
Vì vậy, để không làm bất kỳ ai phải kinh ngạc về giải phẫu của một hòn đá, hãy nói rằng - 256 sẽ không vừa với 128.

Nếu không có AVX, bạn cũng có thể xử lý ảnh, nhai video và cắt ba chiều. Nhưng có những sắc thái ...
Nói một cách đơn giản, một Xeon 8 nhân cũ (không có khả năng AXV) sẽ cắt video với tốc độ tương đương với i3 hiện đại (có khả năng AVX).

Bộ xử lý có một đường dẫn: nó tìm ra nơi lấy nó từ bộ nhớ, lấy nó từ bộ nhớ, tính toán và gửi kết quả vào bộ nhớ.
Một quy trình đơn giản hóa có và không có AVX có thể được mô tả như sau.

Như bạn có thể thấy, có ít thao tác hơn trong trường hợp thứ hai. Từ đó, thật hợp lý khi cho rằng bộ đếm AVX hoạt động nhanh hơn (trong mỗi chu kỳ tính toán). Và vì nó nhanh hơn trong mỗi chu kỳ đồng hồ nên có ít gigahertz hơn nên bạn có thể tính toán nhanh hơn.

Một điều hay nữa về AVX là toán hạng bổ sung. Không phải 2 toán hạng được sử dụng mà là 3 toán hạng, điều này cũng rút ngắn quy trình. Giả sử chúng ta muốn thêm X và Y.
Mã: Hoạt động bình thường, trong đó 2 toán hạng (X=X+Y) sẽ khiến một trong các toán hạng bị ghi đè.
Hoạt động AVX, trong đó 3 toán hạng (Z=X+Y) cho phép bạn ghi kết quả vào toán hạng thứ ba.
Khó? Được rồi, hãy giữ nó đơn giản.

Làm video bằng AVX sẽ nhanh hơn. Bởi vì, ngoài những điều trên còn được thêm phần thưởng phá vỡ khung hình tối ưu.
Máy tính không tính toán lại mọi khung hình. Nó chia khung thành các hình chữ nhật và so sánh chúng, và nếu tìm thấy khung phù hợp, nó sẽ sử dụng phần đã hoàn thiện.
Ở đây AVX đã học cách làm việc với video một cách tối ưu hơn (đối với những người quan tâm, hãy đọc từ các chuyên gia và tôi sẽ giới hạn bản thân ở một bức ảnh đẹp).

Trước đây, sự cố như hình bên trái. Phân vùng AVX có thể thực hiện nhiều điều thông minh hơn - như minh họa bên phải.

Tóm tắt

Để viết một bản tóm tắt trong Word, bất kỳ bộ xử lý nào cũng có thể làm được.
Để chơi một trò chơi thay vì viết một bài luận sau đó, một gốc cây có hình dạng của một phần ba sẽ phù hợp.
Để cắt bớt nội dung, tốt hơn hết bạn nên bỏ ra một phần ba.