Các thuật toán học sâu cho mạng lưới thần kinh đa lớp. Các phương pháp học sâu. Học sâu hoạt động như thế nào

Cuộc cách mạng sắp tới robot thông minhđã được dự đoán 10 năm một lần kể từ những năm 1950. Tuy nhiên, nó chưa bao giờ xảy ra. Tiến bộ trong lĩnh vực này trí tuệ nhân tạo diễn ra thiếu chắc chắn, đôi khi nhàm chán, mang đến sự thất vọng cho nhiều người đam mê. Những thành công có thể nhìn thấy được - máy tính Deep Blue, được IBM tạo ra vào giữa những năm 1990 và đã đánh bại Garry Kasparov trong môn cờ vua năm 1997, hoặc xuất hiện vào cuối những năm 1990 phiên dịch điện tử- nhiều khả năng là kết quả của các phép tính "thô" hơn là việc chuyển các cơ chế nhận thức của con người sang quá trình tính toán của máy tính.

Tuy nhiên, câu chuyện về sự thất vọng và thất bại hiện đang thay đổi đáng kể. Chỉ mười năm trước, các thuật toán nhận dạng đối tượng và thị giác máy tính có thể xác định một hình cầu hoặc một hình song song trên nền đơn giản. Giờ đây, họ có thể phân biệt khuôn mặt con người tốt như con người, thậm chí trên nền tự nhiên, phức tạp. Sáu tháng trước, Google đã phát hành một ứng dụng dành cho điện thoại thông minh có thể dịch văn bản từ hơn 20 ngôn ngữ. Tiếng nước ngoài bằng cách đọc các từ trong ảnh, biển báo đường hoặc văn bản viết tay!

Tất cả điều này trở nên khả thi sau khi rõ ràng là một số ý tưởng cũ trong lĩnh vực mạng lưới thần kinh, nếu được sửa đổi một chút bằng cách thêm “sự sống”, tức là. việc chiếu các chi tiết về nhận thức của con người và động vật có thể mang lại một kết quả đáng kinh ngạc mà không ai ngờ tới. Lần này, cuộc cách mạng trí tuệ nhân tạo dường như thực sự có thật.

Nghiên cứu mạng lưới thần kinh trong lĩnh vực học máy, trong hầu hết các trường hợp, luôn dành cho việc tìm kiếm các kỹ thuật mới để nhận dạng nhiều loại dữ liệu khác nhau. Do đó, một máy tính được kết nối với máy ảnh phải sử dụng thuật toán nhận dạng hình ảnh để có thể phân biệt được Chất lượng kém một khuôn mặt con người, một tách trà hay một con chó. Tuy nhiên, trong lịch sử, việc sử dụng mạng lưới thần kinh cho những mục đích này đã đi kèm với những khó khăn đáng kể. Ngay cả thành công nhỏ cũng cần có sự can thiệp của con người - mọi người đã giúp chương trình xác định những đặc điểm quan trọng hình ảnh như đường viền hình ảnh hoặc đơn giản hình học không gian. Các thuật toán hiện có Họ không thể học cách tự làm điều đó.

Tình hình đã thay đổi đáng kể nhờ vào việc tạo ra cái gọi là mạng lưới thần kinh với học tập sâu, giờ đây có thể phân tích hình ảnh hiệu quả gần như con người. Các mạng nơ-ron như vậy sử dụng hình ảnh chất lượng kém làm đầu vào cho các “tế bào thần kinh” cấp độ đầu tiên, sau đó truyền “hình ảnh” thông qua các kết nối phi tuyến tính đến các nơ-ron cấp độ tiếp theo. Sau một đợt huấn luyện nhất định, các “tế bào thần kinh” sẽ hoạt động nhiều hơn. mức độ cao có thể sử dụng các khía cạnh trừu tượng hơn của hình ảnh để nhận dạng. Ví dụ: họ có thể sử dụng các chi tiết như đường viền của hình ảnh hoặc đặc điểm vị trí của nó trong không gian. Thật ngạc nhiên, những mạng như vậy có thể học cách ước tính những đặc điểm quan trọng nhất của hình ảnh mà không cần sự trợ giúp của con người!

Một ví dụ tuyệt vời về việc sử dụng mạng lưới thần kinh với học sâu là nhận dạng các đối tượng giống hệt nhau được chụp từ các góc độ khác nhau hoặc ở các tư thế khác nhau (nếu chúng ta đang nói về một người hoặc một động vật). Các thuật toán sử dụng chức năng quét từng pixel “nghĩ” rằng chúng đang xem hai hình ảnh khác nhau, trong khi mạng thần kinh “thông minh” “hiểu” rằng chúng đang nhìn vào cùng một đối tượng. Và ngược lại - hình ảnh của hai con chó thuộc các giống khác nhau, được chụp trong cùng một tư thế, có thể được các thuật toán trước đây coi là ảnh của cùng một con chó. Mạng lưới thần kinh học sâu có thể xác định các chi tiết trong hình ảnh giúp chúng phân biệt giữa các loài động vật.

Kết hợp các kỹ thuật học sâu, kiến ​​thức và sức mạnh khoa học thần kinh tiên tiến máy tính hiện đại mở ra cho trí tuệ nhân tạo triển vọng mà chúng tôi thậm chí chưa thể đánh giá được. Sự thật hiển nhiên là tâm trí không chỉ có bản chất sinh học.

Ngày nay, biểu đồ là một trong những cách được chấp nhận nhất để mô tả các mô hình được tạo trong hệ thống máy học. Các đồ thị tính toán này bao gồm các đỉnh nơ-ron được kết nối bằng các cạnh khớp thần kinh mô tả các kết nối giữa các đỉnh.

Không giống như GPU trung tâm hoặc GPU vô hướng, IPU kiểu mới bộ xử lý được thiết kế cho máy học cho phép bạn xây dựng các biểu đồ như vậy. Một máy tính được thiết kế để quản lý đồ thị - chiếc xe hoàn hảo cho các mô hình đồ thị tính toán được tạo ra bởi học máy.

Một trong những điều nhất những cách đơn giản Cách để mô tả quá trình trí tuệ của máy móc là hình dung nó. Nhóm phát triển Graphcore đã tạo ra một bộ sưu tập các hình ảnh như vậy được hiển thị trên IPU. Nó được dựa trên phần mềm Poplar, trực quan hóa công việc của trí tuệ nhân tạo. Các nhà nghiên cứu của công ty này cũng đã tìm ra lý do tại sao mạng lưới sâuđòi hỏi rất nhiều bộ nhớ và giải pháp nào cho vấn đề tồn tại.

Poplar bao gồm một trình biên dịch đồ họa được xây dựng từ đầu để dịch các hoạt động học máy tiêu chuẩn thành mã ứng dụng IPU được tối ưu hóa cao. Nó cho phép bạn thu thập các biểu đồ này lại với nhau bằng cách sử dụng nguyên tắc tương tự như POPNN được thu thập. Thư viện chứa một tập hợp các loại đỉnh khác nhau dành cho các dạng nguyên thủy tổng quát.

Đồ thị là mô hình mà tất cả các phần mềm đều dựa vào. Trong Poplar, đồ thị cho phép bạn xác định quy trình tính toán, trong đó các đỉnh thực hiện các phép toán và các cạnh mô tả mối quan hệ giữa chúng. Ví dụ: nếu bạn muốn cộng hai số với nhau, bạn có thể xác định một đỉnh có hai đầu vào (các số bạn muốn cộng), một số phép tính (một hàm để cộng hai số) và một đầu ra (kết quả).

Thông thường, các thao tác với các đỉnh phức tạp hơn nhiều so với ví dụ được mô tả ở trên. Họ thường quyết tâm chương trình nhỏ, được gọi là codelets (tên mã). Sự trừu tượng hóa bằng đồ họa rất hấp dẫn vì nó không đưa ra giả định nào về cấu trúc tính toán và chia tính toán thành các thành phần mà IPU có thể sử dụng để vận hành.

Poplar sử dụng sự trừu tượng hóa đơn giản này để xây dựng các biểu đồ rất lớn được biểu diễn dưới dạng hình ảnh. Việc tạo biểu đồ bằng phần mềm có nghĩa là chúng tôi có thể điều chỉnh nó theo các tính toán cụ thể cần thiết để đảm bảo hiệu quả nhất sử dụng hiệu quả tài nguyên IPU

Trình biên dịch dịch hoạt động tiêu chuẩn, Được dùng trong hệ thống máy mócđào tạo về mã ứng dụng IPU được tối ưu hóa cao. Trình biên dịch biểu đồ tạo ra hình ảnh trung gian của biểu đồ tính toán, được triển khai trên một hoặc nhiều thiết bị IPU. Trình biên dịch có thể hiển thị biểu đồ tính toán này, do đó, một ứng dụng được viết ở cấp khung mạng thần kinh sẽ hiển thị hình ảnh của biểu đồ tính toán đang chạy trên IPU.


Biểu đồ của chu trình đào tạo AlexNet đầy đủ theo hướng tiến và lùi

Trình biên dịch đồ họa Poplar đã biến mô tả AlexNet thành một biểu đồ tính toán gồm 18,7 triệu đỉnh và 115,8 triệu cạnh. Phân cụm có thể nhìn thấy rõ ràng là kết quả của sự kết nối mạnh mẽ giữa các tiến trình trong mỗi lớp của mạng với nhiều giao tiếp dễ dàng giữa các cấp độ.

Một ví dụ khác là một mạng đơn giản được kết nối đầy đủ được đào tạo trên MNIST, một tập dữ liệu thị giác máy tính đơn giản, một dạng “Xin chào thế giới” trong học máy. Mạng đơn giản việc khám phá tập dữ liệu này sẽ giúp hiểu được các biểu đồ được điều khiển bởi các ứng dụng Poplar. Bằng cách tích hợp các thư viện biểu đồ với các khung như TensorFlow, công ty cung cấp một trong những những cách đơn giảnđể sử dụng IPU trong các ứng dụng học máy.

Sau khi biểu đồ được xây dựng bằng trình biên dịch, nó cần được thực thi. Điều này có thể thực hiện được bằng cách sử dụng Graph Engine. Ví dụ về ResNet-50 thể hiện hoạt động của nó.


Đồ thị ResNet-50

Kiến trúc ResNet-50 cho phép tạo các mạng sâu từ các phân vùng lặp lại. Bộ xử lý chỉ phải xác định các phần này một lần và gọi lại chúng. Ví dụ: cụm cấp độ đối lưu 4 được thực thi sáu lần nhưng chỉ được ánh xạ một lần vào biểu đồ. Hình ảnh cũng thể hiện sự đa dạng về hình dạng của các lớp chập, vì mỗi lớp có một biểu đồ được xây dựng theo một dạng tính toán tự nhiên.

Công cụ tạo và quản lý việc thực thi mô hình học máy bằng cách sử dụng biểu đồ do trình biên dịch tạo ra. Sau khi được triển khai, Graph Engine sẽ giám sát và phản hồi các IPU hoặc thiết bị được ứng dụng sử dụng.

Hình ảnh ResNet-50 hiển thị toàn bộ mô hình. Ở cấp độ này, rất khó để xác định các kết nối giữa các đỉnh riêng lẻ, vì vậy cần xem xét các hình ảnh phóng to. Dưới đây là một số ví dụ về các phần trong các lớp mạng thần kinh.

Tại sao mạng sâu cần nhiều bộ nhớ đến vậy?

Một lượng lớn bộ nhớ bị chiếm dụng là một trong những vấn đề lớn nhất vấn đề lớn mạng lưới thần kinh sâu. Các nhà nghiên cứu đang cố gắng giải quyết những hạn chế thông lượng Các thiết bị DRAM nên được sử dụng hệ thống hiện đạiđể lưu trữ một số lượng lớn trọng lượng và kích hoạt trong mạng lưới thần kinh sâu.

Các kiến ​​trúc được thiết kế bằng cách sử dụng các chip xử lý được thiết kế để xử lý tuần tự và tối ưu hóa DRAM cho bộ nhớ mật độ cao. Giao diện giữa hai thiết bị này là một nút thắt cổ chai gây ra các hạn chế về băng thông và tăng thêm chi phí tiêu thụ điện năng đáng kể.

Mặc dù chúng ta chưa có sự hiểu biết đầy đủ về bộ não con người và cách thức hoạt động của nó nhưng nhìn chung người ta hiểu rằng không có kho lưu trữ bộ nhớ lớn riêng biệt. Chức năng của trí nhớ dài hạn và ngắn hạn trong não người được cho là gắn liền với cấu trúc của tế bào thần kinh + khớp thần kinh. Ngay cả những sinh vật đơn giản như giun, với cấu trúc não thần kinh chỉ hơn 300 tế bào thần kinh, cũng có một số chức năng ghi nhớ.

Xây dựng bộ nhớ trong bộ xử lý thông thường là một cách để khắc phục vấn đề tắc nghẽn bộ nhớ, mở khóa băng thông khổng lồ với mức tiêu thụ điện năng thấp hơn nhiều. Tuy nhiên, bộ nhớ trên chip đắt tiền và không được thiết kế cho lượng bộ nhớ thực sự lớn được gắn vào CPU và GPU hiện đang được sử dụng để đào tạo và triển khai mạng lưới thần kinh sâu.

Vì vậy, sẽ rất hữu ích nếu bạn xem xét cách bộ nhớ được sử dụng ngày nay trong các hệ thống học sâu dựa trên CPU và GPU và tự hỏi: tại sao chúng lại yêu cầu các thiết bị lưu trữ bộ nhớ lớn như vậy khi bộ não con người vẫn hoạt động tốt khi không có chúng?

Mạng thần kinh cần bộ nhớ để lưu trữ dữ liệu đầu vào, trọng số và các hàm kích hoạt khi đầu vào truyền qua mạng. Trong quá trình học, việc kích hoạt đầu vào phải được duy trì cho đến khi nó có thể được sử dụng để tính toán các lỗi trong gradient đầu ra.

Ví dụ: mạng ResNet 50 lớp có khoảng 26 triệu tham số trọng số và tính toán 16 triệu lần kích hoạt chuyển tiếp. Nếu bạn sử dụng float 32 bit để lưu trữ từng trọng lượng và kích hoạt, nó sẽ cần khoảng 168 MB dung lượng. Sử dụng nhiều hơn giá trị thấpđể lưu trữ các trọng lượng và kích hoạt này, chúng tôi có thể giảm một nửa hoặc thậm chí tăng gấp bốn lần yêu cầu lưu trữ này.

Một vấn đề lớn về bộ nhớ phát sinh từ việc GPU dựa vào dữ liệu được biểu diễn dưới dạng vectơ dày đặc. Do đó, họ có thể sử dụng luồng lệnh đơn (SIMD) để đạt được mật độ tính toán cao. CPU sử dụng các đơn vị vectơ tương tự để tính toán hiệu năng cao.

GPU có độ rộng synap là 1024 bit nên sử dụng dữ liệu dấu phẩy động 32 bit nên thường chia thành từng đợt nhỏ 32 mẫu song song để tạo vectơ dữ liệu 1024 bit. Cách tiếp cận song song vectơ này làm tăng số lần kích hoạt lên 32 lần và nhu cầu lưu trữ cục bộ có dung lượng hơn 2 GB.

GPU và các máy khác được thiết kế cho đại số ma trận cũng phải chịu tải bộ nhớ do trọng lượng hoặc kích hoạt mạng thần kinh. GPU không thể thực hiện hiệu quả các phép tích chập nhỏ được sử dụng trong mạng lưới thần kinh sâu. Do đó, một phép biến đổi được gọi là "rút gọn" được sử dụng để chuyển đổi các phép tích chập này thành phép nhân ma trận-ma trận (GEMM), mà GPU có thể xử lý hiệu quả.

Bộ nhớ bổ sung cũng được yêu cầu để lưu trữ dữ liệu đầu vào, giá trị tạm thời và hướng dẫn chương trình. Đo mức sử dụng bộ nhớ khi đào tạo ResNet-50 trên GPU cao cấp cho thấy nó cần hơn 7,5 GB DRAM cục bộ.

Một số người có thể nghĩ rằng độ chính xác tính toán thấp hơn có thể làm giảm lượng bộ nhớ cần thiết, nhưng thực tế không phải vậy. Bằng cách chuyển đổi các giá trị dữ liệu sang độ chính xác một nửa cho trọng số và kích hoạt, bạn sẽ chỉ lấp đầy một nửa chiều rộng vectơ SIMD, lãng phí một nửa tài nguyên máy tính hiện có. Để bù đắp cho điều này, khi bạn chuyển từ độ chính xác hoàn toàn sang độ chính xác một nửa trên GPU, bạn sẽ phải tăng gấp đôi kích thước của lô nhỏ để buộc đủ dữ liệu song song để sử dụng tất cả tính toán có sẵn. Vì vậy, để giảm trọng lượng chính xác và kích hoạt trên GPU vẫn cần nhiều hơn 7,5 GB bộ nhớ động với quyền truy cập miễn phí.

Với rất nhiều dữ liệu cần lưu trữ, đơn giản là không thể nhét tất cả vào GPU. Mỗi lớp mạng thần kinh tích chập cần lưu trữ trạng thái của DRAM bên ngoài, tải lớp mạng tiếp theo và sau đó tải dữ liệu vào hệ thống. Kết quả là giao diện đã bị giới hạn bởi băng thông và độ trễ bộ nhớ. bộ nhớ ngoài chịu thêm gánh nặng khởi động lại liên tục trọng lượng, lưu trữ và truy xuất các hàm kích hoạt. Điều này làm chậm đáng kể thời gian đào tạo và tăng đáng kể mức tiêu thụ điện năng.

Có một số cách để giải quyết vấn đề này. Đầu tiên, các hoạt động như chức năng kích hoạt có thể được thực hiện “tại chỗ”, cho phép dữ liệu đầu vào được ghi lại trực tiếp vào đầu ra. Như vậy, bộ nhớ hiện có có thể được tái sử dụng. Thứ hai, cơ hội cho tái sử dụng bộ nhớ có thể thu được bằng cách phân tích sự phụ thuộc dữ liệu giữa các hoạt động trên mạng và việc phân bổ cùng một bộ nhớ cho các hoạt động không sử dụng nó tại thời điểm đó.

Cách tiếp cận thứ hai đặc biệt hiệu quả khi toàn bộ mạng lưới thần kinh có thể được phân tích tại thời điểm biên dịch để tạo ra bộ nhớ được phân bổ cố định, do chi phí quản lý bộ nhớ giảm xuống gần như bằng không. Hóa ra, sự kết hợp của các phương pháp này có thể giảm mức sử dụng bộ nhớ của mạng thần kinh từ hai đến ba lần.
Cách tiếp cận quan trọng thứ ba gần đây đã được nhóm Baidu Deep Speech phát hiện. Họ đã áp dụng nhiều kỹ thuật tiết kiệm bộ nhớ khác nhau để giảm 16 lần mức tiêu thụ bộ nhớ của các chức năng kích hoạt, cho phép họ huấn luyện mạng với 100 lớp. Trước đây, với cùng dung lượng bộ nhớ, họ có thể huấn luyện các mạng có chín lớp.

Việc kết hợp các tài nguyên bộ nhớ và xử lý vào một thiết bị duy nhất có tiềm năng đáng kể để cải thiện hiệu suất và hiệu quả của mạng nơ-ron tích chập, cũng như các hình thức học máy khác. Có thể thực hiện sự cân bằng giữa bộ nhớ và tài nguyên điện toán để đạt được sự cân bằng giữa các tính năng và hiệu suất trong hệ thống.

Mạng lưới thần kinh và mô hình tri thức trong các phương pháp học máy khác có thể được coi là đồ thị toán học. Có một lượng lớn sự song song tập trung trong các biểu đồ này. Bộ xử lý song song được thiết kế để khai thác tính song song trong biểu đồ không dựa vào lô nhỏ và có thể giảm đáng kể dung lượng lưu trữ cục bộ cần thiết.

Kết quả nghiên cứu hiện tại đã chỉ ra rằng tất cả các phương pháp này có thể cải thiện đáng kể hiệu suất của mạng lưới thần kinh. GPU và CPU hiện đại có bộ nhớ trong rất hạn chế, tổng cộng chỉ có vài megabyte. Kiến trúc bộ xử lý mới được thiết kế đặc biệt cho bộ nhớ cân bằng máy học và tính toán trên chip, mang lại những cải tiến đáng kể về hiệu suất và hiệu quả so với các công nghệ hiện tại. bộ xử lý trung tâm và bộ tăng tốc đồ họa.

Chuyện gì đã xảy ra vậy học kĩ càng(học kĩ càng) ? Ngày 3 tháng 3 năm 2016

Ngày nay, họ nói về các công nghệ học sâu thời thượng như thể đó là ma-nang từ thiên đường. Nhưng liệu người nói có hiểu nó thực sự là gì không? Nhưng khái niệm này không có định nghĩa chính thức và nó kết hợp cả một loạt công nghệ. Trong bài đăng này, tôi muốn giải thích một cách phổ biến nhất có thể và về cơ bản những gì đằng sau thuật ngữ này, tại sao nó lại phổ biến và những công nghệ này mang lại cho chúng ta những gì.


Nói tóm lại, thuật ngữ mới này (học sâu) nói về cách tập hợp một sự trừu tượng (biểu diễn) phức tạp hơn và sâu sắc hơn từ một số sự trừu tượng đơn giản. mặc dù thực tế là ngay cả những phần trừu tượng đơn giản nhất cũng phải được lắp ráp bởi chính máy tính chứ không phải bởi con người. Những thứ kia. Nó không còn chỉ là học tập nữa mà là siêu học tập. Nói một cách hình tượng, bản thân máy tính phải học cách học tốt nhất. Và trên thực tế, đây chính xác là ý nghĩa của thuật ngữ “sâu”. Hầu như luôn luôn, thuật ngữ này được áp dụng cho các mạng thần kinh nhân tạo sử dụng nhiều hơn một lớp ẩn, do đó, “sâu” chính thức cũng có nghĩa là kiến ​​trúc mạng thần kinh sâu hơn.

Ở đây, trong slide phát triển, bạn có thể thấy rõ deep learning khác với học thông thường như thế nào. Tôi lặp lại, Điều độc đáo về học sâu là máy tự tìm ra các tính năng(các đặc điểm chính của thứ gì đó giúp dễ dàng tách một lớp đối tượng này khỏi lớp đối tượng khác) và cấu trúc các dấu hiệu này theo thứ bậc: những dấu hiệu đơn giản hơn được kết hợp thành những dấu hiệu phức tạp hơn. Dưới đây chúng ta sẽ xem xét điều này với một ví dụ.

Chúng ta hãy xem một ví dụ về nhiệm vụ nhận dạng hình ảnh: trước đây, họ đã nhét một nhiệm vụ khổng lồ vào mạng thần kinh thông thường có một lớp (1024×768 - khoảng 800.000 Giá trị kiểu số) và nhìn chiếc máy tính dần chết đi, ngột ngạt vì thiếu bộ nhớ và không thể hiểu được pixel nào quan trọng để nhận dạng và pixel nào không. Chưa kể đến hiệu quả của phương pháp này. Đây là kiến ​​trúc của một mạng lưới thần kinh thông thường (nông).

Sau đó, họ lắng nghe cách bộ não phân biệt các đặc điểm và nó thực hiện điều này theo cách phân cấp nghiêm ngặt, đồng thời họ cũng quyết định trích xuất cấu trúc phân cấp từ các bức ảnh. Để làm được điều này, cần phải thêm nhiều lớp ẩn hơn (các lớp nằm giữa đầu vào và đầu ra; nói một cách đại khái là các giai đoạn chuyển đổi thông tin) vào mạng nơ-ron. Mặc dù họ quyết định làm điều này gần như ngay lập tức khi tế bào thần kinh được phát minh, nhưng các mạng chỉ có một lớp ẩn đã được huấn luyện thành công. Những thứ kia. Về nguyên tắc, các mạng sâu đã tồn tại lâu như các mạng thông thường, chỉ là chúng ta không thể đào tạo chúng. Điều gì đã thay đổi?

Vào năm 2006, một số nhà nghiên cứu độc lập đã giải quyết vấn đề này ngay lập tức (ngoài ra, khả năng phần cứng đã đủ phát triển, các card màn hình khá mạnh đã xuất hiện). Các nhà nghiên cứu này là: Geoffrey Hinton (và đồng nghiệp của ông là Ruslan Salakhutidinov) với kỹ thuật đào tạo trước từng lớp của mạng lưới thần kinh bằng máy Boltzmann bị ràng buộc (thứ lỗi cho tôi vì những thuật ngữ này...), Yann LeCun với mạng lưới thần kinh tích chập, và Yoshuay Bengio với bộ mã hóa tự động xếp tầng. Hai người đầu tiên lần lượt được Google và Facebook tuyển dụng ngay lập tức. Đây là hai bài giảng: một - Hinton, cái khác - Lyakuna, trong đó họ cho biết học sâu là gì. Không ai có thể nói với bạn về điều này tốt hơn họ. Một cái hay khác bài học Schmidhuber về sự phát triển của deep learning, cũng là một trong những trụ cột của ngành khoa học này. Và Hinton cũng có một khóa học tuyệt vời về tế bào thần kinh.

Mạng lưới thần kinh sâu có thể làm gì bây giờ? Họ có thể nhận biết và mô tả đồ vật; người ta có thể nói rằng họ “hiểu” đồ vật đó là gì. Đó là về về việc nhận biết ý nghĩa.

Chỉ cần xem video này để nhận biết theo thời gian thực những gì camera nhìn thấy.

Như tôi đã nói, công nghệ deep learning là một nhóm công nghệ và giải pháp. Tôi đã liệt kê một số mạng trong số chúng ở đoạn trên, một ví dụ khác là mạng lặp lại, được sử dụng trong video ở trên để mô tả những gì mạng nhìn thấy. Nhưng đại diện phổ biến nhất của loại công nghệ này vẫn là mạng nơ-ron tích chập của LyaKun. Chúng được xây dựng bằng cách tương tự với các nguyên tắc hoạt động của vỏ não thị giác của não mèo, trong đó cái gọi là tế bào đơn giản được phát hiện, phản ứng với các đường thẳng ở các góc khác nhau và các tế bào phức tạp - phản ứng liên quan đến sự kích hoạt một bộ nhất định tế bào đơn giản. Mặc dù thành thật mà nói, bản thân LaCun không tập trung vào sinh học nhưng anh ấy quyết định nhiệm vụ cụ thể(xem bài giảng của anh ấy), và rồi nó trùng hợp.

Nói một cách đơn giản, mạng tích chập là mạng trong đó thành phần cấu trúc chính của việc học là một nhóm (tổ hợp) các nơ-ron (thường là hình vuông 3x3, 10x10, v.v.) chứ không chỉ một. Và ở mỗi cấp độ của mạng lưới, hàng chục nhóm như vậy được đào tạo. Mạng tìm thấy sự kết hợp của các nơ-ron nhằm tối đa hóa thông tin về hình ảnh. Ở cấp độ đầu tiên, mạng trích xuất các thông tin cơ bản, có cấu trúc nhất yếu tố đơn giản người ta có thể nói, những bức tranh là những đơn vị xây dựng: ranh giới, nét vẽ, phân đoạn, độ tương phản. Lên cao hơn đã là sự kết hợp ổn định của các yếu tố ở cấp độ đầu tiên, v.v. Tôi muốn nhấn mạnh một lần nữa tính năng chính học sâu: các mạng tự hình thành các yếu tố này và quyết định yếu tố nào quan trọng hơn và yếu tố nào không. Điều này rất quan trọng vì trong lĩnh vực học máy, việc tạo ra các tính năng là điều then chốt và giờ đây chúng ta đang chuyển sang giai đoạn mà máy tính tự học cách tạo và chọn các tính năng. Bản thân máy xác định một hệ thống phân cấp các tính năng thông tin.

Vì vậy, trong quá trình học (xem hàng trăm bức ảnh), mạng tích chập hình thành một hệ thống phân cấp các đặc điểm nhiều cấp độ khác nhauđộ sâu. Ở cấp độ đầu tiên, họ có thể làm nổi bật, chẳng hạn như các yếu tố như vậy (phản ánh độ tương phản, góc, đường viền, v.v.).


Ở cấp độ thứ hai, đây sẽ là một yếu tố từ các yếu tố của cấp độ đầu tiên. Vào ngày thứ ba - từ thứ hai. Chúng ta phải hiểu rằng bức ảnh này- chỉ là biểu tình thôi. Hiện nay được sử dụng trong công nghiệp, các mạng như vậy có từ 10 đến 30 lớp (cấp độ).

Sau khi mạng như vậy được huấn luyện, chúng ta có thể sử dụng nó để phân loại. Sau khi đưa ra một số hình ảnh làm đầu vào, các nhóm nơ-ron ở lớp đầu tiên sẽ chạy dọc theo hình ảnh, kích hoạt ở những nơi có thành phần hình ảnh tương ứng với một thành phần cụ thể. Những thứ kia. Mạng này phân tích hình ảnh thành các phần - đầu tiên là các đường, nét, góc nghiêng, sau đó là các phần phức tạp hơn và cuối cùng đưa ra kết luận rằng hình ảnh là từ kiểu kết hợp này yếu tố cơ bản- khuôn mặt này.

Thông tin thêm về mạng tích chập -

Từ bài viết bạn sẽ biết deep learning là gì. Bài viết cũng chứa nhiều tài nguyên mà bạn có thể sử dụng để thành thạo lĩnh vực này.

TRONG thế giới hiện đại Từ chăm sóc sức khỏe đến sản xuất, deep learning đang được sử dụng ở mọi nơi. Các công ty đang chuyển sang công nghệ này để giải quyết vấn đề phức tạp, chẳng hạn như nhận dạng giọng nói và đối tượng, dịch máy, v.v.

Một trong những thành tích ấn tượng nhất năm nay là việc AlphaGo đánh bại kỳ thủ cờ vây giỏi nhất thế giới. Ngoài cờ vây, máy móc còn đánh bại con người trong các trò chơi khác: cờ đam, cờ vua, đảo ngược và Jeopardy.

Có thể chiến thắng ở trò chơi trên bàn cờ dường như không thể áp dụng được cho giải pháp vấn đề thực sự Tuy nhiên, điều này hoàn toàn không phải vậy. Cờ vây được thiết kế để trí tuệ nhân tạo không thể đánh bại được. Để làm được điều này, anh ấy cần phải học một điều quan trọng trong trò chơi này - trực giác của con người. Giờ đây, với sự trợ giúp của sự phát triển này, có thể giải quyết được nhiều vấn đề mà trước đây máy tính không thể tiếp cận được.

Rõ ràng, deep learning vẫn chưa hoàn hảo nhưng nó đã gần hữu ích về mặt thương mại. Ví dụ như những chiếc xe tự lái này. Các công ty nổi tiếng như Google, Tesla và Uber đang cố gắng giới thiệu ô tô tự hành trên đường phố.

Ford dự đoán tăng đáng kể chia sẻ máy bay không người lái Phương tiện giao thôngđến năm 2021. Chính phủ Hoa Kỳ cũng đã cố gắng xây dựng một bộ quy tắc an toàn cho họ.

Học sâu là gì?

Để trả lời câu hỏi này, bạn cần hiểu cách nó tương tác với máy học, mạng lưới thần kinh và trí tuệ nhân tạo. Để làm điều này, chúng tôi sử dụng phương pháp trực quan hóa bằng các vòng tròn đồng tâm:

Vòng ngoài là trí tuệ nhân tạo nói chung (ví dụ: máy tính). Một chút nữa - học máy và ngay chính giữa là mạng lưới thần kinh nhân tạo và học sâu.

Nói một cách đại khái, deep learning đơn giản là một cái tên tiện lợi hơn cho mạng lưới thần kinh nhân tạo. “Sâu” trong cụm từ này đề cập đến mức độ phức tạp (độ sâu) của mạng lưới thần kinh, thường có thể khá hời hợt.

Những người tạo ra mạng lưới thần kinh đầu tiên được lấy cảm hứng từ cấu trúc của vỏ não. Lớp cơ sở của mạng, perceptron, về cơ bản là phần tử tương tự về mặt toán học của một nơ-ron sinh học. Và, cũng như trong não, các perceptron giao nhau với nhau có thể xuất hiện trong mạng lưới thần kinh.

Lớp đầu tiên của mạng nơ-ron được gọi là lớp đầu vào. Mỗi nút trong lớp này nhận một số thông tin làm đầu vào và truyền nó đến các nút tiếp theo trong các lớp khác. Thông thường, không có kết nối nào giữa các nút của một lớp và nút cuối cùng của chuỗi đưa ra kết quả của mạng lưới thần kinh.

Các nút ở giữa được gọi là ẩn vì chúng không có kết nối tới thế giới bên ngoài, dưới dạng các nút đầu ra và đầu vào. Chúng chỉ được gọi khi các lớp trước đó được kích hoạt.

Học kĩ càng về cơ bản là một kỹ thuật huấn luyện mạng lưới thần kinh sử dụng nhiều lớp để giải quyết các vấn đề phức tạp (chẳng hạn như nhận dạng giọng nói) bằng cách sử dụng các mẫu. Vào những năm 80, hầu hết các mạng nơ-ron đều là mạng đơn lớp do chi phí cao và khả năng dữ liệu hạn chế.

Nếu coi machine learning là một nhánh hay một biến thể của trí tuệ nhân tạo thì deep learning chính là loại chuyên dụng một nhánh như vậy.

Học máy sử dụng trí thông minh máy tính không cung cấp câu trả lời ngay lập tức. Thay vào đó, mã sẽ chạy trên dữ liệu thử nghiệm và dựa trên tính chính xác của kết quả, sẽ điều chỉnh tiến trình của nó. Để quá trình này thành công, nhiều kỹ thuật, phần mềm đặc biệt và khoa học máy tính thường được sử dụng để mô tả phương pháp tĩnh và đại số tuyến tính.

Phương pháp học sâu

Phương pháp học sâu được chia thành hai loại chính:

  • Đào tạo kèm cặp
  • Học tập không giám sát

Phương pháp đầu tiên sử dụng dữ liệu được lựa chọn đặc biệt để đạt được kết quả mong muốn. Nó đòi hỏi khá nhiều sự can thiệp của con người, vì dữ liệu phải được lựa chọn thủ công. Tuy nhiên, nó rất hữu ích cho việc phân loại và hồi quy.

Hãy tưởng tượng rằng bạn là chủ sở hữu của một công ty và muốn xác định tác động của tiền thưởng đến thời hạn hợp đồng của cấp dưới. Với dữ liệu được thu thập trước, phương pháp học có giám sát sẽ rất cần thiết và rất hiệu quả.

Phương pháp thứ hai không bao hàm các câu trả lời và thuật toán làm việc được chuẩn bị trước. Nó nhằm mục đích xác định các mẫu ẩn trong dữ liệu. Nó thường được sử dụng cho các nhiệm vụ phân cụm và liên kết, chẳng hạn như nhóm khách hàng theo hành vi. “Họ cũng chọn cái này” trên Amazon là một biến thể của nhiệm vụ liên kết.

Mặc dù việc học có giám sát thường khá thuận tiện nhưng nó còn phức tạp hơn lựa chọn khó khăn vẫn tốt hơn. Học sâu đã chứng tỏ mình là một mạng lưới thần kinh không cần sự giám sát của con người.

Tầm quan trọng của học sâu

Máy tính từ lâu đã sử dụng công nghệ để nhận dạng các đặc điểm nhất định trong hình ảnh. Tuy nhiên, kết quả đã không thành công. Tầm nhìn máy tínhđã có tác động đáng kinh ngạc đến việc học sâu. Chính hai kỹ thuật này khoảnh khắc này giải quyết mọi vấn đề về nhận dạng.

Đặc biệt, Facebook đã thành công trong việc nhận diện khuôn mặt trong ảnh bằng deep learning. Đây không phải là một sự cải tiến đơn giản về công nghệ mà là một bước ngoặt làm thay đổi mọi niềm tin trước đó: “Một người có thể xác định với xác suất 97,53% liệu cùng một người có đại diện cho hai người hay không. những bức ảnh khác nhau. Chương trình do nhóm Facebook phát triển có thể thực hiện điều này với xác suất 97,25%, bất kể ánh sáng hay người đó đang nhìn thẳng vào máy ảnh hay quay sang một bên.”

Nhận dạng giọng nói cũng đã trải qua những thay đổi đáng kể. Nhóm nghiên cứu tại Baidu, một trong những công cụ tìm kiếm hàng đầu ở Trung Quốc, đã phát triển một hệ thống nhận dạng giọng nói có thể vượt xa con người về tốc độ và độ chính xác khi viết văn bản bằng tiếng Anh. thiêt bị di động. Bằng tiếng Anh và tiếng Quan Thoại.

Điều đặc biệt thú vị là việc viết một mạng lưới thần kinh chung cho hai ngôn ngữ hoàn toàn khác nhau không đòi hỏi nhiều công sức: “Trong lịch sử, mọi người coi tiếng Trung và tiếng Anh là hai ngôn ngữ hoàn toàn khác nhau, vì vậy cần có một cách tiếp cận khác nhau đối với mỗi ngôn ngữ đó,” nói người đứng đầu Trung tâm nghiên cứu Baidu, Andrew Ng. “Các thuật toán học tập hiện nay đã được khái quát hóa đến mức bạn có thể Chỉ học hỏi."

Google sử dụng deep learning để quản lý năng lượng trong trung tâm dữ liệu của công ty. Họ đã có thể giảm 40% chi phí tài nguyên làm mát. Đó là mức cải thiện khoảng 15% về hiệu quả năng lượng và tiết kiệm hàng triệu đô la.

Dịch vụ vi mô học sâu

Đây Đánh giá ngắn dịch vụ liên quan đến deep learning.

Trình gắn thẻ minh họa. Được cải tiến bởi Illustration2Vec, dịch vụ này cho phép bạn đánh dấu các hình ảnh với xếp hạng “được bảo vệ”, “có vấn đề”, “nguy hiểm”, “bản quyền” hoặc “chung” để hiểu trước nội dung của hình ảnh.

  • Tiện ích bổ sung Theano của Google
  • Có thể chỉnh sửa bằng Python và Numpy
  • Thường được sử dụng để giải quyết một loạt vấn đề cụ thể
  • Không mục đích chung. Tập trung vào thị giác máy
  • Đã chỉnh sửa bằng C++
  • Có một giao diện bằng Python

Các khóa học trực tuyến về học sâu

Google và Udacity đã hợp tác để tạo một khóa học miễn phí về học sâu, một phần của Khóa học máy học của Udacity. Chương trình này được dẫn dắt bởi các nhà phát triển giàu kinh nghiệm, những người muốn phát triển lĩnh vực học máy và đặc biệt là học sâu.

Một lựa chọn phổ biến khác là khóa học máy học của Andrew Ng, được Coursera và Stanford hỗ trợ.

  1. Học máy - Stanford của Andrew Ng trên Coursera (2010-2014)
  2. Học máy - Caltech của Yaser Abu-mostafa (2012-2014)
  3. Học máy - Carnegie Mellon của Tom Mitchell (Mùa xuân 2011)
  4. Mạng lưới thần kinh cho máy học – Geoffrey Hinton trên Coursera (2012)
  5. Lớp mạng lưới thần kinh– Hugo Larochelle từ Đại học Sherbrooke (2013)

Sách về học sâu

Trong khi các tài nguyên ở phần trước dựa trên nền tảng kiến ​​thức khá sâu rộng, Grokking Học kĩ càng", ngược lại, được thiết kế cho người mới bắt đầu. Như các tác giả đã nói: “Nếu bạn đã học xong lớp 11 và hiểu sơ bộ về cách viết Python, chúng tôi sẽ dạy bạn học sâu”.

Một lựa chọn thay thế phổ biến cho cuốn sách này là một cuốn sách có tựa đề dễ hiểu là Deep Learning Book. Nó đặc biệt tốt vì nó bao gồm tất cả các phép toán mà bạn cần để tiếp cận lĩnh vực này.

  1. "Học sâu" của Yoshua Bengio, Ian Goodfellow và Aaron Courville (2015)
  2. “Mạng lưới thần kinh và học sâu” của Michael Nielsen (2014)
  3. "Học sâu" từ Microsoft Research (2013)
  4. “Hướng dẫn học sâu” từ Phòng thí nghiệm LISA, Đại học Montreal (2015)
  5. “Thảo luận thần kinh” của Andrej Karpathy
  6. "Giới thiệu về thuật toán di truyền"
  7. “Cách tiếp cận hiện đại với trí tuệ nhân tạo”
  8. "Tổng quan về học sâu và mạng lưới thần kinh"

Video và bài giảng

Deep Learning Simplified là một kênh YouTube tuyệt vời. Đây là video đầu tiên của họ:

Đã hơn 20 năm trôi qua kể từ khi thuật ngữ “học sâu” được đặt ra, nhưng mọi người chỉ mới bắt đầu nói về nó gần đây. Chúng tôi giải thích ngắn gọn lý do tại sao điều này xảy ra, deep learning là gì, nó khác với machine learning như thế nào và tại sao bạn cần biết về nó.

  • Nó là gì?

    Học sâu là một nhánh của học máy sử dụng mô hình lấy cảm hứng từ cách hoạt động của bộ não - cách các tế bào thần kinh tương tác.

    Bản thân thuật ngữ này đã xuất hiện từ những năm 1980 nhưng phải đến năm 2012 mới có đủ năng lực để triển khai công nghệ này và hầu như không ai để ý đến nó. Sau hàng loạt bài viết của các nhà khoa học nổi tiếng và bài đăng trên các tạp chí khoa học, công nghệ này nhanh chóng trở nên phổ biến và nhận được sự quan tâm của các phương tiện truyền thông lớn - The New York Times là cơ quan truyền thông thế giới đầu tiên viết về nó. Một trong những nguyên nhân khiến vật liệu công trình khoa học các chuyên gia từ các trường đại học Toronto Alex Krizhevsky, Ilya Satskever và Jeff Hinton. Họ đã mô tả và phân tích kết quả của cuộc thi nhận dạng hình ảnh ImageNet, trong đó mạng lưới thần kinh của họ được huấn luyện bằng phương pháp học sâu đã giành chiến thắng với tỷ số cách biệt lớn - hệ thống đã xác định được 85% đối tượng. Kể từ đó, chỉ có mạng lưới thần kinh sâu mới giành chiến thắng trong cuộc thi

  • Đợi đã, học máy là gì?

    Đây là một trường con của trí tuệ nhân tạo và là thuật ngữ mô tả các phương pháp xây dựng các thuật toán học hỏi từ kinh nghiệm mà không cần viết chương trình đặc biệt. Nghĩa là, trong trường hợp này, một người không cần phải giải thích cho máy cách giải quyết vấn đề; nó sẽ tự tìm ra câu trả lời từ dữ liệu được cung cấp cho nó. Ví dụ: nếu muốn thuật toán nhận dạng khuôn mặt, chúng ta phải hiển thị cho nó mười nghìn khuôn mặt khác nhau, lưu ý chính xác vị trí của khuôn mặt và sau đó chương trình sẽ tự học cách nhận dạng khuôn mặt đó.

    Máy có thể học cả với sự trợ giúp của giáo viên, khi giáo viên đánh dấu các câu trả lời đúng cho máy và không có giáo viên. Nhưng kết quả sẽ tốt hơn khi học với giáo viên. Mỗi khi quá trình xử lý dữ liệu diễn ra, hệ thống sẽ trở nên chính xác hơn.

  • Học sâu hoạt động như thế nào?

    Nó bắt chước tư duy trừu tượng của con người và có khả năng khái quát hóa. Ví dụ: mạng nơ-ron được đào tạo bằng máy không nhận dạng tốt các chữ viết tay - và do đó nó không bị nhầm lẫn trong Các tùy chọn khác nhau viết, tất cả đều phải được tải vào đó.

    Học sâu được sử dụng trong trường hợp làm việc với mạng lưới thần kinh nhân tạo nhiều lớp và sẽ có thể giải quyết được nhiệm vụ này.

    “Có ba thuật ngữ Gần đây thường được sử dụng gần như thay thế cho nhau: trí tuệ nhân tạo, học máy và học sâu. Tuy nhiên, đây thực sự là những thuật ngữ “lồng nhau”: trí tuệ nhân tạo là bất cứ thứ gì có thể giúp máy tính thực hiện các nhiệm vụ của con người; học máy là một nhánh của AI, trong đó các chương trình không chỉ giải quyết vấn đề mà còn học dựa trên kinh nghiệm mà chúng có và học sâu là một nhánh của học máy nghiên cứu mạng lưới thần kinh sâu.

    Nói một cách đơn giản: 1.nếu bạn viết một chương trình chơi cờ thì đây là trí tuệ nhân tạo; 2.nếu nó học dựa trên các trò chơi đại kiện tướng hoặc bằng cách đấu với chính nó thì đây là máy học; 3.và nếu nó học được từ nó không chỉ bất cứ thứ gì mà còn từ mạng lưới thần kinh sâu, thì đó là học sâu.”.

  • Học sâu hoạt động như thế nào?

    Hãy lấy một ví dụ đơn giản - chúng tôi sẽ hiển thị các bức ảnh mạng lưới thần kinh mô tả một cậu bé và một cô gái. Ở lớp đầu tiên, tế bào thần kinh phản ứng với những hình ảnh trực quan đơn giản, chẳng hạn như sự thay đổi độ sáng. Về thứ hai - phức tạp hơn: góc, hình tròn. Đến lớp thứ ba, tế bào thần kinh có thể phản ứng với các dòng chữ và khuôn mặt con người. Đối với mỗi lớp tiếp theo, hình ảnh được xác định sẽ phức tạp hơn. Mạng lưới thần kinh tự nó xác định cái nào Các yếu tố hình ảnh cô ấy quan tâm đến việc giải quyết vấn đề này và xếp chúng theo thứ tự quan trọng để sau này hiểu rõ hơn những gì được hiển thị trong bức ảnh.

  • Và họ đã phát triển được những gì với nó?

    Hầu hết các dự án học sâu đều được sử dụng trong nhận dạng hình ảnh hoặc âm thanh và chẩn đoán bệnh. Ví dụ, nó đã được sử dụng trong bản dịch của Google từ một hình ảnh: Công nghệ Deep Learning phát hiện xem có các chữ cái trong hình ảnh hay không và sau đó dịch chúng. Một dự án khác hoạt động với ảnh là hệ thống nhận dạng khuôn mặt có tên DeepFace. Nó có thể nhận dạng khuôn mặt con người với độ chính xác 97,25% - độ chính xác gần tương đương với con người.

    Năm 2016 năm Google phát hành WaveNet, một hệ thống có thể mô phỏng giọng nói của con người. Để làm được điều này, hãng đã tải lên hệ thống hàng triệu phút dữ liệu được ghi lại. yêu cầu bằng giọng nói, được sử dụng trong dự án OK Google và sau khi nghiên cứu, bản thân mạng lưới thần kinh đã có thể soạn các câu với trọng âm, sự nhấn mạnh chính xác và không có những khoảng dừng phi logic.

    Đồng thời, học sâu có thể phân đoạn một hình ảnh hoặc video theo ngữ nghĩa - nghĩa là không chỉ chỉ ra rằng có một đối tượng trong ảnh mà còn làm nổi bật các đường viền của nó một cách lý tưởng. Công nghệ này được sử dụng trong ô tô tự lái để phát hiện vật cản trên đường, vạch kẻ đường và đọc biển báo đường để tránh tai nạn. Mạng lưới thần kinh cũng được sử dụng trong y học - ví dụ như để xác định bệnh võng mạc tiểu đường từ ảnh chụp mắt của bệnh nhân. Bộ Y tế Hoa Kỳ đã cho phép sử dụng công nghệ này trong các phòng khám của chính phủ.

  • Tại sao họ không bắt đầu triển khai deep learning sớm hơn?

    Trước đây, việc này rất tốn kém, khó khăn và tốn thời gian - bạn cần bộ xử lý đồ họa, card màn hình và bộ nhớ mạnh mẽ. Sự bùng nổ của deep learning có liên quan chính xác đến sự phổ biến rộng rãi của GPU, giúp tăng tốc và giảm chi phí tính toán, khả năng lưu trữ dữ liệu hầu như không giới hạn và sự phát triển của công nghệ “dữ liệu lớn”.

  • Đây là công nghệ mang tính đột phá, liệu nó có thay đổi được mọi thứ?

    Thật khó để nói chắc chắn về điều này; Một mặt, Google, Facebook và những người khác các công ty lớnđã đầu tư hàng tỷ đô la và rất lạc quan. Theo quan điểm của họ, mạng lưới thần kinh với deep learning có thể thay đổi Thiết bị công nghệ hòa bình. Một trong những chuyên gia hàng đầu về học máy, Andrew Ng, cho biết: “Nếu một người có thể thực hiện một nhiệm vụ trong đầu trong một giây, rất có thể nhiệm vụ đó sẽ được tự động hóa trong tương lai gần”. Ng gọi machine learning là “nguồn điện mới” - đó là một cuộc cách mạng công nghệ và các công ty bỏ qua nó sẽ nhanh chóng thấy mình bị tụt hậu so với đối thủ một cách vô vọng.

    Mặt khác, cũng có những người hoài nghi: họ tin rằng học sâu là một từ thông dụng hoặc một cách đổi tên thương hiệu của mạng lưới thần kinh. Ví dụ, Sergei Bartunov, giảng viên cao cấp tại Khoa Khoa học Máy tính của Trường Kinh tế Cao cấp, tin rằng thuật toán này chỉ là một trong những lựa chọn (và không phải là tốt nhất) để đào tạo mạng lưới thần kinh, thuật toán này đã nhanh chóng được đón nhận bởi các ấn phẩm đại chúng và bây giờ mọi người đều biết đến.

    Sergey Nikolenko, đồng tác giả cuốn sách “Học sâu”: “Lịch sử trí tuệ nhân tạo đã trải qua hai “mùa đông”, khi làn sóng cường điệu và kỳ vọng cao kéo theo sự thất vọng. Nhân tiện, cả hai lần, nó đều được kết nối với mạng lưới thần kinh. Đầu tiên, vào cuối những năm 1950, người ta quyết định rằng perceptron của Rosenblatt sẽ ngay lập tức dẫn đến dịch máy và máy tính tự nhận thức; nhưng tất nhiên là nó không thành công do phần cứng, dữ liệu hạn chế và thiếu mô hình phù hợp.

    Và vào cuối những năm 1980, sai lầm tương tự cũng xảy ra khi họ tìm ra cách đào tạo bất kỳ kiến ​​trúc mạng lưới thần kinh nào. Dường như nó đây rồi, một chiếc chìa khóa vàng có thể mở được bất kỳ cánh cửa nào. Đây không còn là một kết luận ngây thơ nữa: thực sự, nếu bạn lấy một mạng lưới thần kinh từ cuối những năm 1980, làm cho nó lớn hơn một cách cơ học (tăng số lượng nơ-ron) và huấn luyện nó trên các bộ dữ liệu hiện đại và phần cứng hiện đại, nó sẽ hoạt động rất tốt! Nhưng lúc đó không có đủ dữ liệu hay phần cứng, cuộc cách mạng deep learning phải tạm hoãn đến cuối những năm 2000.

    Chúng ta hiện đang sống trong làn sóng cường điệu trí tuệ nhân tạo thứ ba. Liệu nó sẽ kết thúc vào “mùa đông” thứ ba hay việc tạo ra AI mạnh mẽ, chỉ có thời gian mới trả lời được.”