Định nghĩa dữ liệu lớn. Kỹ thuật và phương pháp phân tích áp dụng cho Big data theo McKinsey. Lợi ích của nghiên cứu miễn trừ

Chuyện gì đã xảy ra vậy Dữ liệu lớn(theo đúng nghĩa đen - dữ liệu lớn)? Đầu tiên chúng ta hãy xem Từ điển Oxford:

Dữ liệu- số lượng, dấu hiệu hoặc ký hiệu mà máy tính vận hành và có thể được lưu trữ và truyền dưới dạng tín hiệu điện, được ghi trên phương tiện từ tính, quang học hoặc cơ học.

Thuật ngữ Dữ liệu lớnđược sử dụng để mô tả một tập dữ liệu lớn tăng theo cấp số nhân theo thời gian. Để xử lý một lượng dữ liệu như vậy, bạn không thể làm gì nếu không có.

Những lợi ích mà Big Data mang lại:

  1. Thu thập dữ liệu từ nhiều nguồn khác nhau.
  2. Cải thiện quy trình kinh doanh thông qua phân tích thời gian thực.
  3. Lưu trữ lượng dữ liệu khổng lồ.
  4. Thông tin chi tiết. Dữ liệu lớn sâu sắc hơn thông tin ẩn sử dụng dữ liệu có cấu trúc và bán cấu trúc.
  5. Dữ liệu lớn giúp bạn giảm thiểu rủi ro và đưa ra quyết định thông minh nhờ phân tích rủi ro phù hợp

Ví dụ về dữ liệu lớn

Sở giao dịch chứng khoán New York tạo ra hàng ngày 1 terabyte dữ liệu giao dịch trong phiên vừa qua.

Truyền thông xã hội: Thống kê cho thấy Facebook upload hàng ngày 500 terabyte Dữ liệu mới được tạo ra chủ yếu do tải ảnh và video lên máy chủ mạng xã hội, nhắn tin, bình luận dưới bài đăng, v.v.

Động cơ máy bay phản lực tạo ra 10 terabyte dữ liệu cứ sau 30 phút trong suốt chuyến bay. Vì có hàng nghìn chuyến bay được thực hiện mỗi ngày nên khối lượng dữ liệu lên tới hàng petabyte.

Phân loại dữ liệu lớn

Các hình thức dữ liệu lớn:

  • Có cấu trúc
  • Không có cấu trúc
  • Bán cấu trúc

Dạng có cấu trúc

Dữ liệu có thể được lưu trữ, truy cập và xử lý ở dạng có định dạng cố định được gọi là có cấu trúc. Trong một thời gian dài khoa học máy tínhđã có những bước tiến lớn trong việc cải tiến các kỹ thuật làm việc với loại dữ liệu này (trong đó định dạng được biết trước) và đã học được cách hưởng lợi. Tuy nhiên, ngày nay đã có những vấn đề liên quan đến việc tăng dung lượng lên kích thước được đo trong phạm vi vài zettabyte.

1 zettabyte bằng một tỷ terabyte

Nhìn vào những con số này, có thể dễ dàng nhận thấy tính xác thực của thuật ngữ Big Data cũng như những khó khăn liên quan đến việc xử lý, lưu trữ những dữ liệu đó.

Dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ có cấu trúc và trông giống như các bảng nhân viên công ty chẳng hạn.

Dạng không có cấu trúc

Dữ liệu có cấu trúc chưa biết được phân loại là không có cấu trúc. Ngoài kích thước lớn, hình dạng này còn có một số khó khăn trong quá trình xử lý và loại bỏ. thông tin hữu ích. Ví dụ điển hình dữ liệu phi cấu trúc - một nguồn không đồng nhất chứa sự kết hợp của các dữ liệu đơn giản tập tin văn bản, hình ảnh và video. Ngày nay, các tổ chức có quyền truy cập vào một lượng lớn dữ liệu thô hoặc dữ liệu phi cấu trúc nhưng không biết cách trích xuất giá trị từ nó.

Dạng bán cấu trúc

Danh mục này chứa cả hai loại được mô tả ở trên, vì vậy dữ liệu bán cấu trúc có một số dạng nhưng không thực sự được xác định bởi các bảng trong cơ sở dữ liệu quan hệ. Một ví dụ về danh mục này là dữ liệu cá nhân được trình bày dưới dạng tệp XML.

Prashant RaoNam giới35 Seema R.Nữ giới41 bờm satishNam giới29 Subrato RoyNam giới26 Jeremiah J.Nam giới35

Đặc điểm của dữ liệu lớn

Tăng trưởng dữ liệu lớn theo thời gian:

Màu xanh lam biểu thị dữ liệu có cấu trúc (Dữ liệu doanh nghiệp), được lưu trữ trong cơ sở dữ liệu quan hệ. Các màu khác biểu thị dữ liệu phi cấu trúc từ nhiều nguồn khác nhau (điện thoại IP, thiết bị và cảm biến, mạng xã hội và ứng dụng web).

Theo Gartner, dữ liệu lớn khác nhau về khối lượng, tốc độ tạo, tính đa dạng và tính biến đổi. Chúng ta hãy xem xét kỹ hơn những đặc điểm này.

  1. Âm lượng. Bản thân thuật ngữ Dữ liệu lớn gắn liền với kích thước lớn. Kích thước dữ liệu là một thước đo quan trọng trong việc xác định giá trị tiềm năng được trích xuất. Mỗi ngày, có 6 triệu người sử dụng phương tiện kỹ thuật số, tạo ra khoảng 2,5 triệu byte dữ liệu. Vì vậy, khối lượng là đặc tính đầu tiên cần xem xét.
  2. Đa dạng- khía cạnh tiếp theo. Nó đề cập đến các nguồn không đồng nhất và bản chất của dữ liệu, có thể có cấu trúc hoặc không có cấu trúc. Trước đây, bảng tính và cơ sở dữ liệu là nguồn thông tin duy nhất được xem xét trong hầu hết các ứng dụng. Ngày nay, dữ liệu dưới dạng email, ảnh, video, tệp PDF và âm thanh cũng được xem xét trong các ứng dụng phân tích. Sự đa dạng của dữ liệu phi cấu trúc này dẫn đến các vấn đề về lưu trữ, khai thác và phân tích: 27% công ty không tự tin rằng họ đang làm việc với dữ liệu phù hợp.
  3. Tốc độ thế hệ. Dữ liệu được tích lũy và xử lý nhanh như thế nào để đáp ứng yêu cầu sẽ quyết định tiềm năng. Tốc độ xác định tốc độ của luồng thông tin từ các nguồn - quy trình kinh doanh, nhật ký ứng dụng, mạng xã hội và các trang truyền thông, cảm biến, thiết bị di động. Luồng dữ liệu rất lớn và liên tục theo thời gian.
  4. Sự biến đổi mô tả sự thay đổi của dữ liệu tại một số thời điểm, làm phức tạp việc xử lý và quản lý. Ví dụ, hầu hết dữ liệu về bản chất là không có cấu trúc.

Phân tích dữ liệu lớn: lợi ích của dữ liệu lớn là gì

Khuyến mãi hàng hóa và dịch vụ: Việc truy cập dữ liệu từ các công cụ tìm kiếm và các trang web như Facebook và Twitter cho phép doanh nghiệp phát triển các chiến lược tiếp thị chính xác hơn.

Cải thiện dịch vụ cho khách hàng: Hệ thống phản hồi khách hàng truyền thống đang được thay thế bằng hệ thống mới sử dụng Dữ liệu lớn và Xử lý ngôn ngữ tự nhiên để đọc và đánh giá phản hồi của khách hàng.

Tính toán rủi ro liên quan đến việc phát hành một sản phẩm hoặc dịch vụ mới.

Hiệu quả hoạt động: dữ liệu lớn được cấu trúc để nhanh chóng trích xuất các thông tin cần thiết và nhanh chóng đưa ra kết quả chính xác. Sự kết hợp giữa Dữ liệu lớn và công nghệ lưu trữ này giúp các tổ chức tối ưu hóa công việc của họ với những thông tin hiếm khi được sử dụng.

Chuyên mục của giáo viên HSE về những lầm tưởng và trường hợp làm việc với dữ liệu lớn

Để đánh dấu

Các giáo viên tại Trường Truyền thông Mới tại Trường Kinh tế Cao cấp thuộc Đại học Nghiên cứu Quốc gia Konstantin Romanov và Alexander Pyatigorsky, đồng thời là giám đốc chuyển đổi kỹ thuật số tại Beeline, đã viết một chuyên mục cho trang web về những quan niệm sai lầm chính về dữ liệu lớn - ví dụ về việc sử dụng công nghệ và công cụ. Các tác giả cho rằng ấn phẩm này sẽ giúp các nhà quản lý công ty hiểu được khái niệm này.

Những lầm tưởng và quan niệm sai lầm về Dữ liệu lớn

Dữ liệu lớn không phải là tiếp thị

Thuật ngữ Dữ liệu lớn đã trở nên rất thời thượng - nó được sử dụng trong hàng triệu tình huống và theo hàng trăm cách hiểu khác nhau, thường không liên quan đến nó là gì. Các khái niệm thường được thay thế trong đầu mọi người và Dữ liệu lớn bị nhầm lẫn với một sản phẩm tiếp thị. Hơn nữa, ở một số công ty, Big Data là một phần của bộ phận tiếp thị. Kết quả phân tích dữ liệu lớn thực sự có thể là nguồn cho hoạt động tiếp thị, nhưng không có gì hơn thế. Hãy xem nó hoạt động như thế nào.

Nếu chúng tôi xác định được danh sách những người đã mua hàng hóa trị giá hơn ba nghìn rúp trong cửa hàng của chúng tôi hai tháng trước và sau đó gửi cho những người dùng này một số loại ưu đãi, thì đây là cách tiếp thị điển hình. Chúng tôi rút ra một mô hình rõ ràng từ dữ liệu cấu trúc và sử dụng nó để tăng doanh số bán hàng.

Tuy nhiên, nếu chúng tôi kết hợp dữ liệu CRM với thông tin phát trực tuyến từ Instagram và phân tích nó, chúng tôi sẽ tìm thấy một mô hình: một người đã giảm hoạt động của mình vào tối thứ Tư và có bức ảnh mới nhất cho thấy mèo con nên đưa ra một đề nghị nhất định. Đây sẽ là Dữ liệu lớn. Chúng tôi đã tìm ra yếu tố kích hoạt, chuyển nó cho các nhà tiếp thị và họ sử dụng nó cho mục đích riêng của mình.

Từ đó, công nghệ thường hoạt động với dữ liệu phi cấu trúc và ngay cả khi dữ liệu có cấu trúc, hệ thống vẫn tiếp tục tìm kiếm các mẫu ẩn trong đó, điều mà hoạt động tiếp thị không làm được.

Dữ liệu lớn không phải là CNTT

Thái cực thứ hai của câu chuyện này: Dữ liệu lớn thường bị nhầm lẫn với CNTT. Điều này là do ở các công ty Nga, theo quy định, các chuyên gia CNTT là người điều khiển tất cả các công nghệ, bao gồm cả dữ liệu lớn. Do đó, nếu mọi thứ diễn ra trong bộ phận này, thì toàn bộ công ty sẽ có ấn tượng rằng đây là một loại hoạt động CNTT nào đó.

Trên thực tế, có sự khác biệt cơ bản ở đây: Dữ liệu lớn là một hoạt động nhằm đạt được một sản phẩm cụ thể, hoàn toàn không liên quan đến CNTT, mặc dù công nghệ không thể tồn tại nếu không có nó.

Dữ liệu lớn không phải lúc nào cũng là việc thu thập và phân tích thông tin

Có một quan niệm sai lầm khác về Dữ liệu lớn. Mọi người đều hiểu rằng công nghệ này liên quan đến một lượng lớn dữ liệu, nhưng loại dữ liệu đó là gì thì không phải lúc nào cũng rõ ràng. Bất cứ ai cũng có thể thu thập và sử dụng thông tin; giờ đây điều này không chỉ có thể thực hiện được trong các bộ phim mà còn ở bất kỳ công ty nào, kể cả rất nhỏ. Câu hỏi duy nhất là thu thập chính xác những gì và làm thế nào để sử dụng nó để làm lợi thế cho bạn.

Nhưng cần hiểu rằng công nghệ Dữ liệu lớn sẽ không phải là việc thu thập và phân tích hoàn toàn bất kỳ thông tin nào. Ví dụ: nếu bạn thu thập dữ liệu về một người cụ thể trên mạng xã hội thì đó sẽ không phải là Big Data.

Dữ liệu lớn thực sự là gì?

Dữ liệu lớn bao gồm ba yếu tố:

  • dữ liệu;
  • phân tích;
  • công nghệ.

Dữ liệu lớn không chỉ là một trong những thành phần này mà là sự kết hợp của cả ba yếu tố. Người ta thường thay thế các khái niệm: một số người tin rằng Big Data chỉ là dữ liệu, số khác lại cho rằng đó là công nghệ. Nhưng trên thực tế, cho dù bạn thu thập bao nhiêu dữ liệu, bạn cũng sẽ không thể làm được gì với dữ liệu đó nếu không có công nghệ và phân tích phù hợp. Nếu có phân tích tốt nhưng không có dữ liệu thì còn tệ hơn nữa.

Nếu chúng ta nói về dữ liệu, đây không chỉ là văn bản mà còn là tất cả các bức ảnh được đăng trên Instagram và nói chung là mọi thứ có thể được phân tích và sử dụng cho các mục đích và nhiệm vụ khác nhau. Nói cách khác, Dữ liệu đề cập đến khối lượng lớn dữ liệu bên trong và bên ngoài của các cấu trúc khác nhau.

Phân tích cũng cần thiết, vì nhiệm vụ của Dữ liệu lớn là xây dựng một số mẫu. Nghĩa là, phân tích là việc xác định các phụ thuộc tiềm ẩn và tìm kiếm các câu hỏi và câu trả lời mới dựa trên việc phân tích toàn bộ khối lượng dữ liệu không đồng nhất. Hơn nữa, Dữ liệu lớn đặt ra những câu hỏi không thể rút ra trực tiếp từ dữ liệu này.

Về hình ảnh, việc bạn đăng ảnh mình mặc áo phông xanh chẳng có ý nghĩa gì cả. Nhưng nếu bạn sử dụng nhiếp ảnh để lập mô hình Dữ liệu lớn, có thể ngay bây giờ bạn nên đưa ra một khoản vay, bởi vì trong nhóm xã hội của bạn, hành vi như vậy cho thấy một hiện tượng nhất định đang hoạt động. Do đó, dữ liệu “trần trụi” không có phân tích, không xác định được các phần phụ thuộc ẩn và không rõ ràng, không phải là Dữ liệu lớn.

Vì vậy, chúng tôi có dữ liệu lớn. Mảng của họ rất lớn. Chúng tôi cũng có một nhà phân tích. Nhưng làm thế nào chúng ta có thể chắc chắn rằng từ dữ liệu thô này chúng ta sẽ đưa ra được một giải pháp cụ thể? Để làm được điều này, chúng ta cần những công nghệ cho phép chúng ta không chỉ lưu trữ chúng (và điều này trước đây là không thể) mà còn có thể phân tích chúng.

Nói một cách đơn giản, nếu bạn có nhiều dữ liệu, bạn sẽ cần các công nghệ, chẳng hạn như Hadoop, giúp lưu trữ tất cả thông tin ở dạng ban đầu để phân tích sau này. Loại công nghệ này xuất hiện ở những gã khổng lồ Internet, vì họ là những người đầu tiên phải đối mặt với vấn đề lưu trữ một lượng lớn dữ liệu và phân tích nó để kiếm tiền sau này.

Ngoài các công cụ lưu trữ dữ liệu tối ưu và giá rẻ, bạn cần có các công cụ phân tích cũng như các tiện ích bổ sung cho nền tảng được sử dụng. Ví dụ, toàn bộ hệ sinh thái gồm các dự án và công nghệ liên quan đã hình thành xung quanh Hadoop. Dưới đây là một số trong số họ:

  • Pig là một ngôn ngữ phân tích dữ liệu khai báo.
  • Hive - phân tích dữ liệu bằng ngôn ngữ tương tự như SQL.
  • Oozie - Quy trình làm việc của Hadoop.
  • Hbase là một cơ sở dữ liệu (không quan hệ), tương tự như Google Big Table.
  • Quản tượng học máy.
  • Sqoop - chuyển dữ liệu từ RSDB sang Hadoop và ngược lại.
  • Flume - chuyển nhật ký sang HDFS.
  • Người quản lý vườn thú, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS, v.v.

Tất cả những công cụ này đều được cung cấp miễn phí cho mọi người nhưng cũng có một số tiện ích bổ sung phải trả phí.

Ngoài ra, cần có các chuyên gia: nhà phát triển và nhà phân tích (được gọi là Nhà khoa học dữ liệu). Cũng cần có một người quản lý có thể hiểu cách áp dụng phân tích này để giải quyết nhiệm vụ cụ thể, bởi vì bản thân nó hoàn toàn vô nghĩa nếu không được tích hợp vào quy trình kinh doanh.

Cả ba nhân viên phải làm việc theo nhóm. Người quản lý giao cho chuyên gia Khoa học dữ liệu nhiệm vụ tìm kiếm một mẫu nhất định phải hiểu rằng không phải lúc nào anh ta cũng tìm thấy chính xác những gì mình cần. Trong trường hợp này, người quản lý nên lắng nghe cẩn thận những gì Nhà khoa học dữ liệu tìm thấy, vì những phát hiện của anh ta thường thú vị và hữu ích hơn cho doanh nghiệp. Công việc của bạn là áp dụng điều này vào doanh nghiệp và tạo ra sản phẩm từ đó.

Mặc dù hiện nay có rất nhiều loại máy móc, công nghệ khác nhau nhưng quyết định cuối cùng luôn thuộc về con người. Để làm được điều này, thông tin cần phải được hình dung bằng cách nào đó. Có khá nhiều công cụ cho việc này.

Ví dụ đáng chú ý nhất là các báo cáo phân tích địa lý. Công ty Beeline làm việc rất nhiều với chính quyền của các thành phố và khu vực khác nhau. Rất thường xuyên, các tổ chức này yêu cầu các báo cáo như “Tắc nghẽn giao thông ở một địa điểm nhất định”.

Rõ ràng là một báo cáo như vậy phải đến tay các cơ quan chính phủ dưới hình thức đơn giản và dễ hiểu. Nếu chúng tôi cung cấp cho họ một bảng khổng lồ và hoàn toàn không thể hiểu được (nghĩa là thông tin ở dạng mà chúng tôi nhận được), họ khó có thể mua một báo cáo như vậy - nó sẽ hoàn toàn vô dụng, họ sẽ không nhận được kiến ​​​​thức từ đó họ muốn nhận.

Do đó, cho dù các nhà khoa học dữ liệu có giỏi đến đâu và họ có tìm thấy mẫu nào đi chăng nữa, bạn sẽ không thể làm việc với dữ liệu này nếu không có các công cụ trực quan hóa tốt.

Nguồn dữ liệu

Mảng dữ liệu thu được rất lớn nên có thể chia thành nhiều nhóm.

Dữ liệu nội bộ công ty

Mặc dù 80% số liệu thu thập được thuộc nhóm này nhưng nguồn này không phải lúc nào cũng được sử dụng. Thường thì đây là dữ liệu mà có vẻ như không ai cần cả, chẳng hạn như nhật ký. Nhưng nếu nhìn chúng từ một góc độ khác, đôi khi bạn có thể tìm thấy những khuôn mẫu bất ngờ ở chúng.

Nguồn phần mềm chia sẻ

Điều này bao gồm dữ liệu từ mạng xã hội, Internet và mọi thứ có thể truy cập miễn phí. Tại sao nó là phần mềm chia sẻ miễn phí? Một mặt, dữ liệu này có sẵn cho tất cả mọi người, nhưng nếu bạn là một công ty lớn, thì việc nhận được nó với quy mô cơ sở người đăng ký lên tới hàng chục nghìn, hàng trăm hoặc hàng triệu khách hàng là điều hoàn toàn có thể. một nhiệm vụ không hề dễ dàng. Vì vậy, trên thị trường có các dịch vụ trả phí để cung cấp dữ liệu này.

Nguồn trả phí

Điều này bao gồm các công ty bán dữ liệu để lấy tiền. Đây có thể là viễn thông, DMP, công ty Internet, văn phòng tín dụng và công ty tổng hợp. Ở Nga, viễn thông không bán dữ liệu. Thứ nhất, nó không mang lại lợi ích kinh tế, thứ hai, nó bị pháp luật cấm. Do đó, họ bán kết quả xử lý của mình, chẳng hạn như báo cáo phân tích địa lý.

Dữ liệu mở

Nhà nước đang hỗ trợ các doanh nghiệp và cho họ cơ hội sử dụng dữ liệu họ thu thập. Điều này được phát triển ở mức độ lớn hơn ở phương Tây, nhưng Nga về mặt này cũng theo kịp thời đại. Ví dụ, có Cổng dữ liệu mở của Chính phủ Moscow, nơi công bố thông tin về các cơ sở hạ tầng đô thị khác nhau.

Đối với người dân và khách của Moscow, dữ liệu được trình bày dưới dạng bảng và bản đồ, còn đối với các nhà phát triển - ở các định dạng đặc biệt có thể đọc được bằng máy. Trong khi dự án đang hoạt động chế độ giới hạn, nhưng đang phát triển, có nghĩa là nó cũng là nguồn dữ liệu mà bạn có thể sử dụng cho các nhiệm vụ kinh doanh của mình.

Nghiên cứu

Như đã lưu ý, Nhiệm vụ lớn Dữ liệu - tìm một mẫu. Thông thường, nghiên cứu được thực hiện trên khắp thế giới có thể trở thành điểm tựa để tìm ra một mô hình cụ thể - bạn có thể nhận được một kết quả cụ thể và cố gắng áp dụng logic tương tự cho mục đích riêng của mình.

Dữ liệu lớn là một lĩnh vực không áp dụng được tất cả các định luật toán học. Ví dụ: “1” + “1” không phải là “2”, mà còn hơn thế nữa, vì bằng cách kết hợp các nguồn dữ liệu, hiệu ứng có thể được nâng cao đáng kể.

Ví dụ sản phẩm

Nhiều người đã quen thuộc với dịch vụ chọn nhạc Spotify. Thật tuyệt vì nó không hỏi người dùng tâm trạng của họ hôm nay như thế nào mà tính toán dựa trên các nguồn có sẵn. Anh ấy luôn biết bạn cần gì bây giờ - nhạc jazz hay hard rock. Đây là cái gì sự khác biệt chính, nơi cung cấp cho nó người hâm mộ và phân biệt nó với các dịch vụ khác.

Những sản phẩm như vậy thường được gọi là sản phẩm cảm giác - những sản phẩm cảm nhận được khách hàng của mình.

Công nghệ Big Data cũng được sử dụng trong ngành công nghiệp ô tô. Ví dụ: Tesla thực hiện điều này - trong Mẫu mới nhất có một máy lái tự động. Công ty cố gắng tạo ra một chiếc ô tô có thể tự đưa hành khách đến nơi họ cần đến. Nếu không có Dữ liệu lớn thì điều này là không thể, bởi vì nếu chúng ta chỉ sử dụng dữ liệu mà chúng ta nhận được trực tiếp, như con người vẫn làm, thì chiếc ô tô sẽ không thể cải thiện được.

Khi tự lái ô tô, chúng ta sử dụng tế bào thần kinh của mình để đưa ra quyết định dựa trên nhiều yếu tố mà chúng ta thậm chí không nhận thấy. Ví dụ, chúng tôi có thể không nhận ra lý do tại sao chúng tôi quyết định không tăng tốc ngay lập tức khi đèn xanh, nhưng sau đó hóa ra quyết định đó là đúng - một chiếc ô tô lao qua bạn với tốc độ chóng mặt và bạn đã tránh được một vụ tai nạn.

Bạn cũng có thể đưa ra một ví dụ về việc sử dụng Dữ liệu lớn trong thể thao. Năm 2002, tổng giám đốc của đội bóng chày Oakland Athletics, Billy Beane, đã quyết định phá vỡ mô hình tuyển dụng vận động viên - ông đã lựa chọn và đào tạo các cầu thủ “theo những con số”.

Thông thường các nhà quản lý nhìn vào sự thành công của các cầu thủ, nhưng trong trong trường hợp này mọi thứ đã khác - để đạt được kết quả, người quản lý đã nghiên cứu những sự kết hợp của các vận động viên mà anh ta cần, chú ý đến đặc điểm cá nhân. Hơn nữa, ông đã chọn những vận động viên mà bản thân họ không có nhiều tiềm năng, nhưng toàn đội đã thành công đến mức họ đã thắng 20 trận liên tiếp.

Đạo diễn Bennett Miller sau đó đã thực hiện một bộ phim dành riêng cho câu chuyện này - Người đàn ông đã thay đổi mọi thứ với sự tham gia của Brad Pitt.

Công nghệ Dữ liệu lớn cũng hữu ích trong lĩnh vực tài chính. Không một người nào trên thế giới có thể xác định một cách độc lập và chính xác liệu có đáng để cho ai đó vay hay không. Để đưa ra quyết định, việc tính điểm được thực hiện, tức là xây dựng một mô hình xác suất, từ đó có thể hiểu được người này có trả lại tiền hay không. Hơn nữa, việc tính điểm được áp dụng ở tất cả các giai đoạn: chẳng hạn, bạn có thể tính toán rằng tại một thời điểm nhất định, một người sẽ ngừng thanh toán.

Dữ liệu lớn cho phép bạn không chỉ kiếm tiền mà còn tiết kiệm tiền. Đặc biệt, công nghệ này đã giúp Bộ Lao động Đức giảm 10 tỷ euro chi phí trợ cấp thất nghiệp, vì sau khi phân tích thông tin, người ta thấy rõ rằng 20% ​​tiền trợ cấp đã được trả không xứng đáng.

Công nghệ cũng được sử dụng trong y học (điều này đặc biệt điển hình ở Israel). Với sự trợ giúp của Dữ liệu lớn, bạn có thể thực hiện phân tích chính xác hơn nhiều so với những gì một bác sĩ có ba mươi năm kinh nghiệm có thể làm.

Bất kỳ bác sĩ nào khi chẩn đoán cũng chỉ dựa vào chính mình trải nghiệm riêng. Khi máy thực hiện điều này, nó xuất phát từ kinh nghiệm của hàng ngàn bác sĩ như vậy và tất cả các lịch sử ca bệnh hiện có. Nó tính đến chất liệu mà ngôi nhà của bệnh nhân được làm, nạn nhân sống ở khu vực nào, có loại khói gì, v.v. Tức là nó tính đến rất nhiều yếu tố mà bác sĩ không tính đến.

Một ví dụ về việc sử dụng Dữ liệu lớn trong chăm sóc sức khỏe là dự án Project Artemis do Bệnh viện Nhi đồng Toronto thực hiện. Đây là hệ thống thông tin thu thập và phân tích dữ liệu về trẻ sơ sinh theo thời gian thực. Máy cho phép phân tích 1260 chỉ số sức khỏe của mỗi trẻ mỗi giây. Dự án này nhằm mục đích dự đoán tình trạng không ổn định của trẻ và ngăn ngừa bệnh tật ở trẻ.

Dữ liệu lớn cũng bắt đầu được sử dụng ở Nga: ví dụ Yandex có bộ phận dữ liệu lớn. Công ty cùng với AstraZeneca và Hiệp hội Ung thư lâm sàng Nga RUSSCO đã ra mắt nền tảng RAY dành cho các nhà di truyền học và sinh học phân tử. Dự án cho phép chúng tôi cải tiến các phương pháp chẩn đoán ung thư và xác định khuynh hướng ung thư. Nền tảng này sẽ ra mắt vào tháng 12 năm 2016.

Chuyên mục của giáo viên HSE về những lầm tưởng và trường hợp làm việc với dữ liệu lớn

Để đánh dấu

Các giáo viên tại Trường Truyền thông Mới tại Trường Kinh tế Cao cấp thuộc Đại học Nghiên cứu Quốc gia Konstantin Romanov và Alexander Pyatigorsky, đồng thời là giám đốc chuyển đổi kỹ thuật số tại Beeline, đã viết một chuyên mục cho trang web về những quan niệm sai lầm chính về dữ liệu lớn - ví dụ về việc sử dụng công nghệ và công cụ. Các tác giả cho rằng ấn phẩm này sẽ giúp các nhà quản lý công ty hiểu được khái niệm này.

Những lầm tưởng và quan niệm sai lầm về Dữ liệu lớn

Dữ liệu lớn không phải là tiếp thị

Thuật ngữ Dữ liệu lớn đã trở nên rất thời thượng - nó được sử dụng trong hàng triệu tình huống và theo hàng trăm cách hiểu khác nhau, thường không liên quan đến nó là gì. Các khái niệm thường được thay thế trong đầu mọi người và Dữ liệu lớn bị nhầm lẫn với một sản phẩm tiếp thị. Hơn nữa, ở một số công ty, Big Data là một phần của bộ phận tiếp thị. Kết quả phân tích dữ liệu lớn thực sự có thể là nguồn cho hoạt động tiếp thị, nhưng không có gì hơn thế. Hãy xem nó hoạt động như thế nào.

Nếu chúng tôi xác định được danh sách những người đã mua hàng hóa trị giá hơn ba nghìn rúp trong cửa hàng của chúng tôi hai tháng trước và sau đó gửi cho những người dùng này một số loại ưu đãi, thì đây là cách tiếp thị điển hình. Chúng tôi rút ra một mô hình rõ ràng từ dữ liệu cấu trúc và sử dụng nó để tăng doanh số bán hàng.

Tuy nhiên, nếu chúng tôi kết hợp dữ liệu CRM với thông tin phát trực tuyến từ Instagram và phân tích nó, chúng tôi sẽ tìm thấy một mô hình: một người đã giảm hoạt động của mình vào tối thứ Tư và có bức ảnh mới nhất cho thấy mèo con nên đưa ra một đề nghị nhất định. Đây sẽ là Dữ liệu lớn. Chúng tôi đã tìm ra yếu tố kích hoạt, chuyển nó cho các nhà tiếp thị và họ sử dụng nó cho mục đích riêng của mình.

Từ đó, công nghệ thường hoạt động với dữ liệu phi cấu trúc và ngay cả khi dữ liệu có cấu trúc, hệ thống vẫn tiếp tục tìm kiếm các mẫu ẩn trong đó, điều mà hoạt động tiếp thị không làm được.

Dữ liệu lớn không phải là CNTT

Thái cực thứ hai của câu chuyện này: Dữ liệu lớn thường bị nhầm lẫn với CNTT. Điều này là do ở các công ty Nga, theo quy định, các chuyên gia CNTT là người điều khiển tất cả các công nghệ, bao gồm cả dữ liệu lớn. Do đó, nếu mọi thứ diễn ra trong bộ phận này, thì toàn bộ công ty sẽ có ấn tượng rằng đây là một loại hoạt động CNTT nào đó.

Trên thực tế, có sự khác biệt cơ bản ở đây: Dữ liệu lớn là một hoạt động nhằm đạt được một sản phẩm cụ thể, hoàn toàn không liên quan đến CNTT, mặc dù công nghệ không thể tồn tại nếu không có nó.

Dữ liệu lớn không phải lúc nào cũng là việc thu thập và phân tích thông tin

Có một quan niệm sai lầm khác về Dữ liệu lớn. Mọi người đều hiểu rằng công nghệ này liên quan đến một lượng lớn dữ liệu, nhưng loại dữ liệu đó là gì thì không phải lúc nào cũng rõ ràng. Bất cứ ai cũng có thể thu thập và sử dụng thông tin; giờ đây điều này không chỉ có thể thực hiện được trong các bộ phim mà còn ở bất kỳ công ty nào, kể cả rất nhỏ. Câu hỏi duy nhất là thu thập chính xác những gì và làm thế nào để sử dụng nó để làm lợi thế cho bạn.

Nhưng cần hiểu rằng công nghệ Dữ liệu lớn sẽ không phải là việc thu thập và phân tích hoàn toàn bất kỳ thông tin nào. Ví dụ: nếu bạn thu thập dữ liệu về một người cụ thể trên mạng xã hội thì đó sẽ không phải là Big Data.

Dữ liệu lớn thực sự là gì?

Dữ liệu lớn bao gồm ba yếu tố:

  • dữ liệu;
  • phân tích;
  • công nghệ.

Dữ liệu lớn không chỉ là một trong những thành phần này mà là sự kết hợp của cả ba yếu tố. Người ta thường thay thế các khái niệm: một số người tin rằng Big Data chỉ là dữ liệu, số khác lại cho rằng đó là công nghệ. Nhưng trên thực tế, dù bạn có thu thập bao nhiêu dữ liệu thì bạn cũng không thể làm được gì với nó nếu không có công nghệ cần thiết và các nhà phân tích. Nếu có phân tích tốt nhưng không có dữ liệu thì còn tệ hơn nữa.

Nếu chúng ta nói về dữ liệu, đây không chỉ là văn bản mà còn là tất cả các bức ảnh được đăng trên Instagram và nói chung là mọi thứ có thể được phân tích và sử dụng cho các mục đích và nhiệm vụ khác nhau. Nói cách khác, Dữ liệu đề cập đến khối lượng lớn dữ liệu bên trong và bên ngoài của các cấu trúc khác nhau.

Phân tích cũng cần thiết, vì nhiệm vụ của Dữ liệu lớn là xây dựng một số mẫu. Nghĩa là, phân tích là việc xác định các phụ thuộc tiềm ẩn và tìm kiếm các câu hỏi và câu trả lời mới dựa trên việc phân tích toàn bộ khối lượng dữ liệu không đồng nhất. Hơn nữa, Dữ liệu lớn đặt ra những câu hỏi không thể rút ra trực tiếp từ dữ liệu này.

Về hình ảnh, việc bạn đăng ảnh mình mặc áo phông xanh chẳng có ý nghĩa gì cả. Nhưng nếu bạn sử dụng nhiếp ảnh để lập mô hình Dữ liệu lớn, có thể ngay bây giờ bạn nên đưa ra một khoản vay, bởi vì trong nhóm xã hội của bạn, hành vi như vậy cho thấy một hiện tượng nhất định đang hoạt động. Do đó, dữ liệu “trần trụi” không có phân tích, không xác định được các phần phụ thuộc ẩn và không rõ ràng, không phải là Dữ liệu lớn.

Vì vậy, chúng tôi có dữ liệu lớn. Mảng của họ rất lớn. Chúng tôi cũng có một nhà phân tích. Nhưng làm thế nào chúng ta có thể chắc chắn rằng từ dữ liệu thô này chúng ta sẽ đưa ra được một giải pháp cụ thể? Để làm được điều này, chúng ta cần những công nghệ cho phép chúng ta không chỉ lưu trữ chúng (và điều này trước đây là không thể) mà còn có thể phân tích chúng.

Nói một cách đơn giản, nếu bạn có nhiều dữ liệu, bạn sẽ cần các công nghệ, chẳng hạn như Hadoop, giúp lưu trữ tất cả thông tin ở dạng ban đầu để phân tích sau này. Loại công nghệ này xuất hiện ở những gã khổng lồ Internet, vì họ là những người đầu tiên phải đối mặt với vấn đề lưu trữ một lượng lớn dữ liệu và phân tích nó để kiếm tiền sau này.

Ngoài các công cụ lưu trữ dữ liệu tối ưu và giá rẻ, bạn cần có các công cụ phân tích cũng như các tiện ích bổ sung cho nền tảng được sử dụng. Ví dụ, toàn bộ hệ sinh thái gồm các dự án và công nghệ liên quan đã hình thành xung quanh Hadoop. Dưới đây là một số trong số họ:

  • Pig là một ngôn ngữ phân tích dữ liệu khai báo.
  • Hive - phân tích dữ liệu bằng ngôn ngữ tương tự như SQL.
  • Oozie - Quy trình làm việc của Hadoop.
  • Hbase là một cơ sở dữ liệu (không quan hệ), tương tự như Google Big Table.
  • Mahout - học máy.
  • Sqoop - chuyển dữ liệu từ RSDB sang Hadoop và ngược lại.
  • Flume - chuyển nhật ký sang HDFS.
  • Người quản lý vườn thú, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS, v.v.

Tất cả những công cụ này đều được cung cấp miễn phí cho mọi người nhưng cũng có một số tiện ích bổ sung phải trả phí.

Ngoài ra, cần có các chuyên gia: nhà phát triển và nhà phân tích (được gọi là Nhà khoa học dữ liệu). Cũng cần một người quản lý có thể hiểu cách áp dụng phân tích này để giải quyết một vấn đề cụ thể, bởi vì bản thân nó hoàn toàn vô nghĩa nếu nó không được tích hợp vào quy trình kinh doanh.

Cả ba nhân viên phải làm việc theo nhóm. Người quản lý giao cho chuyên gia Khoa học dữ liệu nhiệm vụ tìm kiếm một mẫu nhất định phải hiểu rằng không phải lúc nào anh ta cũng tìm thấy chính xác những gì mình cần. Trong trường hợp này, người quản lý nên lắng nghe cẩn thận những gì Nhà khoa học dữ liệu tìm thấy, vì những phát hiện của anh ta thường thú vị và hữu ích hơn cho doanh nghiệp. Công việc của bạn là áp dụng điều này vào doanh nghiệp và tạo ra sản phẩm từ đó.

Mặc dù hiện nay có rất nhiều loại máy móc, công nghệ khác nhau nhưng quyết định cuối cùng luôn thuộc về con người. Để làm được điều này, thông tin cần phải được hình dung bằng cách nào đó. Có khá nhiều công cụ cho việc này.

Ví dụ đáng chú ý nhất là các báo cáo phân tích địa lý. Công ty Beeline làm việc rất nhiều với chính quyền của các thành phố và khu vực khác nhau. Rất thường xuyên, các tổ chức này yêu cầu các báo cáo như “Tắc nghẽn giao thông ở một địa điểm nhất định”.

Rõ ràng là một báo cáo như vậy phải đến tay các cơ quan chính phủ dưới hình thức đơn giản và dễ hiểu. Nếu chúng tôi cung cấp cho họ một bảng khổng lồ và hoàn toàn không thể hiểu được (nghĩa là thông tin ở dạng mà chúng tôi nhận được), họ khó có thể mua một báo cáo như vậy - nó sẽ hoàn toàn vô dụng, họ sẽ không nhận được kiến ​​​​thức từ đó họ muốn nhận.

Do đó, cho dù các nhà khoa học dữ liệu có giỏi đến đâu và họ có tìm thấy mẫu nào đi chăng nữa, bạn sẽ không thể làm việc với dữ liệu này nếu không có các công cụ trực quan hóa tốt.

Nguồn dữ liệu

Mảng dữ liệu thu được rất lớn nên có thể chia thành nhiều nhóm.

Dữ liệu nội bộ công ty

Mặc dù 80% số liệu thu thập được thuộc nhóm này nhưng nguồn này không phải lúc nào cũng được sử dụng. Thường thì đây là dữ liệu mà có vẻ như không ai cần cả, chẳng hạn như nhật ký. Nhưng nếu nhìn chúng từ một góc độ khác, đôi khi bạn có thể tìm thấy những khuôn mẫu bất ngờ ở chúng.

Nguồn phần mềm chia sẻ

Điều này bao gồm dữ liệu từ mạng xã hội, Internet và mọi thứ có thể truy cập miễn phí. Tại sao nó là phần mềm chia sẻ miễn phí? Một mặt, dữ liệu này có sẵn cho tất cả mọi người, nhưng nếu bạn là một công ty lớn, thì việc có được nó với quy mô cơ sở thuê bao hàng chục nghìn, hàng trăm hoặc hàng triệu khách hàng không còn là một nhiệm vụ dễ dàng. Vì vậy, trên thị trường có các dịch vụ trả phí để cung cấp dữ liệu này.

Nguồn trả phí

Điều này bao gồm các công ty bán dữ liệu để lấy tiền. Đây có thể là viễn thông, DMP, công ty Internet, văn phòng tín dụng và công ty tổng hợp. Ở Nga, viễn thông không bán dữ liệu. Thứ nhất, nó không mang lại lợi ích kinh tế, thứ hai, nó bị pháp luật cấm. Do đó, họ bán kết quả xử lý của mình, chẳng hạn như báo cáo phân tích địa lý.

Dữ liệu mở

Nhà nước đang hỗ trợ các doanh nghiệp và cho họ cơ hội sử dụng dữ liệu họ thu thập. Điều này được phát triển ở mức độ lớn hơn ở phương Tây, nhưng Nga về mặt này cũng theo kịp thời đại. Ví dụ, có Cổng dữ liệu mở của Chính phủ Moscow, nơi công bố thông tin về các cơ sở hạ tầng đô thị khác nhau.

Đối với người dân và khách của Moscow, dữ liệu được trình bày dưới dạng bảng và bản đồ, còn đối với các nhà phát triển - ở các định dạng đặc biệt có thể đọc được bằng máy. Mặc dù dự án đang hoạt động ở chế độ hạn chế nhưng nó đang phát triển, có nghĩa là nó cũng là nguồn dữ liệu mà bạn có thể sử dụng cho các nhiệm vụ kinh doanh của mình.

Nghiên cứu

Như đã lưu ý, nhiệm vụ của Dữ liệu lớn là tìm ra một mẫu. Thông thường, nghiên cứu được thực hiện trên khắp thế giới có thể trở thành điểm tựa để tìm ra một mô hình cụ thể - bạn có thể nhận được một kết quả cụ thể và cố gắng áp dụng logic tương tự cho mục đích riêng của mình.

Dữ liệu lớn là một lĩnh vực không áp dụng được tất cả các định luật toán học. Ví dụ: “1” + “1” không phải là “2”, mà còn hơn thế nữa, vì bằng cách kết hợp các nguồn dữ liệu, hiệu ứng có thể được nâng cao đáng kể.

Ví dụ sản phẩm

Nhiều người đã quen thuộc với dịch vụ chọn nhạc Spotify. Thật tuyệt vì nó không hỏi người dùng tâm trạng của họ hôm nay như thế nào mà tính toán dựa trên các nguồn có sẵn. Anh ấy luôn biết bạn cần gì bây giờ - nhạc jazz hay hard rock. Đây là điểm khác biệt chính giúp nó có người hâm mộ và phân biệt nó với các dịch vụ khác.

Những sản phẩm như vậy thường được gọi là sản phẩm cảm giác - những sản phẩm cảm nhận được khách hàng của mình.

Công nghệ Big Data cũng được sử dụng trong ngành công nghiệp ô tô. Ví dụ, Tesla làm điều này - mẫu xe mới nhất của họ có hệ thống lái tự động. Công ty cố gắng tạo ra một chiếc ô tô có thể tự đưa hành khách đến nơi họ cần đến. Nếu không có Dữ liệu lớn thì điều này là không thể, bởi vì nếu chúng ta chỉ sử dụng dữ liệu mà chúng ta nhận được trực tiếp, như con người vẫn làm, thì chiếc ô tô sẽ không thể cải thiện được.

Khi tự lái ô tô, chúng ta sử dụng tế bào thần kinh của mình để đưa ra quyết định dựa trên nhiều yếu tố mà chúng ta thậm chí không nhận thấy. Ví dụ, chúng tôi có thể không nhận ra lý do tại sao chúng tôi quyết định không tăng tốc ngay lập tức khi đèn xanh, nhưng sau đó hóa ra quyết định đó là đúng - một chiếc ô tô lao qua bạn với tốc độ chóng mặt và bạn đã tránh được một vụ tai nạn.

Bạn cũng có thể đưa ra một ví dụ về việc sử dụng Dữ liệu lớn trong thể thao. Năm 2002, tổng giám đốc của đội bóng chày Oakland Athletics, Billy Beane, đã quyết định phá vỡ mô hình tuyển dụng vận động viên - ông đã lựa chọn và đào tạo các cầu thủ “theo những con số”.

Thông thường các nhà quản lý nhìn vào thành công của các cầu thủ, nhưng trong trường hợp này mọi thứ đã khác - để đạt được kết quả, người quản lý đã nghiên cứu những sự kết hợp của các vận động viên mà anh ta cần, chú ý đến đặc điểm cá nhân. Hơn nữa, ông đã chọn những vận động viên mà bản thân họ không có nhiều tiềm năng, nhưng toàn đội đã thành công đến mức họ đã thắng 20 trận liên tiếp.

Đạo diễn Bennett Miller sau đó đã thực hiện một bộ phim dành riêng cho câu chuyện này - Người đàn ông đã thay đổi mọi thứ với sự tham gia của Brad Pitt.

Công nghệ Dữ liệu lớn cũng hữu ích trong lĩnh vực tài chính. Không một người nào trên thế giới có thể xác định một cách độc lập và chính xác liệu có đáng để cho ai đó vay hay không. Để đưa ra quyết định, việc tính điểm được thực hiện, tức là xây dựng một mô hình xác suất, từ đó có thể hiểu được người này có trả lại tiền hay không. Hơn nữa, việc tính điểm được áp dụng ở tất cả các giai đoạn: chẳng hạn, bạn có thể tính toán rằng tại một thời điểm nhất định, một người sẽ ngừng thanh toán.

Dữ liệu lớn cho phép bạn không chỉ kiếm tiền mà còn tiết kiệm tiền. Đặc biệt, công nghệ này đã giúp Bộ Lao động Đức giảm 10 tỷ euro chi phí trợ cấp thất nghiệp, vì sau khi phân tích thông tin, người ta thấy rõ rằng 20% ​​tiền trợ cấp đã được trả không xứng đáng.

Công nghệ cũng được sử dụng trong y học (điều này đặc biệt điển hình ở Israel). Với sự trợ giúp của Dữ liệu lớn, bạn có thể thực hiện phân tích chính xác hơn nhiều so với những gì một bác sĩ có ba mươi năm kinh nghiệm có thể làm.

Bất kỳ bác sĩ nào khi chẩn đoán đều chỉ dựa vào kinh nghiệm của bản thân. Khi máy thực hiện điều này, nó xuất phát từ kinh nghiệm của hàng ngàn bác sĩ như vậy và tất cả các lịch sử ca bệnh hiện có. Nó tính đến chất liệu mà ngôi nhà của bệnh nhân được làm, nạn nhân sống ở khu vực nào, có loại khói gì, v.v. Tức là nó tính đến rất nhiều yếu tố mà bác sĩ không tính đến.

Một ví dụ về việc sử dụng Dữ liệu lớn trong chăm sóc sức khỏe là dự án Project Artemis do Bệnh viện Nhi đồng Toronto thực hiện. Đây là hệ thống thông tin thu thập và phân tích dữ liệu về trẻ sơ sinh theo thời gian thực. Máy cho phép phân tích 1260 chỉ số sức khỏe của mỗi trẻ mỗi giây. Dự án này nhằm mục đích dự đoán tình trạng không ổn định của trẻ và ngăn ngừa bệnh tật ở trẻ.

Dữ liệu lớn cũng bắt đầu được sử dụng ở Nga: ví dụ Yandex có bộ phận dữ liệu lớn. Công ty cùng với AstraZeneca và Hiệp hội Ung thư lâm sàng Nga RUSSCO đã ra mắt nền tảng RAY dành cho các nhà di truyền học và sinh học phân tử. Dự án cho phép chúng tôi cải tiến các phương pháp chẩn đoán ung thư và xác định khuynh hướng ung thư. Nền tảng này sẽ ra mắt vào tháng 12 năm 2016.

Người ta dự đoán rằng tổng khối lượng dữ liệu toàn cầu được tạo và sao chép trong năm 2011 có thể vào khoảng 1,8 zettabyte (1,8 nghìn tỷ gigabyte) - gấp khoảng 9 lần so với lượng dữ liệu được tạo ra trong năm 2006.

Định nghĩa phức tạp hơn

Tuy nhiên` dữ liệu lớn` liên quan đến nhiều thứ hơn là chỉ phân tích lượng thông tin khổng lồ. Vấn đề không phải là các tổ chức tạo ra khối lượng dữ liệu khổng lồ mà hầu hết dữ liệu đó ở định dạng không phù hợp với định dạng cơ sở dữ liệu có cấu trúc truyền thống - nhật ký web, video, tài liệu văn bản, mã máy hoặc, ví dụ: dữ liệu không gian địa lý . Tất cả điều này được lưu trữ trong nhiều kho lưu trữ khác nhau, đôi khi thậm chí bên ngoài tổ chức. Kết quả là, các công ty có thể có quyền truy cập vào một lượng lớn dữ liệu của họ và thiếu các công cụ cần thiết để thiết lập mối quan hệ giữa dữ liệu này và rút ra kết luận có ý nghĩa từ nó. Thêm vào đó là thực tế là dữ liệu hiện đang được cập nhật ngày càng thường xuyên hơn và bạn sẽ gặp phải tình huống phương pháp truyền thống phân tích thông tin không thể theo kịp khối lượng dữ liệu khổng lồ được cập nhật liên tục, điều này cuối cùng sẽ mở đường cho công nghệ dữ liệu lớn.

Định nghĩa tốt nhất

Về bản chất khái niệm dữ liệu lớn liên quan đến việc làm việc với thông tin có khối lượng lớn và thành phần đa dạng, thường xuyên được cập nhật và lưu trữ ở nhiều nguồn khác nhau nhằm tăng hiệu quả hoạt động, tạo ra sản phẩm mới và tăng khả năng cạnh tranh. Công ty tư vấn Forrester đưa ra một công thức ngắn gọn: ` Dữ liệu lớn tập hợp các kỹ thuật và công nghệ trích xuất ý nghĩa từ dữ liệu ở mức giới hạn cao nhất của tính thực tiễn.

Sự khác biệt giữa phân tích kinh doanh và dữ liệu lớn là bao nhiêu?

Craig Baty Giám đốc điều hành Giám đốc Tiếp thị và Công nghệ của Fujitsu Australia, đã chỉ ra rằng phân tích kinh doanh là một quá trình mô tả nhằm phân tích kết quả mà doanh nghiệp đạt được trong một khoảng thời gian nhất định, trong khi tốc độ xử lý dữ liệu lớn cho phép bạn thực hiện phân tích mang tính dự đoán, có khả năng đưa ra các đề xuất kinh doanh cho tương lai. Công nghệ dữ liệu lớn cũng giúp phân tích nhiều loại hơn dữ liệu so với các công cụ kinh doanh thông minh, giúp không chỉ tập trung vào các kho lưu trữ có cấu trúc.

Matt Slocum của O'Reilly Radar tin rằng mặc dù dữ liệu lớn và phân tích kinh doanh có cùng mục tiêu (tìm câu trả lời cho một câu hỏi), chúng khác nhau ở ba khía cạnh.

  • Dữ liệu lớn được thiết kế để xử lý khối lượng thông tin lớn hơn so với phân tích kinh doanh và điều này chắc chắn phù hợp với định nghĩa truyền thống về dữ liệu lớn.
  • Dữ liệu lớn được thiết kế để xử lý thông tin nhanh hơn, thay đổi nhanh hơn, có nghĩa là có khả năng khám phá và tương tác sâu sắc. Trong một số trường hợp, kết quả được tạo ra nhanh hơn tốc độ tải trang web.
  • Dữ liệu lớn được thiết kế để xử lý dữ liệu phi cấu trúc mà chúng tôi chỉ mới bắt đầu khám phá cách sử dụng khi chúng tôi có thể thu thập và lưu trữ dữ liệu đó, đồng thời chúng tôi cần các thuật toán và khả năng đàm thoại để giúp tìm thấy các xu hướng có trong các bộ dữ liệu này dễ dàng hơn.

Theo sách trắng "Kiến trúc thông tin Oracle: Hướng dẫn về dữ liệu lớn cho kiến ​​trúc sư" do Oracle xuất bản, khi làm việc với dữ liệu lớn, chúng tôi tiếp cận thông tin khác với khi tiến hành phân tích kinh doanh.

Làm việc với dữ liệu lớn không giống như quy trình kinh doanh thông minh, trong đó chỉ cần cộng các giá trị đã biết sẽ tạo ra kết quả: ví dụ: cộng các hóa đơn đã thanh toán sẽ trở thành doanh thu trong năm. Khi làm việc với dữ liệu lớn, kết quả thu được trong quá trình làm sạch nó thông qua mô hình tuần tự: đầu tiên, một giả thuyết được đưa ra, một biểu đồ thống kê, trực quan hoặc mô hình ngữ nghĩa, trên cơ sở đó tính đúng đắn của giả thuyết đưa ra được kiểm tra và sau đó giả thuyết tiếp theo được đưa ra. Quá trình này yêu cầu nhà nghiên cứu giải thích ý nghĩa trực quan hoặc xây dựng các truy vấn tương tác dựa trên kiến ​​thức hoặc phát triển các thuật toán `machine learning` thích ứng có thể tạo ra kết quả mong muốn. Hơn nữa, thời gian tồn tại của một thuật toán như vậy có thể khá ngắn.

Kỹ thuật phân tích dữ liệu lớn

Có nhiều phương pháp khác nhau để phân tích tập dữ liệu, dựa trên các công cụ mượn từ thống kê và khoa học máy tính (ví dụ: học máy). Danh sách này không có vẻ đầy đủ nhưng nó phản ánh những cách tiếp cận phổ biến nhất trong các ngành khác nhau. Cần hiểu rằng các nhà nghiên cứu tiếp tục nỗ lực tạo ra các kỹ thuật mới và cải tiến những kỹ thuật hiện có. Ngoài ra, một số kỹ thuật được liệt kê không nhất thiết phải áp dụng riêng cho dữ liệu lớn và có thể được sử dụng thành công cho các mảng nhỏ hơn (ví dụ: thử nghiệm A/B, Phân tích hồi quy). Tất nhiên, mảng được phân tích càng đồ sộ và đa dạng thì kết quả là dữ liệu càng chính xác và phù hợp.

Thử nghiệm A/B. Một kỹ thuật trong đó mẫu đối chứng được so sánh luân phiên với các mẫu khác. Do đó, có thể xác định sự kết hợp tối ưu của các chỉ số để đạt được, chẳng hạn như phản ứng tốt nhất của người tiêu dùng đối với ưu đãi tiếp thị. Dữ liệu lớn cho phép bạn thực hiện một số lượng lớn các lần lặp và do đó thu được kết quả đáng tin cậy về mặt thống kê.

Học quy tắc hiệp hội. Một tập hợp các kỹ thuật để xác định các mối quan hệ, tức là quy tắc kết hợp, giữa các biến trong tập dữ liệu lớn. Được dùng trong khai thác dữ liệu.

Phân loại. Một tập hợp các kỹ thuật cho phép bạn dự đoán hành vi của người tiêu dùng trong một phân khúc thị trường nhất định (quyết định mua hàng, tỷ lệ rời bỏ, khối lượng tiêu dùng, v.v.). Được dùng trong khai thác dữ liệu.

Phân tích cluster. Một phương pháp thống kê để phân loại các đối tượng thành các nhóm bằng cách xác định các đặc điểm chung chưa được biết trước. Được dùng trong khai thác dữ liệu.

Nguồn lực cộng đồng. Phương pháp thu thập dữ liệu từ nhiều nguồn.

Hợp nhất dữ liệu và tích hợp dữ liệu. Một bộ kỹ thuật cho phép bạn phân tích nhận xét từ người dùng mạng xã hội và so sánh chúng với kết quả bán hàng trong thời gian thực.

Khai thác dữ liệu. Một tập hợp các kỹ thuật cho phép bạn xác định danh mục người tiêu dùng dễ bị ảnh hưởng nhất bởi sản phẩm hoặc dịch vụ được quảng cáo, xác định đặc điểm của những nhân viên thành công nhất và dự đoán mô hình hành vi của người tiêu dùng.

học tập theo nhóm. Phương pháp này sử dụng nhiều mô hình dự báo, từ đó nâng cao chất lượng của các dự báo đưa ra.

Thuật toán di truyền. Trong kỹ thuật này, các giải pháp khả thi được biểu diễn dưới dạng 'nhiễm sắc thể' có thể kết hợp và biến đổi. Giống như trong quá trình tiến hóa tự nhiên, cá thể khỏe mạnh nhất sẽ sống sót.

Học máy. Một hướng đi trong khoa học máy tính (trong lịch sử nó được đặt tên là “trí tuệ nhân tạo”), theo đuổi mục tiêu tạo ra các thuật toán tự học dựa trên phân tích dữ liệu thực nghiệm.

Xử lý ngôn ngữ tự nhiên (NLP). Một tập hợp các kỹ thuật nhận dạng ngôn ngữ tự nhiên của con người mượn từ khoa học máy tính và ngôn ngữ học.

Phân tích mạng. Một tập hợp các kỹ thuật để phân tích kết nối giữa các nút trong mạng. Liên quan đến mạng xã hội, nó cho phép bạn phân tích mối quan hệ giữa người dùng cá nhân, công ty, cộng đồng, v.v.

Tối ưu hóa. Một tập hợp các phương pháp số để thiết kế lại hệ thống phức tạp và các quy trình để cải thiện một hoặc nhiều chỉ số. Giúp đưa ra các quyết định chiến lược, ví dụ như thành phần của dòng sản phẩm sẽ được tung ra thị trường, tiến hành phân tích đầu tư, v.v.

Nhận dạng mẫu. Một tập hợp các kỹ thuật có yếu tố tự học để dự đoán mô hình hành vi của người tiêu dùng.

Mô hình dự đoán. Một tập hợp các kỹ thuật cho phép bạn tạo mô hình toán học một kịch bản có thể xảy ra được xác định trước cho sự phát triển của các sự kiện. Ví dụ: phân tích cơ sở dữ liệu hệ thống CRM để tìm các điều kiện có thể xảy ra sẽ nhắc người đăng ký thay đổi nhà cung cấp.

hồi quy. Một tập hợp các phương pháp thống kê để xác định mô hình giữa những thay đổi trong một biến phụ thuộc và một hoặc nhiều biến độc lập. Thường được sử dụng để dự báo và dự đoán. Được sử dụng trong khai thác dữ liệu.

Phân tích tình cảm. Kỹ thuật đánh giá tâm lý người tiêu dùng dựa trên công nghệ nhận dạng ngôn ngữ tự nhiên. Chúng cho phép bạn tách biệt các tin nhắn liên quan đến chủ đề quan tâm (ví dụ: sản phẩm tiêu dùng) khỏi luồng thông tin chung. Tiếp theo, đánh giá tính phân cực của phán đoán (tích cực hoặc tiêu cực), mức độ cảm xúc, v.v.

Xử lý tín hiệu. Một tập hợp các kỹ thuật mượn từ kỹ thuật vô tuyến nhằm mục đích nhận biết tín hiệu trên nền nhiễu và phân tích sâu hơn về tín hiệu đó.

Phân tích không gian. Một tập hợp các phương pháp phân tích dữ liệu không gian, một phần mượn từ thống kê - cấu trúc liên kết địa hình, tọa độ địa lý, hình học đối tượng. Nguồn dữ liệu lớn trong trường hợp này, địa lý thường hành động Hệ thông thông tin(GIS).

Số liệu thống kê. Khoa học thu thập, tổ chức và giải thích dữ liệu, bao gồm phát triển bảng câu hỏi và tiến hành thí nghiệm. phương pháp thống kê thường được sử dụng để đưa ra những đánh giá có giá trị về mối quan hệ giữa các sự kiện nhất định.

Học tập có giám sát. Một tập hợp các kỹ thuật dựa trên công nghệ máy học cho phép bạn xác định các mối quan hệ chức năng trong các tập dữ liệu được phân tích.

Mô phỏng. Mô hình hóa hành vi của các hệ thống phức tạp thường được sử dụng để dự báo, dự đoán và xử lý các tình huống khác nhau trong quá trình lập kế hoạch.

Phân tích chuỗi thời gian. Một tập hợp các kỹ thuật bắt nguồn từ thống kê và xử lý tín hiệu số để phân tích các chuỗi dữ liệu lặp lại theo thời gian. Một số ứng dụng rõ ràng là theo dõi thị trường chứng khoán hoặc bệnh tật của bệnh nhân.

Học tập không giám sát. Một tập hợp các kỹ thuật dựa trên công nghệ máy học cho phép bạn xác định các mối quan hệ chức năng ẩn trong các tập dữ liệu được phân tích. Nó có đặc điểm chung Với Phân tích cluster.

Hình dung. Các phương pháp trình bày đồ họa kết quả phân tích dữ liệu lớn dưới dạng biểu đồ hoặc hình ảnh động để đơn giản hóa việc giải thích và làm cho kết quả dễ hiểu hơn.


Việc thể hiện trực quan các kết quả phân tích dữ liệu lớn có tầm quan trọng cơ bản đối với việc giải thích chúng. Không có gì bí mật khi nhận thức của con người còn hạn chế và các nhà khoa học tiếp tục tiến hành nghiên cứu trong lĩnh vực cải tiến phương pháp hiện đại Trình bày dữ liệu dưới dạng hình ảnh, biểu đồ hoặc hình ảnh động.

Công cụ phân tích

Tính đến năm 2011, một số phương pháp được liệt kê trong tiểu mục trước hoặc sự kết hợp nhất định giữa chúng giúp triển khai các công cụ phân tích để làm việc với dữ liệu lớn trong thực tế. Trong số các hệ thống phân tích Dữ liệu lớn mở miễn phí hoặc tương đối rẻ tiền, chúng tôi có thể đề xuất:

  • Revolution Analytics (dựa trên ngôn ngữ R để thống kê toán học).

Đặc biệt quan tâm trong danh sách này là Apache Hadoop - phần mềm với mã nguồn mở, đã được hầu hết các nhà theo dõi chứng khoán thử nghiệm như một công cụ phân tích dữ liệu trong 5 năm qua. Ngay khi Yahoo mở mã Hadoop cho cộng đồng nguồn mở, cả một phong trào tạo ra sản phẩm dựa trên Hadoop ngay lập tức xuất hiện trong ngành CNTT. Hầu hết tất cả các công cụ phân tích hiện đại dữ liệu lớn cung cấp các công cụ tích hợp Hadoop. Các nhà phát triển của họ đều là những người khởi nghiệp và các công ty nổi tiếng toàn cầu.

Thị trường cho các giải pháp quản lý dữ liệu lớn

Nền tảng dữ liệu lớn (BDP, Nền tảng dữ liệu lớn) như một phương tiện chống lại sự tích tụ kỹ thuật số

Khả năng phân tích dữ liệu lớn, được gọi một cách thông tục là Dữ liệu lớn, được coi là một lợi ích và rõ ràng. Nhưng điều này có thực sự như vậy? Việc tích lũy dữ liệu không kiểm soát có thể dẫn đến điều gì? Rất có thể, điều mà các nhà tâm lý học trong nước, liên quan đến con người, gọi là tích trữ bệnh lý, syllogomania, hay nói theo nghĩa bóng là “hội chứng Plyushkin”. Trong tiếng Anh, niềm đam mê luẩn quẩn để thu thập mọi thứ được gọi là tích trữ (từ tích trữ trong tiếng Anh - “stock”). Theo phân loại bệnh tâm thần, bầy đàn được xếp vào loại rối loạn tâm thần. Trong kỷ nguyên kỹ thuật số, việc tích trữ kỹ thuật số được thêm vào việc tích trữ vật liệu truyền thống; nó có thể ảnh hưởng đến cả cá nhân và toàn bộ doanh nghiệp và tổ chức ().

Thị trường thế giới và Nga

Cảnh quan dữ liệu lớn - Nhà cung cấp chính

Quan tâm đến các công cụ thu thập, xử lý, quản lý và phân tích dữ liệu lớn Hầu như tất cả các công ty CNTT hàng đầu đều thể hiện điều này, điều này khá tự nhiên. Thứ nhất, họ trực tiếp gặp phải hiện tượng này trong hoạt động kinh doanh của mình, thứ hai, dữ liệu lớn mở ra những cơ hội tuyệt vời để phát triển các ngóc ngách thị trường mới và thu hút khách hàng mới.

Trên thị trường đã xuất hiện nhiều công ty khởi nghiệp kinh doanh bằng cách xử lý lượng dữ liệu khổng lồ. Một số trong số họ sử dụng cơ sở hạ tầng đám mây làm sẵn do những công ty lớn như Amazon cung cấp.

Lý thuyết và thực hành Dữ liệu lớn trong các ngành công nghiệp

Lịch sử phát triển

2017

TmaxSoft dự báo: “Làn sóng” tiếp theo của Dữ liệu lớn sẽ yêu cầu hiện đại hóa DBMS

Các doanh nghiệp biết rằng lượng dữ liệu khổng lồ mà họ tích lũy chứa đựng những thông tin quan trọng về doanh nghiệp và khách hàng của họ. Nếu một công ty có thể áp dụng thành công thông tin này, công ty đó sẽ có lợi thế đáng kể so với các đối thủ cạnh tranh và có thể cung cấp các sản phẩm và dịch vụ tốt hơn của họ. Tuy nhiên, nhiều tổ chức vẫn chưa sử dụng hiệu quả dữ liệu lớn vì cơ sở hạ tầng CNTT cũ của họ không thể cung cấp dung lượng lưu trữ, truyền thông dữ liệu, tiện ích và ứng dụng cần thiết để xử lý và phân tích lượng lớn dữ liệu phi cấu trúc để trích xuất từ ​​đó thông tin có giá trị, được chỉ định trong TmaxSoft.

Ngoài ra, sức mạnh xử lý tăng lên cần thiết để phân tích khối lượng dữ liệu ngày càng tăng có thể yêu cầu đầu tư đáng kể vào cơ sở hạ tầng CNTT kế thừa của tổ chức cũng như các tài nguyên bảo trì bổ sung có thể được sử dụng để phát triển các ứng dụng và dịch vụ mới.

Vào ngày 5 tháng 2 năm 2015, Nhà Trắng đã công bố một báo cáo thảo luận về cách các công ty đang sử dụng " dữ liệu lớn» tính các mức giá khác nhau cho các khách hàng khác nhau, một hành vi được gọi là "phân biệt giá" hoặc "định giá cá nhân hóa". Báo cáo mô tả lợi ích của dữ liệu lớn đối với cả người bán và người mua, đồng thời tác giả của báo cáo kết luận rằng nhiều vấn đề do dữ liệu lớn và giá cả chênh lệch có thể được giải quyết thông qua các luật và quy định chống phân biệt đối xử hiện hành để bảo vệ quyền lợi người tiêu dùng.

Báo cáo lưu ý rằng tại thời điểm này, chỉ có bằng chứng giai thoại về cách các công ty đang sử dụng dữ liệu lớn trong bối cảnh tiếp thị cá nhân hóa và định giá khác biệt. Thông tin này cho thấy người bán sử dụng các phương pháp định giá có thể được chia thành ba loại:

  • nghiên cứu đường cầu;
  • Định hướng và định giá khác biệt dựa trên dữ liệu nhân khẩu học; Và
  • tiếp thị hành vi có mục tiêu (nhắm mục tiêu theo hành vi) và định giá cá nhân hóa.

Nghiên cứu đường cầu: Để xác định nhu cầu và nghiên cứu hành vi của người tiêu dùng, các nhà tiếp thị thường tiến hành các thử nghiệm trong lĩnh vực này, trong đó khách hàng ngẫu nhiên một trong hai loại giá có thể được chỉ định. “Về mặt kỹ thuật, những thử nghiệm này là một hình thức định giá khác biệt vì chúng mang lại những mức giá khác nhau cho khách hàng, ngay cả khi chúng “không phân biệt đối xử” theo nghĩa là tất cả khách hàng đều có cùng xác suất được “đưa” đến mức giá cao hơn.”

Hệ thống lái: Đó là hoạt động giới thiệu sản phẩm tới người tiêu dùng dựa trên tư cách thành viên của họ trong một nhóm nhân khẩu học cụ thể. Có, trang web công ty máy tính có thể cung cấp cùng một máy tính xách tay cho các loại người mua khác nhau ở các mức giá khác nhau dựa trên thông tin họ cung cấp về bản thân họ (ví dụ: tùy thuộc vào việc liệu người dùng nàyđại diện của các cơ quan chính phủ, tổ chức khoa học hoặc thương mại hoặc cá nhân) hoặc từ vị trí địa lý của họ (ví dụ: được xác định bởi địa chỉ IP của máy tính).

Tiếp thị hành vi mục tiêu và định giá tùy chỉnh: Trong những trường hợp này, thông tin cá nhân của khách hàng được sử dụng để nhắm mục tiêu quảng cáo và tùy chỉnh giá cho một số sản phẩm nhất định. Ví dụ: các nhà quảng cáo trực tuyến sử dụng mạng quảng cáo và thông qua cookie của bên thứ ba, dữ liệu về hoạt động của người dùng trên Internet để gửi tài liệu quảng cáo được nhắm mục tiêu. Cách tiếp cận này, một mặt, cho phép người tiêu dùng nhận được quảng cáo về hàng hóa và dịch vụ mà họ quan tâm. Tuy nhiên, nó có thể gây lo ngại cho những người tiêu dùng không muốn một số loại dữ liệu cá nhân của họ (chẳng hạn như thông tin về các lượt truy cập vào trang web). liên quan đến các vấn đề y tế và tài chính) đã được thu thập mà không có sự đồng ý của họ.

Mặc dù tiếp thị hành vi có mục tiêu rất phổ biến nhưng có tương đối ít bằng chứng về việc định giá cá nhân hóa trong môi trường trực tuyến. Báo cáo suy đoán rằng điều này có thể là do các phương pháp vẫn đang được phát triển hoặc do các công ty ngần ngại sử dụng mức giá tùy chỉnh (hoặc muốn giữ im lặng về điều đó) - có lẽ vì sợ phản ứng dữ dội từ người tiêu dùng.

Các tác giả của báo cáo gợi ý rằng "đối với người tiêu dùng cá nhân, việc sử dụng dữ liệu lớn rõ ràng mang lại cả lợi ích và rủi ro tiềm ẩn". Mặc dù thừa nhận rằng dữ liệu lớn làm tăng các vấn đề về tính minh bạch và phân biệt đối xử, báo cáo lập luận rằng luật chống phân biệt đối xử và bảo vệ người tiêu dùng hiện hành là đủ để giải quyết các vấn đề này. Tuy nhiên, báo cáo cũng nhấn mạnh sự cần thiết phải “giám sát liên tục” khi các công ty sử dụng thông tin nhạy cảm theo những cách không minh bạch hoặc theo những cách không nằm trong khuôn khổ quy định hiện hành.

Báo cáo này tiếp tục nỗ lực của Nhà Trắng nhằm kiểm tra việc sử dụng dữ liệu lớn và định giá mang tính phân biệt đối xử trên Internet cũng như những hậu quả dẫn đến đối với người tiêu dùng Mỹ. Trước đó đã có báo cáo rằng nhóm làm việc Văn phòng Dữ liệu lớn của Nhà Trắng đã công bố báo cáo về vấn đề này vào tháng 5 năm 2014. Ủy ban Thương mại Liên bang (FTC) cũng đã giải quyết những vấn đề này trong hội thảo tháng 9 năm 2014 về phân biệt đối xử trong dữ liệu lớn.

2014

Gartner xua tan những lầm tưởng về Dữ liệu lớn

Một ghi chú nghiên cứu vào mùa thu năm 2014 của Gartner đã liệt kê một số quan niệm sai lầm phổ biến về Dữ liệu lớn của các nhà lãnh đạo CNTT và đưa ra những phản bác cho chúng.

  • Mọi người đang triển khai hệ thống xử lý Dữ liệu lớn nhanh hơn chúng tôi

Sự quan tâm đến công nghệ Dữ liệu lớn đang ở mức cao nhất mọi thời đại: 73% tổ chức được các nhà phân tích Gartner khảo sát trong năm nay đã đầu tư hoặc có kế hoạch đầu tư vào. Nhưng hầu hết các sáng kiến ​​này vẫn đang ở giai đoạn đầu và chỉ có 13% số người được hỏi đã triển khai các giải pháp như vậy. Điều khó khăn nhất là xác định cách trích xuất thu nhập từ Big Data, quyết định nên bắt đầu từ đâu. Nhiều tổ chức bị mắc kẹt trong giai đoạn thử nghiệm vì họ không thể gắn công nghệ mới vào các quy trình kinh doanh cụ thể.

  • Chúng ta có rất nhiều dữ liệu nên không cần phải lo lắng về những lỗi nhỏ trong đó

Một số nhà quản lý CNTT tin rằng những sai sót dữ liệu nhỏ không ảnh hưởng đến kết quả chung của việc phân tích khối lượng lớn. Các nhà phân tích lưu ý rằng khi có nhiều dữ liệu, mỗi lỗi riêng lẻ thực sự ít ảnh hưởng đến kết quả hơn, nhưng bản thân các lỗi cũng trở nên nhiều hơn. Ngoài ra, phần lớn dữ liệu được phân tích là dữ liệu bên ngoài, không rõ cấu trúc hoặc nguồn gốc nên khả năng xảy ra sai sót càng tăng. Vì vậy, trong thế giới Dữ liệu lớn, chất lượng thực sự quan trọng hơn nhiều.

  • Công nghệ Big Data sẽ loại bỏ nhu cầu tích hợp dữ liệu

Dữ liệu lớn hứa hẹn khả năng xử lý dữ liệu ở định dạng ban đầu, với việc tạo lược đồ tự động khi dữ liệu được đọc. Người ta tin rằng điều này sẽ cho phép phân tích thông tin từ cùng một nguồn bằng nhiều mô hình dữ liệu. Nhiều người tin rằng điều này cũng sẽ cho phép người dùng cuối diễn giải bất kỳ tập dữ liệu nào mà họ thấy phù hợp. Trong thực tế, hầu hết người dùng thường cần đến phương pháp truyền thống với mạch làm sẵn, trong đó dữ liệu được định dạng phù hợp và có các thỏa thuận về mức độ toàn vẹn của thông tin cũng như mức độ liên quan của thông tin đó với trường hợp sử dụng.

  • Không có ích gì khi sử dụng kho dữ liệu cho các phân tích phức tạp

Nhiều quản trị viên hệ thống quản lý thông tin tin rằng không có ích gì khi dành thời gian tạo kho dữ liệu vì tính phức tạp của nó. hệ thống phân tích sử dụng các kiểu dữ liệu mới. Trên thực tế, nhiều hệ thống phân tích phức tạp sử dụng thông tin từ kho dữ liệu. Trong các trường hợp khác, các loại dữ liệu mới cần được chuẩn bị bổ sung để phân tích trong hệ thống xử lý Big Data; phải đưa ra quyết định về tính phù hợp của dữ liệu, nguyên tắc tổng hợp và mức chất lượng cần thiết - việc chuẩn bị như vậy có thể diễn ra bên ngoài kho.

  • Kho dữ liệu sẽ được thay thế bởi hồ dữ liệu

Trên thực tế, các nhà cung cấp đánh lừa khách hàng bằng cách định vị các hồ dữ liệu như một vật thay thế cho việc lưu trữ hoặc là thành phần quan trọng của cơ sở hạ tầng phân tích. Các công nghệ hồ dữ liệu cơ bản thiếu sự trưởng thành và bề rộng của chức năng được tìm thấy trong kho. Do đó, theo Gartner, các nhà quản lý chịu trách nhiệm quản lý dữ liệu nên đợi cho đến khi các hồ đạt được mức độ phát triển tương tự.

Accenture: 92% những người triển khai hệ thống dữ liệu lớn hài lòng với kết quả

Trong số những ưu điểm chính của dữ liệu lớn, người trả lời nêu tên:

  • “tìm kiếm nguồn thu nhập mới” (56%),
  • “cải thiện trải nghiệm của khách hàng” (51%),
  • “sản phẩm và dịch vụ mới” (50%) và
  • “một lượng lớn khách hàng mới và duy trì lòng trung thành của khách hàng cũ” (47%).

Khi giới thiệu công nghệ mới, nhiều công ty phải đối mặt với những vấn đề truyền thống. Đối với 51%, trở ngại là bảo mật, 47% - ngân sách, 41% - thiếu nhân sự cần thiết và 35% - khó khăn trong việc tích hợp với hệ thống hiện có. Hầu hết các công ty được khảo sát (khoảng 91%) đều có kế hoạch sớm giải quyết vấn đề thiếu hụt nhân sự và thuê các chuyên gia dữ liệu lớn.

Các công ty lạc quan về tương lai của công nghệ dữ liệu lớn. 89% tin rằng họ sẽ thay đổi hoạt động kinh doanh nhiều như Internet. 79% số người được hỏi lưu ý rằng các công ty không tham gia vào dữ liệu lớn sẽ mất lợi thế cạnh tranh.

Tuy nhiên, những người được hỏi không đồng ý về chính xác những gì nên được coi là dữ liệu lớn. 65% số người được hỏi tin rằng đây là “tệp dữ liệu lớn”, 60% tin rằng đây là “công cụ phân tích và phân tích nâng cao” và 50% tin rằng đây là “công cụ trực quan hóa dữ liệu”.

Madrid chi 14,7 triệu euro cho việc quản lý dữ liệu lớn

Vào tháng 7 năm 2014, người ta biết rằng Madrid sẽ sử dụng công nghệ dữ liệu lớn để quản lý cơ sở hạ tầng thành phố. Chi phí của dự án là 14,7 triệu euro, nền tảng của các giải pháp được triển khai sẽ là công nghệ phân tích và quản lý dữ liệu lớn. Với sự giúp đỡ của họ, chính quyền thành phố sẽ quản lý công việc với từng nhà cung cấp dịch vụ và trả tiền tương ứng tùy theo mức độ dịch vụ.

Chúng ta đang nói về các nhà thầu hành chính, những người giám sát tình trạng đường phố, hệ thống chiếu sáng, thủy lợi, không gian xanh, dọn dẹp lãnh thổ và loại bỏ cũng như tái chế rác thải. Trong dự án, 300 chỉ số hoạt động chính của các dịch vụ thành phố đã được phát triển cho các thanh tra viên được chỉ định đặc biệt, trên cơ sở đó sẽ thực hiện 1,5 nghìn lượt kiểm tra và đo lường khác nhau hàng ngày. Ngoài ra, thành phố sẽ bắt đầu sử dụng nền tảng công nghệ tiên tiến mang tên Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Chuyên gia: Big Data đang ở đỉnh cao

Không có ngoại lệ, tất cả các nhà cung cấp trên thị trường quản lý dữ liệu hiện đang phát triển các công nghệ quản lý Dữ liệu lớn. Xu hướng công nghệ mới này cũng được cộng đồng chuyên nghiệp, cả nhà phát triển, nhà phân tích ngành và người tiêu dùng tiềm năng của các giải pháp đó thảo luận tích cực.

Như Datashift phát hiện ra, tính đến tháng 1 năm 2013, đã có một làn sóng thảo luận xung quanh “ dữ liệu lớn"vượt quá mọi kích thước có thể tưởng tượng được. Sau khi phân tích số lượng đề cập đến Big Data trên mạng xã hội, Datashift tính toán rằng năm 2012 thuật ngữ này được sử dụng khoảng 2 tỷ lần trong các bài đăng được tạo bởi khoảng 1 triệu tác giả khác nhau trên khắp thế giới. Con số này tương đương với 260 bài đăng mỗi giờ, với mức cao nhất là 3.070 lượt đề cập mỗi giờ.

Gartner: Mỗi giây CIO đều sẵn sàng chi tiền cho Big data

Gartner dự đoán sau vài năm thử nghiệm công nghệ Dữ liệu lớn và lần triển khai đầu tiên vào năm 2013, khả năng thích ứng của các giải pháp này sẽ tăng lên đáng kể. Các nhà nghiên cứu đã khảo sát các nhà lãnh đạo CNTT trên toàn thế giới và nhận thấy rằng 42% số người được hỏi đã đầu tư vào công nghệ Dữ liệu lớn hoặc có kế hoạch thực hiện các khoản đầu tư đó trong năm tới (dữ liệu tính đến tháng 3 năm 2013).

Doanh nghiệp buộc phải chi tiền cho công nghệ xử lý dữ liệu lớn, vì bối cảnh thông tin đang thay đổi nhanh chóng, đòi hỏi những cách tiếp cận mới để xử lý thông tin. Nhiều công ty đã nhận ra rằng lượng lớn dữ liệu là rất quan trọng và làm việc với chúng cho phép họ đạt được những lợi ích không có được khi sử dụng các nguồn thông tin và phương pháp xử lý dữ liệu truyền thống. Ngoài ra, cuộc thảo luận liên tục về chủ đề “dữ liệu lớn” trên các phương tiện truyền thông đã thúc đẩy sự quan tâm đến các công nghệ liên quan.

Frank Buytendijk, phó chủ tịch của Gartner, thậm chí còn kêu gọi các công ty giảm bớt nỗ lực vì một số lo ngại rằng họ đang tụt hậu so với các đối thủ cạnh tranh trong việc áp dụng Dữ liệu lớn.

Ông nói: “Không cần phải lo lắng; khả năng thực hiện các ý tưởng dựa trên công nghệ dữ liệu lớn là gần như vô tận.

Gartner dự đoán rằng đến năm 2015, 20% trong số 1000 công ty toàn cầu sẽ có chiến lược tập trung vào “cơ sở hạ tầng thông tin”.

Để đón đầu những cơ hội mới mà công nghệ xử lý dữ liệu lớn sẽ mang lại, nhiều tổ chức đã tổ chức quy trình thu thập và lưu trữ nhiều loại thông tin khác nhau.

Đối với các tổ chức giáo dục và chính phủ cũng như các công ty công nghiệp, tiềm năng chuyển đổi kinh doanh lớn nhất nằm ở sự kết hợp giữa dữ liệu tích lũy với cái gọi là dữ liệu tối (nghĩa đen là “dữ liệu tối”), dữ liệu sau bao gồm các thông điệp E-mail, đa phương tiện và các nội dung tương tự khác. Theo Gartner, người chiến thắng trong cuộc đua dữ liệu sẽ là những người học cách xử lý nhiều nguồn thông tin khác nhau.

Khảo sát của Cisco: Dữ liệu lớn sẽ giúp tăng ngân sách CNTT

Báo cáo Công nghệ Thế giới Kết nối của Cisco mùa xuân 2013, do công ty nghiên cứu độc lập InsightExpress thực hiện tại 18 quốc gia, đã khảo sát 1.800 sinh viên đại học và một số lượng tương đương các chuyên gia trẻ trong độ tuổi từ 18 đến 30. Cuộc khảo sát được thực hiện nhằm tìm hiểu mức độ sẵn sàng của các bộ phận CNTT trong việc triển khai dự án Dữ liệu lớn và hiểu rõ hơn về những thách thức liên quan, những thiếu sót về công nghệ và giá trị chiến lược của các dự án đó.

Hầu hết các công ty thu thập, ghi lại và phân tích dữ liệu. Tuy nhiên, báo cáo cho biết, nhiều công ty phải đối mặt với hàng loạt thách thức công nghệ thông tin và kinh doanh phức tạp với Dữ liệu lớn. Ví dụ, 60% số người được hỏi thừa nhận rằng các giải pháp Dữ liệu lớn có thể cải thiện quy trình ra quyết định và tăng khả năng cạnh tranh, nhưng chỉ 28% cho biết họ đã nhận được lợi ích chiến lược thực sự từ thông tin tích lũy được.

Hơn một nửa số giám đốc điều hành CNTT được khảo sát tin rằng các dự án Dữ liệu lớn sẽ giúp tăng ngân sách CNTT trong tổ chức của họ vì nhu cầu về công nghệ, nhân sự và kỹ năng chuyên môn sẽ ngày càng tăng. Đồng thời, hơn một nửa số người được hỏi mong đợi rằng những dự án như vậy sẽ làm tăng ngân sách CNTT trong công ty của họ ngay từ năm 2012. 57% tin tưởng rằng Dữ liệu lớn sẽ tăng ngân sách của họ trong ba năm tới.

81% số người được hỏi nói rằng tất cả (hoặc ít nhất một số) dự án Dữ liệu lớn sẽ yêu cầu sử dụng điện toán đám mây. Do đó, sự lan rộng của công nghệ đám mây có thể ảnh hưởng đến tốc độ áp dụng các giải pháp Dữ liệu lớn và giá trị kinh doanh của các giải pháp này.

Các công ty thu thập và sử dụng nhiều loại dữ liệu khác nhau, cả có cấu trúc và không có cấu trúc. Dưới đây là các nguồn mà người tham gia khảo sát nhận được dữ liệu của họ (Báo cáo Công nghệ Thế giới Kết nối của Cisco):

Gần một nửa (48%) các nhà lãnh đạo CNTT dự đoán tải trọng trên mạng của họ sẽ tăng gấp đôi trong hai năm tới. (Điều này đặc biệt đúng ở Trung Quốc, nơi 68% số người được hỏi chia sẻ quan điểm này và ở Đức – 60%). 23% số người được hỏi mong đợi tải mạng sẽ tăng gấp ba trong hai năm tới. Đồng thời, chỉ có 40% số người được hỏi tuyên bố sẵn sàng cho sự tăng trưởng bùng nổ về lưu lượng truy cập mạng.

27% số người được hỏi thừa nhận rằng họ cần các chính sách CNTT và biện pháp bảo mật thông tin tốt hơn.

21 phần trăm cần thêm băng thông.

Dữ liệu lớn mở ra cơ hội mới cho bộ phận CNTT để gia tăng giá trị và xây dựng mối quan hệ bền chặt với các đơn vị kinh doanh, cho phép họ tăng doanh thu và củng cố vị thế tài chính của công ty. Các dự án Dữ liệu lớn làm cho bộ phận CNTT trở thành đối tác chiến lược của các bộ phận kinh doanh.

Theo 73% số người được hỏi, bộ phận CNTT sẽ trở thành động lực chính trong việc thực hiện chiến lược Dữ liệu lớn. Đồng thời, những người được hỏi tin rằng các bộ phận khác cũng sẽ tham gia vào việc thực hiện chiến lược này. Trước hết, điều này liên quan đến các bộ phận tài chính (được 24% số người được hỏi nêu tên), nghiên cứu và phát triển (20%), vận hành (20%), kỹ thuật (19%), cũng như tiếp thị (15%) và bán hàng ( 14 phần trăm).

Gartner: Cần hàng triệu việc làm mới để quản lý dữ liệu lớn

Chi tiêu CNTT toàn cầu sẽ đạt 3,7 tỷ USD vào năm 2013, cao hơn 3,8% so với chi tiêu cho công nghệ thông tin năm 2012 (dự báo cuối năm là 3,6 tỷ USD). Bộ phận dữ liệu lớn(dữ liệu lớn) sẽ phát triển với tốc độ nhanh hơn nhiều, báo cáo của Gartner cho biết.

Đến năm 2015, 4,4 triệu việc làm trong lĩnh vực công nghệ thông tin sẽ được tạo ra để phục vụ dữ liệu lớn, trong đó 1,9 triệu việc làm thuộc lĩnh vực . Hơn nữa, mỗi công việc như vậy sẽ kéo theo việc tạo ra thêm ba công việc ngoài lĩnh vực CNTT, do đó chỉ riêng ở Hoa Kỳ, 6 triệu người sẽ làm việc để hỗ trợ nền kinh tế thông tin trong bốn năm tới.

Theo các chuyên gia của Gartner, vấn đề chính Vấn đề là ngành không có đủ nhân tài cho việc này: cả hệ thống giáo dục công và tư, chẳng hạn như ở Hoa Kỳ, đều không thể cung cấp cho ngành đủ số lượng nhân sự có trình độ. Vì vậy, trong số các công việc CNTT mới được đề cập, chỉ một trong ba công việc sẽ có nhân viên.

Các nhà phân tích tin rằng vai trò nuôi dưỡng nhân lực CNTT có trình độ nên được giao trực tiếp cho các công ty đang cần họ gấp, vì những nhân viên như vậy sẽ là tấm vé đưa họ đến với nền kinh tế thông tin mới trong tương lai.

2012

Những hoài nghi đầu tiên về "Dữ liệu lớn"

Các nhà phân tích từ Ovum và Gartner cho rằng đây là một chủ đề thời thượng trong năm 2012 dữ liệu lớn có thể đã đến lúc bạn phải giải thoát mình khỏi những ảo tưởng.

Thuật ngữ “Dữ liệu lớn” tại thời điểm này thường đề cập đến khối lượng thông tin trực tuyến ngày càng tăng từ phương tiện truyền thông xã hội, mạng cảm biến và các nguồn khác, cũng như ngày càng có nhiều công cụ được sử dụng để xử lý dữ liệu và xác định dữ liệu liên quan đến kinh doanh. từ đó -xu hướng.

Tony Bayer, một nhà phân tích tại Ovum cho biết: “Vì (hoặc bất chấp) sự cường điệu xung quanh ý tưởng về dữ liệu lớn, các nhà sản xuất trong năm 2012 đã nhìn vào xu hướng này với rất nhiều hy vọng.

Bayer báo cáo rằng DataSift đã tiến hành phân tích hồi cứu các đề cập đến dữ liệu lớn trong

"Dữ liệu lớn" là chủ đề được các hãng công nghệ tích cực thảo luận. Một số người trong số họ đã vỡ mộng với dữ liệu lớn, trong khi những người khác thì ngược lại, đang tận dụng tối đa nó để kinh doanh... Một đánh giá phân tích mới về thị trường Dữ liệu lớn trong nước và toàn cầu, do Moscow Exchange cùng với các nhà phân tích của IPOboard chuẩn bị , cho thấy xu hướng nào phù hợp nhất trên thị trường hiện nay . Chúng tôi hy vọng thông tin sẽ thú vị và hữu ích.

DỮ LIỆU LỚN LÀ GÌ?

Các tính năng chính
Big Data hiện là một trong những động lực chính của sự phát triển công nghệ thông tin. Hướng đi này, tương đối mới đối với doanh nghiệp Nga, đã trở nên phổ biến ở các nước phương Tây. Điều này là do trong thời đại công nghệ thông tin, đặc biệt là sau sự bùng nổ của mạng xã hội, một lượng thông tin đáng kể bắt đầu được tích lũy cho mỗi người dùng Internet, điều này cuối cùng đã dẫn đến sự phát triển của Dữ liệu lớn.

Thuật ngữ “Big Data” gây ra nhiều tranh cãi, nhiều người cho rằng nó chỉ có nghĩa là lượng thông tin được tích lũy, nhưng chúng ta cũng không nên quên về mặt kỹ thuật, lĩnh vực này bao gồm công nghệ lưu trữ, điện toán và dịch vụ.

Cần lưu ý rằng lĩnh vực này bao gồm việc xử lý một lượng lớn thông tin, rất khó xử lý bằng các phương pháp truyền thống*.

Dưới là bảng so sánh cơ sở dữ liệu truyền thống và dữ liệu lớn.

Lĩnh vực Dữ liệu lớn được đặc trưng bởi các tính năng sau:
Âm lượng – khối lượng, cơ sở dữ liệu tích lũy đại diện cho một lượng lớn thông tin tốn nhiều công sức để xử lý và lưu trữ theo cách truyền thống; chúng đòi hỏi một cách tiếp cận mới và các công cụ cải tiến.
vận tốc – tốc độ, thuộc tính này cho thấy cả tốc độ tích lũy dữ liệu ngày càng tăng (90% thông tin được thu thập trong 2 năm qua) và tốc độ xử lý dữ liệu theo thời gian thực gần đây đang có nhu cầu cao hơn;
Đa dạng – sự đa dạng, tức là khả năng xử lý đồng thời thông tin có cấu trúc và không cấu trúc ở nhiều định dạng khác nhau. Sự khác biệt chính giữa thông tin có cấu trúc là nó có thể được phân loại. Một ví dụ về thông tin đó là thông tin về giao dịch của khách hàng.
Thông tin phi cấu trúc bao gồm video, tệp âm thanh, văn bản miễn phí, thông tin đến từ mạng xã hội. Ngày nay, 80% thông tin là không có cấu trúc. Thông tin này cần phân tích phức tạp để làm cho nó hữu ích cho việc xử lý tiếp theo.
Tính xác thực – độ tin cậy của dữ liệu, người dùng bắt đầu ngày càng coi trọng độ tin cậy của dữ liệu có sẵn. Do đó, các công ty Internet gặp khó khăn trong việc tách biệt các hành động được thực hiện bởi robot và con người trên trang web của công ty, điều này cuối cùng dẫn đến khó khăn trong việc phân tích dữ liệu.
Giá trị - giá trị của thông tin được tích lũy. Dữ liệu lớn phải hữu ích cho công ty và mang lại giá trị nào đó cho nó. Ví dụ: giúp cải thiện quy trình kinh doanh, báo cáo hoặc tối ưu hóa chi phí.

Nếu đáp ứng được 5 điều kiện trên, khối lượng dữ liệu tích lũy có thể được phân loại là lớn.

Các lĩnh vực ứng dụng Big Data

Phạm vi sử dụng công nghệ Dữ liệu lớn rất rộng. Do đó, với sự trợ giúp của Dữ liệu lớn, bạn có thể tìm hiểu về sở thích của khách hàng, hiệu quả của các chiến dịch tiếp thị hoặc tiến hành phân tích rủi ro. Dưới đây là kết quả khảo sát của Viện IBM về các lĩnh vực sử dụng Dữ liệu lớn trong các công ty.

Có thể thấy từ sơ đồ, hầu hết các công ty đều sử dụng Big Data trong lĩnh vực dịch vụ khách hàng, lĩnh vực phổ biến thứ hai là hiệu quả hoạt động trong lĩnh vực quản lý rủi ro, Big Data hiện nay ít phổ biến hơn.

Cũng cần lưu ý rằng Big Data là một trong những lĩnh vực công nghệ thông tin có tốc độ phát triển nhanh nhất; theo thống kê, tổng lượng dữ liệu được nhận và lưu trữ tăng gấp đôi cứ sau 1,2 năm.
Từ năm 2012 đến năm 2014, lượng dữ liệu được truyền hàng tháng qua mạng di động đã tăng 81%. Theo ước tính của Cisco, năm 2014 khối lượng lưu lượng truy cập di động lên tới 2,5 exabyte (đơn vị đo lượng thông tin bằng 10^18 byte tiêu chuẩn) mỗi tháng và đến năm 2019, nó sẽ bằng 24,3 exabyte.
Do đó, Big Data là một lĩnh vực công nghệ đã có từ lâu, mặc dù có tuổi đời còn khá trẻ nhưng đã trở nên phổ biến trong nhiều lĩnh vực kinh doanh và đóng vai trò quan trọng trong sự phát triển của các công ty.

Công nghệ dữ liệu lớn
Các công nghệ được sử dụng để thu thập và xử lý Dữ liệu lớn có thể được chia thành 3 nhóm:
  • Phần mềm;
  • Thiết bị;
  • Dịch vụ.

Các phương pháp xử lý dữ liệu (DP) phổ biến nhất bao gồm:
SQL - ngôn ngữ truy vấn có cấu trúc, cho phép bạn làm việc với cơ sở dữ liệu. Sử dụng SQL, bạn có thể tạo và sửa đổi dữ liệu và việc quản lý mảng dữ liệu được xử lý bởi hệ thống quản lý cơ sở dữ liệu tương ứng.
NoSQL – thuật ngữ viết tắt của Not Only SQL (không chỉ SQL). Bao gồm một số cách tiếp cận nhằm triển khai cơ sở dữ liệu khác với các mô hình được sử dụng trong truyền thống, cơ sở dữ liệu quan hệ. Chúng thuận tiện sử dụng khi cấu trúc dữ liệu liên tục thay đổi. Ví dụ: để thu thập và lưu trữ thông tin trên mạng xã hội.
Bản đồGiảm – tính toán mô hình phân phối. Được sử dụng để tính toán song song trên rất bộ lớn dữ liệu (petabyte* trở lên). Trong giao diện chương trình, không phải dữ liệu được chuyển đến chương trình để xử lý mà là chương trình chuyển sang dữ liệu. Vì vậy, yêu cầu là một chương trình riêng biệt. Nguyên lý hoạt động là xử lý dữ liệu tuần tự bằng hai phương pháp: Map và Giảm. Bản đồ chọn dữ liệu sơ bộ, Giảm tổng hợp dữ liệu đó.
Hadoop – được sử dụng để triển khai các cơ chế tìm kiếm và theo ngữ cảnh cho các trang web có tải trọng cao - Facebook, eBay, Amazon, v.v. Một tính năng đặc biệt là hệ thống được bảo vệ khỏi lỗi của bất kỳ nút cụm nào, vì mỗi khối có ít nhất một bản sao của dữ liệu trên một nút khác.
SAP HANA – Nền tảng NewSQL hiệu suất cao để lưu trữ và xử lý dữ liệu. Cung cấp tốc độ xử lý yêu cầu cao. Một tính năng đặc biệt khác là SAP HANA đơn giản hóa bối cảnh hệ thống, giảm chi phí hỗ trợ hệ thống phân tích.

Thiết bị công nghệ bao gồm:

  • may chủ;
  • thiết bị cơ sở hạ tầng.
Máy chủ bao gồm lưu trữ dữ liệu.
Thiết bị cơ sở hạ tầng bao gồm các công cụ tăng tốc nền tảng, nguồn điện liên tục, bộ bảng điều khiển máy chủ, v.v.

Dịch vụ.
Dịch vụ bao gồm các dịch vụ xây dựng kiến ​​trúc hệ thống cơ sở dữ liệu, sắp xếp và tối ưu hóa cơ sở hạ tầng và đảm bảo an toàn cho việc lưu trữ dữ liệu.

Phần mềm, phần cứng và dịch vụ cùng nhau tạo thành nền tảng toàn diện để lưu trữ và phân tích dữ liệu. Các công ty như Microsoft, HP, EMC cung cấp dịch vụ phát triển, triển khai và quản lý các giải pháp Dữ liệu lớn.

Ứng dụng trong các ngành công nghiệp
Dữ liệu lớn đã trở nên phổ biến trong nhiều lĩnh vực kinh doanh. Chúng được sử dụng trong chăm sóc sức khỏe, viễn thông, thương mại, hậu cần, công ty tài chính cũng như trong quản lý chính phủ.
Dưới đây là một số ví dụ về ứng dụng Dữ liệu lớn trong một số ngành.

Bán lẻ
Cơ sở dữ liệu của các cửa hàng bán lẻ có thể tích lũy rất nhiều thông tin về khách hàng, hệ thống quản lý hàng tồn kho và nguồn cung cấp sản phẩm thương mại. Thông tin này có thể hữu ích trong mọi lĩnh vực hoạt động của cửa hàng.

Do đó, với sự trợ giúp của thông tin tích lũy, bạn có thể quản lý việc cung cấp hàng hóa, lưu trữ và bán chúng. Dựa trên thông tin tích lũy được, có thể dự đoán được cung cầu hàng hóa. Ngoài ra, hệ thống xử lý và phân tích dữ liệu có thể giải quyết các vấn đề khác của nhà bán lẻ, chẳng hạn như tối ưu hóa chi phí hoặc chuẩn bị báo cáo.

Các dịch vụ tài chính
Dữ liệu lớn giúp phân tích mức độ tín nhiệm của người đi vay và cũng hữu ích cho việc chấm điểm tín dụng* và bảo lãnh**. Việc áp dụng công nghệ Big Data sẽ giảm thời gian xét duyệt hồ sơ vay vốn. Với sự trợ giúp của Dữ liệu lớn, có thể phân tích các giao dịch của một khách hàng cụ thể và cung cấp các dịch vụ ngân hàng phù hợp với họ.

Viễn thông
Trong ngành viễn thông, Dữ liệu lớn đã trở nên phổ biến trong các nhà khai thác di động.
Toán tử thông tin di động Cùng với các tổ chức tài chính, họ có một trong những cơ sở dữ liệu đồ sộ nhất, cho phép họ tiến hành phân tích sâu nhất về thông tin tích lũy được.
Mục đích chính của phân tích dữ liệu là giữ lại khách hàng hiện tại và thu hút những cái mới. Để làm điều này, các công ty phân khúc khách hàng, phân tích lưu lượng truy cập của họ và xác định mối quan hệ xã hội của người đăng ký.

Ngoài việc sử dụng Dữ liệu lớn cho mục đích tiếp thị, công nghệ còn được sử dụng để ngăn chặn các giao dịch tài chính gian lận.

Công nghiệp khai thác mỏ và dầu khí
Dữ liệu lớn được sử dụng cả trong khai thác khoáng sản cũng như trong chế biến và tiếp thị chúng. Dựa trên những thông tin nhận được, doanh nghiệp có thể đưa ra kết luận về hiệu quả phát triển mỏ và theo dõi tiến độ xem xét lại tình trạng thiết bị, dự báo nhu cầu về sản phẩm và giá cả.

Theo khảo sát của Tech Pro Research, Dữ liệu lớn phổ biến nhất trong ngành viễn thông, cũng như trong các doanh nghiệp kỹ thuật, CNTT, tài chính và chính phủ. theo như kết quả cuộc điều tra, Big Data ít phổ biến hơn trong giáo dục và chăm sóc sức khỏe. Kết quả khảo sát được trình bày dưới đây:

Ví dụ về sử dụng Big Data trong công ty
Ngày nay, Big Data đang được triển khai tích cực ở các công ty nước ngoài. Các công ty như Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Cô-ca Cô-la, Starbucks và Netflix đã sử dụng tài nguyên Dữ liệu lớn.

Ứng dụng của thông tin được xử lý rất đa dạng và khác nhau tùy thuộc vào ngành và nhiệm vụ cần thực hiện.
Tiếp theo, các ví dụ về ứng dụng công nghệ Big Data trong thực tế sẽ được trình bày.

HSBC sử dụng công nghệ Big Data để chống giao dịch gian lận bằng thẻ nhựa. Với sự trợ giúp của Big Data, công ty đã tăng hiệu quả của dịch vụ bảo mật lên gấp 3 lần và khả năng nhận biết các sự cố gian lận lên gấp 10 lần. Hiệu quả kinh tế từ việc áp dụng các công nghệ này đã vượt quá 10 triệu USD.

Chống gian lận* HỘ CHIẾU cho phép bạn tự động xác định các giao dịch gian lận; hệ thống hiện đang giúp ngăn chặn các khoản thanh toán gian lận lên tới 2 tỷ USD hàng năm.

siêu máy tính Watson IBM phân tích luồng dữ liệu về giao dịch tiền tệ theo thời gian thực. Theo IBM, Watson đã tăng số lượng giao dịch gian lận được phát hiện lên 15%, giảm 50% các kết quả dương tính giả và tăng số tiền được bảo vệ khỏi các giao dịch kiểu này lên 60%.

Procter & Gamble sử dụng Dữ liệu lớn để thiết kế sản phẩm mới và tạo các chiến dịch tiếp thị toàn cầu. P&G đã tạo ra các văn phòng Business Spheres chuyên dụng để có thể xem thông tin theo thời gian thực.
Do đó, ban lãnh đạo công ty có cơ hội kiểm tra ngay các giả thuyết và tiến hành thí nghiệm. P&G tin rằng Dữ liệu lớn giúp dự báo hiệu quả hoạt động của công ty.

Nhà bán lẻ văn phòng phẩm OfficeMax Sử dụng công nghệ Dữ liệu lớn, họ phân tích hành vi của khách hàng. Phân tích Dữ liệu lớn giúp tăng doanh thu B2B lên 13% và giảm chi phí 400.000 USD mỗi năm.

Dựa theo sâu bướm , các nhà phân phối của họ đã bỏ lỡ khoản lợi nhuận từ 9 đến 18 tỷ USD mỗi năm chỉ vì họ không triển khai các công nghệ xử lý Dữ liệu lớn. Dữ liệu lớn sẽ cho phép khách hàng quản lý đội xe của mình hiệu quả hơn bằng cách phân tích thông tin đến từ các cảm biến được cài đặt trên máy.

Ngày nay, người ta có thể phân tích tình trạng của các bộ phận chính, mức độ hao mòn của chúng cũng như quản lý chi phí nhiên liệu và bảo trì.

nhóm Luxottica là nhà sản xuất kính thể thao với các thương hiệu như Ray-Ban, Persol và Oakley. Công ty sử dụng công nghệ Dữ liệu lớn để phân tích hành vi của khách hàng tiềm năng và tiếp thị qua SMS “thông minh”. Nhờ Dữ liệu lớn, nhóm Luxottica đã xác định được hơn 100 triệu khách hàng có giá trị nhất của mình và tăng hiệu quả của chiến dịch tiếp thị lên 10%.

Sử dụng Yandex Nhà máy dữ liệu nhà phát triển trò chơi Thế giới của xe tăng phân tích hành vi của người chơi. Công nghệ Dữ liệu lớn giúp phân tích hành vi của 100 nghìn Cầu thủ thế giới of Tanks sử dụng hơn 100 thông số (thông tin về mua hàng, trò chơi, trải nghiệm, v.v.). Kết quả phân tích là đã thu được dự báo về lượng người dùng rời đi. Thông tin này cho phép bạn giảm thời gian rời đi của người dùng và làm việc với những người tham gia trò chơi theo cách có mục tiêu. Mô hình được phát triển hóa ra lại hiệu quả hơn 20-30% so với các công cụ phân tích ngành trò chơi tiêu chuẩn.

Bộ Lao động Đức sử dụng Dữ liệu lớn trong công việc liên quan đến phân tích các đơn xin trợ cấp thất nghiệp đến. Vì vậy, sau khi phân tích thông tin, có thể thấy rõ rằng 20% ​​quyền lợi đã được trả không xứng đáng. Với sự trợ giúp của Dữ liệu lớn, Bộ Lao động đã giảm chi phí 10 tỷ euro.

Bệnh viện Nhi đồng Toronto thực hiện dự án Project Artemis. Đây là hệ thống thông tin thu thập và phân tích dữ liệu về trẻ sơ sinh theo thời gian thực. Hệ thống giám sát 1260 chỉ số thể trạng của từng trẻ mỗi giây. Dự án Artemis giúp dự đoán tình trạng không ổn định của trẻ và bắt đầu phòng ngừa bệnh tật ở trẻ.

TỔNG QUAN VỀ THỊ TRƯỜNG DỮ LIỆU LỚN THẾ GIỚI

Hiện trạng thị trường thế giới
Năm 2014, Big Data, theo Data Collective, đã trở thành một trong những lĩnh vực được ưu tiên đầu tư trong ngành đầu tư mạo hiểm. Theo dữ liệu cổng thông tin Computerra, điều này là do sự phát triển từ lĩnh vực này đã bắt đầu mang lại kết quả đáng kể cho người dùng của họ. Trong năm qua, số lượng công ty thực hiện dự án trong lĩnh vực quản lý dữ liệu lớn đã tăng 125% và khối lượng thị trường tăng 45% so với năm 2013.

Phần lớn doanh thu thị trường Dữ liệu lớn, theo Wikibon, năm 2014 được tạo thành từ các dịch vụ, thị phần của chúng bằng 40% tổng doanh thu (xem biểu đồ bên dưới):

Nếu chúng ta xem xét Dữ liệu lớn cho năm 2014 theo loại phụ, thị trường sẽ như sau:

Theo Wikibon, các ứng dụng và phân tích chiếm 36% doanh thu Dữ liệu lớn trong năm 2014 từ các ứng dụng và phân tích Dữ liệu lớn, 17% từ thiết bị máy tính và 15% từ công nghệ lưu trữ dữ liệu. Doanh thu ít nhất được tạo ra bởi công nghệ NoSQL, thiết bị cơ sở hạ tầng và cung cấp mạng cho các công ty (mạng công ty).

Các công nghệ Big Data phổ biến nhất là nền tảng trong bộ nhớ của SAP, HANA, Oracle, v.v. Kết quả khảo sát của T-Systems cho thấy chúng được 30% số công ty được khảo sát lựa chọn. Phổ biến thứ hai là nền tảng NoSQL (18% người dùng), các công ty cũng sử dụng nền tảng phân tích của Splunk và Dell, chúng được 15% công ty lựa chọn. Theo kết quả khảo sát, các sản phẩm Hadoop/MapReduce hóa ra lại ít hữu ích nhất trong việc giải quyết các vấn đề về Dữ liệu lớn.

Theo khảo sát của Accenture, tại hơn 50% công ty sử dụng công nghệ Big Data, chi phí Big Data dao động từ 21% đến 30%.
Theo phân tích của Accenture sau đây, 76% công ty tin rằng những chi phí này sẽ tăng trong năm 2015 và 24% công ty sẽ không thay đổi ngân sách cho công nghệ Dữ liệu lớn. Điều này cho thấy rằng ở những công ty này, Dữ liệu lớn đã trở thành một lĩnh vực CNTT lâu đời, trở thành một phần không thể thiếu trong sự phát triển của công ty.

Kết quả khảo sát của Economist Intelligence Unit xác nhận tác động tích cực của việc triển khai Dữ liệu lớn. 46% công ty cho biết việc sử dụng công nghệ Dữ liệu lớn đã cải thiện dịch vụ khách hàng hơn 10%, 33% công ty đã tối ưu hóa hàng tồn kho và cải thiện năng suất của tài sản cố định và 32% công ty đã cải thiện quy trình lập kế hoạch.

Dữ liệu lớn ở các quốc gia khác nhau trên thế giới
Ngày nay, công nghệ Dữ liệu lớn thường được triển khai ở các công ty Hoa Kỳ, nhưng các quốc gia khác trên thế giới cũng đã bắt đầu quan tâm. Năm 2014, theo IDC, các quốc gia ở Châu Âu, Trung Đông, Châu Á (trừ Nhật Bản) và Châu Phi chiếm 45% thị trường phần mềm, dịch vụ và thiết bị trong lĩnh vực Big Data.

Ngoài ra, theo khảo sát của CIO, các công ty từ khu vực Châu Á - Thái Bình Dương đang nhanh chóng áp dụng các giải pháp mới trong lĩnh vực phân tích Dữ liệu lớn, lưu trữ an toàn và công nghệ đám mây. Châu Mỹ Latinh đứng thứ hai về số lượng đầu tư vào phát triển công nghệ Dữ liệu lớn, trước các nước Châu Âu và Hoa Kỳ.
Tiếp theo, phần mô tả và dự báo về sự phát triển của thị trường Dữ liệu lớn ở một số quốc gia sẽ được trình bày.

Trung Quốc
Khối lượng thông tin ở Trung Quốc là 909 exabyte, bằng 10% tổng khối lượng thông tin trên thế giới, đến năm 2020 khối lượng thông tin sẽ đạt 8060 exabyte, tỷ trọng thông tin trong thống kê toàn cầu cũng sẽ tăng lên, trong 5 năm tới. năm sẽ bằng 18%. Sự tăng trưởng tiềm năng của Dữ liệu lớn của Trung Quốc có một trong những động lực phát triển nhanh nhất.

Brazil
Vào cuối năm 2014, Brazil đã tích lũy được lượng thông tin trị giá 212 exabyte, chiếm 3% khối lượng toàn cầu. Đến năm 2020, khối lượng thông tin sẽ tăng lên 1600 exabyte, chiếm 4% lượng thông tin của thế giới.

Ấn Độ
Theo EMC, khối lượng dữ liệu tích lũy ở Ấn Độ vào cuối năm 2014 là 326 exabyte, chiếm 5% tổng khối lượng thông tin. Đến năm 2020, khối lượng thông tin sẽ tăng lên 2800 exabyte, chiếm 6% lượng thông tin của thế giới.

Nhật Bản
Khối lượng dữ liệu tích lũy ở Nhật Bản vào cuối năm 2014 là 495 exabyte, chiếm 8% tổng khối lượng thông tin. Đến năm 2020, khối lượng thông tin sẽ tăng lên 2.200 exabyte, nhưng thị phần của Nhật Bản sẽ giảm và chỉ chiếm 5% tổng khối lượng thông tin trên toàn thế giới.
Như vậy, quy mô thị trường Nhật Bản sẽ giảm hơn 30%.

nước Đức
Theo EMC, khối lượng dữ liệu tích lũy ở Đức vào cuối năm 2014 là 230 exabyte, chiếm 4% tổng khối lượng thông tin trên thế giới. Đến năm 2020, khối lượng thông tin sẽ tăng lên 1100 exabyte và lên tới 2%.
Tại thị trường Đức, theo dự báo của Experton Group, phần lớn doanh thu sẽ đến từ phân khúc dịch vụ, tỷ trọng năm 2015 sẽ là 54% và năm 2019 sẽ tăng lên 59%; ngược lại, phần cứng sẽ giảm.

Nhìn chung, quy mô thị trường sẽ tăng từ 1,345 tỷ euro năm 2015 lên 3,198 tỷ euro vào năm 2019, tốc độ tăng trưởng trung bình là 24%.
Như vậy, dựa trên phân tích của CIO và EMC, chúng ta có thể kết luận rằng các nước đang phát triển trên thế giới trong những năm tới sẽ trở thành thị trường cho sự phát triển tích cực của công nghệ Dữ liệu lớn.

Xu hướng thị trường chính
Theo IDG Enterprise, trong năm 2015, chi tiêu của các công ty cho Big Data sẽ trung bình là 7,4 triệu USD mỗi công ty, các công ty lớn dự định chi khoảng 13,8 triệu USD, các công ty vừa và nhỏ - 1,6 triệu USD.
Hầu hết khoản đầu tư sẽ dành cho các lĩnh vực như phân tích dữ liệu, trực quan hóa và thu thập dữ liệu.
Dựa trên xu hướng hiện tại và nhu cầu thị trường, các khoản đầu tư vào năm 2015 sẽ được sử dụng để cải thiện chất lượng dữ liệu, cải thiện việc lập kế hoạch và dự báo cũng như tăng tốc độ xử lý dữ liệu.
Các công ty trong lĩnh vực tài chính, theo Insights Analysis của Bain Company, sẽ đầu tư đáng kể nên trong năm 2015 họ có kế hoạch chi 6,4 tỷ USD cho công nghệ Big Data, tốc độ tăng trưởng đầu tư trung bình sẽ là 22% cho đến năm 2020. Các công ty Internet có kế hoạch chi 2,8 tỷ USD, với tốc độ tăng trưởng trung bình là 26% cho chi tiêu Dữ liệu lớn.
Khi thực hiện khảo sát của Economist Intelligence Unit, các lĩnh vực ưu tiên phát triển Dữ liệu lớn trong năm 2014 và trong 3 năm tới đã được xác định, phân bổ các câu trả lời như sau:

Theo dự báo của IDC, xu hướng phát triển thị trường như sau:

  • Trong 5 năm tới, chi phí cho giải pháp đám mây trong lĩnh vực công nghệ Big Data sẽ tăng nhanh gấp 3 lần chi phí cho các giải pháp địa phương. Nền tảng lai để lưu trữ dữ liệu sẽ trở nên có nhu cầu.
  • Sự phát triển của các ứng dụng sử dụng phân tích dự đoán và phức tạp, bao gồm cả học máy, sẽ tăng tốc vào năm 2015, với thị trường dành cho các ứng dụng như vậy sẽ tăng nhanh hơn 65% so với các ứng dụng không sử dụng phân tích dự đoán.
  • Phân tích truyền thông sẽ tăng gấp ba vào năm 2015 và trở thành trình điều khiển chính sự phát triển của thị trường công nghệ Dữ liệu lớn.
  • Xu hướng giới thiệu các giải pháp phân tích luồng thông tin liên tục áp dụng cho Internet of Things sẽ tăng tốc.
  • Đến năm 2018, 50% người dùng sẽ tương tác với các dịch vụ dựa trên điện toán nhận thức.
Trình điều khiển và giới hạn thị trường
Các chuyên gia của IDC đã xác định 3 động lực thúc đẩy thị trường Dữ liệu lớn năm 2015:

Theo khảo sát của Accenture, vấn đề bảo mật dữ liệu hiện là rào cản chính đối với việc triển khai công nghệ Dữ liệu lớn, với hơn 51% số người được hỏi xác nhận rằng họ lo lắng về việc đảm bảo bảo vệ và bảo mật dữ liệu. 47% công ty cho biết không thể triển khai Dữ liệu lớn do ngân sách hạn chế, 41% công ty cho biết vấn đề là thiếu nhân sự có trình độ.

Wikibon dự đoán thị trường Dữ liệu lớn sẽ tăng lên 38,4 tỷ USD vào năm 2015, tăng 36% so với cùng kỳ năm trước. Trong những năm tới, tốc độ tăng trưởng sẽ giảm xuống còn 10% vào năm 2017. Nếu tính đến những dự báo này, quy mô thị trường vào năm 2020 sẽ tương đương 68,7 tỷ đô la Mỹ.

Sự phân bổ thị trường Dữ liệu lớn toàn cầu theo danh mục kinh doanh sẽ như sau:

Có thể thấy từ biểu đồ, phần lớn thị trường sẽ bị chiếm giữ bởi các công nghệ trong lĩnh vực cải thiện dịch vụ khách hàng. Tiếp thị có mục tiêu sẽ là ưu tiên thứ hai của các công ty cho đến năm 2019; theo Heavy Reading, nó sẽ nhường chỗ cho các giải pháp nâng cao hiệu quả hoạt động.
Phân khúc “nâng cao dịch vụ khách hàng” cũng sẽ có tốc độ tăng trưởng cao nhất, với mức tăng 49% mỗi năm.
Dự báo thị trường cho các phân nhóm Dữ liệu lớn sẽ như sau:

Thị phần chiếm ưu thế, như có thể thấy trên biểu đồ, thuộc về các dịch vụ chuyên nghiệp, tốc độ tăng trưởng cao nhất sẽ thuộc về các ứng dụng có phân tích, thị phần của chúng sẽ tăng từ 12% hiện tại lên 18% vào năm 2020 và khối lượng của phân khúc này sẽ tương đương 12,3 tỷ USD, ngược lại, thị phần thiết bị điện toán sẽ giảm từ 20% xuống 14% và đạt khoảng 9,3 tỷ USD vào năm 2020, thị trường công nghệ đám mây sẽ tăng dần và đến năm 2020 sẽ tăng dần. đạt 6,3 tỷ USD, thị phần giải pháp lưu trữ dữ liệu ngược lại sẽ giảm từ 15% năm 2014 xuống còn 13% vào năm 2020 và tính theo tiền tệ sẽ tương đương 8,9 tỷ USD.
Theo dự báo Phân tích chuyên sâu của Bain & Company, sự phân bổ thị trường Dữ liệu lớn theo ngành vào năm 2020 sẽ như sau:

  • Ngành tài chính sẽ chi 6,4 tỷ USD cho Big Data với tốc độ tăng trưởng bình quân 22%/năm;
  • Các công ty Internet sẽ chi 2,8 tỷ USD và tốc độ tăng trưởng chi phí trung bình là 26% trong 5 năm tới;
  • Chi phí của khu vực công sẽ tương xứng với chi phí của các công ty Internet, nhưng tốc độ tăng trưởng sẽ thấp hơn - 22%;
  • Lĩnh vực viễn thông sẽ tăng trưởng với tốc độ CAGR là 40% để đạt 1,2 tỷ USD vào năm 2020;

Các công ty năng lượng sẽ đầu tư một lượng tương đối nhỏ vào những công nghệ này - 800 triệu USD, nhưng tốc độ tăng trưởng sẽ thuộc hàng cao nhất - 54% hàng năm.
Như vậy, thị phần lớn nhất của thị trường Dữ liệu lớn vào năm 2020 sẽ thuộc về các công ty trong ngành tài chính và ngành tăng trưởng nhanh nhất sẽ là năng lượng.
Theo dự báo của các nhà phân tích, tổng quy mô thị trường sẽ tăng trong những năm tới. Tăng trưởng thị trường sẽ đạt được thông qua việc triển khai công nghệ Dữ liệu lớn ở các nước đang phát triển trên thế giới, như có thể thấy từ biểu đồ bên dưới.

Quy mô thị trường dự kiến ​​sẽ phụ thuộc vào cách các nước đang phát triển nhìn nhận công nghệ Dữ liệu lớn và liệu chúng có phổ biến như ở các nước phát triển hay không. Năm 2014, các nước đang phát triển trên thế giới chiếm 40% khối lượng thông tin tích lũy. Theo dự báo của EMC, cơ cấu thị trường hiện tại với ưu thế là các nước phát triển sẽ thay đổi trong năm 2017. Theo phân tích của EMC, năm 2020 tỷ trọng của các nước đang phát triển sẽ lên tới hơn 60%.
Theo Cisco và EMC, các nước đang phát triển trên thế giới sẽ hoạt động khá tích cực với Dữ liệu lớn, phần lớn nhờ vào sự sẵn có của công nghệ và việc tích lũy đủ lượng thông tin lên cấp độ Dữ liệu lớn. Bản đồ thế giới được trình bày ở trang tiếp theo sẽ hiển thị dự báo về sự gia tăng về khối lượng và tốc độ tăng trưởng của Dữ liệu lớn theo khu vực.

PHÂN TÍCH THỊ TRƯỜNG NGA

Tình trạng hiện tại của thị trường Nga

Theo kết quả nghiên cứu của CNews Analytics và Oracle, mức độ trưởng thành của thị trường Dữ liệu lớn của Nga đã tăng lên trong năm qua. Những người trả lời, đại diện cho 108 doanh nghiệp lớn từ nhiều ngành khác nhau, đã thể hiện mức độ nhận thức cao hơn về các công nghệ này cũng như hiểu biết rõ ràng về tiềm năng của các giải pháp đó đối với hoạt động kinh doanh của họ.
Tính đến năm 2014, theo IDC, Nga đã tích lũy được 155 exabyte thông tin, chỉ bằng 1,8% dữ liệu của thế giới. Khối lượng thông tin đến năm 2020 đạt 980 exabyte và chiếm 2,2%. Như vậy, tốc độ tăng trưởng bình quân của khối lượng thông tin sẽ là 36%/năm.
IDC ước tính thị trường Nga đạt 340 triệu USD, trong đó 100 triệu USD là giải pháp SAP, khoảng 240 triệu USD là các giải pháp tương tự của Oracle, IBM, SAS, Microsoft, v.v.
Tốc độ tăng trưởng của thị trường Dữ liệu lớn của Nga không dưới 50% mỗi năm.
Người ta dự đoán rằng động lực tích cực sẽ tiếp tục diễn ra trong lĩnh vực này của thị trường CNTT Nga, ngay cả trong điều kiện kinh tế chung trì trệ. Điều này là do các doanh nghiệp tiếp tục yêu cầu các giải pháp nâng cao hiệu quả hoạt động cũng như tối ưu hóa chi phí, cải thiện độ chính xác của dự báo và giảm thiểu rủi ro có thể xảy ra cho công ty.
Các nhà cung cấp dịch vụ chính trong lĩnh vực Dữ liệu lớn trên thị trường Nga là:
  • Lời tiên tri
  • Microsoft
  • Cloudera
  • làm vườn
  • Siêu dữ liệu.
Tổng quan thị trường theo ngành và kinh nghiệm sử dụng Big Data trong doanh nghiệp
Theo CNews, ở Nga chỉ có 10% công ty bắt đầu sử dụng công nghệ Big Data, trong khi trên thế giới tỷ lệ các công ty như vậy là khoảng 30%. Theo báo cáo từ CNews Analytics và Oracle, mức độ sẵn sàng cho các dự án Dữ liệu lớn đang tăng lên ở nhiều lĩnh vực của nền kinh tế Nga. Hơn một phần ba số công ty được khảo sát (37%) đã bắt đầu làm việc với công nghệ Dữ liệu lớn, trong đó 20% đã sử dụng các giải pháp như vậy và 17% đang bắt đầu thử nghiệm chúng. Một phần ba số người được hỏi hiện đang xem xét khả năng này.

Ở Nga, công nghệ Big Data phổ biến nhất ở khu vực ngân hàng và viễn thông, nhưng chúng cũng có nhu cầu trong ngành khai thác mỏ, năng lượng, bán lẻ, các công ty hậu cần và khu vực công.
Tiếp theo, chúng ta sẽ xem xét các ví dụ về việc sử dụng Dữ liệu lớn trong thực tế ở Nga.

Viễn thông
Các nhà khai thác viễn thông có một số cơ sở dữ liệu đồ sộ nhất, cho phép họ tiến hành phân tích sâu nhất về thông tin tích lũy.
Một trong những lĩnh vực ứng dụng công nghệ Big Data là quản lý khách hàng thân thiết của thuê bao.
Mục đích chính của phân tích dữ liệu là giữ chân khách hàng hiện tại và thu hút khách hàng mới. Để làm điều này, các công ty phân khúc khách hàng, phân tích lưu lượng truy cập của họ và xác định mối quan hệ xã hội của người đăng ký. Ngoài việc sử dụng thông tin cho mục đích tiếp thị, công nghệ viễn thông còn được sử dụng để ngăn chặn các giao dịch tài chính gian lận.
Một trong những ví dụ nổi bật của ngành này là VimpelCom. Công ty sử dụng Big Data để nâng cao chất lượng dịch vụ ở cấp độ từng thuê bao, tổng hợp báo cáo, phân tích dữ liệu để phát triển mạng, chống thư rác và cá nhân hóa dịch vụ.

Ngân hàng
Một tỷ lệ đáng kể người dùng Dữ liệu lớn là các chuyên gia trong ngành tài chính. Một trong kinh nghiệm thành côngđược thực hiện tại Ngân hàng Tái thiết và Phát triển Ural, nơi cơ sở thông tin được sử dụng để phân tích khách hàng, ngân hàng bắt đầu cung cấp các ưu đãi cho vay, tiền gửi và các dịch vụ khác chuyên biệt. Trong vòng một năm sử dụng những công nghệ này, danh mục cho vay bán lẻ của công ty đã tăng 55%.
Alfa-Bank phân tích thông tin từ mạng xã hội, xử lý đơn xin vay vốn và phân tích hành vi của người dùng trang web của công ty.
Sberbank cũng bắt đầu xử lý mảng dữ liệu để phân khúc khách hàng và ngăn chặn hoạt động lừa đảo, bán chéo và quản lý rủi ro. Trong tương lai, nó được lên kế hoạch cải thiện dịch vụ và phân tích hành động của khách hàng trong thời gian thực.
Ngân hàng Phát triển Khu vực Toàn Nga phân tích hành vi của chủ thẻ nhựa. Điều này giúp có thể xác định các giao dịch không điển hình đối với một khách hàng cụ thể, do đó làm tăng khả năng phát hiện hành vi trộm tiền từ thẻ nhựa.

Bán lẻ
Ở Nga, công nghệ Dữ liệu lớn đã được các công ty thương mại trực tuyến và ngoại tuyến triển khai. Ngày nay, theo CNews Analytics, Big Data được 20% nhà bán lẻ sử dụng. 75% chuyên gia bán lẻ coi Dữ liệu lớn là cần thiết cho việc phát triển chiến lược xúc tiến cạnh tranh của công ty. Theo thống kê của Hadoop, sau khi triển khai công nghệ Big Data, lợi nhuận của các tổ chức giao dịch tăng 7-10%.
Các chuyên gia của M.Video nói về việc lập kế hoạch hậu cần được cải thiện sau khi triển khai SAP HANA, do việc triển khai nó, thời gian chuẩn bị báo cáo hàng năm đã giảm từ 10 ngày xuống còn 3, tốc độ tải dữ liệu hàng ngày giảm từ 3 giờ xuống còn 3 giờ; 30 phút.
Wikimart sử dụng những công nghệ này để tạo ra các khuyến nghị cho khách truy cập trang web.
Một trong những cửa hàng ngoại tuyến đầu tiên giới thiệu phân tích Dữ liệu lớn ở Nga là Lenta. Với sự trợ giúp của Dữ liệu lớn, ngành bán lẻ bắt đầu nghiên cứu thông tin về khách hàng từ biên lai tính tiền. Nhà bán lẻ thu thập thông tin để tạo ra các mô hình hành vi, giúp đưa ra quyết định sáng suốt hơn ở cấp độ hoạt động và thương mại.

Ngành công nghiệp dầu mỏ và khí đốt
Trong ngành này, phạm vi của Dữ liệu lớn khá rộng. Công nghệ Dữ liệu lớn có thể được sử dụng trong việc khai thác khoáng sản từ lòng đất. Với sự giúp đỡ của họ, bạn có thể phân tích chính quá trình chiết xuất và những cách hiệu quả nhất để chiết xuất nó, theo dõi quá trình khoan, phân tích chất lượng nguyên liệu thô cũng như quá trình xử lý và tiếp thị sản phẩm cuối cùng. Ở Nga, Transneft và Rosneft đã bắt đầu sử dụng những công nghệ này.

Hệ thống chính trị
Ở các quốc gia như Đức, Úc, Tây Ban Nha, Nhật Bản, Brazil và Pakistan, công nghệ Dữ liệu lớn được sử dụng để giải quyết các vấn đề quốc gia. Những công nghệ này giúp các cơ quan chính phủ cung cấp dịch vụ cho người dân hiệu quả hơn và cung cấp hỗ trợ xã hội có mục tiêu.
Ở Nga, những công nghệ này bắt đầu được làm chủ bởi những người như vậy. hệ thống chính trị, chẳng hạn như Quỹ hưu trí, Dịch vụ thuế liên bang và Quỹ bảo hiểm y tế bắt buộc. Tiềm năng triển khai các dự án sử dụng Dữ liệu lớn là rất lớn; những công nghệ này có thể giúp cải thiện chất lượng dịch vụ và từ đó nâng cao mức sống của người dân.

Hậu cần và vận tải
Dữ liệu lớn cũng có thể được sử dụng công ty vận tải. Sử dụng công nghệ Dữ liệu lớn, bạn có thể theo dõi đội xe của mình, tính đến chi phí nhiên liệu và giám sát các yêu cầu của khách hàng.
Đường sắt Nga đã triển khai công nghệ Dữ liệu lớn cùng với SAP. Những công nghệ này đã giúp giảm thời gian chuẩn bị báo cáo xuống 43,5 lần (từ 14,5 giờ xuống còn 20 phút) và tăng độ chính xác của việc phân bổ chi phí lên 40 lần. Dữ liệu lớn cũng được đưa vào quy trình lập kế hoạch và quy định thuế quan. Tổng cộng, các công ty sử dụng hơn 300 hệ thống dựa trên giải pháp SAP, có 4 trung tâm dữ liệu tham gia và số lượng người dùng là 220.000.

Động lực chính và hạn chế của thị trường
Động lực phát triển công nghệ Dữ liệu lớn tại thị trường Nga là:
  • Tăng sự quan tâm của một bộ phận người dùng đối với khả năng của Dữ liệu lớn như một cách để tăng khả năng cạnh tranh của công ty;
  • Phát triển các phương pháp xử lý tệp phương tiện ở cấp độ toàn cầu;
  • Chuyển máy chủ xử lý thông tin cá nhân sang lãnh thổ Nga theo luật được thông qua về lưu trữ và xử lý dữ liệu cá nhân;
  • Triển khai đề án ngành phần mềm thay thế nhập khẩu. Kế hoạch này bao gồm sự hỗ trợ của chính phủ dành cho các nhà sản xuất phần mềm trong nước, cũng như cung cấp các ưu đãi cho các sản phẩm CNTT trong nước khi mua bằng chi phí công.
  • Trong tình hình kinh tế mới, khi tỷ giá đồng đô la tăng gần gấp đôi, sẽ có xu hướng sử dụng dịch vụ của các nhà cung cấp dịch vụ đám mây của Nga nhiều hơn là của nước ngoài.
  • Hình thành các khu công nghệ góp phần phát triển thị trường công nghệ thông tin, trong đó có thị trường Big Data;
  • Chương trình nhà nước về triển khai hệ thống lưới điện dựa trên công nghệ Dữ liệu lớn.

Rào cản chính đối với sự phát triển của Dữ liệu lớn tại thị trường Nga là:

  • Đảm bảo an toàn và bảo mật dữ liệu;
  • Thiếu nhân sự có trình độ;
  • Tích lũy không đủ tài nguyên thông tinđến cấp độ Dữ liệu lớn trong hầu hết công ty Nga;
  • Khó khăn trong việc đưa công nghệ mới vào hệ thống thông tin đã có của công ty;
  • Chi phí cao của công nghệ Dữ liệu lớn dẫn đến số lượng doanh nghiệp có cơ hội triển khai các công nghệ này còn hạn chế;
  • Sự bất ổn về chính trị và kinh tế, dẫn đến dòng vốn chảy ra ngoài và đóng băng các dự án đầu tư ở Nga;
  • Theo IDC, giá sản phẩm nhập khẩu tăng và lạm phát gia tăng đang làm chậm sự phát triển của toàn bộ thị trường CNTT.
Dự báo thị trường Nga
Tính đến thời điểm hiện tại, thị trường Dữ liệu lớn của Nga không phổ biến như các nước phát triển. Hầu hết các công ty Nga đều tỏ ra quan tâm nhưng lại không dám tận dụng cơ hội của mình.
Ví dụ về các công ty lớn đã được hưởng lợi từ việc sử dụng công nghệ Dữ liệu lớn đang nâng cao nhận thức về khả năng của các công nghệ này.
Các nhà phân tích cũng có những dự báo khá lạc quan về thị trường Nga. IDC tin rằng thị phần Nga sẽ tăng trong 5 năm tới, không giống như thị trường Đức và Nhật Bản.
Đến năm 2020, khối lượng Dữ liệu lớn ở Nga sẽ tăng từ 1,8% hiện tại lên 2,2% khối lượng dữ liệu toàn cầu. Theo EMC, lượng thông tin sẽ tăng lên từ 155 exabyte hiện tại lên 980 exabyte vào năm 2020.
Hiện tại, Nga tiếp tục tích lũy khối lượng thông tin lên tới mức Dữ liệu lớn.
Theo khảo sát của CNews Analytics, 44% công ty được khảo sát làm việc với dữ liệu không quá 100 terabyte* và chỉ 13% làm việc với khối lượng trên 500 terabyte.

Tuy nhiên, thị trường Nga, theo xu hướng toàn cầu, sẽ tăng trưởng. Tính đến năm 2014, IDC ước tính quy mô thị trường là 340 triệu USD.
Tốc độ tăng trưởng thị trường những năm trước là 50% mỗi năm; nếu giữ nguyên mức này thì năm 2018 quy mô thị trường sẽ đạt 1,7 tỷ USD. Thị phần của thị trường Nga trên thị trường thế giới sẽ vào khoảng 3%, tăng từ mức 1,2% hiện tại.

Các ngành dễ bị ảnh hưởng nhất sử dụng lớn Dữ liệu ở Nga bao gồm:

  • Đối với họ, ngành bán lẻ và ngân hàng, việc phân tích cơ sở khách hàng và đánh giá hiệu quả của các chiến dịch tiếp thị là quan trọng chủ yếu;
  • Viễn thông – phân khúc cơ sở khách hàng và kiếm tiền từ lưu lượng truy cập;
  • Khu vực công – báo cáo, phân tích các đơn đăng ký từ công chúng, v.v.;
  • Các công ty dầu mỏ – giám sát công việc và lập kế hoạch sản xuất và bán hàng;
  • Các công ty năng lượng – tạo ra hệ thống điện thông minh, giám sát và dự báo vận hành.
Ở các nước phát triển, Dữ liệu lớn đã trở nên phổ biến trong các lĩnh vực y tế, bảo hiểm, luyện kim, các công ty Internet và doanh nghiệp sản xuất, rất có thể trong thời gian tới, các công ty Nga ở các khu vực này cũng sẽ đánh giá cao hiệu quả của việc giới thiệu Dữ liệu lớn và sẽ thích ứng; những công nghệ này trong ngành công nghiệp của họ.
Ở Nga, cũng như trên thế giới, trong tương lai gần sẽ xuất hiện xu hướng trực quan hóa dữ liệu, phân tích các tệp phương tiện và sự phát triển của Internet vạn vật.
Bất chấp sự trì trệ chung của nền kinh tế, trong những năm tới, các nhà phân tích dự đoán thị trường Dữ liệu lớn sẽ tiếp tục tăng trưởng, chủ yếu là do việc sử dụng công nghệ Dữ liệu lớn mang lại cho người dùng lợi thế cạnh tranh về việc tăng hiệu quả hoạt động của kinh doanh, thu hút thêm luồng khách hàng, giảm thiểu rủi ro và triển khai các công nghệ dự báo dữ liệu.
Như vậy, chúng ta có thể kết luận rằng phân khúc Dữ liệu lớn ở Nga đang ở giai đoạn hình thành, nhưng nhu cầu về các công nghệ này đang tăng lên hàng năm.

Kết quả chính của phân tích thị trường

Thị trường thế giới
Vào cuối năm 2014, thị trường Dữ liệu lớn được đặc trưng bởi các thông số sau:
  • khối lượng thị trường đạt 28,5 tỷ USD, tăng 45% so với năm trước;
  • phần lớn doanh thu thị trường Big Data đến từ dịch vụ, chiếm 40% tổng doanh thu;
  • 36% doanh thu đến từ các ứng dụng và phân tích Dữ liệu lớn, 17% từ thiết bị máy tính và 15% từ công nghệ lưu trữ dữ liệu;
  • Phổ biến nhất để giải quyết các vấn đề về Dữ liệu lớn là nền tảng trong bộ nhớ của các công ty như SAP, HANA và Oracle.
  • số lượng doanh nghiệp triển khai dự án trong lĩnh vực quản lý Big Data tăng 125%;
Dự báo thị trường trong những năm tới như sau:
  • năm 2015 khối lượng thị trường sẽ đạt 38,4 tỷ đô la Mỹ, năm 2020 – 68,7 tỷ đô la Mỹ;
  • tốc độ tăng trưởng bình quân hàng năm là 16%;
  • chi phí trung bình của công ty cho công nghệ Dữ liệu lớn sẽ là 13,8 triệu USD đối với các công ty lớn và 1,6 triệu USD đối với các doanh nghiệp vừa và nhỏ;
  • công nghệ sẽ được phổ biến rộng rãi nhất trong các lĩnh vực dịch vụ khách hàng và tiếp thị mục tiêu;
  • Năm 2017, cơ cấu thị trường toàn cầu sẽ thay đổi theo hướng chiếm ưu thế của các công ty người dùng từ các nước đang phát triển.
thị trường Nga
Thị trường Big Data của Nga đang trong giai đoạn hình thành, kết quả năm 2014 như sau:
  • khối lượng thị trường đạt 340 triệu USD;
  • tốc độ tăng trưởng thị trường bình quân các năm trước là 50%/năm;
  • tổng khối lượng thông tin tích lũy là 155 exabyte;
  • 10% công ty Nga bắt đầu sử dụng công nghệ Big Data;
  • Công nghệ Dữ liệu lớn phổ biến hơn trong lĩnh vực ngân hàng, viễn thông, công ty Internet và bán lẻ.
Dự báo thị trường Nga trong những năm tới như sau:
  • khối lượng thị trường Nga vào năm 2015 sẽ đạt 500 triệu đô la Mỹ và năm 2018 – 1,7 tỷ đô la Mỹ;
  • thị phần của thị trường Nga trên thị trường toàn cầu sẽ đạt khoảng 3% vào năm 2018;
  • lượng dữ liệu tích lũy vào năm 2020 sẽ là 980 exabyte;
  • khối lượng dữ liệu sẽ tăng lên 2,2% khối lượng dữ liệu toàn cầu vào năm 2020;
  • Các công nghệ trực quan hóa dữ liệu, phân tích tệp phương tiện và Internet of Things sẽ trở nên phổ biến nhất.
Dựa trên kết quả phân tích, chúng ta có thể kết luận rằng thị trường Dữ liệu lớn vẫn đang trong giai đoạn phát triển ban đầu và trong tương lai gần, chúng ta sẽ chứng kiến ​​​​sự tăng trưởng và mở rộng khả năng của các công nghệ này.

Cảm ơn bạn đã dành thời gian đọc tác phẩm đồ sộ này, hãy đăng ký theo dõi blog của chúng tôi - chúng tôi hứa hẹn sẽ có nhiều ấn phẩm mới thú vị!