Định nghĩa dữ liệu lớn dữ liệu lớn. Big Data và blockchain là bước đột phá trong lĩnh vực phân tích dữ liệu. Công nghệ dữ liệu lớn

Tốc độ tăng trưởng dữ liệu không ngừng tăng lên là một yếu tố không thể thiếu trong thực tế hiện đại. Mạng xã hội, thiết bị di động, dữ liệu từ thiết bị đo lường, thông tin doanh nghiệp chỉ là một số loại nguồn có thể tạo ra lượng dữ liệu khổng lồ.

Hiện nay, thuật ngữ Big Data đã trở nên khá phổ biến. Không phải ai cũng nhận thức được công nghệ xử lý lượng lớn dữ liệu nhanh chóng và sâu sắc như thế nào đang thay đổi những khía cạnh đa dạng nhất của xã hội. Những thay đổi đang diễn ra ở nhiều lĩnh vực khác nhau, làm nảy sinh những vấn đề và thách thức mới, bao gồm cả lĩnh vực này bảo mật thông tin, trong đó các khía cạnh quan trọng nhất của nó như tính bảo mật, tính toàn vẹn, tính sẵn sàng, v.v. phải được đặt lên hàng đầu.

Thật không may, nhiều công ty hiện đại sử dụng công nghệ Dữ liệu lớn mà không tạo ra cơ sở hạ tầng phù hợp để lưu trữ an toàn lượng dữ liệu khổng lồ mà họ thu thập và lưu trữ. Mặt khác, công nghệ blockchain hiện đang phát triển nhanh chóng, được thiết kế để giải quyết vấn đề này và nhiều vấn đề khác.

Dữ liệu lớn là gì?

Trên thực tế, định nghĩa của thuật ngữ này rất đơn giản: “dữ liệu lớn” có nghĩa là việc quản lý khối lượng dữ liệu rất lớn cũng như phân tích chúng. Nếu nhìn rộng hơn, đây là thông tin không thể xử lý bằng các phương pháp cổ điển do khối lượng lớn.

Bản thân thuật ngữ Big Data đã xuất hiện tương đối gần đây. Theo Google Trends, sự gia tăng tích cực về mức độ phổ biến của thuật ngữ này xảy ra vào cuối năm 2011:

Năm 2010, những sản phẩm, giải pháp đầu tiên liên quan trực tiếp đến xử lý dữ liệu lớn bắt đầu xuất hiện. Đến năm 2011, hầu hết các công ty CNTT lớn nhất, bao gồm IBM, Oracle, Microsoft và Hewlett-Packard, đều tích cực sử dụng thuật ngữ Dữ liệu lớn trong chiến lược kinh doanh của mình. Dần dần các nhà phân tích thị trường công nghệ thông tinđang bắt đầu nghiên cứu tích cực về khái niệm này.

Hiện nay, thuật ngữ này đã trở nên phổ biến đáng kể và được sử dụng tích cực trong nhiều lĩnh vực. Tuy nhiên, không thể nói chắc chắn rằng Dữ liệu lớn là một loại hiện tượng mới về cơ bản - ngược lại, nguồn dữ liệu lớn đã tồn tại trong nhiều năm. Trong tiếp thị, chúng bao gồm cơ sở dữ liệu về hoạt động mua hàng của khách hàng, lịch sử tín dụng, lối sống, v.v. Trong nhiều năm, các nhà phân tích đã sử dụng dữ liệu này để giúp các công ty dự đoán nhu cầu của khách hàng trong tương lai, đánh giá rủi ro, định hình sở thích của người tiêu dùng, v.v.

Hiện nay, tình hình đã thay đổi ở hai khía cạnh:

- đã xuất hiện các công cụ và phương pháp phức tạp hơn để phân tích và so sánh các tập hợp dữ liệu khác nhau;
— các công cụ phân tích đã được bổ sung nhiều nguồn dữ liệu mới, đó là do sự chuyển đổi rộng rãi sang công nghệ số cũng như các phương pháp thu thập và đo lường dữ liệu mới.

Các nhà nghiên cứu dự đoán rằng công nghệ Dữ liệu lớn sẽ được sử dụng tích cực nhất trong sản xuất, chăm sóc sức khỏe, thương mại, quản lý chính phủ và trong các lĩnh vực và ngành công nghiệp đa dạng khác.

Dữ liệu lớn không phải là một mảng dữ liệu cụ thể mà là một tập hợp các phương pháp để xử lý nó. Đặc điểm xác định của dữ liệu lớn không chỉ là khối lượng của nó mà còn là các danh mục khác đặc trưng cho quá trình phân tích và xử lý dữ liệu sử dụng nhiều lao động.

Dữ liệu ban đầu để xử lý có thể là, ví dụ:

— nhật ký hành vi của người dùng Internet;
- Internet vạn vật;
- truyền thông xã hội;
- dữ liệu khí tượng;
- sách số hóa từ các thư viện lớn;
- Tín hiệu GPS từ các phương tiện;
- thông tin về các giao dịch của khách hàng ngân hàng;
- dữ liệu về vị trí của người đăng ký mạng di động;
- thông tin về việc mua hàng trong các chuỗi bán lẻ lớn, v.v.

Theo thời gian, khối lượng dữ liệu và số lượng nguồn của nó không ngừng tăng lên và dựa trên nền tảng đó, các phương pháp xử lý thông tin mới đang xuất hiện và các phương pháp hiện có đang được cải tiến.

Nguyên tắc cơ bản của Dữ liệu lớn:

— Khả năng mở rộng theo chiều ngang – mảng dữ liệu có thể rất lớn và điều này có nghĩa là hệ thống xử lý dữ liệu lớn phải tự động mở rộng khi khối lượng của chúng tăng lên.
— Khả năng chịu lỗi – ngay cả khi một số thành phần thiết bị bị lỗi, toàn bộ hệ thống vẫn phải hoạt động.
- Vị trí dữ liệu. lớn hệ thống phân phối dữ liệu thường được phân phối trên một số lượng đáng kể các máy. Tuy nhiên, bất cứ khi nào có thể và để tiết kiệm tài nguyên, dữ liệu thường được xử lý trên cùng một máy chủ nơi nó được lưu trữ.

Để vận hành ổn định cả ba nguyên tắc và theo đó, hiệu quả lưu trữ và xử lý dữ liệu lớn cao, các giải pháp mới công nghệ đột phá, chẳng hạn như blockchain.

Tại sao chúng ta cần dữ liệu lớn?

Phạm vi của Dữ liệu lớn không ngừng mở rộng:

- Dữ liệu lớn có thể được sử dụng trong y học. Do đó, chẩn đoán có thể được đưa ra cho bệnh nhân không chỉ dựa trên dữ liệu phân tích bệnh sử của bệnh nhân mà còn tính đến kinh nghiệm của các bác sĩ khác, thông tin về tình hình môi trường nơi bệnh nhân cư trú và nhiều yếu tố khác.
— Công nghệ Dữ liệu lớn có thể được sử dụng để tổ chức chuyển động của các phương tiện không người lái.
— Bằng cách xử lý lượng lớn dữ liệu, bạn có thể nhận dạng khuôn mặt trong ảnh và video.
— Các nhà bán lẻ có thể sử dụng công nghệ Dữ liệu lớn - các công ty thương mại có thể chủ động sử dụng mảng dữ liệu từ mạng xã hội để định cấu hình hiệu quả chiến dịch quảng cáo, có thể được nhắm mục tiêu tối đa đến một phân khúc người tiêu dùng cụ thể.
— Công nghệ này được sử dụng tích cực trong việc tổ chức các chiến dịch bầu cử, bao gồm cả việc phân tích các ưu tiên chính trị trong xã hội.
— Việc sử dụng công nghệ Dữ liệu lớn phù hợp với các giải pháp thuộc loại đảm bảo thu nhập (RA), bao gồm các công cụ phát hiện sự không nhất quán và phân tích dữ liệu chuyên sâu, cho phép xác định kịp thời các tổn thất có thể xảy ra hoặc bóp méo thông tin có thể dẫn đến giảm kết quả tài chính.
— Các nhà cung cấp viễn thông có thể tổng hợp dữ liệu lớn, bao gồm cả vị trí địa lý; lần lượt, thông tin này có thể đại diện lợi ích thương mại cho các đại lý quảng cáo, có thể sử dụng nó để hiển thị quảng cáo được nhắm mục tiêu và địa phương, cũng như cho các nhà bán lẻ và ngân hàng.
— Dữ liệu lớn có thể đóng một vai trò quan trọng trong việc quyết định mở một cửa hàng bán lẻ ở một địa điểm nhất định dựa trên dữ liệu về sự hiện diện của dòng người được nhắm mục tiêu mạnh mẽ.

Như vậy, ứng dụng thực tế rõ ràng nhất của công nghệ Big Data nằm ở lĩnh vực marketing. Nhờ sự phát triển của Internet và sự phổ biến của tất cả các loại thiết bị liên lạc, dữ liệu hành vi (chẳng hạn như số lượng cuộc gọi, thói quen mua sắm và mua hàng) đang trở nên sẵn có theo thời gian thực.

Công nghệ dữ liệu lớn cũng có thể được sử dụng hiệu quả trong tài chính, nghiên cứu xã hội học và trong nhiều lĩnh vực khác. Các chuyên gia lập luận rằng tất cả những cơ hội sử dụng dữ liệu lớn này chỉ là phần nhìn thấy được của tảng băng trôi, vì những công nghệ này được sử dụng với số lượng lớn hơn nhiều trong hoạt động tình báo và phản gián, trong các vấn đề quân sự cũng như trong mọi thứ thường được gọi là chiến tranh thông tin.

TRONG phác thảo chung Trình tự làm việc với Dữ liệu lớn bao gồm thu thập dữ liệu, cấu trúc thông tin nhận được bằng cách sử dụng báo cáo và bảng điều khiển, sau đó đưa ra các đề xuất hành động.

Hãy xem xét ngắn gọn các khả năng sử dụng công nghệ Dữ liệu lớn trong tiếp thị. Như bạn đã biết, đối với một nhà tiếp thị, thông tin là công cụ chính để dự báo và phát triển chiến lược. Phân tích dữ liệu lớn từ lâu đã được sử dụng thành công để xác định đối tượng mục tiêu, sở thích, nhu cầu và hoạt động của người tiêu dùng. Đặc biệt, phân tích dữ liệu lớn giúp chỉ có thể hiển thị quảng cáo (dựa trên mô hình đấu giá RTB - Đặt giá thầu theo thời gian thực) cho những người tiêu dùng quan tâm đến sản phẩm hoặc dịch vụ.

Việc sử dụng Dữ liệu lớn trong tiếp thị cho phép các doanh nhân:

— hiểu rõ hơn về người tiêu dùng của bạn, thu hút lượng khán giả tương tự trên Internet;
- đánh giá mức độ thỏa mãn của khách hàng;
- hiểu liệu dịch vụ được đề xuất có đáp ứng được mong đợi và nhu cầu hay không;
− tìm và thực hiện những cách thức mới để tăng cường sự tin cậy của khách hàng;
— tạo ra các dự án có nhu cầu, v.v.

Ví dụ: dịch vụ Google.trends có thể cho nhà tiếp thị biết dự báo về hoạt động nhu cầu theo mùa đối với một sản phẩm cụ thể, các biến động và địa lý của các lần nhấp chuột. Nếu bạn so sánh thông tin này với dữ liệu thống kê được plugin tương ứng thu thập trên trang web của riêng bạn, bạn có thể tạo kế hoạch phân phối ngân sách quảng cáo cho biết tháng, khu vực và các thông số khác.

Theo nhiều nhà nghiên cứu, thành công của chiến dịch tranh cử Trump nằm ở việc phân khúc và sử dụng Big Data. Đội ngũ của Tổng thống Mỹ tương lai đã có khả năng phân chia khán giả một cách chính xác, hiểu được mong muốn của họ và thể hiện chính xác thông điệp mà cử tri muốn xem, nghe. Do đó, theo Irina Belysheva từ Liên minh Trung tâm Dữ liệu, chiến thắng của Trump phần lớn có được nhờ vào cách tiếp cận không chuẩnđến tiếp thị trên Internet, dựa trên Dữ liệu lớn, phân tích tâm lý và hành vi cũng như quảng cáo được cá nhân hóa.

Các nhà chiến lược chính trị và nhà tiếp thị của Trump đã sử dụng một mô hình toán học được phát triển đặc biệt, giúp phân tích sâu sắc dữ liệu của tất cả cử tri Hoa Kỳ và hệ thống hóa chúng, giúp việc nhắm mục tiêu cực kỳ chính xác không chỉ theo đặc điểm địa lý mà còn theo ý định, lợi ích của cử tri, kiểu tâm lý, đặc điểm hành vi của họ, v.v. Sau Đây là lý do tại sao các nhà tiếp thị tổ chức giao tiếp cá nhân hóa với từng nhóm công dân dựa trên nhu cầu, tâm trạng, quan điểm chính trị của họ, đặc điểm tâm lý và thậm chí cả màu da, sử dụng một thông điệp khác nhau cho hầu hết mọi cử tri.

Đối với Hillary Clinton, trong chiến dịch tranh cử của mình, bà đã sử dụng các phương pháp “được thử nghiệm theo thời gian” dựa trên dữ liệu xã hội học và tiếp thị tiêu chuẩn, chỉ chia cử tri thành các nhóm đồng nhất về mặt hình thức (nam, nữ, người Mỹ gốc Phi, người Mỹ Latinh, người nghèo, người giàu, v.v.) .

Kết quả, người chiến thắng là người đánh giá cao tiềm năng của công nghệ và phương pháp phân tích mới. Điều đáng lưu ý là chi phí của chiến dịch bầu cử Hillary Clinton có số lượng gấp đôi đối thủ:

Dữ liệu: Nghiên cứu Pew

Các vấn đề chính của việc sử dụng Dữ liệu lớn

Ngoài chi phí cao, một trong những yếu tố chính cản trở việc triển khai Dữ liệu lớn trong nhiều lĩnh vực khác nhau là vấn đề lựa chọn dữ liệu cần xử lý: tức là xác định dữ liệu nào cần được truy xuất, lưu trữ và phân tích, dữ liệu nào cần được truy xuất, lưu trữ và phân tích. không được tính đến.

Một vấn đề khác với Dữ liệu lớn là đạo đức. Nói cách khác, một câu hỏi hợp lý được đặt ra: việc thu thập dữ liệu như vậy (đặc biệt là khi người dùng không biết) có thể bị coi là vi phạm quyền riêng tư không?

Không có gì bí mật rằng thông tin được lưu trữ trong công cụ tìm kiếm Google và Yandex cho phép những gã khổng lồ CNTT liên tục cải tiến dịch vụ của họ, làm cho chúng thân thiện với người dùng và tạo ra các ứng dụng tương tác mới. Để thực hiện việc này, các công cụ tìm kiếm thu thập dữ liệu người dùng về hoạt động của người dùng trên Internet, địa chỉ IP, dữ liệu vị trí địa lý, sở thích và mua hàng trực tuyến, dữ liệu cá nhân, tin nhắn email, v.v. Tất cả điều này cho phép bạn chứng minh quảng cáo theo ngữ cảnh phù hợp với hành vi của người dùng trên Internet. Trong trường hợp này, thường không yêu cầu sự đồng ý của người dùng cho việc này và không có cơ hội lựa chọn thông tin nào về bản thân họ để cung cấp. Nghĩa là, theo mặc định, mọi thứ được thu thập trong Dữ liệu lớn, sau đó sẽ được lưu trữ trên máy chủ dữ liệu của trang web.

Điều này dẫn đến vấn đề quan trọng tiếp theo liên quan đến tính bảo mật của việc lưu trữ và sử dụng dữ liệu. Ví dụ: một nền tảng phân tích cụ thể mà người tiêu dùng tự động chuyển dữ liệu của họ sang đó có an toàn không? Ngoài ra, nhiều đại diện doanh nghiệp lưu ý rằng họ đang thiếu các nhà phân tích và nhà tiếp thị có trình độ cao, những người có thể xử lý hiệu quả khối lượng dữ liệu lớn và giải quyết các vấn đề kinh doanh cụ thể với sự trợ giúp của họ.

Bất chấp mọi khó khăn khi triển khai Dữ liệu lớn, doanh nghiệp vẫn có ý định tăng cường đầu tư vào lĩnh vực này. Theo nghiên cứu của Gartner, các công ty dẫn đầu đầu tư vào Big Data là truyền thông, bán lẻ, viễn thông, khu vực ngân hàng và các công ty dịch vụ.

Triển vọng tương tác giữa công nghệ blockchain và Big Data

Tích hợp với Dữ liệu lớn có tác dụng hiệp đồng và mở ra nhiều cơ hội mới cho doanh nghiệp, bao gồm cho phép:

- có quyền truy cập vào thông tin chi tiết về sở thích của người tiêu dùng, trên cơ sở đó bạn có thể xây dựng hồ sơ phân tích chi tiết cho các nhà cung cấp, sản phẩm và thành phần sản phẩm cụ thể;
— tích hợp dữ liệu chi tiết về số liệu thống kê giao dịch và tiêu dùng của các nhóm hàng hóa nhất định theo nhiều loại người dùng khác nhau;
- nhận dữ liệu phân tích chi tiết về chuỗi cung ứng và tiêu thụ, kiểm soát thất thoát sản phẩm trong quá trình vận chuyển (ví dụ, hao hụt trọng lượng do sấy khô và bay hơi của một số loại hàng hóa);
- chống lại việc làm giả sản phẩm, tăng hiệu quả của cuộc chiến chống rửa tiền và gian lận, v.v.

Việc truy cập vào dữ liệu chi tiết về việc sử dụng và tiêu thụ hàng hóa sẽ tiết lộ đáng kể tiềm năng của công nghệ Dữ liệu lớn trong việc tối ưu hóa các quy trình kinh doanh chính, giảm rủi ro pháp lý, tiết lộ các cơ hội mới để kiếm tiền và tạo ra các sản phẩm đáp ứng tốt nhất sở thích của người tiêu dùng hiện tại.

Như đã biết, đại diện của các tổ chức tài chính lớn nhất đã thể hiện sự quan tâm đáng kể đến công nghệ blockchain, bao gồm, v.v. Theo Oliver Bussmann, giám đốc CNTT của tổ chức tài chính Thụy Sĩ UBS, công nghệ blockchain có thể “giảm thời gian xử lý giao dịch từ vài ngày xuống còn vài ngày”. phút" .

Tiềm năng phân tích từ blockchain bằng công nghệ Dữ liệu lớn là rất lớn. Công nghệ sổ đăng ký phân tánđảm bảo tính toàn vẹn của thông tin cũng như lưu trữ đáng tin cậy và minh bạch toàn bộ lịch sử giao dịch. Ngược lại, Dữ liệu lớn cung cấp các công cụ mới để phân tích, dự báo, lập mô hình kinh tế hiệu quả và theo đó, mở ra những cơ hội mới để đưa ra các quyết định quản lý sáng suốt hơn.

Sự kết hợp giữa blockchain và Dữ liệu lớn có thể được sử dụng thành công trong chăm sóc sức khỏe. Như đã biết, dữ liệu không đầy đủ và không đầy đủ về sức khỏe của bệnh nhân làm tăng đáng kể nguy cơ chẩn đoán sai và điều trị sai quy định. Dữ liệu quan trọng về sức khỏe của khách hàng của các tổ chức y tế phải được bảo vệ tối đa, có đặc tính bất biến, có thể kiểm chứng và không bị thao túng.

Thông tin trong chuỗi khối đáp ứng tất cả các yêu cầu trên và có thể đóng vai trò là dữ liệu nguồn đáng tin cậy và chất lượng cao để phân tích chuyên sâu bằng các công nghệ Dữ liệu lớn mới. Ngoài ra, với sự trợ giúp của blockchain, các tổ chức y tế có thể trao đổi dữ liệu đáng tin cậy với các công ty bảo hiểm, cơ quan tư pháp, người sử dụng lao động, tổ chức khoa học và các tổ chức khác cần thông tin y tế.

Dữ liệu lớn và bảo mật thông tin

Theo nghĩa rộng, bảo mật thông tin là việc bảo vệ thông tin và cơ sở hạ tầng hỗ trợ khỏi những tác động tiêu cực vô tình hoặc cố ý có tính chất tự nhiên hoặc nhân tạo.

Trong lĩnh vực bảo mật thông tin, Big Data phải đối mặt với những thách thức sau:

- các vấn đề về bảo vệ dữ liệu và đảm bảo tính toàn vẹn của chúng;
- nguy cơ giả mạo và rò rỉ thông tin bí mật;
- lưu trữ thông tin bí mật không đúng cách;
- nguy cơ mất thông tin, ví dụ, do người khác hành động độc hại;
— nguy cơ lạm dụng dữ liệu cá nhân của bên thứ ba, v.v.

Một trong những vấn đề dữ liệu lớn chính mà blockchain được thiết kế để giải quyết nằm ở lĩnh vực bảo mật thông tin. Bằng cách đảm bảo tuân thủ tất cả các nguyên tắc cơ bản của nó, công nghệ sổ cái phân tán có thể đảm bảo tính toàn vẹn và độ tin cậy của dữ liệu và do không có một điểm lỗi nào, blockchain tạo ra công việc ổn định hệ thông thông tin. Công nghệ sổ cái phân tán có thể giúp giải quyết vấn đề tin cậy vào dữ liệu cũng như cho phép chia sẻ dữ liệu phổ quát.

Thông tin là tài sản quý giá, điều đó có nghĩa là việc đảm bảo các khía cạnh cơ bản về bảo mật thông tin phải được đặt lên hàng đầu. Để có thể chịu đựng được cuộc thi, các công ty phải theo kịp thời đại, điều đó có nghĩa là họ không thể bỏ qua những cơ hội và lợi thế tiềm ẩn mà công nghệ blockchain và các công cụ Big Data mang lại.

Dữ liệu lớn (hoặc Dữ liệu lớn) là một tập hợp các phương pháp để làm việc với khối lượng lớn thông tin có cấu trúc hoặc phi cấu trúc. Các chuyên gia dữ liệu lớn xử lý và phân tích nó để thu được kết quả trực quan mà con người có thể nhận biết được. Look At Me đã nói chuyện với các chuyên gia và tìm hiểu tình hình xử lý dữ liệu lớn ở Nga, học ở đâu và học cái gì là tốt nhất cho những ai muốn làm việc trong lĩnh vực này.

Alexey Ryvkin về các xu hướng chính trong lĩnh vực dữ liệu lớn, giao tiếp với khách hàng và thế giới của những con số

Tôi học tại Học viện Công nghệ Điện tử Moscow. Điều chính mà tôi học được ở đó là kiến thức cơ bản về vật lý và toán học. Đồng thời với việc học, tôi làm việc tại trung tâm R&D, nơi tôi tham gia phát triển và triển khai các thuật toán mã hóa chống ồn để truyền dữ liệu an toàn. Sau khi học xong cử nhân, tôi đăng ký học chương trình thạc sĩ tin học kinh doanh Trung học phổ thông kinh tế. Sau đó tôi muốn làm việc tại IBS. Tôi thật may mắn khi vào thời điểm đó, do có rất nhiều dự án, bộ bổ sung thực tập sinh, và sau nhiều cuộc phỏng vấn, tôi bắt đầu làm việc tại IBS, một trong những công ty lớn nhất của Nga trong lĩnh vực này. Trong ba năm, tôi từ một thực tập sinh trở thành kiến trúc sư giải pháp doanh nghiệp. Hiện tại tôi đang phát triển kiến thức chuyên môn về công nghệ Dữ liệu lớn cho các công ty khách hàng thuộc lĩnh vực tài chính và viễn thông.

Có hai chuyên môn chính dành cho những người muốn làm việc với dữ liệu lớn: nhà phân tích và nhà tư vấn CNTT, những người tạo ra công nghệ để làm việc với dữ liệu lớn. Ngoài ra, chúng ta cũng có thể nói đến nghề Big Data Analyst, tức là những người trực tiếp làm việc với dữ liệu, với nền tảng CNTT của khách hàng. Trước đây, đây là những nhà phân tích toán học thông thường, biết thống kê, toán học và sử dụng phần mềm thống kê để giải quyết các vấn đề phân tích dữ liệu. Ngày nay, ngoài kiến thức về thống kê và toán học, sự hiểu biết về công nghệ và vòng đời dữ liệu cũng rất cần thiết. Theo tôi, đây là sự khác biệt giữa các Nhà phân tích dữ liệu hiện đại và những nhà phân tích đi trước.

Chuyên môn của tôi là tư vấn CNTT, nghĩa là tôi nghĩ ra và cung cấp cho khách hàng những cách giải quyết các vấn đề kinh doanh bằng cách sử dụng công nghệ CNTT. Những người có kinh nghiệm khác nhau đến với nghề tư vấn, nhưng những phẩm chất quan trọng nhất của nghề này là khả năng hiểu nhu cầu của khách hàng, mong muốn giúp đỡ mọi người và tổ chức, kỹ năng giao tiếp và làm việc nhóm tốt (vì nó luôn làm việc với khách hàng và trong một nhóm), kỹ năng phân tích tốt. Động lực bên trong rất quan trọng: chúng tôi làm việc trong một môi trường cạnh tranh và khách hàng mong đợi những giải pháp khác thường cũng như sự quan tâm đến công việc.

Phần lớn thời gian của tôi dành cho việc giao tiếp với khách hàng, chính thức hóa nhu cầu kinh doanh của họ và giúp họ phát triển kiến trúc công nghệ phù hợp nhất. Các tiêu chí lựa chọn ở đây có đặc thù riêng: ngoài chức năng và TCO (Tổng chi phí sở hữu), các yêu cầu phi chức năng đối với hệ thống rất quan trọng, thường là thời gian phản hồi và thời gian xử lý thông tin. Để thuyết phục khách hàng, chúng tôi thường sử dụng phương pháp chứng minh khái niệm - chúng tôi đề nghị “thử nghiệm” công nghệ miễn phí trên một số nhiệm vụ, trên một tập dữ liệu hẹp, để đảm bảo rằng công nghệ đó hoạt động. Giải pháp phải tạo ra lợi thế cạnh tranh cho khách hàng bằng cách đạt được lợi ích kèm theo(ví dụ: x-sell, cross-sell) hoặc giải quyết một số vấn đề trong kinh doanh, chẳng hạn như giảm mức độ gian lận cho vay cao.

Sẽ dễ dàng hơn nhiều nếu khách hàng đến với một nhiệm vụ làm sẵn, nhưng cho đến nay họ vẫn chưa hiểu rằng một công nghệ mang tính cách mạng đã xuất hiện có thể thay đổi thị trường trong vài năm tới

Bạn gặp phải những vấn đề gì? Thị trường vẫn chưa sẵn sàng sử dụng công nghệ dữ liệu lớn. Sẽ dễ dàng hơn nhiều nếu khách hàng mang theo một nhiệm vụ làm sẵn, nhưng cho đến nay họ vẫn chưa hiểu rằng một công nghệ mang tính cách mạng đã xuất hiện có thể thay đổi thị trường trong vài năm tới. Đây là lý do tại sao về cơ bản chúng tôi làm việc ở chế độ khởi động - chúng tôi không chỉ bán công nghệ mà mỗi khi chúng tôi thuyết phục khách hàng rằng họ cần đầu tư vào các giải pháp này. Đây là vị trí của những người có tầm nhìn xa - chúng tôi chỉ cho khách hàng cách họ có thể thay đổi hoạt động kinh doanh của mình bằng cách sử dụng dữ liệu và CNTT. Chúng tôi tạo ra cái này thị trường mới- Thị trường tư vấn CNTT thương mại trong lĩnh vực Dữ liệu lớn.

Nếu một người muốn tham gia phân tích dữ liệu hoặc tư vấn CNTT trong lĩnh vực Dữ liệu lớn, thì điều quan trọng đầu tiên là giáo dục toán học hoặc kỹ thuật với đào tạo toán tốt. Nó cũng hữu ích để học công nghệ cụ thể, giả sử các giải pháp SAS, Hadoop, ngôn ngữ R hoặc IBM. Ngoài ra, bạn cần tích cực quan tâm bài toán ứng dụngđối với Dữ liệu lớn - ví dụ: cách nó có thể được sử dụng để cải thiện việc chấm điểm tín dụng trong ngân hàng hoặc quản lý vòng đời khách hàng. Kiến thức này và các kiến thức khác có thể được lấy từ các nguồn có sẵn: ví dụ: Coursera và Đại học Dữ liệu lớn. Ngoài ra còn có Sáng kiến Phân tích Khách hàng tại Đại học Wharton Pennsylvania, nơi có rất nhiều tài liệu thú vị đã được xuất bản.

Một vấn đề lớn đối với những người muốn làm việc trong lĩnh vực của chúng tôi là thiếu thông tin rõ ràng về Dữ liệu lớn. Ví dụ, bạn không thể đến hiệu sách hoặc một số trang web và lấy một bộ sưu tập toàn diện các trường hợp về tất cả các ứng dụng công nghệ Dữ liệu lớn trong ngân hàng. Không có thư mục như vậy. Một số thông tin có trong sách, một số được thu thập tại các hội nghị và một số bạn phải tự tìm hiểu.

Một vấn đề khác là các nhà phân tích cảm thấy thoải mái với thế giới của những con số nhưng không phải lúc nào họ cũng cảm thấy thoải mái trong kinh doanh. Những người này thường sống nội tâm và gặp khó khăn trong giao tiếp, khiến họ khó truyền đạt kết quả nghiên cứu một cách thuyết phục đến khách hàng. Để phát triển những kỹ năng này, tôi khuyên bạn nên giới thiệu những cuốn sách như Nguyên lý kim tự tháp, Nói ngôn ngữ của sơ đồ. Chúng giúp phát triển kỹ năng thuyết trình và bày tỏ suy nghĩ của bạn một cách chính xác và rõ ràng.

Việc tham gia nhiều giải vô địch tình huống khác nhau khi theo học tại Trường Kinh tế Cao cấp thuộc Đại học Nghiên cứu Quốc gia đã giúp tôi rất nhiều. Giải vô địch tình huống là cuộc thi trí tuệ dành cho sinh viên, nơi họ cần nghiên cứu các vấn đề kinh doanh và đề xuất giải pháp cho chúng. Có hai loại: giải vô địch trường hợp của các công ty tư vấn, ví dụ: McKinsey, BCG, Accenture, cũng như giải vô địch trường hợp độc lập như Changellenge. Khi tham gia vào chúng, tôi đã học cách nhìn nhận và giải quyết các vấn đề phức tạp - từ việc xác định vấn đề và cấu trúc nó cho đến bảo vệ các khuyến nghị cho giải pháp của nó.

Oleg Mikhalsky về thị trường Nga và đặc thù của việc tạo ra sản phẩm mới trong lĩnh vực dữ liệu lớn

Trước khi gia nhập Acronis, tôi đã tham gia tung sản phẩm mới ra thị trường tại các công ty khác. Công việc này luôn thú vị và đầy thử thách, vì vậy tôi ngay lập tức quan tâm đến cơ hội làm việc trên các dịch vụ đám mây và giải pháp lưu trữ dữ liệu. Tất cả kinh nghiệm trước đây của tôi trong ngành CNTT, bao gồm cả dự án khởi nghiệp I-accelerator của riêng tôi, đều có ích trong lĩnh vực này. Có bằng cấp về kinh doanh (MBA) ngoài bằng kỹ sư cơ bản cũng giúp ích.

Ở Nga, các công ty lớn - ngân hàng, nhà khai thác di động, v.v. - có nhu cầu phân tích dữ liệu lớn, vì vậy ở nước ta có nhiều triển vọng cho những ai muốn làm việc trong lĩnh vực này. Đúng vậy, nhiều dự án hiện nay là các dự án tích hợp, nghĩa là được thực hiện trên cơ sở phát triển của nước ngoài hoặc công nghệ nguồn mở. Trong những dự án như vậy, về cơ bản, các phương pháp và công nghệ mới không được tạo ra mà thay vào đó, những phát triển hiện có sẽ được điều chỉnh. Tại Acronis, chúng tôi đã đi một con đường khác và sau khi phân tích các lựa chọn thay thế có sẵn, chúng tôi quyết định đầu tư vào sự phát triển của chính mình, tạo ra một hệ thống lưu trữ an toànđối với dữ liệu lớn, không thua kém về mặt chi phí, chẳng hạn như Amazon S3, nhưng hoạt động đáng tin cậy, hiệu quả và ở quy mô nhỏ hơn đáng kể. Các công ty Internet lớn cũng có sự phát triển dữ liệu lớn của riêng mình, nhưng họ tập trung vào nhu cầu nội bộ hơn là đáp ứng nhu cầu của khách hàng bên ngoài.

Điều quan trọng là phải hiểu các xu hướng và lực lượng kinh tế ảnh hưởng đến lĩnh vực dữ liệu lớn. Để làm được điều này, bạn cần phải đọc nhiều, nghe các bài phát biểu của các chuyên gia uy tín trong ngành CNTT, hãy truy cập hội nghị chuyên đề. Hiện nay hầu hết mọi hội nghị đều có một phần về Dữ liệu lớn, nhưng tất cả đều nói về nó từ một góc độ khác: từ quan điểm công nghệ, kinh doanh hoặc tiếp thị. Bạn có thể đi đến dự án công việc hoặc thực tập tại một công ty đang dẫn đầu các dự án về chủ đề này. Nếu bạn tự tin vào khả năng của mình thì việc tổ chức khởi nghiệp trong lĩnh vực Big Data cũng chưa muộn.

Không có thường xuyên liên lạc với thị trường sự phát triển mới rủi ro không được thừa nhận

Đó là sự thật khi bạn chịu trách nhiệm Sản phẩm mới, dành nhiều thời gian cho việc phân tích thị trường và giao tiếp với khách hàng tiềm năng, đối tác, nhà phân tích chuyên nghiệp, những người hiểu biết nhiều về khách hàng và nhu cầu của họ. Nếu không có sự tiếp xúc thường xuyên với thị trường, sự phát triển mới có nguy cơ không được thừa nhận. Luôn có rất nhiều điều không chắc chắn: bạn phải tìm hiểu xem ai sẽ là người chấp nhận sớm, bạn phải cung cấp cho họ những gì và làm thế nào để thu hút được đông đảo khán giả. Nhiệm vụ quan trọng thứ hai là xây dựng và truyền đạt cho các nhà phát triển một tầm nhìn rõ ràng và toàn diện về sản phẩm cuối cùng nhằm thúc đẩy họ làm việc trong những điều kiện khi một số yêu cầu vẫn có thể thay đổi và các ưu tiên phụ thuộc vào phản hồi đến từ những khách hàng đầu tiên. Do đó, một nhiệm vụ quan trọng là một mặt quản lý sự mong đợi của khách hàng và mặt khác là các nhà phát triển. Để không ai mất hứng thú và hoàn thành dự án. Sau dự án thành công đầu tiên, mọi việc trở nên dễ dàng hơn và nhiệm vụ chính sẽ tìm thấy đúng mẫu tăng trưởng cho hoạt động kinh doanh mới.

Chuyên mục của giáo viên HSE về những lầm tưởng và trường hợp làm việc với dữ liệu lớn

Để đánh dấu

Các giáo viên tại Trường Truyền thông Mới tại Trường Kinh tế Cao cấp thuộc Đại học Nghiên cứu Quốc gia Konstantin Romanov và Alexander Pyatigorsky, đồng thời là giám đốc chuyển đổi kỹ thuật số tại Beeline, đã viết một chuyên mục cho trang web về những quan niệm sai lầm chính về dữ liệu lớn - ví dụ về việc sử dụng công nghệ và công cụ. Các tác giả cho rằng ấn phẩm này sẽ giúp các nhà quản lý công ty hiểu được khái niệm này.

Những lầm tưởng và quan niệm sai lầm về Dữ liệu lớn

Dữ liệu lớn không phải là tiếp thị

Thuật ngữ Dữ liệu lớn đã trở nên rất thời thượng - nó được sử dụng trong hàng triệu tình huống và với hàng trăm cách hiểu khác nhau, thường không liên quan đến nó là gì. Các khái niệm thường được thay thế trong đầu mọi người và Dữ liệu lớn bị nhầm lẫn với một sản phẩm tiếp thị. Hơn nữa, ở một số công ty, Big Data là một phần của bộ phận tiếp thị. Kết quả phân tích dữ liệu lớn thực sự có thể là nguồn cho hoạt động tiếp thị, nhưng không có gì hơn thế. Hãy xem nó hoạt động như thế nào.

Nếu chúng tôi xác định được danh sách những người đã mua hàng hóa trị giá hơn ba nghìn rúp trong cửa hàng của chúng tôi hai tháng trước và sau đó gửi cho những người dùng này một số loại ưu đãi, thì đây là hoạt động tiếp thị điển hình. Chúng tôi rút ra một mô hình rõ ràng từ dữ liệu cấu trúc và sử dụng nó để tăng doanh số bán hàng.

Tuy nhiên, nếu chúng tôi kết hợp dữ liệu CRM với thông tin phát trực tuyến từ Instagram và phân tích nó, chúng tôi sẽ tìm thấy một mô hình: một người đã giảm hoạt động của mình vào tối thứ Tư và có bức ảnh mới nhất cho thấy mèo con nên đưa ra một đề nghị nhất định. Đây sẽ là Dữ liệu lớn. Chúng tôi đã tìm ra yếu tố kích hoạt, chuyển nó cho các nhà tiếp thị và họ sử dụng nó cho mục đích riêng của mình.

Từ đó, công nghệ thường hoạt động với dữ liệu phi cấu trúc và ngay cả khi dữ liệu có cấu trúc, hệ thống vẫn tiếp tục tìm kiếm các mẫu ẩn trong đó, điều mà hoạt động tiếp thị không làm được.

Dữ liệu lớn không phải là CNTT

Thái cực thứ hai của câu chuyện này: Dữ liệu lớn thường bị nhầm lẫn với CNTT. Điều này là do thực tế là trong công ty Nga Theo quy định, các chuyên gia CNTT là người điều khiển mọi công nghệ, bao gồm cả dữ liệu lớn. Do đó, nếu mọi thứ diễn ra trong bộ phận này, thì toàn bộ công ty sẽ có ấn tượng rằng đây là một loại hoạt động CNTT nào đó.

Trên thực tế, có sự khác biệt cơ bản ở đây: Dữ liệu lớn là một hoạt động nhằm đạt được một sản phẩm cụ thể, hoàn toàn không liên quan đến CNTT, mặc dù công nghệ không thể tồn tại nếu không có nó.

Dữ liệu lớn không phải lúc nào cũng là việc thu thập và phân tích thông tin

Có một quan niệm sai lầm khác về Dữ liệu lớn. Mọi người đều hiểu rằng công nghệ này liên quan đến một lượng lớn dữ liệu, nhưng loại dữ liệu đó là gì thì không phải lúc nào cũng rõ ràng. Bất cứ ai cũng có thể thu thập và sử dụng thông tin; giờ đây điều này không chỉ có thể thực hiện được trong các bộ phim mà còn ở bất kỳ công ty nào, kể cả rất nhỏ. Câu hỏi duy nhất là thu thập chính xác những gì và làm thế nào để sử dụng nó để làm lợi thế cho bạn.

Nhưng cần hiểu rằng công nghệ Dữ liệu lớn sẽ không phải là việc thu thập và phân tích hoàn toàn bất kỳ thông tin nào. Ví dụ: nếu bạn thu thập dữ liệu về một người cụ thể trên mạng xã hội thì đó sẽ không phải là Big Data.

Dữ liệu lớn thực sự là gì?

Dữ liệu lớn bao gồm ba yếu tố:

dữ liệu;
phân tích;
công nghệ.

Dữ liệu lớn không chỉ là một trong những thành phần này mà là sự kết hợp của cả ba yếu tố. Người ta thường thay thế các khái niệm: một số người tin rằng Big Data chỉ là dữ liệu, số khác lại cho rằng đó là công nghệ. Nhưng trên thực tế, cho dù bạn thu thập bao nhiêu dữ liệu, bạn cũng sẽ không thể làm được gì với dữ liệu đó nếu không có công nghệ và phân tích phù hợp. Nếu có phân tích tốt nhưng không có dữ liệu thì còn tệ hơn nữa.

Nếu chúng ta nói về dữ liệu, đây không chỉ là văn bản mà còn là tất cả các bức ảnh được đăng trên Instagram và nói chung là mọi thứ có thể được phân tích và sử dụng cho các mục đích và nhiệm vụ khác nhau. Nói cách khác, Dữ liệu đề cập đến khối lượng lớn dữ liệu bên trong và bên ngoài của các cấu trúc khác nhau.

Phân tích cũng cần thiết, vì nhiệm vụ của Dữ liệu lớn là xây dựng một số mẫu. Nghĩa là, phân tích là việc xác định các phụ thuộc tiềm ẩn và tìm kiếm các câu hỏi và câu trả lời mới dựa trên việc phân tích toàn bộ khối lượng dữ liệu không đồng nhất. Hơn nữa, Dữ liệu lớn đặt ra những câu hỏi không thể rút ra trực tiếp từ dữ liệu này.

Về hình ảnh, việc bạn đăng ảnh mình mặc áo phông xanh chẳng có ý nghĩa gì cả. Nhưng nếu bạn sử dụng nhiếp ảnh để lập mô hình Dữ liệu lớn, bạn có thể thấy rằng ngay bây giờ bạn nên đưa ra một khoản vay, bởi vì trong nhóm xã hội hành vi như vậy biểu thị một hiện tượng nhất định trong hành động. Do đó, dữ liệu “trần” không có phân tích, không xác định các phần phụ thuộc ẩn và không rõ ràng không phải là Dữ liệu lớn.

Vì vậy, chúng tôi có dữ liệu lớn. Mảng của họ rất lớn. Chúng tôi cũng có một nhà phân tích. Nhưng làm thế nào chúng ta có thể chắc chắn rằng từ dữ liệu thô này chúng ta sẽ đưa ra được một giải pháp cụ thể? Để làm được điều này, chúng ta cần những công nghệ cho phép chúng ta không chỉ lưu trữ chúng (và điều này trước đây là không thể) mà còn có thể phân tích chúng.

Nói một cách đơn giản, nếu bạn có nhiều dữ liệu, bạn sẽ cần các công nghệ, chẳng hạn như Hadoop, giúp lưu trữ tất cả thông tin ở dạng ban đầu để phân tích sau này. Loại công nghệ này xuất hiện ở những gã khổng lồ Internet, vì họ là những người đầu tiên phải đối mặt với vấn đề lưu trữ một lượng lớn dữ liệu và phân tích nó để kiếm tiền sau này.

Ngoài các công cụ lưu trữ dữ liệu tối ưu và giá rẻ, bạn cần có các công cụ phân tích cũng như các tiện ích bổ sung cho nền tảng được sử dụng. Ví dụ, toàn bộ hệ sinh thái gồm các dự án và công nghệ liên quan đã hình thành xung quanh Hadoop. Dưới đây là một số trong số họ:

Pig là một ngôn ngữ phân tích dữ liệu khai báo.
Hive - phân tích dữ liệu bằng ngôn ngữ tương tự như SQL.
Oozie - Quy trình làm việc của Hadoop.
Hbase - cơ sở dữ liệu (không quan hệ), tương tự của Google Cái bàn lớn.
Quản tượng học máy.
Sqoop - chuyển dữ liệu từ RSDB sang Hadoop và ngược lại.
Flume - chuyển nhật ký sang HDFS.
Người quản lý vườn thú, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS, v.v.

Tất cả những công cụ này đều được cung cấp miễn phí cho mọi người nhưng cũng có một số tiện ích bổ sung phải trả phí.

Ngoài ra, cần có các chuyên gia: nhà phát triển và nhà phân tích (được gọi là Nhà khoa học dữ liệu). Cũng cần một người quản lý có thể hiểu cách áp dụng phân tích này để giải quyết một vấn đề cụ thể, bởi vì bản thân nó hoàn toàn vô nghĩa nếu nó không được tích hợp vào quy trình kinh doanh.

Cả ba nhân viên phải làm việc theo nhóm. Người quản lý giao cho chuyên gia Khoa học dữ liệu nhiệm vụ tìm kiếm một mẫu nhất định phải hiểu rằng không phải lúc nào anh ta cũng tìm thấy chính xác những gì mình cần. Trong trường hợp này, người quản lý nên lắng nghe cẩn thận những gì Nhà khoa học dữ liệu tìm thấy, vì những phát hiện của anh ta thường thú vị và hữu ích hơn cho doanh nghiệp. Công việc của bạn là áp dụng điều này vào doanh nghiệp và tạo ra sản phẩm từ đó.

Mặc dù hiện nay có rất nhiều loại máy móc, công nghệ khác nhau nhưng quyết định cuối cùng luôn thuộc về con người. Để làm được điều này, thông tin cần phải được hình dung bằng cách nào đó. Có khá nhiều công cụ cho việc này.

Ví dụ đáng chú ý nhất là các báo cáo phân tích địa lý. Công ty Beeline làm việc rất nhiều với chính quyền của các thành phố và khu vực khác nhau. Rất thường xuyên, các tổ chức này yêu cầu các báo cáo như “Tắc nghẽn giao thông ở một địa điểm nhất định”.

Rõ ràng là một báo cáo như vậy phải đến tay các cơ quan chính phủ dưới hình thức đơn giản và dễ hiểu. Nếu chúng tôi cung cấp cho họ một bảng khổng lồ và hoàn toàn không thể hiểu được (nghĩa là thông tin ở dạng mà chúng tôi nhận được), họ khó có thể mua một báo cáo như vậy - nó sẽ hoàn toàn vô dụng, họ sẽ không nhận được kiến thức từ đó họ muốn nhận.

Do đó, cho dù các nhà khoa học dữ liệu có giỏi đến đâu và họ có tìm thấy mẫu nào đi nữa, bạn sẽ không thể làm việc với dữ liệu này nếu không có các công cụ trực quan hóa tốt.

Nguồn dữ liệu

Mảng dữ liệu thu được rất lớn nên có thể chia thành nhiều nhóm.

Dữ liệu nội bộ công ty

Mặc dù 80% dữ liệu được thu thập thuộc về nhóm này nhưng nguồn này không phải lúc nào cũng được sử dụng. Thường thì đây là dữ liệu mà dường như không ai cần chút nào, chẳng hạn như nhật ký. Nhưng nếu nhìn chúng từ một góc độ khác, đôi khi bạn có thể tìm thấy những khuôn mẫu bất ngờ ở chúng.

Nguồn phần mềm chia sẻ

Điều này bao gồm dữ liệu từ mạng xã hội, Internet và mọi thứ có thể truy cập miễn phí. Tại sao nó là phần mềm chia sẻ? Một mặt, dữ liệu này có sẵn cho tất cả mọi người, nhưng nếu bạn công ty lớn, thì việc nhận được chúng với quy mô cơ sở thuê bao hàng chục nghìn, hàng trăm hoặc hàng triệu khách hàng là đã một nhiệm vụ không hề dễ dàng. Vì vậy, có dịch vụ trả phíđể cung cấp dữ liệu này.

Nguồn trả phí

Điều này bao gồm các công ty bán dữ liệu để lấy tiền. Đây có thể là viễn thông, DMP, công ty Internet, văn phòng tín dụng và công ty tổng hợp. Ở Nga, viễn thông không bán dữ liệu. Thứ nhất, nó không mang lại lợi ích kinh tế, thứ hai, nó bị pháp luật cấm. Do đó, họ bán kết quả xử lý của mình, chẳng hạn như báo cáo phân tích địa lý.

Dữ liệu mở

Nhà nước đang hỗ trợ các doanh nghiệp và cho họ cơ hội sử dụng dữ liệu họ thu thập. Điều này được phát triển ở mức độ lớn hơn ở phương Tây, nhưng Nga về mặt này cũng theo kịp thời đại. Ví dụ: có Cổng dữ liệu mở của Chính phủ Moscow, nơi thông tin về các đồ vật khác nhau cơ sở hạ tầng đô thị.

Đối với người dân và khách của Moscow, dữ liệu được trình bày dưới dạng bảng và bản đồ, còn đối với các nhà phát triển - ở các định dạng đặc biệt có thể đọc được bằng máy. Mặc dù dự án đang hoạt động ở chế độ hạn chế nhưng nó đang phát triển, có nghĩa là nó cũng là nguồn dữ liệu mà bạn có thể sử dụng cho các nhiệm vụ kinh doanh của mình.

Nghiên cứu

Như đã lưu ý, nhiệm vụ của Dữ liệu lớn là tìm ra một mẫu. Thông thường, nghiên cứu được thực hiện trên khắp thế giới có thể trở thành điểm tựa để tìm ra một mô hình cụ thể - bạn có thể nhận được một kết quả cụ thể và cố gắng áp dụng logic tương tự cho mục đích riêng của mình.

Dữ liệu lớn là một lĩnh vực không áp dụng được tất cả các định luật toán học. Ví dụ: “1” + “1” không phải là “2”, mà còn hơn thế nữa, vì bằng cách kết hợp các nguồn dữ liệu, hiệu ứng có thể được nâng cao đáng kể.

Ví dụ sản phẩm

Nhiều người đã quen thuộc với dịch vụ chọn nhạc Spotify. Thật tuyệt vì nó không hỏi người dùng tâm trạng của họ hôm nay như thế nào mà tính toán dựa trên các nguồn có sẵn. Anh ấy luôn biết bạn cần gì bây giờ - nhạc jazz hay hard rock. Đây là cái gì sự khác biệt chính, nơi cung cấp cho nó người hâm mộ và phân biệt nó với các dịch vụ khác.

Những sản phẩm như vậy thường được gọi là sản phẩm cảm giác - những sản phẩm cảm nhận được khách hàng của mình.

Công nghệ Big Data cũng được sử dụng trong ngành công nghiệp ô tô. Ví dụ: Tesla thực hiện điều này - trong Mẫu mới nhất có một máy lái tự động. Công ty cố gắng tạo ra một chiếc ô tô có thể tự đưa hành khách đến nơi họ cần đến. Nếu không có Dữ liệu lớn thì điều này là không thể, bởi vì nếu chúng ta chỉ sử dụng dữ liệu mà chúng ta nhận được trực tiếp, như con người vẫn làm, thì chiếc ô tô sẽ không thể cải thiện được.

Khi tự lái ô tô, chúng ta sử dụng tế bào thần kinh của mình để đưa ra quyết định dựa trên nhiều yếu tố mà chúng ta thậm chí không nhận thấy. Ví dụ, chúng tôi có thể không nhận ra lý do tại sao chúng tôi quyết định không tăng tốc ngay lập tức khi đèn xanh, nhưng sau đó hóa ra quyết định đó là đúng - một chiếc ô tô lao qua bạn với tốc độ chóng mặt và bạn đã tránh được một vụ tai nạn.

Bạn cũng có thể đưa ra một ví dụ sử dụng lớn Dữ liệu trong thể thao. Năm 2002, tổng giám đốc của đội bóng chày Oakland Athletics, Billy Beane, đã quyết định phá vỡ mô hình tuyển dụng vận động viên - ông đã lựa chọn và đào tạo các cầu thủ “theo những con số”.

Thông thường các nhà quản lý nhìn vào sự thành công của các cầu thủ, nhưng trong trong trường hợp này mọi thứ đã khác - để đạt được kết quả, người quản lý đã nghiên cứu những sự kết hợp của các vận động viên mà anh ta cần, chú ý đến đặc điểm cá nhân. Hơn nữa, ông đã chọn những vận động viên mà bản thân họ không có nhiều tiềm năng, nhưng toàn đội đã thành công đến mức họ đã thắng 20 trận liên tiếp.

Đạo diễn Bennett Miller sau đó đã thực hiện một bộ phim dành riêng cho câu chuyện này - Người đàn ông đã thay đổi mọi thứ với sự tham gia của Brad Pitt.

Công nghệ Dữ liệu lớn cũng hữu ích trong lĩnh vực tài chính. Không một người nào trên thế giới có thể xác định một cách độc lập và chính xác liệu có đáng để cho ai đó vay hay không. Để đưa ra quyết định, việc tính điểm được thực hiện, tức là xây dựng một mô hình xác suất, từ đó người ta có thể hiểu được người này có trả lại tiền hay không. Hơn nữa, việc tính điểm được áp dụng ở tất cả các giai đoạn: chẳng hạn, bạn có thể tính toán rằng tại một thời điểm nhất định, một người sẽ ngừng thanh toán.

Dữ liệu lớn cho phép bạn không chỉ kiếm tiền mà còn tiết kiệm tiền. Đặc biệt, công nghệ này đã giúp Bộ Lao động Đức giảm 10 tỷ euro chi phí trợ cấp thất nghiệp, vì sau khi phân tích thông tin, người ta thấy rõ rằng 20% tiền trợ cấp đã được trả không xứng đáng.

Công nghệ cũng được sử dụng trong y học (điều này đặc biệt điển hình ở Israel). Với sự trợ giúp của Dữ liệu lớn, bạn có thể thực hiện phân tích chính xác hơn nhiều so với những gì một bác sĩ có ba mươi năm kinh nghiệm có thể làm.

Bất cứ bác sĩ nào khi chẩn đoán cũng chỉ dựa vào chính mình trải nghiệm riêng. Khi máy thực hiện điều này, nó xuất phát từ kinh nghiệm của hàng ngàn bác sĩ như vậy và tất cả các lịch sử ca bệnh hiện có. Nó tính đến chất liệu mà ngôi nhà của bệnh nhân được làm, nạn nhân sống ở khu vực nào, có loại khói gì, v.v. Tức là nó tính đến rất nhiều yếu tố mà bác sĩ không tính đến.

Một ví dụ về việc sử dụng Dữ liệu lớn trong chăm sóc sức khỏe là dự án Project Artemis do Bệnh viện Nhi đồng Toronto thực hiện. Đây là hệ thống thông tin thu thập và phân tích dữ liệu về trẻ sơ sinh theo thời gian thực. Máy cho phép phân tích 1260 chỉ số sức khỏe của mỗi trẻ mỗi giây. Dự án này nhằm mục đích dự đoán tình trạng không ổn định của trẻ và ngăn ngừa bệnh tật ở trẻ.

Dữ liệu lớn cũng bắt đầu được sử dụng ở Nga: ví dụ Yandex có bộ phận dữ liệu lớn. Công ty cùng với AstraZeneca và xã hội Nga ung thư lâm sàng RUSSCO đã ra mắt nền tảng RAY, được thiết kế cho các nhà di truyền học và nhà sinh học phân tử. Dự án cho phép chúng tôi cải tiến các phương pháp chẩn đoán ung thư và xác định khuynh hướng ung thư. Nền tảng này sẽ ra mắt vào tháng 12 năm 2016.

Chỉ những người lười biếng mới không nói về Big data nhưng họ hầu như không hiểu nó là gì và nó hoạt động như thế nào. Hãy bắt đầu với điều đơn giản nhất - thuật ngữ. Nói bằng tiếng Nga, Dữ liệu lớn là các công cụ, cách tiếp cận và phương pháp khác nhau để xử lý cả dữ liệu có cấu trúc và phi cấu trúc nhằm sử dụng chúng cho các nhiệm vụ và mục đích cụ thể.

Dữ liệu phi cấu trúc là thông tin không có cấu trúc xác định trước hoặc không được sắp xếp theo một thứ tự cụ thể.

Thuật ngữ “dữ liệu lớn” được biên tập viên tạp chí Nature Clifford Lynch giới thiệu vào năm 2008 trong số đặc biệt dành riêng cho sự phát triển bùng nổ của khối lượng thông tin trên thế giới. Tất nhiên, mặc dù bản thân dữ liệu lớn đã tồn tại trước đó. Theo các chuyên gia, danh mục Dữ liệu lớn bao gồm hầu hết các luồng dữ liệu trên 100 GB mỗi ngày.

Đọc thêm:

Ngày nay, thuật ngữ đơn giản này chỉ ẩn chứa hai từ - lưu trữ và xử lý dữ liệu.

Dữ liệu lớn - nói một cách đơn giản

Trong thế giới hiện đại, Dữ liệu lớn là một hiện tượng kinh tế xã hội gắn liền với việc xuất hiện các khả năng công nghệ mới để phân tích một lượng dữ liệu khổng lồ.

Đọc thêm:

Để dễ hiểu hơn, hãy tưởng tượng một siêu thị trong đó tất cả hàng hóa không theo đúng thứ tự mà bạn quen thuộc. Bánh mì bên cạnh trái cây, bột cà chua bên cạnh bánh pizza đông lạnh, chất lỏng nhẹ hơn ở phía trước giá băng vệ sinh, trong đó có bơ, đậu phụ hoặc nấm shiitake. Dữ liệu lớn sắp xếp mọi thứ vào đúng vị trí của nó và giúp bạn tìm sữa hạt, tìm hiểu giá thành và ngày hết hạn cũng như ai, ngoài bạn, mua loại sữa này và tại sao nó tốt hơn sữa bò.

Kenneth Cukier: Dữ liệu lớn là dữ liệu tốt hơn

Công nghệ dữ liệu lớn

Khối lượng dữ liệu khổng lồ được xử lý để một người có thể thu được kết quả cụ thể và cần thiết để sử dụng hiệu quả hơn nữa.

Đọc thêm:

Trên thực tế, Big data là giải pháp cho các vấn đề và là sự thay thế cho các hệ thống quản lý dữ liệu truyền thống.

Kỹ thuật và phương pháp phân tích áp dụng Big data theo McKinsey:

Nguồn lực cộng đồng;

Trộn và tích hợp dữ liệu;

Học máy;

Mạng lưới thần kinh nhân tạo;

Nhận dạng mẫu;

Phân tích dự đoán;

Mô hình mô phỏng;

Phân tích không gian;

Phân tích thống kê;
Trực quan hóa dữ liệu phân tích.

Khả năng mở rộng theo chiều ngang, đảm bảo xử lý dữ liệu - nguyên tắc cơ bản xử lý dữ liệu lớn. Dữ liệu được phân phối trên các nút máy tính và quá trình xử lý diễn ra mà không làm giảm hiệu suất. McKinsey cũng đưa các hệ thống quản lý quan hệ và Business Intelligence vào bối cảnh khả năng ứng dụng.

Công nghệ:

Không có SQL;
MapReduce;
Hadoop;
Giải pháp phần cứng.

Đọc thêm:

Đối với dữ liệu lớn, có những đặc điểm xác định truyền thống được Meta Group phát triển vào năm 2001, được gọi là “ Ba V»:

Âm lượng- số lượng khối lượng vật lý.
vận tốc- Tốc độ tăng trưởng và nhu cầu xử lý nhanh dữ liệu để thu được kết quả.
Đa dạng- Khả năng xử lý đồng thời Nhiều loại khác nhau dữ liệu.

Dữ liệu lớn: ứng dụng và cơ hội

Khối lượng không đồng nhất và nhanh chóng đến thông tin số không thể xử lý bằng các công cụ truyền thống. Bản thân phân tích dữ liệu cho phép bạn nhìn thấy những mẫu nhất định và không thể nhận ra mà một người không thể nhìn thấy. Điều này cho phép chúng tôi tối ưu hóa mọi lĩnh vực trong cuộc sống - từ chính phủ kiểm soátđến sản xuất và viễn thông.

Ví dụ, một số công ty cách đây vài năm đã bảo vệ khách hàng của họ khỏi gian lận và chăm sóc tiền của khách hàng có nghĩa là chăm sóc tiền của chính bạn.

Susan Etliger: Còn dữ liệu lớn thì sao?

Giải pháp dựa trên dữ liệu lớn: Sberbank, Beeline và các công ty khác

Beeline có một lượng dữ liệu khổng lồ về người đăng ký. Dữ liệu này không chỉ được sử dụng để làm việc với người đăng ký mà còn để tạo ra các sản phẩm phân tích, chẳng hạn như tư vấn bên ngoài hoặc phân tích IPTV. Beeline đã phân đoạn cơ sở dữ liệu và bảo vệ khách hàng khỏi gian lận tài chính và vi rút, sử dụng HDFS và Apache Spark để lưu trữ cũng như Rapidminer và Python để xử lý dữ liệu.

Đọc thêm:

Hoặc hãy nhớ đến Sberbank với trường hợp cũ của họ có tên AS SAFI. Đây là hệ thống phân tích hình ảnh để xác định khách hàng của ngân hàng và ngăn chặn gian lận. Hệ thống này được giới thiệu vào năm 2014, hệ thống này dựa trên việc so sánh các bức ảnh từ cơ sở dữ liệu có được từ camera web trên khán đài nhờ vào tầm nhìn máy tính. Cơ sở của hệ thống là một nền tảng sinh trắc học. Nhờ đó, số vụ lừa đảo đã giảm đi 10 lần.

Dữ liệu lớn trên thế giới

Đến năm 2020, theo dự báo, nhân loại sẽ tạo ra 40-44 zettabyte thông tin. Và đến năm 2025, nó sẽ tăng trưởng gấp 10 lần, theo báo cáo The Data Age 2025 do các nhà phân tích từ IDC chuẩn bị. Báo cáo lưu ý rằng hầu hết dữ liệu sẽ được tạo ra bởi chính các doanh nghiệp chứ không phải người tiêu dùng thông thường.

Các nhà phân tích nghiên cứu tin rằng dữ liệu sẽ trở thành tài sản quan trọng và bảo mật là nền tảng quan trọng trong cuộc sống. Các tác giả của công trình cũng tin tưởng rằng công nghệ sẽ thay đổi cục diện kinh tế và Người sử dụng thường xuyên sẽ giao tiếp với các thiết bị được kết nối khoảng 4800 lần một ngày.

Thị trường dữ liệu lớn ở Nga

Dữ liệu lớn thường đến từ ba nguồn:

Internet (mạng xã hội, diễn đàn, blog, phương tiện truyền thông và các trang khác);
Lưu trữ tài liệu doanh nghiệp;
Bài đọc từ cảm biến, dụng cụ và các thiết bị khác.

Dữ liệu lớn trong ngân hàng

Ngoài hệ thống được mô tả ở trên, chiến lược của Sberbank cho năm 2014-2018 bao gồm: nói về tầm quan trọng của việc phân tích siêu dữ liệu để có chất lượng dịch vụ khách hàng, quản lý rủi ro và tối ưu hóa chi phí. Hiện ngân hàng sử dụng Big data để quản lý rủi ro, chống gian lận, phân khúc và đánh giá mức độ tín nhiệm của khách hàng, quản lý nhân sự, dự báo hàng đợi tại các chi nhánh, tính thưởng cho nhân viên và các nhiệm vụ khác.

VTB24 sử dụng dữ liệu lớn để phân khúc và quản lý luồng tiền của khách hàng, tạo báo cáo tài chính và phân tích đánh giá trên mạng xã hội và diễn đàn. Để làm được điều này, anh sử dụng các giải pháp từ Teradata, SAS Visual Analytics và SAS Marketing Optimizer.

Bạn biết trò đùa nổi tiếng này phải không? Dữ liệu lớn giống như tình dục trước 18 tuổi:

mọi người đều nghĩ về nó;
mọi người đều nói về nó;
mọi người đều nghĩ bạn bè của họ làm điều đó;
hầu như không ai làm điều này;
ai làm thì làm xấu;
mọi người đều nghĩ rằng lần sau mọi việc sẽ diễn ra tốt hơn;
không ai thực hiện các biện pháp an ninh;
bất cứ ai cũng xấu hổ khi thừa nhận rằng họ không biết điều gì đó;
nếu ai đó thành công ở việc gì đó thì luôn có rất nhiều ồn ào về việc đó.

Nhưng hãy thành thật mà nói, với bất kỳ sự cường điệu nào sẽ luôn có sự tò mò thông thường: ở đó có chuyện ồn ào gì và có điều gì thực sự quan trọng ở đó không? Tóm lại là có. Chi tiết ở bên dưới. Chúng tôi đã chọn cho bạn những điều tuyệt vời nhất và ứng dụng thú vị Công nghệ dữ liệu lớn. Nghiên cứu thị trường nhỏ này, sử dụng các ví dụ rõ ràng, cho chúng ta thấy một sự thật đơn giản: tương lai không đến, không cần phải “đợi n năm nữa và điều kỳ diệu sẽ trở thành hiện thực”. Không, nó đã đến rồi, nhưng vẫn vô hình trước mắt và do đó, việc đốt cháy điểm kỳ dị vẫn chưa đốt cháy được một điểm nào đó của thị trường lao động. Đi.

1 Cách các công nghệ Dữ liệu lớn được áp dụng ở nơi chúng bắt nguồn

Các công ty CNTT lớn là nơi khởi nguồn của khoa học dữ liệu, vì vậy kiến thức nội bộ của họ về lĩnh vực này là điều thú vị nhất. Chiến dịch Google, nơi khai sinh ra mô hình Map Giảm, với mục đích duy nhất là đào tạo các lập trình viên của mình về công nghệ học máy. Và đây chính là lợi thế cạnh tranh của họ: sau khi tiếp thu được kiến thức mới, nhân viên sẽ đưa ra những phương pháp mới trong đó. dự án của Google nơi họ thường xuyên làm việc. Hãy tưởng tượng danh sách các lĩnh vực mà một chiến dịch có thể cách mạng hóa sẽ khổng lồ đến mức nào. Một ví dụ: mạng lưới thần kinh được sử dụng.

Tập đoàn triển khai học máy trong tất cả các sản phẩm của mình. Ưu điểm của nó là sự hiện diện của một hệ sinh thái rộng lớn, bao gồm tất cả các thiết bị kỹ thuật số được sử dụng trong cuộc sống hàng ngày. Điều này cho phép Apple đạt đến một mức không thể: chiến dịch có nhiều dữ liệu người dùng hơn bất kỳ chiến dịch nào khác. Đồng thời, chính sách bảo mật rất nghiêm ngặt: tập đoàn luôn tự hào không sử dụng dữ liệu khách hàng cho mục đích quảng cáo. Theo đó, thông tin người dùng được mã hóa để luật sư của Apple hay thậm chí FBI có lệnh không thể đọc được. Bởi bạn sẽ tìm thấy đánh giá tuyệt vời Sự phát triển của Apple trong lĩnh vực AI.

2 Dữ liệu lớn trên 4 bánh

Một chiếc ô tô hiện đại là một thiết bị lưu trữ thông tin: nó tích lũy tất cả dữ liệu về người lái, môi trường, các thiết bị được kết nối và chính nó. Chẳng bao lâu nữa, một chiếc xe được kết nối với mạng như thế này sẽ tạo ra tới 25 GB dữ liệu mỗi giờ.

Viễn thông phương tiện đã được các nhà sản xuất ô tô sử dụng trong nhiều năm, nhưng hiện đang vận động hành lang cho một phương pháp thu thập dữ liệu phức tạp hơn, tận dụng tối đa Dữ liệu lớn. Điều này có nghĩa là công nghệ hiện có thể cảnh báo người lái xe về điều kiện đường xấu bằng cách tự động kích hoạt hệ thống chống bó cứng phanh và kiểm soát lực kéo.

Các công ty khác, bao gồm BMW, đang sử dụng công nghệ Dữ liệu lớn, kết hợp với thông tin được thu thập từ các nguyên mẫu đang được thử nghiệm, hệ thống ghi nhớ lỗi trên xe và khiếu nại của khách hàng, để sớm xác định điểm yếu của mẫu xe trong quá trình sản xuất. Bây giờ, thay vì đánh giá dữ liệu theo cách thủ công mất hàng tháng, thuật toán hiện đại. Giảm lỗi và chi phí khắc phục sự cố, giúp tăng tốc quy trình phân tích thông tin tại BMW.

Theo ước tính của các chuyên gia, đến năm 2019, doanh thu thị trường ô tô kết nối sẽ đạt 130 tỷ USD. Điều này không có gì đáng ngạc nhiên khi xét đến tốc độ hội nhập của các nhà sản xuất ô tô đối với các công nghệ vốn là một phần không thể thiếu của ô tô.

Sử dụng Dữ liệu lớn giúp ô tô an toàn hơn và nhiều chức năng hơn. Vì vậy, Toyota bằng cách tích hợp các module truyền thông thông tin (DCM). Công cụ Dữ liệu lớn này xử lý và phân tích dữ liệu do DCM thu thập để trích xuất thêm giá trị từ dữ liệu đó.

3 Ứng dụng Big Data trong y học

Việc triển khai công nghệ Dữ liệu lớn trong lĩnh vực y tế cho phép các bác sĩ nghiên cứu bệnh kỹ lưỡng hơn và lựa chọn liệu trình điều trị hiệu quả cho từng trường hợp cụ thể. Nhờ phân tích thông tin, nhân viên y tế sẽ dễ dàng dự đoán tái phát và hành động hơn. biện pháp phòng ngừa. Kết quả là chẩn đoán chính xác hơn và phương pháp điều trị được cải thiện.

Kỹ thuật mới cho phép chúng tôi xem xét vấn đề của bệnh nhân từ một góc nhìn khác, dẫn đến việc phát hiện ra không biết nguồn gốc Các vấn đề. Ví dụ, một số chủng tộc dễ mắc bệnh tim về mặt di truyền hơn các nhóm dân tộc khác. Bây giờ, khi một bệnh nhân phàn nàn về một căn bệnh nào đó, các bác sĩ sẽ tính đến dữ liệu về những thành viên trong chủng tộc của anh ta đã phàn nàn về vấn đề tương tự. Việc thu thập và phân tích dữ liệu cho phép chúng tôi tìm hiểu nhiều hơn về bệnh nhân: từ sở thích ăn uống và lối sống đến cấu trúc di truyền của DNA và các chất chuyển hóa của tế bào, mô và cơ quan. Do đó, Trung tâm Y học gen trẻ em ở thành phố Kansas sử dụng bệnh nhân và phân tích các đột biến trong mã di truyền gây ung thư. Một cách tiếp cận riêng đối với từng bệnh nhân, có tính đến DNA của anh ta, sẽ nâng hiệu quả điều trị lên một mức độ khác nhau về mặt chất lượng.

Hiểu cách sử dụng Dữ liệu lớn là thay đổi đầu tiên và rất quan trọng trong lĩnh vực y tế. Khi một bệnh nhân trải qua quá trình điều trị, bệnh viện hoặc cơ sở chăm sóc sức khỏe khác có thể thu được rất nhiều thông tin liên quan về người đó. Thông tin thu thập được sử dụng để dự đoán bệnh tái phát với độ chính xác nhất định. Ví dụ, nếu một bệnh nhân bị đột quỵ, các bác sĩ sẽ nghiên cứu thông tin về thời điểm xảy ra tai biến mạch máu não, phân tích giai đoạn trung gian giữa các tiền lệ trước đó (nếu có), đặc biệt chú ý đến những tình huống căng thẳng và hoạt động thể chất nặng nhọc trong cuộc sống của bệnh nhân. Dựa trên dữ liệu này, các bệnh viện cung cấp cho bệnh nhân kế hoạch hành động rõ ràng để ngăn ngừa khả năng bị đột quỵ trong tương lai.

Các thiết bị đeo cũng đóng một vai trò nào đó, giúp xác định các vấn đề sức khỏe ngay cả khi một người không có triệu chứng rõ ràng của một căn bệnh cụ thể. Thay vì đánh giá tình trạng của bệnh nhân qua một đợt khám dài, bác sĩ có thể đưa ra kết luận dựa trên thông tin được thu thập bởi máy theo dõi thể dục hoặc đồng hồ thông minh.

Một trong những ví dụ mới nhất là . Trong khi người đàn ông đang được kiểm tra cơn động kinh mới do quên uống thuốc, các bác sĩ phát hiện ra rằng người đàn ông này có vấn đề sức khỏe nghiêm trọng hơn nhiều. Vấn đề này hóa ra là rung tâm nhĩ. Chẩn đoán được thực hiện nhờ nhân viên khoa có quyền truy cập vào điện thoại của bệnh nhân, cụ thể là ứng dụng liên quan đến thiết bị theo dõi thể dục của anh ấy. Dữ liệu từ ứng dụng hóa ra là yếu tố chính trong việc xác định chẩn đoán, vì tại thời điểm khám, không tìm thấy bất thường về tim ở người đàn ông này.

Đây chỉ là một trong số ít trường hợp cho thấy tại sao nên sử dụng dữ liệu lớnđóng một vai trò quan trọng như vậy trong lĩnh vực y tế ngày nay.

4 Phân tích dữ liệu đã trở thành cốt lõi của bán lẻ

Hiểu các truy vấn và nhắm mục tiêu của người dùng là một trong những lĩnh vực ứng dụng lớn nhất và được công bố rộng rãi nhất của các công cụ Dữ liệu lớn. Big Data giúp phân tích thói quen của khách hàng để hiểu rõ hơn nhu cầu của người tiêu dùng trong tương lai. Các công ty đang tìm cách mở rộng bộ dữ liệu truyền thống với thông tin từ mạng xã hội và lịch sử tìm kiếm trên trình duyệt nhằm tạo ra bức tranh khách hàng đầy đủ nhất có thể. Đôi khi các tổ chức lớn chọn tạo mô hình dự đoán của riêng họ làm mục tiêu toàn cầu.

Ví dụ: chuỗi cửa hàng Target, sử dụng phân tích dữ liệu chuyên sâu và hệ thống dự báo của riêng mình, quản lý để độ chính xác caođịnh nghĩa - . Mỗi khách hàng được cấp một ID, ID này lần lượt được liên kết với thẻ tín dụng, tên hoặc e-mail. Mã nhận dạng đóng vai trò như một loại giỏ hàng, nơi lưu trữ thông tin về mọi thứ mà một người đã từng mua. Các chuyên gia của mạng lưới đã phát hiện ra rằng phụ nữ mang thai tích cực mua các sản phẩm không mùi trước ba tháng thứ hai của thai kỳ và trong 20 tuần đầu tiên họ dựa vào việc bổ sung canxi, kẽm và magiê. Dựa trên dữ liệu nhận được, Target sẽ gửi phiếu giảm giá sản phẩm dành cho trẻ em cho khách hàng. Bản thân việc giảm giá hàng hóa dành cho trẻ em cũng được “pha loãng” với các phiếu giảm giá cho các sản phẩm khác, để những lời đề nghị mua cũi hoặc tã lót trông không quá hấp dẫn.

Ngay cả các cơ quan chính phủ cũng đã tìm ra cách sử dụng công nghệ Dữ liệu lớn để tối ưu hóa các chiến dịch bầu cử. Một số người tin rằng chiến thắng của Barack Obama trong cuộc bầu cử tổng thống Mỹ năm 2012 là nhờ sự làm việc xuất sắc của nhóm các nhà phân tích của ông, những người đã xử lý lượng dữ liệu khổng lồ theo đúng cách.

5 Dữ liệu lớn bảo vệ luật pháp và trật tự

Trong vài năm qua, các cơ quan thực thi pháp luật đã có thể tìm ra cách thức và thời điểm sử dụng Dữ liệu lớn. Một thực tế nổi tiếng là Cơ quan An ninh Quốc gia sử dụng công nghệ Dữ liệu lớn để ngăn chặn các cuộc tấn công khủng bố. Các bộ phận khác đang sử dụng phương pháp tiên tiến để ngăn chặn các tội phạm nhỏ hơn.

Sở cảnh sát Los Angeles sử dụng . Cô ấy làm những gì thường được gọi là cảnh sát chủ động. Bằng cách sử dụng các báo cáo tội phạm trong một khoảng thời gian, thuật toán sẽ xác định các khu vực có nhiều khả năng xảy ra tội phạm nhất. Hệ thống đánh dấu các khu vực như vậy trên bản đồ thành phố bằng các ô vuông nhỏ màu đỏ và dữ liệu này ngay lập tức được truyền đến xe tuần tra.

cảnh sát Chicago sử dụng công nghệ Dữ liệu lớn theo một cách hơi khác. Các nhân viên thực thi pháp luật ở Thành phố Gió cũng làm điều tương tự, nhưng nó nhằm mục đích vạch ra một “vòng rủi ro” bao gồm những người có thể là nạn nhân hoặc người tham gia vào một cuộc tấn công vũ trang. Theo báo Cái mới York Times, thuật toán này gán cho một người điểm dễ bị tổn thương dựa trên lịch sử tội phạm của anh ta (các vụ bắt giữ và tham gia vào các vụ xả súng, thành viên trong các nhóm tội phạm). Nhà phát triển hệ thống cho biết mặc dù hệ thống kiểm tra lịch sử tội phạm của một người nhưng nó không tính đến các yếu tố phụ như chủng tộc, giới tính, dân tộc và địa điểm của một người.

6 Công nghệ Dữ liệu lớn giúp các thành phố phát triển như thế nào

Giám đốc điều hành Veniam Joao Barros hiển thị bản đồ theo dõi bộ định tuyến Wi-Fi trên xe buýt Porto

Phân tích dữ liệu cũng được sử dụng để cải thiện một số khía cạnh của cuộc sống ở các thành phố và quốc gia. Ví dụ: biết chính xác cách thức và thời điểm sử dụng công nghệ Dữ liệu lớn, bạn có thể tối ưu hóa luồng lưu lượng. Để làm được điều này, sự di chuyển của ô tô trực tuyến được tính đến, dữ liệu truyền thông xã hội và khí tượng được phân tích. Ngày nay, một số thành phố đã cam kết sử dụng phân tích dữ liệu để thống nhất cơ sở hạ tầng giao thông vận tải với các loài khác tiện ích thành một tổng thể duy nhất. Đây là khái niệm về một thành phố “thông minh”, trong đó xe buýt chờ chuyến tàu muộn và đèn giao thông có thể dự đoán tình trạng tắc nghẽn giao thông để giảm thiểu ùn tắc giao thông.

Dựa trên công nghệ Dữ liệu lớn, thành phố Long Beach vận hành đồng hồ nước thông minh được sử dụng để ngăn chặn việc tưới nước trái phép. Trước đây, chúng được sử dụng để giảm lượng nước tiêu thụ của các hộ gia đình tư nhân (kết quả tối đa là giảm 80%). Tiết kiệm nước ngọt luôn là vấn đề cấp bách. Đặc biệt là khi bang đang trải qua đợt hạn hán tồi tệ nhất từng được ghi nhận.

Đại diện Sở Giao thông Vận tải Los Angeles đã gia nhập danh sách những người sử dụng Big Data. Dựa trên dữ liệu nhận được từ cảm biến camera giao thông, cơ quan chức năng giám sát hoạt động của đèn giao thông, từ đó cho phép điều tiết giao thông. Hệ thống máy tính điều khiển khoảng 4.500 nghìn đèn giao thông trên toàn thành phố. Theo số liệu chính thức, thuật toán mớiđã giúp giảm tắc nghẽn 16%.

7 Động cơ của sự tiến bộ trong tiếp thị và bán hàng

Trong tiếp thị, các công cụ Dữ liệu lớn giúp xác định ý tưởng nào hiệu quả nhất trong việc quảng bá ở một giai đoạn cụ thể của chu kỳ bán hàng. Phân tích dữ liệu xác định cách các khoản đầu tư có thể cải thiện việc quản lý quan hệ khách hàng, chiến lược nào nên được áp dụng để cải thiện tỷ lệ chuyển đổi và cách tối ưu hóa vòng đời của khách hàng. Trong các doanh nghiệp trên nền tảng đám mây, thuật toán Dữ liệu lớn được sử dụng để tìm ra cách giảm thiểu chi phí thu hút khách hàng và tăng vòng đời của khách hàng.

Sự khác biệt của các chiến lược định giá tùy thuộc vào cấp độ nội bộ hệ thống của khách hàng có lẽ là điểm chính mà Dữ liệu lớn được sử dụng trong lĩnh vực tiếp thị. McKinsey nhận thấy rằng khoảng 75% doanh thu của một công ty trung bình đến từ các sản phẩm cốt lõi, 30% trong số đó bị định giá sai. Giá tăng 1% sẽ làm lợi nhuận hoạt động tăng 8,7%.

Nhóm nghiên cứu của Forrester nhận thấy rằng phân tích dữ liệu cho phép các nhà tiếp thị tập trung vào cách làm cho mối quan hệ khách hàng thành công hơn. Bằng cách xem xét hướng phát triển của khách hàng, các chuyên gia có thể đánh giá mức độ trung thành của họ, cũng như kéo dài vòng đời trong bối cảnh của một công ty cụ thể.

Tối ưu hóa chiến lược bán hàng và các giai đoạn thâm nhập thị trường mới bằng cách sử dụng phân tích địa lý được phản ánh trong ngành dược phẩm sinh học. Theo McKinsey, các công ty sản xuất thuốc chi trung bình từ 20 đến 30% lợi nhuận cho việc quản lý và bán hàng. Nếu doanh nghiệp chủ động hơn sử dụng Dữ liệu lớnđể xác định những thị trường có lợi nhuận cao nhất và tăng trưởng nhanh nhất, chi phí sẽ được giảm ngay lập tức.

Phân tích dữ liệu là phương tiện để các công ty có được sự hiểu biết đầy đủ về Những khía cạnh quan trọng kinh doanh của họ. Tăng doanh thu, giảm chi phí và giảm vốn lưu động là ba thách thức mà các doanh nghiệp hiện đại đang cố gắng giải quyết với sự trợ giúp của các công cụ phân tích.

Cuối cùng, 58% giám đốc tiếp thị cho rằng việc triển khai công nghệ Dữ liệu lớn có thể được thấy trong tối ưu hóa công cụ tìm kiếm (SEO), e-mail và tiếp thị trên thiết bị di động, trong đó phân tích dữ liệu đóng vai trò quan trọng nhất trong việc hình thành các chương trình tiếp thị. Và chỉ có ít hơn 4% người được hỏi tin tưởng rằng Dữ liệu lớn sẽ đóng một vai trò quan trọng trong tất cả các chiến lược tiếp thị trong nhiều năm tới.

8 Phân tích dữ liệu toàn cầu

Không kém phần tò mò là... Có thể học máy cuối cùng sẽ là lực lượng duy nhất có khả năng duy trì sự cân bằng mong manh. Chủ đề về ảnh hưởng của con người đến hiện tượng nóng lên toàn cầu vẫn gây ra nhiều tranh cãi nên chỉ những mô hình dự đoán đáng tin cậy dựa trên việc phân tích lượng lớn dữ liệu mới có thể đưa ra câu trả lời chính xác. Cuối cùng, việc giảm lượng khí thải sẽ giúp ích cho tất cả chúng ta: chúng ta sẽ tiêu tốn ít năng lượng hơn.

Giờ đây, Dữ liệu lớn không phải là một khái niệm trừu tượng có thể được ứng dụng trong vài năm tới. Đây là một bộ công nghệ hoàn chỉnh có thể hữu ích trong hầu hết các lĩnh vực hoạt động của con người: từ y học và trật tự công cộng đến tiếp thị và bán hàng. Giai đoạn tích hợp tích cực Dữ liệu lớn vào cuộc sống hàng ngày chỉ mới bắt đầu và ai biết được vai trò của Dữ liệu lớn trong vài năm tới sẽ như thế nào?