Hệ thống đo lường dữ liệu lớn. Dữ liệu lớn là gì: đặc điểm, phân loại, ví dụ. Các nhiệm vụ liên quan đến Big Data

Ngày nay, thuật ngữ "Dữ liệu lớn" có thể được nhận ra, nhưng vẫn còn khá nhiều nhầm lẫn xung quanh ý nghĩa thực sự của nó. Trên thực tế, khái niệm này không ngừng phát triển và được định nghĩa lại vì nó vẫn là động lực thúc đẩy nhiều làn sóng chuyển đổi kỹ thuật số đang diễn ra, bao gồm trí tuệ nhân tạo, khoa học dữ liệu và Internet vạn vật. Nhưng công nghệ Big-Data là gì và nó đang thay đổi thế giới của chúng ta như thế nào? Chúng ta hãy cố gắng hiểu bản chất của công nghệ Dữ liệu lớn và ý nghĩa của nó bằng những từ ngữ đơn giản.

Sự tăng trưởng đáng kinh ngạc của dữ liệu lớn

Tất cả bắt đầu với sự bùng nổ về lượng dữ liệu chúng ta tạo ra kể từ buổi bình minh của thời đại kỹ thuật số. Điều này phần lớn là do sự phát triển của máy tính, Internet và các công nghệ có thể “lấy” dữ liệu từ thế giới xung quanh chúng ta. Bản thân dữ liệu không phải là một phát minh mới. Ngay cả trước thời đại của máy tính và cơ sở dữ liệu, chúng ta đã sử dụng hồ sơ giao dịch bằng giấy, hồ sơ khách hàng và các tệp lưu trữ cấu thành dữ liệu. Máy tính, đặc biệt là bảng tính và cơ sở dữ liệu, đã giúp chúng ta dễ dàng lưu trữ và sắp xếp dữ liệu trên quy mô lớn. Đột nhiên thông tin có sẵn chỉ với một cú nhấp chuột.

Tuy nhiên, chúng ta đã đi được một chặng đường dài so với các bảng và cơ sở dữ liệu ban đầu. Ngày nay, cứ hai ngày chúng tôi lại tạo ra nhiều dữ liệu như chúng tôi nhận được từ đầu cho đến năm 2000. Đúng vậy, cứ hai ngày một lần. Và lượng dữ liệu chúng ta tạo ra tiếp tục tăng theo cấp số nhân; đến năm 2020, lượng thông tin số sẵn có sẽ tăng từ khoảng 5 zettabyte lên 20 zettabyte.

Ngày nay, hầu hết mọi hành động của chúng ta đều để lại dấu ấn. Chúng ta tạo ra dữ liệu mỗi khi lên mạng, khi mang theo điện thoại thông minh có trang bị công cụ tìm kiếm, khi nói chuyện với bạn bè qua mạng xã hội hoặc trò chuyện, v.v. Ngoài ra, lượng dữ liệu do máy tạo ra cũng ngày càng tăng nhanh. Dữ liệu được tạo và chia sẻ khi các thiết bị nhà thông minh của chúng tôi liên lạc với nhau hoặc với máy chủ tại nhà của chúng. Các thiết bị công nghiệp trong nhà máy, xí nghiệp ngày càng được trang bị các cảm biến có chức năng tích lũy và truyền tải dữ liệu.

Thuật ngữ "Dữ liệu lớn" đề cập đến việc thu thập tất cả dữ liệu này và khả năng chúng tôi sử dụng dữ liệu đó để mang lại lợi ích cho mình trong nhiều lĩnh vực, bao gồm cả kinh doanh.

Công nghệ Big-Data hoạt động như thế nào?

Dữ liệu lớn hoạt động theo nguyên tắc: bạn càng biết nhiều về một chủ đề hoặc hiện tượng cụ thể thì bạn càng có thể đạt được những hiểu biết mới và dự đoán điều gì sẽ xảy ra trong tương lai một cách đáng tin cậy hơn. Khi chúng tôi so sánh nhiều điểm dữ liệu hơn, các mối quan hệ trước đây bị ẩn sẽ xuất hiện và những mối quan hệ này cho phép chúng tôi tìm hiểu và đưa ra quyết định tốt hơn. Thông thường, điều này được thực hiện thông qua một quy trình bao gồm việc xây dựng các mô hình dựa trên dữ liệu chúng tôi có thể thu thập, sau đó chạy mô phỏng để điều chỉnh giá trị của các điểm dữ liệu mỗi lần và theo dõi cách chúng ảnh hưởng đến kết quả của chúng tôi. Quá trình này được tự động hóa—công nghệ phân tích hiện đại sẽ chạy hàng triệu mô phỏng này, điều chỉnh mọi biến số có thể có cho đến khi họ tìm thấy mô hình—hoặc ý tưởng—giúp giải quyết vấn đề họ đang giải quyết.

Bill Gates treo trên nội dung giấy của một đĩa CD

Cho đến gần đây, dữ liệu được giới hạn ở bảng tính hoặc cơ sở dữ liệu - và mọi thứ đều rất ngăn nắp và gọn gàng. Bất kỳ thứ gì không thể dễ dàng sắp xếp thành hàng và cột đều được coi là quá phức tạp để xử lý và bị bỏ qua. Tuy nhiên, những tiến bộ trong lưu trữ và phân tích có nghĩa là chúng ta có thể thu thập, lưu trữ và xử lý một lượng lớn các loại dữ liệu khác nhau. Kết quả là, “dữ liệu” ngày nay có thể có nghĩa là bất kỳ thứ gì từ cơ sở dữ liệu đến ảnh, video, bản ghi âm, văn bản viết và dữ liệu cảm biến.

Để hiểu được tất cả dữ liệu lộn xộn này, các dự án dựa trên Dữ liệu lớn thường sử dụng các phân tích tiên tiến bằng trí tuệ nhân tạo và học máy. Bằng cách dạy máy tính xác định dữ liệu cụ thể là gì—chẳng hạn như thông qua nhận dạng mẫu hoặc xử lý ngôn ngữ tự nhiên—chúng ta có thể dạy chúng xác định các mẫu nhanh hơn và đáng tin cậy hơn nhiều so với chính chúng ta.

Dữ liệu lớn được sử dụng như thế nào?

Luồng dữ liệu cảm biến, dữ liệu văn bản, giọng nói, hình ảnh và video ngày càng tăng này có nghĩa là giờ đây chúng ta có thể sử dụng dữ liệu theo những cách mà chỉ vài năm trước đây không thể tưởng tượng được. Điều này đang mang lại những thay đổi mang tính cách mạng cho thế giới kinh doanh ở hầu hết mọi ngành. Ngày nay, các công ty có thể dự đoán với độ chính xác đáng kinh ngạc về những nhóm khách hàng cụ thể nào sẽ muốn mua hàng và khi nào. Dữ liệu lớn cũng giúp các công ty thực hiện các hoạt động của mình hiệu quả hơn nhiều.

Ngay cả ngoài lĩnh vực kinh doanh, các dự án liên quan đến Dữ liệu lớn cũng đang giúp thay đổi thế giới của chúng ta theo nhiều cách khác nhau:

Cải thiện hoạt động chăm sóc sức khỏe – Y học dựa trên dữ liệu có khả năng phân tích lượng lớn thông tin và hình ảnh y tế thành các mô hình có thể giúp phát hiện bệnh ở giai đoạn đầu và phát triển các loại thuốc mới.
Dự báo và ứng phó với các thảm họa do thiên nhiên và con người gây ra. Dữ liệu cảm biến có thể được phân tích để dự đoán nơi có khả năng xảy ra động đất và mô hình hành vi của con người cung cấp manh mối giúp các tổ chức hỗ trợ những người sống sót. Công nghệ Dữ liệu lớn cũng được sử dụng để theo dõi và bảo vệ dòng người tị nạn khỏi các vùng chiến sự trên khắp thế giới.
Ngăn chặn tội phạm. Lực lượng cảnh sát đang ngày càng sử dụng các chiến lược dựa trên dữ liệu kết hợp thông tin tình báo của chính họ và thông tin có sẵn công khai để sử dụng các nguồn lực hiệu quả hơn và thực hiện hành động răn đe khi cần thiết.

Những cuốn sách hay nhất về công nghệ Big-Data

Mọi người đều nói dối. Công cụ tìm kiếm, Dữ liệu lớn và Internet biết mọi thứ về bạn.
DỮ LIỆU LỚN. Tất cả công nghệ trong một cuốn sách.
Ngành hạnh phúc. Cách Dữ liệu lớn và công nghệ mới giúp tăng thêm cảm xúc cho sản phẩm và dịch vụ.
Cuộc cách mạng trong phân tích. Cách cải thiện doanh nghiệp của bạn trong kỷ nguyên Dữ liệu lớn bằng cách sử dụng phân tích hoạt động.

Vấn đề với dữ liệu lớn

Dữ liệu lớn mang đến cho chúng ta những ý tưởng và cơ hội chưa từng có nhưng cũng đặt ra những vấn đề và câu hỏi cần giải quyết:

Bảo mật dữ liệu – Dữ liệu lớn mà chúng tôi tạo ra ngày nay chứa rất nhiều thông tin về cuộc sống cá nhân của chúng tôi, quyền riêng tư mà chúng tôi có mọi quyền. Ngày càng nhiều, chúng tôi được yêu cầu cân bằng lượng dữ liệu cá nhân mà chúng tôi tiết lộ với sự tiện lợi mà các ứng dụng và dịch vụ dựa trên Dữ liệu lớn mang lại.
Bảo mật dữ liệu - Ngay cả khi chúng tôi quyết định rằng chúng tôi hài lòng khi ai đó có dữ liệu của chúng tôi cho một mục đích cụ thể, chúng tôi có thể tin tưởng họ sẽ giữ dữ liệu của chúng tôi an toàn và bảo mật không?
Phân biệt đối xử về dữ liệu - một khi tất cả thông tin đã được biết, liệu việc phân biệt đối xử với mọi người dựa trên dữ liệu về cuộc sống cá nhân của họ có được chấp nhận không? Chúng tôi đã sử dụng điểm tín dụng để quyết định ai có thể vay tiền và bảo hiểm cũng dựa chủ yếu vào dữ liệu. Chúng ta mong đợi được phân tích và đánh giá chi tiết hơn, nhưng phải cẩn thận để đảm bảo rằng điều này không gây khó khăn hơn cho cuộc sống của những người có ít nguồn lực hơn và khả năng tiếp cận thông tin hạn chế.

Việc thực hiện các tác vụ này là một thành phần quan trọng của Dữ liệu lớn và phải được các tổ chức muốn sử dụng dữ liệu đó giải quyết. Nếu không làm được điều này có thể khiến doanh nghiệp dễ bị tổn thương, không chỉ về danh tiếng mà còn về mặt pháp lý và tài chính.

Nhìn về tương lai

Dữ liệu đang thay đổi thế giới và cuộc sống của chúng ta với tốc độ chưa từng thấy. Nếu Dữ liệu lớn có khả năng làm được tất cả những điều này ngày hôm nay, hãy tưởng tượng xem nó sẽ có khả năng gì vào ngày mai. Lượng dữ liệu có sẵn cho chúng ta sẽ chỉ tăng lên và công nghệ phân tích sẽ còn trở nên tiên tiến hơn nữa.

Đối với các doanh nghiệp, khả năng ứng dụng Big Data sẽ ngày càng trở nên quan trọng trong những năm tới. Chỉ những công ty coi dữ liệu là tài sản chiến lược mới tồn tại và phát triển. Những người phớt lờ cuộc cách mạng này có nguy cơ bị bỏ lại phía sau.

Bạn thích bài viết như thế nào? Nội dung thậm chí còn phù hợp hơn trên tuyệt vời của tôi Kênh Youtube

Hãy cẩn thận! Trên YouTube của tôi, bạn có thể trở nên quá thông minh... 👇

Dữ liệu lớn (hoặc Dữ liệu lớn) là một tập hợp các phương pháp để làm việc với khối lượng lớn thông tin có cấu trúc hoặc phi cấu trúc. Các chuyên gia dữ liệu lớn xử lý và phân tích nó để thu được kết quả trực quan mà con người có thể nhận biết được. Look At Me đã nói chuyện với các chuyên gia và tìm hiểu tình hình xử lý dữ liệu lớn ở Nga, học ở đâu và học cái gì là tốt nhất cho những ai muốn làm việc trong lĩnh vực này.

Alexey Ryvkin về các xu hướng chính trong lĩnh vực dữ liệu lớn, giao tiếp với khách hàng và thế giới của những con số

Tôi học tại Học viện Công nghệ Điện tử Moscow. Điều chính mà tôi học được ở đó là kiến thức cơ bản về vật lý và toán học. Đồng thời với việc học, tôi làm việc tại trung tâm R&D, nơi tôi tham gia phát triển và triển khai các thuật toán mã hóa chống ồn để truyền dữ liệu an toàn. Sau khi tốt nghiệp cử nhân, tôi đăng ký học chương trình thạc sĩ tin học kinh doanh tại Trường Cao đẳng Kinh tế. Sau đó tôi muốn làm việc tại IBS. Tôi thật may mắn khi lúc đó do số lượng dự án lớn nên tuyển thêm thực tập sinh, sau vài lần phỏng vấn tôi đã bắt đầu làm việc tại IBS, một trong những công ty lớn nhất của Nga trong lĩnh vực này. Trong ba năm, tôi từ một thực tập sinh trở thành kiến trúc sư giải pháp doanh nghiệp. Hiện tại tôi đang phát triển kiến thức chuyên môn về công nghệ Dữ liệu lớn cho các công ty khách hàng thuộc lĩnh vực tài chính và viễn thông.

Có hai chuyên môn chính dành cho những người muốn làm việc với dữ liệu lớn: nhà phân tích và nhà tư vấn CNTT, những người tạo ra công nghệ để làm việc với dữ liệu lớn. Ngoài ra, chúng ta cũng có thể nói đến nghề Big Data Analyst, tức là những người trực tiếp làm việc với dữ liệu, với nền tảng CNTT của khách hàng. Trước đây, đây là những nhà phân tích toán học thông thường, biết thống kê, toán học và sử dụng phần mềm thống kê để giải quyết các vấn đề phân tích dữ liệu. Ngày nay, ngoài kiến thức về thống kê và toán học, sự hiểu biết về công nghệ và vòng đời dữ liệu cũng rất cần thiết. Theo tôi, đây là sự khác biệt giữa các Nhà phân tích dữ liệu hiện đại và những nhà phân tích đi trước.

Chuyên môn của tôi là tư vấn CNTT, nghĩa là tôi nghĩ ra và cung cấp cho khách hàng những cách giải quyết các vấn đề kinh doanh bằng cách sử dụng công nghệ CNTT. Những người có kinh nghiệm khác nhau đến với nghề tư vấn, nhưng những phẩm chất quan trọng nhất của nghề này là khả năng hiểu nhu cầu của khách hàng, mong muốn giúp đỡ mọi người và tổ chức, kỹ năng giao tiếp và làm việc nhóm tốt (vì nó luôn làm việc với khách hàng và trong một nhóm), kỹ năng phân tích tốt. Động lực bên trong rất quan trọng: chúng tôi làm việc trong một môi trường cạnh tranh và khách hàng mong đợi những giải pháp khác thường cũng như sự quan tâm đến công việc.

Phần lớn thời gian của tôi dành cho việc giao tiếp với khách hàng, chính thức hóa nhu cầu kinh doanh của họ và giúp họ phát triển kiến trúc công nghệ phù hợp nhất. Các tiêu chí lựa chọn ở đây có đặc thù riêng: ngoài chức năng và TCO (Tổng chi phí sở hữu), các yêu cầu phi chức năng đối với hệ thống rất quan trọng, thường là thời gian phản hồi và thời gian xử lý thông tin. Để thuyết phục khách hàng, chúng tôi thường sử dụng phương pháp chứng minh khái niệm - chúng tôi đề nghị “thử nghiệm” công nghệ miễn phí trên một số nhiệm vụ, trên một tập dữ liệu hẹp, để đảm bảo rằng công nghệ đó hoạt động. Giải pháp này phải tạo ra lợi thế cạnh tranh cho khách hàng bằng cách thu được các lợi ích bổ sung (ví dụ: bán x, bán chéo) hoặc giải quyết một số loại vấn đề kinh doanh, chẳng hạn như giảm mức độ gian lận cho vay cao.

Sẽ dễ dàng hơn nhiều nếu khách hàng đến với một nhiệm vụ làm sẵn, nhưng cho đến nay họ vẫn chưa hiểu rằng một công nghệ mang tính cách mạng đã xuất hiện có thể thay đổi thị trường trong vài năm tới

Bạn gặp phải những vấn đề gì? Thị trường vẫn chưa sẵn sàng sử dụng công nghệ dữ liệu lớn. Sẽ dễ dàng hơn nhiều nếu khách hàng mang theo một nhiệm vụ làm sẵn, nhưng cho đến nay họ vẫn chưa hiểu rằng một công nghệ mang tính cách mạng đã xuất hiện có thể thay đổi thị trường trong vài năm tới. Đây là lý do tại sao về cơ bản chúng tôi làm việc ở chế độ khởi động - chúng tôi không chỉ bán công nghệ mà mỗi khi chúng tôi thuyết phục khách hàng rằng họ cần đầu tư vào các giải pháp này. Đây là vị trí của những người có tầm nhìn xa - chúng tôi chỉ cho khách hàng cách họ có thể thay đổi hoạt động kinh doanh của mình bằng cách sử dụng dữ liệu và CNTT. Chúng tôi đang tạo ra thị trường mới này - thị trường tư vấn CNTT thương mại trong lĩnh vực Dữ liệu lớn.

Nếu một người muốn tham gia phân tích dữ liệu hoặc tư vấn CNTT trong lĩnh vực Dữ liệu lớn, thì điều quan trọng đầu tiên là giáo dục toán học hoặc kỹ thuật với đào tạo toán tốt. Việc nắm vững các công nghệ cụ thể cũng rất hữu ích, chẳng hạn như các giải pháp SAS, Hadoop, ngôn ngữ R hoặc IBM. Ngoài ra, bạn cần tích cực quan tâm đến các ứng dụng Dữ liệu lớn - ví dụ: cách nó có thể được sử dụng để cải thiện điểm tín dụng trong ngân hàng hoặc quản lý vòng đời khách hàng. Kiến thức này và các kiến thức khác có thể được lấy từ các nguồn có sẵn: ví dụ: Coursera và Đại học Dữ liệu lớn. Ngoài ra còn có Sáng kiến Phân tích Khách hàng tại Đại học Wharton Pennsylvania, nơi có rất nhiều tài liệu thú vị đã được xuất bản.

Một vấn đề lớn đối với những người muốn làm việc trong lĩnh vực của chúng tôi là thiếu thông tin rõ ràng về Dữ liệu lớn. Ví dụ, bạn không thể đến hiệu sách hoặc một số trang web và lấy một bộ sưu tập toàn diện các trường hợp về tất cả các ứng dụng công nghệ Dữ liệu lớn trong ngân hàng. Không có thư mục như vậy. Một số thông tin có trong sách, một số được thu thập tại các hội nghị và một số bạn phải tự tìm hiểu.

Một vấn đề khác là các nhà phân tích cảm thấy thoải mái với thế giới của những con số nhưng không phải lúc nào họ cũng cảm thấy thoải mái trong kinh doanh. Những người này thường sống nội tâm và gặp khó khăn trong giao tiếp, khiến họ khó truyền đạt kết quả nghiên cứu một cách thuyết phục đến khách hàng. Để phát triển những kỹ năng này, tôi khuyên bạn nên giới thiệu những cuốn sách như Nguyên lý kim tự tháp, Nói ngôn ngữ của sơ đồ. Chúng giúp phát triển kỹ năng thuyết trình và bày tỏ suy nghĩ của bạn một cách chính xác và rõ ràng.

Việc tham gia nhiều giải vô địch tình huống khác nhau khi theo học tại Trường Kinh tế Cao cấp thuộc Đại học Nghiên cứu Quốc gia đã giúp tôi rất nhiều. Giải vô địch tình huống là cuộc thi trí tuệ dành cho sinh viên, nơi họ cần nghiên cứu các vấn đề kinh doanh và đề xuất giải pháp cho chúng. Có hai loại: giải vô địch trường hợp của các công ty tư vấn, ví dụ: McKinsey, BCG, Accenture, cũng như giải vô địch trường hợp độc lập như Changellenge. Khi tham gia vào chúng, tôi đã học cách nhìn nhận và giải quyết các vấn đề phức tạp - từ việc xác định vấn đề và cấu trúc nó cho đến bảo vệ các khuyến nghị cho giải pháp của nó.

Oleg Mikhalsky về thị trường Nga và đặc thù của việc tạo ra sản phẩm mới trong lĩnh vực dữ liệu lớn

Trước khi gia nhập Acronis, tôi đã tham gia tung sản phẩm mới ra thị trường tại các công ty khác. Công việc này luôn thú vị và đầy thử thách, vì vậy tôi ngay lập tức quan tâm đến cơ hội làm việc trên các dịch vụ đám mây và giải pháp lưu trữ dữ liệu. Tất cả kinh nghiệm trước đây của tôi trong ngành CNTT, bao gồm cả dự án khởi nghiệp I-accelerator của riêng tôi, đều có ích trong lĩnh vực này. Có bằng cấp về kinh doanh (MBA) ngoài bằng kỹ sư cơ bản cũng giúp ích.

Ở Nga, các công ty lớn - ngân hàng, nhà khai thác di động, v.v. - có nhu cầu phân tích dữ liệu lớn, vì vậy ở nước ta có nhiều triển vọng cho những ai muốn làm việc trong lĩnh vực này. Đúng vậy, nhiều dự án hiện nay là các dự án tích hợp, nghĩa là được thực hiện trên cơ sở phát triển của nước ngoài hoặc công nghệ nguồn mở. Trong những dự án như vậy, về cơ bản, các phương pháp và công nghệ mới không được tạo ra mà thay vào đó, những phát triển hiện có sẽ được điều chỉnh. Tại Acronis, chúng tôi đã đi một con đường khác và sau khi phân tích các lựa chọn thay thế có sẵn, chúng tôi quyết định đầu tư vào sự phát triển của riêng mình, tạo ra một hệ thống lưu trữ đáng tin cậy cho dữ liệu lớn với chi phí không thua kém, chẳng hạn như Amazon S3, nhưng hoạt động đáng tin cậy một cách hiệu quả và ở quy mô nhỏ hơn đáng kể. Các công ty Internet lớn cũng có sự phát triển riêng về dữ liệu lớn, nhưng họ tập trung hơn vào nhu cầu nội bộ hơn là đáp ứng nhu cầu của khách hàng bên ngoài.

Điều quan trọng là phải hiểu các xu hướng và lực lượng kinh tế ảnh hưởng đến lĩnh vực dữ liệu lớn. Để làm được điều này, bạn cần phải đọc nhiều, nghe các bài phát biểu của các chuyên gia có thẩm quyền trong ngành CNTT và tham dự các hội nghị chuyên đề. Bây giờ hầu hết mọi hội nghị đều có một phần về Dữ liệu lớn, nhưng tất cả đều nói về nó từ một góc độ khác: từ quan điểm công nghệ, kinh doanh hoặc tiếp thị. Bạn có thể tham gia dự án hoặc thực tập tại một công ty đang dẫn đầu các dự án về chủ đề này. Nếu bạn tự tin vào khả năng của mình thì việc tổ chức khởi nghiệp trong lĩnh vực Big Data cũng chưa muộn.

Không liên lạc thường xuyên với thị trường rủi ro phát triển mới không được công bố

Đúng vậy, khi bạn chịu trách nhiệm về một sản phẩm mới, bạn sẽ phải dành rất nhiều thời gian cho việc phân tích thị trường và giao tiếp với các khách hàng, đối tác tiềm năng và các nhà phân tích chuyên nghiệp, những người biết nhiều về khách hàng và nhu cầu của họ. Nếu không có sự tiếp xúc thường xuyên với thị trường, sự phát triển mới có nguy cơ không được thừa nhận. Luôn có rất nhiều điều không chắc chắn: bạn phải tìm hiểu xem ai sẽ là người chấp nhận sớm, bạn phải cung cấp cho họ những gì và làm cách nào để thu hút đông đảo khán giả. Nhiệm vụ quan trọng thứ hai là xây dựng và truyền đạt cho các nhà phát triển một tầm nhìn rõ ràng và toàn diện về sản phẩm cuối cùng nhằm thúc đẩy họ làm việc trong những điều kiện khi một số yêu cầu vẫn có thể thay đổi và các ưu tiên phụ thuộc vào phản hồi đến từ những khách hàng đầu tiên. Do đó, một nhiệm vụ quan trọng là một mặt quản lý sự mong đợi của khách hàng và mặt khác là các nhà phát triển. Để không ai mất hứng thú và hoàn thành dự án. Sau dự án thành công đầu tiên, mọi việc trở nên dễ dàng hơn và thách thức chính sẽ là tìm ra mô hình tăng trưởng phù hợp cho hoạt động kinh doanh mới.

Ngày hôm kia có 3 bài đăng về Dữ liệu lớn trên nguồn cấp tin tức. Hôm qua, một đồng nghiệp đã gửi một ghi chú về điều tương tự. Hôm nay họ gọi từ Beeline và mời tôi đến dự bữa sáng bàn công việc trên Big Data. Không đi! Tôi sẵn sàng và cởi mở ủng hộ các công nghệ kỹ thuật số hiện đại. Tôi phản đối việc báng bổ chuyên môn và những người có trình độ học vấn cao đang thực hiện nó.

Đôi lời dành cho những tín đồ của “dữ liệu lớn”, điều này hoàn toàn dễ hiểu đối với các nhà tiếp thị.

Dữ liệu lớn là gì?

Một vài lời dành cho những người chưa hoàn toàn quen thuộc với thuật ngữ này. Dữ liệu lớn thực sự là một luồng lớn dữ liệu có cấu trúc kém và không liên quan được lấy từ các nguồn không liên quan; phân tích và xây dựng các mô hình dự báo sự kiện dựa trên chúng. Thuật ngữ này xuất hiện tương đối gần đây. Google Xu hướng cho thấy sự bắt đầu tăng trưởng tích cực trong việc sử dụng cụm từ này kể từ năm 2011.

Làm thế nào tôi có thể đặt nó dễ dàng hơn? Dữ liệu lớn là dữ liệu sau:

không thể xử lý được trong Excel
mối quan hệ mà một người không nhìn thấy
Ngoài những dữ liệu mà ngày hôm qua chúng tôi không có thời gian để xử lý, còn có những dữ liệu mới liên tục đến cho một giai đoạn mới.

Dữ liệu này đến từ đâu?

Mỗi giây, hàng tấn nội dung khổng lồ được tạo ra bởi các sự kiện thế giới, cổng thông tin, thương hiệu cũng như các trung gian thương mại và thông tin của họ. Mỗi cửa hàng đều có một cảm biến ở lối vào để phát hiện sự xuất hiện của khách mới đến khu vực bán hàng. Hệ thống thanh toán trực tuyến ghi lại các giao dịch, ngân hàng ghi lại sự chuyển động của tiền mặt và tiền không dùng tiền mặt, cửa hàng đếm séc và phân tích số tiền của chúng. Công cụ tìm kiếm ghi lại số lượng và tần suất truy vấn Internet. Mạng xã hội xem số lần nhắc đến thương hiệu nào đó, tùy theo môi trường đi kèm, hiểu được bản chất và lý do nhắc đến, tâm trạng và thái độ.

Này các marketer, mắt chưa sáng, tay chưa run vì mong chờ “biết hết” phải không? Bình tĩnh! Cái này không dành cho bạn! Để có được, tổng hợp và hiểu được tất cả dữ liệu lộn xộn này, bạn cần sử dụng các phân tích tiên tiến bằng trí tuệ nhân tạo và các phương tiện lưu trữ dữ liệu khổng lồ. Nếu mọi thứ đều có thể giải quyết được bằng phương tiện lưu trữ thì trí tuệ nhân tạo vẫn cần được đào tạo. Tuy nhiên, mức độ phức tạp của nhiệm vụ này sẽ được thảo luận dưới đây, nhưng bây giờ chúng ta hãy duy trì mong muốn tự nhiên của một nhà tiếp thị là “biết mọi thứ” về người tiêu dùng và hãy cùng nhau tìm hiểu.

Có một nhược điểm rất cụ thể với Dữ liệu lớn.

Lấy một cái muỗng dành cho trẻ em, xúc thêm cát, xin lỗi, dữ liệu vào đó và cố gắng phân tích những gì bạn đã thu thập được

Rác vào, lỗi ra

Bất kỳ ai quen thuộc với khoa học máy tính, công nghệ CNTT và phân tích đều hiểu rằng chất lượng dữ liệu đến và độ tin cậy của dữ liệu đó là điều quan trọng nhất. Việc thu thập và tích lũy dữ liệu rất dễ dàng, nhưng làm sao bạn có thể chắc chắn rằng mình đã thu thập cái này, cái kia và cái kia?

Bạn có muốn nhận dữ liệu từ Internet? Tuyệt vời. Bất kỳ bot nào cũng có khả năng tạo ra nhiều lưu lượng truy cập và dữ liệu hơn mức mà đối tượng mục tiêu của bạn sẽ tạo ra! Theo tổ chức Hiệp hội các nhà quảng cáo quốc gia Hoa Kỳ, năm 2015 các thương hiệu đã chi 7,2 tỷ USD để mua lưu lượng truy cập giả, không tồn tại và năm ngoái con số này đã tăng lên 10 tỷ USD.
CNBC ước tính rằng trong năm 2016, có tới 20% ngân sách quảng cáo trực tuyến được chi cho lưu lượng truy cập do bot tạo ra (lưu lượng truy cập không phải của con người).
Cảm biến ở lối vào cửa hàng? Có, tất cả các nhân viên định kỳ ra ngoài hút thuốc sẽ tạo ra rất nhiều lượt ghé thăm cửa hàng của bạn đến mức khiến dữ liệu này trở nên vô nghĩa. “Những người không phải là khách hàng” lười biếng quanh quẩn trong trung tâm mua sắm và thỉnh thoảng bước vào cửa hàng của bạn cuối cùng sẽ kết thúc ý tưởng “đếm lượng khách đến cửa hàng”. Ý bạn là những con số “nhàn rỗi” này có thể được mô hình dự đoán và cắt bỏ? Thật tuyệt vời, nhưng làm thế nào để nhìn thấy và cắt bỏ sự gia tăng “nhàn rỗi” do quảng cáo ATL của trung tâm mua sắm hoặc người thuê chủ chốt này gây ra? Điều gì sẽ xảy ra nếu quảng cáo đại chúng của bạn diễn ra cùng lúc?
Lập trình máy logic sẽ không tính đến thực tế là mọi người đưa ra những lượt “thích” không phải lúc nào cũng thể hiện sự tán thành. Họ làm điều này: vì thương hại, một cách tự phát, theo thói quen, vì sự đồng ý của chính tác giả chứ không phải ý kiến cụ thể của anh ta, các bot thích họ, v.v.

Vấn đề lớn nhất với dữ liệu lớn là chính dữ liệu đó. Đối với con người, bạn không nên quá chắc chắn về mọi thứ họ tạo ra bằng niềm tin. Người tiêu dùng bối rối, nhân viên nói dối, nhà thầu, được thúc đẩy bởi kết quả, gian lận.

Dữ liệu không đầy đủ

Chúng ta hãy coi nhiệm vụ tiếp thị nói chung là tầm thường như giám sát (chưa dự đoán) hành vi của nhóm mục tiêu. Và một chủ đề quan sát cụ thể hơn nữa là sự tương tác xã hội của các thành viên trong nhóm mục tiêu này. Tại sao điều này là cần thiết? Một trong những mục tiêu của tương tác là giảm bớt sự không chắc chắn - thu thập kiến thức và loại bỏ những nghi ngờ khi lựa chọn chủ đề tiếp thị của bạn. Việc giảm bớt sự không chắc chắn này là kết quả của sự tham gia chung của mọi người vào các hoạt động giữa các cá nhân hoặc nhóm, chẳng hạn như trong quá trình giao tiếp trên mạng xã hội.

Vấn đề là cho dù chúng ta có thu thập “dữ liệu lớn” đến mức nào đi chăng nữa thì việc giao tiếp này không chỉ giới hạn ở mạng xã hội. Mọi người giao tiếp ngoại tuyến: đồng nghiệp tại nơi làm việc, giao tiếp ngẫu nhiên giữa các đối tượng mục tiêu trong kỳ nghỉ, uống rượu cùng nhau trong quán rượu, trò chuyện ngẫu nhiên trên phương tiện giao thông công cộng. Sự tương tác như vậy sẽ nằm ngoài tầm kiểm soát của những người quan sát Dữ liệu lớn. Tính đầy đủ thực sự của dữ liệu chỉ có thể được đảm bảo:

Với toàn quyền kiểm soát tất cả các thành viên của nhóm mục tiêu. Vì ngay cả trong nhà vệ sinh của rạp chiếu phim công cộng, sự tương tác như vậy có thể xảy ra và không được tính đến để phân tích tiếp theo!
Trong một hệ thống khép kín. Giả sử đếm số người dùng sử dụng vé tàu điện ngầm có thể tái sử dụng và hiểu phần nào trong con số này cũng sử dụng phương tiện giao thông công cộng trên mặt đất. Nhưng làm thế nào để tính được có bao nhiêu người không sử dụng taxi?

Vấn đề thứ hai với dữ liệu không đầy đủ là quá trình tương tác đó có hai khía cạnh: khách quan và chủ quan. Mặt khách quan là các kết nối không phụ thuộc vào cá nhân hoặc nhóm mà có thể được tính đến một cách khách quan và có ý nghĩa trong Dữ liệu lớn (ví dụ: mua/bán, chuyển và nhận một đơn vị thông tin). Điều này có thể được tính đến, tính toán, xử lý và một mô hình có thể được xây dựng dựa trên điều này.

Mặt chủ quan của sự tương tác là thái độ có ý thức, thường mang tính cảm xúc của các cá nhân đối với nhau, nảy sinh trong quá trình tương tác: kỳ vọng lẫn nhau về một hành vi hoặc phản ứng nhất định, thái độ cá nhân đối với đối tác tương tác, sự dễ chịu về ngoại hình và giọng nói của đối tác, và những thứ tương tự. Tất cả điều này ảnh hưởng đến cả bản thân sự tương tác và kết quả của sự tương tác đó. Những khía cạnh tương tự này rất khó theo dõi và phân tích. Một đại diện thay thế cho phép chúng ta ít nhất bằng cách nào đó theo dõi khía cạnh chủ quan của sự tương tác là lượt thích và biểu tượng cảm xúc trên mạng xã hội. Dựa trên sự hiện diện của họ, bạn có thể cố gắng xác định mức độ tham gia, tâm trạng và thái độ. Nhưng chết tiệt, làm sao để làm được điều này nếu những người tương tác với chúng không sử dụng chúng? Và tất nhiên, mọi người không sử dụng biểu tượng cảm xúc trên đường phố, trong cửa hàng, trên phương tiện giao thông - mọi người không sống trên mạng xã hội và giao tiếp khác nhau bên ngoài chúng!

Phân tích tương tác của các thành viên trong nhóm mục tiêu chỉ dựa trên thực tế tương tác (bán hàng) hoặc chỉ khi bạn muốn quan sát tương tác đó (cửa hàng), không tính đến chất lượng chủ quan của tương tác - điều này khiến bạn không hiểu liệu Sự tương tác như vậy sẽ tiếp tục vào ngày mai, cho dù có nhiều lượt mua hàng hơn trong cửa hàng này hay không - bạn có thích giao dịch mua đó hay không, bạn có hài lòng với mặt hàng tiếp thị hay không.

Khỉ, lựu đạn và trong lựu đạn - Dữ liệu lớn

Thông thường, khi phân tích một thứ gì đó tiếp thị từ thị trường, chúng tôi quan sát thấy hai hiện tượng xảy ra cùng nhau nhưng không liên quan gì đến nhau: số lượng hóa đơn cho sản phẩm của chúng tôi giảm và giá hàng hóa trong giỏ hàng của người tiêu dùng tăng. Nếu những hiện tượng như vậy xảy ra song song và trong một thời gian khá dài, thì chuyên gia tiếp thị có thể nảy sinh một giả định thiếu cơ sở rằng điều này có mối liên hệ với nhau bằng cách nào đó. Có một khái niệm như "hiện tượng biểu sinh" - đây là một sai sót trong mối quan hệ nhân quả.

N. Taleb trong cuốn Antifragile nói:

Nếu chim được giảng về lý thuyết bay, thì chúng sẽ bay - bạn không tin điều đó, thật ngu ngốc phải không? Đây là một ví dụ: Các nước giàu tiến hành nhiều nghiên cứu khoa học hơn, vì vậy chúng ta có thể cho rằng khoa học tạo ra của cải. Điều này hợp lý hơn, phải không? Và nó hoàn toàn tương quan với trí tuệ trần tục - “nếu bạn thông minh như vậy thì tại sao bạn lại nghèo như vậy?” Trên thực tế, trên thế giới mọi thứ lại diễn ra ngược lại - đầu tiên, một số quốc gia đạt được sự giàu có và chỉ sau đó mới bắt đầu phát triển khoa học. Khoa học là không thể ở một nước nghèo.

Forbes viết: Quảng cáo được nhắm mục tiêu sử dụng Dữ liệu lớn vẫn đang hoạt động trong bóng tối. Chưa có bằng chứng nào cho thấy tất cả các kỹ thuật này, dựa trên phân tích cookie, phương tiện truyền thông xã hội và các “nhắm mục tiêu thông minh” khác, hoạt động nhất quán. Và bản thân bạn đã gặp phải điều này hàng trăm lần - khi quảng cáo theo ngữ cảnh tiếp cận bạn, hoàn toàn không đáp ứng được sở thích của bạn hoặc khi bạn đã mua một sản phẩm và một tháng sau bạn được hiển thị theo ngữ cảnh của sản phẩm cụ thể này. Có ai đó đang ném tiền vào bạn vào lúc này!?

Dữ liệu lớn trong tay những người tạo ra lý thuyết là một công cụ lý tưởng để khám phá và thúc đẩy một hiện tượng phụ, đồng thời việc tích lũy dữ liệu và quan sát chúng, nếu không có các mô hình dự báo rõ ràng dựa trên phân tích thực tế chứ không phải giả thuyết, có thể tạo ra một lượng lớn dữ liệu. số lượng những “khám phá” sai lầm như vậy. Tại sao những giả thuyết không dựa trên điều gì trong khoa học lại là một điều may mắn, nhưng trong tiếp thị cái chết? Nếu một trong các nhà khoa học viết luận văn và mắc lỗi thì không sao, nó sẽ bị lãng quên. Nhưng nếu những lý thuyết này thâm nhập vào hoạt động tiếp thị, thì việc “kinh doanh khỉ” sẽ mang lại lợi nhuận.

Đầu tiên học cách dự đoán thời tiết cho ngày mai

Học cách thu thập dữ liệu và sàng lọc “rác” là một vấn đề, nhưng nó không quá đáng kể so với vấn đề thiếu mô hình hành vi con người và thuật toán dự báo. Có một câu nói đùa khá phổ biến: “Tôi mua một chiếc áo sơ mi màu hồng nhưng lại không thể cưỡng lại được chiếc túi xách màu tím này” - đây là về tâm lý hành vi của người tiêu dùng, việc cố gắng dự đoán cũng “đơn giản” như thời tiết cuối tuần. . Khả năng dự đoán xu hướng dựa trên Dữ liệu lớn đã được phóng đại rất nhiều. Nó thậm chí không phải là thiếu khả năng của các nhà phân tích tiếp thị.

Lỗi dự báo không phải là lỗi toán học mà là một vấn đề cơ bản!

Tất cả đều xoay quanh “yếu tố con người” khét tiếng. Khả năng những thay đổi trong hành vi hoặc đánh giá của mọi người được quan sát hiện nay sẽ được lặp lại trong tương lai là không cao. Mọi người tự học nhanh hơn khả năng xây dựng một mô hình dự đoán. Bất cứ lúc nào, một yếu tố ảnh hưởng mới có thể xuất hiện trong quan điểm của một người, trong xã hội, trong một phân khúc thị trường, trong phản ứng của thương hiệu trước hoạt động của đối thủ cạnh tranh, điều này sẽ phá vỡ mọi giả thuyết của bạn.

Bất chấp hàng trăm máy tính và đội ngũ các nhà khí tượng học, không ai có thể dự đoán thời tiết trước ba ngày, vậy tại sao bạn lại mong đợi tương lai thị trường của mình được dự đoán trước ba năm?...
Jack Trout, Al Ries "22 quy luật tiếp thị bất biến"
ISBN: 5-17-024999-3, 978-5

Và theo ý kiến này thì thầy hoàn toàn .

Bạn muốn ví dụ?

Tất nhiên, mọi ý kiến đều có thể bị bác bỏ. Nếu không phải bây giờ thì trong ba trăm năm nữa, khi kinh nghiệm đã xuất hiện và công nghệ đã tiến bộ. Nhưng ngày nay có những ví dụ xác nhận những nghi ngờ về khả năng dự báo bằng Dữ liệu lớn. Những ví dụ này khá thuyết phục.

Bệnh cúm được dự đoán như thế nào?

Dự đoán yêu thích của nhiều tín đồ cho Ngày trọng đại là Google Xu hướng dịch cúm - các biểu đồ cho thấy một cách thuyết phục rằng có thể dự đoán dịch cúm trên Internet, nhanh hơn và đáng tin cậy hơn các bác sĩ. Chỉ cần phân tích yêu cầu của người dùng về tên thuốc, mô tả và địa chỉ nhà thuốc là đủ. Ví dụ này đi lang thang từ cách trình bày này sang cách trình bày khác, từ bài này sang bài khác. Kết quả là anh ấy đã đọc được những cuốn sách nghiêm túc. Một khi nó đã hoạt động, tiếp theo là gì? Mọi thứ hóa ra không chính xác hơn Trung tâm Khí tượng Thủy văn trong nước. Tín hiệu sai sót đầu tiên là vào năm 2009, khi ông hoàn toàn bỏ sót dịch cúm lợn toàn cầu. Vào năm 2012, hệ thống lại thất bại - Google Xu hướng Dịch cúm đã đánh giá quá cao hơn hai lần đỉnh điểm của đợt dịch tiếp theo. (Viết trên tạp chí Nature.)

Dự đoán chiến thắng

Trong cuộc bầu cử quốc hội ở cuộc bầu cử sơ bộ ở Virginia, theo các nhà phân tích, E. Cantor từ Đảng Cộng hòa lẽ ra đã thắng cử. Và thực sự, anh ấy đã dẫn trước đối thủ cạnh tranh của mình tới 34%. Tuy nhiên, anh ta đã thua đậm - trừ 10% số tiền thắng. Sai lầm là mô hình đã tập trung vào “cử tri điển hình”, có tính đến lịch sử bỏ phiếu, hành vi và sở thích của họ. Nhưng lần này tỷ lệ cử tri đi bỏ phiếu cao hơn nhiều so với bình thường và những cử tri không phù hợp với mô hình đã tham gia trò chơi. Nhưng ví dụ về chiến thắng của Tổng thống Trump trong cuộc bầu cử và những dự báo rõ ràng của tất cả các nhà phân tích đều không có lợi cho ông - đây là một ví dụ thuyết phục hơn nhiều về thực tế rằng dự báo sử dụng Dữ liệu lớn là một công việc kinh doanh tồi tệ!

Viết văn bản dài

...được dạy cách đây vài năm bởi những người quan sát thuật toán xếp hạng trên công cụ tìm kiếm của Google. Hai nghìn ký tự, con số và dấu đầu dòng, liên kết đến các nguồn chính - đây là một vài điều hứa hẹn thành công trong việc xếp hạng trang web. Trong quá trình triển khai thực tế lời khuyên này, các chuyên gia SEO bắt đầu viết hàng loạt các văn bản dài và phức tạp, ngay cả trên trang chính của trang web - nếu bạn biết thuật toán, bạn luôn có thể tác động đến kết quả. Nếu bạn biết thuật toán dự báo dựa trên Big Data, bạn có thể dễ dàng đánh lừa hệ thống.

Cổng MTS

Trở lại năm 2015, tại Diễn đàn Tương lai của Viễn thông, người đứng đầu bộ phận Dữ liệu lớn tại MTS, Vitaly Saginov, đã nói về các phương pháp tiếp cận của công ty trong việc phát triển hướng làm việc với dữ liệu lớn. Trong báo cáo của mình, ông lưu ý: “trong tương lai gần, thu nhập từ việc bán phân tích dữ liệu của công ty sẽ tương đương với thu nhập từ nhắn tin và SMS”. Thật tuyệt vời, nhưng vào tháng 5 năm 2018, tất cả các nguồn cấp tin tức và truyền hình đều lan truyền thông tin rằng Alexey Nadezhin, cư dân Moscow, một khách hàng của nhà điều hành di động này, đã phát hiện ra rằng cổng của anh ta, được lắp đặt ở lối vào đối tác làm vườn, đã đăng ký “độc lập” SMS trả phí. dịch vụ và phản hồi về thông tin được gửi đến họ.

Cơ quan báo chí MTS sau đó cho biết “các chuyên gia đã thực hiện những công việc cần thiết để đảm bảo rằng sự cố như vậy không xảy ra nữa”. Cho dù điều này có nghĩa là chính cổng đã nhập nội dung nào đó vào điện thoại hay việc đăng ký được phát hành mà không có sự đồng ý của người đăng ký đều không được nêu rõ trong bình luận của công ty. Nhưng thẻ SIM được lắp trong cổng tự động hóa đã nhận được rất nhiều tin nhắn SMS từ các số ngắn, và hóa ra, cổng “chính họ” đã trả lời chúng, gửi tin nhắn SMS phản hồi. Chà, đâu là kết quả của nhiều năm làm việc với “dữ liệu lớn” để ngăn chặn điều này xảy ra? Tuyên bố về khả năng thu thập, phân tích và dự báo bằng Big Data không có nghĩa là làm đủ chất lượng!

Còn Procter&Gamble thì sao?

Tại triển lãm và hội nghị lớn nhất châu Âu về tiếp thị kỹ thuật số Dmexco’2017, được tổ chức tại Cologne, Procter&Gamble trong phần trình bày của mình đã nêu rõ thực tế là công ty đã giảm đáng kể ngân sách phân bổ cho hoạt động mua hàng theo chương trình. Lần đầu tiên, nhà quảng cáo xuyên quốc gia lớn nhất ở cấp độ này đã tranh luận một cách công khai, công khai với luận điểm của các công ty công nghệ quảng cáo (English AdTech), vốn cho đến nay vẫn cho rằng khả năng tiếp cận người dùng quan trọng hơn nhiều so với nguồn quảng cáo trực tiếp giao thông. Kết quả là, công ty đã giảm đáng kể danh sách các trang Internet mà họ sẵn sàng đăng quảng cáo - không có mô hình dự báo đầy đủ, không cần phải chi tiền để tạo ra thứ gì đó trong tương lai.

Sberbank chịu thiệt hại như thế nào vì trí tuệ nhân tạo

Vào tháng 2 năm 2019, trong bài phát biểu tại “Bài học về số” tại một trường tư thục ở Moscow, người đứng đầu Sberbank German Gref, khi trả lời câu hỏi về những rủi ro của việc giới thiệu công nghệ, cho biết: “Trí tuệ nhân tạo, như một quy luật, đưa ra quyết định trong các hệ thống lớn. Một lỗi nhỏ lọt vào thuật toán có thể dẫn đến hậu quả rất lớn.” Trả lời yêu cầu từ RBC về bản chất của tổn thất từ việc giới thiệu trí tuệ nhân tạo, dịch vụ báo chí của Sberbank làm rõ rằng “chúng tôi không nói về tổn thất trực tiếp mà là về lợi nhuận bị mất”. Tuy nhiên, người đứng đầu ngân hàng đã lên tiếng dứt khoát về khoản lỗ, ý nghĩa trong tuyên bố của ông là Sberbank đã mất hàng tỷ rúp do lỗi trí tuệ nhân tạo.

Dữ liệu lớn trong tiếp thị - đã đến lúc từ bỏ ảo tưởng

Cho dù có bao nhiêu thế hệ người dự đoán sống trên Trái đất, cho dù có bao nhiêu pháp sư và linh mục thử tất cả các công cụ dự đoán có thể, thì kết quả vẫn như nhau - tiền được chuyển từ túi của những người quan tâm đến tương lai vào túi của người dự đoán. Ngày nay, được trang bị những chiếc máy tính siêu mạnh, những người dự đoán đang cố gắng làm điều tương tự như những người sáng lập đáng kính của nghề cổ xưa này. Ý tưởng coi một người như một cỗ máy tự động có thể dự đoán và dự đoán được là sai lầm. Ngày nay, Dữ liệu lớn là một thứ tôn sùng khác và là một “quả cầu pha lê” khác trong danh sách dài hàng thế kỷ các thuộc tính của những người dự đoán tương lai. Tất cả “ví dụ thuyết phục” về khả năng dự đoán trong Big Data đang sụp đổ hoặc sẽ bị thực tế khắc nghiệt bác bỏ trong những năm tới.

Những người có quyền truy cập vào số liệu thống kê: ngân hàng, công ty điện thoại, công ty tổng hợp, ngày hôm qua không biết tại sao bản thân họ lại cần dữ liệu này, nhưng hôm nay họ chắc chắn muốn kiếm tiền lại từ khách hàng của mình bằng cách bán lại cho họ các cột số.

Mệt mỏi vì sự cường điệu của Dữ liệu lớn

Tất nhiên, không thể nói rằng Google Xu hướng Dịch cúm hoàn toàn không hoạt động và dự đoán dựa trên Dữ liệu lớn là lừa đảo. Chỉ cần một chiếc búa có thể được sử dụng để tạo ra một thứ gì đó đẹp đẽ, nhưng hầu hết mọi người lại sử dụng nó để sửa chữa một thứ gì đó xấu, và một số lại sử dụng nó chẳng mang lại điều gì tốt đẹp cả. Giờ đây, có vẻ như áp lực ngày càng tăng của các nhà dự báo đối với Dữ liệu lớn đã bắt đầu gây trở ngại cho các nhà tiếp thị. Mọi nơi! Ngoại trừ ở Nga, mọi thứ, ngay cả những xu hướng tiến bộ nhất và đang phát triển nhanh chóng, đều được tuân thủ với độ trễ 5 năm.

Đối với phần còn lại của thế giới, các nhà quảng cáo đã mệt mỏi với nhiều năm cường điệu xung quanh Dữ liệu lớn. Nhìn chung, điều đầu tiên khiến tôi chú ý tại Dmexco’2017 ngay ngày đầu tiên diễn ra triển lãm là thuật ngữ Big Data thực tế đã bắt đầu biến mất khỏi các bài phát biểu và thuyết trình. Điều này thật đáng chú ý vì trong bốn năm qua, mọi diễn giả thứ hai đều sử dụng cụm từ này. Và lý do để giảm bớt “áp lực Big Data” lên cộng đồng doanh nghiệp và cộng đồng Internet đã rõ ràng:

Nhiều lưu lượng truy cập có nghĩa là nhiều dữ liệu, nhiều lưu lượng truy cập giả tạo ra nhiều dữ liệu giả, trên cơ sở đó các mô hình không đáng tin cậy được xây dựng và ngân sách hàng tỷ đô la được chi cho việc theo dõi chúng.

Cái gì tiếp theo?

Nếu cho đến nay mọi suy nghĩ của các chuyên gia và nhà phân tích CNTT đều tập trung vào việc tạo cơ sở dữ liệu, tạo ra các nguyên tắc lưu trữ, phân loại thông tin nhận được từ các nguồn khác nhau thì giờ đây các kho lưu trữ như vậy đã được tạo ra, đối với nhiều thương hiệu, việc phân tích, tích lũy và lưu trữ các nguồn khác nhau là vô nghĩa đối với nhiều thương hiệu. đã trở thành dữ liệu rõ ràng như vậy. Việc lưu trữ và phân tích hời hợt khối lượng lớn thông tin tốn rất nhiều tiền và không hợp lý nếu không có mô hình so sánh dữ liệu, nếu thương hiệu không thể xử lý và sử dụng số liệu thống kê để nâng cao hiệu quả bán hàng thì không có giá trị thực tế.

Việc xem xét lại thách thức “tiếp cận dữ liệu trong tiếp thị” đã dẫn đến sự xuất hiện của một thuật ngữ mới phản ánh nhu cầu ngày càng tăng về việc sử dụng dữ liệu hiệu quả. Trong các bài phát biểu của họ tại Dmexco'2017, trên blog và tại các hội nghị, các diễn giả ngày càng nói nhiều về các công nghệ làm việc với dữ liệu lớn như một phần của tiếp thị dự đoán.

Vâng, đó là về tiếp thị! Nhưng còn việc dự đoán sử dụng Dữ liệu lớn nói chung thì sao? Điều này chắc chắn sẽ có tác dụng trong khoa học tự nhiên, nơi có dữ liệu được tích lũy trong một thời gian dài, nơi một mô hình toán học chặt chẽ và sự hiểu biết về các quá trình tự nhiên đang diễn ra đã được triển khai trong cùng thời kỳ. Điều này sẽ thực sự hiệu quả nếu bạn phân tích các xu hướng vĩ mô diễn ra trên quy mô vĩ mô - các xu hướng trong xã hội. Điều này sẽ thực sự hiệu quả nếu bạn phân tích các hệ thống vi mô ổn định khép kín (một ngôi làng, một cửa hàng ở nhà ga nơi những chuyến tàu với khách hàng ngẫu nhiên không bao giờ đến). Điều này được áp dụng để đánh giá hành vi trong tương lai của một người cụ thể. Nhưng ngay khi sự ảnh hưởng lẫn nhau xuất hiện, những xu hướng mới nổi lên, “thiên nga đen” (Nasim Taleb) - hệ thống đang nghiên cứu lại xuất hiện dưới dạng một “hộp đen”.

Có lần tôi nghe thấy thuật ngữ “Dữ liệu lớn” từ German Gref (người đứng đầu Sberbank). Họ nói rằng họ hiện đang tích cực triển khai vì điều này sẽ giúp họ giảm thời gian làm việc với từng khách hàng.

Lần thứ hai tôi biết đến khái niệm này là trong một cửa hàng trực tuyến của khách hàng, nơi chúng tôi đang làm việc và tăng chủng loại sản phẩm từ vài nghìn lên vài chục nghìn mặt hàng sản phẩm.

Lần thứ ba tôi thấy Yandex cần một nhà phân tích dữ liệu lớn. Sau đó, tôi quyết định đi sâu hơn vào chủ đề này, đồng thời viết một bài báo sẽ cho biết loại thuật ngữ nào đã kích thích tâm trí của các nhà quản lý TOP và không gian Internet.

VVV hoặc VVVVV

Tôi thường bắt đầu bất kỳ bài viết nào của mình bằng cách giải thích loại thuật ngữ này. Bài viết này sẽ không ngoại lệ.

Tuy nhiên, điều này chủ yếu không phải do tôi muốn chứng tỏ mình thông minh như thế nào mà là do chủ đề này thực sự phức tạp và cần được giải thích cẩn thận.

Ví dụ bạn có thể đọc trên Wikipedia là big data, không hiểu gì cả, rồi quay lại bài viết này vẫn hiểu định nghĩa và khả năng ứng dụng vào kinh doanh. Vì vậy, hãy bắt đầu bằng phần mô tả và sau đó là các ví dụ về kinh doanh.

Dữ liệu lớn là dữ liệu lớn. Thật tuyệt vời phải không? Trên thực tế, từ này dịch từ tiếng Anh là “dữ liệu lớn”. Nhưng người ta có thể nói rằng định nghĩa này chỉ dành cho những kẻ ngu ngốc.

Quan trọng. Công nghệ dữ liệu lớn là cách tiếp cận/phương pháp xử lý nhiều dữ liệu hơn để thu được thông tin mới mà các phương pháp thông thường khó xử lý.

Dữ liệu có thể được xử lý (có cấu trúc) hoặc phân tán (tức là không có cấu trúc).

Bản thân thuật ngữ này đã xuất hiện tương đối gần đây. Năm 2008, một tạp chí khoa học đã dự đoán phương pháp này là cần thiết để xử lý lượng lớn thông tin đang tăng theo cấp số nhân.

Ví dụ, mỗi năm thông tin trên Internet cần được lưu trữ và tất nhiên phải được xử lý tăng 40%. Lại. +40% Thông tin mới xuất hiện trên Internet hàng năm.

Nếu tài liệu in rõ ràng và phương pháp xử lý chúng cũng rõ ràng (chuyển sang dạng điện tử, ghép vào một thư mục, số), thì phải làm gì với thông tin được trình bày trên các “phương tiện” hoàn toàn khác và các tập khác:

tài liệu trên mạng;
blog và mạng xã hội;
nguồn âm thanh/video;
thiết bị đo lường;

Có những đặc điểm cho phép thông tin, dữ liệu được phân loại là dữ liệu lớn.

Nghĩa là, không phải tất cả dữ liệu đều có thể phù hợp để phân tích. Những đặc điểm này chứa đựng chính xác khái niệm chính về dữ liệu lớn. Tất cả đều phù hợp với ba Vs.

Tập (từ tập tiếng Anh). Dữ liệu được đo theo khối lượng vật lý của “tài liệu” cần phân tích;
Tốc độ (từ vận tốc tiếng Anh). Dữ liệu không đứng yên trong quá trình phát triển mà không ngừng phát triển, đó là lý do tại sao cần phải xử lý nhanh chóng để thu được kết quả;
Giống (từ giống tiếng Anh). Dữ liệu có thể không có cùng định dạng. Nghĩa là, chúng có thể nằm rải rác, có cấu trúc hoặc có cấu trúc một phần.

Tuy nhiên, đôi khi V thứ tư (tính xác thực) và thậm chí V thứ năm được thêm vào VVV (trong một số trường hợp, đây là khả năng tồn tại, trong những trường hợp khác, nó là giá trị).

Ở đâu đó tôi thậm chí còn nhìn thấy 7V, đặc trưng cho dữ liệu liên quan đến dữ liệu lớn. Nhưng theo ý kiến của tôi, đây là từ một bộ truyện (trong đó các chữ P được thêm vào định kỳ, mặc dù 4 chữ đầu tiên là đủ để hiểu).

CHÚNG TÔI ĐÃ CÓ HƠN 29.000 người.
BẬT

Ai cần cái này?

Một câu hỏi hợp lý được đặt ra: làm thế nào bạn có thể sử dụng thông tin (nếu có, dữ liệu lớn có hàng trăm, hàng nghìn terabyte)? Thậm chí không phải vậy.

Đây là thông tin. Vậy tại sao ngày lớn lại được phát minh? Việc sử dụng dữ liệu lớn trong tiếp thị và kinh doanh là gì?

Cơ sở dữ liệu thông thường không thể lưu trữ và xử lý (bây giờ tôi thậm chí không nói về phân tích mà chỉ lưu trữ và xử lý) lượng thông tin khổng lồ.
Dữ liệu lớn giải quyết vấn đề chính này. Lưu trữ và quản lý thành công khối lượng lớn thông tin;
Cấu trúc thông tin đến từ nhiều nguồn khác nhau (tài liệu video, hình ảnh, âm thanh và văn bản) thành một dạng duy nhất, dễ hiểu và dễ tiêu hóa;
Tạo phân tích và tạo dự báo chính xác dựa trên thông tin có cấu trúc và được xử lý.

Nó phức tạp lắm. Nói một cách đơn giản, bất kỳ nhà tiếp thị nào hiểu rằng nếu bạn nghiên cứu một lượng lớn thông tin (về bạn, công ty của bạn, đối thủ cạnh tranh, ngành của bạn), bạn có thể nhận được kết quả rất tốt:

Hiểu biết đầy đủ về công ty và hoạt động kinh doanh của bạn từ khía cạnh các con số;
Nghiên cứu đối thủ cạnh tranh của bạn. Và điều này sẽ giúp bạn có thể vượt lên dẫn trước bằng cách thống trị họ;
Tìm hiểu thông tin mới về khách hàng của bạn.

Và chính vì công nghệ dữ liệu lớn mang lại những kết quả như sau nên mọi người đều đổ xô đi theo nó.

Họ đang cố gắng kết hợp hoạt động kinh doanh này vào công ty của mình để tăng doanh thu và giảm chi phí. Và nếu cụ thể thì:

Tăng cường bán kèm và bán thêm do hiểu rõ hơn về sở thích của khách hàng;
Tìm kiếm các sản phẩm phổ biến và lý do tại sao mọi người mua chúng (và ngược lại);
Cải tiến sản phẩm hoặc dịch vụ;
Cải thiện mức độ dịch vụ;
Tăng lòng trung thành và tập trung vào khách hàng;
Phòng chống gian lận (phù hợp hơn với ngành ngân hàng);
Giảm chi phí không cần thiết.

Tất nhiên, ví dụ phổ biến nhất được đưa ra trong tất cả các nguồn là công ty Apple, công ty thu thập dữ liệu về người dùng của mình (điện thoại, đồng hồ, máy tính).

Chính nhờ sự hiện diện của hệ sinh thái mà tập đoàn biết rất nhiều về người dùng của mình và sau đó sử dụng điều này để kiếm lợi nhuận.

Bạn có thể đọc những ví dụ này và các ví dụ sử dụng khác trong bất kỳ bài viết nào khác ngoại trừ bài viết này.

Hãy đi tới tương lai

Tôi sẽ kể cho bạn nghe về một dự án khác. Hay đúng hơn là về một người xây dựng tương lai bằng các giải pháp dữ liệu lớn.

Đây là Elon Musk và công ty Tesla của ông ấy. Ước mơ chính của anh ấy là làm cho ô tô tự chủ, tức là bạn ngồi sau tay lái, bật chế độ lái tự động từ Moscow đến Vladivostok và... ngủ quên, vì bạn hoàn toàn không cần phải lái ô tô, vì nó sẽ làm được tất cả mọi thứ chính nó.

Nó có vẻ tuyệt vời? Nhưng không! Chỉ là Elon đã hành động khôn ngoan hơn nhiều so với Google, hãng điều khiển ô tô sử dụng hàng chục vệ tinh. Và anh ấy đã đi theo con đường khác:

Mỗi chiếc xe được bán đều được trang bị một máy tính thu thập tất cả thông tin.
Tất cả - điều này có nghĩa là tất cả mọi thứ. Về người lái xe, phong cách lái xe của anh ta, những con đường xung quanh anh ta, chuyển động của những chiếc xe khác. Khối lượng dữ liệu đó đạt 20-30 GB mỗi giờ;
Tiếp theo, thông tin này được truyền qua liên lạc vệ tinh đến máy tính trung tâm, máy tính này xử lý dữ liệu này;
Dựa trên dữ liệu lớn được xử lý bởi máy tính này, một mô hình xe không người lái sẽ được xây dựng.

Nhân tiện, nếu Google đang hoạt động khá tệ và ô tô của họ liên tục gặp tai nạn, thì Musk, nhờ làm việc với dữ liệu lớn, sẽ làm tốt hơn nhiều, vì các mô hình thử nghiệm cho kết quả rất tốt.

Nhưng... Tất cả đều liên quan đến kinh tế. Tất cả chúng ta là gì về lợi nhuận, nhưng về lợi nhuận? Phần lớn những gì một cuộc hẹn hò trọng đại có thể quyết định hoàn toàn không liên quan đến thu nhập và tiền bạc.

Thống kê của Google, dựa trên dữ liệu lớn, cho thấy một điều thú vị.

Trước khi các bác sĩ thông báo về sự bùng phát dịch bệnh ở một khu vực nào đó, số lượng truy vấn tìm kiếm về cách điều trị căn bệnh này ở khu vực đó tăng lên đáng kể.

Do đó, nghiên cứu thích hợp về dữ liệu và phân tích chúng có thể đưa ra dự báo và dự đoán sự khởi phát của dịch bệnh (và theo đó là cách phòng ngừa dịch bệnh) nhanh hơn nhiều so với kết luận của các cơ quan chính thức và hành động của họ.

Ứng dụng ở Nga

Tuy nhiên, Nga, như mọi khi, đang “chậm lại” một chút. Vì vậy, định nghĩa về dữ liệu lớn ở Nga đã xuất hiện cách đây không quá 5 năm (bây giờ tôi đang nói về các công ty bình thường).

Và điều này bất chấp thực tế rằng đây là một trong những thị trường phát triển nhanh nhất trên thế giới (ma túy và vũ khí đang gây lo lắng), bởi vì mỗi năm thị trường phần mềm thu thập và phân tích dữ liệu lớn tăng 32%.

Để mô tả đặc điểm của thị trường dữ liệu lớn ở Nga, tôi nhớ đến một câu chuyện cười cũ. Một cuộc hẹn hò quan trọng cũng giống như quan hệ tình dục trước khi bạn bước sang tuổi 18.

Mọi người đều nói về nó, có rất nhiều sự cường điệu xung quanh nó và rất ít hành động thực tế, và mọi người đều xấu hổ khi thừa nhận rằng bản thân họ không làm điều đó. Quả thực, có rất nhiều sự cường điệu xung quanh vấn đề này nhưng lại có rất ít hành động thực tế.

Mặc dù công ty nghiên cứu nổi tiếng Gartner đã tuyên bố vào năm 2015 rằng dữ liệu lớn không còn là xu hướng đang phát triển (như trí tuệ nhân tạo), mà là các công cụ hoàn toàn độc lập để phân tích và phát triển các công nghệ tiên tiến.

Các lĩnh vực tích cực nhất mà dữ liệu lớn được sử dụng ở Nga là ngân hàng/bảo hiểm (không phải vô cớ mà tôi bắt đầu bài viết với người đứng đầu Sberbank), lĩnh vực viễn thông, bán lẻ, bất động sản và... khu vực công.

Ví dụ: tôi sẽ kể cho bạn chi tiết hơn về một số lĩnh vực kinh tế sử dụng thuật toán dữ liệu lớn.

Ngân hàng

Hãy bắt đầu với các ngân hàng và thông tin họ thu thập về chúng ta cũng như hành động của chúng ta. Làm ví dụ, tôi lấy TOP 5 ngân hàng Nga đang tích cực đầu tư vào dữ liệu lớn:

Ngân hàng Sberbank;
Gazprombank;
VTB 24;
Ngân hàng Alfa;
Ngân hàng Tinkoff.

Điều đặc biệt vui mừng khi thấy Alfa Bank nằm trong số các nhà lãnh đạo Nga. Ở mức tối thiểu, thật vui khi biết rằng ngân hàng mà bạn là đối tác chính thức hiểu được sự cần thiết phải giới thiệu các công cụ tiếp thị mới vào công ty của mình.

Nhưng tôi muốn đưa ra các ví dụ về việc sử dụng và triển khai thành công dữ liệu lớn tại một ngân hàng mà tôi thích vì quan điểm và hành động độc đáo của người sáng lập nó.

Tôi đang nói về Ngân hàng Tinkoff. Thách thức chính của họ là phát triển một hệ thống phân tích dữ liệu lớn theo thời gian thực do lượng khách hàng ngày càng tăng của họ.

Kết quả: thời gian của các quy trình nội bộ đã giảm ít nhất 10 lần và đối với một số người – hơn 100 lần.

Vâng, một chút xao lãng. Bạn có biết tại sao tôi lại bắt đầu nói về những trò hề và hành động bất thường của Oleg Tinkov không?

Theo tôi, chính họ đã giúp anh ấy chuyển đổi từ một doanh nhân tầm thường, có hàng nghìn doanh nhân ở Nga, thành một trong những doanh nhân nổi tiếng và dễ nhận biết nhất. Để xác nhận điều này, hãy xem video bất thường và thú vị này:

Địa ốc

Trong bất động sản mọi thứ phức tạp hơn nhiều. Và đây chính xác là ví dụ mà tôi muốn đưa ra cho bạn để hiểu những ngày trọng đại trong hoạt động kinh doanh thông thường. Dữ liệu ban đầu:

Khối lượng lớn tài liệu văn bản;
Nguồn mở (vệ tinh riêng truyền dữ liệu về những thay đổi trên trái đất);
Một lượng lớn thông tin không được kiểm soát trên Internet;
Thay đổi liên tục về nguồn và dữ liệu.

Và trên cơ sở đó, cần phải chuẩn bị và đánh giá giá trị của một lô đất, chẳng hạn như gần làng Ural. Sẽ phải mất một tuần chuyên nghiệp để làm điều này.

Hiệp hội Thẩm định viên Nga & ROSEKO, nơi thực sự triển khai phân tích dữ liệu lớn bằng phần mềm, sẽ mất không quá 30 phút làm việc nhàn nhã. So sánh, một tuần và 30 phút. Một sự khác biệt rất lớn.

Vâng, để ăn nhẹ

Tất nhiên, lượng thông tin khổng lồ không thể được lưu trữ và xử lý trên các ổ cứng đơn giản.

Và phần mềm cấu trúc và phân tích dữ liệu nói chung là tài sản trí tuệ và sự phát triển của tác giả. Tuy nhiên, có những công cụ trên cơ sở đó tạo ra vẻ đẹp này:

Hadoop & MapReduce;
Cơ sở dữ liệu NoSQL;
Công cụ lớp Khám phá dữ liệu.

Thành thật mà nói, tôi sẽ không thể giải thích rõ ràng cho bạn chúng khác nhau như thế nào, vì việc làm quen và làm việc với những thứ này được dạy trong các viện vật lý và toán học.

Vậy tại sao tôi lại nói về điều này nếu tôi không thể giải thích nó? Bạn có nhớ trong tất cả các bộ phim, những tên cướp đi vào bất kỳ ngân hàng nào và nhìn thấy một số lượng lớn đủ loại thiết bị phần cứng được kết nối với dây điện không?

Ngày trọng đại cũng vậy. Ví dụ, đây là một mô hình hiện đang là một trong những mô hình dẫn đầu trên thị trường.

Công cụ hẹn hò lớn

Chi phí của cấu hình tối đa lên tới 27 triệu rúp mỗi giá. Tất nhiên đây là phiên bản cao cấp. Tôi muốn bạn thử trước việc tạo dữ liệu lớn trong doanh nghiệp của mình.

Nói ngắn gọn về điều chính

Bạn có thể hỏi, tại sao bạn, một doanh nghiệp vừa và nhỏ, lại cần làm việc với dữ liệu lớn?

Về vấn đề này, tôi sẽ trả lời bạn bằng một câu trích dẫn của một người: “Trong tương lai gần, khách hàng sẽ có nhu cầu về những công ty hiểu rõ hơn về hành vi và thói quen của họ và phù hợp nhất với họ”.

Nhưng hãy đối mặt với nó. Để triển khai dữ liệu lớn trong một doanh nghiệp nhỏ, bạn không chỉ cần có ngân sách lớn để phát triển và triển khai phần mềm mà còn phải duy trì các chuyên gia, ít nhất như nhà phân tích dữ liệu lớn và quản trị viên hệ thống.

Và bây giờ tôi im lặng về việc bạn phải có dữ liệu đó để xử lý.

ĐƯỢC RỒI. Chủ đề gần như không áp dụng được cho các doanh nghiệp nhỏ. Nhưng điều này không có nghĩa là bạn cần quên mọi thứ bạn đã đọc ở trên.

Chỉ cần nghiên cứu không phải dữ liệu của bạn mà là kết quả phân tích dữ liệu từ các công ty nổi tiếng của cả nước ngoài và Nga.

Ví dụ, chuỗi bán lẻ Target, sử dụng phân tích dữ liệu lớn, nhận thấy phụ nữ mang thai trước ba tháng thứ hai của thai kỳ (từ tuần thứ 1 đến tuần thứ 12 của thai kỳ) đang tích cực mua các sản phẩm có hương thơm UN.

Sử dụng dữ liệu này, họ gửi cho họ các phiếu giảm giá giảm giá trong thời gian giới hạn cho các sản phẩm không mùi.

Chẳng hạn, nếu bạn chỉ là một quán cà phê rất nhỏ thì sao? Vâng, rất đơn giản. Sử dụng ứng dụng khách hàng thân thiết.

Và sau một thời gian, nhờ thông tin tích lũy được, bạn không chỉ có thể cung cấp cho khách hàng những món ăn phù hợp với nhu cầu của họ mà còn có thể xem những món ăn chưa bán được nhiều nhất và có lợi nhuận cao nhất chỉ trong vài cú click chuột.

Do đó kết luận. Một doanh nghiệp nhỏ khó có thể triển khai dữ liệu lớn mà bắt buộc phải sử dụng kết quả và sự phát triển của các công ty khác.

Bạn biết trò đùa nổi tiếng này phải không? Dữ liệu lớn giống như tình dục trước 18 tuổi:

mọi người đều nghĩ về nó;
mọi người đều nói về nó;
mọi người đều nghĩ bạn bè của họ làm điều đó;
hầu như không ai làm điều này;
ai làm thì làm xấu;
mọi người đều nghĩ rằng lần sau mọi việc sẽ diễn ra tốt hơn;
không ai thực hiện các biện pháp an ninh;
bất cứ ai cũng xấu hổ khi thừa nhận rằng họ không biết điều gì đó;
nếu ai đó thành công trong việc gì đó, luôn có rất nhiều ồn ào về nó.

Nhưng hãy thành thật mà nói, với bất kỳ sự cường điệu nào sẽ luôn có sự tò mò thông thường: ở đó có chuyện ồn ào gì và có điều gì thực sự quan trọng ở đó không? Tóm lại là có. Chi tiết ở bên dưới. Chúng tôi đã chọn lọc cho bạn những ứng dụng tuyệt vời và thú vị nhất của công nghệ Dữ liệu lớn. Nghiên cứu thị trường nhỏ này, sử dụng các ví dụ rõ ràng, cho chúng ta thấy một sự thật đơn giản: tương lai không đến, không cần phải “đợi thêm n năm nữa và điều kỳ diệu sẽ trở thành hiện thực”. Không, nó đã đến rồi, nhưng vẫn vô hình trước mắt và do đó, việc đốt cháy điểm kỳ dị vẫn chưa đốt cháy được một điểm nào đó của thị trường lao động. Đi.

1 Cách các công nghệ Dữ liệu lớn được áp dụng ở nơi chúng bắt nguồn

Các công ty CNTT lớn là nơi khởi nguồn của khoa học dữ liệu nên kiến thức nội bộ của họ về lĩnh vực này là điều thú vị nhất. Chiến dịch Google, nơi khai sinh ra mô hình Map Giảm, với mục đích duy nhất là đào tạo các lập trình viên của mình về công nghệ máy học. Và đây chính là lợi thế cạnh tranh của họ: sau khi tiếp thu kiến thức mới, nhân viên sẽ giới thiệu những phương pháp mới trong các dự án Google mà họ thường xuyên làm việc. Hãy tưởng tượng danh sách các lĩnh vực mà một chiến dịch có thể cách mạng hóa sẽ khổng lồ đến mức nào. Một ví dụ: mạng lưới thần kinh được sử dụng.

Tập đoàn triển khai học máy trong tất cả các sản phẩm của mình. Ưu điểm của nó là sự hiện diện của một hệ sinh thái rộng lớn, bao gồm tất cả các thiết bị kỹ thuật số được sử dụng trong cuộc sống hàng ngày. Điều này cho phép Apple đạt đến một mức độ không thể tin được: chiến dịch có nhiều dữ liệu người dùng hơn bất kỳ chiến dịch nào khác. Đồng thời, chính sách bảo mật rất nghiêm ngặt: tập đoàn luôn tự hào không sử dụng dữ liệu khách hàng cho mục đích quảng cáo. Theo đó, thông tin người dùng được mã hóa để luật sư của Apple hay thậm chí FBI có lệnh không thể đọc được. Tại đây, bạn sẽ tìm thấy cái nhìn tổng quan về những phát triển của Apple trong lĩnh vực AI.

2 Dữ liệu lớn trên 4 bánh

Một chiếc ô tô hiện đại là một kho lưu trữ thông tin: nó tích lũy tất cả dữ liệu về người lái, môi trường, các thiết bị được kết nối và chính nó. Chẳng bao lâu nữa, một chiếc xe duy nhất được kết nối với mạng như mạng này sẽ tạo ra tới 25 GB dữ liệu mỗi giờ.

Viễn thông phương tiện đã được các nhà sản xuất ô tô sử dụng trong nhiều năm, nhưng hiện đang vận động hành lang cho một phương pháp thu thập dữ liệu phức tạp hơn, tận dụng tối đa Dữ liệu lớn. Điều này có nghĩa là công nghệ hiện có thể cảnh báo người lái xe về điều kiện đường xấu bằng cách tự động kích hoạt hệ thống chống bó cứng phanh và kiểm soát lực kéo.

Các công ty khác, bao gồm BMW, đang sử dụng công nghệ Dữ liệu lớn, kết hợp với thông tin được thu thập từ các nguyên mẫu đang được thử nghiệm, hệ thống ghi nhớ lỗi trên xe và khiếu nại của khách hàng, để sớm xác định điểm yếu của mẫu xe trong quá trình sản xuất. Giờ đây, thay vì đánh giá dữ liệu theo cách thủ công mất hàng tháng, một thuật toán hiện đại được sử dụng. Giảm lỗi và chi phí khắc phục sự cố, giúp tăng tốc quy trình phân tích thông tin tại BMW.

Theo ước tính của các chuyên gia, đến năm 2019, doanh thu thị trường ô tô kết nối sẽ đạt 130 tỷ USD, điều này không có gì đáng ngạc nhiên khi xét đến tốc độ hội nhập của các nhà sản xuất ô tô đối với các công nghệ vốn là một phần không thể thiếu của ô tô.

Sử dụng Dữ liệu lớn giúp ô tô an toàn hơn và nhiều chức năng hơn. Vì vậy, Toyota bằng cách tích hợp các module truyền thông thông tin (DCM). Công cụ Dữ liệu lớn này xử lý và phân tích dữ liệu do DCM thu thập để trích xuất thêm giá trị từ dữ liệu đó.

3 Ứng dụng Big Data trong y học

Việc triển khai công nghệ Big Data trong lĩnh vực y tế cho phép các bác sĩ nghiên cứu bệnh kỹ lưỡng hơn và lựa chọn liệu trình điều trị hiệu quả cho từng trường hợp cụ thể. Nhờ phân tích thông tin, nhân viên y tế sẽ dễ dàng dự đoán tái phát và thực hiện các biện pháp phòng ngừa hơn. Kết quả là chẩn đoán chính xác hơn và phương pháp điều trị được cải thiện.

Kỹ thuật mới cho phép chúng tôi xem xét các vấn đề của bệnh nhân từ một góc nhìn khác, dẫn đến việc phát hiện ra những nguồn gốc chưa từng được biết đến của vấn đề. Ví dụ, một số chủng tộc dễ mắc bệnh tim về mặt di truyền hơn các nhóm dân tộc khác. Bây giờ, khi một bệnh nhân phàn nàn về một căn bệnh nào đó, các bác sĩ sẽ tính đến dữ liệu về những thành viên trong chủng tộc của anh ta đã phàn nàn về vấn đề tương tự. Việc thu thập và phân tích dữ liệu cho phép chúng tôi tìm hiểu nhiều hơn về bệnh nhân: từ sở thích ăn uống và lối sống đến cấu trúc di truyền của DNA và các chất chuyển hóa của tế bào, mô và cơ quan. Do đó, Trung tâm Y học gen trẻ em ở thành phố Kansas sử dụng bệnh nhân và phân tích các đột biến trong mã di truyền gây ung thư. Một cách tiếp cận riêng đối với từng bệnh nhân, có tính đến DNA của anh ta, sẽ nâng hiệu quả điều trị lên một mức độ khác nhau về mặt chất lượng.

Hiểu cách sử dụng Dữ liệu lớn là thay đổi đầu tiên và rất quan trọng trong lĩnh vực y tế. Khi một bệnh nhân trải qua quá trình điều trị, bệnh viện hoặc cơ sở chăm sóc sức khỏe khác có thể thu được rất nhiều thông tin liên quan về người đó. Thông tin thu thập được sử dụng để dự đoán bệnh tái phát với độ chính xác nhất định. Ví dụ, nếu một bệnh nhân bị đột quỵ, các bác sĩ sẽ nghiên cứu thông tin về thời điểm xảy ra tai biến mạch máu não, phân tích giai đoạn trung gian giữa các tiền lệ trước đó (nếu có), đặc biệt chú ý đến những tình huống căng thẳng và hoạt động thể chất nặng nhọc trong cuộc sống của bệnh nhân. Dựa trên dữ liệu này, các bệnh viện cung cấp cho bệnh nhân kế hoạch hành động rõ ràng để ngăn ngừa khả năng bị đột quỵ trong tương lai.

Các thiết bị đeo cũng đóng một vai trò nào đó, giúp xác định các vấn đề sức khỏe ngay cả khi một người không có triệu chứng rõ ràng của một căn bệnh cụ thể. Thay vì đánh giá tình trạng của bệnh nhân qua một đợt khám dài, bác sĩ có thể đưa ra kết luận dựa trên thông tin được thu thập bởi máy theo dõi thể dục hoặc đồng hồ thông minh.

Một trong những ví dụ mới nhất là . Trong khi người đàn ông đang được kiểm tra cơn động kinh mới do quên uống thuốc, các bác sĩ phát hiện ra rằng người đàn ông này có vấn đề sức khỏe nghiêm trọng hơn nhiều. Vấn đề này hóa ra là rung tâm nhĩ. Chẩn đoán được thực hiện nhờ nhân viên khoa có quyền truy cập vào điện thoại của bệnh nhân, cụ thể là ứng dụng liên quan đến thiết bị theo dõi thể dục của anh ấy. Dữ liệu từ ứng dụng hóa ra lại là yếu tố quan trọng trong việc xác định chẩn đoán, vì tại thời điểm kiểm tra, không phát hiện thấy bất thường nào về tim ở người đàn ông này.

Đây chỉ là một trong số ít trường hợp cho thấy tại sao nên sử dụng dữ liệu lớnđóng một vai trò quan trọng như vậy trong lĩnh vực y tế ngày nay.

4 Phân tích dữ liệu đã trở thành cốt lõi của bán lẻ

Hiểu các truy vấn và nhắm mục tiêu của người dùng là một trong những lĩnh vực ứng dụng lớn nhất và được công bố rộng rãi nhất của các công cụ Dữ liệu lớn. Big Data giúp phân tích thói quen của khách hàng để hiểu rõ hơn nhu cầu của người tiêu dùng trong tương lai. Các công ty đang tìm cách mở rộng bộ dữ liệu truyền thống với thông tin từ mạng xã hội và lịch sử tìm kiếm trình duyệt nhằm tạo ra bức tranh khách hàng đầy đủ nhất có thể. Đôi khi các tổ chức lớn chọn tạo mô hình dự đoán của riêng họ làm mục tiêu toàn cầu.

Ví dụ: chuỗi cửa hàng Target, sử dụng phân tích dữ liệu chuyên sâu và hệ thống dự báo của riêng mình, quản lý để xác định với độ chính xác cao - . Mỗi khách hàng được chỉ định một ID, ID này sẽ được liên kết với thẻ tín dụng, tên hoặc email. Mã nhận dạng đóng vai trò như một loại giỏ hàng, nơi lưu trữ thông tin về mọi thứ mà một người đã từng mua. Các chuyên gia của mạng lưới đã phát hiện ra rằng phụ nữ mang thai tích cực mua các sản phẩm không mùi trước ba tháng thứ hai của thai kỳ và trong 20 tuần đầu tiên họ dựa vào việc bổ sung canxi, kẽm và magiê. Dựa trên dữ liệu nhận được, Target sẽ gửi phiếu giảm giá sản phẩm dành cho trẻ em cho khách hàng. Bản thân việc giảm giá hàng hóa dành cho trẻ em cũng được “pha loãng” với các phiếu giảm giá cho các sản phẩm khác, để những lời đề nghị mua cũi hoặc tã lót trông không quá hấp dẫn.

Ngay cả các cơ quan chính phủ cũng đã tìm ra cách sử dụng công nghệ Dữ liệu lớn để tối ưu hóa các chiến dịch bầu cử. Một số người tin rằng chiến thắng của Barack Obama trong cuộc bầu cử tổng thống Mỹ năm 2012 là nhờ sự làm việc xuất sắc của nhóm các nhà phân tích của ông, những người đã xử lý lượng dữ liệu khổng lồ theo đúng cách.

5 Dữ liệu lớn bảo vệ luật pháp và trật tự

Trong vài năm qua, các cơ quan thực thi pháp luật đã có thể tìm ra cách thức và thời điểm sử dụng Dữ liệu lớn. Một thực tế nổi tiếng là Cơ quan An ninh Quốc gia sử dụng công nghệ Dữ liệu lớn để ngăn chặn các cuộc tấn công khủng bố. Các bộ phận khác đang sử dụng phương pháp tiên tiến để ngăn chặn các tội phạm nhỏ hơn.

Sở cảnh sát Los Angeles sử dụng . Cô ấy làm những gì thường được gọi là cảnh sát chủ động. Sử dụng các báo cáo tội phạm trong một khoảng thời gian, thuật toán sẽ xác định các khu vực có nhiều khả năng xảy ra tội phạm nhất. Hệ thống đánh dấu các khu vực như vậy trên bản đồ thành phố bằng các ô vuông nhỏ màu đỏ và dữ liệu này ngay lập tức được truyền đến xe tuần tra.

cảnh sát Chicago sử dụng công nghệ Dữ liệu lớn theo một cách hơi khác. Các nhân viên thực thi pháp luật ở Thành phố Gió cũng làm điều tương tự, nhưng nó nhằm mục đích vạch ra một “vòng rủi ro” bao gồm những người có thể là nạn nhân hoặc người tham gia vào một cuộc tấn công vũ trang. Theo The New York Times, thuật toán này gán cho một người mức độ dễ bị tổn thương dựa trên lịch sử phạm tội của anh ta (bắt giữ và tham gia vào các vụ xả súng, thành viên trong các nhóm tội phạm). Nhà phát triển hệ thống cho biết mặc dù hệ thống kiểm tra lịch sử tội phạm của một người nhưng nó không tính đến các yếu tố phụ như chủng tộc, giới tính, dân tộc và địa điểm của một người.

6 Công nghệ Dữ liệu lớn giúp các thành phố phát triển như thế nào

Giám đốc điều hành Veniam Joao Barros hiển thị bản đồ theo dõi bộ định tuyến Wi-Fi trên xe buýt Porto

Phân tích dữ liệu cũng được sử dụng để cải thiện một số khía cạnh của cuộc sống ở các thành phố và quốc gia. Ví dụ: biết chính xác cách thức và thời điểm sử dụng công nghệ Dữ liệu lớn, bạn có thể tối ưu hóa luồng lưu lượng. Để làm được điều này, sự di chuyển của ô tô trực tuyến được tính đến, dữ liệu truyền thông xã hội và khí tượng được phân tích. Ngày nay, một số thành phố đã cam kết sử dụng phân tích dữ liệu để kết hợp cơ sở hạ tầng giao thông với các loại dịch vụ công khác thành một tổng thể duy nhất. Đây là khái niệm về một thành phố “thông minh”, trong đó xe buýt chờ chuyến tàu muộn và đèn giao thông có thể dự đoán tình trạng tắc nghẽn giao thông để giảm thiểu ùn tắc giao thông.

Dựa trên công nghệ Dữ liệu lớn, thành phố Long Beach vận hành đồng hồ nước thông minh được sử dụng để ngăn chặn việc tưới nước trái phép. Trước đây, chúng được sử dụng để giảm lượng nước tiêu thụ của các hộ gia đình tư nhân (kết quả tối đa là giảm 80%). Tiết kiệm nước ngọt luôn là vấn đề cấp bách. Đặc biệt là khi bang đang trải qua đợt hạn hán tồi tệ nhất từng được ghi nhận.

Đại diện Sở Giao thông vận tải Los Angeles đã gia nhập danh sách những người sử dụng Big Data. Dựa trên dữ liệu nhận được từ cảm biến camera giao thông, cơ quan chức năng giám sát hoạt động của đèn giao thông, từ đó cho phép điều tiết giao thông. Hệ thống máy tính điều khiển khoảng 4.500 nghìn đèn giao thông trên toàn thành phố. Theo dữ liệu chính thức, thuật toán mới đã giúp giảm tắc nghẽn 16%.

7 Động cơ của sự tiến bộ trong tiếp thị và bán hàng

Trong tiếp thị, các công cụ Dữ liệu lớn giúp xác định ý tưởng nào hiệu quả nhất trong việc quảng bá ở một giai đoạn cụ thể của chu kỳ bán hàng. Phân tích dữ liệu xác định cách các khoản đầu tư có thể cải thiện việc quản lý quan hệ khách hàng, chiến lược nào nên được áp dụng để cải thiện tỷ lệ chuyển đổi và cách tối ưu hóa vòng đời của khách hàng. Trong các doanh nghiệp trên nền tảng đám mây, thuật toán Dữ liệu lớn được sử dụng để tìm ra cách giảm thiểu chi phí thu hút khách hàng và tăng vòng đời của khách hàng.

Sự khác biệt của các chiến lược định giá tùy thuộc vào cấp độ nội bộ hệ thống của khách hàng có lẽ là điểm chính mà Dữ liệu lớn được sử dụng trong lĩnh vực tiếp thị. McKinsey nhận thấy rằng khoảng 75% doanh thu của một công ty trung bình đến từ các sản phẩm cốt lõi, 30% trong số đó bị định giá sai. Giá tăng 1% sẽ làm lợi nhuận hoạt động tăng 8,7%.

Nhóm nghiên cứu của Forrester nhận thấy rằng phân tích dữ liệu cho phép các nhà tiếp thị tập trung vào cách làm cho mối quan hệ khách hàng thành công hơn. Bằng cách xem xét hướng phát triển của khách hàng, các chuyên gia có thể đánh giá mức độ trung thành của họ, cũng như kéo dài vòng đời trong bối cảnh của một công ty cụ thể.

Tối ưu hóa chiến lược bán hàng và các giai đoạn thâm nhập thị trường mới bằng cách sử dụng phân tích địa lý được phản ánh trong ngành dược phẩm sinh học. Theo McKinsey, các công ty sản xuất thuốc chi trung bình từ 20 đến 30% lợi nhuận cho việc quản lý và bán hàng. Nếu doanh nghiệp chủ động hơn sử dụng Dữ liệu lớnđể xác định những thị trường có lợi nhuận cao nhất và tăng trưởng nhanh nhất, chi phí sẽ được giảm ngay lập tức.

Phân tích dữ liệu là phương tiện để các công ty có được bức tranh toàn cảnh về các khía cạnh chính trong hoạt động kinh doanh của họ. Tăng doanh thu, giảm chi phí và giảm vốn lưu động là ba thách thức mà các doanh nghiệp hiện đại đang cố gắng giải quyết với sự trợ giúp của các công cụ phân tích.

Cuối cùng, 58% giám đốc tiếp thị cho rằng việc triển khai công nghệ Dữ liệu lớn có thể được thấy trong tối ưu hóa công cụ tìm kiếm (SEO), e-mail và tiếp thị trên thiết bị di động, trong đó phân tích dữ liệu đóng vai trò quan trọng nhất trong việc hình thành các chương trình tiếp thị. Và chỉ có ít hơn 4% người được hỏi tin tưởng rằng Dữ liệu lớn sẽ đóng một vai trò quan trọng trong tất cả các chiến lược tiếp thị trong nhiều năm tới.

8 Phân tích dữ liệu toàn cầu

Không kém phần tò mò là... Có thể học máy cuối cùng sẽ là lực lượng duy nhất có khả năng duy trì sự cân bằng mong manh. Chủ đề về ảnh hưởng của con người đến hiện tượng nóng lên toàn cầu vẫn gây ra nhiều tranh cãi nên chỉ những mô hình dự đoán đáng tin cậy dựa trên việc phân tích lượng lớn dữ liệu mới có thể đưa ra câu trả lời chính xác. Cuối cùng, việc giảm lượng khí thải sẽ giúp ích cho tất cả chúng ta: chúng ta sẽ tiêu tốn ít năng lượng hơn.

Giờ đây, Dữ liệu lớn không phải là một khái niệm trừu tượng có thể được ứng dụng trong vài năm tới. Đây là một bộ công nghệ hoàn chỉnh có thể hữu ích trong hầu hết các lĩnh vực hoạt động của con người: từ y học và trật tự công cộng đến tiếp thị và bán hàng. Giai đoạn tích cực tích cực Dữ liệu lớn vào cuộc sống hàng ngày của chúng ta mới bắt đầu và ai biết được vai trò của Dữ liệu lớn sẽ như thế nào trong vài năm tới?