Xử lý khối lượng lớn dữ liệu. Điều gì ngăn cản bạn làm việc với Dữ liệu lớn. Các vấn đề chính của việc sử dụng Big Data

Chuyên mục của giáo viên HSE về những lầm tưởng và trường hợp làm việc với dữ liệu lớn

Để đánh dấu

Các giáo viên tại Trường Truyền thông Mới tại Trường Kinh tế Cao cấp thuộc Đại học Nghiên cứu Quốc gia Konstantin Romanov và Alexander Pyatigorsky, đồng thời là giám đốc chuyển đổi kỹ thuật số tại Beeline, đã viết một chuyên mục cho trang web về những quan niệm sai lầm chính về dữ liệu lớn - ví dụ về việc sử dụng công nghệ và công cụ. Các tác giả cho rằng ấn phẩm này sẽ giúp các nhà quản lý công ty hiểu được khái niệm này.

Những lầm tưởng và quan niệm sai lầm về Dữ liệu lớn

Dữ liệu lớn không phải là tiếp thị

Thuật ngữ Dữ liệu lớn đã trở nên rất thời thượng - nó được sử dụng trong hàng triệu tình huống và với hàng trăm cách hiểu khác nhau, thường không liên quan đến nó là gì. Các khái niệm thường được thay thế trong đầu mọi người và Dữ liệu lớn bị nhầm lẫn với một sản phẩm tiếp thị. Hơn nữa, ở một số công ty, Big Data là một phần của bộ phận tiếp thị. Kết quả phân tích dữ liệu lớn thực sự có thể là nguồn cho hoạt động tiếp thị, nhưng không có gì hơn thế. Hãy xem nó hoạt động như thế nào.

Nếu chúng tôi xác định được danh sách những người đã mua hàng hóa trị giá hơn ba nghìn rúp trong cửa hàng của chúng tôi hai tháng trước và sau đó gửi cho những người dùng này một số loại ưu đãi, thì đây là hoạt động tiếp thị điển hình. Chúng tôi rút ra một mô hình rõ ràng từ dữ liệu cấu trúc và sử dụng nó để tăng doanh số bán hàng.

Tuy nhiên, nếu chúng tôi kết hợp dữ liệu CRM với thông tin phát trực tuyến từ Instagram và phân tích nó, chúng tôi sẽ tìm thấy một mô hình: một người đã giảm hoạt động của mình vào tối thứ Tư và có bức ảnh mới nhất cho thấy mèo con nên đưa ra một đề nghị nhất định. Đây sẽ là Dữ liệu lớn. Chúng tôi đã tìm ra yếu tố kích hoạt, chuyển nó cho các nhà tiếp thị và họ sử dụng nó cho mục đích riêng của mình.

Từ đó, công nghệ thường hoạt động với dữ liệu phi cấu trúc và ngay cả khi dữ liệu có cấu trúc, hệ thống vẫn tiếp tục tìm kiếm các mẫu ẩn trong đó, điều mà hoạt động tiếp thị không làm được.

Dữ liệu lớn không phải là CNTT

Thái cực thứ hai của câu chuyện này: Dữ liệu lớn thường bị nhầm lẫn với CNTT. Điều này là do ở các công ty Nga, theo quy định, các chuyên gia CNTT là người điều khiển tất cả các công nghệ, bao gồm cả dữ liệu lớn. Do đó, nếu mọi thứ diễn ra trong bộ phận này, thì toàn bộ công ty sẽ có ấn tượng rằng đây là một loại hoạt động CNTT nào đó.

Trên thực tế, có sự khác biệt cơ bản ở đây: Dữ liệu lớn là một hoạt động nhằm đạt được một sản phẩm cụ thể, hoàn toàn không liên quan đến CNTT, mặc dù công nghệ không thể tồn tại nếu không có nó.

Dữ liệu lớn không phải lúc nào cũng là việc thu thập và phân tích thông tin

Có một quan niệm sai lầm khác về Dữ liệu lớn. Mọi người đều hiểu rằng công nghệ này liên quan đến một lượng lớn dữ liệu, nhưng loại dữ liệu đó là gì thì không phải lúc nào cũng rõ ràng. Bất cứ ai cũng có thể thu thập và sử dụng thông tin, giờ đây điều này không chỉ có thể thực hiện được trong các bộ phim mà còn ở bất kỳ công ty nào, kể cả một công ty rất nhỏ. Câu hỏi duy nhất là thu thập chính xác những gì và làm thế nào để sử dụng nó để làm lợi thế cho bạn.

Nhưng cần hiểu rằng công nghệ Dữ liệu lớn sẽ không phải là việc thu thập và phân tích hoàn toàn bất kỳ thông tin nào. Ví dụ: nếu bạn thu thập dữ liệu về một người cụ thể trên mạng xã hội thì đó sẽ không phải là Big Data.

Dữ liệu lớn thực sự là gì?

Dữ liệu lớn bao gồm ba yếu tố:

dữ liệu;
phân tích;
công nghệ.

Dữ liệu lớn không chỉ là một trong những thành phần này mà là sự kết hợp của cả ba yếu tố. Người ta thường thay thế các khái niệm: một số người tin rằng Big Data chỉ là dữ liệu, số khác lại cho rằng đó là công nghệ. Nhưng trên thực tế, dù bạn có thu thập bao nhiêu dữ liệu thì bạn cũng không thể làm gì với nó nếu không có công nghệ cần thiết và các nhà phân tích. Nếu có phân tích tốt nhưng không có dữ liệu thì còn tệ hơn nữa.

Nếu chúng ta nói về dữ liệu, đây không chỉ là văn bản mà còn là tất cả các bức ảnh được đăng trên Instagram và nói chung là mọi thứ có thể được phân tích và sử dụng cho các mục đích và nhiệm vụ khác nhau. Nói cách khác, Dữ liệu đề cập đến khối lượng lớn dữ liệu bên trong và bên ngoài của các cấu trúc khác nhau.

Phân tích cũng cần thiết vì Nhiệm vụ lớn Dữ liệu - xây dựng một số mẫu. Nghĩa là, phân tích là việc xác định các phụ thuộc tiềm ẩn và tìm kiếm các câu hỏi và câu trả lời mới dựa trên việc phân tích toàn bộ khối lượng dữ liệu không đồng nhất. Hơn nữa, Dữ liệu lớn đặt ra những câu hỏi không thể rút ra trực tiếp từ dữ liệu này.

Về hình ảnh, việc bạn đăng ảnh mình mặc áo phông xanh chẳng có ý nghĩa gì cả. Nhưng nếu bạn sử dụng nhiếp ảnh để lập mô hình Dữ liệu lớn, thì có thể ngay bây giờ bạn nên đưa ra một khoản vay, bởi vì trong nhóm xã hội của bạn, hành vi như vậy cho thấy một hiện tượng nhất định đang hoạt động. Do đó, dữ liệu “trần” không có phân tích, không xác định các phần phụ thuộc ẩn và không rõ ràng không phải là Dữ liệu lớn.

Vì vậy, chúng tôi có dữ liệu lớn. Mảng của họ rất lớn. Chúng tôi cũng có một nhà phân tích. Nhưng làm thế nào chúng ta có thể chắc chắn rằng từ dữ liệu thô này chúng ta sẽ đưa ra được một giải pháp cụ thể? Để làm được điều này, chúng ta cần những công nghệ cho phép chúng ta không chỉ lưu trữ chúng (và điều này trước đây là không thể) mà còn có thể phân tích chúng.

Nói một cách đơn giản, nếu bạn có nhiều dữ liệu, bạn sẽ cần các công nghệ, chẳng hạn như Hadoop, giúp lưu trữ tất cả thông tin ở dạng ban đầu để phân tích sau này. Loại công nghệ này xuất hiện ở những gã khổng lồ Internet, vì họ là những người đầu tiên phải đối mặt với vấn đề lưu trữ một lượng lớn dữ liệu và phân tích nó để kiếm tiền sau này.

Ngoài các công cụ lưu trữ dữ liệu tối ưu và giá rẻ, bạn cần có các công cụ phân tích cũng như các tiện ích bổ sung cho nền tảng được sử dụng. Ví dụ, toàn bộ hệ sinh thái gồm các dự án và công nghệ liên quan đã hình thành xung quanh Hadoop. Dưới đây là một số trong số họ:

Pig là một ngôn ngữ phân tích dữ liệu khai báo.
Hive - phân tích dữ liệu bằng ngôn ngữ tương tự như SQL.
Oozie - Quy trình làm việc của Hadoop.
Hbase là một cơ sở dữ liệu (không quan hệ), tương tự như Google Big Table.
Mahout - học máy.
Sqoop - chuyển dữ liệu từ RSDB sang Hadoop và ngược lại.
Flume - chuyển nhật ký sang HDFS.
Người quản lý vườn thú, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS, v.v.

Tất cả những công cụ này đều được cung cấp miễn phí cho mọi người nhưng cũng có một số tiện ích bổ sung phải trả phí.

Ngoài ra, cần có các chuyên gia: nhà phát triển và nhà phân tích (được gọi là Nhà khoa học dữ liệu). Cũng cần một người quản lý có thể hiểu cách áp dụng phân tích này để giải quyết một vấn đề cụ thể, bởi vì bản thân nó hoàn toàn vô nghĩa nếu nó không được tích hợp vào quy trình kinh doanh.

Cả ba nhân viên phải làm việc theo nhóm. Người quản lý giao cho chuyên gia Khoa học dữ liệu nhiệm vụ tìm kiếm một mẫu nhất định phải hiểu rằng không phải lúc nào anh ta cũng tìm thấy chính xác những gì mình cần. Trong trường hợp này, người quản lý nên lắng nghe cẩn thận những gì Nhà khoa học dữ liệu tìm thấy, vì những phát hiện của anh ta thường thú vị và hữu ích hơn cho doanh nghiệp. Công việc của bạn là áp dụng điều này vào doanh nghiệp và tạo ra sản phẩm từ đó.

Mặc dù hiện nay có rất nhiều loại máy móc, công nghệ khác nhau nhưng quyết định cuối cùng luôn thuộc về con người. Để làm được điều này, thông tin cần phải được hình dung bằng cách nào đó. Có khá nhiều công cụ cho việc này.

Ví dụ đáng chú ý nhất là các báo cáo phân tích địa lý. Công ty Beeline làm việc rất nhiều với chính quyền của các thành phố và khu vực khác nhau. Rất thường xuyên, các tổ chức này yêu cầu các báo cáo như “Tắc nghẽn giao thông ở một địa điểm nhất định”.

Rõ ràng là một báo cáo như vậy phải đến tay các cơ quan chính phủ dưới hình thức đơn giản và dễ hiểu. Nếu chúng tôi cung cấp cho họ một bảng khổng lồ và hoàn toàn không thể hiểu được (nghĩa là thông tin ở dạng mà chúng tôi nhận được), họ khó có thể mua một báo cáo như vậy - nó sẽ hoàn toàn vô dụng, họ sẽ không nhận được kiến thức từ đó họ muốn nhận.

Do đó, cho dù các nhà khoa học dữ liệu có giỏi đến đâu và họ có tìm thấy mẫu nào đi nữa, bạn sẽ không thể làm việc với dữ liệu này nếu không có các công cụ trực quan hóa tốt.

Nguồn dữ liệu

Mảng dữ liệu thu được rất lớn nên có thể chia thành nhiều nhóm.

Dữ liệu nội bộ công ty

Mặc dù 80% dữ liệu được thu thập thuộc về nhóm này nhưng nguồn này không phải lúc nào cũng được sử dụng. Thường thì đây là dữ liệu mà dường như không ai cần chút nào, chẳng hạn như nhật ký. Nhưng nếu nhìn chúng từ một góc độ khác, đôi khi bạn có thể tìm thấy những khuôn mẫu bất ngờ ở chúng.

Nguồn phần mềm chia sẻ

Điều này bao gồm dữ liệu mạng xã hội, Internet và mọi thứ mà bạn có thể truy cập miễn phí. Tại sao nó là phần mềm chia sẻ miễn phí? Một mặt, dữ liệu này có sẵn cho tất cả mọi người, nhưng nếu bạn là một công ty lớn, thì việc có được nó với quy mô cơ sở thuê bao hàng chục nghìn, hàng trăm hoặc hàng triệu khách hàng không còn là một nhiệm vụ dễ dàng. Vì vậy, trên thị trường có các dịch vụ trả phí để cung cấp dữ liệu này.

Nguồn trả phí

Điều này bao gồm các công ty bán dữ liệu để lấy tiền. Đây có thể là viễn thông, DMP, công ty Internet, văn phòng tín dụng và công ty tổng hợp. Ở Nga, viễn thông không bán dữ liệu. Thứ nhất, nó không mang lại lợi ích kinh tế, thứ hai, nó bị pháp luật cấm. Do đó, họ bán kết quả xử lý của mình, chẳng hạn như báo cáo phân tích địa lý.

Dữ liệu mở

Nhà nước đang hỗ trợ các doanh nghiệp và cho họ cơ hội sử dụng dữ liệu họ thu thập. Điều này được phát triển ở mức độ lớn hơn ở phương Tây, nhưng Nga về mặt này cũng theo kịp thời đại. Ví dụ, có Cổng dữ liệu mở của Chính phủ Moscow, nơi công bố thông tin về các cơ sở hạ tầng đô thị khác nhau.

Đối với người dân và khách của Moscow, dữ liệu được trình bày dưới dạng bảng và bản đồ, còn đối với các nhà phát triển - ở các định dạng đặc biệt có thể đọc được bằng máy. Mặc dù dự án đang hoạt động ở chế độ hạn chế nhưng nó đang phát triển, có nghĩa là nó cũng là nguồn dữ liệu mà bạn có thể sử dụng cho các nhiệm vụ kinh doanh của mình.

Nghiên cứu

Như đã lưu ý, nhiệm vụ của Dữ liệu lớn là tìm ra một mẫu. Thông thường, nghiên cứu được thực hiện trên khắp thế giới có thể trở thành điểm tựa để tìm ra một mô hình cụ thể - bạn có thể nhận được một kết quả cụ thể và cố gắng áp dụng logic tương tự cho mục đích riêng của mình.

Dữ liệu lớn là một lĩnh vực không áp dụng được tất cả các định luật toán học. Ví dụ: “1” + “1” không phải là “2”, mà còn hơn thế nữa, vì bằng cách kết hợp các nguồn dữ liệu, hiệu ứng có thể được nâng cao đáng kể.

Ví dụ sản phẩm

Nhiều người đã quen thuộc với dịch vụ chọn nhạc Spotify. Thật tuyệt vì nó không hỏi người dùng tâm trạng của họ hôm nay như thế nào mà tính toán dựa trên các nguồn có sẵn. Anh ấy luôn biết bạn cần gì bây giờ - nhạc jazz hay hard rock. Đây là cái gì sự khác biệt chính, nơi cung cấp cho nó người hâm mộ và phân biệt nó với các dịch vụ khác.

Những sản phẩm như vậy thường được gọi là sản phẩm cảm giác - những sản phẩm cảm nhận được khách hàng của mình.

Công nghệ Big Data cũng được sử dụng trong ngành công nghiệp ô tô. Ví dụ, Tesla làm điều này - mẫu xe mới nhất của họ có hệ thống lái tự động. Công ty cố gắng tạo ra một chiếc ô tô có thể tự đưa hành khách đến nơi họ cần đến. Nếu không có Dữ liệu lớn thì điều này là không thể, bởi vì nếu chúng ta chỉ sử dụng dữ liệu mà chúng ta nhận được trực tiếp, như con người vẫn làm, thì chiếc ô tô sẽ không thể cải thiện được.

Khi tự lái ô tô, chúng ta sử dụng tế bào thần kinh của mình để đưa ra quyết định dựa trên nhiều yếu tố mà chúng ta thậm chí không nhận thấy. Ví dụ, chúng tôi có thể không nhận ra lý do tại sao chúng tôi quyết định không tăng tốc ngay lập tức khi đèn xanh, nhưng sau đó hóa ra quyết định đó là đúng - một chiếc ô tô lao qua bạn với tốc độ chóng mặt và bạn đã tránh được tai nạn.

Bạn cũng có thể đưa ra một ví dụ về việc sử dụng Dữ liệu lớn trong thể thao. Năm 2002, tổng giám đốc của đội bóng chày Oakland Athletics, Billy Beane, đã quyết định phá vỡ mô hình tuyển dụng vận động viên - ông đã lựa chọn và đào tạo các cầu thủ “theo những con số”.

Thông thường các nhà quản lý nhìn vào thành công của các cầu thủ, nhưng trong trường hợp này mọi thứ đã khác - để đạt được kết quả, người quản lý đã nghiên cứu những sự kết hợp của các vận động viên mà anh ta cần, chú ý đến đặc điểm cá nhân. Hơn nữa, ông đã chọn những vận động viên mà bản thân họ không có nhiều tiềm năng, nhưng toàn đội đã thành công đến mức họ đã thắng 20 trận liên tiếp.

Đạo diễn Bennett Miller sau đó đã thực hiện một bộ phim dành riêng cho câu chuyện này - Người đàn ông đã thay đổi mọi thứ với sự tham gia của Brad Pitt.

Công nghệ Dữ liệu lớn cũng hữu ích trong lĩnh vực tài chính. Không một người nào trên thế giới có thể xác định một cách độc lập và chính xác liệu có đáng để cho ai đó vay hay không. Để đưa ra quyết định, việc tính điểm được thực hiện, tức là xây dựng một mô hình xác suất, từ đó người ta có thể hiểu được người này có trả lại tiền hay không. Hơn nữa, việc tính điểm được áp dụng ở tất cả các giai đoạn: chẳng hạn, bạn có thể tính toán rằng tại một thời điểm nhất định, một người sẽ ngừng thanh toán.

Dữ liệu lớn cho phép bạn không chỉ kiếm tiền mà còn tiết kiệm tiền. Đặc biệt, công nghệ này đã giúp Bộ Lao động Đức giảm 10 tỷ euro chi phí trợ cấp thất nghiệp, vì sau khi phân tích thông tin, người ta thấy rõ rằng 20% tiền trợ cấp đã được trả không xứng đáng.

Công nghệ cũng được sử dụng trong y học (điều này đặc biệt điển hình ở Israel). Với sự trợ giúp của Dữ liệu lớn, bạn có thể thực hiện phân tích chính xác hơn nhiều so với những gì một bác sĩ có ba mươi năm kinh nghiệm có thể làm.

Bất kỳ bác sĩ nào khi chẩn đoán đều chỉ dựa vào kinh nghiệm của bản thân. Khi một cỗ máy thực hiện được điều này, nó xuất phát từ kinh nghiệm của hàng ngàn bác sĩ và tất cả mọi người. câu chuyện hiện có bệnh tật. Nó tính đến chất liệu mà ngôi nhà của bệnh nhân được làm, nạn nhân sống ở khu vực nào, có loại khói gì, v.v. Tức là nó tính đến rất nhiều yếu tố mà bác sĩ không tính đến.

Một ví dụ về việc sử dụng Dữ liệu lớn trong chăm sóc sức khỏe là dự án Project Artemis do Bệnh viện Nhi đồng Toronto thực hiện. Đây là hệ thống thông tin thu thập và phân tích dữ liệu về trẻ sơ sinh theo thời gian thực. Máy cho phép phân tích 1260 chỉ số sức khỏe của mỗi trẻ mỗi giây. Dự án này nhằm mục đích dự đoán tình trạng không ổn định của trẻ và ngăn ngừa bệnh tật ở trẻ.

Dữ liệu lớn cũng bắt đầu được sử dụng ở Nga: ví dụ Yandex có bộ phận dữ liệu lớn. Công ty cùng với AstraZeneca và xã hội Nga ung thư lâm sàng RUSSCO đã ra mắt nền tảng RAY, được thiết kế cho các nhà di truyền học và nhà sinh học phân tử. Dự án cho phép chúng tôi cải tiến các phương pháp chẩn đoán ung thư và xác định khuynh hướng ung thư. Nền tảng này sẽ ra mắt vào tháng 12 năm 2016.

Dữ liệu lớn hay dữ liệu lớn là một khái niệm được sử dụng trong công nghệ thông tin và lĩnh vực tiếp thị. Thuật ngữ “dữ liệu lớn” được sử dụng để định nghĩa việc phân tích và quản lý khối lượng lớn. Như vậy, dữ liệu lớn là thông tin do có khối lượng lớn nên không thể xử lý được bằng các phương pháp truyền thống.

Cuộc sống hiện đại không thể tưởng tượng được nếu không có công nghệ số. Kho dữ liệu của thế giới liên tục được bổ sung, và do đó cũng cần phải liên tục thay đổi cả điều kiện lưu trữ thông tin và tìm kiếm những cách mới để tăng khối lượng phương tiện truyền thông của mình. Theo ý kiến chuyên gia, sự gia tăng dữ liệu lớn và tốc độ tăng trưởng ngày càng tăng là thực tế hiện nay. Như đã đề cập, thông tin xuất hiện không ngừng. Khối lượng khổng lồ của nó được tạo ra bởi các trang thông tin, các dịch vụ chia sẻ tệp khác nhau và mạng xã hội, nhưng đây chỉ là một phần nhỏ trong tổng khối lượng được tạo ra.

IDC Digital Universe, sau khi thực hiện một nghiên cứu, đã tuyên bố rằng trong vòng 5 năm nữa, khối lượng dữ liệu trên toàn Trái đất sẽ đạt tới 40 zettabyte. Điều này có nghĩa là đối với mỗi người trên hành tinh sẽ có 5200 GB thông tin.

Bài viết hay nhất trong tháng

Nửa đầu năm 2018 sắp kết thúc - đã đến lúc tổng kết những kết quả tạm thời. Ngay cả khi hiệu quả kinh doanh của công ty có tăng lên so với giai đoạn trước, hãy đảm bảo rằng không có khó khăn tiềm ẩn nào trong công việc của công ty có thể gây rắc rối.

Để chẩn đoán vấn đề, hãy điền vào danh sách kiểm tra từ bài viết của chúng tôi và tìm ra khía cạnh nào của doanh nghiệp cần chú ý.

Mọi người đều biết rằng con người không phải là nhà sản xuất thông tin chính. Nguồn chính mang lại dữ liệu thông tin là các robot tương tác liên tục. Bao gồm các hệ điều hành máy tính, máy tính bảng và điện thoại di động, Hệ thống thông minh, công cụ giám sát, hệ thống giám sát, v.v. Cùng nhau, họ đặt ra tốc độ tăng nhanh chóng lượng dữ liệu, điều đó có nghĩa là nhu cầu tạo cả máy chủ thực và máy chủ ảo ngày càng tăng. Kết hợp lại với nhau, điều này dẫn đến việc mở rộng và triển khai các trung tâm dữ liệu mới.

Thông thường, dữ liệu lớn được định nghĩa là thông tin vượt quá ổ cứng PC, và cũng không thể được xử lý bằng các phương pháp truyền thống được sử dụng để xử lý và phân tích thông tin với khối lượng nhỏ hơn.

Tóm lại, công nghệ xử lý dữ liệu lớn cuối cùng có 3 lĩnh vực chính, từ đó giải quyết 3 loại vấn đề:

Lưu trữ và quản lý khối lượng dữ liệu khổng lồ - có kích thước lên tới hàng trăm terabyte và petabyte - mà cơ sở dữ liệu quan hệ không thể sử dụng một cách hiệu quả.
Tổ chức thông tin phi cấu trúc - văn bản, hình ảnh, video và các loại dữ liệu khác.
Phân tích dữ liệu lớn (phân tích dữ liệu lớn) - điều này bao gồm các cách làm việc với thông tin phi cấu trúc, tạo báo cáo dữ liệu phân tích và giới thiệu các mô hình dự đoán.

Thị trường dự ánto lớndữ liệuđược kết nối chặt chẽ với thị trường VA - phân tích kinh doanh, khối lượng trong năm 2012 lên tới khoảng 100 tỷ USD và bao gồm công nghệ mạng, phần mềm, dịch vụ kỹ thuật và máy chủ.

Tự động hóa các hoạt động của công ty, đặc biệt là các giải pháp đảm bảo thu nhập (RA), cũng gắn bó chặt chẽ với việc sử dụng công nghệ dữ liệu lớn. Ngày nay, các hệ thống trong lĩnh vực này chứa các công cụ được sử dụng để phát hiện sự không nhất quán và phân tích dữ liệu chuyên sâu, đồng thời giúp xác định những tổn thất hoặc thông tin không chính xác có thể xảy ra, có thể dẫn đến giảm kết quả của ngành.

Các công ty Nga xác nhận rằng có nhu cầu về công nghệ dữ liệu lớn; họ lưu ý riêng rằng các yếu tố chính ảnh hưởng đến sự phát triển dữ liệu lớn ở Nga là sự gia tăng khối lượng dữ liệu, áp dụng nhanh chóng các quyết định quản lý và nâng cao chất lượng của chúng.

Dữ liệu lớn đóng vai trò gì trong tiếp thị?

Không có gì bí mật rằng thông tin là một trong những thành phần chính để dự báo và phát triển thành công chiến lược tiếp thị, nếu bạn biết cách sử dụng nó.

Phân tích dữ liệu lớn là không thể thiếu trong việc xác định khán giả mục tiêu, sở thích và hoạt động của cô ấy. Nói cách khác, việc sử dụng khéo léo dữ liệu lớn cho phép bạn dự đoán chính xác sự phát triển của một công ty.

Ví dụ: sử dụng mô hình đấu giá RTB nổi tiếng, với sự trợ giúp của phân tích dữ liệu lớn, thật dễ dàng để đảm bảo rằng quảng cáo chỉ được hiển thị cho những người mua tiềm năng quan tâm đến việc mua dịch vụ hoặc sản phẩm.

Ứng dụng dữ liệu lớn trong tiếp thị:

Cho phép bạn nhận ra người mua tiềm năng và thu hút đối tượng phù hợp trên Internet.
Giúp đánh giá sự hài lòng.
Giúp kết hợp dịch vụ được cung cấp với nhu cầu của người mua.
Tạo điều kiện cho việc tìm kiếm và thực hiện các phương pháp mới để tăng lòng trung thành của khách hàng.
Đơn giản hóa việc tạo các dự án sau này sẽ có nhu cầu.

Một ví dụ cụ thể là dịch vụ Google.trends. Với sự trợ giúp của nó, nhà tiếp thị sẽ có thể xác định dự báo cho mùa liên quan đến một sản phẩm cụ thể, địa lý của các lần nhấp và biến động. Do đó, bằng cách so sánh thông tin nhận được với số liệu thống kê của trang web của riêng bạn, bạn có thể dễ dàng lập ngân sách quảng cáo cho biết khu vực và tháng.

Phân bổ ngân sách quảng cáo: nên chi vào việc gì

Làm thế nào và ở đâu để lưu trữ dữ liệu lớn dữ liệu lớn

Hệ thống tập tin- đây là nơi dữ liệu lớn được tổ chức và lưu trữ. Tất cả thông tin đều nằm trên một số lượng lớn ổ cứng trên PC.

"Bản đồ"- bản đồ - theo dõi nơi từng thông tin được lưu trữ trực tiếp.

Để bảo đảm trước những trường hợp không lường trước được, thông lệ là phải lưu từng thông tin nhiều lần - bạn nên làm điều này ba lần.

Ví dụ: sau khi thu thập các giao dịch riêng lẻ trong chuỗi bán lẻ, tất cả thông tin về từng giao dịch riêng lẻ sẽ được lưu trữ trên nhiều máy chủ và ổ cứng, đồng thời một “bản đồ” sẽ lập chỉ mục vị trí tệp cho từng giao dịch cụ thể.

Để tổ chức lưu trữ dữ liệu với khối lượng lớn, bạn có thể sử dụng thiết bị kỹ thuật tiêu chuẩn và phần mềm có sẵn công khai (ví dụ: Hadoop).

Dữ liệu lớn và phân tích kinh doanh: sự khác biệt giữa các khái niệm

Ngày nay, phân tích kinh doanh là một quá trình mô tả các kết quả đạt được trong một khoảng thời gian cụ thể. Tốc độ xử lý dữ liệu lớn hiện nay giúp phân tích có tính dự đoán. Bạn có thể dựa vào khuyến nghị của anh ấy trong tương lai. Công nghệ dữ liệu lớn giúp phân tích số lượng loại dữ liệu lớn hơn so với các công cụ và công cụ được sử dụng trong phân tích kinh doanh. Điều này cho phép bạn không chỉ tập trung vào kho nơi dữ liệu được cấu trúc mà còn sử dụng các tài nguyên rộng hơn đáng kể.

Phân tích kinh doanh và dữ liệu lớn giống nhau về nhiều mặt, nhưng có những điểm khác biệt sau:

Dữ liệu lớn được sử dụng để xử lý một lượng thông tin lớn hơn đáng kể so với phân tích kinh doanh, vốn xác định chính khái niệm về dữ liệu lớn.
Với sự trợ giúp của dữ liệu lớn, bạn có thể xử lý dữ liệu nhận và thay đổi nhanh chóng, dẫn đến tính tương tác, tức là trong hầu hết các trường hợp, tốc độ tải trang web thấp hơn tốc độ tạo kết quả.
Dữ liệu lớn có thể được sử dụng khi xử lý dữ liệu không có cấu trúc, việc xử lý dữ liệu này chỉ nên bắt đầu sau khi đảm bảo việc lưu trữ và thu thập dữ liệu đó. Ngoài ra, cần áp dụng các thuật toán có thể xác định các mẫu chính trong mảng được tạo.

Quá trình phân tích kinh doanh không giống lắm với công việc của dữ liệu lớn. Theo quy định, phân tích kinh doanh có xu hướng thu được kết quả bằng cách thêm các giá trị cụ thể: ví dụ là khối lượng bán hàng hàng năm, được tính bằng tổng của tất cả các hóa đơn đã thanh toán. Trong quá trình làm việc với dữ liệu lớn, việc tính toán được thực hiện bằng cách xây dựng mô hình theo từng bước:

đưa ra một giả thuyết;
xây dựng mô hình tĩnh, trực quan và ngữ nghĩa;
kiểm tra tính hợp lệ của giả thuyết dựa trên các mô hình đã chỉ định;
đưa ra giả thuyết sau.

Để hoàn thành chu trình nghiên cứu, cần diễn giải ý nghĩa trực quan (truy vấn dựa trên kiến thức tương tác). Một thuật toán học máy thích ứng cũng có thể được phát triển.

Ý kiến chuyên gia

Bạn không thể mù quáng chỉ dựa vào ý kiến của các nhà phân tích

Vyacheslav Nazarov,

Tổng giám đốc văn phòng đại diện Nga Công ty Archos, Mátxcơva

Khoảng một năm trước, dựa trên ý kiến chuyên gia, chúng tôi đã đưa ra thị trường hoàn toàn máy tính bảng mới, bảng điều khiển trò chơi. Sự nhỏ gọn và đủ sức mạnh kỹ thuật đã được người hâm mộ công nhận trò chơi máy tính. Cần lưu ý rằng nhóm này tuy “hẹp” nhưng lại có sức mua khá cao. Lúc đầu, sản phẩm mới đã nhận được rất nhiều đánh giá tích cực trên các phương tiện truyền thông và nhận được đánh giá tán thành từ các đối tác của chúng tôi. Tuy nhiên, rõ ràng là doanh số bán máy tính bảng khá thấp. Giải pháp này chưa bao giờ được phổ biến rộng rãi.

Lỗi. Lỗ hổng của chúng tôi là lợi ích của đối tượng mục tiêu chưa được nghiên cứu đầy đủ. Người dùng thích chơi trên máy tính bảng không yêu cầu đồ họa siêu cao vì họ chủ yếu chơi các trò chơi đơn giản. Những game thủ nghiêm túc đã quen với việc chơi trên máy tính trên các nền tảng cao cấp hơn. Không có quảng cáo rầm rộ về sản phẩm của chúng tôi, chiến dịch tiếp thị cũng yếu kém và cuối cùng, máy tính bảng không tìm được người mua trong bất kỳ nhóm nào được chỉ định.

Hậu quả. Sản lượng sản phẩm phải giảm gần 40% so với khối lượng dự kiến ban đầu. Tất nhiên, không có khoản lỗ lớn nào và cũng không có lợi nhuận theo kế hoạch. Tuy nhiên, điều này buộc chúng tôi phải điều chỉnh một số mục tiêu chiến lược. Thứ quý giá nhất mà chúng ta đã đánh mất không thể cứu vãn được chính là thời gian.

lời khuyên. Bạn cần phải suy nghĩ về phía trước. Các dòng sản phẩm cần phải được tính toán trước hai hoặc ba bước. Nó có nghĩa là gì? Khi tung ra một dòng sản phẩm nhất định ngày hôm nay, bạn nên hiểu số phận của nó vào ngày mai và có ít nhất một bức tranh gần đúng về những gì sẽ xảy ra với nó trong một năm rưỡi nữa. Chắc chắn, chi tiết đầy đủ khó xảy ra, nhưng kế hoạch cơ bản vẫn cần được biên soạn.

Và bạn không nên tin tưởng hoàn toàn vào các nhà phân tích. Đánh giá của chuyên gia phải được so sánh với số liệu thống kê của chính mình cũng như với tình hình hoạt động trên thị trường. Nếu sản phẩm của bạn chưa được phát triển đầy đủ, bạn không nên tung ra thị trường, vì đối với người mua, ấn tượng đầu tiên là quan trọng nhất, và việc thuyết phục họ sẽ không phải là một việc dễ dàng.

Một mẹo rất quan trọng trong trường hợp thất bại là đưa ra quyết định nhanh chóng. Bạn tuyệt đối không thể chỉ xem và chờ đợi. Giải quyết một vấn đề không chậm trễ luôn dễ dàng và rẻ hơn nhiều so với việc sửa một vấn đề bị bỏ quên.

Hệ thống dữ liệu lớn tạo ra vấn đề gì?

Có 3 nhóm vấn đề chính của hệ thống dữ liệu lớn mà trong các tài liệu nước ngoài gộp lại thành 3V – Volume, Velocity và Variety, đó là:

Âm lượng.
Tốc độ xử lý.
Thiếu cấu trúc.

Vấn đề lưu trữ khối lượng lớn thông tin gắn liền với nhu cầu tổ chức một số điều kiện nhất định, nghĩa là tạo ra không gian và cơ hội. Về tốc độ, nó không liên quan nhiều đến sự chậm lại và phanh khi sử dụng các phương pháp xử lý lỗi thời, mà liên quan đến tính tương tác: quá trình xử lý thông tin càng nhanh thì kết quả càng hiệu quả.

Vấn đề phi cấu trúc xuất phát từ sự tách biệt của các nguồn, định dạng và chất lượng của chúng. Việc tích hợp và xử lý thành công dữ liệu lớn đòi hỏi cả công việc chuẩn bị và các công cụ hoặc hệ thống phân tích.
Giới hạn về “độ lớn” của dữ liệu cũng có ảnh hưởng lớn. Việc xác định giá trị là khá khó khăn và dựa trên điều này, việc tính toán những khoản đầu tư tài chính nào sẽ cần thiết và những công nghệ nào sẽ cần thiết là một vấn đề khó khăn. Tuy nhiên, đối với một số lượng nhất định, chẳng hạn như terabyte, các phương pháp xử lý mới ngày nay được sử dụng thành công và không ngừng được cải tiến.
Việc thiếu các nguyên tắc được chấp nhận chung để làm việc với dữ liệu lớn là một vấn đề khác, vốn phức tạp do tính không đồng nhất của các luồng đã nói ở trên. Để giải quyết vấn đề này, các phương pháp phân tích dữ liệu lớn mới đang được tạo ra. Dựa trên tuyên bố của đại diện các trường đại học ở New York, Washington và California, việc tạo ra một ngành riêng và thậm chí cả khoa học về dữ liệu lớn không còn xa nữa. Đây là lý do chính khiến các công ty không vội giới thiệu các dự án liên quan đến dữ liệu lớn. Một yếu tố khác là chi phí cao.
Khó khăn cũng nảy sinh trong việc lựa chọn dữ liệu để phân tích và thuật toán hành động. Cho đến nay, vẫn chưa có sự hiểu biết về dữ liệu nào thông tin có giá trị và yêu cầu phân tích dữ liệu lớn và những phân tích nào có thể bị bỏ qua. Trong tình huống này, một điều nữa trở nên rõ ràng - trên thị trường không có đủ chuyên gia trong ngành có thể thực hiện phân tích chuyên sâu, lập báo cáo về cách giải quyết vấn đề và từ đó mang lại lợi nhuận.
Ngoài ra còn có một khía cạnh đạo đức cho câu hỏi: liệu việc thu thập dữ liệu mà người dùng không hề hay biết có khác với hành vi xâm phạm quyền riêng tư một cách trắng trợn không? Điều đáng chú ý là việc thu thập dữ liệu giúp cải thiện chất lượng cuộc sống: ví dụ: việc thu thập dữ liệu liên tục trong hệ thống Google và Yandex giúp các công ty cải thiện dịch vụ của họ tùy theo nhu cầu của người tiêu dùng. Hệ thống của các dịch vụ này ghi chú từng nhấp chuột của người dùng, vị trí và trang web đã truy cập, tất cả tin nhắn và giao dịch mua - và tất cả điều này giúp hiển thị quảng cáo dựa trên hành vi của người dùng. Người dùng không đồng ý với việc thu thập dữ liệu: không có lựa chọn nào như vậy được đưa ra. Điều này dẫn đến vấn đề tiếp theo: thông tin được lưu trữ an toàn đến mức nào? Ví dụ: thông tin về người mua tiềm năng, lịch sử mua hàng và chuyển đổi của họ sang các trang web khác nhau có thể giúp giải quyết nhiều vấn đề kinh doanh, nhưng liệu nền tảng mà người mua sử dụng có an toàn hay không là một vấn đề gây nhiều tranh cãi. Nhiều người cho rằng ngày nay không một cơ sở lưu trữ dữ liệu nào - thậm chí cả các máy chủ của quân đội - được bảo vệ đầy đủ khỏi các cuộc tấn công của hacker.

Bí mật thương mại: bảo vệ và hình phạt nếu tiết lộ

Từng bước sử dụng dữ liệu lớn

Giai đoạn 1. Triển khai công nghệ của công ty trong một dự án chiến lược.

Nhiệm vụ của các chuyên gia kỹ thuật bao gồm xây dựng sơ bộ khái niệm phát triển: phân tích các lộ trình phát triển ở những lĩnh vực cần nó nhất.

Để xác định thành phần và nhiệm vụ, một cuộc trò chuyện được tổ chức với khách hàng, từ đó phân tích các nguồn lực cần thiết. Đồng thời, tổ chức quyết định thuê ngoài hoàn toàn tất cả các nhiệm vụ hoặc tạo ra một nhóm kết hợp bao gồm các chuyên gia từ tổ chức này và bất kỳ tổ chức nào khác.

Theo thống kê, một số lượng lớn các công ty sử dụng chính xác sơ đồ này: có đội ngũ chuyên gia bên trong, giám sát chất lượng công việc và hình thành phong trào, và bên ngoài, trực tiếp kiểm tra các giả thuyết về sự phát triển của bất kỳ hướng nào.

Bước 2: Tìm một nhà khoa học dữ liệu.

Người quản lý tập hợp các nhân viên lại với nhau. Ông cũng chịu trách nhiệm phát triển dự án. Nhân viên nhân sự đóng vai trò trực tiếp trong việc tạo ra đội ngũ nội bộ.

Trước hết, một nhóm như vậy cần một kỹ sư phân tích dữ liệu, còn được gọi là nhà khoa học dữ liệu, người sẽ giải quyết nhiệm vụ hình thành các giả thuyết và phân tích một loạt thông tin. Những mối tương quan mà ông xác định sẽ được sử dụng trong tương lai để thiết lập các sản phẩm và dịch vụ mới.

Đặc biệt ở giai đoạn đầu, điều quan trọng nhiệm vụ của phòng nhân sự. Nhân viên của nó quyết định chính xác ai sẽ thực hiện công việc nhằm phát triển dự án, lấy nó ở đâu và làm thế nào để thúc đẩy nó. Không dễ để tìm được một kỹ sư phân tích dữ liệu nên đây là “sản phẩm rời”.

Mọi công ty nghiêm túc đều phải có một chuyên gia về hồ sơ này, nếu không sẽ mất đi trọng tâm của dự án. Kỹ sư phân tích kết hợp: nhà phát triển, nhà phân tích và nhà phân tích kinh doanh. Ngoài ra, anh ta phải có kỹ năng giao tiếp để thể hiện kết quả hoạt động của mình và có kiến thức, kỹ năng phong phú để giải thích chi tiết suy nghĩ của mình.

24 suy nghĩ khởi đầu những thay đổi lớn trong cuộc sống

Tìm kiếm ví dụ

1. Một công ty taxi “Dữ liệu lớn” được thành lập tại Moscow. Dọc tuyến đường, hành khách trả lời các nhiệm vụ trong lĩnh vực phân tích chuyên môn. Nếu hành khách trả lời đúng hầu hết các câu hỏi, công ty sẽ mời anh ta làm việc. Nhược điểm chính của loại kỹ thuật lựa chọn nhân sự này là đa số không muốn tham gia vào loại dự án này. Chỉ có một số ít người đồng ý tham gia cuộc phỏng vấn.

2. Tổ chức một cuộc thi đặc biệt về phân tích kinh doanh với một số loại giải thưởng. Một ngân hàng lớn của Nga đã sử dụng phương pháp này. Kết quả là hơn 1.000 người đã tham gia cuộc thi hackathon. Những người đạt được thành công cao nhất trong cuộc thi đều được mời làm việc. Đáng tiếc là hầu hết những người đoạt giải đều không bày tỏ mong muốn nhận được chức vụ vì động lực của họ chỉ là giải thưởng. Tuy nhiên, vẫn có một số người đồng ý làm việc trong nhóm.

3. Tìm kiếm trong số các chuyên gia dữ liệu hiểu phân tích kinh doanh và có thể khôi phục trật tự bằng cách xây dựng thuật toán hành động chính xác. Các kỹ năng cần thiết của một chuyên gia phân tích bao gồm: lập trình, kiến thức về Python, R, Statistica, Rapidminer và những kiến thức khác không kém phần quan trọng đối với một nhà phân tích kinh doanh.

Giai đoạn 3. Thành lập nhóm để phát triển.

Cần có một đội phối hợp tốt. Khi xem xét các phân tích nâng cao, chẳng hạn như đổi mới công ty, người quản lý sẽ được yêu cầu tạo và phát triển trí tuệ kinh doanh.

Kỹ sư nghiên cứuđang tham gia vào việc xây dựng và thử nghiệm các giả thuyết để phát triển thành công vectơ đã chọn.

Đến đầu cần tổ chức phát triển ngành nghề kinh doanh đã chọn, tạo ra sản phẩm mới và phối hợp với khách hàng. Ngoài ra, trách nhiệm của ông còn bao gồm việc tính toán các trường hợp kinh doanh.

Một người quản lý phát triển phải phối hợp chặt chẽ với mọi người. Kỹ sư phân tích và giám đốc phát triển kinh doanh xác định nhu cầu và cơ hội phân tích dữ liệu lớn thông qua các cuộc họp với nhân viên chịu trách nhiệm về các lĩnh vực khác nhau của dự án. Sau khi phân tích tình hình, người quản lý sẽ đưa ra các tình huống, nhờ đó công ty sẽ đưa ra quyết định về việc phát triển thêm một hướng, dịch vụ hoặc sản phẩm.

Giám đốc phát triển: yêu cầu và mô tả công việc

3 nguyên tắc làm việc với bigdata

Chúng ta có thể nêu bật các phương pháp chính để làm việc với dữ liệu lớn:

Khả năng mở rộng theo chiều ngang. Do cần phải có một lượng dữ liệu khổng lồ nên bất kỳ hệ thống nào xử lý một lượng lớn thông tin đều có khả năng mở rộng. Ví dụ: nếu khối lượng dữ liệu tăng lên nhiều lần thì khối lượng phần cứng trong cụm cũng tăng theo cùng một lượng.
Khả năng chịu lỗi. Dựa trên nguyên tắc khả năng mở rộng theo chiều ngang, chúng ta có thể kết luận rằng có một số lượng lớn máy trong cụm. Ví dụ: cụm Hadoop của Yahoo có hơn 42.000 cụm, tất cả các phương pháp làm việc với dữ liệu lớn đều phải tính đến trục trặc có thể xảy ra và tìm cách giải quyết vấn đề mà không để lại hậu quả.
Địa phương dữ liệu. Dữ liệu được lưu trữ trong hệ thống lớn, được phân phối ở một số lượng khá lớn các máy. Do đó, trong tình huống dữ liệu được lưu trữ trên máy chủ số 1 và được xử lý trên máy chủ số 2, chúng tôi không thể loại trừ khả năng việc chuyển dữ liệu của họ sẽ tốn nhiều chi phí hơn so với việc xử lý. Đó là lý do tại sao trong quá trình thiết kế, người ta đặc biệt chú ý đến việc đảm bảo dữ liệu được lưu trữ và xử lý trên một máy tính.

Tất cả các phương pháp làm việc với dữ liệu lớn, bằng cách này hay cách khác, đều tuân thủ ba nguyên tắc này.

Cách sử dụng hệ thống dữ liệu lớn

Các giải pháp hiệu quả trong lĩnh vực làm việc với dữ liệu lớn cho nhiều hoạt động được triển khai nhờ nhiều giải pháp hiện có khoảnh khắc này sự kết hợp của phần mềm và phần cứng.

Phẩm giá quan trọngto lớndữ liệu- khả năng sử dụng các công cụ mới với những công cụ đã được sử dụng trong lĩnh vực này. Điều này đóng một vai trò đặc biệt quan trọng trong các tình huống với các dự án liên ngành. Một ví dụ là bán hàng đa kênh và hỗ trợ khách hàng.

Để làm việc với dữ liệu lớn, một trình tự nhất định rất quan trọng:

Đầu tiên, dữ liệu được thu thập;
sau đó thông tin được cấu trúc. Với mục đích này, bảng điều khiển được sử dụng ( Trang tổng quan - công cụ cấu trúc;
ở giai đoạn tiếp theo, những hiểu biết sâu sắc và bối cảnh được tạo ra, trên cơ sở đó hình thành các khuyến nghị cho việc ra quyết định. Do chi phí thu thập dữ liệu cao, nhiệm vụ chính là xác định mục đích sử dụng thông tin thu được.

Ví dụ. Các cơ quan quảng cáo có thể sử dụng thông tin vị trí được tổng hợp từ các công ty viễn thông. Cách tiếp cận này sẽ cung cấp quảng cáo được nhắm mục tiêu. Thông tin tương tự cũng được áp dụng trong các lĩnh vực khác liên quan đến việc cung cấp và bán dịch vụ và hàng hóa.

Thông tin thu được theo cách này có thể là chìa khóa trong việc quyết định có nên mở cửa hàng ở một khu vực cụ thể hay không.

Nếu chúng ta xem xét trường hợp sử dụng bảng quảng cáo ngoài trời ở London, chắc chắn rằng ngày nay trải nghiệm như vậy chỉ có thể thực hiện được nếu có một cơ chế đặc biệt. thiết bị đo. Đồng thời, các nhà khai thác di động luôn biết thông tin cơ bản về thuê bao của họ: vị trí, tình trạng hôn nhân, v.v.

Một lĩnh vực ứng dụng tiềm năng khác của dữ liệu lớn là thu thập thông tin về số lượng khách tham dự các sự kiện khác nhau.

Ví dụ. Ban tổ chức các trận đấu bóng đá không thể biết trước chính xác số lượng người đến xem trận đấu. Tuy nhiên, họ sẽ nhận được thông tin đó nếu họ sử dụng thông tin từ các nhà điều hành Truyền thông di động: nơi có khách truy cập tiềm năng trong một khoảng thời gian nhất định - một tháng, một tuần, một ngày - trước trận đấu. Hóa ra ban tổ chức sẽ có cơ hội lên kế hoạch địa điểm tổ chức sự kiện tùy thuộc vào sở thích của đối tượng mục tiêu.

Dữ liệu lớn cũng mang lại lợi ích không thể so sánh được cho ngành ngân hàng, ngành có thể sử dụng dữ liệu đã được xử lý để xác định những chủ thẻ vô đạo đức.

Ví dụ. Khi chủ thẻ báo cáo bị mất hoặc bị trộm, ngân hàng có cơ hội theo dõi vị trí của thẻ được sử dụng để thanh toán và điện thoại di động của chủ thẻ để xác minh tính xác thực của thông tin. Vì vậy, đại diện ngân hàng có cơ hội thấy rằng thẻ thanh toán và điện thoại di động của chủ sở hữu ở cùng một vùng. Điều này có nghĩa là chủ sở hữu sử dụng thẻ.

Nhờ lợi ích của loại thông tin này, việc sử dụng thông tin mang lại cho các công ty nhiều cơ hội mới và thị trường dữ liệu lớn tiếp tục phát triển.

Khó khăn chính trong việc triển khai dữ liệu lớn là sự phức tạp trong việc tính toán trường hợp. Quá trình này phức tạp bởi sự hiện diện của một số lượng lớn những điều chưa biết.

Khá khó để đưa ra bất kỳ dự đoán nào cho tương lai, trong khi dữ liệu về quá khứ không phải lúc nào cũng trong tầm tay. Trong tình huống này, điều quan trọng nhất là lập kế hoạch hành động ban đầu của bạn:

Việc xác định một vấn đề cụ thể sẽ áp dụng công nghệ xử lý dữ liệu lớn sẽ giúp xác định khái niệm và đặt ra định hướng cho các hành động tiếp theo. Tập trung vào việc thu thập thông tin cụ thể về vấn đề này, cũng nên sử dụng tất cả các công cụ và phương pháp có sẵn để có được bức tranh rõ ràng hơn. Hơn nữa, cách tiếp cận này sẽ tạo điều kiện thuận lợi hơn rất nhiều cho quá trình ra quyết định trong tương lai.
Khả năng một dự án dữ liệu lớn sẽ được thực hiện bởi một nhóm không có kỹ năng và kinh nghiệm nhất định là cực kỳ thấp. Kiến thức cần được sử dụng trong nghiên cứu phức tạp như vậy thường có được thông qua quá trình lao động lâu dài, đó là lý do tại sao kinh nghiệm trước đó rất quan trọng trong lĩnh vực này. Thật khó để đánh giá quá cao ảnh hưởng của văn hóa sử dụng thông tin thu được thông qua nghiên cứu như vậy. Họ cung cấp nhiều khả năng khác nhau, bao gồm cả việc lạm dụng các tài liệu nhận được. Để sử dụng thông tin một cách tốt đẹp, bạn nên tuân thủ các quy tắc cơ bản về xử lý dữ liệu chính xác.
Những hiểu biết sâu sắc là giá trị cốt lõi của công nghệ. Thị trường vẫn đang thiếu trầm trọng các chuyên gia giỏi, hiểu biết về pháp luật kinh doanh, tầm quan trọng của thông tin và phạm vi ứng dụng của nó. Người ta không thể bỏ qua thực tế rằng phân tích dữ liệu là cách quan trọngĐể đạt được mục tiêu và phát triển doanh nghiệp của mình, bạn cần cố gắng phát triển một mô hình hành vi và nhận thức cụ thể. Trong trường hợp này, dữ liệu lớn sẽ có lợi và đóng vai trò tích cực trong việc giải quyết các vấn đề quản lý doanh nghiệp.

Các trường hợp triển khai thành công dữ liệu lớn

Một số trường hợp được liệt kê dưới đây thành công hơn trong việc thu thập dữ liệu, những trường hợp khác - trong phân tích dữ liệu lớn và cách áp dụng dữ liệu thu được trong quá trình nghiên cứu.

« Hệ thống tín dụng Tinkoff» đã sử dụng nền tảng EMC2 Greenplum để tính toán song song trên quy mô lớn. Do lượng người sử dụng thẻ trong ngân hàng không ngừng tăng lên nên cần phải xử lý dữ liệu nhanh hơn. Người ta đã quyết định sử dụng dữ liệu lớn và làm việc với thông tin phi cấu trúc, cũng như thông tin công ty được lấy từ các nguồn khác nhau. Các chuyên gia của họ không thoát khỏi sự chú ý rằng lớp phân tích của kho dữ liệu liên bang đang được giới thiệu trên trang web của Cơ quan Thuế Liên bang Nga. Sau đó, trên cơ sở đó, dự kiến tổ chức một không gian cung cấp quyền truy cập vào dữ liệu hệ thống thuế để xử lý tiếp theo và thu thập dữ liệu thống kê.
Công ty khởi nghiệp của Nga đáng được xem xét riêng Synqera, tham gia phân tích trực tuyến dữ liệu lớn và phát triển nền tảng Simplate. Điểm mấu chốt là một lượng lớn dữ liệu được xử lý, dữ liệu về người tiêu dùng, hoạt động mua hàng, độ tuổi, tâm trạng và trạng thái tinh thần của họ được phân tích. Chuỗi cửa hàng mỹ phẩm lắp đặt cảm biến tại quầy thanh toán có thể nhận biết cảm xúc của khách hàng. Sau khi xác định tâm trạng, thông tin về người mua và thời điểm mua hàng sẽ được phân tích. Sau đó, người mua sẽ nhận được thông tin mục tiêu về giảm giá và khuyến mãi. Giải pháp này làm tăng lòng trung thành của người tiêu dùng và có thể tăng thu nhập của người bán.
Chúng ta cũng nên nói về một nghiên cứu điển hình về việc sử dụng công nghệ dữ liệu lớn trong một công ty Dunkin Donuts, tương tự như ví dụ trước, sử dụng phân tích trực tuyến để tăng lợi nhuận. Vì vậy, tại các cửa hàng bán lẻ, các màn hình hiển thị các ưu đãi đặc biệt, nội dung thay đổi từng phút. Cơ sở để thay thế trong văn bản là cả thời gian trong ngày và sản phẩm trong kho. Từ các khoản thu tiền mặt, công ty nhận được thông tin về mặt hàng nào có nhu cầu lớn nhất. Phương pháp này cho phép chúng tôi tăng thu nhập và vòng quay hàng tồn kho.

Như vậy, việc xử lý dữ liệu lớn có tác dụng tích cực trong việc giải quyết các vấn đề của doanh nghiệp. Tất nhiên, một yếu tố quan trọng là việc lựa chọn chiến lược và sử dụng những phát triển mới nhất trong lĩnh vực dữ liệu lớn.

Thông tin về công ty

Archos. Lĩnh vực hoạt động: sản xuất và kinh doanh công nghệ điện tử. Lãnh thổ: văn phòng kinh doanh được mở tại 9 quốc gia (Tây Ban Nha, Trung Quốc, Nga, Mỹ, Pháp, v.v.). Số lượng nhân viên chi nhánh: 5 (tại văn phòng đại diện Nga).

Dựa trên các tài liệu từ nghiên cứu & xu hướng

Dữ liệu lớn đã là chủ đề bàn tán của báo chí CNTT và tiếp thị trong vài năm nay. Và rõ ràng: công nghệ kỹ thuật số đã thâm nhập vào cuộc sống của con người hiện đại, “mọi thứ đều được viết ra”. Khối lượng dữ liệu về các khía cạnh khác nhau của cuộc sống ngày càng tăng, đồng thời khả năng lưu trữ thông tin ngày càng tăng.

Công nghệ lưu trữ thông tin toàn cầu

Nguồn: Hilbert và Lopez, ``Năng lực công nghệ của thế giới trong việc lưu trữ, truyền đạt và tính toán thông tin`` Science, 2011 Global.

Hầu hết các chuyên gia đều đồng ý rằng việc tăng tốc tăng trưởng dữ liệu là một thực tế khách quan. Mạng xã hội, thiết bị di động, dữ liệu từ thiết bị đo lường, thông tin doanh nghiệp - đây chỉ là một số loại nguồn có thể tạo ra khối lượng thông tin khổng lồ. Theo nghiên cứu IDCVũ trụ kỹ thuật số, xuất bản năm 2012, trong 8 năm tới, lượng dữ liệu trên thế giới sẽ đạt 40 ZB (zettabyte), tương đương với 5200 GB cho mỗi cư dân trên hành tinh.

Sự phát triển của việc thu thập thông tin số ở Mỹ

Nguồn: IDC

Phần lớn thông tin được tạo ra không phải bởi con người mà do robot tương tác với nhau và với các mạng dữ liệu khác, chẳng hạn như cảm biến và thiết bị thông minh. Với tốc độ tăng trưởng này, lượng dữ liệu trên thế giới, theo các nhà nghiên cứu, sẽ tăng gấp đôi mỗi năm. Số lượng ảo và máy chủ vật lý trên thế giới sẽ tăng gấp 10 lần nhờ việc mở rộng và tạo ra các trung tâm dữ liệu mới. Do đó, nhu cầu sử dụng và kiếm tiền từ dữ liệu này một cách hiệu quả ngày càng tăng. Vì việc sử dụng Big Data trong kinh doanh đòi hỏi sự đầu tư đáng kể nên bạn cần hiểu rõ tình hình. Và về bản chất, nó rất đơn giản: bạn có thể tăng hiệu quả kinh doanh bằng cách giảm chi phí và/hoặc tăng doanh số bán hàng.

Tại sao chúng ta cần Dữ liệu lớn?

Mô hình Dữ liệu lớn xác định ba loại vấn đề chính.

Lưu trữ và quản lý hàng trăm terabyte hoặc petabyte dữ liệu mà cơ sở dữ liệu quan hệ thông thường không thể sử dụng hiệu quả.
Tổ chức thông tin phi cấu trúc bao gồm văn bản, hình ảnh, video và các loại dữ liệu khác.
Phân tích Dữ liệu lớn, đặt ra câu hỏi về cách làm việc với thông tin phi cấu trúc, tạo báo cáo phân tích cũng như triển khai các mô hình dự đoán.

Thị trường dự án Dữ liệu lớn giao thoa với thị trường phân tích kinh doanh (BA), khối lượng toàn cầu, theo các chuyên gia, lên tới khoảng 100 tỷ USD vào năm 2012. Nó bao gồm các thành phần của công nghệ mạng, máy chủ, phần mềm và dịch vụ kỹ thuật.

Ngoài ra, việc sử dụng công nghệ Dữ liệu lớn có liên quan đến các giải pháp cấp độ đảm bảo thu nhập (RA) được thiết kế để tự động hóa các hoạt động của các công ty. Các hệ thống đảm bảo thu nhập hiện đại bao gồm các công cụ phát hiện sự không nhất quán và phân tích dữ liệu chuyên sâu, cho phép phát hiện kịp thời những tổn thất hoặc sai lệch thông tin có thể dẫn đến giảm kết quả tài chính. Trên nền này công ty Nga, khẳng định nhu cầu về công nghệ Dữ liệu lớn cho thị trường trong nước, lưu ý rằng các yếu tố kích thích sự phát triển Dữ liệu lớn ở Nga là sự tăng trưởng của dữ liệu, tốc độ ra quyết định quản lý và cải thiện chất lượng của chúng.

Điều gì ngăn cản bạn làm việc với Dữ liệu lớn

Ngày nay, chỉ 0,5% dữ liệu kỹ thuật số tích lũy được phân tích, mặc dù thực tế là có những vấn đề khách quan trong toàn ngành có thể được giải quyết bằng các giải pháp phân tích lớp Dữ liệu lớn. Các thị trường CNTT phát triển đã có kết quả có thể được sử dụng để đánh giá những kỳ vọng liên quan đến việc tích lũy và xử lý dữ liệu lớn.

Một trong những yếu tố chính làm chậm quá trình triển khai các dự án Big Data, ngoài chi phí cao, được coi là vấn đề lựa chọn dữ liệu đã xử lý: tức là xác định dữ liệu nào cần được truy xuất, lưu trữ và phân tích và dữ liệu nào nên bỏ qua.

Nhiều đại diện doanh nghiệp lưu ý rằng khó khăn trong việc triển khai các dự án Dữ liệu lớn gắn liền với việc thiếu chuyên gia - nhà tiếp thị và nhà phân tích. Tốc độ hoàn vốn đầu tư vào Dữ liệu lớn phụ thuộc trực tiếp vào chất lượng công việc của nhân viên tham gia phân tích chuyên sâu và mang tính dự đoán. Tiềm năng to lớn của dữ liệu hiện có trong một tổ chức thường không thể được chính các nhà tiếp thị sử dụng một cách hiệu quả do quy trình kinh doanh hoặc quy định nội bộ đã lỗi thời. Vì vậy, các dự án Big Data thường được doanh nghiệp đánh giá là khó không chỉ khó thực hiện mà còn khó đánh giá kết quả: giá trị của dữ liệu thu thập được. Bản chất cụ thể của việc làm việc với dữ liệu đòi hỏi các nhà tiếp thị và nhà phân tích phải chuyển sự chú ý của họ từ công nghệ và tạo báo cáo sang giải quyết các vấn đề kinh doanh cụ thể.

Do khối lượng lớn và tốc độ cao luồng dữ liệu, quá trình thu thập nó liên quan đến các thủ tục ETL trong thời gian thực. Để tham khảo:ETL - từTiếng AnhTrích xuất, Biến đổi, Trọng tải- nghĩa đen là “trích xuất, chuyển đổi, tải”) - một trong những quy trình chính trong quản lý kho dữ liệu, bao gồm: trích xuất dữ liệu từ các nguồn bên ngoài, chuyển đổi và làm sạch để đáp ứng nhu cầu ETL không chỉ nên được xem như một quá trình di chuyển dữ liệu từ ứng dụng này sang ứng dụng khác mà còn là một công cụ để chuẩn bị dữ liệu để phân tích.

Và khi đó vấn đề đảm bảo an toàn cho dữ liệu đến từ nguồn bên ngoài phải có giải pháp tương ứng với khối lượng thông tin thu thập được. Do các phương pháp phân tích Dữ liệu lớn chỉ phát triển theo sự tăng trưởng về khối lượng dữ liệu nên khả năng các nền tảng phân tích sử dụng các phương pháp chuẩn bị và tổng hợp dữ liệu mới đóng một vai trò lớn. Điều này gợi ý rằng, chẳng hạn, dữ liệu về người mua tiềm năng hoặc kho dữ liệu khổng lồ có lịch sử nhấp chuột trên các trang mua sắm trực tuyến có thể được quan tâm để giải quyết các vấn đề khác nhau.

Khó khăn không dừng lại

Bất chấp mọi khó khăn khi triển khai Dữ liệu lớn, doanh nghiệp vẫn có ý định tăng cường đầu tư vào lĩnh vực này. Theo dữ liệu của Gartner, năm 2013, 64% công ty lớn nhất thế giới đã đầu tư hoặc có kế hoạch đầu tư triển khai công nghệ Dữ liệu lớn cho hoạt động kinh doanh của họ, trong khi năm 2012 là 58%. Theo nghiên cứu của Gartner, các công ty dẫn đầu trong các ngành đầu tư vào Big Data là các công ty truyền thông, viễn thông, ngân hàng và dịch vụ. Kết quả thành công của việc triển khai Dữ liệu lớn đã được nhiều công ty lớn trong lĩnh vực này đạt được bán lẻ liên quan đến việc sử dụng dữ liệu thu được bằng các công cụ nhận dạng tần số vô tuyến, hệ thống hậu cần và tái định cư (từ tiếng Anh. bổ sung- tích lũy, bổ sung - R&T), cũng như từ các chương trình khách hàng thân thiết. Kinh nghiệm bán lẻ thành công khuyến khích các khu vực thị trường khác tìm ra những cách hiệu quả mới để kiếm tiền từ dữ liệu lớn nhằm biến phân tích của nó thành nguồn lực phục vụ phát triển kinh doanh. Nhờ đó, theo các chuyên gia, trong giai đoạn đến năm 2020, đầu tư vào quản lý và lưu trữ trên mỗi gigabyte dữ liệu sẽ giảm từ 2 USD xuống còn 0,2 USD, nhưng chi phí cho việc nghiên cứu và phân tích các đặc tính công nghệ của Big Data sẽ chỉ tăng 40%.

Chi phí trong các dự án đầu tư khác nhau trong lĩnh vực Dữ liệu lớn có tính chất khác nhau. Các khoản mục chi phí phụ thuộc vào loại sản phẩm được lựa chọn dựa trên các quyết định nhất định. Phần lớn nhất Theo các chuyên gia, chi phí trong các dự án đầu tư rơi vào các sản phẩm liên quan đến thu thập, cấu trúc dữ liệu, làm sạch và quản lý thông tin.

Nó được thực hiện như thế nào

Có nhiều sự kết hợp giữa phần mềm và phần cứng cho phép bạn tạo các giải pháp Dữ liệu lớn hiệu quả cho các lĩnh vực kinh doanh khác nhau: từ phương tiện truyền thông xã hội và ứng dụng di động, cho đến phân tích tiên đoán và trực quan hóa dữ liệu kinh doanh. Một lợi thế quan trọng của Big Data là khả năng tương thích của các công cụ mới với cơ sở dữ liệu được sử dụng rộng rãi trong kinh doanh, điều này đặc biệt quan trọng khi làm việc với các dự án liên ngành như tổ chức bán hàng đa kênh và hỗ trợ khách hàng.

Trình tự làm việc với Dữ liệu lớn bao gồm thu thập dữ liệu, cấu trúc thông tin nhận được bằng cách sử dụng báo cáo và trang tổng quan, tạo thông tin chi tiết và bối cảnh cũng như đưa ra các đề xuất hành động. Vì làm việc với Dữ liệu lớn đòi hỏi chi phí lớn cho việc thu thập dữ liệu, kết quả của việc xử lý dữ liệu này không được biết trước nên nhiệm vụ chính là hiểu rõ dữ liệu dùng để làm gì chứ không phải dữ liệu đó có sẵn bao nhiêu. Trong trường hợp này, việc thu thập dữ liệu trở thành một quá trình thu thập thông tin cần thiết để giải quyết các vấn đề cụ thể.

Ví dụ, các nhà cung cấp viễn thông tổng hợp số lượng lớn dữ liệu, bao gồm cả vị trí địa lý, được cập nhật liên tục. Thông tin này có thể đại diện lợi ích thương mại cho các đại lý quảng cáo, có thể sử dụng nó để hiển thị quảng cáo được nhắm mục tiêu và địa phương, cũng như cho các nhà bán lẻ và ngân hàng. Dữ liệu đó có thể đóng một vai trò quan trọng trong quyết định mở điểm bán hàngở một vị trí nhất định dựa trên dữ liệu về sự hiện diện của một luồng người được nhắm mục tiêu mạnh mẽ. Có một ví dụ về đo lường hiệu quả của quảng cáo trên các bảng quảng cáo ngoài trời ở London. Giờ đây, phạm vi tiếp cận của quảng cáo như vậy chỉ có thể được đo lường bằng cách đặt những người có thiết bị đặc biệtđếm người qua đường. So với kiểu đo lường hiệu quả quảng cáo này, nhà điều hành di động có nhiều cơ hội hơn - anh ta biết chính xác vị trí của người đăng ký, biết đặc điểm nhân khẩu học, giới tính, tuổi tác, tình trạng hôn nhân, v.v.

Dựa trên dữ liệu đó, trong tương lai có khả năng thay đổi nội dung của thông điệp quảng cáo, sử dụng sở thích của một người cụ thể đi ngang qua bảng quảng cáo. Nếu dữ liệu cho thấy một người đi ngang qua thường xuyên di chuyển thì anh ta có thể được xem quảng cáo về một khu nghỉ dưỡng. Ban tổ chức một trận đấu bóng đá chỉ có thể ước tính số lượng người hâm mộ khi họ đến xem trận đấu. Nhưng nếu họ có cơ hội yêu cầu từ nhà điều hành thông tin di động thông tin về vị trí của du khách một giờ, một ngày hoặc một tháng trước trận đấu, điều này sẽ giúp ban tổ chức có cơ hội lên kế hoạch địa điểm để quảng cáo các trận đấu tiếp theo.

Một ví dụ khác là cách các ngân hàng có thể sử dụng Dữ liệu lớn để ngăn chặn gian lận. Nếu khách hàng báo mất thẻ và khi thực hiện giao dịch mua hàng bằng thẻ đó, ngân hàng sẽ nhìn thấy vị trí thực tế của điện thoại của khách hàng tại khu vực mua hàng nơi giao dịch diễn ra, ngân hàng có thể kiểm tra thông tin trên ứng dụng của khách hàng. để xem liệu anh ta có đang cố lừa dối anh ta không. Hoặc trường hợp ngược lại, khi khách hàng mua hàng tại cửa hàng, ngân hàng thấy thẻ dùng để giao dịch và điện thoại của khách hàng ở cùng một chỗ thì ngân hàng có thể kết luận chủ thẻ đang sử dụng thẻ đó. Nhờ những lợi ích như vậy của Big Data, ranh giới của kho dữ liệu truyền thống ngày càng được mở rộng.

Để đưa ra quyết định triển khai thành công giải pháp Big Data, công ty cần tính toán trường hợp đầu tư và điều này gây khó khăn lớn do còn nhiều thành phần chưa rõ. Nghịch lý phân tích trường hợp tương tự Nó trở thành vấn đề dự đoán tương lai dựa trên quá khứ, dữ liệu về điều này thường bị thiếu. Trong trường hợp này yếu tố quan trọng là lập kế hoạch rõ ràng cho những hành động ban đầu của bạn:

Đầu tiên bạn cần xác định một nhiệm vụ cụ thể doanh nghiệp, đối với giải pháp sử dụng công nghệ Dữ liệu lớn, nhiệm vụ này sẽ trở thành cốt lõi để xác định tính đúng đắn của khái niệm đã chọn. Bạn cần tập trung vào việc thu thập dữ liệu liên quan đến nhiệm vụ cụ thể này và trong quá trình chứng minh khái niệm, bạn có thể sử dụng nhiều công cụ, quy trình và kỹ thuật quản lý khác nhau để cho phép bạn đưa ra quyết định sáng suốt hơn trong tương lai.
Thứ hai, khó có khả năng một công ty không có kỹ năng và kinh nghiệm phân tích dữ liệu có thể triển khai thành công dự án Dữ liệu lớn. Những kiến thức cần thiết luôn bắt nguồn từ kinh nghiệm phân tích trước đó, là yếu tố chính ảnh hưởng đến chất lượng làm việc với dữ liệu. Văn hóa dữ liệu rất quan trọng vì phân tích dữ liệu thường tiết lộ những sự thật phũ phàng về một doanh nghiệp và cần có các hoạt động thực hành dữ liệu để chấp nhận và làm việc với những sự thật đó.
Thứ ba, giá trị của công nghệ Big Data nằm ở việc cung cấp những hiểu biết sâu sắc, trong khi thị trường vẫn đang thiếu các nhà phân tích giỏi. Họ thường được gọi là những chuyên gia có hiểu biết sâu sắc về ý nghĩa thương mại của dữ liệu và biết cách sử dụng nó một cách chính xác. Phân tích dữ liệu là phương tiện để đạt được mục tiêu kinh doanh và để hiểu được giá trị của Dữ liệu lớn, bạn cần hành xử phù hợp và hiểu rõ hành động của mình. Trong trường hợp này, dữ liệu lớn sẽ cung cấp nhiều thông tin hữu ích về người tiêu dùng, dựa vào đó đưa ra những quyết định có ích cho doanh nghiệp.

Mặc dù thực tế là thị trường Dữ liệu lớn của Nga mới bắt đầu hình thành nhưng các dự án riêng lẻ trong lĩnh vực này đã được triển khai khá thành công. Một số trong số họ thành công trong lĩnh vực thu thập dữ liệu, chẳng hạn như các dự án cho Dịch vụ Thuế Liên bang và Ngân hàng Hệ thống Tín dụng Tinkoff, những dự án khác - về phân tích dữ liệu và ứng dụng thực tế các kết quả của nó: đây là dự án Synqera.

Ngân hàng Hệ thống Tín dụng Tinkoff đã triển khai dự án triển khai nền tảng EMC2 Greenplum, một công cụ để tính toán song song quy mô lớn. Trong lúc những năm gần đây Ngân hàng đã tăng yêu cầu về tốc độ xử lý thông tin tích lũy và phân tích dữ liệu theo thời gian thực do số lượng người sử dụng thẻ tín dụng tăng trưởng cao. Ngân hàng đã công bố kế hoạch mở rộng việc sử dụng công nghệ Dữ liệu lớn, đặc biệt là để xử lý dữ liệu phi cấu trúc và làm việc với thông tin doanh nghiệp thu được từ nhiều nguồn khác nhau.

Cơ quan Thuế Liên bang Nga hiện đang tạo một lớp phân tích cho kho dữ liệu liên bang. Trên cơ sở của nó một không gian thông tin và công nghệ để truy cập dữ liệu thuế để xử lý thống kê và phân tích. Trong quá trình thực hiện dự án, công việc đang được thực hiện để tập trung thông tin phân tích từ hơn 1.200 nguồn ở cấp địa phương của Dịch vụ Thuế Liên bang.

Một ví dụ thú vị khác về phân tích dữ liệu lớn trong thời gian thực là công ty khởi nghiệp Synqera của Nga, công ty đã phát triển nền tảng Simplate. Giải pháp dựa trên việc xử lý lượng lớn dữ liệu, chương trình phân tích thông tin về khách hàng, lịch sử mua hàng, độ tuổi, giới tính và thậm chí cả tâm trạng của họ. Tại quầy tính tiền của một chuỗi cửa hàng mỹ phẩm được lắp đặt những màn hình cảm ứng với các cảm biến nhận biết cảm xúc của khách hàng. Chương trình xác định tâm trạng của một người, phân tích thông tin về anh ta, xác định thời gian trong ngày và quét cơ sở dữ liệu giảm giá của cửa hàng, sau đó gửi tin nhắn có mục tiêu đến người mua về các chương trình khuyến mãi và ưu đãi đặc biệt. Giải pháp này làm tăng lòng trung thành của khách hàng và tăng doanh số bán hàng của nhà bán lẻ.

Nếu chúng ta nói về những trường hợp thành công ở nước ngoài, thì trải nghiệm sử dụng công nghệ Dữ liệu lớn ở công ty Dunkin`Donuts, công ty sử dụng dữ liệu thời gian thực để bán sản phẩm, rất thú vị về mặt này. Màn hình kỹ thuật số trong cửa hàng hiển thị các ưu đãi thay đổi từng phút, tùy thuộc vào thời gian trong ngày và tình trạng sẵn có của sản phẩm. Bằng cách sử dụng biên lai tiền mặt, công ty nhận được dữ liệu về ưu đãi nào nhận được phản hồi nhiều nhất từ khách hàng. Phương pháp xử lý dữ liệu này cho phép chúng tôi tăng lợi nhuận và doanh thu hàng hóa trong kho.

Như kinh nghiệm triển khai các dự án Dữ liệu lớn cho thấy, lĩnh vực này được thiết kế để giải quyết thành công các vấn đề kinh doanh hiện đại. Đồng thời, một yếu tố quan trọng để đạt được mục tiêu thương mại khi làm việc với dữ liệu lớn là lựa chọn chiến lược phù hợp, bao gồm các phân tích xác định yêu cầu của người tiêu dùng cũng như việc sử dụng công nghệ tiên tiến trong lĩnh vực Dữ liệu lớn.

Theo một cuộc khảo sát toàn cầu được thực hiện hàng năm bởi Econsultancy và Adobe kể từ năm 2012 giữa các nhà tiếp thị doanh nghiệp, “dữ liệu lớn” mô tả hành động của mọi người trên Internet có thể làm được rất nhiều điều. Họ có thể tối ưu hóa quy trình kinh doanh ngoại tuyến và giúp hiểu cách chủ sở hữu thiêt bị di động sử dụng chúng để tìm kiếm thông tin hoặc đơn giản là “tiếp thị tốt hơn”, tức là. hiệu quả hơn. Hơn nữa, chức năng thứ hai ngày càng trở nên phổ biến hơn từ năm này qua năm khác, như sau trong sơ đồ mà chúng tôi đã trình bày.

Các lĩnh vực công việc chính của các nhà tiếp thị Internet về quan hệ khách hàng

Nguồn: Econsultancy và Adobe, đã xuất bản– emarketer.com

Lưu ý rằng quốc tịch của người trả lời có tầm quan trọng rất lớn không có. Như một cuộc khảo sát do KPMG thực hiện năm 2013 cho thấy, tỷ lệ những người “lạc quan”, tức là. số người sử dụng Dữ liệu lớn khi xây dựng chiến lược kinh doanh là 56% và sự khác biệt giữa các vùng là rất nhỏ: từ 63% ở các nước Bắc Mỹ đến 50% ở EMEA.

Sử dụng Dữ liệu lớn ở các khu vực khác nhau trên thế giới

Nguồn: KPMG, đã xuất bản– emarketer.com

Trong khi đó, thái độ của các nhà tiếp thị đối với những “xu hướng thời trang” như vậy phần nào gợi nhớ đến một câu chuyện cười nổi tiếng:

Nói cho tôi biết, Vano, bạn có thích cà chua không?
- Tôi thích ăn, nhưng không thích thế này.

Mặc dù thực tế là các nhà tiếp thị “yêu thích” Dữ liệu lớn bằng lời nói và thậm chí dường như sử dụng nó, nhưng trên thực tế, “mọi thứ đều phức tạp” khi họ viết về tình cảm chân thành của mình trên mạng xã hội.

Theo một cuộc khảo sát do Circle Research thực hiện vào tháng 1 năm 2014 giữa các nhà tiếp thị châu Âu, 4 trong số 5 người được hỏi không sử dụng Dữ liệu lớn (mặc dù tất nhiên là họ “yêu thích nó”). Những lý do là khác nhau. Có rất ít người hoài nghi sâu sắc - 17% và con số này hoàn toàn giống với số lượng phản âm của họ, tức là. những người tự tin trả lời: “Có”. Còn lại thì do dự, nghi ngờ, “đầm lầy”. Họ tránh trả lời trực tiếp bằng những lý do hợp lý như “chưa, nhưng sẽ sớm thôi” hoặc “chúng tôi sẽ đợi cho đến khi những người khác bắt đầu”.

Việc sử dụng Dữ liệu lớn của các nhà tiếp thị, Châu Âu, tháng 1 năm 2014

Nguồn:dnx, được phát hành -emarketer.com

Điều gì làm họ bối rối? Vô nghĩa thuần túy. Một số (chính xác là một nửa trong số họ) đơn giản là không tin vào dữ liệu này. Những người khác (cũng có khá nhiều người trong số họ - 55%) cảm thấy khó khăn trong việc tương quan các tập hợp “dữ liệu” và “người dùng” với nhau. Một số người chỉ đơn giản là có (nói một cách chính xác về mặt chính trị) một mớ hỗn độn nội bộ của công ty: dữ liệu đang lang thang không được giám sát giữa các bộ phận tiếp thị và cấu trúc CNTT. Đối với những người khác, phần mềm không thể đáp ứng được lượng công việc. Và như thế. Vì tổng số cổ phần vượt quá 100% nên rõ ràng tình trạng “nhiều rào cản” không phải là hiếm.

Rào cản đối với việc sử dụng Dữ liệu lớn trong tiếp thị

Nguồn:dnx, được phát hành -emarketer.com

Vì vậy, chúng ta phải thừa nhận rằng tuy “Big Data” là một tiềm năng to lớn vẫn cần được tận dụng. Nhân tiện, đây có thể là lý do khiến Big Data đang mất dần hào quang” xu hướng thời trang“, bằng chứng là dữ liệu từ một cuộc khảo sát do công ty Econsultancy đã đề cập thực hiện.

Những xu hướng quan trọng nhất trong tiếp thị kỹ thuật số 2013-2014

Nguồn: Tư vấn và Adobe

Họ đang bị thay thế bởi một vị vua khác - tiếp thị nội dung. Bao lâu?

Không thể nói rằng Dữ liệu lớn là một loại hiện tượng mới về cơ bản. Nguồn dữ liệu lớn đã tồn tại trong nhiều năm: cơ sở dữ liệu về hoạt động mua hàng của khách hàng, lịch sử tín dụng, lối sống. Và trong nhiều năm, các nhà khoa học đã sử dụng dữ liệu này để giúp các công ty đánh giá rủi ro và dự đoán nhu cầu của khách hàng trong tương lai. Tuy nhiên, ngày nay tình hình đã thay đổi ở hai khía cạnh:

Các công cụ và kỹ thuật phức tạp hơn đã xuất hiện để phân tích và kết hợp các tập dữ liệu khác nhau;

Các công cụ phân tích này được bổ sung bởi một loạt các nguồn dữ liệu mới được thúc đẩy bởi việc số hóa hầu như tất cả các phương pháp đo lường và thu thập dữ liệu.

Phạm vi thông tin có sẵn vừa truyền cảm hứng vừa gây khó khăn cho các nhà nghiên cứu được nuôi dưỡng trong môi trường nghiên cứu có cấu trúc. Tâm lý của người tiêu dùng được nắm bắt bởi các trang web và tất cả các loại phương tiện truyền thông xã hội. Việc xem một quảng cáo được ghi lại không chỉ hộp set-top, mà còn với sự trợ giúp của thẻ kỹ thuật số và thiết bị di động giao tiếp với TV.

Dữ liệu hành vi (chẳng hạn như số lượng cuộc gọi, thói quen mua sắm và mua hàng) hiện có sẵn theo thời gian thực. Do đó, phần lớn những gì trước đây có thể thu được thông qua nghiên cứu giờ đây có thể được học bằng cách sử dụng các nguồn dữ liệu lớn. Và tất cả những tài sản thông tin này được tạo ra liên tục, bất kể quá trình nghiên cứu nào. Những thay đổi này khiến chúng tôi tự hỏi liệu dữ liệu lớn có thể thay thế nghiên cứu thị trường cổ điển hay không.

Đó không phải là về dữ liệu, mà là về các câu hỏi và câu trả lời.

Trước khi gióng lên hồi chuông báo tử cho nghiên cứu cổ điển, chúng ta phải nhắc nhở bản thân rằng không phải sự hiện diện của một số tài sản dữ liệu nhất định mới quan trọng mà là một thứ khác. Những gì chính xác? Khả năng trả lời câu hỏi của chúng tôi là vậy. Một điều buồn cười về thế giới dữ liệu lớn mới là kết quả thu được từ tài sản dữ liệu mới thậm chí còn dẫn đến nhiều câu hỏi hơn và những câu hỏi này thường được giải đáp tốt nhất bằng nghiên cứu truyền thống. Do đó, khi dữ liệu lớn phát triển, chúng ta thấy sự gia tăng song song về tính sẵn có và nhu cầu về “dữ liệu nhỏ” có thể cung cấp câu trả lời cho các câu hỏi từ thế giới dữ liệu lớn.

Hãy xem xét tình huống: một nhà quảng cáo lớn liên tục theo dõi lượng khách đến cửa hàng và doanh số bán hàng trong thời gian thực. Các phương pháp nghiên cứu hiện tại (trong đó chúng tôi khảo sát những người tham gia hội thảo về động lực mua hàng và hành vi tại điểm bán hàng của họ) giúp chúng tôi nhắm mục tiêu tốt hơn vào các phân khúc người mua cụ thể. Những kỹ thuật này có thể được mở rộng để bao gồm nhiều phạm vi rộng tài sản dữ liệu lớn đến mức dữ liệu lớn trở thành phương tiện quan sát và nghiên cứu thụ động - một phương pháp điều tra liên tục, có mục tiêu hẹp về những thay đổi hoặc sự kiện cần nghiên cứu. Đây là cách dữ liệu lớn có thể giải phóng nghiên cứu khỏi những thói quen không cần thiết. Nghiên cứu sơ cấp không còn phải tập trung vào những gì đang xảy ra nữa (dữ liệu lớn sẽ làm được điều đó). Thay vào đó, nghiên cứu sơ cấp có thể tập trung vào việc giải thích lý do tại sao chúng ta quan sát thấy những xu hướng cụ thể hoặc những sai lệch so với xu hướng. Nhà nghiên cứu sẽ có thể bớt suy nghĩ hơn về việc thu thập dữ liệu mà quan tâm nhiều hơn đến cách phân tích và sử dụng dữ liệu đó.

Đồng thời, chúng tôi thấy rằng dữ liệu lớn có thể giải quyết một trong những vấn đề lớn nhất của chúng tôi: vấn đề nghiên cứu quá dài. Việc kiểm tra các nghiên cứu đã chỉ ra rằng các công cụ nghiên cứu bị thổi phồng quá mức có tác động tiêu cực về chất lượng dữ liệu. Mặc dù nhiều chuyên gia đã thừa nhận vấn đề này từ lâu nhưng họ luôn trả lời bằng câu: “Nhưng tôi cần thông tin này cho quản lý cấp cao” và các cuộc phỏng vấn dài vẫn tiếp tục.

Trong thế giới dữ liệu lớn, nơi có thể thu được các số liệu định lượng thông qua quan sát thụ động, vấn đề này sẽ trở thành vấn đề tranh luận. Một lần nữa, chúng ta hãy nghĩ về tất cả những nghiên cứu liên quan đến việc tiêu dùng. Nếu dữ liệu lớn cung cấp cho chúng ta cái nhìn sâu sắc về mức tiêu dùng thông qua quan sát thụ động, thì nghiên cứu khảo sát sơ cấp không còn cần thu thập loại thông tin này nữa và cuối cùng chúng ta có thể củng cố tầm nhìn của mình về các cuộc khảo sát ngắn bằng một điều gì đó hơn là mơ tưởng.

Dữ liệu lớn cần sự giúp đỡ của bạn

Cuối cùng, “lớn” chỉ là một đặc điểm của dữ liệu lớn. Đặc tính “lớn” đề cập đến kích thước và quy mô của dữ liệu. Tất nhiên, đây là đặc điểm chính vì khối lượng dữ liệu này vượt xa mọi thứ chúng tôi đã làm việc trước đây. Nhưng các đặc điểm khác của những luồng dữ liệu mới này cũng rất quan trọng: chúng thường có định dạng kém, không có cấu trúc (hoặc, theo kịch bản hay nhất, có cấu trúc một phần) và đầy sự không chắc chắn. Một lĩnh vực quản lý dữ liệu mới nổi, được đặt tên phù hợp là phân tích thực thể, giải quyết vấn đề cắt giảm nhiễu trong dữ liệu lớn. Công việc của nó là phân tích các tập dữ liệu này và tìm ra có bao nhiêu quan sát đề cập đến cùng một người, quan sát nào là hiện tại và quan sát nào có thể sử dụng được.

Kiểu làm sạch dữ liệu này là cần thiết để loại bỏ dữ liệu nhiễu hoặc sai sót khi làm việc với các tài sản dữ liệu lớn hay nhỏ, nhưng vẫn chưa đủ. Chúng tôi cũng phải tạo bối cảnh xung quanh các tài sản dữ liệu lớn dựa trên kinh nghiệm, phân tích và kiến thức danh mục trước đây của chúng tôi. Trên thực tế, nhiều nhà phân tích chỉ ra khả năng quản lý sự không chắc chắn vốn có của dữ liệu lớn là nguồn lợi thế cạnh tranh, vì nó cho phép đưa ra các quyết định tốt hơn.

Đây là nơi nghiên cứu sơ cấp không chỉ được giải phóng bởi dữ liệu lớn mà còn góp phần tạo và phân tích nội dung trong dữ liệu lớn.

Một ví dụ điển hình cho điều này là việc áp dụng khuôn khổ tài sản thương hiệu mới về cơ bản khác biệt của chúng tôi vào mạng xã hội. (chúng ta đang nói về việc phát triển trongMillward Màu nâumột cách tiếp cận mới để đo lường tài sản thương hiệuCác Ý nghĩa Khác biệt Khung– “Mô hình khác biệt có ý nghĩa” -R & T ). Mô hình này đã được thử nghiệm về hành vi trong các thị trường cụ thể, được triển khai trên cơ sở tiêu chuẩn và dễ dàng áp dụng cho các lĩnh vực tiếp thị khác và hệ thông thông tinđể hỗ trợ quyết định. Nói cách khác, mô hình giá trị thương hiệu của chúng tôi, được thông báo bởi (mặc dù không chỉ dựa trên) nghiên cứu khảo sát, có tất cả các tính năng cần thiết để khắc phục tính chất không có cấu trúc, rời rạc và không chắc chắn của dữ liệu lớn.

Hãy xem xét dữ liệu tình cảm của người tiêu dùng được cung cấp bởi phương tiện truyền thông xã hội. Ở dạng thô, các đỉnh và đáy trong tâm lý người tiêu dùng thường có mối tương quan tối thiểu với các thước đo ngoại tuyến về giá trị thương hiệu và hành vi: đơn giản là có quá nhiều nhiễu trong dữ liệu. Nhưng chúng ta có thể giảm bớt tiếng ồn này bằng cách áp dụng các mô hình về ý nghĩa của người tiêu dùng, sự khác biệt hóa thương hiệu, động lực và tính năng đặc biệtđối với dữ liệu thô về cảm tính của người tiêu dùng là một cách để xử lý và tổng hợp dữ liệu truyền thông xã hội theo các khía cạnh này.

Sau khi dữ liệu được sắp xếp theo khuôn khổ của chúng tôi, các xu hướng được xác định thường phù hợp với giá trị thương hiệu ngoại tuyến và các thước đo hành vi. Về cơ bản, dữ liệu truyền thông xã hội không thể tự nói lên điều đó. Để sử dụng chúng cho mục đích này đòi hỏi kinh nghiệm và mô hình được xây dựng dựa trên thương hiệu của chúng tôi. Khi truyền thông xã hội cho chúng tôi thông tin độc đáo, được thể hiện bằng ngôn ngữ mà người tiêu dùng sử dụng để mô tả thương hiệu, chúng ta phải sử dụng ngôn ngữ này khi thực hiện nghiên cứu của mình để làm cho nghiên cứu cơ bản hiệu quả hơn nhiều.

Lợi ích của nghiên cứu miễn trừ

Điều này đưa chúng ta trở lại với việc dữ liệu lớn không thay thế nghiên cứu nhiều bằng việc giải phóng nó. Các nhà nghiên cứu sẽ không cần phải tạo ra một nghiên cứu mới cho từng trường hợp mới. Tài sản dữ liệu lớn ngày càng phát triển có thể được sử dụng cho các chủ đề nghiên cứu khác nhau, cho phép nghiên cứu chính tiếp theo tìm hiểu sâu hơn về chủ đề và lấp đầy những khoảng trống hiện có. Các nhà nghiên cứu sẽ không còn phải dựa vào các cuộc khảo sát bị thổi phồng quá mức. Thay vào đó, họ có thể sử dụng các cuộc khảo sát ngắn và tập trung vào các thông số quan trọng nhất, giúp cải thiện chất lượng dữ liệu.

Với sự giải phóng này, các nhà nghiên cứu sẽ có thể sử dụng các nguyên tắc và ý tưởng đã được thiết lập của họ để tăng thêm độ chính xác và ý nghĩa cho tài sản dữ liệu lớn, dẫn đến các lĩnh vực mới cho nghiên cứu khảo sát. Chu trình này sẽ dẫn đến sự hiểu biết sâu sắc hơn về một loạt các vấn đề chiến lược và cuối cùng là hướng tới mục tiêu luôn là mục tiêu chính của chúng ta - cung cấp thông tin và cải thiện chất lượng của các quyết định về thương hiệu và truyền thông.

Dữ liệu lớn– đây không chỉ là dữ liệu mà còn là công nghệ xử lý và sử dụng, phương pháp tìm kiếm thông tin cần thiếtở những khu vực rộng lớn. Vấn đề về dữ liệu lớn vẫn còn mở và quan trọng đối với bất kỳ hệ thống nào đã tích lũy nhiều loại thông tin trong nhiều thập kỷ.

Thuật ngữ này được liên kết với biểu thức "Khối lượng, tốc độ, đa dạng"– dựa trên các nguyên tắc làm việc với dữ liệu lớn. Nó trực tiếp lượng thông tin, tốc độ xử lý của nó Và thông tin đa dạng, được lưu trữ trong một mảng. Gần đây, một nguyên tắc nữa đã được thêm vào ba nguyên tắc cơ bản - Giá trị, nghĩa là giá trị của thông tin. Nghĩa là, nó phải hữu ích và cần thiết về mặt lý thuyết hoặc thực tiễn, điều này sẽ chứng minh được chi phí lưu trữ và xử lý nó.

Một ví dụ về nguồn dữ liệu lớn điển hình là mạng xã hội - mọi hồ sơ hoặc trang công cộngđại diện cho một giọt nhỏ trong một đại dương thông tin không có cấu trúc. Hơn nữa, bất kể lượng thông tin được lưu trữ trong một hồ sơ cụ thể là bao nhiêu, thì việc tương tác với mỗi người dùng phải nhanh nhất có thể.

Dữ liệu lớn liên tục được tích lũy ở hầu hết mọi lĩnh vực của đời sống con người. Điều này bao gồm bất kỳ ngành nào liên quan đến sự tương tác của con người hoặc máy tính. Điều này bao gồm phương tiện truyền thông xã hội, y học và khu vực ngân hàng, cũng như các hệ thống thiết bị nhận được nhiều kết quả từ các phép tính hàng ngày. Ví dụ, quan sát thiên văn, thông tin khí tượng và thông tin từ các thiết bị đo âm thanh Trái đất.

Thông tin từ tất cả các loại hệ thống theo dõi trong thời gian thực cũng được chuyển đến máy chủ của một công ty cụ thể. Cơ sở dữ liệu về truyền hình và đài phát thanh, cuộc gọi của các nhà khai thác di động - sự tương tác của mỗi cá nhân với họ là rất ít, nhưng tổng hợp lại, tất cả thông tin này sẽ trở thành dữ liệu lớn.

Công nghệ dữ liệu lớn đã trở thành một phần không thể thiếu trong nghiên cứu, phát triển và thương mại. Hơn nữa, chúng đang bắt đầu chiếm lĩnh lĩnh vực hành chính công - và ở khắp mọi nơi việc áp dụng ngày càng nhiều hệ thống hiệu quả lưu trữ và xử lý thông tin.

Thuật ngữ “dữ liệu lớn” lần đầu tiên xuất hiện trên báo chí vào năm 2008, khi biên tập viên tạp chí Nature Clifford Lynch đăng bài viết về chủ đề phát triển tương lai của khoa học sử dụng công nghệ. một lượng lớn dữ liệu. Cho đến năm 2009, thuật ngữ này chỉ được xem xét dưới góc độ phân tích khoa học, nhưng sau khi xuất bản thêm một số bài báo, báo chí bắt đầu sử dụng rộng rãi khái niệm Dữ liệu lớn - và tiếp tục sử dụng nó cho đến ngày nay.

Năm 2010, những nỗ lực đầu tiên nhằm giải quyết vấn đề ngày càng gia tăng về dữ liệu lớn bắt đầu xuất hiện. Đã được phát hành sản phẩm phần mềm, hành động của họ nhằm mục đích giảm thiểu rủi ro khi sử dụng lượng thông tin khổng lồ.

Đến năm 2011, các công ty lớn như Microsoft, Oracle, EMC và IBM bắt đầu quan tâm đến dữ liệu lớn - họ trở thành những công ty đầu tiên sử dụng sự phát triển của Dữ liệu lớn trong chiến lược phát triển của mình và khá thành công.

Các trường đại học đã bắt đầu nghiên cứu dữ liệu lớn như một môn học riêng biệt vào năm 2013 - giờ đây không chỉ khoa học dữ liệu mà còn cả kỹ thuật, cùng với các môn điện toán, đều giải quyết các vấn đề trong lĩnh vực này.

Các phương pháp phân tích và xử lý dữ liệu chính bao gồm:

Phương pháp lớp hoặc phân tích sâu (Data Mining).

Các phương pháp này khá nhiều nhưng đều có một điểm chung: các công cụ toán học được sử dụng gắn liền với các thành tựu từ lĩnh vực công nghệ thông tin.

Nguồn lực cộng đồng.

Kỹ thuật này cho phép bạn lấy dữ liệu đồng thời từ nhiều nguồn và số lượng nguồn sau thực tế là không giới hạn.

Thử nghiệm A/B.

Từ toàn bộ khối lượng dữ liệu, một bộ phần tử điều khiển được chọn, bộ này được so sánh xen kẽ với các bộ tương tự khác trong đó một trong các phần tử đã được thay đổi. Việc thực hiện các thử nghiệm như vậy giúp xác định những biến động của tham số nào có tác động đến ảnh hưởng lớn nhất tới quần thể đối chứng. Nhờ khối lượng Dữ liệu lớn, có thể thực hiện một số lượng lớn các lần lặp, trong đó mỗi lần lặp lại tiến gần hơn đến kết quả đáng tin cậy nhất.

Phân tích dự đoán.

Các chuyên gia trong lĩnh vực này cố gắng dự đoán và lập kế hoạch trước cách đối tượng bị kiểm soát sẽ hành xử để đưa ra quyết định có lợi nhất trong tình huống này.

Học máy (trí tuệ nhân tạo).

Nó dựa trên phân tích thông tin thực nghiệm và xây dựng các thuật toán tự học tiếp theo cho hệ thống.

Phân tích mạng.

Phương pháp phổ biến nhất để nghiên cứu mạng xã hội là sau khi thu thập dữ liệu thống kê, các nút được tạo trong lưới sẽ được phân tích, tức là sự tương tác giữa bởi người dùng cá nhân và cộng đồng của họ.

Vào năm 2017, khi dữ liệu lớn không còn là một thứ gì đó mới mẻ và chưa được biết đến, tầm quan trọng của nó không những không giảm mà còn tăng lên nhiều hơn. Các chuyên gia hiện đang đặt cược rằng phân tích dữ liệu lớn sẽ không chỉ có sẵn cho các tổ chức khổng lồ mà còn cho các doanh nghiệp vừa và nhỏ. Cách tiếp cận này được lên kế hoạch thực hiện bằng cách sử dụng các thành phần sau:

Lưu trữ đám mây.

Việc lưu trữ và xử lý dữ liệu trở nên nhanh hơn và tiết kiệm hơn - so với chi phí duy trì trung tâm dữ liệu của riêng bạn và khả năng mở rộngĐối với nhân viên, thuê đám mây dường như là một giải pháp thay thế rẻ hơn nhiều.

Sử dụng dữ liệu tối.

Cái gọi là “dữ liệu tối” là tất cả thông tin không được số hóa về công ty, không đóng vai trò quan trọng trong việc sử dụng trực tiếp nhưng có thể là lý do để chuyển sang Hình thức mới lưu trữ thông tin.

Trí tuệ nhân tạo và học sâu.

Công nghệ học tập thông minh của máy bắt chước cấu trúc và hoạt động bộ não con người, hoàn toàn phù hợp để xử lý lượng lớn thông tin thay đổi liên tục. Trong trường hợp này, máy sẽ làm mọi việc mà con người sẽ làm nhưng khả năng xảy ra lỗi sẽ giảm đáng kể.

Chuỗi khối

Công nghệ này giúp tăng tốc và đơn giản hóa nhiều giao dịch trực tuyến, bao gồm cả giao dịch quốc tế. Một ưu điểm khác của Blockchain là nó giảm chi phí giao dịch.

Tự phục vụ và giảm giá.

Vào năm 2017, dự kiến sẽ giới thiệu “nền tảng tự phục vụ” - đây trang web miễn phí, nơi đại diện của các doanh nghiệp vừa và nhỏ sẽ có thể đánh giá độc lập dữ liệu họ lưu trữ và hệ thống hóa dữ liệu đó.

Tất cả các chiến lược tiếp thị theo cách này hay cách khác đều dựa trên việc thao túng thông tin và phân tích dữ liệu hiện có. Đó là lý do tại sao việc sử dụng dữ liệu lớn có thể dự đoán và điều chỉnh phát triển hơn nữa các công ty.

Ví dụ: phiên đấu giá RTB được tạo trên cơ sở dữ liệu lớn cho phép bạn sử dụng quảng cáo hiệu quả hơn - một sản phẩm nhất định sẽ chỉ được hiển thị cho nhóm người dùng quan tâm đến việc mua sản phẩm đó.

Lợi ích của việc sử dụng công nghệ dữ liệu lớn trong tiếp thị và kinh doanh là gì?

Với sự giúp đỡ của họ, bạn có thể tạo các dự án mới nhanh hơn nhiều, có khả năng sẽ trở thành nhu cầu của người mua.
Chúng giúp tương quan các yêu cầu của khách hàng với dịch vụ hiện có hoặc được thiết kế và từ đó điều chỉnh chúng.
Phương pháp dữ liệu lớn giúp đánh giá mức độ hài lòng hiện tại của tất cả người dùng và từng người dùng cá nhân.
Sự trung thành của khách hàng tăng lên đạt được thông qua các phương pháp xử lý dữ liệu lớn.
Việc thu hút đối tượng mục tiêu trực tuyến của bạn trở nên dễ dàng hơn nhờ khả năng kiểm soát lượng dữ liệu khổng lồ.

Ví dụ, một trong những dịch vụ phổ biếnđể dự đoán mức độ phổ biến của một sản phẩm - Google.trends. Nó được sử dụng rộng rãi bởi các nhà tiếp thị và nhà phân tích, cho phép họ có được số liệu thống kê về việc sử dụng một sản phẩm nhất định trong quá khứ và dự báo cho mùa tiếp theo. Điều này cho phép các nhà quản lý công ty phân phối hiệu quả hơn ngân sách quảng cáo, xác định lĩnh vực nào là tốt nhất để đầu tư tiền vào.

Ví dụ về việc sử dụng Dữ liệu lớn

Tích cực triển khai các công nghệ Dữ liệu lớn trên thị trường và trong cuộc sống hiện đại bắt đầu ngay sau khi các công ty nổi tiếng thế giới có khách hàng ở hầu hết mọi nơi trên thế giới bắt đầu sử dụng chúng.

Đây là những gã khổng lồ xã hội như Facebook và Google, IBM, cũng như các tổ chức tài chính như Master Card, VISA và Bank of America.

Ví dụ: IBM áp dụng kỹ thuật dữ liệu lớn cho các giao dịch tiền tệ đang diễn ra. Với sự giúp đỡ của họ, 15% giao dịch gian lận đã được xác định, giúp tăng số tiền được bảo vệ lên 60%. Các vấn đề về cảnh báo sai của hệ thống cũng đã được giải quyết - số lượng của chúng đã giảm hơn một nửa.

Công ty VISA cũng sử dụng Dữ liệu lớn tương tự, theo dõi các nỗ lực gian lận để thực hiện một hoạt động cụ thể. Nhờ đó, họ tiết kiệm được hơn 2 tỷ USD hàng năm do rò rỉ.

Bộ Lao động Đức đã cắt giảm được 10 tỷ euro chi phí bằng cách đưa hệ thống dữ liệu lớn vào công việc cấp trợ cấp thất nghiệp. Đồng thời, có thông tin tiết lộ rằng 1/5 công dân nhận được những lợi ích này mà không cần lý do.

Dữ liệu lớn cũng không loại bỏ ngành công nghiệp game. Do đó, các nhà phát triển World of Tanks đã tiến hành nghiên cứu thông tin về tất cả người chơi và so sánh các chỉ số sẵn có về hoạt động của họ. Điều này giúp dự đoán lượng người chơi rời đi trong tương lai - dựa trên các giả định được đưa ra, đại diện của tổ chức có thể tương tác hiệu quả hơn với người dùng.

Các tổ chức đáng chú ý sử dụng dữ liệu lớn còn bao gồm HSBC, Nasdaq, Coca-Cola, Starbucks và AT&T.

Vấn đề lớn nhất với dữ liệu lớn là chi phí xử lý nó. Điều này có thể bao gồm cả chi phí về thiết bị đắt tiền và tiền lương cho các chuyên gia có trình độ, có khả năng phục vụ lượng thông tin khổng lồ. Rõ ràng, thiết bị sẽ phải được cập nhật thường xuyên để không bị mất chức năng tối thiểu khi khối lượng dữ liệu tăng lên.

Vấn đề thứ hai một lần nữa liên quan đến lượng thông tin lớn cần được xử lý. Ví dụ, nếu một nghiên cứu không tạo ra 2-3 mà là rất nhiều kết quả, thì rất khó để duy trì tính khách quan và chỉ chọn từ luồng dữ liệu chung những kết quả sẽ có tác động thực sự đến trạng thái của bất kỳ hiện tượng nào.

Vấn đề về quyền riêng tư của Dữ liệu lớn. Với việc hầu hết các dịch vụ dịch vụ khách hàng chuyển sang sử dụng dữ liệu trực tuyến, rất dễ trở thành mục tiêu tiếp theo của tội phạm mạng. Lưu trữ thậm chí đơn giản thông tin cá nhân không thực hiện bất kỳ giao dịch Internet nào có thể gây ra những hậu quả không mong muốn cho khách hàng lưu trữ đám mây.

Vấn đề mất thông tin. Các biện pháp phòng ngừa không yêu cầu bạn chỉ giới hạn bản thân trong việc sao lưu dữ liệu một lần đơn giản mà phải tạo ít nhất 2-3 bản sao lưu của bộ lưu trữ. Tuy nhiên, khi khối lượng tăng lên, những khó khăn về dự phòng cũng tăng lên - và các chuyên gia CNTT đang cố gắng tìm ra giải pháp tối ưu vấn đề này.

Thị trường công nghệ dữ liệu lớn ở Nga và thế giới

Tính đến năm 2014, 40% khối lượng thị trường dữ liệu lớn được tạo thành từ các dịch vụ. Doanh thu từ việc sử dụng Dữ liệu lớn trong Thiết bị máy tính. 22% còn lại đến từ phần mềm.

Theo thống kê, các sản phẩm hữu ích nhất trong phân khúc toàn cầu để giải quyết các vấn đề về Dữ liệu lớn là nền tảng phân tích trong bộ nhớ và NoSQL. Lần lượt 15 và 12% thị trường bị chiếm giữ bởi phần mềm phân tích tệp nhật ký và nền tảng Cột. Nhưng trên thực tế, Hadoop/MapReduce xử lý các vấn đề về dữ liệu lớn không hiệu quả lắm.

Kết quả triển khai công nghệ dữ liệu lớn:

nâng cao chất lượng dịch vụ khách hàng;
tối ưu hóa tích hợp chuỗi cung ứng;
tối ưu hóa kế hoạch tổ chức;
tăng tốc độ tương tác với khách hàng;
tăng hiệu quả xử lý yêu cầu của khách hàng;
giảm chi phí dịch vụ;
tối ưu hóa việc xử lý yêu cầu của khách hàng.

Sách hay nhất về Dữ liệu lớn

Thích hợp cho nghiên cứu ban đầu về công nghệ xử lý dữ liệu lớn - nó giới thiệu cho bạn một cách dễ dàng và rõ ràng. Làm rõ sự phong phú của thông tin ảnh hưởng như thế nào cuộc sống hàng ngày và tất cả các lĩnh vực của nó: khoa học, kinh doanh, y học, v.v. Chứa nhiều hình ảnh minh họa nên có thể nhận biết mà không cần nỗ lực nhiều.

"Giới thiệu về khai thác dữ liệu" của Pang-Ning Tan, Michael Steinbach và Vipin Kumar

Cũng hữu ích cho người mới bắt đầu là cuốn sách về Dữ liệu lớn, cuốn sách này giải thích cách làm việc với dữ liệu lớn theo nguyên tắc “từ đơn giản đến phức tạp”. Bao gồm nhiều điểm quan trọng ở giai đoạn đầu: chuẩn bị xử lý, trực quan hóa, OLAP, cũng như một số phương pháp phân tích và phân loại dữ liệu.

Hướng dẫn thực tế về cách sử dụng và làm việc với dữ liệu lớn bằng ngôn ngữ Lập trình Python. Thích hợp cho cả sinh viên kỹ thuật và các chuyên gia muốn đào sâu kiến thức.

"Hadoop dành cho người giả", Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop là một dự án được tạo riêng để làm việc với các chương trình phân tán tổ chức thực hiện các hành động trên hàng nghìn nút cùng một lúc. Làm quen với nó sẽ giúp bạn hiểu chi tiết hơn về ứng dụng thực tế của dữ liệu lớn.