Definirea datelor mari. Tehnici și metode de analiză aplicabile Big Data conform McKinsey. Beneficiile cercetării scutite

Ce s-a întâmplat Date mare(literalmente - Date mare)? Să ne uităm mai întâi la dicționarul Oxford:

Date- cantități, semne sau simboluri pe care le operează un calculator și care pot fi stocate și transmise sub formă de semnale electrice, înregistrate pe suporturi magnetice, optice sau mecanice.

Termen Date mare folosit pentru a descrie un set mare de date care crește exponențial în timp. Pentru a procesa o asemenea cantitate de date, nu te poți lipsi.

Beneficiile pe care le oferă Big Data:

  1. Colectarea datelor din diverse surse.
  2. Îmbunătățirea proceselor de afaceri prin analize în timp real.
  3. Stocarea unor cantități uriașe de date.
  4. Perspective. Big Data este mai perspicace informații ascunse folosind date structurate și semistructurate.
  5. Big Data vă ajută să reduceți riscurile și să luați decizii inteligente cu analiza de risc adecvată

Exemple de date mari

Bursa de Valori din New York generează zilnic 1 terabyte datele de tranzacționare pentru sesiunea trecută.

Rețelele de socializare: Statisticile arată că Facebook încarcă în fiecare zi 500 terabytes date noi sunt generate în principal din cauza încărcării de fotografii și videoclipuri pe serverele rețelelor sociale, mesaje, comentarii sub postări și așa mai departe.

Motor turboreactor generează 10 terabytes date la fiecare 30 de minute în timpul zborului. Deoarece mii de zboruri sunt efectuate în fiecare zi, volumul de date ajunge la petabytes.

Clasificarea Big Data

Formulare de date mari:

  • Structurat
  • Nestructurat
  • Semi-structurat

Forma structurata

Datele care pot fi stocate, accesate și prelucrate într-un formular cu format fix se numesc structurate. Dupa o perioada lunga de timp informatică au făcut pași mari în îmbunătățirea tehnicilor de lucru cu acest tip de date (unde formatul este cunoscut dinainte) și au învățat să beneficieze. Cu toate acestea, astăzi există deja probleme asociate cu creșterea volumelor la dimensiuni măsurate în intervalul mai multor zettabytes.

1 zettabyte este egal cu un miliard de terabytes

Privind aceste cifre, este ușor de observat veridicitatea termenului Big Data și dificultățile asociate cu procesarea și stocarea acestor date.

Datele stocate într-o bază de date relațională sunt structurate și arată ca, de exemplu, tabele ale angajaților companiei

Formă nestructurată

Datele cu structură necunoscută sunt clasificate ca nestructurate. Pe lângă dimensiunea sa mare, această formă se caracterizează printr-o serie de dificultăți în procesare și îndepărtare. Informatii utile. Exemplu tipic date nestructurate - o sursă eterogenă care conține o combinație de simple fișiere text, poze și videoclipuri. Astăzi, organizațiile au acces la cantități mari de date brute sau nestructurate, dar nu știu cum să extragă valoare din acestea.

Formă semistructurată

Această categorie conține ambele dintre cele descrise mai sus, astfel încât datele semi-structurate au o anumită formă, dar nu sunt definite de fapt de tabelele din bazele de date relaționale. Un exemplu al acestei categorii sunt datele personale prezentate într-un fișier XML.

Prashant RaoMasculin35 Seema R.Femeie41 Satish ManeMasculin29 Subrato RoyMasculin26 Ieremia J.Masculin35

Caracteristicile Big Data

Creșterea Big Data în timp:

Culoarea albastră reprezintă datele structurate (date Enterprise), care sunt stocate în baze de date relaționale. Alte culori indică date nestructurate din diverse surse (telefonie IP, dispozitive și senzori, rețele sociale și aplicații web).

Potrivit Gartner, Big Data variază în ceea ce privește volumul, rata de generare, varietate și variabilitate. Să aruncăm o privire mai atentă asupra acestor caracteristici.

  1. Volum. Termenul Big Data în sine este asociat cu dimensiunea mare. Mărimea datelor este o măsură critică în determinarea valorii potențiale de extras. În fiecare zi, 6 milioane de oameni folosesc media digitală, generând aproximativ 2,5 chintilioane de octeți de date. Prin urmare, volumul este prima caracteristică de luat în considerare.
  2. Diversitate- următorul aspect. Se referă la surse eterogene și la natura datelor, care pot fi fie structurate, fie nestructurate. Anterior, foile de calcul și bazele de date erau singurele surse de informații luate în considerare în majoritatea aplicațiilor. Astăzi, datele sub formă de e-mailuri, fotografii, videoclipuri, fișiere PDF și audio sunt, de asemenea, luate în considerare în aplicațiile analitice. Această varietate de date nestructurate duce la probleme în stocare, extragere și analiză: 27% dintre companii nu sunt sigure că lucrează cu datele potrivite.
  3. Viteza de generare. Cât de repede sunt acumulate și procesate datele pentru a îndeplini cerințele determină potențialul. Viteza determină viteza fluxului de informații din surse - procese de afaceri, jurnalele de aplicații, rețele sociale și site-uri media, senzori, dispozitive mobile. Fluxul de date este imens și continuu în timp.
  4. Variabilitate descrie variabilitatea datelor în anumite momente în timp, ceea ce complică procesarea și gestionarea. De exemplu, majoritatea datelor sunt de natură nestructurată.

Analiza Big Data: care sunt beneficiile big data

Promovarea bunurilor si serviciilor: Accesul la date din motoarele de căutare și site-uri precum Facebook și Twitter permite companiilor să dezvolte mai precis strategii de marketing.

Îmbunătățirea serviciului pentru clienți: Sistemele tradiționale de feedback ale clienților sunt înlocuite cu altele noi care utilizează Big Data și procesarea limbajului natural pentru a citi și evalua feedback-ul clienților.

Calculul riscului asociate cu lansarea unui nou produs sau serviciu.

Eficienta operationala: big data este structurat pentru a extrage rapid informațiile necesare și a produce rapid rezultate precise. Această combinație de Big Data și tehnologii de stocare ajută organizațiile să-și optimizeze munca cu informații rar utilizate.

Rubrica a profesorilor HSE despre mituri și cazuri de lucru cu big data

La marcaje

Profesorii de la Școala de New Media de la Universitatea Națională de Cercetare Școala Superioară de Economie Konstantin Romanov și Alexander Pyatigorsky, care este și directorul de transformare digitală la Beeline, au scris o coloană pentru site despre principalele concepții greșite despre big data - exemple de utilizare tehnologia și instrumentele. Autorii sugerează că publicația îi va ajuta pe managerii companiei să înțeleagă acest concept.

Mituri și concepții greșite despre Big Data

Big Data nu este marketing

Termenul de Big Data a devenit foarte la modă – este folosit în milioane de situații și cu sute de interpretări diferite, adesea fără legătură cu ceea ce este. Conceptele sunt adesea înlocuite în capul oamenilor, iar Big Data este confundată cu un produs de marketing. Mai mult, în unele companii Big Data face parte din departamentul de marketing. Rezultatul analizei big data poate fi într-adevăr o sursă pentru activitatea de marketing, dar nimic mai mult. Să vedem cum funcționează.

Dacă am identificat o listă cu cei care au cumpărat bunuri în valoare de peste trei mii de ruble în magazinul nostru în urmă cu două luni și apoi le-am trimis acestor utilizatori un fel de ofertă, atunci acesta este un marketing tipic. Obținem un model clar din datele structurale și îl folosim pentru a crește vânzările.

Totuși, dacă combinăm datele CRM cu informații de streaming de la, de exemplu, Instagram și le analizăm, găsim un model: o persoană care și-a redus activitatea miercuri seara și a cărei ultima fotografie arată pisoi ar trebui să facă o anumită ofertă. Acesta va fi deja Big Data. Am găsit un declanșator, l-am transmis agenților de marketing și l-au folosit în propriile lor scopuri.

De aici rezultă că tehnologia funcționează de obicei cu date nestructurate și, chiar dacă datele sunt structurate, sistemul continuă să caute în ele modele ascunse, ceea ce marketingul nu face.

Big Data nu este IT

A doua extremă a acestei povești: Big Data este adesea confundată cu IT. Acest lucru se datorează faptului că în companiile rusești, de regulă, specialiștii IT sunt motorii tuturor tehnologiilor, inclusiv big data. Prin urmare, dacă totul se întâmplă în acest departament, compania în ansamblu are impresia că acesta este un fel de activitate IT.

De fapt, aici există o diferență fundamentală: Big Data este o activitate care vizează obținerea unui produs anume, care nu are deloc legătură cu IT, deși tehnologia nu poate exista fără el.

Big Data nu este întotdeauna colectarea și analiza informațiilor

Există o altă concepție greșită despre Big Data. Toată lumea înțelege că această tehnologie implică cantități mari de date, dar ce fel de date înseamnă nu este întotdeauna clar. Oricine poate colecta și utiliza informații; acum acest lucru este posibil nu numai în filme despre, ci și în orice companie, chiar și foarte mică. Singura întrebare este ce anume să colecteze și cum să-l folosești în avantajul tău.

Dar trebuie înțeles că tehnologia Big Data nu va fi colectarea și analiza absolută a oricărei informații. De exemplu, dacă colectați date despre o anumită persoană pe rețelele sociale, acestea nu vor fi Big Data.

Ce este de fapt Big Data?

Big Data constă din trei elemente:

  • date;
  • analitice;
  • tehnologii.

Big Data nu este doar una dintre aceste componente, ci o combinație a tuturor celor trei elemente. Oamenii înlocuiesc adesea concepte: unii cred că Big Data sunt doar date, alții cred că este tehnologie. Dar, de fapt, indiferent de câte date colectați, nu veți putea face nimic cu ele fără tehnologia și analizele potrivite. Dacă există analize bune, dar nu există date, este și mai rău.

Dacă vorbim despre date, acestea nu sunt doar texte, ci și toate fotografiile postate pe Instagram și, în general, tot ceea ce poate fi analizat și folosit în diferite scopuri și sarcini. Cu alte cuvinte, Datele se referă la volume uriașe de date interne și externe ale diferitelor structuri.

De asemenea, este nevoie de analiză, deoarece sarcina Big Data este de a construi unele modele. Adică, analitica este identificarea dependențelor ascunse și căutarea de noi întrebări și răspunsuri bazate pe analiza întregului volum de date eterogene. Mai mult, Big Data ridică întrebări care nu pot fi derivate direct din aceste date.

Când vine vorba de imagini, faptul că postezi o fotografie cu tine purtând un tricou albastru nu înseamnă nimic. Dar dacă folosești fotografia pentru modelarea Big Data, se poate dovedi că chiar acum ar trebui să oferi un împrumut, deoarece în grupul tău social un astfel de comportament indică un anumit fenomen în acțiune. Prin urmare, datele „goale” fără analize, fără a identifica dependențe ascunse și neevidente nu sunt Big Data.

Deci avem date mari. Gama lor este uriașă. Avem și un analist. Dar cum ne putem asigura că din aceste date brute găsim o soluție specifică? Pentru a face acest lucru, avem nevoie de tehnologii care să ne permită nu doar să le stocăm (și acest lucru era imposibil înainte), ci și să le analizăm.

Mai simplu spus, dacă aveți o mulțime de date, veți avea nevoie de tehnologii, de exemplu, Hadoop, care fac posibilă stocarea tuturor informațiilor în forma sa originală pentru o analiză ulterioară. Acest tip de tehnologie a apărut în giganții internetului, deoarece ei au fost primii care s-au confruntat cu problema stocării unei cantități mari de date și a le analiza pentru monetizarea ulterioară.

Pe lângă instrumentele de stocare optimizată și ieftină a datelor, aveți nevoie de instrumente analitice, precum și de suplimente pentru platforma utilizată. De exemplu, un întreg ecosistem de proiecte și tehnologii conexe s-a format deja în jurul Hadoop. Aici sunt câțiva dintre ei:

  • Pig este un limbaj declarativ de analiză a datelor.
  • Hive - analiza datelor folosind un limbaj similar cu SQL.
  • Oozie - Flux de lucru Hadoop.
  • Hbase este o bază de date (non-relațională), similară cu Google Big Table.
  • Mahout - învățare automată.
  • Sqoop - transferul de date de la RSDB la Hadoop și invers.
  • Flume - transferul jurnalelor pe HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS și așa mai departe.

Toate aceste instrumente sunt disponibile pentru toată lumea gratuit, dar există și o serie de suplimente plătite.

În plus, este nevoie de specialiști: un dezvoltator și un analist (așa-numitul Data Scientist). De asemenea, este nevoie de un manager care să înțeleagă cum să aplice această analiză pentru a rezolva sarcina specifica, pentru că în sine este complet lipsită de sens dacă nu este integrată în procesele de afaceri.

Toți cei trei angajați trebuie să lucreze în echipă. Un manager care dă unui specialist în știința datelor sarcina de a găsi un anumit tipar trebuie să înțeleagă că nu va găsi întotdeauna exact ceea ce are nevoie. În acest caz, managerul ar trebui să asculte cu atenție ceea ce a găsit Data Scientist, deoarece adesea descoperirile sale se dovedesc a fi mai interesante și mai utile pentru afacere. Treaba ta este să aplici acest lucru unei afaceri și să faci un produs din ea.

În ciuda faptului că acum există multe tipuri diferite de mașini și tehnologii, decizia finală rămâne întotdeauna a persoanei. Pentru a face acest lucru, informațiile trebuie vizualizate cumva. Există destul de multe instrumente pentru asta.

Cel mai grăitor exemplu sunt rapoartele geoanalitice. Compania Beeline lucrează foarte mult cu guvernele din diferite orașe și regiuni. Foarte des, aceste organizații comandă rapoarte precum „Congestionarea traficului într-o anumită locație”.

Este clar că un astfel de raport ar trebui să ajungă la agențiile guvernamentale într-o formă simplă și de înțeles. Dacă le oferim un tabel uriaș și complet de neînțeles (adică informații în forma în care le primim), este puțin probabil să cumpere un astfel de raport - va fi complet inutil, nu vor obține din el cunoștințele că au vrut să primească.

Prin urmare, indiferent cât de buni sunt oamenii de știință de date și indiferent de tiparele pe care le găsesc, nu veți putea lucra cu aceste date fără instrumente bune de vizualizare.

Surse de date

Gama de date obținute este foarte mare, astfel încât poate fi împărțită în mai multe grupuri.

Date interne ale companiei

Deși 80% din datele colectate aparțin acestui grup, această sursă nu este întotdeauna utilizată. Adesea, acestea sunt date de care aparent nimeni nu are nevoie deloc, de exemplu, jurnalele. Dar dacă le privești dintr-un unghi diferit, uneori poți găsi în ele modele neașteptate.

Surse shareware

Acestea includ date de pe rețelele sociale, de pe internet și de tot ce poate fi accesat gratuit. De ce este shareware gratuit? Pe de o parte, aceste date sunt disponibile pentru toată lumea, dar dacă sunteți o companie mare, atunci primirea lor în dimensiunea unei baze de abonați de zeci de mii, sute sau milioane de clienți este deja nu este o sarcină ușoară. Prin urmare, pe piață există servicii cu plată pentru a furniza aceste date.

Surse plătite

Acestea includ companiile care vând date pentru bani. Acestea pot fi telecomunicații, DMP-uri, companii de internet, birouri de credit și agregatori. În Rusia, telecomunicațiile nu vând date. În primul rând, este neprofitabilă din punct de vedere economic și, în al doilea rând, este interzisă de lege. Prin urmare, vând rezultatele prelucrării lor, de exemplu, rapoarte geoanalitice.

Date deschise

Statul acceptă afacerile și le oferă posibilitatea de a folosi datele pe care le colectează. Acest lucru este dezvoltat într-o măsură mai mare în Occident, dar și Rusia în acest sens ține pasul cu vremurile. De exemplu, există un portal de date deschise al Guvernului de la Moscova, unde sunt publicate informații despre diferitele facilități de infrastructură urbană.

Pentru rezidenții și oaspeții Moscovei, datele sunt prezentate sub formă tabelară și cartografică, iar pentru dezvoltatori - în formate speciale, care pot fi citite de mașină. În timp ce proiectul funcționează modul limitat, dar se dezvoltă, ceea ce înseamnă că este și o sursă de date pe care o puteți folosi pentru sarcinile dvs. de afaceri.

Cercetare

După cum sa menționat deja, Sarcina mare Date - găsiți un model. Adesea, cercetările efectuate în întreaga lume pot deveni un punct de sprijin pentru găsirea unui anumit model - puteți obține un rezultat specific și puteți încerca să aplicați o logică similară pentru propriile dvs. scopuri.

Big Data este un domeniu în care nu se aplică toate legile matematicii. De exemplu, „1” + „1” nu este „2”, ci mult mai mult, deoarece prin amestecarea surselor de date efectul poate fi îmbunătățit semnificativ.

Exemple de produse

Mulți oameni sunt familiarizați cu serviciul de selecție de muzică Spotify. Este grozav pentru că nu întreabă utilizatorii care este starea lor de spirit astăzi, ci o calculează pe baza surselor disponibile. El știe întotdeauna de ce ai nevoie acum - jazz sau hard rock. Acesta este ce diferența cheie, care îi oferă ventilatoare și îl deosebește de alte servicii.

Astfel de produse sunt de obicei numite produse de simț - cele care își simt clienții.

Tehnologia Big Data este folosită și în industria auto. De exemplu, Tesla face asta - în lor Cel mai recent model exista pilot automat. Compania se străduiește să creeze o mașină care să ducă pasagerul acolo unde trebuie să meargă. Fără Big Data, acest lucru este imposibil, deoarece dacă folosim doar datele pe care le primim direct, așa cum o face o persoană, atunci mașina nu se va putea îmbunătăți.

Când conducem noi înșine o mașină, ne folosim neuronii pentru a lua decizii bazate pe mulți factori pe care nici măcar nu îi observăm. De exemplu, s-ar putea să nu realizăm de ce am decis să nu accelerăm imediat la semafor verde, dar apoi se dovedește că decizia a fost corectă - o mașină s-a repezit pe lângă tine cu o viteză vertiginoasă și ai evitat un accident.

De asemenea, puteți da un exemplu de utilizare a Big Data în sport. În 2002, directorul general al echipei de baseball Oakland Athletics, Billy Beane, a decis să spargă paradigma cum să recruteze sportivi - a selectat și a antrenat jucători „după cifre”.

De obicei, managerii se uită la succesul jucătorilor, dar în în acest caz, totul a fost diferit - pentru a obține rezultate, managerul a studiat ce combinații de sportivi avea nevoie, acordând atenție caracteristicilor individuale. Mai mult, a ales sportivi care în sine nu aveau prea mult potențial, dar echipa în ansamblu s-a dovedit a fi atât de reușită încât a câștigat douăzeci de meciuri la rând.

Regizorul Bennett Miller a realizat ulterior un film dedicat acestei povești - „The Man Who Changed Everything” cu Brad Pitt în rol principal.

Tehnologia Big Data este utilă și în sectorul financiar. Nicio persoană din lume nu poate determina în mod independent și precis dacă merită să acorde cuiva un împrumut. Pentru a lua o decizie se realizează scoring, adică se construiește un model probabilistic, din care se poate înțelege dacă această persoană va returna banii sau nu. În plus, scorul este aplicat în toate etapele: puteți, de exemplu, să calculați că la un anumit moment o persoană va înceta să plătească.

Big Data vă permite nu numai să faceți bani, ci și să-i economisiți. În special, această tehnologie a ajutat Ministerul German al Muncii să reducă costul indemnizațiilor de șomaj cu 10 miliarde de euro, deoarece după analizarea informațiilor a devenit clar că 20% din prestații au fost plătite nemeritat.

Tehnologiile sunt folosite și în medicină (acest lucru este tipic mai ales pentru Israel). Cu ajutorul Big Data, puteți efectua o analiză mult mai precisă decât poate face un medic cu treizeci de ani de experiență.

Orice medic, atunci când pune un diagnostic, se bazează doar pe cont propriu propria experiență. Când aparatul face acest lucru, vine din experiența a mii de astfel de medici și din toate cazurile existente. Se ia în considerare din ce material este făcută casa pacientului, în ce zonă locuiește victima, ce fel de fum există și așa mai departe. Adică ia în calcul o mulțime de factori de care medicii nu iau în considerare.

Un exemplu de utilizare a Big Data în asistența medicală este proiectul Project Artemis, care a fost implementat de Spitalul de Copii din Toronto. Acesta este un sistem informatic care colectează și analizează date despre bebeluși în timp real. Aparatul vă permite să analizați 1260 de indicatori de sănătate ai fiecărui copil în fiecare secundă. Acest proiect are ca scop prezicerea stării instabile a unui copil și prevenirea bolilor la copii.

Big data încep să fie folosit și în Rusia: de exemplu, Yandex are o divizie de big data. Compania, împreună cu AstraZeneca și Societatea Rusă de Oncologie Clinică RUSSCO, a lansat platforma RAY, destinată geneticienilor și biologilor moleculari. Proiectul ne permite să îmbunătățim metodele de diagnosticare a cancerului și de identificare a predispoziției la cancer. Platforma va fi lansată în decembrie 2016.

Rubrica a profesorilor HSE despre mituri și cazuri de lucru cu big data

La marcaje

Profesorii de la Școala de New Media de la Universitatea Națională de Cercetare Școala Superioară de Economie Konstantin Romanov și Alexander Pyatigorsky, care este și directorul de transformare digitală la Beeline, au scris o coloană pentru site despre principalele concepții greșite despre big data - exemple de utilizare tehnologia și instrumentele. Autorii sugerează că publicația îi va ajuta pe managerii companiei să înțeleagă acest concept.

Mituri și concepții greșite despre Big Data

Big Data nu este marketing

Termenul de Big Data a devenit foarte la modă – este folosit în milioane de situații și cu sute de interpretări diferite, adesea fără legătură cu ceea ce este. Conceptele sunt adesea înlocuite în capul oamenilor, iar Big Data este confundată cu un produs de marketing. Mai mult, în unele companii Big Data face parte din departamentul de marketing. Rezultatul analizei big data poate fi într-adevăr o sursă pentru activitatea de marketing, dar nimic mai mult. Să vedem cum funcționează.

Dacă am identificat o listă cu cei care au cumpărat bunuri în valoare de peste trei mii de ruble în magazinul nostru în urmă cu două luni și apoi le-am trimis acestor utilizatori un fel de ofertă, atunci acesta este un marketing tipic. Obținem un model clar din datele structurale și îl folosim pentru a crește vânzările.

Totuși, dacă combinăm datele CRM cu informații de streaming de la, de exemplu, Instagram și le analizăm, găsim un model: o persoană care și-a redus activitatea miercuri seara și a cărei ultima fotografie arată pisoi ar trebui să facă o anumită ofertă. Acesta va fi deja Big Data. Am găsit un declanșator, l-am transmis agenților de marketing și l-au folosit în propriile lor scopuri.

De aici rezultă că tehnologia funcționează de obicei cu date nestructurate și, chiar dacă datele sunt structurate, sistemul continuă să caute în ele modele ascunse, ceea ce marketingul nu face.

Big Data nu este IT

A doua extremă a acestei povești: Big Data este adesea confundată cu IT. Acest lucru se datorează faptului că în companiile rusești, de regulă, specialiștii IT sunt motorii tuturor tehnologiilor, inclusiv big data. Prin urmare, dacă totul se întâmplă în acest departament, compania în ansamblu are impresia că acesta este un fel de activitate IT.

De fapt, aici există o diferență fundamentală: Big Data este o activitate care vizează obținerea unui produs anume, care nu are deloc legătură cu IT, deși tehnologia nu poate exista fără el.

Big Data nu este întotdeauna colectarea și analiza informațiilor

Există o altă concepție greșită despre Big Data. Toată lumea înțelege că această tehnologie implică cantități mari de date, dar ce fel de date înseamnă nu este întotdeauna clar. Oricine poate colecta și utiliza informații; acum acest lucru este posibil nu numai în filme despre, ci și în orice companie, chiar și foarte mică. Singura întrebare este ce anume să colecteze și cum să-l folosești în avantajul tău.

Dar trebuie înțeles că tehnologia Big Data nu va fi colectarea și analiza absolută a oricărei informații. De exemplu, dacă colectați date despre o anumită persoană pe rețelele sociale, acestea nu vor fi Big Data.

Ce este de fapt Big Data?

Big Data constă din trei elemente:

  • date;
  • analitice;
  • tehnologii.

Big Data nu este doar una dintre aceste componente, ci o combinație a tuturor celor trei elemente. Oamenii înlocuiesc adesea concepte: unii cred că Big Data sunt doar date, alții cred că este tehnologie. Dar, de fapt, indiferent de câte date colectezi, nu poți face nimic fără ele tehnologiile necesareși analiștii. Dacă există analize bune, dar nu există date, este și mai rău.

Dacă vorbim despre date, acestea nu sunt doar texte, ci și toate fotografiile postate pe Instagram și, în general, tot ceea ce poate fi analizat și folosit în diferite scopuri și sarcini. Cu alte cuvinte, Datele se referă la volume uriașe de date interne și externe ale diferitelor structuri.

De asemenea, este nevoie de analiză, deoarece sarcina Big Data este de a construi unele modele. Adică, analitica este identificarea dependențelor ascunse și căutarea de noi întrebări și răspunsuri bazate pe analiza întregului volum de date eterogene. Mai mult, Big Data ridică întrebări care nu pot fi derivate direct din aceste date.

Când vine vorba de imagini, faptul că postezi o fotografie cu tine purtând un tricou albastru nu înseamnă nimic. Dar dacă folosești fotografia pentru modelarea Big Data, se poate dovedi că chiar acum ar trebui să oferi un împrumut, deoarece în grupul tău social un astfel de comportament indică un anumit fenomen în acțiune. Prin urmare, datele „goale” fără analize, fără a identifica dependențe ascunse și neevidente nu sunt Big Data.

Deci avem date mari. Gama lor este uriașă. Avem și un analist. Dar cum ne putem asigura că din aceste date brute găsim o soluție specifică? Pentru a face acest lucru, avem nevoie de tehnologii care să ne permită nu doar să le stocăm (și acest lucru era imposibil înainte), ci și să le analizăm.

Mai simplu spus, dacă aveți o mulțime de date, veți avea nevoie de tehnologii, de exemplu, Hadoop, care fac posibilă stocarea tuturor informațiilor în forma sa originală pentru o analiză ulterioară. Acest tip de tehnologie a apărut în giganții internetului, deoarece ei au fost primii care s-au confruntat cu problema stocării unei cantități mari de date și a le analiza pentru monetizarea ulterioară.

Pe lângă instrumentele de stocare optimizată și ieftină a datelor, aveți nevoie de instrumente analitice, precum și de suplimente pentru platforma utilizată. De exemplu, un întreg ecosistem de proiecte și tehnologii conexe s-a format deja în jurul Hadoop. Aici sunt câțiva dintre ei:

  • Pig este un limbaj declarativ de analiză a datelor.
  • Hive - analiza datelor folosind un limbaj similar cu SQL.
  • Oozie - Flux de lucru Hadoop.
  • Hbase este o bază de date (non-relațională), similară cu Google Big Table.
  • Mahout - învățare automată.
  • Sqoop - transferul de date de la RSDB la Hadoop și invers.
  • Flume - transferul jurnalelor pe HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS și așa mai departe.

Toate aceste instrumente sunt disponibile pentru toată lumea gratuit, dar există și o serie de suplimente plătite.

În plus, este nevoie de specialiști: un dezvoltator și un analist (așa-numitul Data Scientist). De asemenea, este nevoie de un manager care să înțeleagă cum să aplice această analiză pentru a rezolva o problemă specifică, deoarece în sine este complet lipsită de sens dacă nu este integrată în procesele de afaceri.

Toți cei trei angajați trebuie să lucreze în echipă. Un manager care dă unui specialist în știința datelor sarcina de a găsi un anumit tipar trebuie să înțeleagă că nu va găsi întotdeauna exact ceea ce are nevoie. În acest caz, managerul ar trebui să asculte cu atenție ceea ce a găsit Data Scientist, deoarece adesea descoperirile sale se dovedesc a fi mai interesante și mai utile pentru afacere. Treaba ta este să aplici acest lucru unei afaceri și să faci un produs din ea.

În ciuda faptului că acum există multe tipuri diferite de mașini și tehnologii, decizia finală rămâne întotdeauna a persoanei. Pentru a face acest lucru, informațiile trebuie vizualizate cumva. Există destul de multe instrumente pentru asta.

Cel mai grăitor exemplu sunt rapoartele geoanalitice. Compania Beeline lucrează foarte mult cu guvernele din diferite orașe și regiuni. Foarte des, aceste organizații comandă rapoarte precum „Congestionarea traficului într-o anumită locație”.

Este clar că un astfel de raport ar trebui să ajungă la agențiile guvernamentale într-o formă simplă și de înțeles. Dacă le oferim un tabel uriaș și complet de neînțeles (adică informații în forma în care le primim), este puțin probabil să cumpere un astfel de raport - va fi complet inutil, nu vor obține din el cunoștințele că au vrut să primească.

Prin urmare, indiferent cât de buni sunt oamenii de știință de date și indiferent de tiparele pe care le găsesc, nu veți putea lucra cu aceste date fără instrumente bune de vizualizare.

Surse de date

Gama de date obținute este foarte mare, astfel încât poate fi împărțită în mai multe grupuri.

Date interne ale companiei

Deși 80% din datele colectate aparțin acestui grup, această sursă nu este întotdeauna utilizată. Adesea, acestea sunt date de care aparent nimeni nu are nevoie deloc, de exemplu, jurnalele. Dar dacă le privești dintr-un unghi diferit, uneori poți găsi în ele modele neașteptate.

Surse shareware

Acestea includ date de pe rețelele sociale, de pe internet și de tot ce poate fi accesat gratuit. De ce este shareware gratuit? Pe de o parte, aceste date sunt disponibile pentru toată lumea, dar dacă sunteți o companie mare, atunci obținerea lor în dimensiunea unei baze de abonați de zeci de mii, sute sau milioane de clienți nu mai este o sarcină ușoară. Prin urmare, pe piață există servicii cu plată pentru a furniza aceste date.

Surse plătite

Acestea includ companiile care vând date pentru bani. Acestea pot fi telecomunicații, DMP-uri, companii de internet, birouri de credit și agregatori. În Rusia, telecomunicațiile nu vând date. În primul rând, este neprofitabilă din punct de vedere economic și, în al doilea rând, este interzisă de lege. Prin urmare, vând rezultatele prelucrării lor, de exemplu, rapoarte geoanalitice.

Date deschise

Statul acceptă afacerile și le oferă posibilitatea de a folosi datele pe care le colectează. Acest lucru este dezvoltat într-o măsură mai mare în Occident, dar și Rusia în acest sens ține pasul cu vremurile. De exemplu, există un portal de date deschise al Guvernului de la Moscova, unde sunt publicate informații despre diferitele facilități de infrastructură urbană.

Pentru rezidenții și oaspeții Moscovei, datele sunt prezentate sub formă tabelară și cartografică, iar pentru dezvoltatori - în formate speciale, care pot fi citite de mașină. În timp ce proiectul funcționează într-un mod limitat, acesta se dezvoltă, ceea ce înseamnă că este și o sursă de date pe care o puteți utiliza pentru sarcinile dvs. de afaceri.

Cercetare

După cum sa menționat deja, sarcina Big Data este să găsească un model. Adesea, cercetările efectuate în întreaga lume pot deveni un punct de sprijin pentru găsirea unui anumit model - puteți obține un rezultat specific și puteți încerca să aplicați o logică similară pentru propriile dvs. scopuri.

Big Data este un domeniu în care nu se aplică toate legile matematicii. De exemplu, „1” + „1” nu este „2”, ci mult mai mult, deoarece prin amestecarea surselor de date efectul poate fi îmbunătățit semnificativ.

Exemple de produse

Mulți oameni sunt familiarizați cu serviciul de selecție de muzică Spotify. Este grozav pentru că nu întreabă utilizatorii care este starea lor de spirit astăzi, ci o calculează pe baza surselor disponibile. El știe întotdeauna de ce ai nevoie acum - jazz sau hard rock. Aceasta este diferența cheie care îi oferă ventilatoare și îl deosebește de alte servicii.

Astfel de produse sunt de obicei numite produse de simț - cele care își simt clienții.

Tehnologia Big Data este folosită și în industria auto. De exemplu, Tesla face acest lucru - cel mai recent model al lor are pilot automat. Compania se străduiește să creeze o mașină care să ducă pasagerul acolo unde trebuie să meargă. Fără Big Data, acest lucru este imposibil, deoarece dacă folosim doar datele pe care le primim direct, așa cum o face o persoană, atunci mașina nu se va putea îmbunătăți.

Când conducem noi înșine o mașină, ne folosim neuronii pentru a lua decizii bazate pe mulți factori pe care nici măcar nu îi observăm. De exemplu, s-ar putea să nu realizăm de ce am decis să nu accelerăm imediat la semafor verde, dar apoi se dovedește că decizia a fost corectă - o mașină s-a repezit pe lângă tine cu o viteză vertiginoasă și ai evitat un accident.

De asemenea, puteți da un exemplu de utilizare a Big Data în sport. În 2002, directorul general al echipei de baseball Oakland Athletics, Billy Beane, a decis să spargă paradigma cum să recruteze sportivi - a selectat și a antrenat jucători „după cifre”.

De obicei, managerii se uită la succesul jucătorilor, dar în acest caz totul a fost diferit - pentru a obține rezultate, managerul a studiat ce combinații de sportivi avea nevoie, acordând atenție caracteristicilor individuale. Mai mult, a ales sportivi care în sine nu aveau prea mult potențial, dar echipa în ansamblu s-a dovedit a fi atât de reușită încât a câștigat douăzeci de meciuri la rând.

Regizorul Bennett Miller a realizat ulterior un film dedicat acestei povești - „The Man Who Changed Everything” cu Brad Pitt în rol principal.

Tehnologia Big Data este utilă și în sectorul financiar. Nicio persoană din lume nu poate determina în mod independent și precis dacă merită să acorde cuiva un împrumut. Pentru a lua o decizie se realizează scoring, adică se construiește un model probabilistic, din care se poate înțelege dacă această persoană va returna banii sau nu. În plus, scorul este aplicat în toate etapele: puteți, de exemplu, să calculați că la un anumit moment o persoană va înceta să plătească.

Big Data vă permite nu numai să faceți bani, ci și să-i economisiți. În special, această tehnologie a ajutat Ministerul German al Muncii să reducă costul indemnizațiilor de șomaj cu 10 miliarde de euro, deoarece după analizarea informațiilor a devenit clar că 20% din prestații au fost plătite nemeritat.

Tehnologiile sunt folosite și în medicină (acest lucru este tipic mai ales pentru Israel). Cu ajutorul Big Data, puteți efectua o analiză mult mai precisă decât poate face un medic cu treizeci de ani de experiență.

Orice medic, atunci când pune un diagnostic, se bazează doar pe propria experiență. Când aparatul face acest lucru, vine din experiența a mii de astfel de medici și din toate cazurile existente. Se ia în considerare din ce material este făcută casa pacientului, în ce zonă locuiește victima, ce fel de fum există și așa mai departe. Adică ia în calcul o mulțime de factori de care medicii nu iau în considerare.

Un exemplu de utilizare a Big Data în asistența medicală este proiectul Project Artemis, care a fost implementat de Spitalul de Copii din Toronto. Acesta este un sistem informatic care colectează și analizează date despre bebeluși în timp real. Aparatul vă permite să analizați 1260 de indicatori de sănătate ai fiecărui copil în fiecare secundă. Acest proiect are ca scop prezicerea stării instabile a unui copil și prevenirea bolilor la copii.

Big data încep să fie folosit și în Rusia: de exemplu, Yandex are o divizie de big data. Compania, împreună cu AstraZeneca și Societatea Rusă de Oncologie Clinică RUSSCO, a lansat platforma RAY, destinată geneticienilor și biologilor moleculari. Proiectul ne permite să îmbunătățim metodele de diagnosticare a cancerului și de identificare a predispoziției la cancer. Platforma va fi lansată în decembrie 2016.

S-a prezis că volumul total global de date create și replicate în 2011 ar putea fi de aproximativ 1,8 zettabytes (1,8 trilioane de gigaocteți) - de aproximativ 9 ori mai mult decât ceea ce a fost creat în 2006.

Definiție mai complexă

Totuși` Date mare` implică mai mult decât doar analiza unor cantități uriașe de informații. Problema nu este că organizațiile creează volume uriașe de date, ci că majoritatea se află într-un format care nu se potrivește bine cu formatul tradițional al bazei de date structurate - jurnalele web, videoclipurile, documentele text, codul mașinii sau, de exemplu, date geospațiale. . Toate acestea sunt stocate în multe depozite diferite, uneori chiar și în afara organizației. Ca urmare, corporațiile pot avea acces la o cantitate imensă de date și să nu aibă instrumentele necesare pentru a stabili relații între aceste date și a trage concluzii semnificative din acestea. Adăugați la aceasta faptul că datele sunt acum actualizate din ce în ce mai frecvent și obțineți o situație în care metode tradiționale analiza informațiilor nu poate ține pasul cu volumele uriașe de date actualizate constant, ceea ce deschide calea spre tehnologie Date mare.

Cea mai bună definiție

În esență conceptul Date mare presupune lucrul cu informații de un volum uriaș și compoziție diversă, de foarte multe ori actualizate și localizate în surse diferite pentru a crește eficiența operațională, a crea noi produse și a crește competitivitatea. Firma de consultanta Forrester ofera o scurta formulare: ` Date mare reunește tehnici și tehnologii care extrag sens din date la limitele extreme ale caracterului practic.

Cât de mare este diferența dintre analiza de afaceri și big data?

Craig Baty Director executiv Director de marketing și tehnologie al Fujitsu Australia, a subliniat că analiza de afaceri este un proces descriptiv de analiză a rezultatelor obținute de o afacere într-o anumită perioadă de timp, în timp ce viteza de procesare Date mare vă permite să faceți analiza predictivă, capabilă să ofere recomandări de afaceri pentru viitor. Tehnologiile de date mari permit, de asemenea, analiza mai multe tipuri date comparativ cu instrumentele de business intelligence, ceea ce face posibilă concentrarea nu numai asupra depozitelor structurate.

Matt Slocum de la O'Reilly Radar crede că, deși Date mareși business analytics au același scop (găsirea răspunsurilor la o întrebare), diferă între ele în trei aspecte.

  • Big data este conceput pentru a gestiona volume mai mari de informații decât analizele de afaceri și acest lucru se potrivește cu siguranță definiției tradiționale a datelor mari.
  • Big Data este conceput pentru a gestiona informații mai rapid, care se schimbă mai rapid, ceea ce înseamnă explorare profundă și interactivitate. În unele cazuri, rezultatele sunt generate mai repede decât se încarcă pagina web.
  • Big Data este conceput pentru a procesa date nestructurate pe care abia începem să le explorăm cum să le folosim odată ce le-am putut colecta și stoca și avem nevoie de algoritmi și capacități de conversație pentru a facilita găsirea tendințelor conținute în aceste seturi de date.

Conform cărții albe „Oracle Information Architecture: An Architect’s Guide to Big Data” publicată de Oracle, atunci când lucrăm cu date mari, abordăm informațiile diferit decât atunci când efectuăm analize de afaceri.

Lucrul cu big data nu este ca procesul obișnuit de business intelligence, unde simpla adunare a valorilor cunoscute produce un rezultat: de exemplu, adunarea facturilor plătite devine vânzări pentru anul. Când se lucrează cu date mari, rezultatul este obținut în procesul de curățare a acestora prin modelare secvențială: în primul rând, se emite o ipoteză, o ipoteză statistică, vizuală sau model semantic, pe baza acesteia se verifică corectitudinea ipotezei propuse și apoi se propune următoarea. Acest proces necesită ca cercetătorul fie să interpreteze semnificațiile vizuale, fie să construiască interogări interactive bazate pe cunoștințe, fie să dezvolte algoritmi adaptativi de „învățare automată” care pot produce rezultatul dorit. Mai mult, durata de viață a unui astfel de algoritm poate fi destul de scurtă.

Tehnici de analiză a datelor mari

Există multe metode diferite de analiză a seturilor de date, care se bazează pe instrumente împrumutate din statistică și informatică (de exemplu, învățarea automată). Lista nu se pretinde a fi completă, dar reflectă cele mai populare abordări din diverse industrii. Trebuie înțeles că cercetătorii continuă să lucreze la crearea de noi tehnici și îmbunătățirea celor existente. În plus, unele dintre tehnicile enumerate nu sunt neapărat aplicabile exclusiv datelor mari și pot fi utilizate cu succes pentru matrice mai mici (de exemplu, testarea A/B, analiza regresiei). Desigur, cu cât matricea este mai voluminoasă și mai diversificată, cu atât pot fi obținute date mai precise și mai relevante ca rezultat.

Testare A/B. O tehnică în care o probă de control este comparată alternativ cu altele. Astfel, este posibil să se identifice combinația optimă de indicatori pentru a obține, de exemplu, cel mai bun răspuns al consumatorului la o ofertă de marketing. Date mare vă permit să efectuați un număr mare de iterații și să obțineți astfel un rezultat fiabil din punct de vedere statistic.

Învățarea regulilor de asociere. Un set de tehnici de identificare a relațiilor, de ex. regulile de asociere, între variabilele din seturi mari de date. Folosit in extragerea datelor.

Clasificare. Un set de tehnici care vă permit să preziceți comportamentul consumatorului într-un anumit segment de piață (decizii de cumpărare, abandon, volumul de consum etc.). Folosit in extragerea datelor.

Analiza grupului. O metodă statistică de clasificare a obiectelor în grupuri prin identificarea caracteristicilor comune care nu sunt cunoscute în prealabil. Folosit in extragerea datelor.

Crowdsourcing. Metodologie de colectare a datelor dintr-un număr mare de surse.

Fuziunea și integrarea datelor. Un set de tehnici care vă permit să analizați comentariile utilizatorilor rețelelor sociale și să le comparați cu rezultatele vânzărilor în timp real.

Exploatarea datelor. Un set de tehnici care vă permit să determinați categoriile de consumatori cele mai sensibile la produsul sau serviciul promovat, să identificați caracteristicile celor mai de succes angajați și să preziceți modelul comportamental al consumatorilor.

Învățare prin ansamblu. Această metodă utilizează multe modele predictive, îmbunătățind astfel calitatea prognozelor făcute.

Algoritmi genetici. În această tehnică, soluțiile posibile sunt reprezentate sub formă de „cromozomi”, care pot fi combinați și mutați. La fel ca în procesul de evoluție naturală, cel mai apt individ supraviețuiește.

Învățare automată. O direcție în informatică (în mod istoric i s-a dat numele de „inteligență artificială”), care urmărește scopul de a crea algoritmi de auto-învățare bazați pe analiza datelor empirice.

Procesarea limbajului natural (NLP). Un set de tehnici de recunoaștere a limbajului uman natural împrumutat din informatică și lingvistică.

Analiza rețelei. Un set de tehnici pentru analiza conexiunilor dintre nodurile din rețele. În legătură cu rețelele sociale, vă permite să analizați relațiile dintre utilizatorii individuali, companii, comunități etc.

Optimizare. Un set de metode numerice pentru reproiectare sisteme complexeși procese pentru a îmbunătăți unul sau mai mulți indicatori. Ajută la luarea deciziilor strategice, de exemplu, componența liniei de produse care urmează să fie lansată pe piață, efectuarea analizei investiționale etc.

Recunoasterea formelor. Un set de tehnici cu elemente de auto-învățare pentru prezicerea modelului comportamental al consumatorilor.

Modelare predictivă. Un set de tehnici care vă permit să creați model matematic un scenariu probabil predeterminat pentru desfăşurarea evenimentelor. De exemplu, analiza bazei de date a sistemului CRM pentru posibilele condiții care vor determina abonații să schimbe furnizorii.

Regresia. Un set de metode statistice pentru identificarea unui model între modificările unei variabile dependente și una sau mai multe variabile independente. Adesea folosit pentru prognoză și previziuni. Folosit în data mining.

Analiza sentimentelor. Tehnicile de evaluare a sentimentului consumatorilor se bazează pe tehnologii de recunoaștere a limbajului natural. Acestea vă permit să izolați mesajele legate de subiectul de interes (de exemplu, un produs de consum) din fluxul de informații generale. Apoi, evaluați polaritatea judecății (pozitivă sau negativă), gradul de emoționalitate etc.

Procesare a semnalului. Un set de tehnici împrumutate din ingineria radio care urmărește recunoașterea unui semnal pe un fundal de zgomot și analiza ulterioară a acestuia.

Analiza spațială. Un set de metode de analiză a datelor spațiale, împrumutate parțial din statistici - topologia terenului, coordonatele geografice, geometria obiectului. Sursă Date mareîn acest caz, geos acționează adesea Sisteme de informare(GIS).

Statistici. Știința colectării, organizării și interpretării datelor, inclusiv elaborarea de chestionare și efectuarea de experimente. metode statistice sunt adesea folosite pentru a face judecăți de valoare cu privire la relațiile dintre anumite evenimente.

Învățare supravegheată. Un set de tehnici bazate pe tehnologii de învățare automată care vă permit să identificați relații funcționale în seturile de date analizate.

Simulare. Modelarea comportamentului sistemelor complexe este adesea folosită pentru a prognoza, a prognoza și a lucra prin diverse scenarii în planificare.

Analiza serii temporale. Un set de tehnici derivate din statistici și procesare digitală a semnalului pentru analiza secvențelor de date care se repetă în timp. Unele aplicații evidente urmăresc piața de valori sau bolile pacienților.

Învățare nesupravegheată. Un set de tehnici bazate pe tehnologii de învățare automată care vă permit să identificați relații funcționale ascunse în seturile de date analizate. Are aspecte comune Cu Analiza grupului.

Vizualizarea. Metode de prezentare grafică a rezultatelor analizei big data sub formă de diagrame sau imagini animate pentru a simplifica interpretarea și a face rezultatele mai ușor de înțeles.


Reprezentarea vizuală a rezultatelor analizei big data este de o importanță fundamentală pentru interpretarea acestora. Nu este un secret pentru nimeni faptul că percepția umană este limitată, iar oamenii de știință continuă să efectueze cercetări în domeniul îmbunătățirii metode moderne Prezentarea datelor sub formă de imagini, diagrame sau animații.

Instrumente analitice

Începând cu 2011, unele dintre abordările enumerate în subsecțiunea anterioară sau o anumită combinație a acestora fac posibilă implementarea în practică a motoarelor analitice pentru lucrul cu big data. Printre sistemele deschise de analiză Big Data, gratuite sau relativ ieftine, vă putem recomanda:

  • Revolution Analytics (bazat pe limbajul R pentru statistici matematice).

Un interes deosebit în această listă este Apache Hadoop - software cu sursa deschisa, care a fost testat ca analizor de date de majoritatea instrumentelor de urmărire a stocurilor în ultimii cinci ani. Imediat ce Yahoo a deschis codul Hadoop pentru comunitatea open source, o întreagă mișcare de creare a produselor bazate pe Hadoop a apărut imediat în industria IT. Aproape toate instrumentele moderne de analiză Date mare furniza instrumente de integrare Hadoop. Dezvoltatorii lor sunt atât startup-uri, cât și companii globale bine-cunoscute.

Piețe pentru soluții de management al datelor mari

Platformele Big Data (BDP, Big Data Platform) ca mijloc de combatere a hordingului digital

Abilitatea de a analiza Date mare, numită colocvial Big Data, este percepută ca un beneficiu și fără ambiguitate. Dar este chiar așa? La ce ar putea duce acumularea nestăpânită de date? Cel mai probabil la ceea ce psihologii domestici, în relație cu oamenii, numesc tezaurizare patologică, silogomanie sau, la figurat, „sindromul Plyushkin”. În engleză, pasiunea vicioasă de a colecta totul se numește hording (de la tezaurul englezesc - „stoc”). Conform clasificării bolilor mintale, hordingul este clasificat ca o tulburare mintală. În era digitală, tezaurizarea digitală se adaugă la acumularea tradițională de materiale; poate afecta atât indivizi, cât și întreprinderi și organizații întregi ().

Piața mondială și rusă

Big data Landscape - Furnizori principali

Interes pentru instrumentele de colectare, prelucrare, management și analiză Date mare Aproape toate companiile IT de top au demonstrat acest lucru, ceea ce este destul de firesc. În primul rând, ei întâlnesc direct acest fenomen în propria afacere și, în al doilea rând, Date mare deschide oportunități excelente pentru dezvoltarea de noi nișe de piață și atragerea de noi clienți.

Pe piață au apărut multe startup-uri care fac afaceri prin prelucrarea unor cantități uriașe de date. Unele dintre ele folosesc infrastructură cloud gata făcută, furnizată de jucători mari precum Amazon.

Teoria și practica Big Data în industrii

Istoria dezvoltării

2017

Prognoza TmaxSoft: următorul „val” de Big Data va necesita modernizarea DBMS

Companiile știu că marile cantități de date pe care le acumulează conțin informații importante despre afacerea lor și despre clienți. Dacă o companie poate aplica cu succes aceste informații, va avea un avantaj semnificativ față de concurenții săi și va putea oferi produse și servicii mai bune decât ale lor. Cu toate acestea, multe organizații încă nu reușesc să utilizeze eficient Date mare deoarece infrastructura lor IT moștenită nu este în măsură să ofere capacitatea de stocare, comunicațiile de date, utilitățile și aplicațiile necesare pentru a procesa și analiza cantități mari de date nestructurate pentru a le extrage din acestea. informatie pretioasa, indicat în TmaxSoft.

În plus, puterea crescută de procesare necesară pentru a analiza volume tot mai mari de date poate necesita investiții semnificative în infrastructura IT moștenită a unei organizații, precum și resurse suplimentare de întreținere care ar putea fi utilizate pentru a dezvolta noi aplicații și servicii.

Pe 5 februarie 2015, Casa Albă a lansat un raport care discuta despre modul în care companiile folosesc „ Date mare» de a percepe prețuri diferite către diferiți clienți, o practică cunoscută sub numele de „discriminare a prețurilor” sau „prețuri personalizate”. Raportul descrie beneficiile big data atât pentru vânzători, cât și pentru cumpărători, iar autorii săi concluzionează că multe dintre problemele ridicate de big data și prețurile diferențiate pot fi abordate prin legile și reglementările existente antidiscriminare care protejează drepturile consumatorilor.

Raportul notează că, în acest moment, există doar dovezi anecdotice ale modului în care companiile folosesc datele mari în contextul marketingului personalizat și al prețurilor diferențiate. Aceste informații arată că vânzătorii folosesc metode de stabilire a prețurilor care pot fi împărțite în trei categorii:

  • studiul curbei cererii;
  • Direcție și prețuri diferențiate pe baza datelor demografice; Și
  • marketing comportamental țintit (direcționare comportamentală) și prețuri individualizate.

Studierea curbei cererii: Pentru a determina cererea și a studia comportamentul consumatorilor, marketerii desfășoară adesea experimente în acest domeniu, timp în care clienții la întâmplare este atribuită una dintre cele două categorii de preț posibile. „Din punct de vedere tehnic, aceste experimente sunt o formă de preț diferențial, deoarece au ca rezultat prețuri diferite pentru clienți, chiar dacă sunt „nediscriminatorii”, în sensul că toți clienții au aceeași probabilitate de a fi „trimiși” la un preț mai mare.”

Direcție: Este practica de a prezenta produse consumatorilor pe baza apartenenței acestora la un anumit grup demografic. Da, site compania de calculatoare pot oferi același laptop diferitelor tipuri de cumpărători la prețuri diferite, în funcție de informațiile pe care le oferă despre ei înșiși (de exemplu, în funcție de acest utilizator un reprezentant al agențiilor guvernamentale, al instituțiilor științifice sau comerciale sau al unei persoane fizice) sau din locația lor geografică (de exemplu, determinată de adresa IP a unui computer).

Marketing comportamental țintit și prețuri personalizate: În aceste cazuri, informațiile personale ale clienților sunt folosite pentru a viza publicitatea și pentru a personaliza prețurile pentru anumite produse. De exemplu, agenții de publicitate online folosesc colectate retele de publicitateși, prin cookie-uri de la terți, date despre activitatea utilizatorilor pe Internet pentru a trimite materiale publicitare vizate. Această abordare, pe de o parte, permite consumatorilor să primească reclame pentru bunuri și servicii de interes pentru aceștia, dar poate provoca îngrijorare pentru acei consumatori care nu doresc anumite tipuri de date personale (cum ar fi informații despre vizitele pe site-uri web). legate de chestiuni medicale și financiare) au fost colectate fără acordul acestora.

Deși marketingul comportamental țintit este larg răspândit, există relativ puține dovezi de stabilire a prețurilor personalizate în mediul online. Raportul speculează că acest lucru se poate datora faptului că metodele sunt încă în curs de dezvoltare sau pentru că companiile ezită să folosească prețuri personalizate (sau preferă să tacă) - poate temându-se de o reacție din partea consumatorilor.

Autorii raportului sugerează că „pentru consumatorul individual, utilizarea datelor mari prezintă în mod clar atât recompense, cât și riscuri potențiale”. Deși recunoaște că datele mari ridică probleme de transparență și discriminare, raportul susține că legile existente anti-discriminare și protecția consumatorilor sunt suficiente pentru a le rezolva. Cu toate acestea, raportul subliniază, de asemenea, necesitatea unei „supravegheri continue” atunci când companiile utilizează informații sensibile în moduri care nu sunt transparente sau în moduri care nu sunt acoperite de cadrele de reglementare existente.

Acest raport continuă eforturile Casei Albe de a examina utilizarea datelor mari și a prețurilor discriminatorii pe internet și consecințele care rezultă pentru consumatorii americani. S-a raportat anterior că grup de lucru Biroul Big Data de la Casa Albă și-a publicat raportul pe această problemă în mai 2014. Comisia Federală pentru Comerț (FTC) a abordat, de asemenea, aceste probleme în timpul atelierului său din septembrie 2014 privind discriminarea big data.

2014

Gartner risipește miturile despre Big Data

O notă de cercetare din toamna anului 2014 de la Gartner enumeră o serie de mituri comune despre Big Data în rândul liderilor IT și le oferă respingeri.

  • Toată lumea implementează sisteme de procesare Big Data mai rapid decât noi

Interesul pentru tehnologiile Big Data este la cote maxime: 73% dintre organizațiile chestionate de analiștii Gartner în acest an investesc deja sau plănuiesc să facă acest lucru. Dar majoritatea acestor inițiative sunt încă în faze foarte incipiente și doar 13% dintre respondenți au implementat deja astfel de soluții. Cel mai dificil lucru este să determinați cum să extrageți venituri din Big Data, să decideți de unde să începeți. Multe organizații rămân blocate în etapa pilot, deoarece nu pot lega noua tehnologie de anumite procese de afaceri.

  • Avem atât de multe date încât nu trebuie să ne facem griji cu privire la erorile mici din ele

Unii manageri IT consideră că micile defecte ale datelor nu afectează rezultatele generale ale analizei unor volume uriașe. Când există o mulțime de date, fiecare eroare individuală are de fapt un impact mai mic asupra rezultatului, notează analiștii, dar erorile în sine devin și mai numeroase. În plus, majoritatea datelor analizate sunt externe, de structură sau origine necunoscută, astfel că probabilitatea erorilor crește. Deci, în lumea Big Data, calitatea este de fapt mult mai importantă.

  • Tehnologiile Big Data vor elimina necesitatea integrării datelor

Big Data promite capacitatea de a procesa datele în formatul său original, cu generarea automată a schemei pe măsură ce sunt citite. Se crede că acest lucru va permite ca informațiile din aceleași surse să fie analizate folosind mai multe modele de date. Mulți cred că acest lucru va permite și utilizatorilor finali să interpreteze orice set de date după cum consideră de cuviință. În realitate, majoritatea utilizatorilor au adesea nevoie de metoda tradițională cu circuit gata făcut, unde datele sunt formatate corespunzător și există acorduri cu privire la nivelul de integritate al informațiilor și modul în care acestea ar trebui să se raporteze la cazul de utilizare.

  • Nu are rost să folosiți depozitele de date pentru analize complexe

Mulți administratori de sisteme de management al informațiilor consideră că nu are rost să petrecem timp creând un depozit de date, având în vedere acest complex sisteme analitice utilizați noi tipuri de date. De fapt, multe sisteme de analiză complexe utilizează informații dintr-un depozit de date. În alte cazuri, noi tipuri de date trebuie pregătite suplimentar pentru analiză în sistemele de procesare Big Data; trebuie luate decizii cu privire la adecvarea datelor, principiile de agregare și nivelul necesar de calitate - o astfel de pregătire poate avea loc în afara depozitului.

  • Depozitele de date vor fi înlocuite cu lacuri de date

În realitate, vânzătorii induc în eroare clienții poziționând lacurile de date ca înlocuitor pentru stocare sau ca elemente critice ale infrastructurii analitice. Tehnologiilor care stau la baza lacurilor de date le lipsește maturitatea și amploarea funcționalității găsite în depozite. Prin urmare, managerii responsabili cu gestionarea datelor ar trebui să aștepte până când lacurile ating același nivel de dezvoltare, potrivit Gartner.

Accenture: 92% dintre cei care au implementat sisteme de big data sunt mulțumiți de rezultate

Printre principalele avantaje ale datelor mari, respondenții au numit:

  • „căutând noi surse de venit” (56%),
  • „îmbunătățirea experienței clienților” (51%),
  • „produse și servicii noi” (50%) și
  • „un aflux de clienți noi și menținerea loialității celor vechi” (47%).

La introducerea noilor tehnologii, multe companii se confruntă cu probleme tradiționale. Pentru 51%, piatra de poticnire a fost securitatea, pentru 47% - buget, pentru 41% - lipsa personalului necesar, iar pentru 35% - dificultati de integrare cu sistemul existent. Aproape toate companiile chestionate (aproximativ 91%) plănuiesc să rezolve în curând problema deficitului de personal și să angajeze specialiști în big data.

Companiile sunt optimiste cu privire la viitorul tehnologiilor de date mari. 89% cred că vor schimba afacerile la fel de mult ca internetul. 79% dintre respondenți au remarcat că companiile care nu se angajează în big data își vor pierde avantajul competitiv.

Cu toate acestea, respondenții nu au fost de acord cu privire la ce anume ar trebui să fie considerate date mari. 65% dintre respondenți cred că acestea sunt „fișiere de date mari”, 60% cred că aceasta este „analitică și analiză avansată”, iar 50% cred că acestea sunt „instrumente de vizualizare a datelor”.

Madrid cheltuiește 14,7 milioane de euro pe managementul datelor mari

În iulie 2014, a devenit cunoscut faptul că Madrid va folosi tehnologiile de date mari pentru a gestiona infrastructura orașului. Costul proiectului este de 14,7 milioane de euro, la baza soluțiilor implementate vor sta tehnologiile de analiză și gestionare a datelor mari. Cu ajutorul lor, administrația orașului va gestiona munca cu fiecare furnizor de servicii și va plăti corespunzător în funcție de nivelul serviciilor.

Vorbim de antreprenori administrației care monitorizează starea străzilor, iluminatului, irigațiilor, spațiilor verzi, curăță teritoriul și scot, precum și reciclarea deșeurilor. Pe parcursul proiectului au fost elaborați 300 de indicatori cheie de performanță ai serviciilor orașului pentru inspectorii special desemnați, în baza cărora se vor efectua zilnic 1,5 mii de verificări și măsurători diverse. În plus, orașul va începe să utilizeze o platformă tehnologică inovatoare numită Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Experți: Big Data este la modă

Fără excepție, toți furnizorii de pe piața de management al datelor dezvoltă în prezent tehnologii pentru managementul Big Data. Această nouă tendință tehnologică este discutată activ și de comunitatea profesională, atât dezvoltatorii, cât și analiștii din industrie și potențialii consumatori ai unor astfel de soluții.

După cum a aflat Datashift, din ianuarie 2013, a existat un val de discuții în jurul „ Date mare„a depășit toate dimensiunile imaginabile. După ce a analizat numărul de mențiuni ale Big Data pe rețelele de socializare, Datashift a calculat că în 2012 termenul a fost folosit de aproximativ 2 miliarde de ori în postări create de aproximativ 1 milion de autori diferiți din întreaga lume. Acest lucru este echivalent cu 260 de postări pe oră, cu un vârf de 3.070 de mențiuni pe oră.

Gartner: În fiecare secundă CIO este gata să cheltuiască bani pe Big Data

După câțiva ani de experimentare cu tehnologiile Big data și primele implementări în 2013, adaptarea unor astfel de soluții va crește semnificativ, prezice Gartner. Cercetătorii au chestionat liderii IT din întreaga lume și au descoperit că 42% dintre respondenți au investit deja în tehnologiile Big Data sau intenționează să facă astfel de investiții în următorul an (date din martie 2013).

Companiile sunt nevoite să cheltuiască bani pe tehnologii de procesare Date mare, deoarece peisajul informațional se schimbă rapid, necesitând noi abordări ale procesării informațiilor. Multe companii și-au dat deja seama că cantitățile mari de date sunt critice, iar lucrul cu acestea le permite să obțină beneficii care nu sunt disponibile folosind surse tradiționale de informații și metode de procesare a acestora. În plus, discuția constantă a subiectului „big data” în mass-media alimentează interesul pentru tehnologiile relevante.

Frank Buytendijk, vicepreședinte la Gartner, a cerut chiar companiilor să-și diminueze eforturile, deoarece unii își fac griji că rămân în urmă concurenților în adoptarea Big Data.

„Nu este nevoie să vă faceți griji; posibilitățile de implementare a ideilor bazate pe tehnologiile de date mari sunt practic nelimitate”, a spus el.

Gartner prezice că până în 2015, 20% din companiile Global 1000 se vor concentra strategic pe „infrastructura informațională”.

În așteptarea noilor oportunități pe care le vor aduce tehnologiile de procesare a datelor mari, multe organizații organizează deja procesul de colectare și stocare a diferitelor tipuri de informații.

Pentru organizațiile educaționale și guvernamentale, precum și pentru companiile industriale, cel mai mare potențial de transformare a afacerii constă în combinarea datelor acumulate cu așa-numitele date întunecate (literalmente „date întunecate”), acestea din urmă includ mesaje. E-mail, multimedia și alte conținuturi similare. Potrivit Gartner, câștigătorii în cursa datelor vor fi cei care învață să se ocupe de o varietate de surse de informații.

Sondaj Cisco: Big Data va ajuta la creșterea bugetelor IT

Raportul Cisco Connected World Technology din primăvara anului 2013, realizat în 18 țări de firma independentă de cercetare InsightExpress, a chestionat 1.800 de studenți și un număr egal de tineri profesioniști cu vârste cuprinse între 18 și 30 de ani. Sondajul a fost realizat pentru a afla nivelul de pregătire al departamentelor IT de a implementa proiecte Date mareși obțineți o perspectivă asupra provocărilor implicate, a deficiențelor tehnologice și a valorii strategice a unor astfel de proiecte.

Majoritatea companiilor colectează, înregistrează și analizează date. Cu toate acestea, se arată în raport, multe companii se confruntă cu o serie de provocări complexe de afaceri și tehnologia informației cu Big Data. De exemplu, 60 la sută dintre respondenți admit că soluțiile Big Data pot îmbunătăți procesele de luare a deciziilor și pot crește competitivitatea, dar doar 28 la sută au spus că primesc deja beneficii strategice reale din informațiile acumulate.

Mai mult de jumătate dintre directorii IT intervievați consideră că proiectele Big Data vor contribui la creșterea bugetelor IT în organizațiile lor, deoarece vor exista cerințe sporite în ceea ce privește tehnologia, personalul și competențele profesionale. În același timp, mai mult de jumătate dintre respondenți se așteaptă ca astfel de proiecte să crească bugetele IT în companiile lor încă din 2012. 57% sunt încrezători că Big Data își va crește bugetele în următorii trei ani.

81% dintre respondenți au spus că toate (sau cel puțin unele) proiectele Big Data vor necesita utilizarea cloud computing. Astfel, răspândirea tehnologiilor cloud poate afecta viteza de adoptare a soluțiilor Big Data și valoarea de afaceri a acestor soluții.

Companiile colectează și utilizează multe tipuri diferite de date, atât structurate, cât și nestructurate. Iată sursele din care participanții la sondaj își primesc datele (Raportul Cisco Connected World Technology):

Aproape jumătate (48%) dintre liderii IT prevăd că sarcina rețelelor lor se va dubla în următorii doi ani. (Acest lucru este valabil mai ales în China, unde 68 la sută dintre respondenți împărtășesc această părere, iar în Germania – 60 la sută). 23% dintre respondenți se așteaptă ca încărcarea rețelei să se tripleze în următorii doi ani. În același timp, doar 40% dintre respondenți și-au declarat că sunt pregătiți pentru o creștere explozivă a volumelor de trafic în rețea.

27% dintre respondenți au recunoscut că au nevoie de politici IT mai bune și măsuri de securitate a informațiilor.

21% au nevoie de mai multă lățime de bandă.

Big Data deschide noi oportunități pentru departamentele IT de a adăuga valoare și de a construi relații puternice cu unitățile de afaceri, permițându-le să crească veniturile și să consolideze poziția financiară a companiei. Proiectele Big Data fac din departamentele IT un partener strategic pentru departamentele de afaceri.

Potrivit a 73% dintre respondenți, departamentul IT va deveni principalul motor al implementării strategiei Big Data. În același timp, respondenții consideră că în implementarea acestei strategii vor fi implicate și alte departamente. În primul rând, aceasta se referă la departamentele de finanțe (numite de 24 la sută dintre respondenți), cercetare și dezvoltare (20 la sută), operațiuni (20 la sută), inginerie (19 la sută), precum și marketing (15 la sută) și vânzări ( 14 la sută).

Gartner: Sunt necesare milioane de noi locuri de muncă pentru gestionarea datelor mari

Cheltuielile globale pentru IT vor ajunge la 3,7 miliarde USD până în 2013, ceea ce este cu 3,8% mai mult decât cheltuielile pentru tehnologia informației în 2012 (prognoza de la sfârșitul anului este de 3,6 miliarde USD). Segment Date mare(datele mari) se vor dezvolta într-un ritm mult mai rapid, spune un raport Gartner.

Până în 2015, vor fi create 4,4 milioane de locuri de muncă în tehnologia informației pentru a deservi big data, dintre care 1,9 milioane de locuri de muncă vor fi în . Mai mult, fiecare astfel de locuri de muncă va presupune crearea a trei locuri de muncă suplimentare în afara sectorului IT, astfel încât doar în Statele Unite, 6 milioane de oameni vor lucra pentru susținerea economiei informaționale în următorii patru ani.

Potrivit experților Gartner, problema principala Problema este că nu există suficient talent în industrie pentru asta: atât sistemele de învățământ privat, cât și cele publice, de exemplu în SUA, nu sunt capabile să furnizeze industriei un număr suficient de personal calificat. Deci, dintre noile locuri de muncă IT menționate, doar unul din trei va fi angajat.

Analiștii consideră că rolul de a cultiva personal IT calificat ar trebui să fie preluat direct de companiile care au nevoie urgentă de ele, deoarece astfel de angajați vor fi biletul lor către noua economie informațională a viitorului.

2012

Primul scepticism cu privire la „Big Data”

Analiștii de la Ovum și Gartner sugerează că pentru un subiect la modă în 2012 Date mare Poate veni timpul să te eliberezi de iluzii.

Termenul „Big Data” în acest moment se referă în mod obișnuit la cantitatea din ce în ce mai mare de informații care circulă online din rețelele sociale, rețelele de senzori și alte surse, precum și la gama tot mai mare de instrumente utilizate pentru procesarea datelor și identificarea datelor relevante pentru afaceri. din ea.-tendinţe.

„Din cauza (sau în ciuda) hype-ului în jurul ideii de big data, producătorii în 2012 au privit această tendință cu mare speranță”, a spus Tony Bayer, analist la Ovum.

Bayer a raportat că DataSift a efectuat o analiză retrospectivă a mențiunilor de date mari în

"Date mare" este un subiect care este discutat activ de companiile de tehnologie. Unii dintre ei au devenit dezamăgiți de big data, în timp ce alții, dimpotrivă, profită la maximum de ele pentru afaceri... O nouă revizuire analitică a pieței autohtone și globale de Big Data, pregătită de Moscow Exchange împreună cu analiștii IPOboard , arată ce tendințe sunt cele mai relevante acum pe piață. Sperăm că informațiile vor fi interesante și utile.

CE SUNT BIG DATA?

Caracteristici cheie
Big Data este în prezent unul dintre motoarele cheie ale dezvoltării tehnologiei informației. Această direcție, relativ nouă pentru afacerile rusești, a devenit larg răspândită în țările occidentale. Acest lucru se datorează faptului că în era tehnologiei informației, mai ales după boom-ul rețelelor sociale, a început să se acumuleze o cantitate semnificativă de informații pentru fiecare utilizator de internet, ceea ce a dat naștere în cele din urmă la dezvoltarea Big Data.

Termenul „Big Data” provoacă multe controverse, mulți cred că înseamnă doar cantitatea de informații acumulate, dar nu ar trebui să uităm de partea tehnică, această zonă include tehnologii de stocare, calcul și Servicii.

De remarcat faptul că acest domeniu include prelucrarea unei cantități mari de informații, care este dificil de prelucrat prin metode tradiționale*.

Mai jos este tabel comparativ baze de date tradiționale și Big Data.

Domeniul Big Data se caracterizează prin următoarele caracteristici:
Volum – volum, baza de date acumulată reprezintă o cantitate mare de informații care necesită multă muncă de prelucrat și stocat în moduri tradiționale; acestea necesită o nouă abordare și instrumente îmbunătățite.
Viteză – viteza, acest atribut indică atât viteza în creștere de acumulare a datelor (90% din informațiile au fost colectate în ultimii 2 ani), cât și viteza de prelucrare a datelor; tehnologiile de prelucrare a datelor în timp real au devenit recent mai solicitate.
varietate – diversitatea, adică capacitatea de a procesa simultan informații structurate și nestructurate de diferite formate. Principala diferență dintre informațiile structurate este că acestea pot fi clasificate. Un exemplu de astfel de informații ar fi informații despre tranzacțiile clienților.
Informațiile nestructurate includ fișiere video, audio, text liber, informații care provin din rețelele sociale. Astăzi, 80% din informații sunt nestructurate. Aceste informații necesită analize complexe pentru a le face utile pentru prelucrarea ulterioară.
Veracitatea – fiabilitatea datelor, utilizatorii au început să acorde o importanță tot mai mare fiabilității datelor disponibile. Astfel, companiile de internet au o problemă în separarea acțiunilor efectuate de un robot și de o persoană pe site-ul companiei, ceea ce duce în cele din urmă la dificultăți în analiza datelor.
Valoare – valoarea informaţiei acumulate. Big Data trebuie să fie utile companiei și să îi aducă ceva valoare. De exemplu, ajutați la îmbunătățirea proceselor de afaceri, raportarea sau optimizarea costurilor.

Dacă sunt îndeplinite cele 5 condiții de mai sus, volumele acumulate de date pot fi clasificate ca mari.

Domenii de aplicare ale Big Data

Domeniul de utilizare a tehnologiilor Big Data este extins. Astfel, cu ajutorul Big Data, puteți afla despre preferințele clienților, eficacitatea campaniilor de marketing sau puteți efectua analize de risc. Mai jos sunt rezultatele unui sondaj realizat de Institutul IBM privind domeniile de utilizare a Big Data în companii.

După cum se poate observa din diagramă, majoritatea companiilor folosesc Big Data în domeniul serviciului clienți, a doua cea mai populară zonă este eficiența operațională; în domeniul managementului riscului, Big Data este mai puțin frecventă în acest moment.

De asemenea, trebuie remarcat faptul că Big Data este una dintre domeniile cu cea mai rapidă creștere ale tehnologiei informației; conform statisticilor, cantitatea totală de date primite și stocate se dublează la fiecare 1,2 ani.
Între 2012 și 2014, cantitatea de date transferate lunar de rețelele mobile a crescut cu 81%. Potrivit estimărilor Cisco, în 2014 volumul traficul mobil s-a ridicat la 2,5 exaocteți (o unitate de măsură a cantității de informații egală cu 10^18 octeți standard) pe lună, iar deja în 2019 va fi egal cu 24,3 exaocteți.
Astfel, Big Data este un domeniu deja consacrat al tehnologiei, chiar și în ciuda vârstei sale relativ fragede, care s-a răspândit în multe domenii de afaceri și joacă un rol important în dezvoltarea companiilor.

Tehnologii Big Data
Tehnologiile utilizate pentru colectarea și procesarea Big Data pot fi împărțite în 3 grupe:
  • Software;
  • Echipamente;
  • Servicii.

Cele mai comune abordări de prelucrare a datelor (DP) includ:
SQL - limba interogări structurate, permițându-vă să lucrați cu baze de date. Folosind SQL, puteți crea și modifica date, iar gestionarea matricei de date este gestionată de sistemul de management al bazei de date corespunzător.
NoSQL – termenul înseamnă Not Only SQL (nu numai SQL). Include o serie de abordări care vizează implementarea unei baze de date care diferă de modelele utilizate în SGBD relațional. Sunt convenabile de utilizat atunci când structura datelor este în continuă schimbare. De exemplu, pentru a colecta și stoca informații pe rețelele sociale.
MapReduce – model de distribuție de calcul. Folosit pentru calculul paralel peste foarte seturi mari date (petaocteți* sau mai mult). Într-o interfață de program, nu datele sunt transferate către program pentru procesare, ci programul către date. Astfel, cererea este un program separat. Principiul de funcționare este procesarea secvenţială a datelor folosind două metode: Mapă şi Reducere. Harta selectează datele preliminare, Reduce le agrega.
Hadoop – folosit pentru a implementa mecanisme de căutare și contextuale pentru site-uri cu încărcare mare - Facebook, eBay, Amazon, etc. O caracteristică distinctivă este că sistemul este protejat împotriva defecțiunii oricăruia dintre nodurile clusterului, deoarece fiecare bloc are cel puțin o copie a date pe alt nod.
SAP HANA – platformă NewSQL de înaltă performanță pentru stocarea și procesarea datelor. Oferă viteză mare de procesare a cererilor. O altă caracteristică distinctivă este că SAP HANA simplifică peisajul sistemului, reducând costul suportării sistemelor analitice.

Echipamentele tehnologice includ:

  • servere;
  • echipamente de infrastructură.
Serverele includ stocarea datelor.
Echipamentele de infrastructură includ instrumente de accelerare a platformei, surse de alimentare neîntreruptibile, seturi de console de server etc.

Servicii.
Serviciile includ servicii pentru construirea arhitecturii unui sistem de baze de date, aranjarea și optimizarea infrastructurii și asigurarea securității stocării datelor.

Software-ul, hardware-ul și serviciile formează împreună platforme cuprinzătoare pentru stocarea și analiza datelor. Companii precum Microsoft, HP, EMC oferă servicii pentru dezvoltarea, implementarea și gestionarea soluțiilor Big Data.

Aplicații în industrii
Big Data a devenit larg răspândită în multe sectoare de afaceri. Ele sunt utilizate în domeniul sănătății, telecomunicații, comerț, logistică, companii financiare, precum și în administrația guvernamentală.
Mai jos sunt câteva exemple de aplicații Big Data în unele industrii.

Cu amănuntul
Bazele de date ale magazinelor de vânzare cu amănuntul pot acumula o mulțime de informații despre clienți, sisteme de gestionare a stocurilor și livrări de produse comerciale. Aceste informații pot fi utile în toate domeniile de activitate ale magazinului.

Astfel, cu ajutorul informațiilor acumulate, puteți gestiona aprovizionarea cu bunuri, depozitarea și vânzarea acestora. Pe baza informațiilor acumulate, este posibil să se prezică cererea și oferta de bunuri. De asemenea, un sistem de procesare și analiză a datelor poate rezolva și alte probleme ale unui retailer, de exemplu, optimizarea costurilor sau pregătirea raportărilor.

Servicii financiare
Big Data face posibilă analiza solvabilității împrumutatului și este, de asemenea, utilă pentru evaluarea creditului* și subscrierea**. Introducerea tehnologiilor Big Data va reduce timpul de examinare a cererilor de împrumut. Cu ajutorul Big Data, este posibil să analizezi tranzacțiile unui anumit client și să oferi servicii bancare potrivite pentru el.

Telecom
În industria telecomunicațiilor, Big Data a devenit larg răspândită în rândul operatorilor de telefonie mobilă.
Operatori comunicare celulară Alături de organizațiile financiare, acestea au una dintre cele mai voluminoase baze de date, ceea ce le permite să efectueze cea mai aprofundată analiză a informațiilor acumulate.
Scopul principal al analizei datelor este reținerea clienții existențiși atragerea altora noi. Pentru a face acest lucru, companiile segmentează clienții, le analizează traficul și determină afilierea socială a abonatului.

Pe lângă utilizarea Big Data în scopuri de marketing, tehnologiile sunt folosite pentru a preveni tranzacțiile financiare frauduloase.

Industriile miniere și petroliere
Big Data este folosit atât în ​​extracția mineralelor, cât și în procesarea și comercializarea acestora. Pe baza informațiilor primite, întreprinderile pot trage concluzii despre eficiența dezvoltării terenului și pot urmări programul revizuireși starea echipamentelor, cererea prognozată pentru produse și prețuri.

Potrivit unui sondaj realizat de Tech Pro Research, Big Data este cel mai răspândit în industria telecomunicațiilor, precum și în inginerie, IT, financiare și întreprinderi guvernamentale. Conform rezultatelor acest sondaj, Big Data este mai puțin popular în educație și asistență medicală. Rezultatele sondajului sunt prezentate mai jos:

Exemple de utilizare a Big Data în companii
Astăzi, Big Data este implementată activ în companiile străine. Companii precum Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca cola, Starbucks și Netflix folosesc deja resursele Big Data.

Aplicațiile informațiilor prelucrate sunt variate și variază în funcție de industrie și de sarcinile care trebuie îndeplinite.
În continuare, vor fi prezentate exemple de aplicare în practică a tehnologiilor Big Data.

HSBC folosește tehnologiile Big Data pentru a combate tranzacțiile frauduloase cu carduri de plastic. Cu ajutorul Big Data, compania a crescut eficienta serviciului de securitate de 3 ori, iar recunoasterea incidentelor frauduloase de 10 ori. Efectul economic al introducerii acestor tehnologii a depășit 10 milioane USD.

Antifrauda* VISA vă permite să identificați automat tranzacțiile frauduloase; în prezent sistemul ajută la prevenirea plăților frauduloase în valoare de 2 miliarde USD anual.

supercomputer Watson IBM analizează în timp real fluxul de date privind tranzacțiile monetare. Potrivit IBM, Watson a crescut cu 15% numărul de tranzacții frauduloase detectate, a redus falsul pozitiv cu 50% și a crescut cu 60% suma de bani protejată de tranzacții de această natură.

Procter & Gamble folosind Big Data pentru a proiecta noi produse și a crea campanii de marketing globale. P&G a creat birouri dedicate Business Spheres unde informațiile pot fi vizualizate în timp real.
Astfel, conducerea companiei a avut ocazia să testeze instantaneu ipoteze și să efectueze experimente. P&G consideră că Big Data ajută la prognozarea performanței companiei.

Comerciant de rechizite de birou OfficeMax Folosind tehnologiile Big Data, ei analizează comportamentul clienților. Analiza Big Data a făcut posibilă creșterea veniturilor B2B cu 13% și reducerea costurilor cu 400.000 USD pe an.

Conform Omida , distribuitorii săi pierd profituri de la 9 la 18 miliarde de dolari în fiecare an, pur și simplu pentru că nu implementează tehnologiile de procesare Big Data. Big Data le-ar permite clienților să-și gestioneze flota mai eficient prin analizarea informațiilor provenite de la senzorii instalați pe mașini.

Astăzi este deja posibil să se analizeze starea componentelor cheie, gradul lor de uzură și să se gestioneze costurile de combustibil și de întreținere.

Grupul Luxottica este un producător de ochelari de sport, precum mărci precum Ray-Ban, Persol și Oakley. Compania folosește tehnologii Big Data pentru a analiza comportamentul clienților potențiali și marketing prin SMS „inteligent”. Ca urmare a Big Data, grupul Luxottica a identificat peste 100 de milioane dintre cei mai valoroși clienți ai săi și a sporit eficiența campaniei sale de marketing cu 10%.

Folosind Yandex Fabrica de date dezvoltatori de jocuri Lumea tancurilor analizează comportamentul jucătorilor. Tehnologiile Big Data au făcut posibilă analizarea comportamentului a 100 de mii Jucători mondiali de Tankuri folosind mai mult de 100 de parametri (informații despre achiziții, jocuri, experiență etc.). În urma analizei, a fost obținută o prognoză a fluxului de utilizatori. Aceste informații vă permit să reduceți plecarea utilizatorilor și să lucrați cu participanții la joc într-o manieră țintită. Modelul dezvoltat s-a dovedit a fi cu 20-30% mai eficient decât instrumentele standard de analiză a industriei jocurilor de noroc.

Ministerul German al Muncii folosește Big Data în activități legate de analiza cererilor primite pentru ajutor de șomaj. Deci, după analizarea informațiilor, a devenit clar că 20% din beneficii au fost plătite nemeritat. Cu ajutorul Big Data, Ministerul Muncii a redus costurile cu 10 miliarde de euro.

Spitalul de copii din Toronto implementat proiectul Artemis. Acesta este un sistem informatic care colectează și analizează date despre bebeluși în timp real. Sistemul monitorizează 1260 de indicatori ai stării fiecărui copil în fiecare secundă. Proiectul Artemis face posibilă prezicerea stării instabile a unui copil și începerea prevenirii bolilor la copii.

PREZENTARE GENERALĂ A PIEȚEI MONDIALE DE BIG DATA

Situația actuală a pieței mondiale
În 2014, Big Data, conform Data Collective, a devenit una dintre zonele de investiții prioritare din industria de risc. Conform datelor portal de informare Computerra, acest lucru se datorează faptului că evoluțiile din această zonă au început să aducă rezultate semnificative pentru utilizatorii lor. Pe parcursul anului trecut, numărul companiilor cu proiecte implementate în domeniul managementului big data a crescut cu 125%, iar volumul pieței a crescut cu 45% față de 2013.

Majoritatea veniturilor pieței Big Data, conform Wikibon, în 2014 au fost formate din servicii, ponderea acestora fiind egală cu 40% din veniturile totale (vezi graficul de mai jos):

Dacă luăm în considerare Big Data pentru 2014 după subtip, piața va arăta astfel:

Potrivit Wikibon, aplicațiile și analizele au reprezentat 36% din veniturile Big Data în 2014 din aplicațiile și analizele Big Data, 17% din echipamentele de calcul și 15% din tehnologiile de stocare a datelor. Cel mai mic venit a fost generat de tehnologiile NoSQL, echipamentele de infrastructură și furnizarea de rețele pentru companii (rețele corporative).

Cele mai populare tehnologii Big Data sunt platformele in-memory SAP, HANA, Oracle etc. Rezultatele sondajului T-Systems au arătat că acestea au fost alese de 30% dintre companiile chestionate. Al doilea cel mai popular au fost platformele NoSQL (18% dintre utilizatori), companiile au folosit și platforme analitice de la Splunk și Dell, acestea fiind alese de 15% dintre companii. Conform rezultatelor sondajului, produsele Hadoop/MapReduce s-au dovedit a fi cele mai puțin utile pentru rezolvarea problemelor Big Data.

Potrivit unui sondaj Accenture, în peste 50% dintre companiile care utilizează tehnologii Big Data, costurile Big Data variază de la 21% la 30%.
Potrivit următoarei analize Accenture, 76% dintre companii cred că aceste costuri vor crește în 2015, iar 24% dintre companii nu își vor modifica bugetul pentru tehnologiile Big Data. Acest lucru sugerează că în aceste companii Big Data a devenit un domeniu consolidat al IT, care a devenit o parte integrantă a dezvoltării companiei.

Rezultatele sondajului Economist Intelligence Unit confirmă efectul pozitiv al implementării Big Data. 46% dintre companii spun că folosind tehnologiile Big Data au îmbunătățit serviciul clienți cu peste 10%, 33% dintre companii au optimizat inventarul și au îmbunătățit productivitatea mijloacelor fixe, iar 32% dintre companii au îmbunătățit procesele de planificare.

Big Data în diferite țări ale lumii
Astăzi, tehnologiile Big Data sunt cel mai des implementate în companiile din SUA, dar alte țări din lume au început deja să-și manifeste interesul. În 2014, potrivit IDC, țările din Europa, Orientul Mijlociu, Asia (cu excepția Japoniei) și Africa reprezentau 45% din piața de software, servicii și echipamente în domeniul Big Data.

De asemenea, potrivit sondajului CIO, companiile din regiunea Asia-Pacific adoptă rapid noi soluții în domeniul analizei Big Data, stocării securizate și tehnologiilor cloud. America Latină se află pe locul doi în ceea ce privește numărul de investiții în dezvoltarea tehnologiilor Big Data, înaintea țărilor europene și SUA.
În continuare, va fi prezentată o descriere și previziuni pentru dezvoltarea pieței Big Data în mai multe țări.

China
Volumul de informații în China este de 909 exaocteți, ceea ce este egal cu 10% din volumul total de informații din lume, până în 2020 volumul de informații va ajunge la 8060 exaocteți, ponderea informațiilor în statisticile globale va crește, de asemenea, în 5 ani va fi egal cu 18%. Creșterea potențială a Big Data din China are una dintre dinamicele cu cea mai rapidă creștere.

Brazilia
La sfârșitul anului 2014, Brazilia a acumulat informații în valoare de 212 exaocteți, ceea ce reprezintă 3% din volumul global. Până în 2020, volumul de informații va crește la 1600 de exaocteți, ceea ce va reprezenta 4% din informațiile din lume.

India
Potrivit EMC, volumul de date acumulate în India la sfârșitul anului 2014 este de 326 de exaocteți, ceea ce reprezintă 5% din volumul total de informații. Până în 2020, volumul de informații va crește la 2800 de exaocteți, ceea ce va reprezenta 6% din informațiile din lume.

Japonia
Volumul de date acumulate în Japonia la sfârșitul anului 2014 este de 495 exaocteți, ceea ce reprezintă 8% din volumul total de informații. Până în 2020, volumul de informații va crește la 2.200 de exaocteți, dar cota de piață a Japoniei va scădea și va ajunge la 5% din volumul total de informații din întreaga lume.
Astfel, dimensiunea pieței japoneze va scădea cu peste 30%.

Germania
Potrivit EMC, volumul de date acumulate în Germania la sfârșitul anului 2014 este de 230 de exaocteți, ceea ce reprezintă 4% din volumul total de informații din lume. Până în 2020, volumul de informații va crește la 1100 exaocteți și va ajunge la 2%.
Pe piața germană, o pondere mare a veniturilor, conform previziunilor Grupului Experton, va fi generată de segmentul de servicii, a cărui pondere în 2015 va fi de 54%, iar în 2019 va crește la 59%; cotele de software și hardware-ul, dimpotrivă, va scădea.

Per total, dimensiunea pieței va crește de la 1,345 miliarde euro în 2015 la 3,198 miliarde euro în 2019, o rată medie de creștere de 24%.
Astfel, pe baza analizelor CIO și EMC, putem concluziona că țările în curs de dezvoltare ale lumii în următorii ani vor deveni piețe pentru dezvoltarea activă a tehnologiilor Big Data.

Principalele tendințe ale pieței
Potrivit IDG Enterprise, în 2015, cheltuielile companiilor pentru Big Data vor fi în medie de 7,4 milioane USD per companie, companiile mari intenționează să cheltuiască aproximativ 13,8 milioane USD, companiile mici și mijlocii - 1,6 milioane USD.
Majoritatea investițiilor vor fi în domenii precum analiza datelor, vizualizarea și colectarea datelor.
Pe baza tendințelor actuale și a cererii pieței, investițiile din 2015 vor fi utilizate pentru a îmbunătăți calitatea datelor, a îmbunătăți planificarea și prognoza și pentru a crește viteza de procesare a datelor.
Companiile din sectorul financiar, conform Insights Analysis a companiei Bain, vor face investiții semnificative, așa că în 2015 plănuiesc să cheltuiască 6,4 miliarde de dolari pe tehnologiile Big Data, rata medie de creștere a investițiilor va fi de 22% până în 2020. Companiile de internet plănuiesc să cheltuiască 2,8 miliarde de dolari, cu o rată medie de creștere de 26% pentru cheltuielile pentru Big Data.
La realizarea sondajului Economist Intelligence Unit au fost identificate domenii prioritare pentru dezvoltarea Big Data în 2014 și în următorii 3 ani, distribuția răspunsurilor este următoarea:

Conform previziunilor IDC, tendințele de dezvoltare a pieței sunt următoarele:

  • În următorii 5 ani, costurile pentru soluții cloudîn domeniul tehnologiilor Big Data vor crește de 3 ori mai repede decât costurile pentru soluțiile locale. Platformele hibride pentru stocarea datelor vor deveni solicitate.
  • Creșterea aplicațiilor care utilizează analize sofisticate și predictive, inclusiv învățarea automată, se va accelera în 2015, piața pentru astfel de aplicații crescând cu 65% mai rapid decât aplicațiile care nu folosesc analiza predictivă.
  • Analiza media se va tripla în 2015 și va deveni driver-cheie creșterea pieței tehnologiei Big Data.
  • Tendința de a introduce soluții pentru analiza fluxului constant de informații care este aplicabilă Internetului obiectelor se va accelera.
  • Până în 2018, 50% dintre utilizatori vor interacționa cu servicii bazate pe calculul cognitiv.
Drivere și limitatoare ale pieței
Experții IDC au identificat 3 factori determinanți ai pieței Big Data în 2015:

Potrivit unui sondaj Accenture, problemele de securitate a datelor reprezintă acum principala barieră în calea implementării tehnologiilor Big Data, peste 51% dintre respondenți confirmând că sunt îngrijorați de asigurarea protecției și confidențialității datelor. 47% dintre companii au raportat imposibilitatea implementării Big Data din cauza bugetelor limitate, 41% dintre companii au indicat lipsa personalului calificat drept problemă.

Wikibon prezice că piața Big Data va crește la 38,4 miliarde de dolari în 2015, în creștere cu 36% față de an. În următorii ani, va exista o scădere a ratelor de creștere la 10% în 2017. Luând în considerare aceste previziuni, dimensiunea pieței în 2020 va fi egală cu 68,7 miliarde de dolari SUA.

Distribuția pieței globale Big Data pe categorii de afaceri va arăta astfel:

După cum se poate observa din diagramă, cea mai mare parte a pieței va fi ocupată de tehnologii în domeniul îmbunătățirii serviciului clienți. Marketingul direcționat va fi a doua prioritate pentru companii până în 2019; în 2020, potrivit Heavy Reading, va lăsa loc soluțiilor de îmbunătățire a eficienței operaționale.
Segmentul „îmbunătățirea serviciului clienți” va avea, de asemenea, cea mai mare rată de creștere, cu o creștere de 49% anual.
Prognoza pieței pentru subtipurile Big Data va arăta astfel:

Cota de piață predominantă, după cum se poate observa din diagramă, este ocupată de serviciile profesionale, cea mai mare rată de creștere va fi în aplicațiile cu analiză, ponderea acestora va crește de la actualul 12% la 18% în 2020 și volumul acestui segment. va fi egală cu 12,3 miliarde de dolari SUA, ponderea echipamentelor de calcul, dimpotrivă, va scădea de la 20% la 14% și se va ridica la aproximativ 9,3 miliarde de dolari SUA în 2020, piața tehnologiilor cloud va crește treptat și în 2020 va ajunge la 6,3 miliarde de dolari SUA, cota de piață a soluțiilor pentru stocarea datelor, dimpotrivă, va scădea de la 15% în 2014 la 13% în 2020 și în termeni monetari va fi egală cu 8,9 miliarde de dolari.
Conform prognozei Bain & Company Insights Analysis, distribuția pieței Big Data pe industrie în 2020 va fi următoarea:

  • Industria financiară va cheltui 6,4 miliarde de dolari pe Big Data, cu o rată medie de creștere de 22% pe an;
  • Companiile de internet vor cheltui 2,8 miliarde de dolari, iar rata medie de creștere a costurilor va fi de 26% în următorii 5 ani;
  • Costurile din sectorul public vor fi proporționale cu costurile companiilor de internet, dar rata de creștere va fi mai mică - 22%;
  • Sectorul telecomunicațiilor va crește cu un CAGR de 40% pentru a ajunge la 1,2 miliarde USD în 2020;

Companiile energetice vor investi o sumă relativ mică în aceste tehnologii - 800 de milioane de dolari, dar rata de creștere va fi una dintre cele mai mari - 54% anual.
Astfel, cea mai mare pondere a pieței Big Data în 2020 va fi luată de companiile din industria financiară, iar sectorul cu cea mai rapidă creștere va fi cel al energiei.
În urma previziunilor analiștilor, dimensiunea totală a pieței va crește în următorii ani. Creșterea pieței se va realiza prin implementarea tehnologiilor Big Data în țările în curs de dezvoltare ale lumii, așa cum se poate observa din graficul de mai jos.

Dimensiunea proiectată a pieței va depinde de modul în care țările în curs de dezvoltare percep tehnologiile Big Data și dacă acestea vor fi la fel de populare ca și în țările dezvoltate. În 2014, țările în curs de dezvoltare ale lumii au reprezentat 40% din volumul de informații acumulate. Conform prognozei EMC, structura actuală a pieței, cu o predominanță a țărilor dezvoltate, se va schimba în 2017. Potrivit EMC analytics, în 2020 ponderea țărilor în curs de dezvoltare va fi mai mare de 60%.
Potrivit Cisco și EMC, țările în curs de dezvoltare din întreaga lume vor lucra destul de activ cu Big Data, în mare parte datorită disponibilității tehnologiei și acumulării unei cantități suficiente de informații la nivelul Big Data. Harta lumii prezentată pe pagina următoare va arăta prognoza pentru creșterea volumului și rata de creștere a Big Data pe regiune.

ANALIZA PIEȚEI RUSE

Starea actuală a pieței ruse

Potrivit rezultatelor unui studiu realizat de CNews Analytics și Oracle, nivelul de maturitate al pieței ruse de Big Data a crescut în ultimul an. Respondenții, reprezentând 108 întreprinderi mari din diverse industrii, au demonstrat un grad mai ridicat de cunoaștere a acestor tehnologii, precum și o înțelegere stabilită a potențialului unor astfel de soluții pentru afacerea lor.
În 2014, potrivit IDC, Rusia a acumulat 155 de exaocteți de informații, ceea ce reprezintă doar 1,8% din datele lumii. Volumul de informații până în 2020 va ajunge la 980 exaocteți și va ocupa 2,2%. Astfel, rata medie de creștere a volumului de informații va fi de 36% pe an.
IDC estimează piața rusă la 340 de milioane de dolari, dintre care 100 de milioane de dolari sunt soluții SAP, aproximativ 240 de milioane de dolari sunt soluții similare de la Oracle, IBM, SAS, Microsoft etc.
Rata de creștere a pieței de date mari din Rusia este de nu mai puțin de 50% pe an.
Se prevede că dinamica pozitivă va continua în acest sector al pieței IT din Rusia, chiar și în condiții de stagnare economică generală. Acest lucru se datorează faptului că întreprinderile continuă să solicite soluții care să îmbunătățească eficiența operațională, precum și să optimizeze costurile, să îmbunătățească acuratețea prognozelor și să minimizeze posibilele riscuri ale companiei.
Principalii furnizori de servicii în domeniul Big Data pe piața rusă sunt:
  • Oracol
  • Microsoft
  • Cloudera
  • Hortonworks
  • Teradata.
Prezentare generală a pieței în funcție de industrie și experiență în utilizarea Big Data în companii
Potrivit CNews, în Rusia doar 10% dintre companii au început să folosească tehnologiile Big Data, când în lume ponderea unor astfel de companii este de aproximativ 30%. Pregătirea pentru proiectele Big Data este în creștere în multe sectoare ale economiei ruse, potrivit unui raport de la CNews Analytics și Oracle. Mai mult de o treime dintre companiile chestionate (37%) au început să lucreze cu tehnologiile Big Data, dintre care 20% folosesc deja astfel de soluții, iar 17% încep să experimenteze cu acestea. A doua treime dintre respondenți iau în considerare în prezent această posibilitate.

În Rusia, tehnologiile Big Data sunt cele mai populare în sectorul bancarși telecomunicații, dar sunt solicitate și în industria minieră, energie, retail, companii de logistică și sectorul public.
În continuare, vor fi luate în considerare exemple de utilizare a Big Data în realitățile rusești.

Telecom
Operatorii de telecomunicații au unele dintre cele mai voluminoase baze de date, ceea ce le permite să efectueze cea mai aprofundată analiză a informațiilor acumulate.
Unul dintre domeniile de aplicare a tehnologiei Big Data este managementul loialității abonaților.
Scopul principal al analizei datelor este păstrarea clienților existenți și atragerea altora noi. Pentru a face acest lucru, companiile segmentează clienții, le analizează traficul și determină afilierea socială a abonatului. Pe lângă utilizarea informațiilor în scopuri de marketing, tehnologiile de telecomunicații sunt folosite pentru a preveni tranzacțiile financiare frauduloase.
Unul dintre exemplele izbitoare ale acestei industrii este VimpelCom. Compania folosește Big Data pentru a îmbunătăți calitatea serviciului la nivelul fiecărui abonat, pentru a compila rapoarte, pentru a analiza date pentru dezvoltarea rețelei, pentru a combate spam-ul și pentru a personaliza serviciile.

Băncile
O proporție semnificativă a utilizatorilor Big Data sunt specialiști din industria financiară. Unul dintre experiențe de succes a fost realizat la Ural Bank for Reconstruction and Development, unde baza de informații a fost folosită pentru analiza clienților, banca a început să ofere oferte de credit specializate, depozite și alte servicii. În decurs de un an de la utilizarea acestor tehnologii, portofoliul de credite pentru retail al companiei a crescut cu 55%.
Alfa-Bank analizează informațiile din rețelele sociale, procesează cererile de împrumut și analizează comportamentul utilizatorilor site-ului companiei.
De asemenea, Sberbank a început să proceseze o matrice de date pentru a segmenta clienții și a preveni activități frauduloase, vânzarea încrucișată și managementul riscului. În viitor, este planificată îmbunătățirea serviciului și analizarea acțiunilor clienților în timp real.
Banca de Dezvoltare Regională a Rusiei analizează comportamentul deținătorilor de carduri din plastic. Acest lucru face posibilă identificarea tranzacțiilor care sunt atipice pentru un anumit client, crescând astfel probabilitatea detectării furtului de fonduri de pe cardurile de plastic.

Cu amănuntul
În Rusia, tehnologiile Big Data au fost implementate atât de companiile comerciale online, cât și offline. Astăzi, conform CNews Analytics, Big Data este folosit de 20% dintre retaileri. 75% dintre specialiști cu amănuntul consideră că Big Data este necesar pentru dezvoltarea unei strategii competitive de promovare a companiei. Potrivit statisticilor Hadoop, după implementarea tehnologiei Big Data, profiturile în organizațiile comerciale cresc cu 7-10%.
Specialiștii M.Video vorbesc despre planificarea logistică îmbunătățită după implementarea SAP HANA; de asemenea, ca urmare a implementării acestuia, întocmirea rapoartelor anuale a fost redusă de la 10 zile la 3, viteza de încărcare zilnică a datelor a fost redusă de la 3 ore la 3. 30 minute.
Wikimart folosește aceste tehnologii pentru a genera recomandări pentru vizitatorii site-ului.
Unul dintre primele magazine offline care a introdus analiza Big Data în Rusia a fost Lenta. Cu ajutorul Big Data, retailul a început să studieze informații despre clienți din chitanțele de casă. Retailerul colectează informații pentru a crea modele comportamentale, ceea ce face posibilă luarea unor decizii mai informate la nivel operațional și comercial.

Industria petrolului și gazelor
În această industrie, domeniul de aplicare al Big Data este destul de larg. Tehnologiile Big Data pot fi utilizate în extracția mineralelor din subsol. Cu ajutorul lor, puteți analiza procesul de extracție în sine și cele mai eficiente modalități de extragere, monitorizați procesul de foraj, analizați calitatea materiilor prime, precum și procesarea și comercializarea produsului final. În Rusia, Transneft și Rosneft au început deja să folosească aceste tehnologii.

Organisme guvernamentale
În țări precum Germania, Australia, Spania, Japonia, Brazilia și Pakistan, tehnologiile Big Data sunt folosite pentru a rezolva probleme naționale. Aceste tehnologii ajută autoritățile guvernamentale să ofere mai eficient servicii populației și să ofere sprijin social direcționat.
În Rusia, aceste tehnologii au început să fie stăpânite de asemenea organisme guvernamentale, cum ar fi Fondul de pensii, Serviciul fiscal federal și Fondul de asigurări obligatorii de sănătate. Potențialul de implementare a proiectelor folosind Big Data este mare; aceste tehnologii ar putea contribui la îmbunătățirea calității serviciilor și, ca urmare, a nivelului de viață al populației.

Logistica si transport
Big Data poate fi, de asemenea, utilizat companii de transport. Folosind tehnologiile Big Data, vă puteți urmări flota auto, puteți lua în considerare costurile cu combustibilul și puteți monitoriza solicitările clienților.
Căile Ferate Ruse au implementat tehnologiile Big Data împreună cu SAP. Aceste tehnologii au contribuit la reducerea timpului de pregătire a raportării de 43,5 ori (de la 14,5 ore la 20 de minute) și la creșterea acurateței distribuției costurilor de 40 de ori. Big Data a fost introdus și în procesele de planificare și reglementare a tarifelor. În total, companiile folosesc peste 300 de sisteme bazate pe soluții SAP, sunt implicate 4 centre de date, iar numărul de utilizatori este de 220.000.

Principalii factori și limitatori ai pieței
Motoarele pentru dezvoltarea tehnologiilor Big Data pe piața rusă sunt:
  • Interes crescut din partea utilizatorilor pentru capacitățile Big Data ca modalitate de creștere a competitivității unei companii;
  • Dezvoltarea metodelor de procesare a fișierelor media la nivel global;
  • Transferul serverelor care prelucrează informații personale pe teritoriul Rusiei, în conformitate cu legea adoptată privind stocarea și prelucrarea datelor cu caracter personal;
  • Implementarea planului industrial pentru înlocuirea importurilor de software. Acest plan include sprijin guvernamental pentru producătorii locali de software, precum și furnizarea de preferințe pentru produsele IT interne atunci când achiziționează pe cheltuială publică.
  • În noua situație economică, când cursul dolarului aproape s-a dublat, va exista o tendință spre o utilizare din ce în ce mai mare a serviciilor furnizorilor ruși de servicii cloud, mai degrabă decât a celor străini.
  • Crearea de parcuri tehnologice care să contribuie la dezvoltarea pieței tehnologiei informației, inclusiv a pieței Big Data;
  • Program de stat pentru implementarea sistemelor grid bazate pe tehnologii Big Data.

Principalele bariere în calea dezvoltării Big Data pe piața rusă sunt:

  • Asigurarea securității și confidențialității datelor;
  • Lipsa personalului calificat;
  • Acumulat insuficient resurse informaționale la nivelul Big Data în majoritatea companiile rusești;
  • Dificultăți în introducerea noilor tehnologii în sistemele informatice consacrate ale companiilor;
  • Costul ridicat al tehnologiilor Big Data, ceea ce duce la un număr limitat de întreprinderi care au posibilitatea de a implementa aceste tehnologii;
  • Incertitudine politică și economică, care a dus la ieșirea de capital și înghețarea proiectelor de investiții în Rusia;
  • Creșterea prețurilor la produsele importate și o creștere a inflației, potrivit IDC, încetinesc dezvoltarea întregii piețe IT.
Prognoza pietei rusesti
Începând de astăzi, piața Big Data din Rusia nu este la fel de populară ca în țările dezvoltate. Majoritatea companiilor ruse manifestă interes pentru aceasta, dar nu îndrăznesc să profite de oportunitățile lor.
Exemple de companii mari care au beneficiat deja de utilizarea tehnologiilor Big Data sunt o conștientizare sporită a capacităților acestor tehnologii.
Analiștii au și previziuni destul de optimiste în ceea ce privește piața rusă. IDC consideră că cota de piață a Rusiei va crește în următorii 5 ani, spre deosebire de piețele germane și japoneze.
Până în 2020, volumul de date mari din Rusia va crește de la actualul 1,8% la 2,2% din volumul global de date. Cantitatea de informații va crește, potrivit EMC, de la actualul 155 exabytes la 980 exabytes în 2020.
În acest moment, Rusia continuă să acumuleze volumul de informații la nivelul Big Data.
Potrivit unui sondaj CNews Analytics, 44% dintre companiile intervievate lucrează cu date de cel mult 100 terabytes* și doar 13% lucrează cu volume de peste 500 terabytes.

Cu toate acestea, piața rusă, urmând tendințele globale, va crește. Începând cu 2014, IDC estimează dimensiunea pieței la 340 de milioane de dolari.
Rata de creștere a pieței în anii precedenți a fost de 50% pe an; dacă rămâne la același nivel, atunci în 2018 volumul pieței va ajunge la 1,7 miliarde de dolari. Cota pieței ruse pe piața mondială va fi de aproximativ 3%, în creștere de la actualul 1,2%.

Cele mai susceptibile industrii la folosind Big Datele din Rusia includ:

  • Retail și bănci, pentru ei, analiza bazei de clienți și evaluarea efectului campaniilor de marketing sunt în primul rând importante;
  • Telecom – segmentarea bazei de clienți și monetizarea traficului;
  • Sectorul public – raportare, analiza aplicațiilor din partea publicului etc.;
  • Companii petroliere – monitorizarea lucrărilor și planificarea producției și vânzărilor;
  • Companii energetice – crearea de sisteme electrice inteligente, monitorizare și prognoză operațională.
În țările dezvoltate, Big Data s-a răspândit în domeniile asistenței medicale, asigurărilor, metalurgiei, companiilor de internet și întreprinderilor de producție; cel mai probabil, în viitorul apropiat, companiile rusești din aceste zone vor aprecia și efectul introducerii Big Data și se vor adapta. aceste tehnologii în industriile lor.
În Rusia, precum și în lume, în viitorul apropiat va exista o tendință către vizualizarea datelor, analiza fișierelor media și dezvoltarea Internetului lucrurilor.
În ciuda stagnării generale a economiei, în următorii ani, analiștii prevăd o creștere în continuare a pieței Big Data, în primul rând datorită faptului că utilizarea tehnologiilor Big Data oferă utilizatorilor săi un avantaj competitiv în ceea ce privește creșterea eficienței operaționale a afaceri, atragerea fluxului suplimentar de clienți, minimizarea riscurilor și implementarea tehnologiilor de prognoză a datelor.
Astfel, putem concluziona că segmentul Big Data din Rusia este în stadiul de formare, dar cererea pentru aceste tehnologii crește în fiecare an.

Principalele rezultate ale analizei pieței

Piața mondială
La sfârșitul anului 2014, piața Big Data este caracterizată de următorii parametri:
  • volumul pieței a fost de 28,5 miliarde de dolari SUA, în creștere cu 45% față de anul precedent;
  • majoritatea veniturilor pieței Big Data proveneau din servicii, ponderea acestora fiind egală cu 40% din veniturile totale;
  • 36% din venituri au provenit din aplicații și analize Big Data, 17% din echipamente de calcul și 15% din tehnologiile de stocare a datelor;
  • Cele mai populare pentru rezolvarea problemelor Big Data sunt platformele in-memory de la companii precum SAP, HANA și Oracle.
  • numărul companiilor cu proiecte implementate în domeniul managementului Big Data a crescut cu 125%;
Prognoza pieței pentru următorii ani este următoarea:
  • în 2015 volumul pieţei va ajunge la 38,4 miliarde dolari SUA, în 2020 – 68,7 miliarde dolari SUA;
  • rata medie de creștere va fi de 16% anual;
  • costurile medii ale companiei pentru tehnologiile Big Data vor fi de 13,8 milioane USD pentru companiile mari și 1,6 milioane USD pentru întreprinderile mici și mijlocii;
  • tehnologiile vor fi cele mai răspândite în domeniile de servicii pentru clienți și marketing direcționat;
  • În 2017, structura pieței globale se va schimba spre predominanța companiilor utilizatori din țările în curs de dezvoltare.
piata ruseasca
Piața Big Data din Rusia este în stadiul de formare, rezultatele anului 2014 sunt următoarele:
  • volumul pieței a ajuns la 340 milioane USD;
  • rata medie de creștere a pieței în anii anteriori a fost de 50% anual;
  • volumul total de informații acumulate a fost de 155 exaocteți;
  • 10% dintre companiile rusești au început să folosească tehnologiile Big Data;
  • Tehnologiile Big Data au fost mai populare în sectorul bancar, telecomunicații, companii de internet și retail.
Prognoza pieței ruse pentru următorii ani este următoarea:
  • volumul pieței ruse în 2015 va ajunge la 500 de milioane de dolari SUA, iar în 2018 – 1,7 miliarde de dolari;
  • ponderea pieței ruse pe piața globală va fi de aproximativ 3% în 2018;
  • cantitatea de date acumulate în 2020 va fi de 980 exaocteți;
  • volumul de date va crește la 2,2% din volumul global de date în 2020;
  • Tehnologiile pentru vizualizarea datelor, analiza fișierelor media și Internetul lucrurilor vor deveni cele mai populare.
Pe baza rezultatelor analizei, putem concluziona că piața Big Data se află încă în faze incipiente de dezvoltare, iar în viitorul apropiat vom vedea creșterea acesteia și extinderea capacităților acestor tehnologii.

Vă mulțumim pentru timpul acordat citirii acestei lucrări voluminoase, abonați-vă la blogul nostru - promitem multe publicații noi interesante!