Tehnologii moderne de procesare a datelor mari. Ce este Big Data: am colectat toate cele mai importante lucruri despre Big Data. Mituri și concepții greșite despre Big Data

Ce s-a întâmplat Date mare (literalmente - Date mare)? Să ne uităm mai întâi la dicționarul Oxford:

Date- cantități, semne sau simboluri pe care le operează un calculator și care pot fi stocate și transmise sub formă de semnale electrice, înregistrate pe suporturi magnetice, optice sau mecanice.

Termen Date mare folosit pentru a descrie un set mare de date care crește exponențial în timp. Pentru a procesa o asemenea cantitate de date, nu te poți lipsi.

Beneficiile pe care le oferă Big Data:

  1. Colectarea datelor din diverse surse.
  2. Îmbunătățirea proceselor de afaceri prin analize în timp real.
  3. Stocarea unor cantități uriașe de date.
  4. Perspective. Big Data este mai perspicace informații ascunse folosind date structurate și semistructurate.
  5. Big Data vă ajută să reduceți riscurile și să luați decizii inteligente cu analiza de risc adecvată

Exemple de date mari

Bursa de Valori din New York generează zilnic 1 terabyte datele de tranzacționare pentru sesiunea trecută.

Rețelele de socializare: Statisticile arată că Facebook încarcă în fiecare zi 500 terabytes date noi sunt generate în principal din cauza încărcării de fotografii și videoclipuri pe serverele rețelelor sociale, mesaje, comentarii sub postări și așa mai departe.

Motor turboreactor generează 10 terabytes date la fiecare 30 de minute în timpul zborului. Deoarece mii de zboruri sunt efectuate în fiecare zi, volumul de date ajunge la petabytes.

Clasificarea Big Data

Formulare de date mari:

  • Structurat
  • Nestructurat
  • Semi-structurat

Forma structurata

Datele care pot fi stocate, accesate și prelucrate într-un formular cu format fix se numesc structurate. Dupa o perioada lunga de timp informatică atins mare succesîn îmbunătățirea tehnicilor de lucru cu acest tip de date (unde formatul este cunoscut dinainte) și a învățat cum să beneficieze. Cu toate acestea, astăzi există deja probleme asociate cu creșterea volumelor la dimensiuni măsurate în intervalul mai multor zettabytes.

1 zettabyte este egal cu un miliard de terabytes

Privind aceste cifre, este ușor de observat veridicitatea termenului Big Data și dificultățile asociate cu procesarea și stocarea unor astfel de date.

Datele stocate într-o bază de date relațională sunt structurate și arată ca, de exemplu, tabele ale angajaților companiei

Formă nestructurată

Datele cu structură necunoscută sunt clasificate ca nestructurate. Pe lângă dimensiunea sa mare, această formă se caracterizează printr-o serie de dificultăți în procesare și îndepărtare. Informatii utile. Un exemplu tipic de date nestructurate este o sursă eterogenă care conține o combinație de simple fișiere text, poze și videoclipuri. Astăzi, organizațiile au acces la cantități mari de date brute sau nestructurate, dar nu știu cum să extragă valoare din acestea.

Formă semistructurată

Această categorie conține ambele dintre cele descrise mai sus, astfel încât datele semi-structurate au o anumită formă, dar nu sunt definite de fapt de tabelele din bazele de date relaționale. Un exemplu al acestei categorii sunt datele personale prezentate într-un fișier XML.

Prashant RaoMasculin35 Seema R.Femeie41 Satish ManeMasculin29 Subrato RoyMasculin26 Ieremia J.Masculin35

Caracteristicile Big Data

Creșterea Big Data în timp:

Culoarea albastră reprezintă datele structurate (date Enterprise), care sunt stocate în baze de date relaționale. Alte culori indică date nestructurate din diferite surse (telefonie IP, dispozitive și senzori, rețele sociale și aplicații web).

Potrivit Gartner, Big Data variază în ceea ce privește volumul, rata de generare, varietate și variabilitate. Să aruncăm o privire mai atentă asupra acestor caracteristici.

  1. Volum. Termenul Big Data în sine este asociat cu dimensiunea mare. Mărimea datelor este o măsură critică în determinarea valorii potențiale de extras. În fiecare zi, 6 milioane de oameni folosesc media digitală, generând aproximativ 2,5 chintilioane de octeți de date. Prin urmare, volumul este prima caracteristică de luat în considerare.
  2. Diversitate- următorul aspect. Se referă la surse eterogene și la natura datelor, care pot fi fie structurate, fie nestructurate. Anterior, foile de calcul și bazele de date erau singurele surse de informații luate în considerare în majoritatea aplicațiilor. Astăzi, datele sub formă de e-mailuri, fotografii, videoclipuri, fișiere PDF și audio sunt, de asemenea, luate în considerare în aplicațiile analitice. Această varietate de date nestructurate duce la probleme în stocare, extragere și analiză: 27% dintre companii nu sunt sigure că lucrează cu datele potrivite.
  3. Viteza de generare. Cât de repede sunt acumulate și procesate datele pentru a îndeplini cerințele determină potențialul. Viteza determină viteza fluxului de informații din surse - procese de afaceri, jurnalele de aplicații, rețele sociale și site-uri media, senzori, dispozitive mobile. Fluxul de date este imens și continuu în timp.
  4. Variabilitate descrie variabilitatea datelor în anumite momente în timp, ceea ce complică procesarea și gestionarea. De exemplu, majoritatea datelor sunt de natură nestructurată.

Analiza Big Data: care sunt beneficiile big data

Promovarea bunurilor si serviciilor: Accesul la date din motoarele de căutare și site-uri precum Facebook și Twitter permite companiilor să dezvolte mai precis strategii de marketing.

Îmbunătățirea serviciului pentru clienți: Sistemele tradiționale de feedback ale clienților sunt înlocuite cu altele noi care utilizează Big Data și procesarea limbajului natural pentru a citi și evalua feedback-ul clienților.

Calculul riscului asociate cu lansarea unui nou produs sau serviciu.

Eficienta operationala: big data este structurat pentru a extrage rapid informațiile necesare și a produce rapid rezultate precise. Această combinație de Big Data și tehnologii de stocare ajută organizațiile să-și optimizeze munca cu informații rar utilizate.

Big data (sau Big Data) este un set de metode de lucru cu volume uriașe de informații structurate sau nestructurate. Specialiștii în big data le procesează și analizează pentru a obține rezultate vizuale, perceptibile de om. Look At Me a discutat cu profesioniști și a aflat care este situația cu procesarea datelor mari în Rusia, unde și ce este cel mai bine de studiat pentru cei care doresc să lucreze în acest domeniu.

Alexey Ryvkin despre principalele tendințe în domeniul big data, comunicarea cu clienții și lumea numerelor

Am studiat la Institutul de Tehnologie Electronică din Moscova. Principalul lucru pe care am reușit să-l iau de acolo au fost cunoștințele fundamentale în fizică și matematică. Concomitent cu studiile, am lucrat la centrul de cercetare și dezvoltare, unde am fost implicat în dezvoltarea și implementarea algoritmilor de codare rezistenți la zgomot pentru transmiterea securizată a datelor. După ce am terminat licența, am intrat la programul de master în informatică de afaceri la Școala Superioară de Științe Economice. După aceea am vrut să lucrez la IBS. Am avut noroc că la vremea aceea, datorită unui număr mare de proiecte, a existat o recrutare suplimentară de stagiari, iar după mai multe interviuri am început să lucrez la IBS, una dintre cele mai mari companii rusești în acest domeniu. În trei ani, am trecut de la stagiar la arhitect de soluții pentru întreprinderi. În prezent, dezvolt expertiză în tehnologiile Big Data pentru companii clienți din sectorul financiar și al telecomunicațiilor.

Există două specializări principale pentru persoanele care doresc să lucreze cu big data: analiștii și consultanții IT care creează tehnologii pentru a lucra cu big data. În plus, putem vorbi și despre profesia de Big Data Analyst, adică oameni care lucrează direct cu date, cu platforma IT a clientului. Anterior, aceștia erau analiști matematici obișnuiți care cunoșteau statistică și matematică și foloseau software statistic pentru a rezolva problemele de analiză a datelor. Astăzi, pe lângă cunoștințele de statistică și matematică, este necesară și înțelegerea tehnologiei și a ciclului de viață al datelor. Aceasta, după părerea mea, este diferența dintre analiștii de date moderni și acei analiști care au venit înainte.

Specializarea mea este consultanta IT, adica vin si ofer clientilor modalitati de rezolvare a problemelor de business folosind tehnologii IT. La consultanță vin persoane cu experiențe diferite, dar cele mai importante calități pentru această profesie sunt capacitatea de a înțelege nevoile clientului, dorința de a ajuta oamenii și organizațiile, bunele abilități de comunicare și echipă (din moment ce se lucrează mereu cu clientul și într-o echipă), bune abilități analitice. Motivația internă este foarte importantă: lucrăm într-un mediu competitiv, iar clientul așteaptă soluții neobișnuite și interes pentru muncă.

Cea mai mare parte a timpului meu o petrec comunicând cu clienții, formalizându-le nevoile de afaceri și ajutându-i să dezvolte cea mai potrivită arhitectură tehnologică. Criteriile de selecție aici au propria lor particularitate: pe lângă funcționalitate și TCO (costul total de proprietate), cerințele nefuncționale pentru sistem sunt foarte importante, cel mai adesea acestea sunt timpul de răspuns și timpul de procesare a informațiilor. Pentru a convinge clientul, folosim adesea o abordare a dovadă a conceptului - oferim să „testăm” tehnologia gratuit pe o anumită sarcină, pe un set restrâns de date, pentru a ne asigura că tehnologia funcționează. Soluția ar trebui să creeze un avantaj competitiv pentru client prin obținerea de beneficii suplimentare (de exemplu, vânzări x, vânzări încrucișate) sau să rezolve un fel de problemă de afaceri, să zicem, să reducă nivelul ridicat de fraudă a creditelor.

Ar fi mult mai ușor dacă clienții ar veni cu o sarcină gata făcută, dar până acum nu înțeleg că a apărut o tehnologie revoluționară care poate schimba piața în câțiva ani

Cu ce ​​probleme te confrunți? Piața nu este încă pregătită să folosească tehnologiile de date mari. Ar fi mult mai ușor dacă clienții ar veni cu o sarcină gata făcută, dar până acum nu înțeleg că a apărut o tehnologie revoluționară care poate schimba piața în câțiva ani. Acesta este motivul pentru care lucrăm în esență în modul de pornire - nu vindem doar tehnologii, ci de fiecare dată convingem clienții că trebuie să investească în aceste soluții. Aceasta este poziția vizionarilor - le arătăm clienților cum își pot schimba afacerea folosind date și IT. Creăm această nouă piață - piața de consultanță IT comercială în domeniul Big Data.

Dacă o persoană dorește să se angajeze în analiza datelor sau consultanță IT în domeniul Big Data, atunci primul lucru important este o educație matematică sau tehnică cu o bună pregătire matematică. De asemenea, este util să stăpânești tehnologii specifice, de exemplu SAS, Hadoop, limbajul R sau soluții IBM. În plus, trebuie să vă interesați în mod activ sarcini aplicate pentru Big Data - de exemplu, modul în care poate fi utilizat pentru a îmbunătăți scorul de credit într-o bancă sau în managementul ciclului de viață al clienților. Aceasta și alte cunoștințe pot fi obținute din surse disponibile: de exemplu, Coursera și Big Data University. Există, de asemenea, Customer Analytics Initiative de la Universitatea Wharton din Pennsylvania, unde au fost publicate o mulțime de materiale interesante.

O problemă majoră pentru cei care doresc să lucreze în domeniul nostru este lipsa clară de informații despre Big Data. Nu poți să mergi la o librărie sau un site web și să obții, de exemplu, o colecție cuprinzătoare de cazuri despre toate aplicațiile tehnologiilor Big Data în bănci. Nu există astfel de directoare. O parte din informații se află în cărți, altele sunt culese la conferințe, iar altele trebuie să-ți dai seama singur.

O altă problemă este că analiștii se simt confortabil în lumea numerelor, dar nu sunt întotdeauna confortabili în afaceri. Acești oameni sunt adesea introvertiți și au dificultăți în comunicare, ceea ce le face dificil să comunice concluziile cercetării în mod convingător clienților. Pentru a dezvolta aceste abilități, aș recomanda cărți precum Principiul piramidei, Vorbiți limbajul diagramelor. Ele ajută la dezvoltarea abilităților de prezentare și la exprimarea concis și clar a gândurilor.

Participarea la diverse campionate de caz în timp ce studiam la Școala Superioară de Economie a Universității Naționale de Cercetare m-a ajutat foarte mult. Campionatele de caz sunt competiții intelectuale pentru studenți în care trebuie să studieze problemele de afaceri și să le propună soluții. Există două tipuri: campionate de caz ale firmelor de consultanță, de exemplu, McKinsey, BCG, Accenture, precum și campionate de caz independente, cum ar fi Changellenge. În timpul participării la acestea, am învățat să văd și să rezolv probleme complexe - de la identificarea unei probleme și structurarea acesteia până la apărarea recomandărilor pentru soluționarea acesteia.

Oleg Mikhalsky despre piața rusă și specificul creării unui nou produs în domeniul big data

Înainte de a mă alătura Acronis, eram deja implicat în lansarea de noi produse pe piață la alte companii. Este întotdeauna interesant și provocator în același timp, așa că am fost imediat interesat de oportunitatea de a lucra la servicii cloud și soluții de stocare a datelor. Toată experiența mea anterioară în industria IT, inclusiv propriul meu proiect de pornire I-accelerator, a fost utilă în acest domeniu. A ajutat, de asemenea, să ai o educație în afaceri (MBA) pe lângă o diplomă de bază de inginerie.

În Rusia, marile companii - bănci, operatori de telefonie mobilă etc. - au nevoie de analiză de big data, așa că la noi există perspective pentru cei care vor să lucreze în acest domeniu. Adevărat, multe proiecte acum sunt proiecte de integrare, adică realizate pe baza dezvoltărilor străine sau a tehnologiilor open source. În astfel de proiecte, nu sunt create abordări și tehnologii fundamental noi, ci mai degrabă sunt adaptate dezvoltările existente. La Acronis am luat o altă cale și, după ce am analizat alternativele disponibile, am decis să investim în propria noastră dezvoltare, rezultând un sistem depozitare sigură pentru big data, care nu este inferior ca cost, de exemplu, Amazon S3, dar funcționează fiabil și eficient și la o scară semnificativ mai mică. Companiile mari de internet au, de asemenea, propriile evoluții în ceea ce privește datele mari, dar se concentrează mai mult pe nevoile interne decât pe nevoile clienților externi.

Este important să înțelegem tendințele și forțele economice care influențează domeniul big data. Pentru a face acest lucru, trebuie să citiți mult, să ascultați discursurile experților autorizați din industria IT și să participați la conferințe tematice. Acum aproape fiecare conferință are o secțiune despre Big Data, dar toți vorbesc despre asta dintr-un unghi diferit: din punct de vedere al tehnologiei, al afacerii sau al marketingului. Poti sa te duci la munca de proiect sau un stagiu la o companie care conduce deja proiecte pe această temă. Dacă ești încrezător în abilitățile tale, atunci nu este prea târziu să organizezi un startup în domeniul Big Data.

Fără contact constant cu piața noua dezvoltare riscă să fie nerevendicată

Este adevărat când ești la conducere Produs nou, se alocă mult timp analizei pieței și comunicării cu potențiali clienți, parteneri, analiști profesioniști care știu multe despre clienți și nevoile acestora. Fără contact constant cu piața, o nouă dezvoltare riscă să fie nerevendicată. Există întotdeauna o mulțime de incertitudini: trebuie să vă dați seama cine vor fi primii care vor adopta, ce aveți de oferit și cum să atrageți apoi un public în masă. A doua cea mai importantă sarcină este de a formula și transmite dezvoltatorilor o viziune clară și holistică asupra produsului final pentru a-i motiva să lucreze în astfel de condiții când unele cerințe se mai pot schimba, iar prioritățile depind de feedback-ul venit de la primii clienți. Prin urmare, o sarcină importantă este gestionarea așteptărilor clienților, pe de o parte, și dezvoltatorilor, pe de altă parte. Pentru ca nici unul, nici celălalt să nu-și piardă interesul și să ducă proiectul la final. După primul proiect de succes, devine mai ușor și principala provocare va fi găsirea modelului de creștere potrivit pentru noua afacere.

S-a prezis că volumul total global de date create și replicate în 2011 ar putea fi de aproximativ 1,8 zettabytes (1,8 trilioane de gigaocteți) - de aproximativ 9 ori mai mult decât ceea ce a fost creat în 2006.

Definiție mai complexă

Totuși` Date mare` implică mai mult decât doar analiza unor cantități uriașe de informații. Problema nu este că organizațiile creează cantități uriașe de date, ci că cele mai multe dintre acestea sunt prezentate într-un format care nu se potrivește bine cu formatul tradițional al bazei de date structurate - jurnalele web, videoclipurile, documente text, Codul mașinii sau, de exemplu, date geospațiale. Toate acestea sunt stocate în multe depozite diferite, uneori chiar și în afara organizației. Drept urmare, corporațiile pot avea acces la o cantitate imensă de date și să nu aibă instrumentele necesare pentru a stabili relații între aceste date și a trage concluzii semnificative din acestea. Adăugați la aceasta faptul că datele sunt acum actualizate din ce în ce mai frecvent și obțineți o situație în care metodele tradiționale de analiză a informațiilor nu pot ține pasul cu volumele uriașe de date actualizate în mod constant, ceea ce deschide calea spre tehnologie. Date mare.

Cea mai bună definiție

În esență conceptul Date mare presupune lucrul cu informații de un volum uriaș și compoziție diversă, de foarte multe ori actualizate și localizate în surse diferite pentru a crește eficiența operațională, a crea noi produse și a crește competitivitatea. Firma de consultanta Forrester ofera o scurta formulare: ` Date mare reunește tehnici și tehnologii care extrag sens din date la limitele extreme ale caracterului practic.

Cât de mare este diferența dintre analiza de afaceri și big data?

Craig Bathy, director executiv de marketing și director de tehnologie al Fujitsu Australia, a subliniat că analiza de afaceri este un proces descriptiv de analiză a rezultatelor obținute de o afacere într-o anumită perioadă de timp, în timp ce viteza de procesare Date mare vă permite să faceți analiza predictivă, capabilă să ofere recomandări de afaceri pentru viitor. Tehnologiile de date mari vă permit, de asemenea, să analizați mai multe tipuri de date decât instrumentele de business intelligence, ceea ce face posibilă concentrarea asupra mai multor depozite structurate.

Matt Slocum de la O'Reilly Radar crede că, deși Date mareși business analytics au același scop (găsirea răspunsurilor la o întrebare), diferă între ele în trei aspecte.

  • Big data este conceput pentru a gestiona volume mai mari de informații decât analizele de afaceri și acest lucru se potrivește cu siguranță definiției tradiționale a datelor mari.
  • Big Data este conceput pentru a gestiona informații mai rapid, care se schimbă mai rapid, ceea ce înseamnă explorare profundă și interactivitate. În unele cazuri, rezultatele sunt generate mai repede decât se încarcă pagina web.
  • Big Data este conceput pentru a procesa date nestructurate pe care abia începem să le explorăm cum să le folosim odată ce le-am putut colecta și stoca și avem nevoie de algoritmi și capacități de conversație pentru a facilita găsirea tendințelor conținute în aceste seturi de date.

Conform cărții albe „Oracle Information Architecture: An Architect’s Guide to Big Data” publicată de Oracle, atunci când lucrăm cu date mari, abordăm informațiile diferit decât atunci când efectuăm analize de afaceri.

Lucrul cu big data nu este ca procesul obișnuit de business intelligence, unde simpla adunare a valorilor cunoscute produce un rezultat: de exemplu, adunarea facturilor plătite devine vânzări pentru anul. Când se lucrează cu date mari, rezultatul este obținut în procesul de curățare a acestora prin modelare secvențială: în primul rând, se emite o ipoteză, se construiește un model statistic, vizual sau semantic, pe baza acestuia se verifică acuratețea ipotezei propuse. , iar apoi este prezentat următorul. Acest proces necesită ca cercetătorul fie să interpreteze semnificațiile vizuale, fie să construiască interogări interactive bazate pe cunoștințe, fie să dezvolte algoritmi adaptativi de „învățare automată” care pot produce rezultatul dorit. Mai mult, durata de viață a unui astfel de algoritm poate fi destul de scurtă.

Tehnici de analiză a datelor mari

Există multe metode diferite de analiză a seturilor de date, care se bazează pe instrumente împrumutate din statistică și informatică (de exemplu, învățarea automată). Lista nu se pretinde a fi completă, dar reflectă cele mai populare abordări din diverse industrii. Trebuie înțeles că cercetătorii continuă să lucreze la crearea de noi tehnici și îmbunătățirea celor existente. În plus, unele dintre tehnicile enumerate nu se aplică neapărat exclusiv datelor mari și pot fi utilizate cu succes pentru matrice mai mici (de exemplu, testarea A/B, analiza de regresie). Desigur, cu cât matricea este mai voluminoasă și mai diversificată, cu atât pot fi obținute date mai precise și mai relevante ca rezultat.

Testare A/B. O tehnică în care o probă de control este comparată alternativ cu altele. Astfel, este posibil să se identifice combinația optimă de indicatori pentru a obține, de exemplu, cel mai bun răspuns al consumatorului la o ofertă de marketing. Date mare permite pentru o cantitate mare iterații și obținem astfel un rezultat fiabil statistic.

Învățarea regulilor de asociere. Un set de tehnici de identificare a relațiilor, de ex. regulile de asociere, între variabilele din seturi mari de date. Folosit in extragerea datelor.

Clasificare. Un set de tehnici care vă permit să preziceți comportamentul consumatorului într-un anumit segment de piață (decizii de cumpărare, abandon, volumul de consum etc.). Folosit in extragerea datelor.

Analiza grupului. O metodă statistică de clasificare a obiectelor în grupuri prin identificarea caracteristicilor comune care nu sunt cunoscute în prealabil. Folosit in extragerea datelor.

Crowdsourcing. Metodologie de colectare a datelor dintr-un număr mare de surse.

Fuziunea și integrarea datelor. Un set de tehnici care vă permit să analizați comentariile utilizatorilor rețelelor sociale și să le comparați cu rezultatele vânzărilor în timp real.

Exploatarea datelor. Un set de tehnici care vă permit să determinați categoriile de consumatori cele mai sensibile la produsul sau serviciul promovat, să identificați caracteristicile celor mai de succes angajați și să preziceți modelul comportamental al consumatorilor.

Învățare prin ansamblu. Această metodă utilizează multe modele predictive, îmbunătățind astfel calitatea prognozelor făcute.

Algoritmi genetici. În această tehnică, soluțiile posibile sunt reprezentate sub formă de „cromozomi”, care pot fi combinați și mutați. La fel ca în procesul de evoluție naturală, cel mai apt individ supraviețuiește.

Învățare automată. O direcție în informatică (în mod istoric i s-a dat numele de „inteligență artificială”), care urmărește scopul de a crea algoritmi de auto-învățare bazați pe analiza datelor empirice.

Procesarea limbajului natural (NLP). Un set de tehnici de recunoaștere a limbajului uman natural împrumutat din informatică și lingvistică.

Analiza rețelei. Un set de tehnici pentru analiza conexiunilor dintre nodurile din rețele. În legătură cu rețelele sociale, vă permite să analizați relațiile dintre utilizatorii individuali, companii, comunități etc.

Optimizare. Un set de metode numerice pentru reproiectarea sistemelor și proceselor complexe pentru a îmbunătăți una sau mai multe valori. Ajută la luarea deciziilor strategice, de exemplu, componența liniei de produse care urmează să fie lansată pe piață, efectuarea analizei investiționale etc.

Recunoasterea formelor. Un set de tehnici cu elemente de auto-învățare pentru prezicerea modelului comportamental al consumatorilor.

Modelare predictivă. Un set de tehnici care vă permit să creați model matematic un scenariu probabil predeterminat pentru desfăşurarea evenimentelor. De exemplu, analiza bazei de date a sistemului CRM pentru posibilele condiții care vor determina abonații să schimbe furnizorii.

Regresia. Un set de metode statistice pentru identificarea unui model între modificările unei variabile dependente și una sau mai multe variabile independente. Adesea folosit pentru prognoză și previziuni. Folosit în data mining.

Analiza sentimentelor. Tehnicile de evaluare a sentimentului consumatorilor se bazează pe tehnologii de recunoaștere a limbajului natural. Acestea vă permit să izolați mesajele legate de subiectul de interes (de exemplu, un produs de consum) din fluxul de informații generale. Apoi, evaluați polaritatea judecății (pozitivă sau negativă), gradul de emoționalitate etc.

Procesare a semnalului. Un set de tehnici împrumutate din ingineria radio care urmărește recunoașterea unui semnal pe un fundal de zgomot și analiza ulterioară a acestuia.

Analiza spațială. Un set de metode de analiză a datelor spațiale, împrumutate parțial din statistici - topologia terenului, coordonatele geografice, geometria obiectului. Sursă Date mare Sistemele de informații geografice (GIS) sunt adesea folosite în acest caz.

Statistici. Știința colectării, organizării și interpretării datelor, inclusiv elaborarea de chestionare și efectuarea de experimente. Metodele statistice sunt adesea folosite pentru a face judecăți de valoare cu privire la relațiile dintre anumite evenimente.

Învățare supravegheată. Un set de tehnici bazate pe tehnologii de învățare automată care vă permit să identificați relații funcționale în seturile de date analizate.

Simulare. Modelarea comportamentului sistemelor complexe este adesea folosită pentru a prognoza, a prognoza și a lucra prin diverse scenarii în planificare.

Analiza serii temporale. Un set împrumutat din statistici și prelucrare digitală metode de semnal pentru analiza secvențelor de date repetate în timp. Unele aplicații evidente urmăresc piața de valori sau bolile pacienților.

Învățare nesupravegheată. Un set de tehnici bazate pe tehnologii de învățare automată care vă permit să identificați relații funcționale ascunse în seturile de date analizate. Are caracteristici comune cu Analiza grupului.

Vizualizarea. Metode de prezentare grafică a rezultatelor analizei big data sub formă de diagrame sau imagini animate pentru a simplifica interpretarea și a face rezultatele mai ușor de înțeles.


Reprezentarea vizuală a rezultatelor analizei big data este de o importanță fundamentală pentru interpretarea acestora. Nu este un secret pentru nimeni faptul că percepția umană este limitată, iar oamenii de știință continuă să efectueze cercetări în domeniul îmbunătățirii metode moderne Prezentarea datelor sub formă de imagini, diagrame sau animații.

Instrumente analitice

Începând cu 2011, unele dintre abordările enumerate în subsecțiunea anterioară sau o anumită combinație a acestora fac posibilă implementarea în practică a motoarelor analitice pentru lucrul cu big data. Printre sistemele deschise de analiză Big Data, gratuite sau relativ ieftine, vă putem recomanda:

  • Revolution Analytics (bazat pe limbajul R pentru statistici matematice).

Un interes deosebit pe această listă este Apache Hadoop, un software open source care a fost dovedit ca analizor de date de către majoritatea instrumentelor de urmărire a stocurilor în ultimii cinci ani. Imediat ce Yahoo a deschis codul Hadoop pentru comunitatea open source, o întreagă mișcare de creare a produselor bazate pe Hadoop a apărut imediat în industria IT. Aproape toate instrumentele moderne de analiză Date mare furniza instrumente de integrare Hadoop. Dezvoltatorii lor sunt atât startup-uri, cât și companii globale bine-cunoscute.

Piețe pentru soluții de management al datelor mari

Platformele Big Data (BDP, Big Data Platform) ca mijloc de combatere a hordingului digital

Capacitate de analiză Date mare, numită colocvial Big Data, este percepută ca un beneficiu și fără ambiguitate. Dar este chiar așa? La ce ar putea duce acumularea nestăpânită de date? Cel mai probabil la ceea ce psihologii domestici, în relație cu oamenii, numesc tezaurizare patologică, silogomanie sau, la figurat, „sindromul Plyushkin”. În engleză, pasiunea vicioasă de a colecta totul se numește hording (de la tezaurul englezesc - „stoc”). Conform clasificării bolilor mintale, hordingul este clasificat ca o tulburare mintală. În era digitală, tezaurizarea digitală se adaugă la acumularea tradițională de materiale; poate afecta atât indivizi, cât și întreprinderi și organizații întregi ().

Piața mondială și rusă

Big data Landscape - Furnizori principali

Interes pentru instrumentele de colectare, prelucrare, management și analiză Date mare Aproape toate companiile IT de top au demonstrat acest lucru, ceea ce este destul de firesc. În primul rând, ei întâlnesc direct acest fenomen în propria afacere și, în al doilea rând, Date mare deschide oportunități excelente pentru dezvoltarea de noi nișe de piață și atragerea de noi clienți.

Pe piață au apărut multe startup-uri care fac afaceri prin prelucrarea unor cantități uriașe de date. Unele dintre ele folosesc infrastructură cloud gata făcută, furnizată de jucători mari precum Amazon.

Teoria și practica Big Data în industrii

Istoria dezvoltării

2017

Prognoza TmaxSoft: următorul „val” de Big Data va necesita modernizarea DBMS

Companiile știu că marile cantități de date pe care le acumulează conțin informații importante despre afacerea lor și despre clienți. Dacă o companie poate aplica cu succes aceste informații, va avea un avantaj semnificativ față de concurenții săi și va putea oferi produse și servicii mai bune decât ale lor. Cu toate acestea, multe organizații încă nu reușesc să utilizeze eficient Date mare din cauza faptului că infrastructura lor IT moștenită nu este în măsură să ofere capacitatea necesară de stocare, procesele de schimb de date, utilitățile și aplicațiile necesare pentru a procesa și analiza cantități mari de date nestructurate pentru a extrage informații valoroase din acestea, a indicat TmaxSoft.

În plus, puterea crescută de procesare necesară pentru a analiza volume tot mai mari de date poate necesita investiții semnificative în infrastructura IT moștenită a unei organizații, precum și resurse suplimentare de întreținere care ar putea fi utilizate pentru a dezvolta noi aplicații și servicii.

Pe 5 februarie 2015, Casa Albă a lansat un raport care discuta despre modul în care companiile folosesc „ Date mare» de a percepe prețuri diferite către diferiți clienți, o practică cunoscută sub numele de „discriminare a prețurilor” sau „prețuri personalizate”. Raportul descrie beneficiile big data atât pentru vânzători, cât și pentru cumpărători, iar autorii acestuia concluzionează că multe probleme problematice problemele care decurg din apariția datelor mari și a prețurilor diferențiate pot fi abordate prin legile existente anti-discriminare și de protecție a consumatorilor.

Raportul notează că, în acest moment, există doar dovezi anecdotice ale modului în care companiile folosesc datele mari în contextul marketingului personalizat și al prețurilor diferențiate. Aceste informații arată că vânzătorii folosesc metode de stabilire a prețurilor care pot fi împărțite în trei categorii:

  • studiul curbei cererii;
  • Direcție și prețuri diferențiate pe baza datelor demografice; Și
  • marketing comportamental țintit (direcționare comportamentală) și prețuri individualizate.

Studierea curbei cererii: Pentru a determina cererea și a studia comportamentul consumatorilor, specialiștii în marketing efectuează adesea experimente în acest domeniu în care clienții sunt repartizați aleatoriu într-una dintre cele două categorii de preț posibile. „Din punct de vedere tehnic, aceste experimente sunt o formă de preț diferențial, deoarece au ca rezultat prețuri diferite pentru clienți, chiar dacă sunt „nediscriminatorii”, în sensul că toți clienții au aceeași probabilitate de a fi „trimiși” la un preț mai mare.”

Direcție: Este practica de a prezenta produse consumatorilor pe baza apartenenței acestora la un anumit grup demografic. Da, site compania de calculatoare poate oferi același laptop tipuri variate cumpărători la prețuri diferite în funcție de informațiile pe care le oferă despre ei înșiși (de exemplu, în funcție de faptul dacă utilizatorul este un reprezentant al agențiilor guvernamentale, al instituțiilor științifice sau comerciale sau al unei persoane fizice) sau în funcție de locația lor geografică (de exemplu, determinată de IP -adresa calculatorului).

Marketing comportamental țintit și prețuri personalizate: În aceste cazuri, informațiile personale ale clienților sunt folosite pentru a viza publicitatea și pentru a personaliza prețurile pentru anumite produse. De exemplu, agenții de publicitate online folosesc datele colectate de rețelele de publicitate și prin cookie-uri terță parte despre activitatea utilizatorilor online pentru a-și viza reclamele. Această abordare, pe de o parte, permite consumatorilor să primească reclame pentru bunuri și servicii de interes pentru aceștia, dar poate provoca îngrijorare pentru acei consumatori care nu doresc anumite tipuri de date personale (cum ar fi informații despre vizitele pe site-uri web). legate de chestiuni medicale și financiare) au fost colectate fără acordul acestora.

Deși marketingul comportamental țintit este larg răspândit, există relativ puține dovezi de stabilire a prețurilor personalizate în mediul online. Raportul speculează că acest lucru se poate datora faptului că metodele sunt încă în curs de dezvoltare sau pentru că companiile ezită să folosească prețuri personalizate (sau preferă să tacă) - poate temându-se de o reacție din partea consumatorilor.

Autorii raportului sugerează că „pentru consumatorul individual, utilizarea datelor mari prezintă în mod clar atât recompense, cât și riscuri potențiale”. Deși recunoaște că datele mari ridică probleme de transparență și discriminare, raportul susține că legile existente anti-discriminare și protecția consumatorilor sunt suficiente pentru a le rezolva. Cu toate acestea, raportul evidențiază și nevoia de „monitorizare continuă” acolo unde companiile folosesc informații confidențialeîntr-o manieră netransparentă sau în moduri care nu sunt acoperite de cadrul de reglementare existent.

Acest raport continuă eforturile Casei Albe de a examina utilizarea datelor mari și a prețurilor discriminatorii pe internet și consecințele care rezultă pentru consumatorii americani. S-a raportat anterior că Grupul de lucru Big Data de la Casa Albă și-a publicat raportul pe această problemă în mai 2014. Comisia Federală pentru Comerț (FTC) a abordat, de asemenea, aceste probleme în timpul atelierului său din septembrie 2014 privind discriminarea big data.

2014

Gartner risipește miturile despre Big Data

O notă de cercetare din toamna anului 2014 de la Gartner enumeră o serie de mituri comune despre Big Data în rândul liderilor IT și le oferă respingeri.

  • Toată lumea implementează sisteme de procesare Big Data mai rapid decât noi

Interesul pentru tehnologiile Big Data este la cote maxime: 73% dintre organizațiile chestionate de analiștii Gartner în acest an investesc deja sau plănuiesc să facă acest lucru. Dar majoritatea acestor inițiative sunt încă în faze foarte incipiente și doar 13% dintre respondenți au implementat deja astfel de soluții. Cel mai dificil lucru este să determinați cum să extrageți venituri din Big Data, să decideți de unde să începeți. Multe organizații rămân blocate în etapa pilot, deoarece nu se pot angaja tehnologie nouă la anumite procese de afaceri.

  • Avem atât de multe date încât nu trebuie să ne facem griji cu privire la erorile mici din ele

Unii manageri IT consideră că micile defecte ale datelor nu afectează rezultatele generale ale analizei unor volume uriașe. Când există o mulțime de date, fiecare eroare individuală are de fapt un impact mai mic asupra rezultatului, notează analiștii, dar erorile în sine devin și mai numeroase. În plus, majoritatea datelor analizate sunt externe, de structură sau origine necunoscută, astfel că probabilitatea erorilor crește. Deci, în lumea Big Data, calitatea este de fapt mult mai importantă.

  • Tehnologiile Big Data vor elimina necesitatea integrării datelor

Big Data promite capacitatea de a procesa datele în formatul său original, cu generarea automată a schemei pe măsură ce sunt citite. Se crede că acest lucru va permite ca informațiile din aceleași surse să fie analizate folosind mai multe modele de date. Mulți cred că acest lucru va permite și utilizatorilor finali să interpreteze orice set de date după cum consideră de cuviință. În realitate, majoritatea utilizatorilor doresc adesea modul tradițional cu o schemă gata făcută, în care datele sunt formatate corespunzător și există acorduri cu privire la nivelul de integritate al informațiilor și la modul în care acestea ar trebui să se raporteze la cazul de utilizare.

  • Nu are rost să folosiți depozitele de date pentru analize complexe

Mulți administratori de sisteme de management al informațiilor consideră că nu are rost să petrecem timp creând un depozit de date, având în vedere că sistemele analitice complexe se bazează pe noi tipuri de date. De fapt, multe sisteme de analiză complexe utilizează informații dintr-un depozit de date. În alte cazuri, noi tipuri de date trebuie pregătite suplimentar pentru analiză în sistemele de procesare Big Data; trebuie luate decizii cu privire la adecvarea datelor, principiile de agregare și nivelul necesar de calitate - o astfel de pregătire poate avea loc în afara depozitului.

  • Depozitele de date vor fi înlocuite cu lacuri de date

În realitate, vânzătorii induc în eroare clienții poziționând lacurile de date ca înlocuitor pentru stocare sau ca elemente critice ale infrastructurii analitice. Tehnologiilor care stau la baza lacurilor de date le lipsește maturitatea și amploarea funcționalității găsite în depozite. Prin urmare, managerii responsabili cu gestionarea datelor ar trebui să aștepte până când lacurile ating același nivel de dezvoltare, potrivit Gartner.

Accenture: 92% dintre cei care au implementat sisteme de big data sunt mulțumiți de rezultate

Printre principalele avantaje ale datelor mari, respondenții au numit:

  • „căutând noi surse de venit” (56%),
  • „îmbunătățirea experienței clienților” (51%),
  • „produse și servicii noi” (50%) și
  • „un aflux de clienți noi și menținerea loialității celor vechi” (47%).

La introducerea noilor tehnologii, multe companii se confruntă cu probleme tradiționale. Pentru 51%, piatra de poticnire a fost securitatea, pentru 47% - bugetul, pentru 41% - lipsa personalului necesar, iar pentru 35% - dificultăți de integrare cu sistem existent. Aproape toate companiile chestionate (aproximativ 91%) plănuiesc să rezolve în curând problema deficitului de personal și să angajeze specialiști în big data.

Companiile sunt optimiste cu privire la viitorul tehnologiilor de date mari. 89% cred că vor schimba afacerile la fel de mult ca internetul. 79% dintre respondenți au remarcat că companiile care nu se angajează în big data își vor pierde avantajul competitiv.

Cu toate acestea, respondenții nu au fost de acord cu privire la ce anume ar trebui să fie considerate date mari. 65% dintre respondenți cred că acestea sunt „fișiere de date mari”, 60% cred că aceasta este „analitică și analiză avansată”, iar 50% cred că acestea sunt „instrumente de vizualizare a datelor”.

Madrid cheltuiește 14,7 milioane de euro pe managementul datelor mari

În iulie 2014, a devenit cunoscut faptul că Madrid va folosi tehnologiile de date mari pentru a gestiona infrastructura orașului. Costul proiectului este de 14,7 milioane de euro, la baza soluțiilor implementate vor sta tehnologiile de analiză și gestionare a datelor mari. Cu ajutorul lor, administrația orașului va gestiona munca cu fiecare furnizor de servicii și va plăti corespunzător în funcție de nivelul serviciilor.

Vorbim de antreprenori administrației care monitorizează starea străzilor, iluminatului, irigațiilor, spațiilor verzi, curăță teritoriul și scot, precum și reciclarea deșeurilor. Pe parcursul proiectului au fost elaborați 300 de indicatori cheie de performanță pentru serviciile orașului pentru inspectorii special desemnați, în baza cărora se vor efectua zilnic 1,5 mii. diverse verificăriși măsurători. În plus, orașul va începe să utilizeze o platformă tehnologică inovatoare numită Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Experți: Big Data este la modă

Fără excepție, toți furnizorii de pe piața de management al datelor dezvoltă în prezent tehnologii pentru managementul Big Data. Această nouă tendință tehnologică este discutată activ și de comunitatea profesională, atât dezvoltatorii, cât și analiștii din industrie și potențialii consumatori ai unor astfel de soluții.

După cum a aflat Datashift, din ianuarie 2013, a existat un val de discuții în jurul „ Date mare„a depășit toate dimensiunile imaginabile. După ce a analizat numărul de mențiuni ale Big Data pe rețelele de socializare, Datashift a calculat că în 2012 termenul a fost folosit de aproximativ 2 miliarde de ori în postări create de aproximativ 1 milion de autori diferiți din întreaga lume. Acest lucru este echivalent cu 260 de postări pe oră, cu un vârf de 3.070 de mențiuni pe oră.

Gartner: În fiecare secundă CIO este gata să cheltuiască bani pe Big Data

După câțiva ani de experimentare cu tehnologiile Big data și primele implementări în 2013, adaptarea unor astfel de soluții va crește semnificativ, prezice Gartner. Cercetătorii au chestionat liderii IT din întreaga lume și au descoperit că 42% dintre respondenți au investit deja în tehnologiile Big Data sau intenționează să facă astfel de investiții în următorul an (date din martie 2013).

Companiile sunt nevoite să cheltuiască bani pe tehnologii de procesare Date mare, deoarece peisajul informațional se schimbă rapid, necesitând noi abordări ale procesării informațiilor. Multe companii și-au dat deja seama că cantitățile mari de date sunt critice, iar lucrul cu acestea le permite să obțină beneficii care nu sunt disponibile folosind surse tradiționale de informații și metode de procesare a acestora. În plus, discuția constantă a subiectului „big data” în mass-media alimentează interesul pentru tehnologiile relevante.

Frank Buytendijk, vicepreședinte la Gartner, a cerut chiar companiilor să-și diminueze eforturile, deoarece unii își fac griji că rămân în urmă concurenților în adoptarea Big Data.

„Nu este nevoie să vă faceți griji; posibilitățile de implementare a ideilor bazate pe tehnologiile de date mari sunt practic nelimitate”, a spus el.

Gartner prezice că până în 2015, 20% din companiile Global 1000 se vor concentra strategic pe „infrastructura informațională”.

În așteptarea noilor oportunități pe care le vor aduce tehnologiile de procesare a datelor mari, multe organizații organizează deja procesul de colectare și stocare a diferitelor tipuri de informații.

Pentru organizațiile educaționale și guvernamentale, precum și pentru companiile industriale, cel mai mare potențial de transformare a afacerii constă în combinarea datelor acumulate cu așa-numitele date întunecate (literalmente „date întunecate”), acestea din urmă includ mesaje. E-mail, multimedia și alte conținuturi similare. Potrivit Gartner, câștigătorii în cursa de date vor fi cei care învață să se descurce cel mai mult surse diferite informație.

Sondaj Cisco: Big Data va ajuta la creșterea bugetelor IT

Raportul Cisco Connected World Technology din primăvara anului 2013, realizat în 18 țări de firma independentă de cercetare InsightExpress, a chestionat 1.800 de studenți și un număr egal de tineri profesioniști cu vârste cuprinse între 18 și 30 de ani. Sondajul a fost realizat pentru a afla nivelul de pregătire al departamentelor IT de a implementa proiecte Date mareși obțineți o perspectivă asupra provocărilor implicate, a deficiențelor tehnologice și a valorii strategice a unor astfel de proiecte.

Majoritatea companiilor colectează, înregistrează și analizează date. Cu toate acestea, se arată în raport, multe companii se confruntă cu o serie de provocări complexe de afaceri și tehnologia informației cu Big Data. De exemplu, 60 la sută dintre respondenți admit că soluțiile Big Data pot îmbunătăți procesele de luare a deciziilor și pot crește competitivitatea, dar doar 28 la sută au spus că primesc deja beneficii strategice reale din informațiile acumulate.

Mai mult de jumătate dintre directorii IT intervievați consideră că proiectele Big Data vor contribui la creșterea bugetelor IT în organizațiile lor, deoarece vor exista cerințe sporite în ceea ce privește tehnologia, personalul și competențele profesionale. În același timp, mai mult de jumătate dintre respondenți se așteaptă ca astfel de proiecte să crească bugetele IT în companiile lor încă din 2012. 57% sunt încrezători că Big Data își va crește bugetele în următorii trei ani.

81% dintre respondenți au spus că toate (sau cel puțin unele) proiectele Big Data vor necesita utilizarea cloud computing. Astfel, răspândirea tehnologiilor cloud poate afecta viteza de adoptare a soluțiilor Big Data și valoarea de afaceri a acestor soluții.

Companiile colectează și utilizează multe tipuri diferite de date, atât structurate, cât și nestructurate. Iată sursele din care participanții la sondaj își primesc datele (Raportul Cisco Connected World Technology):

Aproape jumătate (48%) dintre liderii IT prevăd că sarcina rețelelor lor se va dubla în următorii doi ani. (Acest lucru este valabil mai ales în China, unde 68 la sută dintre respondenți împărtășesc această părere, iar în Germania – 60 la sută). 23% dintre respondenți se așteaptă ca încărcarea rețelei să se tripleze în următorii doi ani. În același timp, doar 40% dintre respondenți și-au declarat că sunt pregătiți pentru o creștere explozivă a volumelor de trafic în rețea.

27% dintre respondenți au recunoscut că au nevoie de politici IT mai bune și măsuri de securitate a informațiilor.

21% au nevoie de mai multă lățime de bandă.

Big Data deschide noi oportunități pentru departamentele IT de a adăuga valoare și de a construi relații puternice cu unitățile de afaceri, permițându-le să crească veniturile și să consolideze poziția financiară a companiei. Proiectele Big Data fac din departamentele IT un partener strategic pentru departamentele de afaceri.

Potrivit a 73% dintre respondenți, departamentul IT va deveni principalul motor al implementării strategiei Big Data. În același timp, respondenții consideră că în implementarea acestei strategii vor fi implicate și alte departamente. În primul rând, aceasta se referă la departamentele de finanțe (numite de 24 la sută dintre respondenți), cercetare și dezvoltare (20 la sută), operațiuni (20 la sută), inginerie (19 la sută), precum și marketing (15 la sută) și vânzări ( 14 la sută).

Gartner: Sunt necesare milioane de noi locuri de muncă pentru gestionarea datelor mari

Cheltuielile globale pentru IT vor ajunge la 3,7 miliarde USD până în 2013, ceea ce este cu 3,8% mai mult decât cheltuielile pentru tehnologia informației în 2012 (prognoza de la sfârșitul anului este de 3,6 miliarde USD). Segment Date mare(datele mari) se vor dezvolta într-un ritm mult mai rapid, spune un raport Gartner.

Până în 2015, vor fi create 4,4 milioane de locuri de muncă în tehnologia informației pentru a deservi big data, dintre care 1,9 milioane de locuri de muncă vor fi în . Mai mult, fiecare la locul de muncă va presupune crearea a trei locuri de muncă suplimentare în afara sectorului IT, astfel încât doar în Statele Unite ale Americii în următorii patru ani 6 milioane de oameni vor lucra pentru susținerea economiei informaționale.

Potrivit experților Gartner, problema principala Problema este că nu există suficient talent în industrie pentru asta: atât sistemele de învățământ privat, cât și cele publice, de exemplu în SUA, nu sunt capabile să furnizeze industriei un număr suficient de personal calificat. Deci, dintre noile locuri de muncă IT menționate, doar unul din trei va fi angajat.

Analiștii consideră că rolul de a cultiva personal IT calificat ar trebui să fie preluat direct de companiile care au nevoie urgentă de ele, deoarece astfel de angajați vor fi biletul lor către noua economie informațională a viitorului.

2012

Primul scepticism cu privire la „Big Data”

Analiștii de la Ovum și Gartner sugerează că pentru un subiect la modă în 2012 Date mare Poate veni timpul să te eliberezi de iluzii.

Termenul „Big Data” în acest moment se referă de obicei la volumul în continuă creștere de informații care intră în modul de operare din rețelele sociale, rețelele de senzori și alte surse, precum și o gamă tot mai mare de instrumente utilizate pentru a procesa date și a identifica tendințele importante de afaceri din acestea.

„Din cauza (sau în ciuda) hype-ului în jurul ideii de big data, producătorii în 2012 au privit această tendință cu mare speranță”, a spus Tony Bayer, analist la Ovum.

Bayer a raportat că DataSift a efectuat o analiză retrospectivă a mențiunilor de date mari în

Moscow_Exchange 6 mai 2015 la 20:38

Prezentare generală analitică a pieței Big Data

  • Blogul companiei Moscow Exchange,
  • Date mare

"Date mare" este un subiect care este discutat activ de companiile de tehnologie. Unii dintre ei au devenit dezamăgiți de big data, în timp ce alții, dimpotrivă, profită la maximum de ele pentru afaceri... O nouă revizuire analitică a pieței autohtone și globale de Big Data, pregătită de Moscow Exchange împreună cu analiștii IPOboard , arată ce tendințe sunt cele mai relevante acum pe piață. Sperăm că informațiile vor fi interesante și utile.

CE SUNT BIG DATA?

Caracteristici cheie
Big Data este în prezent unul dintre motoarele cheie ale dezvoltării tehnologiei informației. Această direcție, relativ nouă pentru afacerile rusești, a devenit larg răspândită în țările occidentale. Acest lucru se datorează faptului că în era tehnologiei informației, mai ales după boom-ul rețelelor sociale, a început să se acumuleze o cantitate semnificativă de informații pentru fiecare utilizator de internet, ceea ce a dat naștere în cele din urmă la dezvoltarea Big Data.

Termenul „Big Data” provoacă multe controverse; mulți cred că înseamnă doar cantitatea de informații acumulate, dar nu ar trebui să uităm de partea tehnică; această zonă include tehnologii de stocare, calcul și servicii.

De remarcat faptul că acest domeniu include prelucrarea unei cantități mari de informații, care este dificil de prelucrat prin metode tradiționale*.

Mai jos este un tabel de comparație între bazele de date tradiționale și Big Data.

Domeniul Big Data se caracterizează prin următoarele caracteristici:
Volum – volum, baza de date acumulată reprezintă o cantitate mare de informații, care necesită multă muncă de prelucrat și stocat în moduri tradiționale, acestea necesită noua abordareși instrumente îmbunătățite.
Viteză – viteza, acest atribut indică atât viteza în creștere de acumulare a datelor (90% din informațiile au fost colectate în ultimii 2 ani), cât și viteza de prelucrare a datelor; tehnologiile de prelucrare a datelor în timp real au devenit recent mai solicitate.
varietate – diversitatea, adică capacitatea de a procesa simultan informații structurate și nestructurate de diferite formate. Principala diferență dintre informațiile structurate este că acestea pot fi clasificate. Un exemplu de astfel de informații ar fi informații despre tranzacțiile clienților.
Informațiile nestructurate includ fișiere video, audio, text liber, informații care provin din rețelele sociale. Astăzi, 80% din informații sunt nestructurate. Aceasta informatie are nevoie de analize complexe pentru a o face utilă pentru prelucrarea ulterioară.
Veracitatea – fiabilitatea datelor, utilizatorii au început să acorde o importanță tot mai mare fiabilității datelor disponibile. Astfel, companiile de internet au o problemă în separarea acțiunilor efectuate de un robot și de o persoană pe site-ul companiei, ceea ce duce în cele din urmă la dificultăți în analiza datelor.
Valoare – valoarea informaţiei acumulate. Big Data trebuie să fie utile companiei și să îi aducă ceva valoare. De exemplu, ajutați la îmbunătățirea proceselor de afaceri, raportarea sau optimizarea costurilor.

Dacă sunt îndeplinite cele 5 condiții de mai sus, volumele acumulate de date pot fi clasificate ca mari.

Domenii de aplicare ale Big Data

Domeniul de utilizare a tehnologiilor Big Data este extins. Astfel, cu ajutorul Big Data, puteți afla despre preferințele clienților, eficacitatea campaniilor de marketing sau puteți efectua analize de risc. Mai jos sunt rezultatele unui sondaj realizat de Institutul IBM privind domeniile de utilizare a Big Data în companii.

După cum se poate observa din diagramă, majoritatea companiilor folosesc Big Data în domeniul serviciului clienți, a doua cea mai populară zonă este eficiența operațională; în domeniul managementului riscului, Big Data este mai puțin frecventă în acest moment.

De asemenea, trebuie remarcat faptul că Big Data este una dintre domeniile cu cea mai rapidă creștere ale tehnologiei informației; conform statisticilor, cantitatea totală de date primite și stocate se dublează la fiecare 1,2 ani.
Între 2012 și 2014, cantitatea de date transferate lunar de rețelele mobile a crescut cu 81%. Potrivit estimărilor Cisco, în 2014 volumul traficului mobil a fost de 2,5 exaocteți (o unitate de măsură a cantității de informații egală cu 10^18 octeți standard) pe lună, iar în 2019 va fi egal cu 24,3 exaocteți.
Astfel, Big Data este un domeniu deja consacrat al tehnologiei, chiar și în ciuda vârstei sale relativ fragede, care s-a răspândit în multe domenii de afaceri și joacă un rol important în dezvoltarea companiilor.

Tehnologii Big Data
Tehnologiile utilizate pentru colectarea și procesarea Big Data pot fi împărțite în 3 grupe:
  • Software;
  • Echipamente;
  • Servicii.

Cele mai comune abordări de prelucrare a datelor (DP) includ:
SQL - limba interogări structurate, permițându-vă să lucrați cu baze de date. CU folosind SQL Datele pot fi create și modificate, iar matricea de date este gestionată de un sistem adecvat de gestionare a bazelor de date.
NoSQL – termenul înseamnă Not Only SQL (nu numai SQL). Include o serie de abordări care vizează implementarea unei baze de date care diferă de modelele utilizate în SGBD relațional. Sunt convenabile de utilizat atunci când structura datelor este în continuă schimbare. De exemplu, pentru a colecta și stoca informații pe rețelele sociale.
MapReduce – model de distribuție de calcul. Este folosit pentru calcul paralel peste seturi de date foarte mari (petabytes* sau mai mult). Într-o interfață de program, nu datele sunt transferate către program pentru procesare, ci programul către date. Astfel, cererea este un program separat. Principiul de funcționare este procesarea secvenţială a datelor folosind două metode: Mapă şi Reducere. Harta selectează datele preliminare, Reduce le agrega.
Hadoop – folosit pentru a implementa mecanisme de căutare și contextuale pentru site-uri cu încărcare mare - Facebook, eBay, Amazon, etc. O caracteristică distinctivă este că sistemul este protejat împotriva defecțiunii oricăruia dintre nodurile clusterului, deoarece fiecare bloc are cel puțin o copie a date pe alt nod.
SAP HANA – platformă NewSQL de înaltă performanță pentru stocarea și procesarea datelor. Oferă de mare viteză procesarea cererilor. O altă caracteristică distinctivă este că SAP HANA simplifică peisajul sistemului, reducând costul suportării sistemelor analitice.

Echipamentele tehnologice includ:

  • servere;
  • echipamente de infrastructură.
Serverele includ stocarea datelor.
Echipamentele de infrastructură includ instrumente de accelerare a platformei, surse de alimentare neîntreruptibile, seturi de console de server etc.

Servicii.
Serviciile includ servicii pentru construirea arhitecturii unui sistem de baze de date, aranjarea și optimizarea infrastructurii și asigurarea securității stocării datelor.

Software-ul, hardware-ul și serviciile formează împreună platforme cuprinzătoare pentru stocarea și analiza datelor. Companii precum Microsoft, HP, EMC oferă servicii pentru dezvoltarea, implementarea și gestionarea soluțiilor Big Data.

Aplicații în industrii
Big Data a devenit larg răspândită în multe sectoare de afaceri. Ele sunt utilizate în domeniul sănătății, telecomunicații, comerț, logistică, companii financiare, precum și în administrația guvernamentală.
Mai jos sunt câteva exemple de aplicații Big Data în unele industrii.

Cu amănuntul
Bazele de date ale magazinelor de vânzare cu amănuntul pot acumula o mulțime de informații despre clienți, sisteme de gestionare a stocurilor și livrări de produse comerciale. Aceste informații pot fi utile în toate domeniile de activitate ale magazinului.

Astfel, cu ajutorul informațiilor acumulate, puteți gestiona aprovizionarea cu bunuri, depozitarea și vânzarea acestora. Pe baza informațiilor acumulate, este posibil să se prezică cererea și oferta de bunuri. De asemenea, un sistem de procesare și analiză a datelor poate rezolva și alte probleme ale unui retailer, de exemplu, optimizarea costurilor sau pregătirea raportărilor.

Servicii financiare
Big Data face posibilă analiza solvabilității împrumutatului și este, de asemenea, utilă pentru evaluarea creditului* și subscrierea**. Introducerea tehnologiilor Big Data va reduce timpul de examinare a cererilor de împrumut. Cu ajutorul Big Data, este posibil să analizezi tranzacțiile unui anumit client și să oferi servicii bancare potrivite pentru el.

Telecom
În industria telecomunicațiilor, Big Data a devenit larg răspândită în rândul operatorilor de telefonie mobilă.
Operatorii de telefonie mobilă, alături de instituțiile financiare, au unele dintre cele mai voluminoase baze de date, ceea ce le permite să efectueze cea mai aprofundată analiză a informațiilor acumulate.
Scopul principal al analizei datelor este reținerea clienții existențiși atragerea altora noi. Pentru a face acest lucru, companiile segmentează clienții, le analizează traficul și determină afilierea socială a abonatului.

Pe lângă utilizarea Big Data în scopuri de marketing, tehnologiile sunt folosite pentru a preveni tranzacțiile financiare frauduloase.

Industriile miniere și petroliere
Big Data este folosit atât în ​​extracția mineralelor, cât și în procesarea și comercializarea acestora. Pe baza informațiilor primite, întreprinderile pot trage concluzii despre eficiența dezvoltării câmpului, pot monitoriza programul de reparații majore și starea echipamentelor și pot prognoza cererea de produse și prețuri.

Potrivit unui sondaj realizat de Tech Pro Research, Big Data este cel mai răspândit în industria telecomunicațiilor, precum și în inginerie, IT, financiare și întreprinderi guvernamentale. Conform rezultatelor acestui sondaj, Big Data este mai puțin popular în educație și asistență medicală. Rezultatele sondajului sunt prezentate mai jos:

Exemple de utilizare a Big Data în companii
Astăzi, Big Data este implementată activ în companiile străine. Companii precum Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca Cola, Starbucks și Netflix folosesc deja resursele Big Data.

Aplicațiile informațiilor prelucrate sunt variate și variază în funcție de industrie și de sarcinile care trebuie îndeplinite.
În continuare, vor fi prezentate exemple de aplicare în practică a tehnologiilor Big Data.

HSBC folosește tehnologiile Big Data pentru a combate tranzacțiile frauduloase cu carduri de plastic. Cu ajutorul Big Data, compania a crescut eficienta serviciului de securitate de 3 ori, iar recunoasterea incidentelor frauduloase de 10 ori. Efectul economic al introducerii acestor tehnologii a depășit 10 milioane USD.

Antifrauda* VISA vă permite să identificați automat tranzacțiile frauduloase; în prezent sistemul ajută la prevenirea plăților frauduloase în valoare de 2 miliarde USD anual.

supercomputer Watson IBM analizează în timp real fluxul de date privind tranzacțiile monetare. Potrivit IBM, Watson a crescut cu 15% numărul de tranzacții frauduloase detectate, a redus falsul pozitiv cu 50% și a crescut cu 60% suma de bani protejată de tranzacții de această natură.

Procter & Gamble folosind Big Data pentru a proiecta noi produse și a crea campanii de marketing globale. P&G a creat birouri dedicate Business Spheres unde informațiile pot fi vizualizate în timp real.
Astfel, conducerea companiei a avut ocazia să testeze instantaneu ipoteze și să efectueze experimente. P&G consideră că Big Data ajută la prognozarea performanței companiei.

Comerciant de rechizite de birou OfficeMax Folosind tehnologiile Big Data, ei analizează comportamentul clienților. Analiza Big Data a făcut posibilă creșterea veniturilor B2B cu 13% și reducerea costurilor cu 400.000 USD pe an.

Conform Omida , distribuitorii săi pierd profituri de la 9 la 18 miliarde de dolari în fiecare an, pur și simplu pentru că nu implementează tehnologiile de procesare Big Data. Big Data le-ar permite clienților să-și gestioneze flota mai eficient prin analizarea informațiilor provenite de la senzorii instalați pe mașini.

Astăzi este deja posibil să se analizeze starea componentelor cheie, gradul lor de uzură și să se gestioneze costurile de combustibil și de întreținere.

Grupul Luxottica este un producător de ochelari de sport, precum mărci precum Ray-Ban, Persol și Oakley. Compania folosește tehnologii Big Data pentru a analiza comportamentul clienților potențiali și marketing prin SMS „inteligent”. Ca urmare a Big Data, grupul Luxottica a identificat peste 100 de milioane dintre cei mai valoroși clienți ai săi și a sporit eficiența campaniei sale de marketing cu 10%.

Cu ajutorul Yandex Data Factory, dezvoltatorii de jocuri Lumea tancurilor analizează comportamentul jucătorilor. Tehnologiile Big Data au făcut posibilă analizarea comportamentului a 100 de mii de jucători World of Tanks folosind mai mult de 100 de parametri (informații despre achiziții, jocuri, experiență etc.). În urma analizei, a fost obținută o prognoză a fluxului de utilizatori. Aceste informații vă permit să reduceți plecarea utilizatorilor și să lucrați cu participanții la joc într-o manieră țintită. Modelul dezvoltat s-a dovedit a fi cu 20-30% mai eficient decât instrumentele standard de analiză a industriei jocurilor de noroc.

Ministerul German al Muncii folosește Big Data în activități legate de analiza cererilor primite pentru ajutor de șomaj. Deci, după analizarea informațiilor, a devenit clar că 20% din beneficii au fost plătite nemeritat. Cu ajutorul Big Data, Ministerul Muncii a redus costurile cu 10 miliarde de euro.

Spitalul de copii din Toronto implementate Proiect Proiect Artemis. Acesta este un sistem informatic care colectează și analizează date despre bebeluși în timp real. Sistemul monitorizează 1260 de indicatori ai stării fiecărui copil în fiecare secundă. Proiectul Artemis face posibilă prezicerea stării instabile a unui copil și începerea prevenirii bolilor la copii.

PREZENTARE GENERALĂ A PIEȚEI MONDIALE DE BIG DATA

Situația actuală a pieței mondiale
În 2014, Big Data, conform Data Collective, a devenit una dintre zonele de investiții prioritare din industria de risc. Potrivit portalului informativ Computerra, acest lucru se datorează faptului că evoluțiile în acest domeniu au început să aducă rezultate semnificative pentru utilizatorii lor. Pe parcursul anului trecut, numărul companiilor cu proiecte implementate în domeniul managementului big data a crescut cu 125%, iar volumul pieței a crescut cu 45% față de 2013.

Majoritatea veniturilor pieței Big Data, conform Wikibon, în 2014 au fost formate din servicii, ponderea acestora fiind egală cu 40% din veniturile totale (vezi graficul de mai jos):

Dacă luăm în considerare Big Data pentru 2014 după subtip, piața va arăta astfel:

Potrivit Wikibon, aplicațiile și analizele au reprezentat 36% din veniturile Big Data în 2014 din aplicațiile și analizele Big Data, 17% din echipamentele de calcul și 15% din tehnologiile de stocare a datelor. Cel mai mic venit a fost generat de tehnologiile NoSQL, echipamentele de infrastructură și furnizarea unei rețele de companii ( rețele corporative).

Cele mai populare tehnologii Big Data sunt platformele in-memory SAP, HANA, Oracle etc. Rezultatele sondajului T-Systems au arătat că acestea au fost alese de 30% dintre companiile chestionate. Al doilea cel mai popular au fost platformele NoSQL (18% dintre utilizatori), companiile au folosit și platforme analitice de la Splunk și Dell, acestea fiind alese de 15% dintre companii. Conform rezultatelor sondajului, produsele Hadoop/MapReduce s-au dovedit a fi cele mai puțin utile pentru rezolvarea problemelor Big Data.

Potrivit unui sondaj Accenture, în peste 50% dintre companiile care utilizează tehnologii Big Data, costurile Big Data variază de la 21% la 30%.
Potrivit următoarei analize Accenture, 76% dintre companii cred că aceste costuri vor crește în 2015, iar 24% dintre companii nu își vor modifica bugetul pentru tehnologiile Big Data. Acest lucru sugerează că în aceste companii Big Data a devenit un domeniu consolidat al IT, care a devenit o parte integrantă a dezvoltării companiei.

Rezultatele sondajului Economist Intelligence Unit confirmă efectul pozitiv al implementării Big Data. 46% dintre companii spun că folosind tehnologiile Big Data au îmbunătățit serviciul clienți cu peste 10%, 33% dintre companii au optimizat inventarul și au îmbunătățit productivitatea mijloacelor fixe, iar 32% dintre companii au îmbunătățit procesele de planificare.

Big Data în diferite țări ale lumii
Astăzi, tehnologiile Big Data sunt cel mai des implementate în companiile din SUA, dar alte țări din lume au început deja să-și manifeste interesul. În 2014, potrivit IDC, țările din Europa, Orientul Mijlociu, Asia (cu excepția Japoniei) și Africa reprezentau 45% din piața de software, servicii și echipamente în domeniul Big Data.

De asemenea, potrivit sondajului CIO, companiile din regiunea Asia-Pacific adoptă rapid noi soluții în domeniul analizei Big Data, stocării securizate și tehnologiilor cloud. America Latină se află pe locul doi în ceea ce privește numărul de investiții în dezvoltarea tehnologiilor Big Data, înaintea țărilor europene și SUA.
În continuare, va fi prezentată o descriere și previziuni pentru dezvoltarea pieței Big Data în mai multe țări.

China
Volumul de informații în China este de 909 exaocteți, ceea ce este egal cu 10% din volumul total de informații din lume, până în 2020 volumul de informații va ajunge la 8060 exaocteți, ponderea informațiilor în statisticile globale va crește, de asemenea, în 5 ani va fi egal cu 18%. Creșterea potențială a Big Data din China are una dintre dinamicele cu cea mai rapidă creștere.

Brazilia
La sfârșitul anului 2014, Brazilia a acumulat informații în valoare de 212 exaocteți, ceea ce reprezintă 3% din volumul global. Până în 2020, volumul de informații va crește la 1600 de exaocteți, ceea ce va reprezenta 4% din informațiile din lume.

India
Potrivit EMC, volumul de date acumulate în India la sfârșitul anului 2014 este de 326 de exaocteți, ceea ce reprezintă 5% din volumul total de informații. Până în 2020, volumul de informații va crește la 2800 de exaocteți, ceea ce va reprezenta 6% din informațiile din lume.

Japonia
Volumul de date acumulate în Japonia la sfârșitul anului 2014 este de 495 exaocteți, ceea ce reprezintă 8% din volumul total de informații. Până în 2020, volumul de informații va crește la 2.200 de exaocteți, dar cota de piață a Japoniei va scădea și va ajunge la 5% din volumul total de informații din întreaga lume.
Astfel, dimensiunea pieței japoneze va scădea cu peste 30%.

Germania
Potrivit EMC, volumul de date acumulate în Germania la sfârșitul anului 2014 este de 230 de exaocteți, ceea ce reprezintă 4% din volumul total de informații din lume. Până în 2020, volumul de informații va crește la 1100 exaocteți și va ajunge la 2%.
Pe piața germană, o pondere mare a veniturilor, conform previziunilor Grupului Experton, va fi generată de segmentul de servicii, a cărui pondere în 2015 va fi de 54%, iar în 2019 va crește la 59%; cotele de software și hardware-ul, dimpotrivă, va scădea.

Per total, dimensiunea pieței va crește de la 1,345 miliarde euro în 2015 la 3,198 miliarde euro în 2019, o rată medie de creștere de 24%.
Astfel, pe baza analizelor CIO și EMC, putem concluziona că țările în curs de dezvoltare ale lumii vor deveni piețe în următorii ani. dezvoltare activă Tehnologii Big Data.

Principalele tendințe ale pieței
Potrivit IDG Enterprise, în 2015, cheltuielile companiilor pentru Big Data vor fi în medie de 7,4 milioane USD per companie, companiile mari intenționează să cheltuiască aproximativ 13,8 milioane USD, companiile mici și mijlocii - 1,6 milioane USD.
Majoritatea investițiilor vor fi în domenii precum analiza datelor, vizualizarea și colectarea datelor.
Pe baza tendințelor actuale și a cererii pieței, investițiile din 2015 vor fi utilizate pentru a îmbunătăți calitatea datelor, a îmbunătăți planificarea și prognoza și pentru a crește viteza de procesare a datelor.
Companiile din sectorul financiar, conform Insights Analysis a companiei Bain, vor face investiții semnificative, așa că în 2015 plănuiesc să cheltuiască 6,4 miliarde de dolari pe tehnologiile Big Data, rata medie de creștere a investițiilor va fi de 22% până în 2020. Companiile de internet plănuiesc să cheltuiască 2,8 miliarde de dolari, cu o rată medie de creștere de 26% pentru cheltuielile pentru Big Data.
În timpul sondajului Economist Intelligence Unit, domenii prioritare dezvoltarea Big Data în 2014 și în următorii 3 ani, distribuția răspunsurilor este următoarea:

Conform previziunilor IDC, tendințele de dezvoltare a pieței sunt următoarele:

  • În următorii 5 ani, costurile pentru soluțiile cloud din domeniul tehnologiilor Big Data vor crește de 3 ori mai repede decât costurile pentru soluțiile locale. Platformele hibride pentru stocarea datelor vor deveni solicitate.
  • Creșterea aplicațiilor care utilizează analize sofisticate și predictive, inclusiv învățarea automată, se va accelera în 2015, piața pentru astfel de aplicații crescând cu 65% mai rapid decât aplicațiile care nu folosesc analiza predictivă.
  • Analiza media se va tripla în 2015 și va deveni un motor cheie al creșterii pe piața tehnologiei Big Data.
  • Tendința de a introduce soluții pentru analiza fluxului constant de informații care este aplicabilă Internetului obiectelor se va accelera.
  • Până în 2018, 50% dintre utilizatori vor interacționa cu servicii bazate pe calculul cognitiv.
Drivere și limitatoare ale pieței
Experții IDC au identificat 3 factori determinanți ai pieței Big Data în 2015:

Potrivit unui sondaj Accenture, problemele de securitate a datelor reprezintă acum principala barieră în calea implementării tehnologiilor Big Data, peste 51% dintre respondenți confirmând că sunt îngrijorați de asigurarea protecției și confidențialității datelor. 47% dintre companii au raportat imposibilitatea implementării Big Data din cauza bugetelor limitate, 41% dintre companii au indicat lipsa personalului calificat drept problemă.

Wikibon prezice că piața Big Data va crește la 38,4 miliarde de dolari în 2015, în creștere cu 36% față de an. În următorii ani, va exista o scădere a ratelor de creștere la 10% în 2017. Luând în considerare aceste previziuni, dimensiunea pieței în 2020 va fi egală cu 68,7 miliarde de dolari SUA.

Distribuția pieței globale Big Data pe categorii de afaceri va arăta astfel:

După cum se poate observa din diagramă, cea mai mare parte a pieței va fi ocupată de tehnologii în domeniul îmbunătățirii serviciului clienți. Marketingul direcționat va fi a doua prioritate pentru companii până în 2019; în 2020, potrivit Heavy Reading, va lăsa loc soluțiilor de îmbunătățire a eficienței operaționale.
Segmentul „îmbunătățirea serviciului clienți” va avea, de asemenea, cea mai mare rată de creștere, cu o creștere de 49% anual.
Prognoza pieței pentru subtipurile Big Data va arăta astfel:

Cota de piață predominantă, după cum se poate observa din diagramă, este ocupată de serviciile profesionale, cea mai mare rată de creștere va fi în aplicațiile cu analiză, ponderea acestora va crește de la actualul 12% la 18% în 2020 și volumul acestui segment. va fi egală cu 12,3 miliarde de dolari SUA, ponderea echipamentelor de calcul, dimpotrivă, va scădea de la 20% la 14% și se va ridica la aproximativ 9,3 miliarde de dolari SUA în 2020, piața tehnologiilor cloud va crește treptat și în 2020 va ajunge la 6,3 miliarde de dolari SUA, cota de piață a soluțiilor pentru stocarea datelor, dimpotrivă, va scădea de la 15% în 2014 la 13% în 2020 și în termeni monetari va fi egală cu 8,9 miliarde de dolari.
Conform prognozei Bain & Company Insights Analysis, distribuția pieței Big Data pe industrie în 2020 va fi următoarea:

  • Industria financiară va cheltui 6,4 miliarde de dolari pe Big Data, cu o rată medie de creștere de 22% pe an;
  • Companiile de internet vor cheltui 2,8 miliarde de dolari, iar rata medie de creștere a costurilor va fi de 26% în următorii 5 ani;
  • Costurile din sectorul public vor fi proporționale cu costurile companiilor de internet, dar rata de creștere va fi mai mică - 22%;
  • Sectorul telecomunicațiilor va crește cu un CAGR de 40% pentru a ajunge la 1,2 miliarde USD în 2020;

Companiile energetice vor investi o sumă relativ mică în aceste tehnologii - 800 de milioane de dolari, dar rata de creștere va fi una dintre cele mai mari - 54% anual.
Astfel, cea mai mare pondere a pieței Big Data în 2020 va fi luată de companiile din industria financiară, iar sectorul cu cea mai rapidă creștere va fi cel al energiei.
În urma previziunilor analiștilor, dimensiunea totală a pieței va crește în următorii ani. Creșterea pieței se va realiza prin implementarea tehnologiilor Big Data în țările în curs de dezvoltare ale lumii, așa cum se poate observa din graficul de mai jos.

Dimensiunea proiectată a pieței va depinde de modul în care țările în curs de dezvoltare percep tehnologiile Big Data și dacă acestea vor fi la fel de populare ca și în țările dezvoltate. În 2014, țările în curs de dezvoltare ale lumii au reprezentat 40% din volumul de informații acumulate. Conform prognozei EMC, structura actuală a pieței, cu o predominanță a țărilor dezvoltate, se va schimba în 2017. Potrivit EMC analytics, în 2020 ponderea țărilor în curs de dezvoltare va fi mai mare de 60%.
Potrivit Cisco și EMC, țările în curs de dezvoltare din întreaga lume vor lucra destul de activ cu Big Data, în mare parte datorită disponibilității tehnologiei și acumulării unei cantități suficiente de informații la nivelul Big Data. Harta lumii prezentată pe pagina următoare va arăta prognoza pentru creșterea volumului și rata de creștere a Big Data pe regiune.

ANALIZA PIEȚEI RUSE

Starea actuală a pieței ruse

Potrivit rezultatelor unui studiu realizat de CNews Analytics și Oracle, nivelul de maturitate al pieței ruse de Big Data a crescut în ultimul an. Respondenții, reprezentând 108 întreprinderi mari din diverse industrii, au demonstrat un grad mai ridicat de cunoaștere a acestor tehnologii, precum și o înțelegere stabilită a potențialului unor astfel de soluții pentru afacerea lor.
În 2014, potrivit IDC, Rusia a acumulat 155 de exaocteți de informații, ceea ce reprezintă doar 1,8% din datele lumii. Volumul de informații până în 2020 va ajunge la 980 exaocteți și va ocupa 2,2%. Astfel, rata medie de creștere a volumului de informații va fi de 36% pe an.
IDC estimează piața rusă la 340 de milioane de dolari, dintre care 100 de milioane de dolari sunt soluții SAP, aproximativ 240 de milioane de dolari sunt soluții similare de la Oracle, IBM, SAS, Microsoft etc.
Rata de creștere a pieței de date mari din Rusia este de nu mai puțin de 50% pe an.
Se prevede că dinamica pozitivă va continua în acest sector al pieței IT din Rusia, chiar și în condiții de stagnare economică generală. Acest lucru se datorează faptului că întreprinderile continuă să solicite soluții care să îmbunătățească eficiența operațională, precum și să optimizeze costurile, să îmbunătățească acuratețea prognozelor și să minimizeze posibilele riscuri ale companiei.
Principalii furnizori de servicii în domeniul Big Data pe piața rusă sunt:
  • Oracol
  • Microsoft
  • Cloudera
  • Hortonworks
  • Teradata.
Prezentare generală a pieței în funcție de industrie și experiență în utilizarea Big Data în companii
Potrivit CNews, în Rusia doar 10% dintre companii au început să folosească tehnologiile Big Data, când în lume ponderea unor astfel de companii este de aproximativ 30%. Pregătirea pentru proiectele Big Data este în creștere în multe sectoare ale economiei ruse, potrivit unui raport de la CNews Analytics și Oracle. Mai mult de o treime dintre companiile chestionate (37%) au început să lucreze cu tehnologiile Big Data, dintre care 20% folosesc deja astfel de soluții, iar 17% încep să experimenteze cu acestea. A doua treime a respondenților în în prezent iau în considerare această posibilitate.

În Rusia, tehnologiile Big Data sunt cele mai populare în sectoarele bancare și telecomunicații, dar sunt solicitate și în industria minieră, energie, retail, companii de logistică și sectorul public.
În continuare, vor fi luate în considerare exemple de utilizare a Big Data în realitățile rusești.

Telecom
Operatorii de telecomunicații au unele dintre cele mai voluminoase baze de date, ceea ce le permite să efectueze cea mai aprofundată analiză a informațiilor acumulate.
Unul dintre domeniile de aplicare a tehnologiei Big Data este managementul loialității abonaților.
Scopul principal al analizei datelor este păstrarea clienților existenți și atragerea altora noi. Pentru a face acest lucru, companiile segmentează clienții, le analizează traficul și determină afilierea socială a abonatului. Pe lângă utilizarea informațiilor în scopuri de marketing, tehnologiile de telecomunicații sunt folosite pentru a preveni tranzacțiile financiare frauduloase.
Unul dintre exemplele izbitoare ale acestei industrii este VimpelCom. Compania folosește Big Data pentru a îmbunătăți calitatea serviciului la nivelul fiecărui abonat, pentru a compila rapoarte, pentru a analiza date pentru dezvoltarea rețelei, pentru a combate spam-ul și pentru a personaliza serviciile.

Băncile
O proporție semnificativă a utilizatorilor Big Data sunt specialiști din industria financiară. Unul dintre experimentele de succes a fost realizat la Banca Ural pentru Reconstrucție și Dezvoltare, unde baza de informații a început să fie folosită pentru analiza clienților, banca a început să ofere oferte de credit specializate, depozite și alte servicii. În decurs de un an de la utilizarea acestor tehnologii, portofoliul de credite pentru retail al companiei a crescut cu 55%.
Alfa-Bank analizează informațiile din rețelele sociale, procesează cererile de împrumut și analizează comportamentul utilizatorilor site-ului companiei.
De asemenea, Sberbank a început să proceseze o cantitate masivă de date pentru a segmenta clienții, a preveni activitățile frauduloase, a vânzărilor încrucișate și a gestiona riscurile. În viitor, este planificată îmbunătățirea serviciului și analizarea acțiunilor clienților în timp real.
Banca de Dezvoltare Regională a Rusiei analizează comportamentul deținătorilor de carduri din plastic. Acest lucru face posibilă identificarea tranzacțiilor care sunt atipice pentru un anumit client, crescând astfel probabilitatea detectării furtului de fonduri de pe cardurile de plastic.

Cu amănuntul
În Rusia, tehnologiile Big Data au fost implementate atât de companiile comerciale online, cât și offline. Astăzi, conform CNews Analytics, Big Data este folosit de 20% dintre retaileri. 75% dintre profesioniștii din retail consideră Big Data necesare pentru dezvoltarea unei strategii competitive de promovare a companiei. Potrivit statisticilor Hadoop, după implementarea tehnologiei Big Data, profiturile în organizațiile comerciale cresc cu 7-10%.
Specialiștii M.Video vorbesc despre planificarea logistică îmbunătățită după implementarea SAP HANA; de asemenea, ca urmare a implementării acestuia, întocmirea rapoartelor anuale a fost redusă de la 10 zile la 3, viteza de încărcare zilnică a datelor a fost redusă de la 3 ore la 3. 30 minute.
Wikimart folosește aceste tehnologii pentru a genera recomandări pentru vizitatorii site-ului.
Unul dintre primele magazine offline care a introdus analiza Big Data în Rusia a fost Lenta. Cu ajutorul Big Data, retailul a început să studieze informații despre clienți din chitanțele de casă. Retailerul colectează informații pentru a crea modele comportamentale, ceea ce face posibilă luarea unor decizii mai informate la nivel operațional și comercial.

Industria petrolului și gazelor
În această industrie, domeniul de aplicare al Big Data este destul de larg. Tehnologiile Big Data pot fi utilizate în extracția mineralelor din subsol. Cu ajutorul lor, puteți analiza procesul de extracție în sine și cele mai eficiente modalități de extragere, monitorizați procesul de foraj, analizați calitatea materiilor prime, precum și procesarea și comercializarea produsului final. În Rusia, Transneft și Rosneft au început deja să folosească aceste tehnologii.

Organisme guvernamentale
În țări precum Germania, Australia, Spania, Japonia, Brazilia și Pakistan, tehnologiile Big Data sunt folosite pentru a rezolva probleme naționale. Aceste tehnologii ajută autoritățile guvernamentale să ofere mai eficient servicii populației și să ofere sprijin social direcționat.
În Rusia, aceste tehnologii au început să fie stăpânite de asemenea organisme guvernamentale, Cum Fond de pensie, Serviciul fiscal federal și Fondul de asigurări obligatorii de sănătate. Potențialul de implementare a proiectelor folosind Big Data este mare; aceste tehnologii ar putea contribui la îmbunătățirea calității serviciilor și, ca urmare, a nivelului de viață al populației.

Logistica si transport
Big Data poate fi folosit și de companiile de transport. Folosind tehnologiile Big Data, vă puteți urmări flota auto, puteți lua în considerare costurile cu combustibilul și puteți monitoriza solicitările clienților.
Căile Ferate Ruse au implementat tehnologiile Big Data împreună cu SAP. Aceste tehnologii au contribuit la reducerea timpului de pregătire a raportării de 43,5 ori (de la 14,5 ore la 20 de minute) și la creșterea acurateței distribuției costurilor de 40 de ori. Big Data a fost introdus și în procesele de planificare și reglementare a tarifelor. În total, companiile folosesc peste 300 de sisteme bazate pe soluții SAP, sunt implicate 4 centre de date, iar numărul de utilizatori este de 220.000.

Principalii factori și limitatori ai pieței
Motoarele pentru dezvoltarea tehnologiilor Big Data pe piața rusă sunt:
  • Interes crescut din partea utilizatorilor pentru capacitățile Big Data ca modalitate de creștere a competitivității unei companii;
  • Dezvoltarea metodelor de procesare a fișierelor media la nivel global;
  • Transferul serverelor care prelucrează informații personale pe teritoriul Rusiei, în conformitate cu legea adoptată privind stocarea și prelucrarea datelor cu caracter personal;
  • Implementarea planului industrial pentru înlocuirea importurilor de software. Acest plan include sprijin guvernamental pentru producătorii locali de software, precum și furnizarea de preferințe pentru produsele IT interne atunci când achiziționează pe cheltuială publică.
  • În noua situație economică, când cursul de schimb al dolarului aproape s-a dublat, va exista o tendință de utilizare în creștere a serviciilor furnizorilor ruși. servicii cloud decât cele străine.
  • Crearea de parcuri tehnologice care să contribuie la dezvoltarea pieței tehnologiei informației, inclusiv a pieței Big Data;
  • Program de stat pentru implementarea sistemelor grid bazate pe tehnologii Big Data.

Principalele bariere în calea dezvoltării Big Data pe piața rusă sunt:

  • Asigurarea securității și confidențialității datelor;
  • Lipsa personalului calificat;
  • Insuficiența resurselor de informații acumulate la nivelul Big Data în majoritatea companiile rusești;
  • Dificultăți în introducerea noilor tehnologii în sistemele informatice consacrate ale companiilor;
  • Costul ridicat al tehnologiilor Big Data, ceea ce duce la un număr limitat de întreprinderi care au posibilitatea de a implementa aceste tehnologii;
  • Incertitudine politică și economică, care a dus la ieșirea de capital și înghețarea proiectelor de investiții în Rusia;
  • Creșterea prețurilor la produsele importate și o creștere a inflației, potrivit IDC, încetinesc dezvoltarea întregii piețe IT.
Prognoza pieței rusești
Începând de astăzi, piața Big Data din Rusia nu este la fel de populară ca în țările dezvoltate. Majoritatea companiilor ruse manifestă interes pentru aceasta, dar nu îndrăznesc să profite de oportunitățile lor.
Exemple de companii mari care au beneficiat deja de utilizarea tehnologiilor Big Data sunt o conștientizare sporită a capacităților acestor tehnologii.
Analiștii au și previziuni destul de optimiste în ceea ce privește piața rusă. IDC consideră că cota de piață a Rusiei va crește în următorii 5 ani, spre deosebire de piețele germane și japoneze.
Până în 2020, volumul de date mari din Rusia va crește de la actualul 1,8% la 2,2% din volumul global de date. Cantitatea de informații va crește, potrivit EMC, de la actualul 155 exabytes la 980 exabytes în 2020.
În acest moment, Rusia continuă să acumuleze volumul de informații la nivelul Big Data.
Potrivit unui sondaj CNews Analytics, 44% dintre companiile intervievate lucrează cu date de cel mult 100 terabytes* și doar 13% lucrează cu volume de peste 500 terabytes.

Cu toate acestea, piața rusă, urmând tendințele globale, va crește. Începând cu 2014, IDC estimează dimensiunea pieței la 340 de milioane de dolari.
Rata de creștere a pieței în anii precedenți a fost de 50% pe an; dacă rămâne la același nivel, atunci în 2018 volumul pieței va ajunge la 1,7 miliarde de dolari. Cota pieței ruse pe piața mondială va fi de aproximativ 3%, în creștere de la actualul 1,2%.

Cele mai receptive industrii la utilizarea Big Data în Rusia includ:

  • Retail și bănci, analiza este cea mai importantă pentru ei baza de clienti, evaluarea efectului campaniilor de marketing;
  • Telecom – segmentarea bazei de clienți și monetizarea traficului;
  • Sectorul public – raportare, analiza aplicațiilor din partea publicului etc.;
  • Companii petroliere – monitorizarea lucrărilor și planificarea producției și vânzărilor;
  • Companii energetice – crearea de sisteme electrice inteligente, monitorizare și prognoză operațională.
În țările dezvoltate, Big Data s-a răspândit în domeniile asistenței medicale, asigurărilor, metalurgiei, companiilor de internet și întreprinderilor de producție; cel mai probabil, în viitorul apropiat, companiile rusești din aceste zone vor aprecia și efectul introducerii Big Data și se vor adapta. aceste tehnologii în industriile lor.
În Rusia, precum și în lume, în viitorul apropiat va exista o tendință către vizualizarea datelor, analiza fișierelor media și dezvoltarea Internetului lucrurilor.
În ciuda stagnării generale a economiei, în următorii ani, analiștii prevăd o creștere în continuare a pieței Big Data, în primul rând datorită faptului că utilizarea tehnologiilor Big Data oferă utilizatorilor săi un avantaj competitiv în ceea ce privește creșterea eficienței operaționale a afaceri, atragerea fluxului suplimentar de clienți, minimizarea riscurilor și implementarea tehnologiilor de prognoză a datelor.
Astfel, putem concluziona că segmentul Big Data din Rusia este în stadiul de formare, dar cererea pentru aceste tehnologii crește în fiecare an.

Principalele rezultate ale analizei pieței

Piața mondială
La sfârșitul anului 2014, piața Big Data este caracterizată de următorii parametri:
  • volumul pieței a fost de 28,5 miliarde de dolari SUA, în creștere cu 45% față de anul precedent;
  • majoritatea veniturilor pieței Big Data proveneau din servicii, ponderea acestora fiind egală cu 40% din veniturile totale;
  • 36% din venituri au provenit din aplicații și analize Big Data, 17% din echipamente de calcul și 15% din tehnologiile de stocare a datelor;
  • Cele mai populare pentru rezolvarea problemelor Big Data sunt platformele in-memory de la companii precum SAP, HANA și Oracle.
  • numărul companiilor cu proiecte implementate în domeniul managementului Big Data a crescut cu 125%;
Prognoza pieței pentru următorii ani este următoarea:
  • în 2015 volumul pieţei va ajunge la 38,4 miliarde dolari SUA, în 2020 – 68,7 miliarde dolari SUA;
  • rata medie de creștere va fi de 16% anual;
  • costurile medii ale companiei pentru tehnologiile Big Data vor fi de 13,8 milioane USD pentru companiile mari și 1,6 milioane USD pentru întreprinderile mici și mijlocii;
  • tehnologiile vor fi cele mai răspândite în domeniile de servicii pentru clienți și marketing direcționat;
  • În 2017, structura pieței globale se va schimba spre predominanța companiilor utilizatori din țările în curs de dezvoltare.
piata ruseasca
Piața Big Data din Rusia este în stadiul de formare, rezultatele anului 2014 sunt următoarele:
  • volumul pieței a ajuns la 340 milioane USD;
  • rata medie de creștere a pieței în anii anteriori a fost de 50% anual;
  • volumul total de informații acumulate a fost de 155 exaocteți;
  • 10% dintre companiile rusești au început să folosească tehnologiile Big Data;
  • Tehnologiile Big Data au fost mai populare în sectorul bancar, telecomunicații, companii de internet și retail.
Prognoza pieței ruse pentru următorii ani este următoarea:
  • volumul pieței ruse în 2015 va ajunge la 500 de milioane de dolari SUA, iar în 2018 – 1,7 miliarde de dolari;
  • ponderea pieței ruse pe piața globală va fi de aproximativ 3% în 2018;
  • cantitatea de date acumulate în 2020 va fi de 980 exaocteți;
  • volumul de date va crește la 2,2% din volumul global de date în 2020;
  • Tehnologiile pentru vizualizarea datelor, analiza fișierelor media și Internetul lucrurilor vor deveni cele mai populare.
Pe baza rezultatelor analizei, putem concluziona că piața Big Data se află încă în faze incipiente de dezvoltare, iar în viitorul apropiat vom vedea creșterea acesteia și extinderea capacităților acestor tehnologii.

Vă mulțumim pentru timpul acordat citirii acestei lucrări voluminoase, abonați-vă la blogul nostru - promitem multe publicații noi interesante!

Big data, sau big data, este un concept folosit în tehnologia de informațieși domeniul marketingului. Termenul „big data” este folosit pentru a defini analiza și gestionarea unor volume mari. Astfel, big data este o informație care, datorită volumelor mari, nu poate fi procesată prin metode tradiționale.

Viața modernă imposibil de imaginat fără tehnologia digitală. Depozitele de date ale lumii sunt în mod constant reaprovizionate și, prin urmare, este, de asemenea, necesar să se schimbe continuu atât condițiile de stocare a informațiilor, cât și să se caute noi modalități de a crește volumul suportului său. Pe baza opiniilor experților, creșterea Date mare iar ratele de creștere crescânde sunt realități actuale. După cum am menționat deja, informațiile apar non-stop. Volume uriașe ale acesteia sunt generate de site-uri de informații, diverse servicii partajarea de fișiere și rețelele sociale, dar aceasta este doar o mică parte din volumul total produs.

IDC Digital Universe, după efectuarea unui studiu, a declarat că în 5 ani volumul de date de pe întregul Pământ va ajunge la patruzeci de zettabytes. Aceasta înseamnă că pentru fiecare persoană de pe planetă vor exista 5200 GB de informații.

Cel mai bun articol al lunii

Prima jumătate a anului 2018 se termină - este timpul să rezumam rezultatele intermediare. Chiar dacă performanța comercială a companiei a crescut față de perioada anterioară, asigurați-vă că nu există dificultăți ascunse în activitatea companiei care ar putea cauza probleme.

Pentru a diagnostica problemele, completați listele de verificare din articolul nostru și aflați ce latură a afacerii să acordați atenție.

Se știe că oamenii nu sunt principalii producători de informații. Principala sursă care aduce informații de date sunt roboții care interacționează continuu. Acestea includ sistemul de operare al computerelor, tabletelor și telefoanelor mobile, sisteme inteligente, instrumente de monitorizare, sisteme de supraveghere etc. Împreună, au stabilit o rată rapidă de creștere a cantității de date, ceea ce înseamnă că nevoia de a crea atât servere reale, cât și virtuale este în creștere. Luat împreună, acest lucru duce la extinderea și implementarea de noi centre de date.

Cel mai adesea, big data este definită ca informații care depășesc volumul hard disk-ului unui computer și nu pot fi procesate prin metode tradiționale care sunt folosite pentru a procesa și analiza informațiile cu un volum mai mic.

Pentru a rezuma, tehnologia de procesare a datelor mari se reduce în cele din urmă la 3 domenii principale, care, la rândul lor, rezolvă 3 tipuri de probleme:

  1. Stocarea și gestionarea unor volume uriașe de date - de până la sute de terabytes și petabytes - pe care bazele de date relaționale nu le pot utiliza în mod eficient.
  2. Organizarea informațiilor nestructurate - texte, imagini, videoclipuri și alte tipuri de date.
  3. Analiza datelor mari (analitica datelor mari) - aceasta acoperă modalități de lucru cu informații nestructurate, crearea de rapoarte de date analitice și introducerea modelelor predictive.

Piața proiectelormaredate este strâns interconectată cu piața VA - business analytics, al cărei volum în 2012 s-a ridicat la aproximativ 100 de miliarde de dolari și include tehnologii de rețea, software, servicii tehnice și servere.

Automatizarea activităților companiei, în special a soluțiilor de asigurare a veniturilor (RA), este, de asemenea, indisolubil legată de utilizarea tehnologiilor de date mari. Astăzi, sistemele din acest domeniu conțin instrumente care sunt folosite pentru a detecta inconsecvențele și pentru analiza aprofundată a datelor și, de asemenea, ajută la identificarea eventualelor pierderi sau inexactități ale informațiilor care ar putea duce la o scădere a rezultatelor sectorului.

Companiile ruse confirmă că există o cerere pentru tehnologiile de date mari; ei notează separat că principalii factori care influențează dezvoltarea datelor mari în Rusia sunt creșterea volumului de date, adoptarea rapidă a deciziilor de management și creșterea calității acestora.

Ce rol joacă Big Data în marketing?

Nu este un secret pentru nimeni că informația este una dintre componentele principale ale previziunii și dezvoltării de succes a unei strategii de marketing, dacă știi să o folosești.

Analiza big data este indispensabilă în determinarea publicului țintă, a intereselor și a activității acestuia. Cu alte cuvinte, utilizarea cu pricepere a datelor mari vă permite să preziceți cu exactitate dezvoltarea unei companii.

Folosind, de exemplu, cunoscutul model de licitație RTB, cu ajutorul analizei big data este ușor să vă asigurați că reclamele sunt afișate doar acelor potențiali cumpărători care sunt interesați să achiziționeze un serviciu sau produs.

Aplicație Big Data în marketing:

  1. Vă permite să recunoașteți potențialii cumpărători și să atrageți publicul corespunzător pe Internet.
  2. Ajută la evaluarea satisfacției.
  3. Ajută la potrivirea serviciului oferit la nevoile cumpărătorului.
  4. Facilitează căutarea și implementarea de noi metode de creștere a loialității clienților.
  5. Simplifica crearea de proiecte care ulterior vor fi solicitate.

Un exemplu deosebit este serviciul Google.trends. Cu ajutorul acestuia, un marketer va putea identifica prognoza pentru sezon cu privire la un anumit produs, geografia clicurilor și fluctuațiilor. Astfel, comparând informațiile primite cu statisticile propriului site web, este destul de ușor să întocmești un buget de publicitate care să indice regiunea și luna.

  • Repartizarea bugetului de publicitate: pe ce merită cheltuit
  • l>

    Cum și unde să stocați date mari de date mari

    Sistemul de fișiere- aici sunt organizate și stocate datele mari. Toate informațiile se află pe un număr mare de hard disk-uri de pe computer.

    "Hartă"- hartă - ține evidența unde este stocată direct fiecare informație.

    Pentru a vă asigura împotriva circumstanțelor neprevăzute, este obișnuit să salvați fiecare informație de mai multe ori - se recomandă să faceți acest lucru de trei ori.

    De exemplu, după colectarea tranzacțiilor individuale într-o rețea de vânzare cu amănuntul, toate informațiile despre fiecare tranzacție individuală vor fi stocate pe mai multe servere și hard disk-uri, iar „harta” va indexa locația fișierului pentru fiecare tranzacție specifică.

    Pentru a organiza stocarea datelor în volume mari, puteți utiliza echipamente tehnice standard și software disponibil public (de exemplu, Hadoop).

    Big data și analiza de afaceri: diferența dintre concepte

    Astăzi, analiza de afaceri este un proces descriptiv al rezultatelor care au fost obținute într-o anumită perioadă de timp. Viteza actuală de procesare a datelor mari face ca analiza să fie predictivă. Vă puteți baza pe recomandările lui în viitor. Tehnologiile Big Data fac posibilă analiza unui număr mai mare de tipuri de date în comparație cu instrumentele și instrumentele utilizate în analiza de afaceri. Acest lucru vă permite nu numai să vă concentrați asupra depozitelor în care datele sunt structurate, ci și să utilizați resurse semnificativ mai largi.

    Analiza de afaceri și Big Data sunt similare în multe privințe, dar există următoarele diferențe:

    • Big data este folosit pentru a procesa un volum de informații care este semnificativ mai mare decât analiza de afaceri, care definește însuși conceptul de big data.
    • Cu ajutorul datelor mari, puteți procesa rapid datele primite și în schimbare, ceea ce duce la interactivitate, adică în majoritatea cazurilor, viteza de încărcare a unei pagini web este mai mică decât viteza de generare a rezultatelor.
    • Big Data pot fi folosite atunci când se prelucrează date care nu au o structură, lucru cu care ar trebui să înceapă numai după asigurarea stocării și colectării acestora. În plus, este necesar să se aplice algoritmi care pot identifica principalele modele din tablourile create.

    Procesul de analiză a afacerilor nu este foarte asemănător cu munca datelor mari. De regulă, business analytics tinde să obțină rezultate prin adăugarea unor valori specifice: un exemplu este volumul anual de vânzări, calculat ca suma tuturor facturilor plătite. În procesul de lucru cu big data, calculele se fac prin construirea unui model pas cu pas:

    • formularea unei ipoteze;
    • construcția de statice, vizuale și model semantic;
    • testarea validității ipotezei pe baza modelelor specificate;
    • propunând următoarea ipoteză.

    Pentru a finaliza ciclul de cercetare, este necesară interpretarea semnificațiilor vizuale (interogări interactive bazate pe cunoștințe). De asemenea, poate fi dezvoltat un algoritm de învățare automată adaptiv.

    Opinia expertului

    Nu te poți baza orbește doar pe opiniile analiștilor

    Viaceslav Nazarov,

    Director general al reprezentanței ruse a Archos, Moscova

    În urmă cu aproximativ un an, pe baza opiniilor experților, am lansat pe piață o tabletă complet nouă, consolă de jocuri. Compactitatea și puterea tehnică suficientă au găsit recunoaștere printre fanii jocurilor pe calculator. Trebuie remarcat faptul că acest grup, în ciuda „îngustimei sale”, avea o putere de cumpărare destul de mare. La început, noul produs a strâns o mulțime de recenzii pozitive în mass-media și a primit o evaluare de aprobare din partea partenerilor noștri. Cu toate acestea, curând a devenit clar că vânzările de tablete erau destul de scăzute. Soluția nu și-a găsit niciodată popularitatea în masă.

    Eroare. Defectul nostru a fost că interesele publicului țintă nu au fost pe deplin studiate. Utilizatorii care preferă să se joace pe o tabletă nu au nevoie de grafică super, deoarece joacă în mare parte pe jocuri simple. Jucătorii serioși sunt deja obișnuiți să joace pe un computer pe platforme mai avansate. Nu a existat o publicitate masivă pentru produsul nostru, campania de marketing a fost, de asemenea, slabă și, în cele din urmă, tableta nu și-a găsit cumpărătorul în niciunul dintre grupurile specificate.

    Consecințe. Producția produsului a trebuit să fie redusă cu aproape 40% față de volumele planificate inițial. Desigur, nu au existat pierderi mari și nici profituri planificate. Totuși, acest lucru ne-a obligat să ajustăm unele obiective strategice. Cel mai valoros lucru pe care l-am pierdut iremediabil este timpul nostru.

    Sfat. Trebuie să gândești înainte. Liniile de produse trebuie gândite cu doi sau trei pași înainte. Ce înseamnă? Când lansați astăzi o anumită gamă de modele, este de dorit să înțelegeți soarta ei mâine și să aveți cel puțin o imagine aproximativă a ceea ce se va întâmpla cu ea într-un an și jumătate. Desigur, este puțin probabil un detaliu complet, dar un plan de bază ar trebui totuși întocmit.

    Și nu ar trebui să ai încredere totală în analiști. Evaluările experților trebuie comparate cu datele statistice proprii, precum și cu situația operațională de pe piață. Dacă produsul tău nu este pe deplin dezvoltat, nu ar trebui să-l lansezi pe piață, deoarece pentru cumpărător prima impresie este cea mai importantă, iar apoi să-l convingi nu va fi o sarcină ușoară.

    Un sfat foarte important în caz de eșec este să iei o decizie rapidă. Absolut nu poți doar să privești și să aștepți. Rezolvarea unei probleme fără întârziere este întotdeauna mult mai ușoară și mai ieftină decât rezolvarea uneia neglijate.

    Ce probleme creează sistemul de date mari?

    Există trei grupuri principale de probleme ale sistemelor de date mari, care în literatura străină sunt combinate în 3V - volum, viteză și varietate, adică:

  1. Volum.
  2. Viteză de procesare.
  3. Lipsa structurii.

Problema stocării unor volume mari de informații este asociată cu necesitatea organizării anumitor condiții, adică cu crearea de spațiu și oportunități. În ceea ce privește viteza, aceasta este asociată nu atât cu încetinirile și frânările atunci când se utilizează metode de procesare învechite, cât cu interactivitate: cu cât procesul de prelucrare a informațiilor este mai rapid, cu atât rezultatul este mai productiv.

  1. Problema nestructurarii vine din separarea surselor, formatul și calitatea acestora. Integrarea și procesarea cu succes a datelor mari necesită atât munca la pregătirea acestora, cât și instrumentele sau sistemele analitice.
  2. Limita „magnitudinei” datelor are, de asemenea, o mare influență. Este destul de dificil să se determine valoarea și, pe baza acesteia, este problematic să se calculeze ce investiții financiare vor fi necesare și ce tehnologii vor fi necesare. Cu toate acestea, pentru anumite cantități, de exemplu, terabytes, noi metode de procesare sunt folosite cu succes astăzi, care sunt în mod constant îmbunătățite.
  3. Lipsa principiilor general acceptate pentru lucrul cu big data este o altă problemă, care este complicată de eterogenitatea fluxurilor menționată mai sus. Pentru a rezolva această problemă, sunt create noi metode de analiză a datelor mari. Pe baza declarațiilor reprezentanților universităților din New York, Washington și California, crearea unei discipline separate și chiar știința big data nu este departe. Aceasta este ceea ce este Motivul principal că companiile nu se grăbesc să introducă proiecte legate de big data. Un alt factor este costul ridicat.
  4. Apar dificultăți și în selectarea datelor pentru analiză și în algoritmul acțiunilor. Până în prezent, nu se înțelege ce date conțin informații valoroase și necesită analize de date mari și ce date pot fi ignorate. În această situație, încă un lucru devine clar - nu există destui profesioniști din industrie pe piață care să facă față unei analize aprofundate, să facă un raport privind rezolvarea problemei și, în consecință, să aducă profit.
  5. Există, de asemenea, o latură morală a întrebării: colectarea datelor fără știrea utilizatorului este diferită de o invazie grosolană a confidențialității? Este de remarcat faptul că colectarea datelor îmbunătățește calitatea vieții: de exemplu, colectarea continuă de date în sistemele Google și Yandex ajută companiile să își îmbunătățească serviciile în funcție de nevoile consumatorilor. Sistemele acestor servicii notează fiecare clic de utilizator, locația acestuia și site-urile vizitate, toate mesajele și achizițiile - și toate acestea fac posibilă afișarea reclamelor pe baza comportamentului utilizatorului. Utilizatorul nu a fost de acord cu colectarea datelor: nu a fost oferită o astfel de alegere. Acest lucru duce la următoarea problemă: cât de sigure sunt stocate informațiile? De exemplu, informațiile despre potențialii cumpărători, istoricul achizițiilor lor și tranzițiile către diverse site-uri pot ajuta la rezolvarea multor probleme de afaceri, dar dacă platforma pe care o folosesc cumpărătorii este sigură este foarte important. problema controversata. Mulți oameni fac apel la faptul că astăzi nicio unitate de stocare a datelor - chiar și serverele de serviciu militar - nu este suficient de protejată de atacurile hackerilor.
  • Secrete comerciale: protecție și sancțiuni pentru divulgare

Utilizarea pas cu pas a datelor mari

Etapa 1. Implementarea tehnologica a companiei intr-un proiect strategic.

Sarcinile specialiștilor tehnici includ elaborarea preliminară a conceptului de dezvoltare: analiza căilor de dezvoltare în zonele care au cel mai mult nevoie de ea.

Pentru a determina compoziția și sarcinile, se poartă o conversație cu clienții, în urma căreia sunt analizate resursele necesare. În același timp, organizația decide să externalizeze în totalitate toate sarcinile sau să creeze o echipă hibrid formată din specialiști din această organizație și din orice alte organizații.

Potrivit statisticilor, un număr mare de companii folosesc exact această schemă: având în interior o echipă de experți, monitorizarea calității muncii și formarea unei mișcări, iar în exterior, testarea directă a ipotezelor despre dezvoltarea oricărei direcții.

Pasul 2: Găsirea unui cercetător de date.

Managerul adună colectiv personalul muncitorilor. El este, de asemenea, responsabil pentru dezvoltarea proiectului. Angajații HR joacă un rol direct în crearea echipei interne.

În primul rând, o astfel de echipă are nevoie de un inginer analist de date, cunoscut și ca cercetător de date, care se va ocupa de sarcina de a forma ipoteze și de a analiza o serie de informații. Corelațiile pe care le identifică vor fi folosite în viitor pentru a stabili noi produse și servicii.

Este important mai ales în stadiile inițiale sarcina departamentului HR. Angajații săi decid cine anume va face munca care vizează dezvoltarea proiectului, de unde să-l obțină și cum să-l motiveze. Nu este atât de ușor să găsești un inginer analist de date, așa că acesta este un „produs pe bucată”.

Fiecare companie serioasa trebuie sa aiba un specialist de acest profil, altfel focusul proiectului se pierde. Inginer analitic combinat: dezvoltator, analist și analist de afaceri. În plus, trebuie să aibă abilități de comunicare pentru a demonstra rezultatele activităților sale și o mulțime de cunoștințe și abilități pentru a-și explica gândurile în detaliu.

  • 24 de gânduri care încep mari schimbări în viață

Caută exemple

1. O companie de taxiuri „Big Data” a fost organizată la Moscova. Pe traseu, pasagerii au răspuns sarcinilor din domeniul analizei profesionale. Dacă pasagerul a răspuns corect la majoritatea întrebărilor, compania i-a oferit un loc de muncă. Principalul dezavantaj al acestui tip de tehnică de selecție a personalului este reticența majorității de a participa la acest tip de proiecte. Doar câteva persoane au fost de acord cu interviul.

2. Organizarea unui concurs special de analiză de afaceri cu un fel de premiu. O mare bancă rusă a folosit această metodă. Drept urmare, peste 1.000 de persoane au participat la competiția de hackathon. Celor care au obținut cel mai mare succes în competiție li s-a oferit un loc de muncă. Din păcate, majoritatea câștigătorilor nu și-au exprimat dorința de a primi postul, întrucât motivația lor a fost doar premiul. Dar totuși, mai multe persoane au fost de acord să lucreze în echipă.

3. Căutați printre specialiști în date care înțeleg analiza de afaceri și sunt capabili să restabilească ordinea prin construirea algoritmului corect de acțiuni. Abilitățile necesare ale unui analist specialist includ: programare, cunoștințe de Python, R, Statistica, Rapidminer și alte cunoștințe care nu sunt mai puțin importante pentru un analist de afaceri.

Etapa 3. Crearea unei echipe pentru dezvoltare.

Este nevoie de o echipă bine coordonată. Când luați în considerare analize avansate, cum ar fi inovarea companiei, un manager va fi necesar să creeze și să dezvolte inteligența de afaceri.

Inginer de cercetare este angajat în construirea și testarea ipotezelor pentru dezvoltarea cu succes a vectorului ales.

La cap este necesar să se organizeze dezvoltarea liniei de afaceri alese, să creeze produse noi și să le coordoneze cu clienții. Responsabilitățile sale includ, în plus, calcularea cazurilor de afaceri.

Un manager de dezvoltare trebuie să lucreze îndeaproape cu toată lumea. Inginerul analitic și managerul de dezvoltare a afacerii identifică nevoile și oportunitățile de analiză a datelor mari prin întâlniri cu angajații responsabili de diferitele domenii ale proiectului. După ce analizează situația, managerul creează cazuri, datorită cărora compania va lua decizii privind dezvoltarea ulterioară a unei direcții, serviciu sau produs.

  • Manager de dezvoltare: cerințe și fișă post

3 principii de lucru cu bIGdla o

Putem evidenția principalele metode de lucru cu big data:

  1. Scalabilitate orizontală. Datorită faptului că trebuie să existe o cantitate imensă de date, orice sistem care prelucrează o cantitate mare de informații va fi extensibil. De exemplu, dacă volumul de date a crescut de mai multe ori, volumul de hardware din cluster a crescut în consecință cu aceeași cantitate.
  2. Toleranță la erori. Pe baza principiului scalabilității orizontale, putem concluziona că există un număr mare de mașini în cluster. De exemplu, cluster-ul Hadoop al Yahoo are peste 42.000. Toate metodele de lucru cu big data trebuie să țină cont de eventualele disfuncționalități și să caute modalități de a face față problemelor fără consecințe.
  3. Localitatea datelor. Datele stocate în sisteme mari sunt distribuite pe un număr destul de mare de mașini. Prin urmare, într-o situație în care datele sunt stocate pe serverul nr. 1 și procesate pe serverul nr. 2, nu putem exclude posibilitatea ca transferul lor să coste mai mult decât procesarea. De aceea, în timpul proiectării, se acordă o mare atenție asigurării că datele sunt stocate și procesate pe un singur computer.

Toate metodele de lucru cu big data, într-un fel sau altul, respectă aceste trei principii.

Cum se utilizează sistemul de date mari

Soluțiile eficiente de date mari pentru o mare varietate de domenii de afaceri sunt obținute prin numeroasele combinații de software și hardware care există în prezent.

Demnitate importantămaredate- capacitatea de a utiliza instrumente noi cu cele deja utilizate în acest domeniu. Acest lucru joacă un rol deosebit de important în situațiile cu proiecte interdisciplinare. Un exemplu este vânzările pe mai multe canale și asistența pentru clienți.

Pentru a lucra cu date mari, este importantă o anumită secvență:

  • În primul rând, datele sunt colectate;
  • atunci informaţia este structurată. În acest scop, se folosesc tablouri de bord ( Tablouri de bord - instrumente de structurare;
  • în etapa următoare se creează perspective și contexte, pe baza cărora se formează recomandări pentru luarea deciziilor. Datorită costurilor ridicate ale colectării datelor, sarcina principală este de a determina scopul utilizării informațiilor obținute.

Exemplu. Agențiile de publicitate pot folosi informații despre locație agregate de la companiile de telecomunicații. Această abordare va oferi publicitate direcționată. Aceleași informații sunt aplicabile și în alte domenii legate de furnizarea și vânzarea de servicii și bunuri.

Informațiile obținute în acest fel pot fi esențiale pentru a decide dacă să deschideți un magazin într-o anumită zonă.

Dacă luăm în considerare cazul utilizării panourilor publicitare în aer liber în Londra, nu există nicio îndoială că astăzi o astfel de experiență este posibilă doar dacă lângă fiecare panou publicitar este amplasat un dispozitiv special de măsurare. În același timp, operatorii de telefonie mobilă știu întotdeauna informații de bază despre abonații lor: locația lor, Statusul familieiși așa mai departe.

Un alt domeniu potențial de aplicare a datelor mari este colectarea de informații despre numărul de vizitatori la diferite evenimente.

Exemplu. Organizatorii meciurilor de fotbal nu sunt în măsură să știe în avans numărul exact de persoane care au venit la meci. Cu toate acestea, ar primi astfel de informații dacă ar folosi informații de la operatorii de telefonie mobilă: unde se află potențialii vizitatori pentru o anumită perioadă de timp - o lună, o săptămână, o zi - înainte de meci. Rezultă că organizatorii ar avea posibilitatea să planifice locația evenimentului în funcție de preferințele publicului țintă.

Big data oferă, de asemenea, beneficii incomparabile pentru sectorul bancar, care poate folosi datele prelucrate pentru a identifica deținătorii de carduri fără scrupule.

Exemplu. Atunci când un deținător de card raportează pierderea sau furtul acestuia, banca are posibilitatea de a urmări locația cardului utilizat pentru plată și telefonul mobil al titularului pentru a verifica veridicitatea informațiilor. Astfel, reprezentantul băncii are posibilitatea de a vedea că cardul de plată și telefonul mobil al titularului se află în aceeași zonă. Aceasta înseamnă că proprietarul folosește cardul.

Datorită beneficiilor acestui tip de informații, utilizarea informațiilor oferă companiilor multe oportunități noi, iar piața big data continuă să se dezvolte.

Principala dificultate în implementarea datelor mari este complexitatea calculării cazului. Acest proces este complicat de prezența unui număr mare de necunoscute.

Este destul de dificil să faci previziuni pentru viitor, în timp ce datele despre trecut nu sunt întotdeauna la îndemână. În această situație, cel mai important este planificarea acțiunilor tale inițiale:

  1. Definirea unei probleme specifice în rezolvarea tehnologiei de procesare a datelor mari va fi aplicată va ajuta la determinarea conceptului și la setarea vectorului actiunile urmatoare. După ce s-a concentrat pe colectarea de informații în mod specific despre această problemă, merită, de asemenea, să profitați de toate instrumentele disponibileși metode pentru a obține o imagine mai clară. Mai mult, această abordare va facilita foarte mult procesul de luare a deciziilor în viitor.
  2. Probabilitatea ca un proiect de date mari să fie implementat de o echipă fără anumite abilități și experiență este extrem de scăzută. Cunoștințele care trebuie utilizate în cercetări atât de complexe sunt de obicei dobândite prin muncă îndelungată, motiv pentru care experiența anterioară este atât de importantă în acest domeniu. Este dificil de supraestimat influența unei culturi de utilizare a informațiilor obținute prin astfel de cercetări. Ele oferă diverse oportunități, inclusiv abuzul de materiale primite. Pentru a folosi informațiile pentru bine, ar trebui să respectați reguli elementare prelucrarea corectă a datelor.
  3. Perspectivele sunt valoarea de bază a tehnologiei. Piața se confruntă în continuare cu o lipsă acută de specialiști puternici, care să înțeleagă legile de a face afaceri, importanța informațiilor și domeniul de aplicare a acesteia. Nu se poate ignora faptul că analiza datelor este calea cheie Pentru a vă atinge obiectivele și pentru a vă dezvolta afacerea, trebuie să vă străduiți să dezvoltați un model specific de comportament și percepție. În acest caz, datele mari vor fi benefice și vor juca un rol pozitiv în rezolvarea problemelor de management al afacerii.

Cazuri de succes de implementare a datelor mari

Unele dintre cazurile enumerate mai jos au avut mai mult succes în colectarea datelor, altele - în analiza big data și modalități de aplicare a datelor obținute în timpul studiului.

  1. « Sistemele de credit Tinkoff» a folosit platforma EMC2 Greenplum pentru calcul masiv paralel. Datorită creșterii continue a fluxului de utilizatori de carduri în bancă, a apărut necesitatea de a accelera procesarea datelor. S-a decis să se utilizeze big data și să se lucreze cu informații nestructurate, precum și cu informații corporative care au fost obținute din surse disparate. Nu a scăpat de atenția specialiștilor lor că stratul analitic al depozitului federal de date este introdus pe site-ul Serviciului Federal de Taxe din Rusia. Ulterior, pe baza acestuia, se preconizează organizarea unui spațiu care să ofere acces la datele sistemului fiscal pentru prelucrarea și obținerea ulterioară a datelor statistice.
  2. Startup-ul rusesc merită luat în considerare separat Synqera, s-a angajat în analiza online a datelor mari și a dezvoltat platforma Simplate. Concluzia este că sunt procesate o cantitate mare de date, sunt analizate date despre consumatori, cumpărăturile acestora, vârsta, starea de spirit și starea de spirit. Un lanț de magazine de cosmetice a instalat senzori la casele de casă care pot recunoaște emoțiile clienților. După determinarea stării de spirit, sunt analizate informații despre cumpărător și momentul achiziției. După aceasta, cumpărătorul primește informații direcționate despre reduceri și promoții. Această soluție a crescut loialitatea consumatorilor și a putut crește veniturile vânzătorului.
  3. Ar trebui să vorbim și despre un studiu de caz privind utilizarea tehnologiilor big data într-o companie Dunkin'Donuts, care, similar exemplului anterior, a folosit analiza online pentru a crește profiturile. Așadar, la punctele de vânzare cu amănuntul, afișajele afișau oferte speciale, al căror conținut se schimba în fiecare minut. Baza înlocuirilor din text a fost atât ora din zi, cât și produsul din stoc. Din încasările de numerar, compania a primit informații despre articolele cele mai solicitate. Această metodă ne-a permis să creștem veniturile și cifra de afaceri a stocurilor.

Astfel, prelucrarea datelor mari are un efect pozitiv asupra rezolvării problemelor de afaceri. Un factor important este, desigur, alegerea strategiei și utilizarea celor mai recente evoluții în domeniul big data.

Informații despre companie

Archos. Domeniul de activitate: producerea si comercializarea echipamentelor electronice. Teritoriu: birourile de vânzări sunt deschise în nouă țări (Spania, China, Rusia, SUA, Franța etc.). Număr de angajați ai filialei: 5 (în reprezentanța Rusiei).