sisteme OLAP. Cerințe minime de memorie. Opțiuni de stocare a datelor OLAP

OLAP(On-Line Analytical Processing) este o clasă de aplicații și tehnologii concepute pentru prelucrarea analitică operațională a datelor multidimensionale (colectare, stocare, analiză) pentru a analiza activitățile unei corporații și a prezice starea viitoare pentru a sprijini deciziile de management. Tehnologia OLAP este folosită pentru a simplifica munca cu date acumulate multifuncționale despre activitățile anterioare ale corporației și pentru a nu se bloca în volumul lor mare, precum și pentru a transforma un set de indicatori cantitativi în indicatori calitativi, permițând analiștilor, managerilor și managerilor să formeze propria viziune asupra datelor folosind acces rapid, uniform și prompt la diferite forme de prezentare a informațiilor. Astfel de formulare, obținute pe baza datelor primare, permit utilizatorului să-și formeze o imagine completă a activităților întreprinderii.

Funcționalitatea OLAP, ca sisteme care implementează data mining, constă în analiza dinamică multidimensională a datelor consolidate ale întreprinderii, menită să susțină următoarele tipuri analitice și de navigație de activități ale utilizatorilor:

  • calcule și modelare aplicate dimensiunilor și/sau membrilor specifici acestora folosind informații despre ierarhii
  • analiza tendințelor temporale și a interdependențelor indicatorilor (analiza tendințelor), luând în considerare ceea ce ajută la îmbunătățirea calității deciziilor operaționale și strategice luate
  • generarea de secțiuni ale unei reprezentări multidimensionale pentru vizualizare pe ecran
  • trecerea la niveluri mai profunde de detaliu
  • acces la datele brute
  • „rotația” reprezentărilor multidimensionale: dimensiuni în mișcare pentru a forma diferite forme de reprezentare a datelor pe ecranul computerului

Tehnologia OLAP

Tehnologia OLAP este o alternativă metode tradiționale analiza datelor bazată pe diverse sisteme pentru implementarea interogărilor SQL într-o bază de date relațională. Sistemele OLAP joacă un rol vital în analiza și planificarea întreprinderilor mari și reprezintă una dintre domeniile dezvoltării IT. Baza o constituie cerințele factorilor de decizie pentru informațiile furnizate, caracteristicile individuale predominante ale managementului afacerilor și mecanismul decizional adoptat. Din punctul de vedere al utilizatorului, principala diferență dintre un sistem OLAP și un depozit de date este: structurarea specifică subiectului a informațiilor (și anume, bazată pe subiect, nu tehnic). Când lucrează cu o aplicație OLAP, utilizatorul aplică categorii și indicatori familiari - tipuri de materiale și produse finite, regiuni de vânzări, volum de vânzări, cost, profit etc. Și pentru a crea orice interogare, chiar și destul de complexă, utilizatorul face nu trebuie să învețe SQL. În acest caz, un răspuns la cerere va fi primit în doar câteva secunde. În plus, atunci când lucrează cu un sistem OLAP, un economist poate folosi instrumente familiare, cum ar fi foile de calcul sau mijloace speciale construirea rapoartelor.

Dezvoltarea solutiilor de management al intreprinderii

Dezvoltarea de solutii pentru managementul întreprinderii se încadrează în categoria zonelor care sunt cel mai greu de automatizat. Cu toate acestea, astăzi există o oportunitate de a ajuta managerul în dezvoltarea de soluții și, cel mai important, de a accelera semnificativ procesul de dezvoltare a soluțiilor, selecția și adoptarea acestora. De fapt, managerii de diferite grade primesc un instrument fundamental nou pentru luarea deciziilor manageriale mai eficiente și, cel mai important, accelerează semnificativ procesul de elaborare a deciziilor, selecția și adoptarea acestora.

În prezent, problema înțelegerii și stabilirii de relații între datele agregate cel mai bun mod rezolvată de produse care utilizează analiza operațională multidimensională a datelor OLAP. Corporativ sistem analitic, construit pe baza tehnologiei OLAP, permite diferitelor categorii de utilizatori ai companiei să lucreze cu informații analitice generalizate în timp real și să navigheze eficient în volume mari de date. Modulele OLAP interacționează rar cu alte sisteme de automatizare, deoarece bazele de date ale acestora din urmă au adesea un aspect destul de unic și un set de indicatori speciali.

Caracteristica principală a bazelor de date analitice (OLAP)– aceasta este capacitatea de a genera interogări nereglementate către baza de date analitică. Datele sunt încărcate în sistem din baza de date operațională a întreprinderii. Un sistem analitic corporativ poate consta din mai multe module, fiecare procesând mai multe matrice de informații necesare pentru a efectua o analiză cuprinzătoare a aspectului corespunzător al activităților întreprinderii. Modelul informaţional pe baza căruia este dezvoltat sistemul informaţional descrie complet toate aspectele domeniul subiectuluiși oferă vizibilitate și acces ușor la datele necesare analizei.

Afișare externă a informațiilor din sistem

Afișarea externă a informațiilor din sistem este implementată sub forma unei foi de calcul sau a unui grafic folosind mecanismul secțiunilor bidimensionale ale unui cub de bază de date multidimensionale. Secțiunea transversală este definită de utilizator prin selectarea a două dimensiuni independente (marginile cubului), ale căror valori vor fi prezentate în rândurile și coloanele foii de calcul și fixând valorile tuturor celorlalte dimensiuni model informativ. Interfața sistemului propus este formată din mai multe formulare de ecran, fiecare dintre acestea include o foaie de calcul sau un grafic.

OLAP (procesare analitică on-line) - acesta nu este un produs software separat, nu este un limbaj de programare sau chiar tehnologie specifică, este un set de concepte, principii și cerințe care stau la baza produselor software care facilitează accesul analiștilor la date. Termenul OLAP este foarte popular în zilele noastre și un sistem OLAP este adesea, dar nu în întregime corect, numit orice sistem DSS bazat pe conceptul de depozit de date și care oferă timp scurt de execuție (On-Line) a interogărilor analitice, indiferent dacă este analiza multidimensională. sunt date utilizate.

Uimitor - aproape...

Pe parcursul muncii, am avut adesea nevoie să fac rapoarte complexe, am încercat mereu să găsesc ceva comun în ele pentru a le compila mai simplu și mai universal, chiar am scris și publicat un articol pe acest subiect, „Arborele lui Osipov. ” Totuși, articolul meu a fost criticat și au spus că toate problemele pe care le-am ridicat au fost rezolvate de mult în MOLAP.RU v.2.4 (www.molap.rgtu.ru) și mi-au recomandat să se uite la tabelele pivot în EXCEL.
S-a dovedit a fi atât de simplu încât, după ce mi-am aplicat mâinile ingenioase, am primit un foarte circuit simplu pentru descărcarea datelor din 1C7 sau orice altă bază de date (în continuare 1C înseamnă orice bază de date) și analiză în OLAP.
Cred că multe scheme de încărcare OLAP sunt prea complicate, aleg simplitatea.

Caracteristici :

1. Pentru lucru este necesar doar EXCEL 2000.
2. Utilizatorul poate proiecta el însuși rapoarte fără programare.
3. Încărcarea de la 1C7 într-un format simplu de fișier text.
4. Deja disponibil pentru înregistrări contabile prelucrare universală pentru descărcare, lucrând în orice configurație. Procesarea eșantionului este disponibilă pentru descărcarea altor date.
5. Puteți proiecta formulare de raport în avans și apoi le puteți aplica diferitelor date fără a le reproiecta.
6. Frumos performanță bună. În prima etapă lungă, datele sunt importate mai întâi în EXCEL dintr-un fișier text și a cub OLAP, iar apoi destul de repede orice raport poate fi construit pe baza acestui cub. De exemplu, datele despre vânzările de produse pentru un magazin timp de 3 luni cu un sortiment de 6000 de produse sunt încărcate în EXCEL în 8 minute pe Cel600-128M, evaluarea pe produs și grup (raport OLAP) este recalculată în 1 minut.
7. Datele sunt descărcate din 1C7 în întregime pentru perioada specificată (toate mișcările, în toate depozitele, companiile, conturile). La importul în EXCEL, este posibil să folosiți filtre care încarcă doar datele necesare pentru analiză (de exemplu, din toate mișcările, doar vânzări).
8. În prezent, s-au dezvoltat metode de analiză a mișcărilor sau a reziduurilor, dar nu a mișcărilor și a reziduurilor împreună, deși acest lucru este posibil în principiu.

Ce este OLAP : (www.molap.rgtu.ru)

Să presupunem că aveți un lanț de retail. Lasă datele despre operațiuni de tranzacționareîncărcat într-un fișier text sau tabel precum:

Data - data operațiunii
Luna - luna de functionare
Săptămâna - săptămână de funcționare
Tip - cumpărare, vânzare, retur, anulare
Contraparte - o organizație externă care participă la o tranzacție
Autor - persoana care a emis factura

În 1C, de exemplu, un rând din acest tabel va corespunde unui rând al facturii; unele câmpuri (Contraparte, Data) sunt preluate din antetul facturii.

Datele pentru analiză sunt de obicei încărcate într-un sistem OLAP pentru o anumită perioadă de timp, din care, în principiu, o altă perioadă poate fi selectată folosind filtrele de încărcare.

Acest tabel este sursa pentru analiza OLAP.

Raport

Măsurătorile

Date

Filtru

Câte produse și pentru ce sumă se vând pe zi?

Data, Produsul

Cantitate, Sumă

View="sale"

Ce contrapărți au furnizat ce bunuri pentru ce sumă pe lună?

Lună, Antreprenor, Produs

Sumă

Vizualizare="cumpărare"

Ce sumă au scris operatorii pentru ce tip de facturi pentru toată perioada de raportare?

Sumă

Utilizatorul însuși determină care dintre câmpurile din tabel vor fi Dimensiuni, ce Date și ce Filtre să aplice. Sistemul în sine construiește un raport într-un mod vizual formă tabelară. Parametrii pot fi plasați în titlurile de rând sau de coloană ale unui tabel de raport.
După cum puteți vedea, dintr-un tabel simplu puteți obține o mulțime de date sub formă de rapoarte diferite.


Cum să-l folosești singur :

Despachetați datele din distribuție exact în directorul c:\fixin (pentru sistem comercial poate în c:\reports) . Citiți fișierul readme.txt și urmați toate instrucțiunile din acesta.

Mai întâi trebuie să scrieți o procesare care încarcă date din 1C într-un fișier text (tabel). Trebuie să determinați compoziția câmpurilor care vor fi descărcate.
De exemplu, procesarea universală gata făcută, care funcționează în orice configurație și descarcă tranzacții pentru o perioadă pentru analiza OLAP, descarcă următoarele câmpuri pentru analiză:

Data|Ziua săptămânii|Săptămâna|Anul|Tristrul|Luna|Document|Companie|Debit|DtNomenclature
|DtGroupNomenclature|DtSectionNomenclature|Credit|Suma|ValAmount|Cantitate
|Moneda|DtCounterparties|DtGroupCounterparties|KtCounterparties|KtGroupCounterparties|
CTMiscellaneousObjects

Acolo unde sub prefixele Dt(Kt) există subconturi de Debit (Credit), Grup este grupul acestui subcont (dacă există), Secțiune este grupul grupului, Clasa este grupul secțiunii.

Pentru un sistem de tranzacționare, câmpurile pot fi următoarele:

Direcție|Tip de mișcare|Pentru numerar|Produs|Cantitate|Preț|Suma|Data|Companie
|Depozit|Monedă|Document|Ziua săptămânii|Săptămâna|Anul|Tristrul|Luna|Autor
|Categoria de produs|Categoria de mișcare|Categoria de contrapartidă|Grup de produse
|ValAmount|Cost|Contraparte

Pentru analiza datelor se folosesc tabelele „Movement Analysis.xls” („Accounting Analysis.xls”). Când le deschideți, nu dezactivați macrocomenzi, altfel nu veți putea actualiza rapoartele (sunt rulate de macrocomenzi pe limbaj VBA). Aceste fișiere își iau datele sursă din fișierele C:\fixin\motions.txt (C:\fixin\buh.txt), altfel sunt aceleași. Prin urmare, poate fi necesar să vă copiați datele într-unul dintre aceste fișiere.
Pentru a vă încărca datele în EXCEL, selectați sau scrieți filtrul și faceți clic pe butonul „Generare” din foaia „Condiții”.
Foile de raport încep cu prefixul „Raport”. Accesați foaia de raport, faceți clic pe „Actualizează” și datele raportului se vor modifica în funcție de ultimele date încărcate.
Daca nu esti multumit rapoarte standard, există o foaie FatherTemplate. Copiați-l în frunză nouăși personalizați tipul de raport lucrând cu un tabel pivot pe această foaie (despre lucrul cu tabelele pivot - în orice carte despre EXCEL 2000). Recomand să configurați rapoarte pe un set mic de date și apoi să le rulați pe o matrice mare, deoarece... Nu există nicio modalitate de a dezactiva redesenarea tabelelor de fiecare dată când aspectul raportului se modifică.

Note tehnice :

Când încarcă date de la 1C, utilizatorul selectează folderul în care să încarce fișierul. Am făcut acest lucru pentru că este probabil să fie încărcate mai multe fișiere (rămășițe și mișcări) în viitorul apropiat. Apoi, făcând clic pe butonul „Trimite” din Explorer --> „Pentru analiza OLAP în EXCEL 2000”, datele sunt copiate din folderul selectat în folderul C:\fixin. (pentru ca această comandă să apară în lista comenzii „Trimite”, trebuie să copiați fișierul „Pentru analiza OLAP în EXCEL 2000.bat” în directorul C:\Windows\SendTo) Prin urmare, încărcați datele imediat prin denumirea fișierele motions.txt sau buh.txt.

Format fișier text:
Prima linie a fișierului text este antetele coloanelor separate prin „|”, liniile rămase conțin valorile acestor coloane separate prin „|”.

Microsoft Query este folosit pentru a importa fișiere text în Excel ( componentă EXCEL), pentru ca acesta să funcționeze, trebuie să aveți un fișier shema.ini în directorul de import (C:\fixin) care conține următoarea informație:


ColNameHeader=Adevărat
Format=Delimitat(|)
MaxScanRows=3
CharacterSet=ANSI
ColNameHeader=Adevărat
Format=Delimitat(|)
MaxScanRows=3
CharacterSet=ANSI

Explicație: motion.txt și buh.txt sunt numele secțiunii, corespunde numelui fișierului importat, descrie cum se importă un fișier text în Excel. Parametrii rămași înseamnă că prima linie conține numele coloanelor, separatorul de coloane este „|”, setul de caractere este Windows ANSI (pentru DOS - OEM).
Tipul câmpului este determinat automat pe baza datelor conținute în coloană (data, număr, șir).
Lista de câmpuri nu trebuie să fie descrisă nicăieri - EXCEL și OLAP vor determina ele însele care câmpuri sunt conținute în fișier de titlurile din prima linie.

Atenție, verificați setările regionale „Panou de control” --> „Setări regionale”. În procesarea mea, numerele sunt încărcate cu un delimitator de virgulă, iar datele sunt în formatul „ZZ.LL.AAAA”.

Când faceți clic pe butonul „Generați”, datele sunt încărcate în tabelul pivot din foaia „Bază”, iar toate rapoartele din foile „Raport” preiau date din acest tabel pivot.

Înțeleg că fanii MS SQL ServerȘi baze puternice datele vor începe să mormăie că totul este prea simplificat, că procesarea mea va fi epuizată de un eșantion de un an, dar în primul rând vreau să ofer beneficiile analizei OLAP organizațiilor mijlocii. Aș poziționa acest produs ca instrument de analiză anuală pentru companiile angro, analiză trimestrială pt cu amănuntulși analiză operațională pentru orice organizație.

A trebuit să mă chinuiesc cu VBA pentru ca datele să poată fi preluate dintr-un fișier cu orice listă de câmpuri și să pot pregăti formulare de raport în avans.

Descrierea muncii în EXCEL (pentru utilizatori):

Instrucțiuni pentru utilizarea rapoartelor:
1. Trimiteți datele descărcate pentru analiză (consultați administratorul). Pentru a face acest lucru, faceți clic dreapta pe folderul în care ați descărcat datele din 1C și selectați comanda „Trimite”, apoi „La analiza OLAP în EXCEL 2000”.
2. Deschideți fișierul „Motion Analysis.xls”
3. Selectați Filter Value; filtrele de care aveți nevoie pot fi adăugate în fila „Valori”.
4. Faceți clic pe butonul „Generare”, iar datele descărcate vor fi încărcate în EXCEL.
5. După încărcarea datelor în EXCEL, puteți vizualiza diferite rapoarte. Pentru a face acest lucru, faceți clic pe butonul „Reîmprospătare” din raportul selectat. Foile de raport încep cu Raport.
Atenţie! După ce modificați valoarea filtrului, trebuie să faceți clic din nou pe butonul „Generare”, astfel încât datele din EXCEL să fie reîncărcate din fișierul de încărcare în conformitate cu filtrele.

Procesare din exemplul demonstrativ:

Procesarea motionsbuh2011.ert - cea mai recentă versiune de încărcare a tranzacțiilor din Contabilitate 7.7 pentru analiză în Excel. Are o casetă de selectare „Atașați la fișier”, care vă permite să încărcați date în părți după perioadă, adăugându-le la același fișier, în loc să le încărcați din nou în același fișier:

Procesarea motionwork.ert încarcă date de vânzări pentru analiză în Excel.

Exemple de rapoarte:

Câblarea șahului:

Volumul de lucru al operatorului pe tipuri de facturi:

P.S. :

Este clar că o schemă similară poate fi folosită pentru a organiza descărcarea datelor din 1C8.
În 2011, m-a contactat un utilizator care trebuia să îmbunătățească această prelucrare în 1C7, astfel încât să încarce cantități mari de date, am găsit un externalizator și am făcut treaba. Deci dezvoltarea este destul de relevantă.

Procesarea motionsbuh2011.ert a fost îmbunătățită pentru a face față descarcării unor cantități mari de date.

OLAP (OnLine Analytical Processing) este denumirea nu a unui produs anume, ci a unei intregi tehnologii de prelucrare analitica operationala, care presupune analiza datelor si obtinerea de rapoarte. Utilizatorului i se oferă un tabel multidimensional care rezumă automat datele în diverse secțiuni și vă permite să gestionați rapid calculele și formularul de raport.

Deși în unele publicații procesarea analitică este numită atât online, cât și interactiv, adjectivul „online” reflectă cel mai bine sensul tehnologiei OLAP. Dezvoltarea de soluții de management de către un manager se încadrează în categoria zonelor cele mai susceptibile de automatizare. Cu toate acestea, astăzi există o oportunitate de a ajuta managerul în dezvoltarea de soluții și, cel mai important, de a accelera semnificativ procesul de dezvoltare a soluțiilor, selecția și adoptarea acestora.

Sistemele de sprijin pentru decizii au de obicei mijloacele de a furniza utilizatorului date agregate pentru diverse mostre din setul original într-o formă convenabilă pentru percepție și analiză. De regulă, astfel de funcții agregate formează un set de date multidimensionale, adesea numit hipercub sau metacub, ale cărui axe conțin parametri, iar celulele conțin date agregate care depind de ei - și astfel de date pot fi stocate și în tabele relaționale, dar în acest caz, despre care vorbim despre organizarea logică a datelor, nu despre implementare fizică depozitarea acestora.

De-a lungul fiecărei axe, datele pot fi organizate într-o ierarhie, reprezentând diferite niveluri de detaliu.

În funcție de dimensiunile din modelul multidimensional, sunt puși deoparte factorii care influențează activitățile întreprinderii (de exemplu: timpul, produsele, ramurile companiei etc.). Cubul OLAP rezultat este apoi umplut cu indicatori ai activității întreprinderii (prețuri, vânzări, plan, profituri, surplus etc.). Trebuie remarcat faptul că, spre deosebire de un cub geometric, fețele unui cub OLAP nu trebuie neapărat să aibă aceeași dimensiune. Acesta poate fi completat atât cu date reale din sistemele de operare, cât și cu date de prognoză bazate pe date istorice. Dimensiunile unui hipercub pot fi complexe, ierarhice și se pot stabili relații între ele. În timpul procesului de analiză, utilizatorul poate schimba punctul de vedere asupra datelor (așa-numita operațiune de schimbare a vederii logice), vizualizand astfel datele din diverse perspective și rezolvând probleme specifice. Pe cuburi pot fi efectuate diferite operații, inclusiv prognoza și planificarea condiționată (analiza ce se întâmplă dacă).

Datorită acestui model de date, utilizatorii pot formula interogări complexe, pot genera rapoarte și pot obține subseturi de date. Prelucrarea analitică operațională poate simplifica și accelera semnificativ procesul de pregătire și luare a deciziilor de către personalul de conducere. Prelucrarea analitică online are scopul de a transforma datele în informații. Este fundamental diferit de procesul tradițional de sprijinire a deciziilor, care se bazează cel mai adesea pe revizuirea rapoartelor structurate.


Tehnologia OLAP se referă la tip analiza predictivăși implică 12 principii:

1. Reprezentare conceptuală multidimensională. Utilizatorul-analist vede lumea întreprinderii ca fiind de natură multidimensională și, în consecință, modelul OLAP trebuie să fie multidimensional în nucleul său.

2. Transparenţă. Arhitectura unui sistem OLAP trebuie să fie deschisă, permițând utilizatorului, oriunde s-ar afla, să comunice folosind un instrument analitic - clientul - cu serverul.

3. Disponibilitate. Utilizatorul analist OLAP trebuie să poată efectua analize bazate pe o schemă conceptuală comună care conține date la nivel de întreprindere într-o bază de date relațională, precum și date din bazele de date moștenite, metode de acces comune și un model analitic comun. Un sistem OLAP ar trebui să acceseze numai datele care sunt de fapt necesare și nu ar trebui să le folosească principiu general„pâlnie de bucătărie”, care presupune introducerea inutilă.

4. Performanță constantă în elaborarea rapoartelor. Pe măsură ce numărul de dimensiuni sau dimensiunea bazei de date crește, analistul utilizator nu ar trebui să experimenteze o scădere semnificativă a performanței.

5. Arhitectura client-server. Majoritatea datelor care astăzi trebuie procesate online sunt conținute pe mainframe cu acces la stațiile de lucru ale utilizatorilor prin LAN. Aceasta înseamnă că produsele OLAP trebuie să poată funcționa într-un mediu client-server.

6. Multidimensionalitate generală. Fiecare dimensiune trebuie aplicată indiferent de structura și capacitățile sale operaționale. Structuri de bază datele, formulele și formatele de raportare nu ar trebui să fie părtinitoare către nicio dimensiune.

7. Managementul dinamic al matricelor rare. Designul fizic al instrumentului OLAP trebuie să fie pe deplin adaptat modelului analitic specific pentru control optim matrici rare. Sparsitatea (măsurată ca procent de celule goale la toate celulele posibile) este una dintre caracteristicile propagării datelor.

8. Suport multi-utilizator. Un instrument OLAP trebuie să ofere capabilități partajarea interogarea și completarea mai multor utilizatori-analiști, menținând în același timp integritatea și securitatea.

9. Operațiuni încrucișate nelimitate. Operatii diverse datorită naturii lor ierarhice, ele pot reprezenta relații de dependență în modelul OLAP, adică sunt încrucișate. Execuția lor nu ar trebui să solicite utilizatorului analitic redefinirea acestor calcule și operațiuni.

10. Manipularea intuitivă a datelor. Vizualizarea utilizatorului analist asupra dimensiunilor definite în modelul analitic trebuie să conțină toate informatie necesara pentru a efectua acțiuni pe modelul OLAP, i.e. nu ar trebui să necesite utilizarea unui sistem de meniuri sau a altor operațiuni cu interfețe cu utilizatorul multiple.

11. Opțiuni flexibile de raportare. Instrumentele de raportare trebuie să fie sintetizate date sau informații rezultate din modelul de date în orice orientare posibilă. Aceasta înseamnă că rândurile, coloanele sau paginile raportului trebuie să afișeze mai multe dimensiuni ale modelului OLAP simultan, cu posibilitatea de a afișa orice subset de membri (valori) conținute în dimensiune, în orice ordine.

12. Dimensiune și număr nelimitat de niveluri de agregare. Un studiu al numărului posibil de dimensiuni necesare necesare într-un model analitic a arătat că până la 19 dimensiuni pot fi utilizate simultan de către analistul utilizator. Aceasta conduce la o recomandare cu privire la numărul de dimensiuni suportate de sistemul OLAP. Mai mult, fiecare dintre dimensiunile comune nu ar trebui să fie limitată în numărul de niveluri de agregare definite de analistul utilizator.

Sistemele OLAP specializate oferite în prezent pe piață includ CalliGraph și Business Intelligence.

Pentru solutii sarcini simple analiza datelor, este posibilă utilizarea unei soluții bugetare - birou aplicații Excelși Access de la Microsoft, care conțin instrumente tehnologice de bază OLAP care vă permit să creați tabele pivot și să construiți diferite rapoarte pe baza acestora.

OLAP(din limba engleză OnLine Analytical Processing - prelucrarea operațională a datelor analitice, de asemenea: prelucrarea datelor analitice în timp real, prelucrarea interactivă a datelor analitice) - o abordare a procesării datelor analitice bazată pe reprezentarea lor ierarhică multidimensională, care face parte dintr-un domeniu mai larg tehnologia Informatiei- analiști de afaceri ().

Pentru un catalog de soluții și proiecte OLAP, consultați secțiunea OLAP despre TAdviser.

Din punctul de vedere al utilizatorului, OLAP-sistemele oferă mijloace de vizualizare flexibilă a informațiilor în diferite secțiuni, primire automată date agregate, efectuarea de operatii analitice de convolutie, detaliere, comparare in timp. Toate acestea fac din sistemele OLAP o soluție cu avantaje evidente în domeniul pregătirii datelor pentru toate tipurile de raportare de afaceri, implicând prezentarea datelor în diverse secțiuni și diferite niveluri de ierarhie - de exemplu, rapoarte de vânzări, diverse forme de bugete etc. pe. Avantajele unei astfel de reprezentări în alte forme de analiză a datelor, inclusiv prognoza, sunt evidente.

Cerințe pentru sistemele OLAP. FASMI

Cerința cheie pentru sistemele OLAP este viteza, care le permite să fie utilizate în procesul de lucru interactiv al unui analist cu informații. În acest sens, sistemele OLAP sunt puse în contrast, în primul rând, cu RDBMS tradiționale, mostre din care cu interogări tipice pentru analiști care folosesc gruparea și agregarea datelor sunt de obicei costisitoare în ceea ce privește timpul de așteptare și încărcarea RDBMS, astfel încât lucrul interactiv cu acestea pentru orice volumele semnificative de date sunt complexe. În al doilea rând, sistemele OLAP se opun, de asemenea, reprezentării obișnuite în fișiere plat a datelor, de exemplu, sub formă de fișiere tradiționale utilizate frecvent. foi de calcul, prezentarea datelor multidimensionale în care este complexă și nu intuitivă, precum și operațiunile de schimbare a slice - puncte de vedere asupra datelor - necesită, de asemenea, timp și complicat munca interactivă cu date.

În același timp, pe de o parte, cerințele de date specifice sistemelor OLAP implică de obicei stocarea datelor în structuri speciale optimizate pentru sarcini tipice OLAP; pe de altă parte, extragerea directă a datelor din sistemele existente în timpul procesului de analiză ar duce la o scădere semnificativă. în performanța lor.

Prin urmare, o cerință importantă este asigurarea celei mai flexibile legături de import-export între sistemele existente care acționează ca sursă de date și un sistem OLAP, precum și un sistem OLAP și aplicații externe de analiză și raportare a datelor.

Mai mult, o astfel de combinație trebuie să satisfacă cerințele evidente de susținere a import-export din mai multe surse de date, implementarea procedurilor de curățare și transformare a datelor, unificarea clasificatoarelor și cărților de referință utilizate. În plus, aceste cerințe sunt completate de necesitatea de a lua în considerare diferite cicluri de actualizare a datelor în sistemele informaționale existente și de a unifica nivelul necesar de detaliere a datelor. Complexitatea și versatilitatea acestei probleme au condus la apariția conceptului de depozite de date și, în în sens restrâns, la alocarea unei clase separate de utilitare de conversie și transformare a datelor - ETL (Extract Transform Load).

Modele active de stocare a datelor

Am indicat mai sus că OLAP presupune o reprezentare ierarhică multidimensională a datelor și, într-un sens, se opune sistemelor bazate pe RDBMS.

Acest lucru, totuși, nu înseamnă că toate sistemele OLAP utilizează un model multidimensional pentru a stoca date de sistem active, „funcționale”. Întrucât modelul activ de stocare a datelor influențează toate cerințele dictate de testul FASMI, importanța acestuia este subliniată de faptul că tocmai pe această bază se disting în mod tradițional subtipurile OLAP - multidimensionale (MOLAP), relaționale (ROLAP) și hibride (HOLAP).

Cu toate acestea, unii experți, conduși de cei menționate mai sus Nigel Pends, indică faptul că clasificarea bazată pe un criteriu nu este suficient de completă. Mai mult, marea majoritate a sistemelor OLAP existente vor fi de tip hibrid. Prin urmare, ne vom opri mai detaliat asupra modelelor active de stocare a datelor, menționând care dintre ele corespund cărora dintre subtipurile tradiționale OLAP.

Stocarea datelor active într-o bază de date multidimensională

În acest caz, datele OLAP sunt stocate în SGBD-uri multidimensionale care utilizează modele optimizate pentru acest tip de date. De obicei, SGBD-urile multidimensionale acceptă toate operațiunile OLAP tipice, inclusiv agregarea de-a lungul nivelurilor de ierarhie necesare și așa mai departe.

Acest tip de stocare a datelor, într-un sens, poate fi numit clasic pentru OLAP. Pentru el, însă, toți pașii spre pregătire prealabilă date. De obicei, datele DBMS multidimensionale sunt stocate pe disc, cu toate acestea, în unele cazuri, pentru a accelera procesarea datelor, astfel de sisteme permit stocarea datelor în RAM. În aceleași scopuri, se folosește uneori stocarea valorilor agregate precalculate și a altor valori calculate în baza de date.

SGBD-urile multidimensionale care acceptă pe deplin accesul multi-utilizator cu tranzacții concurente de citire și scriere sunt destul de rare, Mod normal pentru un astfel de SGBD este un singur utilizator cu acces de scriere și multi-utilizator cu acces de citire sau multi-utilizator cu acces numai pentru citire.

Printre deficiențe condiționale Caracteristic unor implementări de SGBD-uri multidimensionale și sisteme OLAP bazate pe acestea, se remarcă susceptibilitatea acestora la creșterea cantității de spațiu ocupat de baza de date, care este imprevizibilă din punct de vedere al utilizatorului. Acest efect este cauzat de dorința de a minimiza timpul de reacție al sistemului, care impune stocarea valorilor precalculate ale indicatorilor agregați și a altor cantități în baza de date, ceea ce determină o creștere neliniară a volumului de informații stocate în baza de date cu adăugarea de noi valori sau măsurători de date.

Măsura în care se manifestă această problemă, precum și problemele aferente stocării eficiente a cuburilor rare de date, este determinată de calitatea abordărilor și algoritmilor utilizați pentru implementările specifice ale sistemelor OLAP.

Stocarea datelor active într-o bază de date relațională

Datele OLAP pot fi stocate și într-un RDBMS tradițional. În cele mai multe cazuri, această abordare este folosită atunci când se încearcă să „nedurerează” Integrare OLAP cu existente sisteme contabile sau depozite de date bazate pe RDBMS . În același timp, această abordare necesită unele capacități suplimentare din partea RDBMS pentru a asigura îndeplinirea efectivă a cerințelor testului FASMI (în special, asigurarea timpului minim de răspuns al sistemului). De obicei, datele OLAP sunt stocate în formă denormalizată, iar unele dintre agregatele și valorile precalculate sunt stocate în tabele speciale. Când este stocat într-o formă normalizată, eficacitatea RDBMS ca metodă de stocare a datelor active scade.

Problema alegerii unor abordări și algoritmi eficienți pentru stocarea datelor precalculate este relevantă și pentru sistemele OLAP bazate pe RDBMS, astfel încât producătorii de astfel de sisteme se concentrează de obicei pe meritele abordărilor utilizate.

În general, se crede că sistemele OLAP bazate pe RDBMS sunt mai lente decât sistemele bazate pe SGBD-uri multidimensionale, inclusiv datorită structurilor de stocare a datelor care sunt mai puțin eficiente pentru sarcinile OLAP, dar în practică acest lucru depinde de caracteristicile unui anumit sistem.

Printre avantajele stocării datelor într-un RDBMS se numără scalabilitatea mai mare a unor astfel de sisteme.

Stocarea datelor active în fișiere plate

Această abordare implică stocarea unor bucăți de date în fișiere obișnuite. Este de obicei folosit ca o completare a uneia dintre cele două abordări principale pentru a accelera munca prin memorarea în cache a celor mai recente date de pe disc sau în memorie cu acces aleator PC-ul client.

Abordare hibridă a stocării datelor

Majoritatea producătorilor de sisteme OLAP își promovează soluții cuprinzătoare, incluzând adesea, pe lângă sistemul DBMS OLAP în sine, ETL (Extract Transform Load) și instrumente de raportare, utilizează în prezent o abordare hibridă pentru organizarea stocării datelor de sistem active, distribuindu-le într-un fel sau altul între RDBMS și stocarea specializată , precum și între structurile de disc și stocarea în cache în RAM.

Deoarece eficacitatea unei astfel de soluții depinde de abordările și algoritmii specifici utilizați de producător pentru a determina dacă ce date și unde să stocați, apoi trageți în grabă concluzii despre eficiența inițial mai mare a unor astfel de soluții ca clasă, fără a evalua caracteristicile specifice ale sistemului luat în considerare.

OLAP(ing. procesare analitică on-line) – un set de metode de procesare dinamică a interogărilor multidimensionale în baze de date analitice. Astfel de surse de date sunt de obicei destul de mari, iar instrumentele folosite pentru procesarea lor sunt una dintre cele mai multe cerințe importante este de mare viteză. În bazele de date relaționale, informațiile sunt stocate în mese separate, care sunt bine normalizate. Dar interogările complexe cu mai multe tabele sunt executate destul de lent în ele. Performanța semnificativ mai bună în ceea ce privește viteza de procesare în sistemele OLAP este obținută datorită particularităților structurii de stocare a datelor. Toate informațiile sunt organizate în mod clar și sunt utilizate două tipuri de stocare a datelor: măsurători(conțin directoare împărțite pe categorii, de exemplu, puncte de vânzare, clienți, angajați, servicii etc.) și date(caracterizează interacțiunea elementelor de diferite dimensiuni, de exemplu, la 3 martie 2010, vânzătorul A a furnizat un serviciu clientului B în magazinul C pentru suma de D unități monetare). Măsurile sunt folosite pentru a calcula rezultatele în Cubul de analiză. Măsurile sunt colecții de fapte agregate după dimensiunile selectate corespunzătoare și elementele acestora. Datorită acestor caracteristici, interogările complexe cu date multidimensionale durează mult mai puțin decât cu sursele relaționale.

Unul dintre principalii furnizori de sisteme OLAP este Microsoft Corporation. Să luăm în considerare implementarea principiilor OLAP în exemple practice creați un cub analitic în aplicațiile Microsoft SQL Server Business Intelligence Development Studio (BIDS) și Microsoft Office PerformancePoint Server Planning Business Modeler (PPS) și familiarizați-vă cu capacitățile reprezentare vizuala date multidimensionale sub formă de grafice, diagrame și tabele.

De exemplu, în BIDS este necesar să se creeze un cub OLAP folosind date despre o companie de asigurări, angajații acesteia, partenerii (clienții) și punctele de vânzare. Să presupunem că compania oferă un singur tip de serviciu, deci nu va fi necesară măsurarea serviciilor.

Mai întâi să definim măsurătorile. Următoarele entități (categorii de date) sunt asociate cu activitățile companiei:

  • Puncte de vânzare
    - Angajati
    - Parteneri
De asemenea, creează dimensiunile Timp și Scenariu, care sunt necesare pentru orice cub.
Apoi, aveți nevoie de un tabel pentru a stoca fapte (tabel de fapte).
Informațiile pot fi introduse manual în tabele, dar cea mai obișnuită modalitate este de a încărca date folosind Expertul de import din diverse surse.
Următoarea figură arată fluxul de creare și completare manuală a tabelelor de dimensiuni și fapte:

Fig.1. Tabele de dimensiuni și fapte în baza de date analitică. Secvența de creație
După crearea unei surse de date multidimensionale în BIDS, puteți vizualiza prezentarea acesteia (Vizualizarea sursei de date). În exemplul nostru, vom obține circuitul prezentat în figura de mai jos.


Fig.2. Vizualizare sursă de date în Business Intelligence Development Studio (BIDS)

După cum puteți vedea, tabelul de fapte este conectat la tabelele de dimensiuni printr-o corespondență unu-la-unu a câmpurilor de identificare (PartnerID, EmployeeID etc.).

Să ne uităm la rezultat. Pe fila Cube explorer, prin tragerea de măsuri și dimensiuni în câmpurile de totaluri, rânduri, coloane și filtre, putem obține o vizualizare a datelor de interes (de exemplu, tranzacții încheiate pe contracte de asigurare încheiate de un anumit angajat în 2005).

După ce datele sunt primite, curățate, aduse la un singur tipși plasate în depozit, acestea trebuie analizate. În acest scop, se utilizează tehnologia OLAP.

Cele douăsprezece principii definitorii ale OLAP au fost formulate în 1993 de E. F. Codd, „inventatorul” bazelor de date relaționale. OLAP este procesare analitică on-line, adică analiza datelor operaționale. Definiția lui Codd a fost dezvoltată ulterior în așa-numitul test FASMI (Fast Analysis of Shared Multidimensional Information), care necesită ca aplicația OLAP să ofere următoarele capabilități pentru analiza rapidă a informațiilor multidimensionale partajate: de mare viteză; analiză; partajarea accesului; multidimensionalitate; lucrul cu informația...

De mare viteză. Analiza ar trebui să fie efectuată la fel de rapid pe toate aspectele informațiilor. În acest caz, timpul de răspuns acceptabil nu este mai mare de 5 secunde.

Analiză. Trebuie să se poată produce tipuri de bază de numerice și analize statistice- predefinit de dezvoltatorul aplicației sau definit arbitrar de utilizator.

Partajarea accesului. Accesul la date trebuie să fie multi-utilizator, iar accesul la informații confidențiale trebuie controlat.

Multidimensionalitate. Caracteristica principală, cea mai esențială a OLAP.

Lucrul cu informații. Aplicația trebuie să poată accesa oricare informatie necesara, indiferent de volumul și locația de stocare.

Reprezentare multidimensională. OLAP oferă organizațiilor cele mai convenabile și remedii rapide accesați, vizualizați și analizați informațiile comerciale. Cel mai important, OLAP oferă utilizatorului un model de date natural, intuitiv, organizându-l în cuburi multidimensionale. Axele (dimensiunile) sistemului de coordonate multidimensionale sunt principalele atribute ale procesului de afaceri analizat. De exemplu, pentru un proces de vânzare, acesta ar putea fi o categorie de produs, o regiune sau un tip de cumpărător. Timpul este aproape întotdeauna folosit ca una dintre dimensiuni. În interiorul cubului există date care caracterizează cantitativ procesul - așa-numitele Măsuri. Acestea pot fi volume de vânzări în bucăți sau în termeni monetari, solduri stocuri, costuri etc. Un utilizator care analizează informații poate „decupa” un cub în direcții diferite, poate primi un rezumat (de exemplu, pe an) sau, dimpotrivă, date detaliate (pe săptămână) și să efectueze alte operațiuni care sunt necesare analizei.

Stocarea datelor OLAP . În primul rând, trebuie spus că din moment ce analistul operează întotdeauna cu niște date rezumative (mai degrabă decât detaliate), bazele de date OLAP stochează aproape întotdeauna, alături de date detaliate, așa-numitele agregate, adică indicatori de sinteză precalculați. Exemplele de agregate includ volumul total de vânzări pentru anul sau soldul mediu al mărfurilor din stoc. Stocarea agregărilor precalculate este modalitatea principală de a îmbunătăți viteza interogărilor OLAP.


Cu toate acestea, construcția de agregate poate duce la crestere semnificativa volumul bazei de date.

O altă problemă cu stocarea datelor OLAP este raritatea datelor multidimensionale. De exemplu, dacă nu au existat vânzări într-o anumită regiune în 2000, atunci nu va exista nicio valoare la intersecția dimensiunilor corespunzătoare ale cubului. Dacă serverul OLAP stochează o anumită valoare lipsă în acest caz, atunci dacă datele sunt semnificativ rare, numărul de celule goale (care necesită totuși spațiu de stocare) poate fi de multe ori mai mare decât numărul celor completate și, ca rezultat, volumul total va crește nejustificat. Soluții oferite în acest sens de către Microsoft, sunt prezentate mai jos.

Tipuri de OLAP. Următoarele pot fi folosite pentru a stoca date OLAP:

SGBD multidimensionale speciale (servere OLAP). În acest caz ei vorbesc despre MOLAP (OLAP multidimensional). Facand interogări complexe, analizând datele în dimensiuni diferite SGBD-urile multidimensionale oferă performanțe mai bune decât cele relaționale. În același timp, viteza de execuție a interogării nu depinde de dimensiunea în care este realizată „felia” cubului multidimensional.

SGBD relațional tradițional - ROLAP (OLAP relațional). Utilizarea unor structuri speciale de date - scheme stea și fulgi de nea, precum și stocarea agregatelor calculate, face posibilă analiza multidimensională a datelor relaționale. SGBD-urile relaționale au fost din istorie mai obișnuite și s-au făcut investiții semnificative în ele, așa că deocamdată ROLAP este mai comun.

Opțiune combinată - HOLAP (OLAP hibrid), combinând ambele tipuri de SGBD. O opțiune pentru combinarea a două tipuri de SGBD este stocarea agregatelor într-un SGBD multidimensional și a datelor detaliate (având cel mai mare volum) într-un SGBD relațional.

Microsoft oferă următoarele instrumente de analiză OLAP:

Microsoft SQL Server 7.0 include un server OLAP cu funcții complete - SQL Server OLAP Services. Serverul, desigur, este conceput pentru a servi cererile clienților, iar acest lucru necesită un anumit protocol de interacțiune și limbaj de interogare. De exemplu, pentru interacțiunea clientului cu serverul SGBD relațional- SQL Server - Se folosesc protocoale ODBC sau OLE DB și limbajul de interogare SQL. Pentru a accesa serverul OLAP, Microsoft a dezvoltat protocolul OLE DB pentru OLAP și un limbaj de interogare pentru date multidimensionale - MDX (MultiDimensional eXpression). În același mod în care stratul obiect ADO ( Date ActiveX Objects), ADO MD (MultiDimensional ADO) este construit pe OLE DB pentru OLAP.

Instrumente de analiză a datelor în Microsoft Office 2000. Microsoft Excel 2000 conține mecanism nou tabele pivot- OLAP PivotTable, care a înlocuit mecanismul cu același nume în versiunile anterioare. Alături de capabilitățile anterioare de analiză a datelor relaționale, motorul PivotTable include acum capabilități de analiză a datelor OLAP, adică acționează ca un client OLAP. Microsoft SQL Server 7.0 poate fi folosit ca server, precum și orice produs care acceptă interfața OLE DB pentru OLAP. Mecanism de rezumat tabele Excel acceptă pe deplin capacitățile oferite de serviciul PivotTable Services (PTS) descris mai sus. Astfel, datele OLAP analizate pot fi localizate atât în ​​cuburi locale, cât și pe serverul OLAP.

Microsoft Office 2000 conține, de asemenea, un set de componente ActiveX numite Componente Web Office 2000, care vă permit să organizați analiza datelor OLAP folosind navigare pe internet. Acestea includ următoarele patru componente:

Foaie de calcul- implementează funcționalitatea limitată a unei foi Excel.

Masă rotativă- „gemeni” de tabele pivot Excel; poate lucra cu datele OLAP Services.

Diagramă- vă permite să construiți diagrame bazate atât pe date relaționale, cât și pe date OLAP.

Sursă de date- o componentă de serviciu pentru legarea altor componente la sursa de date.

Când lucrează cu date OLAP, componentele web accesează serviciile PivotTable.

5.5. TEHNOLOGIA DE ANALIZĂ „DATA MING”

Apariția tehnologiei Data Mining este asociată cu nevoia de a extrage cunoștințele din acumulat sisteme de informare date eterogene. A apărut un concept care în rusă a început să fie numit „extracție”, „extracție” de cunoștințe. Termenul „Data Mining” a devenit înființat în străinătate.

Metodele de statistică matematică utilizate anterior s-au dovedit a fi utile în principal pentru testarea ipotezelor preformulate (mining de date bazat pe verificare) și pentru analiza exploratorie „grundă”, care formează baza prelucrării analitice online (OLAP).

Avantaj cheie „Data Mining” comparativ cu metodele anterioare – capacitatea de a genera automat ipoteze despre relația dintre diverși parametri sau componente de date. Munca unui analist atunci când lucrează cu un pachet tradițional de prelucrare a datelor se rezumă de fapt la testarea sau clarificarea uneia sau două ipoteze generate de el. În cazurile în care nu există ipoteze inițiale și cantitatea de date este semnificativă, sistemele existenteîși pierd capacitatea de a lucra și se transformă în pierderi de timp pentru analist.

Încă unul caracteristică importantă Sistemele Data Mining au capacitatea de a procesa interogări multidimensionale și de a căuta dependențe multidimensionale. De asemenea, unică este capacitatea sisteme de date minerit detectează automat excepțiile – de ex. elemente de date care „cad” din tiparele generale.

Există cinci tipuri standard de modele care vă permit să identificați Metode de date Minerit

asociere

ulterior

clasificare

gruparea

prognoza

Căutarea tiparelor se realizează folosind metode care nu sunt limitate de ipoteze a priori despre structura eșantionului și tipul de distribuție a valorilor indicatorilor analizați. Exemple de sarcini pentru o astfel de căutare când folosind Date Exploatarea mineritului este prezentată în tabelul 1.

Tabelul 1 - Comparația formulărilor problemelor atunci când se utilizează metodele OLAP și Data Mining