Hệ thống OLAP. Yêu cầu bộ nhớ tối thiểu. Tùy chọn lưu trữ dữ liệu OLAP

OLAP(Xử lý phân tích trực tuyến) là một nhóm ứng dụng và công nghệ được thiết kế để xử lý phân tích hoạt động dữ liệu đa chiều (thu thập, lưu trữ, phân tích) nhằm phân tích hoạt động của một tập đoàn và dự đoán trạng thái tương lai nhằm hỗ trợ các quyết định quản lý. Công nghệ OLAP được sử dụng để đơn giản hóa công việc với dữ liệu được tích lũy đa mục đích về các hoạt động trước đây của tập đoàn và không bị sa lầy vào khối lượng lớn của chúng, cũng như biến một bộ chỉ số định lượng thành chỉ số định tính, cho phép các nhà phân tích, nhà quản lý và nhà quản lý hình thành tầm nhìn riêng của họ về dữ liệu bằng cách sử dụng quyền truy cập nhanh chóng, thống nhất, nhanh chóng vào các hình thức trình bày thông tin khác nhau. Các biểu mẫu như vậy, thu được trên cơ sở dữ liệu chính, cho phép người dùng hình thành một bức tranh hoàn chỉnh về hoạt động của doanh nghiệp.

Chức năng của OLAP, với tư cách là hệ thống triển khai khai thác dữ liệu, nằm trong phân tích động đa chiều của dữ liệu doanh nghiệp hợp nhất, nhằm hỗ trợ các loại hoạt động phân tích và điều hướng sau đây của người dùng:

  • tính toán và mô hình hóa được áp dụng cho các thứ nguyên và/hoặc các thành phần cụ thể của chúng bằng cách sử dụng thông tin về hệ thống phân cấp
  • phân tích xu hướng thời gian và sự phụ thuộc lẫn nhau của các chỉ số (phân tích xu hướng), có tính đến việc giúp cải thiện chất lượng của các quyết định chiến lược và hoạt động được đưa ra
  • tạo ra các lát biểu diễn đa chiều để xem trên màn hình
  • chuyển sang mức độ chi tiết sâu hơn
  • truy cập vào dữ liệu thô
  • "xoay" các biểu diễn đa chiều: di chuyển các chiều để tạo thành các dạng biểu diễn dữ liệu khác nhau trên màn hình máy tính

công nghệ OLAP

Công nghệ OLAP là một sự thay thế phương pháp truyền thống phân tích dữ liệu dựa trên các hệ thống khác nhau để triển khai các truy vấn SQL tới cơ sở dữ liệu quan hệ. Hệ thống OLAP đóng một vai trò quan trọng trong việc phân tích và lập kế hoạch của các doanh nghiệp lớn và là một trong những lĩnh vực phát triển CNTT. Cơ sở là các yêu cầu của người ra quyết định đối với thông tin được cung cấp, các đặc điểm cá nhân phổ biến trong quản lý kinh doanh và cơ chế ra quyết định được áp dụng. Theo quan điểm của người dùng, sự khác biệt chính giữa hệ thống OLAP và kho dữ liệu là: cấu trúc thông tin theo chủ đề cụ thể (cụ thể là dựa trên chủ đề, không phải kỹ thuật). Khi làm việc với ứng dụng OLAP, người dùng áp dụng các danh mục và chỉ số quen thuộc - loại nguyên liệu và thành phẩm, khu vực bán hàng, khối lượng bán hàng, chi phí, lợi nhuận, v.v. Và để tạo bất kỳ truy vấn nào, thậm chí khá phức tạp, người dùng thực hiện không phải học SQL. Trong trường hợp này, phản hồi yêu cầu sẽ được nhận chỉ trong vài giây. Ngoài ra, khi làm việc với hệ thống OLAP, nhà kinh tế có thể sử dụng các công cụ quen thuộc như bảng tính hoặc phương tiện đặc biệt báo cáo xây dựng.

Phát triển giải pháp quản lý doanh nghiệp

Phát triển các giải pháp cho quản trị doanh nghiệp rơi vào danh mục các lĩnh vực khó tự động hóa nhất. Tuy nhiên, ngày nay có cơ hội hỗ trợ người quản lý phát triển các giải pháp và quan trọng nhất là đẩy nhanh đáng kể quá trình phát triển, lựa chọn và áp dụng các giải pháp. Trên thực tế, các nhà quản lý ở nhiều cấp bậc khác nhau nhận được một công cụ mới về cơ bản để ra quyết định quản lý hiệu quả hơn và quan trọng nhất là đẩy nhanh đáng kể quá trình phát triển các quyết định, lựa chọn và áp dụng chúng.

Hiện nay, vấn đề tìm hiểu và thiết lập mối quan hệ giữa dữ liệu tổng hợp cách tốt nhấtđược giải quyết bằng các sản phẩm sử dụng OLAP phân tích dữ liệu vận hành đa chiều. Công ty hệ thống phân tích, được xây dựng trên cơ sở công nghệ OLAP, cho phép nhiều loại người dùng khác nhau của công ty làm việc với thông tin phân tích tổng quát trong thời gian thực và điều hướng hiệu quả khối lượng dữ liệu lớn. Các mô-đun OLAP hiếm khi tương tác với các hệ thống tự động hóa khác, vì cơ sở dữ liệu của các hệ thống tự động hóa này thường có hình thức khá độc đáo và một bộ chỉ báo đặc biệt.

Tính năng chính của cơ sở dữ liệu phân tích (OLAP)– đây là khả năng tạo ra các truy vấn không được kiểm soát tới cơ sở dữ liệu phân tích. Dữ liệu được tải vào hệ thống từ cơ sở dữ liệu hoạt động của doanh nghiệp. Hệ thống phân tích của công ty có thể bao gồm một số mô-đun, mỗi mô-đun xử lý một số mảng thông tin cần thiết để tiến hành phân tích toàn diện về khía cạnh tương ứng trong hoạt động của doanh nghiệp. Mô hình thông tin trên cơ sở phát triển hệ thống thông tin mô tả đầy đủ mọi khía cạnh lĩnh vực chủ đề và cung cấp khả năng hiển thị và dễ dàng truy cập vào dữ liệu cần thiết để phân tích.

Hiển thị thông tin bên ngoài trong hệ thống

Việc hiển thị thông tin bên ngoài trong hệ thống được thực hiện dưới dạng bảng tính hoặc biểu đồ sử dụng cơ chế các phần hai chiều của khối cơ sở dữ liệu đa chiều. Mặt cắt ngang được người dùng xác định bằng cách chọn hai kích thước độc lập (các cạnh của khối), các giá trị của chúng sẽ được hiển thị trong các hàng và cột của bảng tính và sửa các giá trị của tất cả các kích thước khác mô hình thông tin. Giao diện của hệ thống được đề xuất bao gồm một số màn hình hình thức, mỗi trong số đó bao gồm một bảng tính hoặc biểu đồ.

OLAP (Xử lý phân tích trực tuyến) - đây không phải là một sản phẩm phần mềm riêng biệt, không phải là ngôn ngữ lập trình hoặc thậm chí công nghệ cụ thể, là tập hợp các khái niệm, nguyên tắc và yêu cầu làm nền tảng cho các sản phẩm phần mềm giúp các nhà phân tích truy cập dữ liệu dễ dàng hơn. Thuật ngữ OLAP ngày nay rất phổ biến và hệ thống OLAP thường được gọi, nhưng không hoàn toàn chính xác, được gọi là bất kỳ hệ thống DSS nào dựa trên khái niệm kho dữ liệu và cung cấp thời gian thực hiện ngắn (Trực tuyến) của các truy vấn phân tích, bất kể phân tích đa chiều hay không. là dữ liệu được sử dụng.

Tuyệt vời - gần...

Trong quá trình làm việc, tôi thường phải làm những báo cáo phức tạp, tôi luôn cố gắng tìm ra điểm chung trong đó để biên soạn chúng một cách đơn giản và phổ quát hơn, thậm chí tôi còn viết và xuất bản một bài báo về chủ đề này, “Cây của Osipov. ” Tuy nhiên, bài viết của tôi đã bị chỉ trích và họ nói rằng tất cả các vấn đề mà tôi nêu ra đã được giải quyết từ lâu trong MOLAP.RU v.2.4 (www.molap.rgtu.ru) và họ khuyên bạn nên xem xét các bảng tổng hợp trong EXCEL.
Nó hóa ra đơn giản đến mức, khi áp dụng đôi bàn tay nhỏ bé khéo léo của mình vào nó, tôi đã có được một kết quả rất thú vị. mạch đơn giảnđể tải xuống dữ liệu từ 1C7 hoặc bất kỳ cơ sở dữ liệu nào khác (sau đây 1C có nghĩa là bất kỳ cơ sở dữ liệu nào) và phân tích trong OLAP.
Tôi nghĩ nhiều sơ đồ tải lên OLAP quá phức tạp, tôi chọn sự đơn giản.

Đặc trưng :

1. Chỉ cần EXCEL 2000 để làm việc.
2. Người dùng có thể tự thiết kế báo cáo mà không cần lập trình.
3. Tải lên từ 1C7 ở định dạng tệp văn bản đơn giản.
4. Đã có sẵn để ghi sổ kế toán xử lý phổ quátđể dỡ hàng, làm việc trong mọi cấu hình. Xử lý mẫu có sẵn để tải xuống dữ liệu khác.
5. Bạn có thể thiết kế trước các biểu mẫu báo cáo và sau đó áp dụng chúng cho các dữ liệu khác nhau mà không cần thiết kế lại.
6. Xinh đẹp hiệu suất tốt. Trong giai đoạn dài đầu tiên, dữ liệu lần đầu tiên được nhập vào EXCEL từ tệp văn bản và khối OLAP, và sau đó khá nhanh chóng mọi báo cáo đều có thể được xây dựng dựa trên khối này. Ví dụ: dữ liệu về doanh số bán sản phẩm của một cửa hàng trong 3 tháng với 6000 loại sản phẩm được tải vào EXCEL trong 8 phút trên Cel600-128M, xếp hạng theo sản phẩm và nhóm (báo cáo OLAP) được tính toán lại sau 1 phút.
7. Dữ liệu được tải xuống đầy đủ từ 1C7 trong khoảng thời gian được chỉ định (tất cả các chuyển động, trên tất cả các kho, công ty, tài khoản). Khi nhập vào EXCEL, có thể sử dụng các bộ lọc chỉ tải dữ liệu cần thiết để phân tích (ví dụ: từ tất cả các chuyển động, chỉ từ doanh số bán hàng).
8. Hiện nay, các phương pháp đã được phát triển để phân tích chuyển động hoặc dư lượng, nhưng chưa phát triển các chuyển động và dư lượng cùng nhau, mặc dù về nguyên tắc điều này là có thể thực hiện được.

OLAP là gì : (www.molap.rgtu.ru)

Giả sử bạn có một chuỗi bán lẻ. Hãy để dữ liệu về hoạt động giao dịchđược tải lên tệp văn bản hoặc bảng như:

Ngày - ngày hoạt động
Tháng – tháng hoạt động
Tuần - tuần hoạt động
Loại - mua, bán, trả lại, xóa sổ
Đối tác - một tổ chức bên ngoài tham gia giao dịch
Tác giả - người phát hành hóa đơn

Ví dụ: trong 1C, một hàng của bảng này sẽ tương ứng với một dòng của hóa đơn; một số trường (Đối tác, Ngày) được lấy từ tiêu đề hóa đơn.

Dữ liệu để phân tích thường được tải lên hệ thống OLAP trong một khoảng thời gian nhất định, từ đó, về nguyên tắc, có thể chọn một khoảng thời gian khác bằng cách sử dụng các bộ lọc tải.

Bảng này là nguồn để phân tích OLAP.

Báo cáo

Đo

Dữ liệu

Lọc

Có bao nhiêu sản phẩm và số lượng được bán mỗi ngày?

Ngày, Sản phẩm

Số lượng, số lượng

Xem="giảm giá"

Đối tác nào cung cấp hàng hóa nào với số lượng bao nhiêu mỗi tháng?

Tháng, Nhà thầu, Sản phẩm

Tổng

Xem="mua hàng"

Nhà điều hành đã viết số tiền bao nhiêu cho loại hóa đơn nào trong toàn bộ kỳ báo cáo?

Tổng

Người dùng tự xác định trường nào trong bảng sẽ là Thứ nguyên, Dữ liệu nào và Bộ lọc nào sẽ áp dụng. Hệ thống tự xây dựng báo cáo một cách trực quan dạng bảng. Thứ nguyên có thể được đặt trong tiêu đề hàng hoặc cột của bảng báo cáo.
Như bạn có thể thấy, từ một bảng đơn giản, bạn có thể nhận được rất nhiều dữ liệu dưới dạng các báo cáo khác nhau.


Làm thế nào để sử dụng nó cho mình :

Giải nén chính xác dữ liệu từ bản phân phối vào thư mục c:\fixin (đối với Hệ thống thương mại có lẽ trong c:\reports). Đọc readme.txt và làm theo tất cả các hướng dẫn trong đó.

Trước tiên, bạn phải viết một quy trình tải dữ liệu từ 1C lên tệp văn bản (bảng). Bạn cần xác định thành phần của các trường sẽ được dỡ bỏ.
Ví dụ: xử lý chung được tạo sẵn, hoạt động trong mọi cấu hình và tải xuống các giao dịch trong một khoảng thời gian để phân tích OLAP, tải xuống các trường sau để phân tích:

Ngày|Ngày trong tuần|Tuần|Năm|Quý|Tháng|Tài liệu|Công ty|Nợ|DtDanh mục
|DtGroupDanh pháp|DtSectionDanh pháp|Tín dụng|Số tiền|ValAmount|Số lượng
|Tiền tệ|DtĐối tác|DtGroupĐối tác|KtĐối tác|KtGroupĐối tác|
CTKhácĐối tượng

Trường hợp dưới tiền tố Dt(Kt) có tài khoản con Nợ (Có), Nhóm là nhóm của tài khoản con này (nếu có), Mục là nhóm của nhóm, Lớp là nhóm của bộ phận.

Đối với một hệ thống giao dịch, các trường có thể như sau:

Hướng|Loại di chuyển|Đối với tiền mặt|Sản phẩm|Số lượng|Giá|Số tiền|Ngày|Công ty
|Kho|Tiền tệ|Tài liệu|Ngày trong tuần|Tuần|Năm|Quý|Tháng|Tác giả
|Danh mục sản phẩm|Danh mục chuyển động|Danh mục đối tác|Nhóm sản phẩm
|ValAmount|Chi phí|Đối tác

Để phân tích dữ liệu, các bảng "Movement Analysis.xls" ("Accounting Analysis.xls") được sử dụng. Khi mở chúng, đừng tắt macro, nếu không bạn sẽ không thể cập nhật báo cáo (chúng được chạy bởi macro trên ngôn ngữ VBA). Các tệp này lấy dữ liệu nguồn từ các tệp C:\fixin\motions.txt (C:\fixin\buh.txt), nếu không thì chúng giống nhau. Do đó, bạn có thể phải sao chép dữ liệu của mình vào một trong những tệp này.
Để tải dữ liệu của bạn vào EXCEL, hãy chọn hoặc viết bộ lọc của bạn và nhấp vào nút “Tạo” trên trang “Điều kiện”.
Các trang báo cáo bắt đầu bằng tiền tố "Báo cáo". Chuyển đến bảng báo cáo, nhấp vào "Làm mới" và dữ liệu báo cáo sẽ thay đổi theo dữ liệu được tải lần cuối.
Nếu bạn không hài lòng báo cáo chuẩn, có một tờ FatherTemplate. Sao chép nó vào lá mới và tùy chỉnh loại báo cáo bằng cách làm việc với bảng tổng hợp trên trang tính này (về cách làm việc với bảng tổng hợp - trong bất kỳ cuốn sách nào về EXCEL 2000). Tôi khuyên bạn nên thiết lập báo cáo trên một tập hợp dữ liệu nhỏ, sau đó chạy chúng trên một mảng lớn, bởi vì... Không có cách nào để vô hiệu hóa việc vẽ lại bảng mỗi khi bố cục báo cáo thay đổi.

Ghi chú kỹ thuật :

Khi upload dữ liệu từ 1C người dùng lựa chọn thư mục nơi upload file. Tôi làm điều này vì có thể sẽ có nhiều tệp được tải lên (phần còn sót lại và chuyển động) trong tương lai gần. Sau đó, bằng cách nhấp vào nút “Gửi” trong Explorer --> “Để phân tích OLAP trong EXCEL 2000”, dữ liệu sẽ được sao chép từ thư mục đã chọn sang thư mục C:\fixin. (để lệnh này xuất hiện trong danh sách lệnh “Send”, bạn cần copy file “For OLAP analyze in EXCEL 2000.bat” vào thư mục C:\Windows\SendTo) Do đó, hãy upload dữ liệu ngay bằng cách đặt tên các tập tin motions.txt hoặc buh.txt.

Định dạng tệp văn bản:
Dòng đầu tiên của file văn bản là các tiêu đề cột cách nhau bởi dấu “|”, các dòng còn lại chứa giá trị của các cột này cách nhau bởi dấu “|”.

Microsoft Query được sử dụng để nhập tệp văn bản vào Excel ( thành phần EXCEL), để nó hoạt động, bạn phải có tệp shema.ini trong thư mục nhập (C:\fixin) chứa các thông tin sau:


ColNameHeader=Đúng
Định dạng=Được phân cách(|)
MaxScanRows=3
Bộ ký tự=ANSI
ColNameHeader=Đúng
Định dạng=Được phân cách(|)
MaxScanRows=3
Bộ ký tự=ANSI

Giải thích: motions.txt và buh.txt là tên của phần, tương ứng với tên của file đã nhập, mô tả cách nhập file văn bản vào Excel. Các tham số còn lại nghĩa là dòng đầu tiên chứa tên các cột, dấu phân cách cột là “|”, bộ ký tự là Windows ANSI (dành cho DOS - OEM).
Loại trường được xác định tự động dựa trên dữ liệu có trong cột (ngày, số, chuỗi).
Danh sách các trường không cần phải mô tả ở bất kỳ đâu - EXCEL và OLAP sẽ tự xác định trường nào có trong tệp theo tiêu đề ở dòng đầu tiên.

Chú ý, hãy kiểm tra cài đặt vùng "Bảng điều khiển" -> "Cài đặt vùng". Trong quá trình xử lý của tôi, các số được tải lên bằng dấu phân cách bằng dấu phẩy và ngày ở định dạng "DD.MM.YYYY".

Khi bạn nhấp vào nút "Tạo", dữ liệu sẽ được tải vào bảng tổng hợp trên trang "Cơ sở" và tất cả các báo cáo trên trang "Báo cáo" sẽ lấy dữ liệu từ bảng tổng hợp này.

Tôi hiểu rằng người hâm mộ MS Máy chủ SQLcăn cứ hùng mạnh dữ liệu sẽ bắt đầu phàn nàn rằng mọi thứ quá đơn giản, rằng quá trình xử lý của tôi sẽ cạn kiệt sau một năm lấy mẫu, nhưng trước hết tôi muốn mang lại lợi ích của phân tích OLAP cho các tổ chức cỡ trung bình. Tôi định vị sản phẩm này như một công cụ phân tích hàng năm cho các công ty bán buôn, phân tích hàng quý cho bán lẻ và phân tích hoạt động cho bất kỳ tổ chức nào.

Tôi đã phải mày mò với VBA để có thể lấy dữ liệu từ một tệp có bất kỳ danh sách trường nào và tôi có thể chuẩn bị trước các biểu mẫu báo cáo.

Mô tả công việc trong EXCEL (dành cho người dùng):

Hướng dẫn sử dụng báo cáo:
1. Gửi dữ liệu đã tải xuống để phân tích (kiểm tra với quản trị viên). Để thực hiện việc này, nhấp chuột phải vào thư mục mà bạn đã tải xuống dữ liệu từ 1C và chọn lệnh “Gửi”, sau đó chọn “Đến phân tích OLAP trong EXCEL 2000”.
2. Mở file “Phân tích chuyển động.xls”
3. Chọn Giá trị bộ lọc, các bộ lọc bạn cần có thể được thêm vào tab “Giá trị”.
4. Nhấp vào nút "Tạo" và dữ liệu đã tải xuống sẽ được tải vào EXCEL.
5. Sau khi tải dữ liệu vào EXCEL, bạn có thể xem nhiều báo cáo khác nhau. Để thực hiện việc này, chỉ cần nhấp vào nút "Làm mới" trong báo cáo đã chọn. Các trang báo cáo bắt đầu bằng Báo cáo.
Chú ý! Sau khi thay đổi giá trị bộ lọc, bạn cần nhấp lại vào nút “Tạo” để dữ liệu trong EXCEL được tải lại từ tệp tải lên theo các bộ lọc.

Xử lý từ ví dụ demo:

Đang xử lý motionsbuh2011.ert - phiên bản mới nhất tải lên giao dịch từ Kế toán 7.7 để phân tích trong Excel. Nó có hộp kiểm “Đính kèm vào tệp”, cho phép bạn tải dữ liệu lên theo từng phần, nối dữ liệu vào cùng một tệp, thay vì tải lại vào cùng một tệp:

Đang xử lý motionswork.ert tải lên dữ liệu bán hàng để phân tích trong Excel.

Ví dụ về báo cáo:

Đấu dây cờ vua:

Khối lượng công việc của người vận hành theo loại hóa đơn:

tái bút :

Rõ ràng là một sơ đồ tương tự có thể được sử dụng để tổ chức việc tải xuống dữ liệu từ 1C8.
Vào năm 2011, một người dùng đã liên hệ với tôi và họ cần cải thiện quá trình xử lý này trong 1C7 để nó tải lên một lượng lớn dữ liệu, tôi đã tìm được một người đăng việc và thực hiện công việc. Vì vậy, sự phát triển là khá phù hợp.

Quá trình xử lý motionsbuh2011.ert đã được cải thiện để xử lý lượng lớn dữ liệu.

OLAP (Xử lý phân tích trực tuyến) không phải là tên của một sản phẩm cụ thể mà là tên của toàn bộ công nghệ xử lý phân tích hoạt động, bao gồm phân tích dữ liệu và thu thập báo cáo. Người dùng được cung cấp một bảng đa chiều tự động tóm tắt dữ liệu theo nhiều phần khác nhau và cho phép bạn nhanh chóng quản lý các phép tính và biểu mẫu báo cáo.

Mặc dù trong một số ấn phẩm, xử lý phân tích được gọi là cả trực tuyến và tương tác, nhưng tính từ “trực tuyến” phản ánh chính xác nhất ý nghĩa của công nghệ OLAP. Việc người quản lý phát triển các giải pháp quản lý thuộc loại lĩnh vực dễ bị tự động hóa nhất. Tuy nhiên, ngày nay có cơ hội hỗ trợ người quản lý phát triển các giải pháp và quan trọng nhất là đẩy nhanh đáng kể quá trình phát triển, lựa chọn và áp dụng các giải pháp.

Các hệ thống hỗ trợ quyết định thường có phương tiện cung cấp cho người dùng dữ liệu tổng hợp cho các mẫu khác nhau từ tập hợp ban đầu ở dạng thuận tiện cho việc nhận biết và phân tích. Theo quy định, các hàm tổng hợp như vậy tạo thành một tập dữ liệu đa chiều, thường được gọi là siêu khối hoặc siêu khối, các trục chứa các tham số và các ô chứa dữ liệu tổng hợp phụ thuộc vào chúng - và dữ liệu đó cũng có thể được lưu trữ trong các bảng quan hệ, nhưng trong trường hợp này Chúng ta đang nói về về cách tổ chức hợp lý của dữ liệu, không phải về thực hiện vật lý lưu trữ của họ.

Dọc theo mỗi trục, dữ liệu có thể được tổ chức thành một hệ thống phân cấp, thể hiện các mức độ chi tiết khác nhau.

Theo các chiều trong mô hình đa chiều, các yếu tố ảnh hưởng đến hoạt động của doanh nghiệp được gạt sang một bên (ví dụ: thời gian, sản phẩm, chi nhánh công ty, v.v.). Khối OLAP kết quả sau đó chứa đầy các chỉ số về hoạt động của doanh nghiệp (giá cả, doanh số bán hàng, kế hoạch, lợi nhuận, thặng dư, v.v.). Cần lưu ý rằng, không giống như khối hình học, các mặt của khối OLAP không nhất thiết phải có cùng kích thước. Điều này có thể chứa cả dữ liệu thực từ hệ điều hành và dữ liệu dự báo dựa trên dữ liệu lịch sử. Các kích thước của siêu khối có thể phức tạp, có thứ bậc và các mối quan hệ có thể được thiết lập giữa chúng. Trong quá trình phân tích, người dùng có thể thay đổi quan điểm về dữ liệu (còn gọi là thao tác thay đổi chế độ xem logic), từ đó xem dữ liệu từ nhiều góc độ khác nhau và giải quyết các vấn đề cụ thể. Nhiều hoạt động khác nhau có thể được thực hiện trên các hình khối, bao gồm dự báo và lập kế hoạch có điều kiện (phân tích giả định).

Nhờ mô hình dữ liệu này, người dùng có thể tạo các truy vấn phức tạp, tạo báo cáo và thu được các tập hợp con dữ liệu. Xử lý phân tích hoạt động có thể đơn giản hóa và tăng tốc đáng kể quá trình chuẩn bị và ra quyết định của nhân viên quản lý. Xử lý phân tích trực tuyến phục vụ mục đích biến dữ liệu thành thông tin. Về cơ bản, nó khác với quy trình hỗ trợ ra quyết định truyền thống, thường dựa trên việc xem xét các báo cáo có cấu trúc.


Công nghệ OLAP đề cập đến loại phân tích tiên đoán và bao gồm 12 nguyên tắc:

1. Biểu diễn đa chiều khái niệm. Nhà phân tích người dùng coi thế giới doanh nghiệp có bản chất là đa chiều và theo đó, cốt lõi của mô hình OLAP phải là đa chiều.

2. Minh bạch. Kiến trúc của hệ thống OLAP phải mở, cho phép người dùng, dù ở bất cứ đâu, giao tiếp bằng công cụ phân tích - máy khách - với máy chủ.

3. khả dụng. Người dùng phân tích OLAP phải có khả năng thực hiện phân tích dựa trên lược đồ khái niệm chung chứa dữ liệu toàn doanh nghiệp trong cơ sở dữ liệu quan hệ cũng như dữ liệu từ cơ sở dữ liệu cũ, phương pháp truy cập chung và mô hình phân tích chung. Hệ thống OLAP chỉ nên truy cập dữ liệu thực sự cần thiết và không sử dụng Nguyên tắc chung“phễu nhà bếp”, đòi hỏi đầu vào không cần thiết.

4. Hiệu suất nhất quán trong phát triển báo cáo. Khi số thứ nguyên hoặc kích thước cơ sở dữ liệu tăng lên, nhà phân tích người dùng sẽ không bị giảm hiệu suất đáng kể.

5. Kiến trúc máy khách-máy chủ. Hầu hết dữ liệu ngày nay cần được xử lý trực tuyến đều được chứa trên các máy tính lớn có quyền truy cập vào máy trạm của người dùng qua mạng LAN. Điều này có nghĩa là các sản phẩm OLAP phải có khả năng hoạt động trong môi trường máy khách-máy chủ.

6. Tính đa chiều chung. Mỗi chiều phải được áp dụng mà không quan tâm đến cấu trúc và khả năng hoạt động của nó. Cấu trúc cơ bản dữ liệu, công thức và định dạng báo cáo không được thiên về bất kỳ khía cạnh nào.

7. Quản lý động các ma trận thưa thớt. Thiết kế vật lý của công cụ OLAP phải hoàn toàn phù hợp với mô hình phân tích cụ thể cho kiểm soát tối ưu ma trận thưa thớt. Độ thưa thớt (được đo bằng tỷ lệ phần trăm của các ô trống so với tất cả các ô có thể) là một trong những đặc điểm của việc truyền dữ liệu.

8. Hỗ trợ nhiều người dùng. Một công cụ OLAP phải cung cấp khả năng chia sẻ truy vấn và hoàn thành nhiều nhà phân tích người dùng trong khi vẫn duy trì tính toàn vẹn và bảo mật.

9. Hoạt động chéo không giới hạn. Hoạt động khác nhau do tính chất phân cấp của chúng, chúng có thể biểu diễn các mối quan hệ phụ thuộc trong mô hình OLAP, tức là chúng chéo nhau. Việc thực thi chúng không yêu cầu người dùng phân tích phải xác định lại các phép tính và thao tác này.

10. Thao tác dữ liệu trực quan. Chế độ xem của người dùng phân tích về các kích thước được xác định trong mô hình phân tích phải chứa tất cả thông tin cần thiếtđể thực hiện các hành động trên mô hình OLAP, tức là chúng không nên yêu cầu sử dụng hệ thống menu hoặc các thao tác giao diện đa người dùng khác.

11. Tùy chọn báo cáo linh hoạt. Công cụ báo cáo phải là dữ liệu hoặc thông tin tổng hợp từ mô hình dữ liệu theo bất kỳ hướng nào có thể. Điều này có nghĩa là các hàng, cột hoặc trang của báo cáo phải hiển thị đồng thời nhiều thứ nguyên mô hình OLAP, với khả năng hiển thị bất kỳ tập hợp con nào của các thành phần (giá trị) có trong thứ nguyên, theo bất kỳ thứ tự nào.

12. Không giới hạn kích thước và số lượng cấp độ tổng hợp. Một nghiên cứu về số lượng kích thước cần thiết có thể cần có trong một mô hình phân tích cho thấy rằng người phân tích người dùng có thể sử dụng đồng thời tối đa 19 kích thước. Điều này dẫn đến đề xuất về số lượng thứ nguyên được hệ thống OLAP hỗ trợ. Hơn nữa, mỗi thứ nguyên chung không nên bị giới hạn về số lượng cấp độ tổng hợp do nhà phân tích người dùng xác định.

Các hệ thống OLAP chuyên dụng hiện được cung cấp trên thị trường bao gồm CalliGraph và Business Intelligence.

Đối với giải pháp nhiệm vụ đơn giản phân tích dữ liệu, có thể sử dụng giải pháp ngân sách - văn phòng Ứng dụng Excel và Access from Microsoft, chứa các công cụ công nghệ OLAP cơ bản cho phép bạn tạo các bảng tổng hợp và xây dựng các báo cáo khác nhau dựa trên chúng.

OLAP(từ Xử lý phân tích trực tuyến bằng tiếng Anh - xử lý dữ liệu phân tích hoạt động, cũng như: xử lý dữ liệu phân tích trong thời gian thực, xử lý dữ liệu phân tích tương tác) - một cách tiếp cận để xử lý dữ liệu phân tích dựa trên biểu diễn phân cấp đa chiều của chúng, là một phần của lĩnh vực rộng hơn công nghệ thông tin- nhà phân tích kinh doanh ().

Để biết danh mục các giải pháp và dự án OLAP, hãy xem phần OLAP trên TAdviser.

Từ quan điểm của người dùng, OLAP-hệ thống cung cấp phương tiện xem thông tin linh hoạt trong các phần khác nhau, nhận tự động tổng hợp dữ liệu, thực hiện các thao tác phân tích tích chập, chi tiết hóa, so sánh theo thời gian. Tất cả điều này làm cho hệ thống OLAP trở thành một giải pháp có lợi thế rõ ràng trong lĩnh vực chuẩn bị dữ liệu cho tất cả các loại báo cáo kinh doanh, liên quan đến việc trình bày dữ liệu theo các phần khác nhau và các cấp độ phân cấp khác nhau - ví dụ: báo cáo bán hàng, các dạng ngân sách khác nhau, v.v. TRÊN. Ưu điểm của cách trình bày như vậy trong các hình thức phân tích dữ liệu khác, bao gồm cả dự báo, là rất rõ ràng.

Yêu cầu đối với hệ thống OLAP. FAMI

Yêu cầu chính đối với hệ thống OLAP là tốc độ, cho phép chúng được sử dụng trong quá trình làm việc tương tác với thông tin của nhà phân tích. Theo nghĩa này, các hệ thống OLAP trước hết tương phản với RDBMS truyền thống, các mẫu mà từ đó các truy vấn điển hình dành cho các nhà phân tích sử dụng nhóm và tổng hợp dữ liệu thường tốn kém về thời gian chờ đợi và tải RDBMS, do đó, hoạt động tương tác với chúng cho bất kỳ khối lượng dữ liệu đáng kể là phức tạp. Thứ hai, các hệ thống OLAP cũng trái ngược với cách biểu diễn dữ liệu dạng phẳng thông thường, ví dụ, dưới dạng truyền thống thường được sử dụng. bảng tính, việc trình bày dữ liệu đa chiều phức tạp và không trực quan, cũng như các thao tác thay đổi lát cắt - quan điểm trên dữ liệu - cũng đòi hỏi thời gian và phức tạp công việc tương tác với dữ liệu.

Đồng thời, một mặt, các yêu cầu dữ liệu dành riêng cho hệ thống OLAP thường bao hàm việc lưu trữ dữ liệu trong các cấu trúc đặc biệt được tối ưu hóa cho các tác vụ OLAP điển hình; mặt khác, việc trích xuất trực tiếp dữ liệu từ các hệ thống hiện có trong quá trình phân tích sẽ dẫn đến sự sụt giảm đáng kể. trong hiệu suất của họ.

Do đó, một yêu cầu quan trọng là cung cấp liên kết xuất nhập khẩu linh hoạt nhất giữa các hệ thống hiện có đóng vai trò là nguồn dữ liệu và hệ thống OLAP, cũng như hệ thống OLAP và các ứng dụng báo cáo và phân tích dữ liệu bên ngoài.

Hơn nữa, sự kết hợp như vậy phải đáp ứng các yêu cầu rõ ràng là hỗ trợ xuất nhập khẩu từ nhiều nguồn dữ liệu, thực hiện các thủ tục làm sạch và chuyển đổi dữ liệu, thống nhất các bộ phân loại được sử dụng và sổ tham khảo. Ngoài ra, các yêu cầu này còn được bổ sung do nhu cầu tính đến các chu kỳ cập nhật dữ liệu khác nhau trong các hệ thống thông tin hiện có và thống nhất mức độ chi tiết dữ liệu được yêu cầu. Sự phức tạp và linh hoạt của vấn đề này đã dẫn đến sự xuất hiện của khái niệm kho dữ liệu, và trong theo nghĩa hẹp, để phân bổ một lớp tiện ích chuyển đổi và chuyển đổi dữ liệu riêng biệt - ETL (Extract Transform Load).

Mô hình lưu trữ dữ liệu hoạt động

Chúng tôi đã chỉ ra ở trên rằng OLAP giả định cách biểu diễn dữ liệu theo thứ bậc đa chiều và theo một nghĩa nào đó, nó trái ngược với các hệ thống dựa trên RDBMS.

Tuy nhiên, điều này không có nghĩa là tất cả các hệ thống OLAP đều sử dụng mô hình đa chiều để lưu trữ dữ liệu hệ thống đang hoạt động, “đang hoạt động”. Do mô hình lưu trữ dữ liệu hoạt động ảnh hưởng đến tất cả các yêu cầu do thử nghiệm FASMI đưa ra, tầm quan trọng của nó được nhấn mạnh bởi thực tế là trên cơ sở này, các kiểu con OLAP được phân biệt theo truyền thống - đa chiều (MOLAP), quan hệ (ROLAP) và lai (HOLAP).

Tuy nhiên, một số chuyên gia, dẫn đầu bởi những người nói trên Nigel chờ, chỉ ra rằng việc phân loại dựa trên một tiêu chí là chưa đủ. Hơn nữa, phần lớn các hệ thống OLAP hiện tại sẽ thuộc loại kết hợp. Do đó, chúng tôi sẽ trình bày chi tiết hơn về các mô hình lưu trữ dữ liệu đang hoạt động, đề cập đến mô hình nào trong số chúng tương ứng với loại phụ OLAP truyền thống nào.

Lưu trữ dữ liệu hoạt động trong cơ sở dữ liệu đa chiều

Trong trường hợp này, dữ liệu OLAP được lưu trữ trong các DBMS đa chiều sử dụng các thiết kế được tối ưu hóa cho loại dữ liệu này. Thông thường, các DBMS đa chiều hỗ trợ tất cả các hoạt động OLAP điển hình, bao gồm cả việc tổng hợp theo các cấp độ phân cấp được yêu cầu, v.v.

Theo một nghĩa nào đó, kiểu lưu trữ dữ liệu này có thể được gọi là cổ điển đối với OLAP. Tuy nhiên, đối với ông, tất cả các bước để chuẩn bị sơ bộ dữ liệu. Thông thường, dữ liệu DBMS đa chiều được lưu trữ trên đĩa, tuy nhiên, trong một số trường hợp, để tăng tốc độ xử lý dữ liệu, các hệ thống như vậy cho phép dữ liệu được lưu trữ trong RAM. Với cùng mục đích, việc lưu trữ các giá trị tổng hợp được tính toán trước và các giá trị được tính toán khác trong cơ sở dữ liệu đôi khi được sử dụng.

Các DBMS đa chiều hỗ trợ đầy đủ quyền truy cập của nhiều người dùng với các giao dịch đọc và ghi cạnh tranh là khá hiếm, chế độ bình thườngđối với DBMS như vậy, đó là một người dùng có quyền truy cập ghi và nhiều người dùng có quyền truy cập đọc hoặc nhiều người dùng có quyền truy cập chỉ đọc.

Giữa thiếu sót có điều kiệnĐặc điểm của một số triển khai hệ thống DBMS và OLAP đa chiều dựa trên chúng, người ta có thể lưu ý tính nhạy cảm của chúng đối với sự tăng trưởng về lượng không gian bị cơ sở dữ liệu chiếm giữ, điều này không thể đoán trước được theo quan điểm của người dùng. Hiệu ứng này là do mong muốn giảm thiểu thời gian phản ứng của hệ thống, vốn yêu cầu lưu trữ các giá trị được tính toán trước của các chỉ số tổng hợp và các đại lượng khác trong cơ sở dữ liệu, gây ra sự gia tăng phi tuyến tính về khối lượng thông tin được lưu trữ trong cơ sở dữ liệu với việc bổ sung các giá trị dữ liệu hoặc phép đo mới.

Mức độ mà vấn đề này thể hiện, cũng như các vấn đề liên quan đến việc lưu trữ hiệu quả các khối dữ liệu thưa thớt, được xác định bởi chất lượng của các phương pháp tiếp cận và thuật toán được sử dụng để triển khai cụ thể các hệ thống OLAP.

Lưu trữ dữ liệu hoạt động trong cơ sở dữ liệu quan hệ

Dữ liệu OLAP cũng có thể được lưu trữ trong RDBMS truyền thống. Trong hầu hết các trường hợp, cách tiếp cận này được sử dụng khi cố gắng "không đau đớn" Tích hợp OLAP với hiện có hệ thống kế toán hoặc kho dữ liệu dựa trên RDBMS. Đồng thời, cách tiếp cận này yêu cầu một số khả năng bổ sung từ RDBMS để đảm bảo đáp ứng hiệu quả các yêu cầu của thử nghiệm FASMI (đặc biệt là đảm bảo thời gian phản hồi hệ thống tối thiểu). Thông thường, dữ liệu OLAP được lưu trữ ở dạng không chuẩn hóa và một số giá trị và tổng hợp được tính toán trước được lưu trữ trong các bảng đặc biệt. Khi được lưu trữ ở dạng chuẩn hóa, hiệu quả của RDBMS như một phương pháp lưu trữ dữ liệu hoạt động sẽ giảm đi.

Vấn đề lựa chọn các phương pháp và thuật toán hiệu quả để lưu trữ dữ liệu được tính toán trước cũng liên quan đến các hệ thống OLAP dựa trên RDBMS, vì vậy các nhà sản xuất hệ thống như vậy thường tập trung vào giá trị của các phương pháp được sử dụng.

Nói chung, người ta tin rằng các hệ thống OLAP dựa trên RDBMS chậm hơn các hệ thống dựa trên DBMS đa chiều, bao gồm cả do cấu trúc lưu trữ dữ liệu kém hiệu quả hơn đối với các tác vụ OLAP, nhưng trên thực tế, điều này phụ thuộc vào đặc điểm của một hệ thống cụ thể.

Một trong những ưu điểm của việc lưu trữ dữ liệu trong RDBMS là khả năng mở rộng lớn hơn của các hệ thống đó.

Lưu trữ dữ liệu hoạt động trong các tệp phẳng

Cách tiếp cận này liên quan đến việc lưu trữ các khối dữ liệu trong các tệp thông thường. Nó thường được sử dụng như một phần bổ sung cho một trong hai phương pháp chính để tăng tốc công việc bằng cách lưu vào bộ đệm dữ liệu mới nhất trên đĩa hoặc trong bộ nhớ truy cập tạm thời máy tính khách.

Phương pháp kết hợp để lưu trữ dữ liệu

Hầu hết các nhà sản xuất hệ thống OLAP đều quảng cáo giải pháp toàn diện, thường bao gồm, ngoài chính hệ thống DBMS OLAP, ETL (Extract Transform Load) và các công cụ báo cáo, hiện đang sử dụng phương pháp kết hợp để tổ chức lưu trữ dữ liệu hệ thống đang hoạt động, phân phối dữ liệu đó theo cách này hay cách khác giữa RDBMS và bộ lưu trữ chuyên dụng , cũng như giữa cấu trúc đĩa và bộ nhớ đệm trong RAM.

Vì hiệu quả của giải pháp như vậy phụ thuộc vào các phương pháp và thuật toán cụ thể được nhà sản xuất sử dụng để xác định xem liệu dữ liệu gì và nơi lưu trữ, sau đó vội vàng đưa ra kết luận về hiệu quả ban đầu cao hơn của các giải pháp như một lớp mà không đánh giá các tính năng cụ thể của hệ thống đang được xem xét.

OLAP(eng. xử lý phân tích trực tuyến) – một tập hợp các phương pháp xử lý động các truy vấn đa chiều trong cơ sở dữ liệu phân tích. Những nguồn dữ liệu như vậy thường khá lớn và các công cụ được sử dụng để xử lý chúng là một trong những công cụ hữu ích nhất. yêu cầu quan trọngtốc độ cao. Trong cơ sở dữ liệu quan hệ, thông tin được lưu trữ trong bảng riêng biệt, được chuẩn hóa tốt. Nhưng các truy vấn nhiều bảng phức tạp được thực hiện khá chậm trong đó. Hiệu suất tốt hơn đáng kể về tốc độ xử lý trong các hệ thống OLAP đạt được do đặc thù của cấu trúc lưu trữ dữ liệu. Tất cả thông tin được tổ chức rõ ràng và hai loại lưu trữ dữ liệu được sử dụng: đo(chứa các thư mục được chia thành các danh mục, ví dụ: điểm bán hàng, khách hàng, nhân viên, dịch vụ, v.v.) và dữ liệu(mô tả sự tương tác của các yếu tố có kích thước khác nhau, ví dụ: vào ngày 3 tháng 3 năm 2010, người bán A đã cung cấp dịch vụ cho khách hàng B tại cửa hàng C với số lượng đơn vị tiền tệ D). Các thước đo được sử dụng để tính toán kết quả trong Khối phân tích. Số đo là tập hợp các sự kiện được tổng hợp theo các thứ nguyên được chọn tương ứng và các phần tử của chúng. Nhờ những tính năng này, các truy vấn phức tạp với dữ liệu đa chiều mất ít thời gian hơn nhiều so với các nguồn quan hệ.

Một trong những nhà cung cấp chính của hệ thống OLAP là Tập đoàn Microsoft. Hãy xem xét việc thực hiện các nguyên tắc OLAP trong ví dụ thực tế tạo một khối phân tích trong Microsoft SQL Server Business Intelligence Development Studio (BIDS) và các ứng dụng Microsoft Office PerformancePoint Server Planning Business Modeler (PPS) và làm quen với các khả năng đại diện trực quan dữ liệu đa chiều dưới dạng đồ thị, biểu đồ và bảng biểu.

Ví dụ: trong BIDS cần tạo khối OLAP sử dụng dữ liệu về một công ty bảo hiểm, nhân viên, đối tác (khách hàng) và các điểm bán hàng của công ty đó. Giả sử rằng công ty cung cấp một loại dịch vụ, do đó việc đo lường dịch vụ sẽ không cần thiết.

Đầu tiên hãy xác định các phép đo. Các thực thể sau (danh mục dữ liệu) có liên quan đến hoạt động của công ty:

  • Những thời điểm giảm giá
    - Người lao động
    - Đối tác
Nó cũng tạo ra các kích thước Thời gian và Kịch bản, được yêu cầu cho bất kỳ khối nào.
Tiếp theo, bạn cần một bảng để lưu trữ dữ kiện (bảng dữ kiện).
Thông tin có thể được nhập vào bảng theo cách thủ công, nhưng cách phổ biến nhất là tải dữ liệu bằng Trình hướng dẫn nhập từ nhiều nguồn khác nhau.
Hình dưới đây cho thấy quy trình tạo và điền thủ công các bảng thứ nguyên và dữ kiện:

Hình.1. Bảng kích thước và sự kiện trong cơ sở dữ liệu phân tích. Trình tự tạo
Sau khi tạo nguồn dữ liệu đa chiều trong BIDS, bạn có thể xem bản trình bày của nó (Chế độ xem nguồn dữ liệu). Trong ví dụ của chúng ta, chúng ta sẽ có được mạch như hình bên dưới.


Hình 2. Chế độ xem nguồn dữ liệu trong Studio phát triển nghiệp vụ thông minh (BIDS)

Như bạn có thể thấy, bảng dữ kiện được kết nối với các bảng thứ nguyên thông qua sự tương ứng 1-1 của các trường định danh (PartnerID, MemberID, v.v.).

Hãy nhìn vào kết quả. Trên tab Cube Explorer, bằng cách kéo các số đo và kích thước vào các trường tổng, hàng, cột và bộ lọc, chúng ta có thể xem được dữ liệu quan tâm (ví dụ: các giao dịch đã ký kết trong hợp đồng bảo hiểm do một nhân viên nào đó ký kết vào năm 2005).

Dữ liệu sau khi được nhận, làm sạch, đưa về một loại duy nhất và được đưa vào kho lưu trữ, chúng cần được phân tích. Với mục đích này, công nghệ OLAP được sử dụng.

Mười hai nguyên tắc xác định của OLAP được E. F. Codd, “nhà phát minh” cơ sở dữ liệu quan hệ, xây dựng vào năm 1993. OLAP là Xử lý phân tích trực tuyến, nghĩa là phân tích dữ liệu vận hành. Định nghĩa của Codd sau đó được phát triển thành bài kiểm tra được gọi là FASMI (Phân tích nhanh thông tin đa chiều được chia sẻ), yêu cầu ứng dụng OLAP cung cấp các khả năng sau để phân tích nhanh thông tin đa chiều được chia sẻ: tốc độ cao; Phân tích; chia sẻ quyền truy cập; đa chiều; làm việc với thông tin...

Tốc độ cao. Việc phân tích phải được thực hiện nhanh chóng như nhau trên tất cả các khía cạnh của thông tin. Trong trường hợp này, thời gian phản hồi được chấp nhận là không quá 5 giây.

Phân tích. Phải có khả năng tạo ra các loại số và Phân tích thống kê- được xác định trước bởi nhà phát triển ứng dụng hoặc do người dùng xác định tùy ý.

Truy cập chia sẻ. Quyền truy cập vào dữ liệu phải có nhiều người dùng và quyền truy cập vào thông tin bí mật phải được kiểm soát.

Đa chiều. Đặc tính chính, cần thiết nhất của OLAP.

Làm việc với thông tin.Ứng dụng phải có khả năng truy cập bất kỳ thông tin cần thiết, bất kể khối lượng và vị trí lưu trữ của nó.

Biểu diễn đa chiều. OLAP cung cấp cho các tổ chức sự thuận tiện và biện pháp khắc phục nhanh chóng truy cập, xem và phân tích thông tin kinh doanh. Quan trọng nhất, OLAP cung cấp cho người dùng mô hình dữ liệu trực quan, tự nhiên, tổ chức nó thành các khối đa chiều. Các trục (kích thước) của hệ tọa độ đa chiều là các thuộc tính chính của quy trình nghiệp vụ được phân tích. Ví dụ: đối với quy trình bán hàng, đây có thể là danh mục sản phẩm, khu vực hoặc loại người mua. Thời gian hầu như luôn được sử dụng như một trong các thước đo. Bên trong khối có dữ liệu mô tả định lượng quá trình - cái gọi là Biện pháp. Đây có thể là khối lượng bán hàng theo từng phần hoặc bằng tiền tệ, số dư hàng tồn kho, chi phí, v.v. Người dùng phân tích thông tin có thể “cắt” một khối theo các hướng khác nhau, nhận dữ liệu tóm tắt (ví dụ: theo năm) hoặc ngược lại, dữ liệu chi tiết (theo tuần) và thực hiện các hoạt động khác cần thiết để phân tích.

Lưu trữ dữ liệu OLAP . Trước hết, phải nói rằng vì nhà phân tích luôn hoạt động với một số dữ liệu tóm tắt (chứ không phải chi tiết), nên cơ sở dữ liệu OLAP hầu như luôn lưu trữ, cùng với dữ liệu chi tiết, cái gọi là tổng hợp, tức là các chỉ số tóm tắt được tính toán trước. Ví dụ về tổng hợp bao gồm tổng khối lượng bán hàng trong năm hoặc số dư trung bình của hàng hóa trong kho. Lưu trữ các tập hợp được tính toán trước là cách chính để cải thiện tốc độ truy vấn OLAP.


Tuy nhiên, việc xây dựng cốt liệu có thể dẫn đến tăng đáng kể khối lượng cơ sở dữ liệu.

Một vấn đề khác khi lưu trữ dữ liệu OLAP là sự thưa thớt của dữ liệu đa chiều. Ví dụ: nếu không có doanh số bán hàng ở một khu vực nhất định vào năm 2000 thì sẽ không có giá trị tại giao điểm của các kích thước tương ứng của khối lập phương. Nếu máy chủ OLAP lưu trữ một giá trị bị thiếu nhất định trong trường hợp này thì nếu dữ liệu thưa thớt đáng kể thì số lượng ô trống (tuy nhiên cần không gian lưu trữ) có thể lớn hơn nhiều lần so với số lượng ô được điền và kết quả là, tổng khối lượng sẽ tăng lên một cách vô lý. Các giải pháp được đưa ra cho việc này bởi Microsoft, được đưa ra dưới đây.

Các loại OLAP. Những điều sau đây có thể được sử dụng để lưu trữ dữ liệu OLAP:

DBMS đa chiều đặc biệt (máy chủ OLAP). Trong trường hợp này họ nói về MOLAP (OLAP đa chiều). Bằng cách làm truy vấn phức tạp, phân tích dữ liệu trong kích thước khác nhau,DBMS đa chiều cung cấp hiệu suất tốt hơn so với DBMS quan hệ. Đồng thời, tốc độ thực hiện truy vấn không phụ thuộc vào kích thước mà “lát cắt” của khối đa chiều được tạo ra.

DBMS quan hệ truyền thống - ROLAP (OLAP quan hệ). Việc sử dụng các cấu trúc dữ liệu đặc biệt - lược đồ hình sao và bông tuyết, cũng như việc lưu trữ các tập hợp được tính toán, giúp có thể phân tích đa chiều dữ liệu quan hệ. Các DBMS quan hệ trước đây đã phổ biến hơn và các khoản đầu tư đáng kể đã được thực hiện vào chúng, vì vậy hiện tại ROLAP phổ biến hơn.

Tùy chọn kết hợp - HOLAP (OLAP lai), kết hợp cả hai loại DBMS. Một tùy chọn để kết hợp hai loại DBMS là lưu trữ các tập hợp trong một DBMS đa chiều và dữ liệu chi tiết (có dung lượng lớn nhất) trong một dữ liệu quan hệ.

Microsoft cung cấp các công cụ phân tích OLAP sau:

Microsoft SQL Server 7.0 bao gồm máy chủ OLAP đầy đủ tính năng - Dịch vụ OLAP của SQL Server. Tất nhiên, máy chủ được thiết kế để phục vụ các yêu cầu của khách hàng và điều này đòi hỏi một giao thức tương tác và ngôn ngữ truy vấn nhất định. Ví dụ: để tương tác giữa máy khách với máy chủ cơ sở dữ liệu quan hệ- Máy chủ SQL - Sử dụng giao thức ODBC hoặc OLE DB và ngôn ngữ truy vấn SQL. Để truy cập máy chủ OLAP, Microsoft đã phát triển giao thức OLE DB cho OLAP và ngôn ngữ truy vấn cho dữ liệu đa chiều - MDX (MultiDimensional eXpression). Tương tự như lớp đối tượng ADO ( Dữ liệu ActiveX Objects), ADO MD (ADO đa chiều) được xây dựng dựa trên OLE DB cho OLAP.

Công cụ phân tích dữ liệu trong Microsoft Office 2000. Microsoft Excel 2000 có chứa cơ chế mới bảng tổng hợp- OLAP PivotTable, thay thế cơ chế cùng tên ở các phiên bản trước. Cùng với các khả năng phân tích dữ liệu quan hệ trước đây, công cụ PivotTable hiện bao gồm các khả năng phân tích dữ liệu OLAP, tức là nó hoạt động như một máy khách OLAP. Microsoft SQL Server 7.0 có thể được sử dụng làm máy chủ cũng như bất kỳ sản phẩm nào hỗ trợ giao diện OLE DB cho giao diện OLAP. Cơ chế tóm tắt bảng excel hỗ trợ đầy đủ các khả năng được cung cấp bởi dịch vụ PivotTable Services (PTS) được mô tả ở trên. Do đó, dữ liệu OLAP được phân tích có thể được đặt ở cả khối cục bộ và trên máy chủ OLAP.

Microsoft Office 2000 cũng chứa một tập hợp các thành phần ActiveX được gọi là Thành phần Web Office 2000, cho phép bạn tổ chức phân tích dữ liệu OLAP bằng cách sử dụng Duyệt web. Chúng bao gồm bốn thành phần sau:

Bảng tính- thực hiện chức năng hạn chế của một bảng Excel.

bảng tổng hợp- “song sinh” của bảng trụ Excel; có thể hoạt động với dữ liệu Dịch vụ OLAP.

Đồ thị- cho phép bạn xây dựng sơ đồ dựa trên cả dữ liệu quan hệ và OLAP.

Nguồn dữ liệu- một thành phần dịch vụ để liên kết các thành phần khác với nguồn dữ liệu.

Khi làm việc với dữ liệu OLAP, Thành phần Web truy cập Dịch vụ PivotTable.

5.5. CÔNG NGHỆ PHÂN TÍCH “Khai thác dữ liệu”

Sự xuất hiện của công nghệ Data Mining gắn liền với nhu cầu trích xuất tri thức từ những kiến ​​thức tích lũy được. hệ thông thông tin dữ liệu không đồng nhất. Một khái niệm nảy sinh mà trong tiếng Nga bắt đầu được gọi là “khai thác”, “khai thác” kiến ​​​​thức. Thuật ngữ “Khai thác dữ liệu” đã được biết đến ở nước ngoài.

Các phương pháp thống kê toán học được sử dụng rộng rãi trước đây hóa ra lại hữu ích chủ yếu để kiểm tra các giả thuyết được xây dựng trước (khai thác dữ liệu dựa trên xác minh) và phân tích thăm dò “thô”, tạo thành nền tảng của xử lý phân tích trực tuyến (OLAP).

Lợi thế chính "Khai thác dữ liệu" so với các phương pháp trước đó - khả năng tự động tạo ra các giả thuyết về mối quan hệ giữa các tham số hoặc thành phần dữ liệu khác nhau. Công việc của một nhà phân tích khi làm việc với gói xử lý dữ liệu truyền thống thực chất là kiểm tra hoặc làm rõ một hoặc hai giả thuyết do anh ta đưa ra. Trong trường hợp không có giả định ban đầu và lượng dữ liệu lớn, hệ thống hiện có mất khả năng làm việc và trở thành kẻ lãng phí thời gian của nhà phân tích.

Một cái khác tính năng quan trọng Hệ thống khai thác dữ liệu có khả năng xử lý các truy vấn đa chiều và tìm kiếm các phụ thuộc đa chiều. Cũng độc đáo là khả năng hệ thống dữ liệu khai thác tự động phát hiện các ngoại lệ – tức là các phần tử dữ liệu “rơi ra” khỏi các mẫu chung.

Có năm loại mẫu tiêu chuẩn cho phép bạn xác định Phương pháp dữ liệu Khai thác mỏ

sự kết hợp

tiếp theo

phân loại

phân cụm

dự báo

Việc tìm kiếm các mẫu được thực hiện bằng các phương pháp không bị giới hạn bởi các giả định tiên nghiệm về cấu trúc mẫu và kiểu phân phối giá trị của các chỉ báo được phân tích. Ví dụ về các nhiệm vụ tìm kiếm như vậy khi sử dụng dữ liệu Khai thác được đưa ra trong Bảng 1.

Bảng 1 - So sánh các cách xây dựng bài toán khi sử dụng phương pháp OLAP và Data Mining