Xử lý phân tích hoạt động. Xử lý phân tích trực tuyến (OLAP)

Trong nhiều năm qua, công nghệ thông tin đã tập trung vào việc xây dựng các hệ thống hỗ trợ xử lý các giao dịch của doanh nghiệp. Các hệ thống như vậy phải có khả năng chịu lỗi trực quan và cung cấp phản hồi nhanh. Một giải pháp hiệu quả đã được cung cấp bởi OLTP, tập trung vào môi trường cơ sở dữ liệu quan hệ phân tán.

Một sự phát triển gần đây hơn trong lĩnh vực này là việc bổ sung kiến trúc máy khách-máy chủ. Nhiều công cụ đã được xuất bản để phát triển các ứng dụng OLTP.

Việc truy cập dữ liệu thường được yêu cầu bởi cả ứng dụng OLTP và hệ thống thông tin hỗ trợ quyết định. Thật không may, việc cố gắng phục vụ cả hai loại yêu cầu có thể gặp vấn đề. Vì vậy, một số công ty đã chọn con đường chia cơ sở dữ liệu thành loại OLTP và loại OLAP.

OLAP (Xử lý phân tích trực tuyến - xử lý phân tích hoạt động) là một quy trình thông tin cho phép người dùng truy vấn hệ thống, tiến hành phân tích, v.v. ở chế độ hoạt động (trực tuyến). Kết quả được tạo ra trong vòng vài giây.

Mặt khác, trong hệ thống OLTP, khối lượng dữ liệu khổng lồ được xử lý nhanh chóng ngay khi chúng được nhận làm đầu vào.

Hệ thống OLAP được tạo cho người dùng cuối, trong khi hệ thống OLTP được tạo cho người dùng IS chuyên nghiệp. OLAP bao gồm các hoạt động như tạo truy vấn, truy vấn báo cáo đặc biệt, thực hiện phân tích thống kê và xây dựng các ứng dụng đa phương tiện.

Việc cung cấp OLAP yêu cầu làm việc với kho dữ liệu (hoặc kho đa chiều) cũng như một bộ công cụ, điển hình là các khả năng đa chiều. Những công cụ này có thể là công cụ truy vấn, bảng tính, công cụ khai thác dữ liệu, công cụ trực quan hóa dữ liệu, v.v.

Khái niệm OLAP dựa trên nguyên tắc biểu diễn dữ liệu đa chiều. E. Codd đã xem xét những thiếu sót của mô hình quan hệ, trước hết chỉ ra việc không có khả năng kết hợp, xem và phân tích dữ liệu theo quan điểm nhiều chiều, nghĩa là theo cách dễ hiểu nhất đối với các nhà phân tích doanh nghiệp và xác định các yêu cầu chung dành cho các hệ thống OLAP mở rộng chức năng của các DBMS quan hệ và bao gồm phân tích đa chiều là một trong những đặc điểm của nó.

Theo Codd, quan điểm khái niệm đa chiều là một quan điểm đa chiều bao gồm một số chiều độc lập mà theo đó các bộ dữ liệu cụ thể có thể được phân tích. Phân tích đồng thời trên nhiều chiều được định nghĩa là phân tích đa biến. Mỗi chiều bao gồm các lĩnh vực hợp nhất dữ liệu, bao gồm một loạt các cấp độ khái quát hóa liên tiếp, trong đó mỗi cấp độ cao hơn tương ứng với mức độ tổng hợp dữ liệu lớn hơn cho chiều tương ứng. Như vậy, chiều hướng Người thực hiện có thể được xác định theo hướng hợp nhất, bao gồm các mức độ khái quát hóa “doanh nghiệp - bộ phận - bộ phận - nhân viên”. Thứ nguyên Thời gian thậm chí có thể bao gồm hai hướng hợp nhất - “năm - quý - tháng - ngày” và “tuần - ngày”, vì việc tính thời gian theo tháng và theo tuần không tương thích. Trong trường hợp này, có thể tùy ý chọn mức độ chi tiết mong muốn của thông tin cho từng thứ nguyên. Hoạt động đi xuống tương ứng với sự chuyển động từ giai đoạn cố kết cao nhất đến giai đoạn thấp nhất; ngược lại, hoạt động đi lên có nghĩa là chuyển động từ cấp độ thấp lên cấp độ cao hơn.

Codd đã xác định 12 quy tắc mà một sản phẩm phần mềm lớp OLAP phải đáp ứng. Các quy tắc:

1. Biểu diễn dữ liệu theo khái niệm đa chiều.

2. Minh bạch.

3. Sẵn có.

4. Hiệu suất ổn định.

5. Kiến trúc client - server.

6. Sự bình đẳng về số đo.

7. Xử lý động các ma trận thưa.

8. Hỗ trợ chế độ nhiều người dùng.

9. Hỗ trợ không giới hạn cho các hoạt động đa chiều.

10. Thao tác dữ liệu trực quan.

11. Cơ chế tạo báo cáo linh hoạt.

12. Không giới hạn số lượng kích thước và mức độ tổng hợp.

Tập hợp các yêu cầu này, đóng vai trò là định nghĩa thực tế của OLAP, phải được coi là khuyến nghị và các sản phẩm cụ thể phải được đánh giá theo mức độ gần với việc tuân thủ đầy đủ lý tưởng với tất cả các yêu cầu.

Khai thác dữ liệu.

Khai thác dữ liệu (DMA) hay Khai thác dữ liệu là thuật ngữ dùng để mô tả việc khám phá kiến thức trong cơ sở dữ liệu, trích xuất kiến thức, khai thác dữ liệu, khai thác dữ liệu, xử lý mẫu dữ liệu, làm sạch dữ liệu và khai thác dữ liệu; Điều này cũng có nghĩa là phần mềm đi kèm. Tất cả những hành động này được thực hiện tự động và cho phép ngay cả những người không phải là lập trình viên cũng có thể nhận được kết quả nhanh chóng.

Yêu cầu được thực hiện bởi người dùng cuối, có thể bằng ngôn ngữ tự nhiên. Yêu cầu được chuyển đổi sang định dạng SQL. Yêu cầu SQL được gửi qua mạng tới DBMS, nơi quản lý cơ sở dữ liệu hoặc lưu trữ dữ liệu. DBMS tìm câu trả lời cho yêu cầu và gửi lại. Sau đó, người dùng có thể thiết kế bản trình bày hoặc báo cáo theo yêu cầu của họ.

Nhiều quyết định quan trọng trong hầu hết mọi lĩnh vực kinh doanh và xã hội đều dựa trên việc phân tích cơ sở dữ liệu lớn và phức tạp. IBP có thể rất hữu ích trong những trường hợp này.

Các phương pháp khai thác dữ liệu có liên quan chặt chẽ đến công nghệ OLAP và công nghệ kho dữ liệu. Do đó, lựa chọn tốt nhất là một cách tiếp cận tích hợp để thực hiện chúng.

Để kho dữ liệu hiện có tạo điều kiện thuận lợi cho việc ra quyết định quản lý, thông tin phải được trình bày cho nhà phân tích dưới dạng yêu cầu, nghĩa là anh ta phải phát triển các công cụ để truy cập và xử lý dữ liệu kho.

Rất thường xuyên, các hệ thống thông tin và phân tích, được tạo ra với mong muốn được những người ra quyết định sử dụng trực tiếp, hóa ra lại cực kỳ dễ sử dụng nhưng lại bị hạn chế nghiêm trọng về chức năng. Những hệ thống tĩnh như vậy được gọi là Hệ thống thông tin điều hành. Chúng chứa các nhóm truy vấn được xác định trước và mặc dù đủ để xem xét hàng ngày nhưng không thể trả lời tất cả các câu hỏi về dữ liệu có sẵn có thể phát sinh khi đưa ra quyết định. Kết quả của một hệ thống như vậy, theo quy luật, là các báo cáo nhiều trang, sau khi nghiên cứu kỹ lưỡng, nhà phân tích sẽ đưa ra một loạt câu hỏi mới. Tuy nhiên, mỗi yêu cầu mới không được lường trước khi thiết kế một hệ thống như vậy trước tiên phải được người lập trình mô tả chính thức, mã hóa và chỉ sau đó mới được thực thi. Thời gian chờ đợi trong trường hợp này có thể là hàng giờ và hàng ngày, điều này không phải lúc nào cũng có thể chấp nhận được. Do đó, tính đơn giản bên ngoài của hệ thống thông tin hỗ trợ quyết định thống kê mà hầu hết khách hàng sử dụng hệ thống thông tin và phân tích đang tích cực đấu tranh, dẫn đến mất tính linh hoạt.

Ngược lại, các hệ thống hỗ trợ quyết định động tập trung vào việc xử lý các yêu cầu dữ liệu không được kiểm soát (ad hoc) của nhà phân tích. Công việc của các nhà phân tích với các hệ thống này bao gồm một chuỗi tương tác hình thành các truy vấn và nghiên cứu kết quả của chúng.

Nhưng các hệ thống hỗ trợ quyết định động có thể hoạt động không chỉ trong lĩnh vực xử lý phân tích trực tuyến (OLAP). Hỗ trợ đưa ra quyết định quản lý dựa trên dữ liệu tích lũy có thể được thực hiện trong ba lĩnh vực cơ bản.

1. Phạm vi dữ liệu chi tiết. Đây là phạm vi của hầu hết các hệ thống truy xuất thông tin. Trong hầu hết các trường hợp, các DBMS quan hệ có thể xử lý tốt các nhiệm vụ phát sinh ở đây. Tiêu chuẩn được chấp nhận chung cho ngôn ngữ để thao tác dữ liệu quan hệ là SQL. Các hệ thống truy xuất thông tin cung cấp giao diện người dùng cuối trong các nhiệm vụ tìm kiếm thông tin chi tiết có thể được sử dụng làm tiện ích bổ sung trên cả cơ sở dữ liệu riêng lẻ của hệ thống giao dịch và trên kho lưu trữ dữ liệu chung.

2. Phạm vi của các chỉ số tổng hợp. Nhiệm vụ của hệ thống OLAP là xem xét toàn diện thông tin được thu thập trong kho dữ liệu, khái quát hóa và tổng hợp thông tin cũng như phân tích đa chiều. Tại đây, bạn có thể tập trung vào các DBMS đa chiều đặc biệt hoặc duy trì trong khuôn khổ các công nghệ quan hệ. Trong trường hợp thứ hai, dữ liệu được tổng hợp trước có thể được thu thập trong cơ sở dữ liệu hình ngôi sao hoặc việc tổng hợp thông tin có thể được thực hiện trong quá trình quét các bảng chi tiết của cơ sở dữ liệu quan hệ.

3. Hình cầu của các mẫu. Xử lý trí tuệ được thực hiện bằng các phương pháp khai thác dữ liệu, mục tiêu chính là tìm kiếm các mẫu chức năng và logic trong thông tin tích lũy, xây dựng các mô hình và quy tắc giải thích các điểm bất thường được tìm thấy và/hoặc dự đoán sự phát triển của các quy trình nhất định.

Cấu trúc hoàn chỉnh của hệ thống thông tin và phân tích được xây dựng trên cơ sở kho dữ liệu được thể hiện trong Hình 2. 3.2. Trong các triển khai cụ thể, các thành phần riêng lẻ của mạch này thường bị thiếu.

Hình.3.2. Cấu trúc hệ thống thông tin và phân tích của công ty.

Khái niệm OLAP dựa trên nguyên tắc biểu diễn dữ liệu đa chiều. Trong một bài báo năm 1993, E. F. Codd đã đề cập đến những thiếu sót của mô hình quan hệ, chủ yếu chỉ ra sự bất lực trong việc “hợp nhất, xem và phân tích dữ liệu theo nhiều chiều, nghĩa là theo cách dễ hiểu nhất đối với các nhà phân tích doanh nghiệp” và định nghĩa yêu cầu chung đối với hệ thống OLAP mở rộng chức năng của DBMS quan hệ và bao gồm phân tích đa chiều là một trong những đặc điểm của nó.

Trong một số lượng lớn các ấn phẩm, từ viết tắt OLAP không chỉ biểu thị chế độ xem dữ liệu đa chiều mà còn biểu thị việc lưu trữ dữ liệu trong cơ sở dữ liệu đa chiều. Nói chung, điều này không đúng, vì chính Codd lưu ý rằng "Cơ sở dữ liệu quan hệ đã, đang và sẽ là công nghệ phù hợp nhất để lưu trữ dữ liệu doanh nghiệp. Nhu cầu không phải là công nghệ cơ sở dữ liệu mới mà là các công cụ phân tích bổ sung cho các chức năng của các DBMS hiện có và đủ linh hoạt để kích hoạt và tự động hóa các loại hình khai thác khác nhau vốn có trong OLAP." Sự nhầm lẫn như vậy dẫn đến sự đối lập như "OLAP hoặc ROLAP", điều này không hoàn toàn chính xác, vì ROLAP (OLAP quan hệ) ở cấp độ khái niệm hỗ trợ tất cả chức năng được xác định bởi thuật ngữ OLAP. Có vẻ thích hợp hơn khi sử dụng thuật ngữ đặc biệt MOLAP cho OLAP dựa trên các DBMS đa chiều, như được thực hiện trong.

Theo Codd, quan điểm khái niệm đa chiều là một quan điểm đa chiều bao gồm một số chiều độc lập mà theo đó các bộ dữ liệu cụ thể có thể được phân tích. Phân tích đồng thời trên nhiều chiều được định nghĩa là phân tích đa biến. Mỗi chiều bao gồm các lĩnh vực hợp nhất dữ liệu, bao gồm một loạt các cấp độ khái quát hóa liên tiếp, trong đó mỗi cấp độ cao hơn tương ứng với mức độ tổng hợp dữ liệu lớn hơn cho chiều tương ứng. Như vậy, chiều hướng Người thực hiện có thể được xác định theo hướng hợp nhất, bao gồm các mức độ khái quát hóa “doanh nghiệp - bộ phận - bộ phận - nhân viên”. Thứ nguyên Thời gian thậm chí có thể bao gồm hai hướng hợp nhất - “năm - quý - tháng - ngày” và “tuần - ngày”, vì việc tính thời gian theo tháng và theo tuần không tương thích. Trong trường hợp này, có thể tùy ý chọn mức độ chi tiết mong muốn của thông tin cho từng thứ nguyên. Hoạt động khoan xuống tương ứng với sự chuyển động từ giai đoạn cố kết cao xuống thấp; ngược lại, thao tác cuộn lên có nghĩa là chuyển động từ mức thấp lên mức cao hơn (Hình 2).

Cơm. 2. Quy mô và hướng hợp nhất dữ liệu

Cơ sở dữ liệu doanh nghiệp của hệ thống thông tin kinh tế

3. Xử lý phân tích trực tuyến (OLAP)

Công nghệ phân tích dữ liệu đa chiều phức tạp được gọi là OLAP (Xử lý phân tích trực tuyến). OLAP là thành phần chính của kho dữ liệu. Khái niệm OLAP được Edgar Codd mô tả vào năm 1993 và có các yêu cầu sau đối với các ứng dụng phân tích đa chiều:

biểu diễn dữ liệu theo khái niệm đa chiều, bao gồm hỗ trợ đầy đủ cho các hệ thống phân cấp và nhiều hệ thống phân cấp (một yêu cầu chính của OLAP);

cung cấp cho người dùng kết quả phân tích trong thời gian có thể chấp nhận được (thường không quá 5 giây), với chi phí phân tích ít chi tiết hơn;

khả năng thực hiện bất kỳ phân tích logic và thống kê cụ thể nào cho một ứng dụng nhất định và lưu nó ở dạng mà người dùng cuối có thể truy cập được;

nhiều người dùng truy cập vào dữ liệu với sự hỗ trợ cho các cơ chế khóa thích hợp và phương tiện truy cập được ủy quyền;

khả năng truy cập bất kỳ thông tin cần thiết nào, bất kể khối lượng của nó.

Một hệ thống OLAP bao gồm nhiều thành phần. Ở mức độ trình bày cao nhất, hệ thống bao gồm nguồn dữ liệu, cơ sở dữ liệu đa chiều (MDB), cung cấp khả năng triển khai cơ chế báo cáo dựa trên công nghệ OLAP, máy chủ OLAP và máy khách. Hệ thống được xây dựng theo nguyên tắc máy khách-máy chủ và cung cấp quyền truy cập từ xa và nhiều người dùng vào máy chủ MDB.

Hãy xem xét các thành phần của hệ thống OLAP.

Nguồn. Nguồn trong hệ thống OLAP là máy chủ cung cấp dữ liệu để phân tích. Tùy thuộc vào việc sử dụng sản phẩm OLAP, nguồn có thể là kho dữ liệu, cơ sở dữ liệu kế thừa chứa dữ liệu chung, một tập hợp các bảng tổng hợp dữ liệu tài chính hoặc bất kỳ sự kết hợp nào ở trên.

Kho dữ liệu. Dữ liệu nguồn được thu thập và lưu trữ trong kho được thiết kế theo nguyên tắc lưu trữ dữ liệu. Kho dữ liệu là một cơ sở dữ liệu quan hệ (RDB). Bảng dữ liệu chính (bảng thực tế) chứa các giá trị số của các chỉ số để thu thập thông tin thống kê.

Cơ sở dữ liệu đa chiều. Kho dữ liệu đóng vai trò là nhà cung cấp thông tin cho cơ sở dữ liệu đa chiều, là tập hợp các đối tượng. Các lớp chính của các đối tượng này là kích thước và số đo. Thứ nguyên bao gồm các tập hợp giá trị (tham số) mà dữ liệu được lập chỉ mục, ví dụ: thời gian, khu vực, loại tổ chức, v.v. Mỗi thứ nguyên chứa đầy các giá trị từ các bảng thứ nguyên tương ứng của kho dữ liệu. Tập hợp các phép đo xác định không gian của quá trình đang nghiên cứu. Các chỉ số đề cập đến các khối dữ liệu đa chiều (hypercube). Hypercube chứa chính dữ liệu đó cũng như tổng hợp các kích thước có trong chỉ báo. Các chỉ số là nội dung chính của MDB và được điền theo bảng thực tế. Dọc theo mỗi trục của siêu khối, dữ liệu có thể được tổ chức thành một hệ thống phân cấp thể hiện các mức độ chi tiết khác nhau. Điều này cho phép bạn tạo thứ nguyên phân cấp, thứ nguyên này sẽ được sử dụng để tổng hợp hoặc xem chi tiết cách trình bày dữ liệu trong quá trình phân tích dữ liệu tiếp theo. Một ví dụ điển hình về chiều thứ bậc là danh sách các đối tượng lãnh thổ được nhóm theo quận, vùng và quận.

Máy chủ. Phần ứng dụng của hệ thống OLAP là máy chủ OLAP. Thành phần này thực hiện tất cả công việc (tùy thuộc vào kiểu hệ thống) và lưu trữ tất cả thông tin được cung cấp quyền truy cập tích cực. Kiến trúc máy chủ bị chi phối bởi nhiều khái niệm khác nhau. Đặc biệt, đặc điểm chức năng chính của sản phẩm OLAP là sử dụng MDB hoặc RDB để lưu trữ dữ liệu.

Ứng dụng khách hàng. Dữ liệu có cấu trúc phù hợp và được lưu trữ trong MDB có sẵn để phân tích bằng ứng dụng khách. Người dùng có cơ hội truy cập dữ liệu từ xa, hình thành các truy vấn phức tạp, tạo báo cáo và lấy các tập hợp dữ liệu tùy ý. Việc lấy báo cáo bao gồm việc chọn các giá trị đo lường cụ thể và xây dựng một phần của siêu khối. Mặt cắt ngang được xác định bởi các giá trị đo đã chọn. Dữ liệu cho các phép đo khác được tóm tắt.

Các khái niệm chính của mô hình dữ liệu đa chiều là: Siêu khối dữ liệu, Kích thước, Bộ nhớ, Ô và Đo lường.

Siêu khối dữ liệu chứa một hoặc nhiều thứ nguyên và là tập hợp các ô được sắp xếp theo thứ tự. Mỗi ô được xác định bởi một và chỉ một bộ giá trị thứ nguyên—nhãn. Ô có thể chứa dữ liệu - một thước đo hoặc để trống.

Kích thước là một tập hợp các dấu tạo thành một trong các mặt của siêu khối. Một ví dụ về thứ nguyên thời gian là danh sách ngày, tháng, quý. Một ví dụ về khía cạnh địa lý có thể là danh sách các đối tượng lãnh thổ: khu định cư, quận, vùng, quốc gia, v.v.

Để truy cập dữ liệu, người dùng phải chỉ định một hoặc nhiều ô bằng cách chọn các giá trị thứ nguyên tương ứng với các ô mong muốn. Quá trình lựa chọn các giá trị đo được gọi là nhãn cố định và tập hợp các giá trị đo đã chọn được gọi là tập hợp các nhãn cố định.

Ưu điểm của việc sử dụng công cụ OLAP máy chủ so với công cụ OLAP máy khách: khi sử dụng công cụ máy chủ, việc tính toán và lưu trữ dữ liệu tổng hợp diễn ra trên máy chủ và ứng dụng khách chỉ nhận được kết quả truy vấn tới chúng, điều này thường cho phép giảm lưu lượng mạng và thực hiện truy vấn yêu cầu về thời gian và tài nguyên mà ứng dụng khách tiêu thụ.

1. Biểu diễn dữ liệu đa chiều - các công cụ dành cho người dùng cuối cung cấp khả năng hiển thị và thao tác dữ liệu đa chiều; Lớp biểu diễn đa chiều trừu tượng hóa cấu trúc vật lý của dữ liệu và coi dữ liệu là đa chiều.

2. Xử lý đa chiều - một phương tiện (ngôn ngữ) để hình thành các truy vấn đa chiều (ngôn ngữ quan hệ truyền thống SQL không phù hợp ở đây) và bộ xử lý có thể xử lý và thực hiện truy vấn đó.

3. Lưu trữ đa chiều - phương tiện tổ chức dữ liệu vật lý, đảm bảo thực hiện hiệu quả các truy vấn đa chiều.

Hai cấp độ đầu tiên là bắt buộc trong tất cả các công cụ OLAP. Cấp độ thứ ba, mặc dù phổ biến nhưng không cần thiết, vì dữ liệu cho biểu diễn đa chiều cũng có thể được trích xuất từ các cấu trúc quan hệ thông thường.

Trong bất kỳ kho dữ liệu nào - cả thông thường và đa chiều - cùng với dữ liệu chi tiết được trích xuất từ hệ thống vận hành, các chỉ số tổng hợp (tổng chỉ số), chẳng hạn như tổng doanh số theo tháng, theo danh mục sản phẩm, v.v., cũng được lưu trữ.

Nhược điểm chính là sự gia tăng về khối lượng thông tin được lưu trữ (khi thêm các kích thước mới, khối lượng dữ liệu tạo nên khối sẽ tăng theo cấp số nhân) và thời gian cần thiết để tải chúng.

Mức độ tăng khối lượng dữ liệu khi tính toán tổng hợp phụ thuộc vào số lượng kích thước của khối và cấu trúc của các kích thước này, tức là. tỷ lệ số lượng “cha mẹ” và “con cháu” ở các mức đo lường khác nhau. Để giải quyết vấn đề lưu trữ các tập hợp tổng hợp, các lược đồ phức tạp được sử dụng, giúp đạt được sự gia tăng đáng kể về hiệu suất truy vấn khi tính toán không phải tất cả các tập hợp có thể có.

Cả dữ liệu thô và tổng hợp đều có thể được lưu trữ trong cấu trúc quan hệ hoặc đa chiều. Về vấn đề này, ba phương pháp lưu trữ dữ liệu đa chiều hiện đang được sử dụng:

MOLAP (OLAP đa chiều) - dữ liệu nguồn và tổng hợp được lưu trữ trong cơ sở dữ liệu đa chiều. Việc lưu trữ dữ liệu trong các cấu trúc đa chiều cho phép bạn thao tác dữ liệu dưới dạng mảng nhiều chiều, do đó tốc độ tính toán các giá trị tổng hợp là như nhau đối với bất kỳ thứ nguyên nào. Tuy nhiên, trong trường hợp này, cơ sở dữ liệu đa chiều là dư thừa vì dữ liệu đa chiều hoàn toàn chứa dữ liệu quan hệ ban đầu.

Các hệ thống này cung cấp một chu trình xử lý OLAP đầy đủ. Ngoài thành phần máy chủ, chúng còn bao gồm giao diện máy khách tích hợp của riêng chúng hoặc sử dụng các chương trình bảng tính bên ngoài để giao tiếp với người dùng.

ROLAP (OLAP quan hệ) - dữ liệu gốc vẫn còn trong cùng cơ sở dữ liệu quan hệ nơi nó được đặt ban đầu. Dữ liệu tổng hợp được đặt trong các bảng dịch vụ được tạo đặc biệt để lưu trữ nó trong cùng một cơ sở dữ liệu.

HOLAP (Hybrid OLAP) - dữ liệu gốc vẫn còn trong cùng cơ sở dữ liệu quan hệ nơi nó được đặt ban đầu và dữ liệu tổng hợp được lưu trữ trong cơ sở dữ liệu đa chiều.

Một số công cụ OLAP chỉ hỗ trợ lưu trữ dữ liệu ở dạng cấu trúc quan hệ, một số chỉ hỗ trợ ở dạng đa chiều. Tuy nhiên, hầu hết các công cụ OLAP máy chủ hiện đại đều hỗ trợ cả ba phương pháp lưu trữ dữ liệu. Việc lựa chọn phương pháp lưu trữ phụ thuộc vào khối lượng và cấu trúc của dữ liệu nguồn, yêu cầu về tốc độ thực hiện truy vấn và tần suất cập nhật các khối OLAP.

Công nghệ OLAP như một công cụ mạnh mẽ để xử lý dữ liệu thời gian thực

Tiến sĩ E.F. (Ted) Coddy đã đặt ra cụm từ Xử lý phân tích trực tuyến (OLAP) vào năm 1993...

Xử lý dữ liệu phân tích (OLAP). Kho dữ liệu thông tin. Mô hình dữ liệu dùng để xây dựng kho thông tin

Nhiệm vụ chính của mô hình OLTP là xử lý truy vấn nhanh, duy trì tính toàn vẹn dữ liệu, đa truy cập vào môi trường, hiệu quả của nó được đo bằng số lượng giao dịch mỗi giây...

Lựa chọn và chứng minh cấu hình của máy tính cá nhân nhằm làm việc với âm thanh ở cấp độ nghiệp dư

Bộ nhớ truy cập ngẫu nhiên (RAM) là một phần dễ bay hơi của hệ thống bộ nhớ máy tính, lưu trữ tạm thời dữ liệu và lệnh cần thiết để bộ xử lý thực hiện thao tác...

Lựa chọn và chứng minh cấu hình của máy tính cá nhân tập trung vào việc thực hiện một loạt nhiệm vụ cụ thể

Bộ nhớ truy cập ngẫu nhiên (bộ nhớ truy cập ngẫu nhiên; thuật ngữ máy tính: Bộ nhớ, RAM) là một phần dễ bay hơi của hệ thống bộ nhớ máy tính, trong đó dữ liệu và lệnh được lưu trữ tạm thời...

Thuật toán lập lịch bộ xử lý Trong các hệ thống xử lý trực tuyến, thời gian trung bình cho các yêu cầu cung cấp dịch vụ được sử dụng làm tiêu chí chính cho hiệu quả. Dễ dàng nhận thấy rằng trong trường hợp thời gian giải quyết vấn đề được biết trước...

Nghiên cứu các thuật toán quản lý tài nguyên cho máy chủ đơn xử lý trong quá trình xử lý tác vụ trực tuyến (thuật toán SPT và RR)

Thuật toán SPT được sử dụng khi biết thời gian giải của các bài toán (quy trình). Để làm được điều này, trước khi trực tiếp giải quyết, trước tiên anh ấy sẽ sắp xếp các bài toán theo thứ tự tăng dần...

Cơ sở dữ liệu doanh nghiệp của hệ thống thông tin kinh tế

Công nghệ phân tích dữ liệu đa chiều phức tạp được gọi là OLAP (Xử lý phân tích trực tuyến). OLAP là thành phần chính của kho dữ liệu. Khái niệm OLAP được mô tả vào năm 1993...

Triển vọng phát triển PC

Bộ nhớ truy cập ngẫu nhiên (RAM) là một mảng các ô tinh thể có khả năng lưu trữ dữ liệu. RAM là một thành phần rất quan trọng của máy tính. Nó lưu trữ các chương trình và dữ liệu mà PC làm việc trực tiếp...

Thiết kế PC tính toán chi phí nghỉ lễ

Đặc biệt quan trọng liên quan đến công nghệ máy tính và viễn thông là các chế độ “trực tuyến” và “ngoại tuyến”. Chế độ “Trực tuyến” là chế độ hoạt động của máy tính không tự chủ, kết nối Internet liên tục. Sản phẩm phần mềm...

Bo mạch chủ, loại và thông số kỹ thuật

Bộ nhớ truy cập ngẫu nhiên (RAM) là một phần không ổn định của hệ thống bộ nhớ máy tính, có chức năng lưu trữ tạm thời dữ liệu và các lệnh cần thiết để bộ xử lý thực hiện các hoạt động (Hình 3)...

Thiết bị máy tính đa phương tiện hiện đại

Như bạn đã biết, máy tính lưu trữ dữ liệu chủ yếu trên một thiết bị đặc biệt - ổ cứng. Và trong quá trình làm việc anh ấy tiếp thu từ đó. Thông tin sau này sẽ đi đâu? Rõ ràng...

1.1.1 Sản phẩm phần mềm Skype Skype là chương trình cho phép bạn giao tiếp qua Internet với đồng nghiệp, bạn bè, người thân trên toàn thế giới...

Phân tích so sánh các hệ thống đào tạo từ xa

1.2.2 Hệ thống đào tạo từ xa Moodle Moodle LMS là môi trường đào tạo từ xa được thiết kế để tạo và sử dụng các khóa học từ xa...

công nghệ OLAP

Khi xây dựng hệ thống thông tin, chức năng OLAP có thể được triển khai bằng cả công cụ OLAP máy chủ và máy khách...

Các công cụ thuộc lớp OLAP (Xử lý phân tích trực tuyến, bản dịch truyền thống của tiếng Nga - "xử lý phân tích trực tuyến") là các công cụ phân tích phổ biến hiện nay, nếu không có nó thì gần như không thể tưởng tượng được một hệ thống thông tin và phân tích. Bản thân thuật ngữ OLAP được đặt ra vào năm 1993 bởi Codd, người đã thảo luận về những thiếu sót của mô hình quan hệ theo quan điểm của các nhà phân tích doanh nghiệp. Công cụ được cho là để khắc phục những thiếu sót này là khái niệm OLAP. Công bằng mà nói, phải nói rằng một cách tiếp cận tương tự như OLAP (cụ thể là biểu diễn dữ liệu đa chiều) đã được sử dụng trước khi thuật ngữ này ra đời, nhưng động lực cho việc phổ biến rộng rãi công nghệ và triển khai nó trong nhiều sản phẩm phân tích là bài báo của Codd .

Trong số những nhược điểm của mô hình quan hệ và DBMS quan hệ liên quan đến các nhiệm vụ phân tích, Codd lưu ý những điều sau. Đầu tiên, các truy vấn phân tích khá phức tạp và liên quan đến một số lượng lớn các phép nối quan hệ tương đối chậm. Thứ hai, việc soạn các truy vấn tới cơ sở dữ liệu quan hệ không có sẵn đối với các nhà phân tích của công ty (từ giờ trở đi chúng tôi sẽ gọi họ là “người ra quyết định” hoặc người ra quyết định). Hạn chế thứ hai gây ra một chu kỳ khá dài để có được thông tin cần thiết từ người ra quyết định - ví dụ, cần phải liên hệ với dịch vụ thông tin, nơi họ sẽ chuẩn bị một mẫu báo cáo với thông tin liên quan và sau đó sử dụng các báo cáo này hình thức. Codd đã nhìn thấy giải pháp cho những vấn đề này bằng một công cụ phân tích hỗ trợ mô hình đa chiều, điều này có thể hiểu được đối với người ra quyết định. Nghĩa là, một số khía cạnh được xác định trong bối cảnh xem xét các chỉ số khác nhau về hiệu quả hoạt động của doanh nghiệp. Một mô hình như vậy, do tính rõ ràng và trực quan của nó, sẽ cho phép người ra quyết định tự mình truy cập các thông tin cần thiết. Mặt khác, các phản hồi cho các truy vấn phải được tạo ra đủ nhanh (yêu cầu này chịu trách nhiệm cho phần “Trực tuyến” của từ viết tắt OLAP).

Codd cũng đưa ra 12 quy tắc mà hệ thống OLAP phải đáp ứng. Sau này, những quy tắc này được làm lại thành 18 thuộc tính, chia thành 4 nhóm. Bộ quy tắc này không phổ biến. Có lẽ bởi vì, không giống như tuyên ngôn nổi tiếng năm 1970 của Codd mô tả mô hình dữ liệu quan hệ, bài báo năm 1993 đưa ra ít lý lẽ căn bản hơn và ít được xác minh về mặt lý thuyết hơn. Ngoài ra, nó được xuất bản dưới sự bảo trợ của một nhà cung cấp hệ thống phân tích có uy tín và các quy tắc được xây dựng trong đó có thể không phổ biến, nhưng có tính đến đặc thù sản phẩm của nhà cung cấp này. Bằng cách này hay cách khác, cái gọi là bài kiểm tra FASMI phổ biến hơn, có thể bị nhầm với định nghĩa của OLAP. FASMI là từ viết tắt của:

Nhanh – Thời gian phản hồi của hệ thống phải được đo bằng giây. Các nghiên cứu độc lập cho thấy thời gian người dùng chờ phản hồi từ máy tính là khoảng 20 giây. Sau khoảng thời gian này, người dùng bắt đầu cảm thấy khó chịu. Không còn nghi ngờ gì nữa, việc đạt được bất kỳ truy vấn nào về lượng lớn thông tin chỉ trong vài giây là một nhiệm vụ khó khăn đối với các nhà sản xuất công cụ OLAP. Trên thực tế, đây là một trong những hướng phát triển chính trong lĩnh vực này. Tuy nhiên, như một số khảo sát cho thấy, tốc độ hoạt động không đạt yêu cầu vẫn là một trong những phàn nàn chính của người dùng về các công cụ thuộc loại này.

Analisys (phân tích) - hệ thống được thiết kế để nghiên cứu toàn diện về dữ liệu và nghiên cứu này có thể chứa các yếu tố logic kinh doanh, hỗ trợ các phụ thuộc do người dùng xác định, v.v.

Shared (được chia sẻ, nhiều người dùng) - hệ thống phải hỗ trợ công việc cho nhiều người dùng, đồng thời đảm bảo mức độ bảo mật cần thiết. Nếu người dùng cho phép chỉnh sửa dữ liệu thì dữ liệu đó phải được kiểm soát bằng các cơ chế khóa đã biết ở mức yêu cầu.

Đa chiều - Dữ liệu phải được trình bày dưới dạng đa chiều. Đây là phần chính của định nghĩa về OLAP.

Thông tin (thông tin) - thành phần này gợi ý rằng kết quả phân tích là thông tin (ngược lại với dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ).

Bài kiểm tra FASMI, giống như các quy tắc của Codd, đặt ra một tiêu chuẩn nhất định - “công cụ OLAP lý tưởng”. Trên thực tế, các sản phẩm khác nhau có thể được so sánh dựa trên mức độ đáp ứng các quy định này của chúng. Hiện tại chưa có sản phẩm nào đáp ứng được đầy đủ những điều đó.

Kết nối giữa OLAP và lưu trữ dữ liệu

Kho dữ liệu phản ánh xu hướng hiện đại trong việc thu thập và làm sạch dữ liệu từ các hệ thống giao dịch và lưu trữ dữ liệu đó cho mục đích phân tích. Sự xuất hiện của công nghệ kho dữ liệu một phần là do các điều kiện tiên quyết giống như OLAP - sự khác biệt trong các truy vấn phân tích và các truy vấn điển hình đối với hệ thống kế toán. Ngoài ra, mong muốn thu thập dữ liệu từ tất cả các nguồn trong doanh nghiệp để tạo ra một bức tranh thông tin tổng thể hơn hóa ra lại rất phù hợp.

Một loại kho dữ liệu là siêu thị dữ liệu (hoặc siêu thị dữ liệu). Sự khác biệt của chúng với kho dữ liệu chủ yếu nằm ở kích thước. Nếu dữ liệu doanh nghiệp chảy vào kho dữ liệu thì phần trưng bày sẽ trình bày dữ liệu chỉ liên quan đến một bộ phận, dịch vụ hoặc chi nhánh. Mặt tiền cửa hàng có thể được tạo độc lập hoặc dưới dạng tập hợp con của kho dữ liệu công ty.

Được thu thập từ nhiều nguồn khác nhau, dữ liệu nhất quán và đôi khi tổng hợp là lý tưởng để phân tích. Do đó, trong hầu hết các trường hợp, các công cụ OLAP được triển khai cụ thể trên cơ sở kho hoặc trung tâm dữ liệu và được thiết kế để phân tích dữ liệu chứa trong đó. Đây là xu hướng chung đến mức trong một số nguồn, khái niệm Kho dữ liệu (data mart) và OLAP không được phân biệt. Tuy nhiên, vì sự cần thiết về phương pháp luận, vẫn cần phải có sự phân biệt. Công nghệ kho dữ liệu tập trung hơn vào việc thu thập, làm sạch và lưu trữ dữ liệu còn OLAP tập trung hơn vào việc xử lý và trình bày chúng.

Thông tin liên quan.

Thuật ngữ xử lý phân tích vận hành(Xử lý phân tích trực tuyến - OLAP) lần đầu tiên được đề cập trong báo cáo chuẩn bị cho Arbor Software Corp. vào năm 1993, mặc dù định nghĩa của thuật ngữ này, cũng như đối với kho dữ liệu, được hình thành muộn hơn nhiều. Khái niệm được biểu thị bằng thuật ngữ này có thể được định nghĩa là “quá trình tương tác tạo, duy trì, phân tích dữ liệu và phát hành báo cáo”. Ngoài ra, người ta thường nói thêm rằng dữ liệu được đề cập phải được nhận biết và xử lý như thể nó được lưu trữ trong mảng đa chiều. Nhưng trước khi chúng ta thảo luận về chính khung nhìn đa chiều, chúng ta hãy xem xét các ý tưởng liên quan dưới dạng bảng SQL truyền thống.

Đặc điểm đầu tiên là quá trình phân tích nhất thiết đòi hỏi một số tổng hợp dữ liệu, thường được thực hiện bằng nhiều phương pháp khác nhau cùng một lúc hay nói cách khác là theo nhiều tiêu chí phân nhóm khác nhau. Về bản chất, một trong những vấn đề chính của xử lý phân tích là số lượng các cách phân nhóm có thể có.

rất nhanh nó sẽ trở nên quá lớn. Tuy nhiên, người dùng nên cân nhắc tất cả hoặc hầu hết các phương pháp này. Tất nhiên, tiêu chuẩn SQL hiện hỗ trợ việc tổng hợp như vậy, nhưng bất kỳ truy vấn SQL cụ thể nào cũng chỉ tạo ra một bảng làm kết quả của nó và tất cả các hàng trong bảng kết quả đó đều có cùng dạng và cùng cách diễn giải10 (ít nhất đó là cách nó hoạt động)

9 Đây là lời khuyên từ một cuốn sách về lưu trữ dữ liệu: "[Bỏ] chuẩn hóa... Cố gắng chuẩn hóa bất kỳ bảng nào trong cơ sở dữ liệu đa chiều chỉ để tiết kiệm dung lượng ổ đĩa [đúng vậy!] là lãng phí thời gian... Các bảng thứ nguyên nên không được chuẩn hóa... Các bảng Thứ nguyên được chuẩn hóa loại trừ khả năng xem."

10 Trừ khi bảng kết quả này bao gồm bất kỳ giá trị không xác định nào hoặc giá trị NULL (xem Chương 19, Phần 19.3, "Thông tin bổ sung về Vị ngữ"). Trên thực tế, các cấu trúc SQL: 1999 được mô tả trong phần này có thể được mô tả là "dựa trên việc sử dụng" công cụ SQL rất được khuyến khích này (?); trên thực tế, chúng nhấn mạnh thực tế là trong các biểu hiện khác nhau của chúng, các nghĩa không xác định có thể có các nghĩa khác nhau và do đó cho phép nhiều vị từ khác nhau được thể hiện trong một bảng duy nhất (như sẽ được trình bày bên dưới).

trước khi tiêu chuẩn SQL ra đời: 1999). Vì vậy, để triển khai P các phương pháp nhóm khác nhau, bạn cần thực hiện P kết quả là các truy vấn riêng biệt và tạo ra các bảng riêng biệt. Ví dụ: hãy xem xét chuỗi truy vấn sau đây chạy trên cơ sở dữ liệu nhà cung cấp và bộ phận.

1. Xác định tổng số lần giao hàng.

2. Xác định tổng số lần giao hàng của nhà cung cấp.

3. Xác định tổng số bộ phận được cung cấp.

4. Xác định tổng số lần giao hàng theo nhà cung cấp và bộ phận.

(Tất nhiên, số lượng "tổng" của một nhà cung cấp nhất định và của một bộ phận nhất định chỉ đơn giản là số lượng thực tế của một nhà cung cấp nhất định và một bộ phận nhất định. Ví dụ sẽ thực tế hơn nếu sử dụng cơ sở dữ liệu về các nhà cung cấp, bộ phận và dự án. Nhưng để đơn giản hóa vấn đề này, chúng tôi vẫn sử dụng cơ sở dữ liệu thông thường về nhà cung cấp và phụ tùng.)

Bây giờ hãy giả sử rằng chỉ có hai phần, có số P1 và P2, và bảng cung cấp trông như thế này.

Cơ sở dữ liệu đa chiều

Cho đến nay, chúng ta đã giả định rằng dữ liệu OLAP được lưu trữ trong cơ sở dữ liệu thông thường sử dụng ngôn ngữ SQL (chưa kể rằng chúng ta thỉnh thoảng đề cập đến thuật ngữ và khái niệm). cơ sở dữ liệu đa chiều). Trên thực tế, dù không chỉ ra rõ ràng, chúng tôi đã mô tả cái gọi là hệ thống ROLAP(Quan hệ OLAP quan hệ OLAP). Tuy nhiên, nhiều người tin rằng việc sử dụng hệ thống MOLAP(Đa chiều OLAP- OLAP đa chiều) là một con đường hứa hẹn hơn. Trong tiểu mục này, các nguyên tắc xây dựng hệ thống MOLAP sẽ được thảo luận chi tiết hơn.

Hệ thống MOLAP duy trì cơ sở dữ liệu đa chiều, trong đó dữ liệu được lưu trữ theo khái niệm trong các ô của mảng đa chiều.

Ghi chú. Mặc dù cao hơn Vàđã được nói về khái niệm phương pháp tổ chức lưu trữ, trên thực tế là tổ chức vật lý dữ liệu trong MOLAP rất giống với cách tổ chức logic của chúng.

DBMS hỗ trợ được gọi là đa chiều. Một ví dụ đơn giản là mảng ba chiều tương ứng thể hiện sản phẩm, khách hàng và khoảng thời gian. Giá trị của từng ô riêng lẻ có thể biểu thị tổng khối lượng của một mặt hàng cụ thể được bán cho khách hàng trong một khoảng thời gian cụ thể. Như đã lưu ý ở trên, các bảng chéo từ tiểu mục trước cũng có thể được coi là các mảng như vậy.

Nếu có sự hiểu biết đủ rõ ràng về cấu trúc của tập dữ liệu thì có thể biết được tất cả các mối quan hệ giữa dữ liệu. Hơn thế nữa, biến một bộ sưu tập như vậy (không phải theo nghĩa của các ngôn ngữ lập trình thông thường), nói một cách đại khái, có thể được chia thành sự phụ thuộc Và độc lập. TRONG ví dụ trước sản phẩm, khách hàng Và khoảng thời gian có thể được coi là các biến độc lập và Số lượng - biến phụ thuộc duy nhất. Nói chung, các biến độc lập là các biến có các giá trị cùng nhau xác định giá trị của các biến phụ thuộc (giống như, trong thuật ngữ quan hệ, khóa ứng cử viên là một tập hợp

cột có giá trị xác định giá trị của các cột còn lại). Do đó, các biến độc lập xác định kích thước của mảng mà dữ liệu được tổ chức và cũng tạo thành sơ đồ địa chỉ 11 cho một mảng nhất định. Giá trị của các biến phụ thuộc, đại diện cho dữ liệu thực tế, được lưu trữ trong các ô mảng.

Ghi chú. Sự khác biệt giữa các giá trị độc lập hoặc chiều, biến

và các giá trị của những người phụ thuộc, hoặc không thứ nguyên, các biến đôi khi được mô tả là sự khác biệt giữa vị trí Và nội dung.

" Do đó, các ô mảng được đánh địa chỉ một cách tượng trưng, thay vì sử dụng các chỉ mục số, thường được sử dụng để làm việc với mảng.

Thật không may, đặc tính trên của cơ sở dữ liệu đa chiều là quá đơn giản, vì hầu hết các bộ sưu tập dữ liệu ban đầu vẫn được giữ nguyên. Khôngđã học đầy đủ. Vì lý do này, trước tiên chúng tôi thường cố gắng phân tích dữ liệu để hiểu rõ hơn về dữ liệu đó. Thông thường, sự thiếu hiểu biết có thể trầm trọng đến mức không thể xác định trước biến nào là độc lập và biến nào là phụ thuộc. Sau đó, các biến độc lập được chọn theo sự hiểu biết hiện tại về chúng (tức là dựa trên một số giả thuyết), và mảng kết quả sau đó được kiểm tra để xác định xem các biến độc lập được chọn tốt như thế nào (xem Phần 22.7). Cách tiếp cận này dẫn đến rất nhiều lần lặp lại thử và sai. Do đó, hệ thống thường cho phép thay thế các biến thứ nguyên và không thứ nguyên, và thao tác này được gọi là thay đổi trục tọa độ(xoay vòng). Các hoạt động được hỗ trợ khác bao gồm chuyển vị mảng Và sắp xếp lại kích thước. Cũng cần có cách để thêm kích thước.

Nhân tiện, từ mô tả trước, có thể thấy rõ rằng các ô mảng thường trống (và càng có nhiều chiều thì hiện tượng này càng được quan sát thường xuyên hơn). Nói cách khác, mảng thường thưa thớt. Ví dụ: giả sử sản phẩm p đó không được bán cho khách hàng c trong suốt khoảng thời gian t. Sau đó tế bào [s,p,t] sẽ trống (hoặc tốt nhất là chứa số 0). DBMS đa chiều hỗ trợ các phương pháp khác nhau để lưu trữ các mảng thưa thớt dưới dạng biểu diễn nén, hiệu quả hơn12. Cần nói thêm rằng các ô trống tương ứng với thông tin thiếu sót và do đó các hệ thống cần cung cấp một số hỗ trợ tính toán cho các ô trống. Sự hỗ trợ như vậy thực sự thường có sẵn, nhưng thật không may, phong cách của nó lại tương tự như phong cách được áp dụng trong ngôn ngữ SQL. Xin lưu ý rằng nếu ô này trống thì thông tin đó không xác định hoặc chưa được nhập hoặc không áp dụng được hoặc bị thiếu vì các lý do khác.

(xem chương 19).

Các biến độc lập thường có liên quan hệ thống cấp bậc, xác định các đường dẫn mà việc tổng hợp dữ liệu phụ thuộc có thể xảy ra. Ví dụ, có một thời gian tạm thời

một hệ thống phân cấp liên kết giây với phút, phút với giờ, giờ với ngày, ngày với tuần, tuần với tháng, tháng với năm. Hoặc một ví dụ khác: có thể phân cấp

bố cục kết nối các bộ phận với một bộ bộ phận, bộ các bộ phận với một đơn vị, các đơn vị với một mô-đun, các mô-đun với một sản phẩm. Thông thường, cùng một dữ liệu có thể được tổng hợp theo nhiều cách khác nhau, ví dụ: cùng một biến độc lập có thể thuộc nhiều hệ thống phân cấp khác nhau. Hệ thống cung cấp các toán tử cho vượt qua hoàn toàn(đi sâu vào) và đi xuống(đi sâu xuống) theo hệ thống phân cấp này. Vượt qua hoàn toàn có nghĩa là sự chuyển đổi từ mức độ tập hợp thấp hơn lên mức độ tập hợp cao hơn, và đi xuống -

chuyển tiếp theo hướng ngược lại. Có các thao tác khác để làm việc với hệ thống phân cấp, chẳng hạn như thao tác sắp xếp lại các cấp độ phân cấp.

Ghi chú. Giữa các hoạt động vượt qua hoàn toàn(đi sâu vào) và tích lũy kết quả(cuộn

lên) có một sự khác biệt tinh tế: hoạt động tích lũy kết quả -đây là một hoạt động thực hiện

12 Lưu ý sự khác biệt so với các hệ thống quan hệ. Trong ví dụ tương tự quan hệ thực sự của ví dụ này, trong dòng ic, p, t) sẽ không có "ô" số lượng trống do thực tế là dòng (s, p, t) sẽ đơn giản là vắng mặt. Do đó, khi sử dụng mô hình quan hệ, không giống như mảng nhiều chiều, không cần hỗ trợ "mảng thưa", hay đúng hơn là "bảng thưa", và do đó không cần kỹ thuật nén phức tạp để làm việc với các bảng như vậy.

các phương pháp nhóm và tổng hợp cần thiết, và hoạt động vượt qua hoàn toàn-đây là một hoạt động truy cậpđến kết quả của việc thực hiện các phương pháp này. Và một ví dụ về hoạt động đi xuống Có thể sử dụng truy vấn sau: “Đã biết tổng số lần giao hàng; lấy tổng số cho từng nhà cung cấp riêng lẻ.” Tất nhiên, để trả lời yêu cầu này, phải có sẵn các mức dữ liệu chi tiết hơn (hoặc có thể tính toán được).

Các sản phẩm cơ sở dữ liệu đa biến cũng cung cấp một số chức năng thống kê và toán học khác giúp xây dựng và kiểm tra các giả thuyết (nghĩa là các giả thuyết về các mối quan hệ được đưa ra giả thuyết). Ngoài ra, các công cụ trực quan và báo cáo được cung cấp để giúp giải quyết những vấn đề như vậy. Thật không may, vẫn chưa có ngôn ngữ truy vấn tiêu chuẩn cho cơ sở dữ liệu đa chiều, mặc dù nghiên cứu đang được tiến hành để phát triển một phép tính làm cơ sở cho tiêu chuẩn đó. Nhưng thật không may, không có gì giống như lý thuyết chuẩn hóa quan hệ có thể dùng làm cơ sở khoa học cho việc thiết kế cơ sở dữ liệu đa chiều.

Kết thúc phần này, chúng tôi lưu ý rằng một số sản phẩm kết hợp cả hai phương pháp - ROLAP và MOLAP. như thế này hệ thống OLAP lai gọi điện HOLAP. Có nhiều cuộc tranh luận về cách tiếp cận nào trong ba cách tiếp cận này tốt hơn, vì vậy chúng ta nên cố gắng nói đôi lời về vấn đề này13. Nói chung, hệ thống MOLAP cung cấp khả năng tính toán nhanh hơn nhưng hỗ trợ lượng dữ liệu nhỏ hơn so với hệ thống ROLAP, tức là. trở nên kém hiệu quả hơn khi khối lượng dữ liệu tăng lên. Và hệ thống ROLAP cung cấp khả năng mở rộng, xử lý đồng thời và kiểm soát tiên tiến hơn so với các khả năng tương tự của hệ thống MOLAP. Ngoài ra, tiêu chuẩn SQL gần đây đã được mở rộng để bao gồm nhiều hàm thống kê và phân tích (xem Phần 22.8). Theo đó, các sản phẩm ROLAP hiện cũng có khả năng cung cấp chức năng nâng cao.