OLAP: xử lý dữ liệu phân tích trực tuyến. Hệ thống xử lý dữ liệu phân tích, xử lý phân tích trực tuyến (OLAP)

Cấu trúc của cơ sở dữ liệu kho thường được thiết kế theo cách tạo thuận lợi cho việc phân tích thông tin nhiều nhất có thể. Sẽ thuận tiện hơn khi “bố trí” dữ liệu theo các hướng khác nhau (được gọi là kích thước). Ví dụ: hôm nay người dùng muốn xem bản tóm tắt các lô hàng linh kiện của nhà cung cấp để so sánh hoạt động của họ. Ngày mai, cùng một người dùng sẽ cần một bức tranh về sự thay đổi về khối lượng cung cấp các bộ phận theo tháng để theo dõi diễn biến của nguồn cung cấp. Cấu trúc cơ sở dữ liệu phải hỗ trợ các loại phân tích này bằng cách cho phép trích xuất dữ liệu tương ứng với một tập hợp kích thước nhất định.

Cơ sở của xử lý dữ liệu phân tích hoạt động là nguyên tắc tổ chức thông tin thành mô hình siêu khối. Khối dữ liệu ba chiều đơn giản nhất về cung cấp linh kiện cho cơ sở dữ liệu thử nghiệm đã thảo luận trước đó được hiển thị trong Hình. 3.11. Mỗi ô tương ứng với một “thực tế” - ví dụ: khối lượng phân phối của một bộ phận. Dọc theo một cạnh của khối lập phương (một chiều) là những tháng mà việc giao hàng được phản ánh bởi khối lập phương được thực hiện. Chiều thứ hai bao gồm các loại bộ phận và chiều thứ ba tương ứng với các nhà cung cấp. Mỗi ô chứa số lượng phân phối cho tổ hợp giá trị tương ứng ở cả ba chiều. Cần lưu ý rằng khi lấp đầy khối, các giá trị giao hàng mỗi tháng từ cơ sở dữ liệu thử nghiệm sẽ được tổng hợp.


3.11. Một tùy chọn hypercube đơn giản hóa để phân tích nguồn cung cấp linh kiện

Các hệ thống lớp OLAP khác nhau ở cách chúng trình bày dữ liệu.

OLAP đa chiều (MOLAP) – các hệ thống này dựa trên cấu trúc dữ liệu đa chiều dựa trên mảng động với các phương thức truy cập tương ứng. MOLAP được triển khai bằng cách sử dụng các công nghệ đã được cấp bằng sáng chế để tổ chức DBMS đa chiều. Ưu điểm của phương pháp này là sự tiện lợi khi thực hiện các phép tính trên các ô siêu khối, bởi vì Các ô tương ứng được tạo cho tất cả các kết hợp đo lường (như trong bảng tính). Đại diện cổ điển của các hệ thống như vậy bao gồm Oracle Express và SAS Institute MDDB.



OLAP quan hệ (ROLAP)– hỗ trợ các mô hình phân tích đa chiều trên cơ sở dữ liệu quan hệ. Lớp hệ thống này bao gồm Meta Cube Informix, Dịch vụ OLAP của Microsoft, Giải pháp Hyperion, OLAP quan hệ của Viện SAS.

OLAP trên máy tính để bàn– công cụ tạo truy vấn và báo cáo đa chiều cho hệ thống thông tin cục bộ (bảng tính, tệp phẳng). Có thể phân biệt các hệ thống sau: Business Objects, Cognos Power Play.

E. F. Codd đã xác định mười hai quy tắc mà một sản phẩm OLAP phải đáp ứng, bao gồm biểu diễn dữ liệu theo khái niệm đa chiều, tính minh bạch, tính khả dụng, hiệu suất mạnh mẽ, kiến ​​trúc máy khách-máy chủ, bình đẳng thứ nguyên, xử lý động các ma trận thưa thớt, hỗ trợ nhiều người dùng, hỗ trợ không giới hạn cho đa chiều. hoạt động, thao tác dữ liệu trực quan, cơ chế tạo báo cáo linh hoạt, số lượng thứ nguyên và mức độ tổng hợp không giới hạn.



Các hệ thống phổ biến nhất là lớp ROLAP. Chúng cho phép bạn tổ chức một mô hình thông tin trên một kho lưu trữ đầy đủ quan hệ của bất kỳ cấu trúc nào hoặc trên một trung tâm dữ liệu đặc biệt.

Cơm. 3.12. Sơ đồ kiểu ngôi sao của tủ trưng bày phân tích để cung cấp linh kiện

Đối với hầu hết các kho dữ liệu, cách hiệu quả nhất để mô hình khối N chiều là sử dụng một ngôi sao. Trong bộ lễ phục. Hình 3.11 cho thấy một mô hình siêu khối để phân tích việc cung cấp các bộ phận, trong đó thông tin được tổng hợp theo bốn chiều (nhà cung cấp, bộ phận, tháng, năm). Lược đồ hình sao dựa trên một bảng sự kiện. Bảng dữ kiện chứa một cột biểu thị số lượng được cung cấp cũng như các cột biểu thị khóa ngoại cho tất cả các bảng thứ nguyên. Mỗi kích thước khối được biểu diễn bằng một bảng giá trị, đây là một tham chiếu liên quan đến bảng dữ kiện. Để tổ chức các mức độ khái quát hóa thông tin, các đầu vào phân loại được sắp xếp phía trên các sách tham khảo đo lường (ví dụ: “bộ phận vật chất”, “thành phố nhà cung cấp”).

Lý do tại sao sơ ​​đồ trong hình. 3.12 được gọi là “ngôi sao”, khá rõ ràng. Các đầu của ngôi sao được hình thành bởi các bảng kích thước và các kết nối của chúng với bảng dữ kiện nằm ở trung tâm tạo thành các tia. Với cấu trúc cơ sở dữ liệu này, hầu hết các truy vấn phân tích nghiệp vụ đều kết hợp bảng dữ kiện trung tâm với một hoặc nhiều bảng chiều. Ví dụ: một truy vấn để lấy khối lượng vận chuyển của tất cả các bộ phận trong năm 2004 theo tháng, được chia nhỏ theo nhà cung cấp, trông như sau:

CHỌN TỔNG(VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

TỪ THỰC TẾ, NHÀ CUNG CẤP

Ở ĐÂU FACT.YEAR_ID=2004

VÀ FACT.SUPPLIER_CODE=SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

Trong bộ lễ phục. Hình 3.13 cho thấy một đoạn báo cáo được tạo ra do yêu cầu đã chỉ định.

Công nghệ phân tích quy trình kinh doanh

Hệ thống Business Intelligence (BI) kết hợp nhiều công cụ và công nghệ khác nhau để phân tích và xử lý dữ liệu ở quy mô doanh nghiệp. Dựa trên những công cụ này, các hệ thống BI được tạo ra với mục đích là nâng cao chất lượng thông tin phục vụ việc đưa ra quyết định quản lý.

BI bao gồm các sản phẩm phần mềm thuộc các lớp sau:

· hệ thống xử lý phân tích trực tuyến (OLAP);

· công cụ khai thác dữ liệu (DM);

Các sản phẩm phần mềm thuộc mỗi loại thực hiện một bộ chức năng hoặc hoạt động cụ thể bằng cách sử dụng các công nghệ đặc biệt.

OLAP (Xử lý phân tích trực tuyến) - xử lý phân tích trực tuyến - không phải là tên của một sản phẩm cụ thể mà là tên của toàn bộ công nghệ. Khái niệm OLAP dựa trên sự biểu diễn dữ liệu đa chiều.

12 tiêu chí của công nghệ OLAP, sau này đã trở thành nội dung chính của một công nghệ mới và rất hứa hẹn.

Sau đó chúng được phát triển thành thử nghiệm FASMI, xác định các yêu cầu đối với các sản phẩm OLAP:

· NHANH CHÓNG (nhanh). Ứng dụng OLAP phải cung cấp thời gian truy cập tối thiểu vào dữ liệu phân tích - trung bình khoảng 5 giây;

· ANALYSIS (phân tích). Ứng dụng OLAP phải cho phép người dùng thực hiện phân tích số và thống kê;

· CHIA SẺ (chia sẻ quyền truy cập). Một ứng dụng OLAP phải cho phép nhiều người dùng làm việc với thông tin cùng một lúc;

· MULTIDIDENSIONAL (đa chiều);

· THÔNG TIN (thông tin). Ứng dụng OLAP phải cho phép người dùng có được thông tin họ cần, bất kể nó nằm ở kho lưu trữ dữ liệu điện tử nào.

Dựa trên FASMI, có thể đưa ra định nghĩa sau: Ứng dụng OLAP -Đây là những hệ thống giúp nhiều người dùng truy cập nhanh vào thông tin phân tích đa chiều với khả năng phân tích số và thống kê.

Ý tưởng chính của OLAP là xây dựng các khối đa chiều có sẵn cho các truy vấn của người dùng. Các khối đa chiều (Hình 5.3) được xây dựng trên cơ sở dữ liệu nguồn và tổng hợp, có thể được lưu trữ trong cả cơ sở dữ liệu quan hệ và đa chiều. Vì vậy, ba phương pháp lưu trữ dữ liệu hiện đang được sử dụng: MOLAP (OLAP đa chiều), ROLAP (OLAP quan hệ) và HOLAP (OLAP lai).



Theo đó, các sản phẩm OLAP được chia thành 3 loại tương tự nhau dựa trên phương pháp lưu trữ dữ liệu:

1. Trong trường hợp MOLAP, nguồn và dữ liệu đa chiều được lưu trữ trong cơ sở dữ liệu đa chiều hoặc trong khối cục bộ đa chiều. Phương pháp lưu trữ này đảm bảo tốc độ hoạt động OLAP cao. Nhưng cơ sở đa chiều trong trường hợp này thường sẽ dư thừa. Một khối lập phương được xây dựng trên cơ sở của nó sẽ phụ thuộc rất nhiều vào số lượng kích thước. Khi số chiều tăng lên thì thể tích của khối lập phương sẽ tăng theo cấp số nhân. Đôi khi điều này có thể dẫn đến bùng nổ dữ liệu.

2. Trong các sản phẩm ROLAP, dữ liệu nguồn được lưu trữ trong cơ sở dữ liệu quan hệ hoặc trong các bảng cục bộ phẳng trên máy chủ tệp. Dữ liệu tổng hợp có thể được đặt trong các bảng dịch vụ trong cùng một cơ sở dữ liệu. Việc chuyển đổi dữ liệu từ cơ sở dữ liệu quan hệ thành các khối đa chiều xảy ra theo yêu cầu của công cụ OLAP. Trong trường hợp này, tốc độ xây dựng khối sẽ phụ thuộc rất nhiều vào loại nguồn dữ liệu.

3. Trong trường hợp sử dụng kiến ​​trúc kết hợp, dữ liệu nguồn vẫn còn trong cơ sở dữ liệu quan hệ và các tập hợp được đặt trong cơ sở dữ liệu đa chiều. Khối OLAP được xây dựng theo yêu cầu của công cụ OLAP dựa trên dữ liệu quan hệ và đa chiều. Cách tiếp cận này tránh sự tăng trưởng dữ liệu bùng nổ. Trong trường hợp này, có thể đạt được thời gian thực hiện tối ưu cho các yêu cầu của khách hàng.

Sử dụng công nghệ OLAP, người dùng có thể thực hiện xem thông tin linh hoạt, thu được nhiều lát dữ liệu khác nhau, thực hiện các hoạt động phân tích chi tiết, tích chập, phân phối từ đầu đến cuối, so sánh theo thời gian, tức là. biên soạn và xuất bản động các báo cáo và tài liệu.

4. Phân loại sản phẩm OLAP.

5. Nguyên tắc hoạt động của máy khách OLAP.

7. Lĩnh vực ứng dụng công nghệ OLAP.

8. Ví dụ về sử dụng công nghệ OLAP để phân tích doanh số bán hàng.

1. Vị trí của OLAP trong cấu trúc thông tin của doanh nghiệp.

Thuật ngữ "OLAP" gắn bó chặt chẽ với thuật ngữ "kho dữ liệu" (Data Warehouse).

Dữ liệu trong kho đến từ hệ thống vận hành (hệ thống OLTP), được thiết kế để tự động hóa các quy trình kinh doanh. Ngoài ra, kho lưu trữ có thể được bổ sung từ các nguồn bên ngoài, chẳng hạn như các báo cáo thống kê.

Mục đích của kho lưu trữ là cung cấp “nguyên liệu thô” để phân tích ở một nơi và có cấu trúc đơn giản, dễ hiểu.

Còn một lý do nữa biện minh cho sự xuất hiện của một cơ sở lưu trữ riêng biệt - các truy vấn phân tích phức tạp về thông tin hoạt động làm chậm công việc hiện tại của công ty, chặn các bảng trong thời gian dài và chiếm đoạt tài nguyên máy chủ.

Một kho lưu trữ không nhất thiết có nghĩa là một sự tích lũy dữ liệu khổng lồ - điều chính yếu là nó thuận tiện cho việc phân tích.

Sự tập trung và cơ cấu thuận tiện không phải là tất cả những gì một nhà phân tích cần. Anh ấy vẫn cần một công cụ để xem và hình dung thông tin. Các báo cáo truyền thống, ngay cả những báo cáo được xây dựng trên một kho lưu trữ duy nhất, vẫn thiếu một thứ - tính linh hoạt. Chúng không thể được "xoắn", "mở rộng" hoặc "thu gọn" để có được chế độ xem dữ liệu mong muốn. Giá như anh có một công cụ cho phép anh mở rộng và thu gọn dữ liệu một cách đơn giản và thuận tiện! OLAP hoạt động như một công cụ như vậy.

Mặc dù OLAP không phải là thuộc tính cần thiết của kho dữ liệu nhưng nó ngày càng được sử dụng nhiều để phân tích thông tin tích lũy trong kho.

Vị trí của OLAP trong cấu trúc thông tin của doanh nghiệp (Hình 1).

Bức tranh 1. Địa điểmOLAP trong cấu trúc thông tin của doanh nghiệp

Dữ liệu vận hành được thu thập từ nhiều nguồn khác nhau, được làm sạch, tích hợp và lưu trữ trong một kho lưu trữ quan hệ. Hơn nữa, chúng đã có sẵn để phân tích bằng nhiều công cụ báo cáo khác nhau. Sau đó, dữ liệu (toàn bộ hoặc một phần) được chuẩn bị để phân tích OLAP. Chúng có thể được tải vào cơ sở dữ liệu OLAP đặc biệt hoặc được lưu trữ trong bộ lưu trữ quan hệ. Yếu tố quan trọng nhất của nó là siêu dữ liệu, tức là thông tin về cấu trúc, vị trí và chuyển đổi dữ liệu. Nhờ chúng, sự tương tác hiệu quả của các thành phần lưu trữ khác nhau được đảm bảo.

Tóm lại, chúng ta có thể định nghĩa OLAP là một bộ công cụ để phân tích đa chiều dữ liệu được tích lũy trong kho.

2. Xử lý dữ liệu phân tích hoạt động.

Khái niệm OLAP dựa trên nguyên tắc biểu diễn dữ liệu đa chiều. Năm 1993, E. F. Codd đã giải quyết những thiếu sót của mô hình quan hệ, chủ yếu chỉ ra việc không có khả năng "hợp nhất, xem và phân tích dữ liệu theo nhiều chiều, nghĩa là theo cách dễ hiểu nhất đối với các nhà phân tích doanh nghiệp" và xác định các yêu cầu chung dành cho các hệ thống OLAP mở rộng chức năng của DBMS quan hệ và bao gồm phân tích đa chiều như một trong những đặc điểm của nó.

Theo Codd, quan điểm khái niệm đa chiều là một quan điểm đa chiều bao gồm một số chiều độc lập mà theo đó các bộ dữ liệu cụ thể có thể được phân tích.

Phân tích đồng thời trên nhiều chiều được định nghĩa là phân tích đa biến. Mỗi chiều bao gồm các lĩnh vực hợp nhất dữ liệu, bao gồm một loạt các cấp độ khái quát hóa liên tiếp, trong đó mỗi cấp độ cao hơn tương ứng với mức độ tổng hợp dữ liệu lớn hơn cho chiều tương ứng.

Như vậy, chiều hướng Người thực hiện có thể được xác định theo hướng hợp nhất, bao gồm các mức độ khái quát hóa “doanh nghiệp - bộ phận - bộ phận - nhân viên”. Thứ nguyên Thời gian thậm chí có thể bao gồm hai hướng hợp nhất - “năm - quý - tháng - ngày” và “tuần - ngày”, vì việc tính thời gian theo tháng và theo tuần không tương thích. Trong trường hợp này, có thể tùy ý chọn mức độ chi tiết mong muốn của thông tin cho từng thứ nguyên.

Hoạt động đi xuống (khoan xuống) tương ứng với việc chuyển từ giai đoạn cố kết cao hơn xuống giai đoạn cố kết thấp hơn; ngược lại, thao tác nâng (cuộn lên) có nghĩa là chuyển động từ mức thấp hơn lên mức cao hơn (Hình 2).


Hình 2.Kích thước và hướng hợp nhất dữ liệu

3. Yêu cầu đối với công cụ xử lý phân tích trực tuyến.

Cách tiếp cận đa chiều phát sinh gần như đồng thời và song song với cách tiếp cận quan hệ. Tuy nhiên, chỉ bắt đầu từ giữa những năm 1990, hay đúng hơn là từ
1993, quan tâm đến MDBMS bắt đầu trở nên phổ biến. Năm nay đã xuất hiện một bài viết mang tính lập trình mới của một trong những người sáng lập phương pháp tiếp cận quan hệ. E. Codda, trong đó ông đưa ra 12 yêu cầu cơ bản về phương tiện thực hiện OLAP(Bảng 1).

Bảng 1.

Biểu diễn dữ liệu đa chiều

Các công cụ phải hỗ trợ chế độ xem dữ liệu đa chiều về mặt khái niệm.

Minh bạch

Người dùng không cần biết công cụ cụ thể nào được sử dụng để lưu trữ và xử lý dữ liệu, dữ liệu được tổ chức như thế nào và nó đến từ đâu.

khả dụng

Bản thân các công cụ phải chọn và liên hệ với nguồn dữ liệu tốt nhất để tạo ra câu trả lời cho một yêu cầu nhất định. Các công cụ phải có khả năng tự động ánh xạ logic của riêng chúng tới các nguồn dữ liệu không đồng nhất khác nhau.

Hiệu suất nhất quán

Hiệu suất hầu như không phụ thuộc vào số lượng Thứ nguyên trong truy vấn.

Hỗ trợ kiến ​​trúc client-server

Các công cụ phải hoạt động theo kiến ​​trúc client-server.

Bình đẳng về mọi mặt

Không có kích thước nào là cơ bản; tất cả chúng phải bằng nhau (đối xứng).

Xử lý động các ma trận thưa thớt

Các giá trị không xác định phải được lưu trữ và xử lý theo cách hiệu quả nhất có thể.

Hỗ trợ chế độ nhiều người dùng làm việc với dữ liệu

Các công cụ phải cung cấp khả năng cho nhiều người dùng làm việc.

Hỗ trợ hoạt động dựa trên nhiều kích thước khác nhau

Tất cả các hoạt động đa chiều (chẳng hạn như Tập hợp) phải được áp dụng thống nhất và nhất quán cho bất kỳ số lượng kích thước nào.

Dễ dàng thao tác dữ liệu

Các công cụ phải có giao diện người dùng thuận tiện, tự nhiên và thoải mái nhất.

Công cụ trình bày dữ liệu nâng cao

Các công cụ phải hỗ trợ nhiều cách khác nhau để hiển thị (trình bày) dữ liệu.

Không giới hạn số thứ nguyên và mức độ tổng hợp dữ liệu

Không nên có giới hạn về số lượng Thứ nguyên được hỗ trợ.

Quy tắc đánh giá sản phẩm phần mềm lớp OLAP

Tập hợp các yêu cầu này, đóng vai trò là định nghĩa thực tế của OLAP, phải được coi là hướng dẫn và các sản phẩm cụ thể phải được đánh giá theo mức độ chúng tiến gần đến việc đáp ứng hoàn hảo mọi yêu cầu.

Định nghĩa của Codd sau đó đã được sửa đổi thành cái gọi là thử nghiệm FASMI, yêu cầu ứng dụng OLAP cung cấp khả năng phân tích nhanh chóng thông tin đa chiều được chia sẻ.

Việc ghi nhớ 12 quy tắc của Codd là quá nặng nề đối với hầu hết mọi người. Hóa ra chúng ta có thể tóm tắt định nghĩa OLAP chỉ với năm từ khóa: Phân tích nhanh thông tin đa chiều được chia sẻ - hay gọi tắt là FASMI (dịch từ tiếng Anh:F ast MỘT phân tích S thỏ rừng M siêu chiều TÔI thông tin).

Định nghĩa này được đưa ra lần đầu tiên vào đầu năm 1995 và kể từ đó không cần phải sửa đổi nữa.

NHANH ( Nhanh ) - có nghĩa là hệ thống sẽ có thể cung cấp hầu hết phản hồi cho người dùng trong vòng khoảng năm giây. Đồng thời, các yêu cầu đơn giản nhất được xử lý trong vòng một giây và rất ít - hơn 20 giây. Nghiên cứu đã chỉ ra rằng người dùng cuối coi một quy trình là không thành công nếu không nhận được kết quả sau 30 giây.

Thoạt nhìn, có vẻ đáng ngạc nhiên khi nhận được một báo cáo trong một phút mà cách đây không lâu phải mất nhiều ngày, người dùng rất nhanh chóng cảm thấy nhàm chán trong khi chờ đợi và dự án trở nên kém thành công hơn nhiều so với trường hợp ngay lập tức. phản hồi, thậm chí phải trả giá bằng việc phân tích ít chi tiết hơn.

PHÂN TÍCHcó nghĩa là hệ thống có thể xử lý mọi phân tích logic và thống kê cụ thể cho một ứng dụng nhất định và đảm bảo rằng nó được lưu trữ ở dạng mà người dùng cuối có thể truy cập được.

Việc phân tích được thực hiện bằng công cụ riêng của nhà cung cấp hay bằng sản phẩm phần mềm bên ngoài có liên quan như bảng tính không quá quan trọng, chỉ là tất cả chức năng phân tích cần thiết phải được cung cấp theo cách trực quan cho người dùng cuối. Các công cụ phân tích có thể bao gồm các quy trình nhất định, chẳng hạn như phân tích chuỗi thời gian, phân bổ chi phí, chuyển tiền, tìm kiếm mục tiêu, sửa đổi cấu trúc đa chiều, mô hình phi thủ tục, phát hiện ngoại lệ, trích xuất dữ liệu và các hoạt động phụ thuộc vào ứng dụng khác. Những khả năng như vậy rất khác nhau giữa các sản phẩm, tùy thuộc vào định hướng mục tiêu.

ĐÃ CHIA SẺ có nghĩa là hệ thống thực hiện tất cả các yêu cầu bảo vệ quyền riêng tư (có thể ở cấp độ tế bào) và, nếu cần có quyền truy cập ghi nhiều lần, hãy đảm bảo rằng các sửa đổi bị chặn ở cấp độ thích hợp. Không phải tất cả các ứng dụng đều yêu cầu ghi lại dữ liệu. Tuy nhiên, số lượng các ứng dụng như vậy đang tăng lên và hệ thống phải có khả năng xử lý nhiều sửa đổi một cách kịp thời và an toàn.

ĐA CHIỀU (Đa chiều) - đây là một yêu cầu quan trọng. Nếu bạn phải định nghĩa OLAP bằng một từ, bạn sẽ chọn nó. Hệ thống phải cung cấp cái nhìn khái niệm đa chiều về dữ liệu, bao gồm hỗ trợ đầy đủ cho các hệ thống phân cấp và nhiều hệ thống phân cấp, vì đây rõ ràng là cách hợp lý nhất để phân tích các doanh nghiệp và tổ chức. Không có số lượng kích thước tối thiểu phải được xử lý vì điều này cũng phụ thuộc vào ứng dụng và hầu hết các sản phẩm OLAP đều có đủ số lượng kích thước cho thị trường mà chúng nhắm mục tiêu.

THÔNG TIN - đây là tất cả. Thông tin cần thiết phải được lấy ở nơi cần thiết. Tuy nhiên, rất nhiều phụ thuộc vào ứng dụng. Sức mạnh của các sản phẩm khác nhau được đo lường ở lượng dữ liệu đầu vào mà chúng có thể xử lý chứ không phải ở chỗ chúng có thể lưu trữ bao nhiêu gigabyte. Sức mạnh của các sản phẩm rất khác nhau - các sản phẩm OLAP lớn nhất có thể xử lý dữ liệu nhiều hơn ít nhất một nghìn lần so với sản phẩm nhỏ nhất. Có nhiều yếu tố cần xem xét về vấn đề này, bao gồm sao chép dữ liệu, yêu cầu RAM, mức sử dụng dung lượng ổ đĩa, số liệu hiệu suất, tích hợp với kho lưu trữ thông tin, v.v.

Bài kiểm tra FASMI là một định nghĩa hợp lý và dễ hiểu về các mục tiêu mà OLAP hướng tới.

4. Phân loạiOLAP-các sản phẩm.

Vì vậy, bản chất của OLAP nằm ở chỗ thông tin ban đầu để phân tích được trình bày dưới dạng khối đa chiều, có thể tùy ý thao tác và lấy được các phần thông tin cần thiết - báo cáo. Trong trường hợp này, người dùng cuối xem khối như một bảng động đa chiều tự động tóm tắt dữ liệu (sự kiện) trong các phần (kích thước) khác nhau và cho phép quản lý tương tác các phép tính và biểu mẫu báo cáo. Việc thực hiện các hoạt động này được đảm bảo OLAP -xe hơi (hoặc xe hơi tính toán OLAP).

Ngày nay, trên thế giới đã có nhiều sản phẩm được phát triển để bán OLAP -công nghệ. Để dễ dàng điều hướng giữa chúng, việc phân loại được sử dụng OLAP -sản phẩm: theo phương pháp lưu trữ dữ liệu để phân tích và theo vị trí OLAP -ô tô. Chúng ta hãy xem xét kỹ hơn về từng loại Sản phẩm OLAP

Phân loại theo phương pháp lưu trữ dữ liệu

Các khối đa chiều được xây dựng dựa trên dữ liệu nguồn và tổng hợp. Cả dữ liệu nguồn và dữ liệu tổng hợp cho các hình khối đều có thể được lưu trữ trong cả cơ sở dữ liệu quan hệ và cơ sở dữ liệu đa chiều. Vì vậy, ba phương pháp lưu trữ dữ liệu hiện đang được sử dụng: MOLAP (OLAP đa chiều), ROLAP (OLAP quan hệ) và HOLAP (OLAP lai) ). Tương ứng, OLAP -Sản phẩm theo phương pháp lưu trữ dữ liệu được chia thành ba loại tương tự:

1. Trong trường hợp MOLAP , dữ liệu nguồn và tổng hợp được lưu trữ trong cơ sở dữ liệu đa chiều hoặc trong khối cục bộ đa chiều.

2. Trong ROLAP -dữ liệu nguồn của sản phẩm được lưu trữ trong cơ sở dữ liệu quan hệ hoặc trong các bảng cục bộ phẳng trên máy chủ tệp. Dữ liệu tổng hợp có thể được đặt trong các bảng dịch vụ trong cùng một cơ sở dữ liệu. Chuyển đổi dữ liệu từ cơ sở dữ liệu quan hệ thành các khối đa chiều xảy ra theo yêu cầu công cụ OLAP.

3. Trường hợp sử dụng HOLAP kiến trúc, dữ liệu gốc vẫn còn trong cơ sở dữ liệu quan hệ và các tập hợp được đặt trong cơ sở dữ liệu đa chiều. Sự thi công OLAP -cube thực hiện theo yêu cầu OLAP - các công cụ dựa trên dữ liệu quan hệ và đa chiều.

Phân loại theo vị trí OLAP-ô tô.

Trên cơ sở này OLAP -Sản phẩm được chia thành Máy chủ OLAP và máy khách OLAP:

· Trong máy chủ OLAP - phương tiện tính toán và lưu trữ dữ liệu tổng hợp được thực hiện bằng một quy trình riêng - máy chủ. Ứng dụng khách chỉ nhận được kết quả truy vấn đối với các khối đa chiều được lưu trữ trên máy chủ. Một số OLAP -máy chủ chỉ hỗ trợ lưu trữ dữ liệu trong cơ sở dữ liệu quan hệ, một số chỉ trong cơ sở dữ liệu đa chiều. Nhiều hiện đại OLAP -máy chủ hỗ trợ cả ba phương thức lưu trữ dữ liệu:MOLAP, ROLAP và HOLAP.

MOLAP.

MOLAP là Xử lý phân tích trực tuyến đa chiều, tức là OLAP đa chiều.Điều này có nghĩa là máy chủ sử dụng cơ sở dữ liệu đa chiều (MDB) để lưu trữ dữ liệu. Ý nghĩa của việc sử dụng MBD là hiển nhiên. Nó có thể lưu trữ hiệu quả dữ liệu có tính chất đa chiều, cung cấp phương tiện phục vụ nhanh chóng các truy vấn cơ sở dữ liệu. Dữ liệu được chuyển từ nguồn dữ liệu sang cơ sở dữ liệu đa chiều và cơ sở dữ liệu sau đó được tổng hợp. Tính toán trước giúp tăng tốc các truy vấn OLAP vì dữ liệu tóm tắt đã được tính toán. Thời gian truy vấn chỉ trở thành một hàm của thời gian cần thiết để truy cập một phần dữ liệu và thực hiện phép tính. Phương pháp này hỗ trợ khái niệm rằng công việc được thực hiện một lần và kết quả sau đó được sử dụng đi sử dụng lại. Cơ sở dữ liệu đa chiều là một công nghệ tương đối mới. Việc sử dụng MBD cũng có những nhược điểm giống như hầu hết các công nghệ mới. Cụ thể, chúng không ổn định như cơ sở dữ liệu quan hệ (RDB) và không được tối ưu hóa ở mức độ tương tự. Một điểm yếu khác của MDB là không có khả năng sử dụng hầu hết các cơ sở dữ liệu đa chiều trong quá trình tổng hợp dữ liệu, do đó cần có thời gian để có thông tin mới để phân tích.

ROLAP.

ROLAP là Xử lý phân tích trực tuyến quan hệ,đó là OLAP quan hệ.Thuật ngữ ROLAP có nghĩa là máy chủ OLAP dựa trên cơ sở dữ liệu quan hệ. Dữ liệu nguồn được nhập vào cơ sở dữ liệu quan hệ, thường ở dạng lược đồ ngôi sao hoặc bông tuyết, giúp giảm thời gian truy xuất. Máy chủ cung cấp mô hình dữ liệu đa chiều sử dụng các truy vấn SQL được tối ưu hóa.

Có một số lý do để chọn cơ sở dữ liệu quan hệ thay vì cơ sở dữ liệu đa chiều. RDB là một công nghệ có uy tín với nhiều cơ hội tối ưu hóa. Việc sử dụng trong thế giới thực đã tạo ra một sản phẩm tinh tế hơn. Ngoài ra, RDB hỗ trợ khối lượng dữ liệu lớn hơn MDB. Chúng được thiết kế chính xác cho khối lượng như vậy. Lập luận chính chống lại RDB là sự phức tạp của các truy vấn cần thiết để lấy thông tin từ cơ sở dữ liệu lớn bằng SQL. Một lập trình viên SQL thiếu kinh nghiệm có thể dễ dàng tạo gánh nặng cho các tài nguyên hệ thống có giá trị bằng cách cố gắng thực hiện một số truy vấn tương tự, việc thực thi này dễ dàng hơn nhiều trong MDB.

Dữ liệu tổng hợp/tổng ​​hợp trước.

Triển khai truy vấn nhanh là điều bắt buộc đối với OLAP. Đây là một trong những nguyên tắc cơ bản của OLAP - khả năng thao tác dữ liệu một cách trực quan đòi hỏi việc truy xuất thông tin nhanh chóng. Nói chung, càng phải thực hiện nhiều phép tính để có được một thông tin thì phản hồi càng chậm. Do đó, để rút ngắn thời gian thực hiện truy vấn, các phần thông tin thường được truy cập thường xuyên nhất nhưng cũng cần tính toán sẽ được tổng hợp sơ bộ. Tức là chúng được đếm và sau đó được lưu trữ trong cơ sở dữ liệu dưới dạng dữ liệu mới. Một ví dụ về loại dữ liệu có thể được tính toán trước là dữ liệu tóm tắt - ví dụ: số liệu bán hàng trong tháng, quý hoặc năm mà dữ liệu thực tế được nhập là số liệu hàng ngày.

Các nhà cung cấp khác nhau có các phương pháp khác nhau để chọn tham số, yêu cầu tổng hợp trước và số lượng giá trị được tính toán trước. Cách tiếp cận tổng hợp ảnh hưởng đến cả cơ sở dữ liệu và thời gian thực hiện truy vấn. Nếu nhiều giá trị đang được tính toán, khả năng người dùng sẽ yêu cầu một giá trị đã được tính toán sẽ tăng lên và do đó thời gian phản hồi sẽ giảm do không phải yêu cầu tính toán giá trị ban đầu. Tuy nhiên, nếu bạn tính toán tất cả các giá trị có thể - đây không phải là giải pháp tốt nhất - trong trường hợp này kích thước của cơ sở dữ liệu tăng lên đáng kể, điều này sẽ khiến nó không thể quản lý được và thời gian tổng hợp sẽ quá dài. Ngoài ra, khi các giá trị số được thêm vào cơ sở dữ liệu hoặc nếu chúng thay đổi, thông tin này phải được phản ánh trong các giá trị được tính toán trước phụ thuộc vào dữ liệu mới. Do đó, việc cập nhật cơ sở dữ liệu cũng có thể mất nhiều thời gian trong trường hợp có số lượng lớn các giá trị được tính toán trước. Vì cơ sở dữ liệu thường chạy ngoại tuyến trong quá trình tổng hợp nên thời gian tổng hợp không quá dài.

OLAP - khách hàng có cấu trúc khác nhau. Xây dựng khối đa chiều và OLAP -các phép tính được thực hiện trong bộ nhớ của máy khách.OLAP -Khách hàng cũng được chia thành ROLAP và MOLAP.Và một số có thể hỗ trợ cả hai tùy chọn truy cập dữ liệu.

Mỗi cách tiếp cận này đều có ưu và nhược điểm riêng. Ngược lại với niềm tin phổ biến về lợi ích của các công cụ máy chủ so với các công cụ máy khách, trong một số trường hợp việc sử dụng OLAP - khách hàng có thể sử dụng hiệu quả hơn và có lợi hơn cho người dùng máy chủ OLAP.

Việc phát triển các ứng dụng phân tích bằng công cụ OLAP của khách hàng là một quá trình nhanh chóng và không cần đào tạo đặc biệt. Người dùng biết cách triển khai vật lý của cơ sở dữ liệu có thể phát triển ứng dụng phân tích một cách độc lập mà không cần sự tham gia của chuyên gia CNTT.

Khi sử dụng máy chủ OLAP, bạn cần tìm hiểu 2 hệ thống khác nhau, đôi khi từ các nhà cung cấp khác nhau - để tạo các khối trên máy chủ và phát triển ứng dụng khách.

Máy khách OLAP cung cấp một giao diện trực quan duy nhất để mô tả các hình khối và thiết lập giao diện người dùng cho chúng.

Vậy, trong trường hợp nào việc sử dụng máy khách OLAP có thể hiệu quả và mang lại lợi nhuận cao hơn cho người dùng so với việc sử dụng máy chủ OLAP?

· Tính khả thi về mặt kinh tế của ứng dụng OLAP -máy chủ xảy ra khi khối lượng dữ liệu rất lớn và quá tải đối với OLAP -client, nếu không thì việc sử dụng cái sau sẽ hợp lý hơn. Trong trường hợp này OLAP -Khách hàng kết hợp các đặc tính hiệu suất cao và chi phí thấp.

· PC mạnh mẽ dành cho các nhà phân tích – một lập luận khác có lợi OLAP -khách hàng. Khi đang sử dụng OLAP -máy chủ không sử dụng khả năng này.

Một trong những ưu điểm của ứng dụng khách OLAP là:

· Chi phí triển khai và bảo trì OLAP - khách hàng thấp hơn đáng kể so với chi phí dành cho máy chủ OLAP.

· sử dụng OLAP - đối với máy khách có máy tích hợp, việc truyền dữ liệu qua mạng được thực hiện một lần. Bằng cách làm OLAP -hoạt động của luồng dữ liệu mới không được tạo ra.

5. Nguyên tắc hoạt động OLAP-khách hàng.

Chúng ta hãy xem quá trình tạo một ứng dụng OLAP bằng công cụ máy khách (Hình 1).

Bức tranh 1.Tạo ứng dụng OLAP bằng công cụ máy khách ROLAP

Nguyên tắc hoạt động của máy khách ROLAP là mô tả sơ bộ về lớp ngữ nghĩa, đằng sau đó cấu trúc vật lý của dữ liệu nguồn được ẩn đi. Trong trường hợp này, nguồn dữ liệu có thể là: bảng cục bộ, RDBMS. Danh sách các nguồn dữ liệu được hỗ trợ được xác định bởi sản phẩm phần mềm cụ thể. Sau này, người dùng có thể thao tác độc lập các đối tượng mà mình hiểu về lĩnh vực chủ đề để tạo các hình khối và giao diện phân tích.

Nguyên lý hoạt động của máy khách máy chủ OLAP là khác nhau. Trong máy chủ OLAP, khi tạo các khối, người dùng thao tác các mô tả vật lý của cơ sở dữ liệu. Đồng thời, các mô tả tùy chỉnh cũng được tạo trong chính khối đó. Máy khách máy chủ OLAP chỉ được cấu hình cho khối.

Khi tạo lớp ngữ nghĩa, nguồn dữ liệu - bảng Bán hàng và Giao dịch - được mô tả theo thuật ngữ mà người dùng cuối có thể hiểu và chuyển thành “Sản phẩm” và “Giao dịch”. Trường “ID” trong bảng “Sản phẩm” được đổi tên thành “Mã” và “Tên” thành “Sản phẩm”, v.v.

Sau đó, đối tượng kinh doanh Bán hàng được tạo. Đối tượng kinh doanh là một chiếc bàn phẳng, trên cơ sở đó hình thành một khối lập phương đa chiều. Khi tạo một đối tượng kinh doanh, các bảng “Sản phẩm” và “Giao dịch” được hợp nhất bởi trường “Mã” của sản phẩm. Vì tất cả các trường của bảng không bắt buộc phải hiển thị trong báo cáo nên đối tượng kinh doanh chỉ sử dụng các trường “Mục”, “Ngày” và “Số tiền”.

Trong ví dụ của chúng tôi, dựa trên đối tượng kinh doanh “Bán hàng”, một báo cáo về doanh số bán sản phẩm theo tháng đã được tạo.

Khi làm việc với một báo cáo tương tác, người dùng có thể đặt các điều kiện lọc và nhóm bằng các chuyển động chuột đơn giản tương tự. Tại thời điểm này, máy khách ROLAP truy cập dữ liệu trong bộ đệm. Máy khách máy chủ OLAP tạo một truy vấn mới tới cơ sở dữ liệu đa chiều. Ví dụ: bằng cách áp dụng bộ lọc theo sản phẩm trong báo cáo bán hàng, bạn có thể nhận được báo cáo về doanh số bán các sản phẩm mà chúng tôi quan tâm.

Tất cả cài đặt ứng dụng OLAP có thể được lưu trữ trong kho siêu dữ liệu chuyên dụng, trong ứng dụng hoặc trong kho lưu trữ hệ thống cơ sở dữ liệu đa chiều.Việc triển khai phụ thuộc vào sản phẩm phần mềm cụ thể.

Mọi thứ có trong các ứng dụng này đều là giao diện tiêu chuẩn, các chức năng và cấu trúc được xác định trước cũng như các giải pháp nhanh chóng cho các tình huống ít nhiều tiêu chuẩn. Ví dụ, các gói tài chính rất phổ biến. Các ứng dụng tài chính được xây dựng sẵn cho phép các chuyên gia sử dụng các công cụ tài chính quen thuộc mà không cần phải thiết kế cấu trúc cơ sở dữ liệu hoặc các biểu mẫu và báo cáo thông thường.

Internet là một dạng khách hàng mới. Ngoài ra, nó còn mang dấu ấn của công nghệ mới; một loạt Giải pháp Internet khác nhau đáng kể về khả năng nói chung và giải pháp OLAP nói riêng. Có nhiều lợi ích khi tạo báo cáo OLAP qua Internet. Đáng kể nhất là thiếu nhu cầu về phần mềm chuyên dụng để truy cập thông tin. Điều này giúp công ty tiết kiệm rất nhiều thời gian và tiền bạc.

6. Chọn kiến ​​trúc ứng dụng OLAP.

Khi triển khai một hệ thống thông tin và phân tích, điều quan trọng là không được phạm sai lầm khi chọn kiến ​​trúc của ứng dụng OLAP. Bản dịch theo nghĩa đen của thuật ngữ Quy trình phân tích trực tuyến - “xử lý phân tích trực tuyến” - thường được hiểu theo nghĩa đen là dữ liệu vào hệ thống sẽ được phân tích nhanh chóng. Đây là một quan niệm sai lầm - hiệu quả phân tích không hề liên quan đến thời gian cập nhật dữ liệu thực tế trong hệ thống. Đặc tính này đề cập đến thời gian phản hồi của hệ thống OLAP đối với yêu cầu của người dùng. Đồng thời, dữ liệu được phân tích thường thể hiện ảnh chụp nhanh thông tin “tính đến ngày hôm qua”, chẳng hạn như nếu dữ liệu trong kho được cập nhật mỗi ngày một lần.

Trong bối cảnh này, việc dịch OLAP là “xử lý phân tích tương tác” sẽ chính xác hơn. Khả năng phân tích dữ liệu ở chế độ tương tác giúp phân biệt hệ thống OLAP với hệ thống chuẩn bị báo cáo theo quy định.

Một tính năng khác của xử lý tương tác trong công thức của người sáng lập OLAP E. Codd là khả năng “kết hợp, xem và phân tích dữ liệu từ quan điểm của nhiều chiều, tức là theo cách dễ hiểu nhất đối với các nhà phân tích doanh nghiệp”. Bản thân Codd sử dụng thuật ngữ OLAP để chỉ riêng một cách trình bày dữ liệu cụ thể ở cấp độ khái niệm - đa chiều. Ở cấp độ vật lý, dữ liệu có thể được lưu trữ trong cơ sở dữ liệu quan hệ, nhưng trên thực tế, các công cụ OLAP thường hoạt động với cơ sở dữ liệu đa chiều trong đó dữ liệu được tổ chức dưới dạng siêu khối (Hình 1).

Bức tranh 1. OLAP– khối lập phương (hypercube, metacube)

Hơn nữa, mức độ liên quan của dữ liệu này được xác định vào thời điểm siêu khối chứa đầy dữ liệu mới.

Rõ ràng, thời gian cần thiết để tạo một cơ sở dữ liệu đa chiều phụ thuộc đáng kể vào khối lượng dữ liệu được tải vào đó, vì vậy việc giới hạn khối lượng này là hợp lý. Nhưng làm thế nào người ta có thể tránh việc thu hẹp khả năng phân tích và tước đi quyền truy cập của người dùng vào tất cả thông tin quan tâm? Có hai đường dẫn thay thế: Phân tích rồi truy vấn và Truy vấn rồi phân tích.

Những người theo con đường đầu tiên đề xuất tải thông tin tổng quát vào cơ sở dữ liệu đa chiều, ví dụ: kết quả hàng tháng, hàng quý và hàng năm cho các phòng ban. Và nếu cần chi tiết hóa dữ liệu, người dùng sẽ được yêu cầu tạo báo cáo bằng cơ sở dữ liệu quan hệ chứa lựa chọn được yêu cầu, ví dụ: theo ngày cho một bộ phận nhất định hoặc theo tháng và nhân viên của bộ phận đã chọn.

Ngược lại, những người ủng hộ con đường thứ hai đề nghị người dùng trước hết phải quyết định dữ liệu mà mình sẽ phân tích và tải nó vào một vi khối - một cơ sở dữ liệu đa chiều nhỏ. Cả hai cách tiếp cận đều khác nhau ở cấp độ khái niệm và có những ưu điểm và nhược điểm riêng.

Ưu điểm của cách tiếp cận thứ hai bao gồm tính “mới mẻ” của thông tin mà người dùng nhận được dưới dạng báo cáo đa chiều - một “khối vi mô”. Microcube được hình thành dựa trên thông tin vừa được yêu cầu từ cơ sở dữ liệu quan hệ hiện tại. Làm việc với microcube được thực hiện ở chế độ tương tác - việc thu thập các lát thông tin và chi tiết của nó trong microcube được thực hiện ngay lập tức. Một điểm tích cực khác là việc thiết kế cấu trúc và lấp đầy vi khối được người dùng thực hiện một cách nhanh chóng mà không cần sự tham gia của người quản trị cơ sở dữ liệu. Tuy nhiên, phương pháp này cũng mắc phải những thiếu sót nghiêm trọng. Người dùng không nhìn thấy bức tranh toàn cảnh và phải quyết định trước hướng nghiên cứu của mình. Nếu không, vi mô được yêu cầu có thể quá nhỏ và không chứa tất cả dữ liệu quan tâm và người dùng sẽ phải yêu cầu một vi mô mới, sau đó là một vi mô mới, rồi một vi mô khác. Sau đó, phương pháp phân tích Truy vấn triển khai công cụ BusinessObjects của công ty cùng tên và các công cụ trên nền tảng Contour của công tyIntersoft Phòng thí nghiệm.

Với cách tiếp cận Phân tích rồi truy vấn, khối lượng dữ liệu nạp vào cơ sở dữ liệu đa chiều có thể khá lớn, việc điền dữ liệu phải thực hiện theo quy định và có thể mất khá nhiều thời gian. Tuy nhiên, tất cả những nhược điểm này sẽ được đền đáp sau này khi người dùng có quyền truy cập vào hầu hết tất cả dữ liệu cần thiết theo bất kỳ sự kết hợp nào. Việc truy cập vào dữ liệu nguồn trong cơ sở dữ liệu quan hệ chỉ được thực hiện như là phương sách cuối cùng khi cần thông tin chi tiết, chẳng hạn như về một hóa đơn cụ thể.

Hoạt động của một cơ sở dữ liệu đa chiều thực tế không bị ảnh hưởng bởi số lượng người dùng truy cập nó. Họ chỉ đọc dữ liệu có sẵn ở đó, không giống như phương pháp Truy vấn rồi phân tích, trong đó số lượng vi mô trong trường hợp cực đoan có thể tăng với tốc độ tương đương với số lượng người dùng.

Cách tiếp cận này làm tăng tải cho các dịch vụ CNTT, ngoài các dịch vụ quan hệ, còn buộc phải duy trì cơ sở dữ liệu đa chiều.Chính các dịch vụ này có nhiệm vụ cập nhật dữ liệu tự động kịp thời trong cơ sở dữ liệu đa chiều.

Đại diện nổi bật nhất của phương pháp “Phân tích rồi truy vấn” là các công cụ PowerPlay và Impromptu của Cognos.

Việc lựa chọn cả cách tiếp cận lẫn công cụ thực hiện nó phụ thuộc chủ yếu vào mục tiêu đang theo đuổi: bạn luôn phải cân bằng giữa việc tiết kiệm ngân sách và nâng cao chất lượng dịch vụ cho người dùng cuối. Cần lưu ý rằng, trong kế hoạch chiến lược, việc tạo ra hệ thống thông tin và phân tích nhằm mục đích đạt được lợi thế cạnh tranh và không tránh được chi phí tự động hóa. Ví dụ, hệ thống phân tích và thông tin doanh nghiệp có thể cung cấp thông tin cần thiết, kịp thời và đáng tin cậy về một công ty, việc công bố thông tin này cho các nhà đầu tư tiềm năng sẽ đảm bảo tính minh bạch và khả năng dự đoán của công ty, điều này chắc chắn sẽ trở thành điều kiện để thu hút đầu tư.

7. Lĩnh vực ứng dụng công nghệ OLAP.

OLAP có thể áp dụng ở bất cứ nơi nào có nhiệm vụ phân tích dữ liệu đa biến. Nói chung, với một bảng dữ liệu có ít nhất một cột mô tả (thứ nguyên) và một cột số (số đo hoặc sự kiện), công cụ OLAP thường sẽ là công cụ phân tích và báo cáo hiệu quả.

Hãy cùng xem xét một số lĩnh vực ứng dụng công nghệ OLAP được lấy từ thực tế cuộc sống.

1. Bán hàng.

Trên cơ sở phân tích cơ cấu bán hàng, các vấn đề cần thiết để đưa ra quyết định quản lý được giải quyết: thay đổi chủng loại hàng hóa, giá cả, đóng mở cửa hàng, chi nhánh, chấm dứt và ký hợp đồng với đại lý, thực hiện hoặc chấm dứt các chiến dịch quảng cáo, v.v.

2. Mua sắm.

Nhiệm vụ này trái ngược với phân tích doanh số bán hàng. Nhiều doanh nghiệp mua linh kiện, nguyên liệu từ nhà cung cấp. Doanh nghiệp thương mại mua hàng về bán lại. Có nhiều nhiệm vụ có thể thực hiện được khi phân tích hoạt động mua sắm, từ lập kế hoạch nguồn vốn dựa trên kinh nghiệm trong quá khứ cho đến kiểm soát các nhà quản lý, lựa chọn nhà cung cấp.

3. Giá cả.

Việc phân tích giá thị trường có liên quan chặt chẽ đến việc phân tích việc mua hàng. Mục đích của việc phân tích này là để tối ưu hóa chi phí và chọn ra những ưu đãi có lợi nhất.

4. Tiếp thị.

Khi phân tích tiếp thị, chúng tôi chỉ muốn nói đến lĩnh vực phân tích người mua hoặc khách hàng-người tiêu dùng dịch vụ. Mục đích của phân tích này là định vị chính xác sản phẩm, xác định nhóm người mua cho quảng cáo được nhắm mục tiêu và tối ưu hóa việc phân loại. Nhiệm vụ của OLAP trong trường hợp này là cung cấp cho người dùng một công cụ để nhanh chóng có được câu trả lời cho các câu hỏi nảy sinh một cách trực quan trong quá trình phân tích dữ liệu với tốc độ suy nghĩ.

5. Kho.

Có thể phân tích cơ cấu cân đối kho theo loại hàng, kho, phân tích thời hạn sử dụng của hàng hóa, phân tích lô hàng theo người nhận và nhiều loại phân tích khác quan trọng đối với doanh nghiệp nếu tổ chức có kế toán kho.

6. Dòng tiền.

Đây là một lĩnh vực phân tích có nhiều trường phái và phương pháp. Công nghệ OLAP có thể đóng vai trò là công cụ để triển khai hoặc cải tiến các kỹ thuật này nhưng không thể thay thế chúng. Vòng quay tiền mặt của các quỹ không dùng tiền mặt và tiền mặt được phân tích theo hoạt động kinh doanh, đối tác, tiền tệ và thời gian nhằm tối ưu hóa dòng chảy, đảm bảo tính thanh khoản… Thành phần của các phép đo phụ thuộc nhiều vào đặc điểm của doanh nghiệp, ngành và phương pháp luận.

7. Ngân sách.

Một trong những lĩnh vực ứng dụng công nghệ OLAP màu mỡ nhất. Không phải vô cớ mà không có hệ thống lập ngân sách hiện đại nào được coi là hoàn chỉnh nếu không có sự hiện diện của các công cụ OLAP để phân tích ngân sách. Hầu hết các báo cáo ngân sách đều được xây dựng dễ dàng trên cơ sở hệ thống OLAP. Đồng thời, các báo cáo trả lời rất nhiều câu hỏi: phân tích cơ cấu chi phí và thu nhập, so sánh chi phí cho một số khoản mục ở các bộ phận khác nhau, phân tích động thái và xu hướng chi phí cho một số khoản mục, phân tích chi phí và lợi nhuận.

8. Tài khoản.

Bảng cân đối kế toán cổ điển bao gồm số tài khoản và số dư đến, doanh thu và số dư đi có thể được phân tích hoàn hảo trong hệ thống OLAP. Ngoài ra, hệ thống OLAP có thể tự động và rất nhanh chóng tính toán số dư tổng hợp của một tổ chức đa chi nhánh, số dư tháng, quý và năm, số dư tổng hợp theo hệ thống tài khoản và số dư phân tích dựa trên đặc điểm phân tích.

9. Báo cáo tài chính.

Hệ thống báo cáo được xây dựng theo công nghệ không gì khác hơn là một tập hợp các chỉ báo được đặt tên với các giá trị ngày tháng cần được nhóm và tóm tắt thành nhiều phần khác nhau để có được báo cáo cụ thể. Trong trường hợp này, việc hiển thị và in báo cáo sẽ được triển khai dễ dàng và ít tốn kém nhất trong hệ thống OLAP. Trong mọi trường hợp, hệ thống báo cáo nội bộ của doanh nghiệp không quá thận trọng và có thể được cơ cấu lại để tiết kiệm tiền cho công việc kỹ thuật tạo báo cáo và có được khả năng phân tích hoạt động đa chiều.

10. Lưu lượng truy cập trang web.

Tệp nhật ký máy chủ Internet có bản chất đa chiều, có nghĩa là nó phù hợp để phân tích OLAP. Sự thật là: số lượt truy cập, số lần truy cập, thời gian dành cho trang và các thông tin khác có sẵn trong nhật ký.

11. Khối lượng sản xuất.

Đây là một ví dụ khác về phân tích thống kê. Vì vậy, có thể phân tích khối lượng khoai tây được trồng, luyện thép và hàng hóa được sản xuất.

12. Tiêu hao vật tư tiêu hao.

Hãy tưởng tượng một nhà máy bao gồm hàng chục xưởng tiêu thụ chất làm mát, chất lỏng xả, dầu, giẻ lau, giấy nhám - hàng trăm loại vật tư tiêu hao. Để lập kế hoạch chính xác và tối ưu hóa chi phí, cần phải phân tích kỹ lưỡng mức tiêu thụ thực tế của vật tư tiêu hao.

13. Sử dụng mặt bằng.

Một loại phân tích thống kê khác. Ví dụ: phân tích khối lượng công việc của các lớp học, tòa nhà và mặt bằng thuê, việc sử dụng phòng hội nghị, v.v.

14. Luân chuyển nhân sự tại doanh nghiệp.

Phân tích tình hình luân chuyển nhân sự tại doanh nghiệp theo ngành, bộ phận, ngành nghề, trình độ học vấn, giới tính, độ tuổi, thời gian.

15. Vận tải hành khách.

Phân tích số lượng vé bán ra và số lượng theo mùa, hướng đi, loại toa (hạng), loại tàu (máy bay).

Danh sách này không giới hạn ở các lĩnh vực ứng dụng OLAP - công nghệ. Ví dụ, hãy xem xét công nghệ OLAP - Phân tích trong lĩnh vực bán hàng.

8. Ví dụ sử dụng OLAP - Công nghệ phân tích trong lĩnh vực bán hàng.

Thiết kế biểu diễn dữ liệu đa chiều cho OLAP -phân tích bắt đầu bằng việc hình thành bản đồ đo lường. Ví dụ: khi phân tích doanh số bán hàng, có thể nên xác định các bộ phận riêng lẻ của thị trường (đang phát triển, ổn định, người tiêu dùng lớn và nhỏ, khả năng người tiêu dùng mới, v.v.) và ước tính khối lượng bán hàng theo sản phẩm, lãnh thổ, khách hàng, phân khúc thị trường , kênh bán hàng và quy mô đơn hàng. Các hướng này tạo thành lưới tọa độ thể hiện doanh số bán hàng đa chiều - cấu trúc các chiều của nó.

Vì hoạt động của bất kỳ doanh nghiệp nào diễn ra theo thời gian nên câu hỏi đầu tiên nảy sinh trong quá trình phân tích là câu hỏi về động lực phát triển kinh doanh. Việc tổ chức chính xác trục thời gian sẽ cho phép chúng ta trả lời câu hỏi này một cách định tính. Thông thường, trục thời gian được chia thành năm, quý và tháng. Thậm chí có thể phân mảnh lớn hơn thành tuần và ngày. Cấu trúc của chiều thời gian được hình thành có tính đến tần suất nhận dữ liệu; cũng có thể được xác định bởi tần suất của nhu cầu thông tin.

Thứ nguyên Nhóm sản phẩm được thiết kế để phản ánh chính xác nhất có thể cấu trúc của sản phẩm được bán. Đồng thời, điều quan trọng là phải duy trì sự cân bằng nhất định để một mặt tránh quá chi tiết (số lượng nhóm phải hiển thị), mặt khác không bỏ lỡ một phân khúc đáng kể của thị trường.

Khía cạnh “Khách hàng” phản ánh cơ cấu bán hàng theo cơ sở lãnh thổ và địa lý. Mỗi chiều có thể có hệ thống phân cấp riêng, ví dụ, ở chiều này có thể là cấu trúc: Quốc gia – Khu vực – Thành phố – Khách hàng.

Để phân tích hiệu quả hoạt động của các phòng ban, bạn nên tự tạo thước đo cho riêng mình. Ví dụ: chúng ta có thể phân biệt hai cấp độ phân cấp: các phòng ban và các bộ phận có trong chúng, điều này sẽ được phản ánh trong thứ nguyên “Bộ phận”.

Trên thực tế, các chiều “Thời gian”, “Sản phẩm”, “Khách hàng” xác định khá đầy đủ không gian của lĩnh vực chủ đề.

Ngoài ra, sẽ rất hữu ích khi chia không gian này thành các khu vực có điều kiện, dựa trên các đặc điểm được tính toán, ví dụ: phạm vi khối lượng giao dịch theo giá trị. Sau đó, toàn bộ hoạt động kinh doanh có thể được chia thành một số phạm vi chi phí mà nó được thực hiện. Trong ví dụ này, chúng ta có thể giới hạn ở các chỉ số sau: số lượng hàng bán ra, số lượng hàng bán ra, số tiền thu nhập, số lượng giao dịch, số lượng khách hàng, số lượng mua hàng từ nhà sản xuất.

OLAP - khối phân tích sẽ trông như thế nào (Hình 2):


Hình 2.OLAP– khối để phân tích khối lượng bán hàng

Chính xác là mảng ba chiều này được gọi là khối lập phương theo thuật ngữ OLAP. Trên thực tế, theo quan điểm của toán học chặt chẽ, một mảng như vậy không phải lúc nào cũng là một khối: một khối thực phải có cùng số phần tử ở tất cả các chiều, nhưng các khối OLAP không có giới hạn như vậy. Khối OLAP không nhất thiết phải có ba chiều. Nó có thể vừa hai chiều vừa đa chiều, tùy thuộc vào vấn đề đang được giải quyết. Các sản phẩm OLAP nghiêm túc được thiết kế cho kích thước khoảng 20. Các ứng dụng máy tính để bàn đơn giản hơn hỗ trợ khoảng 6 kích thước.

Không phải tất cả các phần tử của khối đều phải được điền vào: nếu không có thông tin về việc bán Sản phẩm 2 cho Khách hàng 3 trong quý thứ ba thì giá trị trong ô tương ứng sẽ không được xác định.

Tuy nhiên, bản thân khối lập phương không thích hợp để phân tích. Nếu vẫn có thể hình dung hoặc mô tả đầy đủ một khối lập phương ba chiều, thì với sáu hoặc mười chín chiều tình hình còn tệ hơn nhiều. Do đó, trước khi sử dụng, các bảng hai chiều thông thường được trích xuất từ ​​khối đa chiều. Hoạt động này được gọi là "cắt" khối lập phương. Nhà phân tích có thể lấy và “cắt” các kích thước của khối lập phương theo các dấu hiệu mà anh ta quan tâm. Bằng cách này, nhà phân tích nhận được một lát khối lập phương (báo cáo) hai chiều và làm việc với nó. Cấu trúc của báo cáo được trình bày trong Hình 3.

Hình 3.Cấu trúc báo cáo phân tích

Hãy cắt khối OLAP của chúng ta và lấy báo cáo bán hàng cho quý thứ ba, nó sẽ trông như thế này (Hình 4).

Hinh 4.Báo cáo bán hàng quý 3

Bạn có thể cắt khối lập phương dọc theo trục còn lại và nhận được báo cáo về doanh số bán hàng của nhóm sản phẩm 2 trong năm (Hình 5).

Hình 5.Báo cáo doanh số hàng quý cho sản phẩm 2

Tương tự, bạn có thể phân tích mối quan hệ với khách hàng 4, cắt khối lập phương theo nhãn hiệu Khách hàng(Hình 6)

Hình 6.Báo cáo tình hình giao hàng cho khách hàng 4

Bạn có thể báo cáo chi tiết theo tháng hoặc nói về việc cung cấp hàng hóa cho một chi nhánh cụ thể của khách hàng.

Cơ sở dữ liệu doanh nghiệp của hệ thống thông tin kinh tế

3. Xử lý phân tích trực tuyến (OLAP)

Công nghệ phân tích dữ liệu đa chiều phức tạp được gọi là OLAP (Xử lý phân tích trực tuyến). OLAP là thành phần chính của kho dữ liệu. Khái niệm OLAP được Edgar Codd mô tả vào năm 1993 và có các yêu cầu sau đối với các ứng dụng phân tích đa chiều:

biểu diễn dữ liệu theo khái niệm đa chiều, bao gồm hỗ trợ đầy đủ cho các hệ thống phân cấp và nhiều hệ thống phân cấp (một yêu cầu chính của OLAP);

cung cấp cho người dùng kết quả phân tích trong thời gian có thể chấp nhận được (thường không quá 5 giây), với chi phí phân tích ít chi tiết hơn;

khả năng thực hiện bất kỳ phân tích logic và thống kê cụ thể nào cho một ứng dụng nhất định và lưu nó ở dạng mà người dùng cuối có thể truy cập được;

nhiều người dùng truy cập vào dữ liệu với sự hỗ trợ cho các cơ chế khóa thích hợp và phương tiện truy cập được ủy quyền;

khả năng truy cập bất kỳ thông tin cần thiết nào, bất kể khối lượng của nó.

Một hệ thống OLAP bao gồm nhiều thành phần. Ở mức độ trình bày cao nhất, hệ thống bao gồm nguồn dữ liệu, cơ sở dữ liệu đa chiều (MDB), cung cấp khả năng triển khai cơ chế báo cáo dựa trên công nghệ OLAP, máy chủ OLAP và máy khách. Hệ thống được xây dựng theo nguyên tắc máy khách-máy chủ và cung cấp quyền truy cập từ xa và nhiều người dùng vào máy chủ MDB.

Hãy xem xét các thành phần của hệ thống OLAP.

Nguồn. Nguồn trong hệ thống OLAP là máy chủ cung cấp dữ liệu để phân tích. Tùy thuộc vào việc sử dụng sản phẩm OLAP, nguồn có thể là kho dữ liệu, cơ sở dữ liệu kế thừa chứa dữ liệu chung, một tập hợp các bảng tổng hợp dữ liệu tài chính hoặc bất kỳ sự kết hợp nào ở trên.

Kho dữ liệu. Dữ liệu nguồn được thu thập và lưu trữ trong kho được thiết kế theo nguyên tắc lưu trữ dữ liệu. Kho dữ liệu là một cơ sở dữ liệu quan hệ (RDB). Bảng dữ liệu chính (bảng thực tế) chứa các giá trị số của các chỉ số để thu thập thông tin thống kê.

Cơ sở dữ liệu đa chiều. Kho dữ liệu đóng vai trò là nhà cung cấp thông tin cho cơ sở dữ liệu đa chiều, là tập hợp các đối tượng. Các lớp chính của các đối tượng này là kích thước và số đo. Thứ nguyên bao gồm các tập hợp giá trị (tham số) mà dữ liệu được lập chỉ mục, ví dụ: thời gian, khu vực, loại tổ chức, v.v. Mỗi thứ nguyên chứa đầy các giá trị từ các bảng thứ nguyên tương ứng của kho dữ liệu. Tập hợp các phép đo xác định không gian của quá trình đang nghiên cứu. Các chỉ số đề cập đến các khối dữ liệu đa chiều (hypercube). Hypercube chứa chính dữ liệu đó cũng như tổng hợp các kích thước có trong chỉ báo. Các chỉ số là nội dung chính của MDB và được điền theo bảng thực tế. Dọc theo mỗi trục của siêu khối, dữ liệu có thể được tổ chức thành một hệ thống phân cấp thể hiện các mức độ chi tiết khác nhau. Điều này cho phép bạn tạo thứ nguyên phân cấp, thứ nguyên này sẽ được sử dụng để tổng hợp hoặc xem chi tiết cách trình bày dữ liệu trong quá trình phân tích dữ liệu tiếp theo. Một ví dụ điển hình về chiều thứ bậc là danh sách các đối tượng lãnh thổ được nhóm theo quận, vùng và quận.

Máy chủ. Phần ứng dụng của hệ thống OLAP là máy chủ OLAP. Thành phần này thực hiện tất cả công việc (tùy thuộc vào kiểu hệ thống) và lưu trữ tất cả thông tin được cung cấp quyền truy cập tích cực. Kiến trúc máy chủ bị chi phối bởi nhiều khái niệm khác nhau. Đặc biệt, đặc điểm chức năng chính của sản phẩm OLAP là sử dụng MDB hoặc RDB để lưu trữ dữ liệu.

Ứng dụng khách hàng. Dữ liệu có cấu trúc phù hợp và được lưu trữ trong MDB có sẵn để phân tích bằng ứng dụng khách. Người dùng có cơ hội truy cập dữ liệu từ xa, hình thành các truy vấn phức tạp, tạo báo cáo và lấy các tập hợp dữ liệu tùy ý. Việc lấy báo cáo bao gồm việc chọn các giá trị đo lường cụ thể và xây dựng một phần của siêu khối. Mặt cắt ngang được xác định bởi các giá trị đo đã chọn. Dữ liệu cho các phép đo khác được tóm tắt.

Các khái niệm chính của mô hình dữ liệu đa chiều là: Siêu khối dữ liệu, Kích thước, Bộ nhớ, Ô và Đo lường.

Siêu khối dữ liệu chứa một hoặc nhiều thứ nguyên và là tập hợp các ô được sắp xếp theo thứ tự. Mỗi ô được xác định bởi một và chỉ một bộ giá trị thứ nguyên—nhãn. Ô có thể chứa dữ liệu - một thước đo hoặc để trống.

Kích thước là một tập hợp các dấu tạo thành một trong các mặt của siêu khối. Một ví dụ về thứ nguyên thời gian là danh sách ngày, tháng, quý. Một ví dụ về khía cạnh địa lý có thể là danh sách các đối tượng lãnh thổ: khu định cư, quận, vùng, quốc gia, v.v.

Để truy cập dữ liệu, người dùng phải chỉ định một hoặc nhiều ô bằng cách chọn các giá trị thứ nguyên tương ứng với các ô mong muốn. Quá trình lựa chọn các giá trị đo được gọi là nhãn cố định và tập hợp các giá trị đo đã chọn được gọi là tập hợp các nhãn cố định.

Ưu điểm của việc sử dụng công cụ OLAP máy chủ so với công cụ OLAP máy khách: khi sử dụng công cụ máy chủ, việc tính toán và lưu trữ dữ liệu tổng hợp diễn ra trên máy chủ và ứng dụng khách chỉ nhận được kết quả truy vấn tới chúng, điều này thường cho phép giảm lưu lượng mạng và thực hiện truy vấn yêu cầu về thời gian và tài nguyên mà ứng dụng khách tiêu thụ.

1. Biểu diễn dữ liệu đa chiều - các công cụ dành cho người dùng cuối cung cấp khả năng hiển thị và thao tác dữ liệu đa chiều; Lớp biểu diễn đa chiều trừu tượng hóa cấu trúc vật lý của dữ liệu và coi dữ liệu là đa chiều.

2. Xử lý đa chiều - một phương tiện (ngôn ngữ) để hình thành các truy vấn đa chiều (ngôn ngữ quan hệ truyền thống SQL không phù hợp ở đây) và bộ xử lý có thể xử lý và thực hiện truy vấn đó.

3. Lưu trữ đa chiều - phương tiện tổ chức dữ liệu vật lý, đảm bảo thực hiện hiệu quả các truy vấn đa chiều.

Hai cấp độ đầu tiên là bắt buộc trong tất cả các công cụ OLAP. Cấp độ thứ ba, mặc dù phổ biến nhưng không cần thiết, vì dữ liệu cho biểu diễn đa chiều cũng có thể được trích xuất từ ​​các cấu trúc quan hệ thông thường.

Trong bất kỳ kho dữ liệu nào - cả thông thường và đa chiều - cùng với dữ liệu chi tiết được trích xuất từ ​​hệ thống vận hành, các chỉ số tổng hợp (tổng chỉ số), chẳng hạn như tổng doanh số theo tháng, theo danh mục sản phẩm, v.v., cũng được lưu trữ.

Nhược điểm chính là sự gia tăng về khối lượng thông tin được lưu trữ (khi thêm các kích thước mới, khối lượng dữ liệu tạo nên khối sẽ tăng theo cấp số nhân) và thời gian cần thiết để tải chúng.

Mức độ tăng khối lượng dữ liệu khi tính toán tổng hợp phụ thuộc vào số lượng kích thước của khối và cấu trúc của các kích thước này, tức là. tỷ lệ số lượng “cha mẹ” và “con cháu” ở các mức đo lường khác nhau. Để giải quyết vấn đề lưu trữ các tập hợp tổng hợp, các lược đồ phức tạp được sử dụng, giúp đạt được sự gia tăng đáng kể về hiệu suất truy vấn khi tính toán không phải tất cả các tập hợp có thể có.

Cả dữ liệu thô và tổng hợp đều có thể được lưu trữ trong cấu trúc quan hệ hoặc đa chiều. Về vấn đề này, ba phương pháp lưu trữ dữ liệu đa chiều hiện đang được sử dụng:

MOLAP (OLAP đa chiều) - dữ liệu nguồn và tổng hợp được lưu trữ trong cơ sở dữ liệu đa chiều. Việc lưu trữ dữ liệu trong các cấu trúc đa chiều cho phép bạn thao tác dữ liệu dưới dạng mảng nhiều chiều, do đó tốc độ tính toán các giá trị tổng hợp là như nhau đối với bất kỳ thứ nguyên nào. Tuy nhiên, trong trường hợp này, cơ sở dữ liệu đa chiều là dư thừa vì dữ liệu đa chiều hoàn toàn chứa dữ liệu quan hệ ban đầu.

Các hệ thống này cung cấp một chu trình xử lý OLAP đầy đủ. Ngoài thành phần máy chủ, chúng còn bao gồm giao diện máy khách tích hợp của riêng chúng hoặc sử dụng các chương trình bảng tính bên ngoài để giao tiếp với người dùng.

ROLAP (OLAP quan hệ) - dữ liệu gốc vẫn còn trong cùng cơ sở dữ liệu quan hệ nơi nó được đặt ban đầu. Dữ liệu tổng hợp được đặt trong các bảng dịch vụ được tạo đặc biệt để lưu trữ nó trong cùng một cơ sở dữ liệu.

HOLAP (Hybrid OLAP) - dữ liệu gốc vẫn còn trong cùng cơ sở dữ liệu quan hệ nơi nó được đặt ban đầu và dữ liệu tổng hợp được lưu trữ trong cơ sở dữ liệu đa chiều.

Một số công cụ OLAP chỉ hỗ trợ lưu trữ dữ liệu ở dạng cấu trúc quan hệ, một số chỉ hỗ trợ ở dạng đa chiều. Tuy nhiên, hầu hết các công cụ OLAP máy chủ hiện đại đều hỗ trợ cả ba phương pháp lưu trữ dữ liệu. Việc lựa chọn phương pháp lưu trữ phụ thuộc vào khối lượng và cấu trúc của dữ liệu nguồn, yêu cầu về tốc độ thực hiện truy vấn và tần suất cập nhật các khối OLAP.

Công nghệ OLAP như một công cụ mạnh mẽ để xử lý dữ liệu thời gian thực

Tiến sĩ E.F. (Ted) Coddy đã đặt ra cụm từ Xử lý phân tích trực tuyến (OLAP) vào năm 1993...

Xử lý dữ liệu phân tích (OLAP). Kho dữ liệu thông tin. Các mô hình dữ liệu dùng để xây dựng kho thông tin

Nhiệm vụ chính của mô hình OLTP là xử lý truy vấn nhanh, duy trì tính toàn vẹn dữ liệu, đa truy cập vào môi trường, hiệu quả của nó được đo bằng số lượng giao dịch mỗi giây...

Lựa chọn và chứng minh cấu hình của máy tính cá nhân nhằm làm việc với âm thanh ở cấp độ nghiệp dư

Bộ nhớ truy cập ngẫu nhiên (RAM) là một phần dễ bay hơi của hệ thống bộ nhớ máy tính, lưu trữ tạm thời dữ liệu và lệnh cần thiết để bộ xử lý thực hiện thao tác...

Lựa chọn và chứng minh cấu hình của máy tính cá nhân tập trung vào việc thực hiện một loạt nhiệm vụ cụ thể

Bộ nhớ truy cập ngẫu nhiên (bộ nhớ truy cập ngẫu nhiên; thuật ngữ máy tính: Bộ nhớ, RAM) là một phần dễ bay hơi của hệ thống bộ nhớ máy tính, trong đó dữ liệu và lệnh được lưu trữ tạm thời...

Thuật toán lập lịch bộ xử lý Trong các hệ thống xử lý trực tuyến, thời gian trung bình cho các yêu cầu cung cấp dịch vụ được sử dụng làm tiêu chí chính cho hiệu quả. Dễ dàng nhận thấy rằng trong trường hợp thời gian giải quyết vấn đề được biết trước...

Nghiên cứu các thuật toán quản lý tài nguyên cho máy chủ đơn xử lý trong quá trình xử lý tác vụ trực tuyến (thuật toán SPT và RR)

Thuật toán SPT được sử dụng khi biết thời gian giải của các bài toán (quy trình). Để làm được điều này, trước khi trực tiếp giải quyết, trước tiên anh ấy sẽ sắp xếp các bài toán theo thứ tự tăng dần...

Cơ sở dữ liệu doanh nghiệp của hệ thống thông tin kinh tế

Công nghệ phân tích dữ liệu đa chiều phức tạp được gọi là OLAP (Xử lý phân tích trực tuyến). OLAP là thành phần chính của kho dữ liệu. Khái niệm OLAP được mô tả vào năm 1993...

Triển vọng phát triển PC

Bộ nhớ truy cập ngẫu nhiên (RAM) là một mảng các ô tinh thể có khả năng lưu trữ dữ liệu. RAM là một thành phần rất quan trọng của máy tính. Nó lưu trữ các chương trình và dữ liệu mà PC làm việc trực tiếp...

Thiết kế PC tính toán chi phí nghỉ lễ

Đặc biệt quan trọng liên quan đến công nghệ máy tính và viễn thông là các chế độ “trực tuyến” và “ngoại tuyến”. Chế độ “Trực tuyến” là chế độ hoạt động của máy tính không tự chủ, kết nối Internet liên tục. Sản phẩm phần mềm...

Bo mạch chủ, loại và thông số kỹ thuật

Bộ nhớ truy cập ngẫu nhiên (RAM) là một phần không ổn định của hệ thống bộ nhớ máy tính, có chức năng lưu trữ tạm thời dữ liệu và các lệnh cần thiết để bộ xử lý thực hiện các hoạt động (Hình 3)...

Thiết bị máy tính đa phương tiện hiện đại

Như bạn đã biết, máy tính lưu trữ dữ liệu chủ yếu trên một thiết bị đặc biệt - ổ cứng. Và trong quá trình làm việc anh ấy tiếp thu từ đó. Thông tin sau này sẽ đi đâu? Rõ ràng...

1.1.1 Sản phẩm phần mềm Skype Skype là chương trình cho phép bạn giao tiếp qua Internet với đồng nghiệp, bạn bè, người thân trên toàn thế giới...

Phân tích so sánh các hệ thống đào tạo từ xa

1.2.2 Hệ thống đào tạo từ xa Moodle Moodle LMS là môi trường đào tạo từ xa được thiết kế để tạo và sử dụng các khóa học từ xa...

công nghệ OLAP

Khi xây dựng hệ thống thông tin, chức năng OLAP có thể được triển khai bằng cả công cụ OLAP máy chủ và máy khách...

(DBMS. - 1998. - Số 4-5)

Mức độ phát triển hiện nay của phần cứng và phần mềm đã giúp cho việc duy trì cơ sở dữ liệu rộng rãi về thông tin hoạt động ở mọi cấp quản lý có thể thực hiện được. Trong quá trình hoạt động của mình, các doanh nghiệp công nghiệp, tập đoàn, cơ quan ban ngành, chính phủ và cơ quan quản lý đã tích lũy được khối lượng dữ liệu lớn. Chúng chứa tiềm năng lớn trong việc trích xuất thông tin phân tích hữu ích, trên cơ sở đó có thể xác định các xu hướng tiềm ẩn, xây dựng chiến lược phát triển và tìm ra giải pháp mới.

Trong những năm gần đây, một số khái niệm mới về lưu trữ và phân tích dữ liệu doanh nghiệp đã hình thành trên thế giới:

Bài viết này được dành để xem xét các khái niệm này cũng như bằng chứng về tính bổ sung của chúng trong việc hỗ trợ việc ra quyết định quản lý.

1. Kho dữ liệu

Trong lĩnh vực công nghệ thông tin, hai loại hệ thống luôn tồn tại cùng nhau [, P. 49]:

Ở giai đoạn đầu của tin học hóa, luôn cần phải lập lại trật tự một cách chính xác trong các quy trình xử lý dữ liệu thông thường hàng ngày, đó là điều mà SOD truyền thống chú trọng, vì vậy sự phát triển nhanh chóng của loại hệ thống này là điều khá dễ hiểu.

Các hệ thống thuộc loại thứ hai - DSS - chỉ là thứ yếu so với chúng. Một tình huống thường phát sinh khi dữ liệu trong một tổ chức được tích lũy từ một số hệ thống lưu trữ dữ liệu không liên quan, phần lớn trùng lặp lẫn nhau nhưng không được phối hợp theo bất kỳ cách nào. Trong trường hợp này, hầu như không thể có được thông tin toàn diện đáng tin cậy, mặc dù có rất nhiều thông tin rõ ràng.

Mục đích của việc xây dựng kho dữ liệu doanh nghiệp là tích hợp, cập nhật và hài hòa dữ liệu vận hành từ nhiều nguồn khác nhau để tạo thành một cái nhìn nhất quán duy nhất về toàn bộ đối tượng quản lý. Đồng thời, khái niệm kho dữ liệu dựa trên sự thừa nhận nhu cầu tách biệt các bộ dữ liệu được sử dụng để xử lý giao dịch và các bộ dữ liệu được sử dụng trong các hệ thống hỗ trợ quyết định. Việc phân tách như vậy có thể thực hiện được bằng cách tích hợp dữ liệu chi tiết được phân tách trong ODS và các nguồn bên ngoài vào một kho lưu trữ duy nhất, sự phối hợp và có thể là tổng hợp của chúng. W. Inmon, tác giả của khái niệm kho dữ liệu, định nghĩa các kho dữ liệu như sau:

  • “định hướng chủ đề,
  • tích hợp,
  • không thể thay đổi,
  • hỗ trợ niên đại

các bộ dữ liệu được tổ chức để hỗ trợ quản lý" được thiết kế để hoạt động như một "nguồn sự thật duy nhất" cung cấp cho các nhà quản lý và nhà phân tích thông tin đáng tin cậy cần thiết để phân tích hoạt động và hỗ trợ quyết định.

Khái niệm về kho dữ liệu không chỉ là một cái nhìn logic duy nhất về dữ liệu của tổ chức mà còn là việc triển khai thực tế một nguồn dữ liệu tích hợp duy nhất. Một cách thay thế cho khái niệm này, một cách để tạo ra một cái nhìn thống nhất về dữ liệu công ty là tạo một nguồn ảo dựa trên cơ sở dữ liệu phân tán của nhiều ODS khác nhau. Hơn nữa, mỗi yêu cầu đối với một nguồn như vậy sẽ được chuyển động thành các yêu cầu đến cơ sở dữ liệu nguồn và kết quả thu được sẽ được điều phối, liên kết, tổng hợp và trả về cho người dùng một cách nhanh chóng. Tuy nhiên, mặc dù có vẻ ngoài sang trọng nhưng phương pháp này có một số nhược điểm đáng kể.

  1. Thời gian xử lý các yêu cầu lưu trữ phân tán vượt quá đáng kể các chỉ số tương ứng đối với lưu trữ tập trung. Ngoài ra, cấu trúc cơ sở dữ liệu ODS được thiết kế để cập nhật chuyên sâu các bản ghi riêng lẻ có tính chuẩn hóa cao, do đó, truy vấn phân tích đối với chúng yêu cầu phải nối một số lượng lớn bảng, điều này cũng dẫn đến giảm hiệu suất.
  2. Chỉ có thể xem tích hợp bộ lưu trữ doanh nghiệp phân tán nếu tất cả các nguồn dữ liệu trên mạng luôn được kết nối. Do đó, việc tạm thời không có sẵn ít nhất một trong các nguồn có thể khiến hoạt động của hệ thống thông tin và phân tích (IAS) không thể thực hiện được hoặc dẫn đến kết quả sai sót.
  3. Việc thực hiện các truy vấn phân tích phức tạp trên các bảng ODS tiêu tốn một lượng lớn tài nguyên máy chủ cơ sở dữ liệu và dẫn đến giảm hiệu suất ODS, điều này không thể chấp nhận được vì thời gian thực hiện các hoạt động trong ODS thường rất quan trọng.
  4. ODS khác nhau có thể hỗ trợ các định dạng và mã hóa dữ liệu khác nhau và dữ liệu trong đó có thể không nhất quán. Rất thường xuyên, có thể nhận được một số tùy chọn trả lời cho cùng một câu hỏi, điều này có thể là do thời điểm cập nhật dữ liệu không đồng bộ, sự khác biệt trong cách giải thích các sự kiện, khái niệm và dữ liệu riêng lẻ, những thay đổi về ngữ nghĩa dữ liệu trong quá trình phát triển lĩnh vực chủ đề, lỗi đầu vào, mất các kho lưu trữ phân đoạn, v.v. Trong trường hợp này, mục tiêu - hình thành một cái nhìn nhất quán duy nhất về đối tượng quản lý - có thể không đạt được.
  5. Nhược điểm chính cần được thừa nhận là thực tế không thể xem xét các chuỗi lịch sử dài hạn, bởi vì trong trường hợp không có kho lưu trữ trung tâm, chỉ những dữ liệu đó mới có sẵn tại thời điểm yêu cầu nằm trong cơ sở dữ liệu thực của ODS liên quan. Mục đích chính của ODS là xử lý dữ liệu vận hành, do đó chúng không có khả năng lưu trữ dữ liệu trong thời gian dài (hơn vài tháng); Khi dữ liệu trở nên lỗi thời, nó sẽ được tải lên kho lưu trữ và xóa khỏi cơ sở dữ liệu giao dịch. Đối với quá trình xử lý phân tích, đó chính xác là quan điểm thú vị nhất về đối tượng kiểm soát khi nhìn lại lịch sử.

Do đó, kho dữ liệu hoạt động theo kịch bản sau. Theo quy định nhất định, nó thu thập dữ liệu từ nhiều nguồn khác nhau - cơ sở dữ liệu của hệ thống xử lý trực tuyến. Bộ lưu trữ hỗ trợ trình tự thời gian: cùng với dữ liệu hiện tại, dữ liệu lịch sử được lưu trữ, cho biết thời gian liên quan đến nó. Kết quả là, dữ liệu cần thiết có sẵn về đối tượng điều khiển được thu thập ở một nơi, đưa về một định dạng duy nhất, được phối hợp và trong một số trường hợp được tổng hợp ở mức độ khái quát hóa tối thiểu được yêu cầu.

Phiên bản nhẹ của kho dữ liệu doanh nghiệp có thể là siêu thị dữ liệu (Data Mart), nghĩa là cơ sở dữ liệu chuyên đề chứa thông tin liên quan đến các khía cạnh riêng lẻ trong hoạt động của tổ chức. Khái niệm về siêu thị dữ liệu được Forrester Research đưa ra vào năm 1991. Ý tưởng chính là các siêu thị dữ liệu chứa các tập hợp con theo chủ đề của dữ liệu được tổng hợp trước có kích thước nhỏ hơn nhiều so với kho dữ liệu toàn doanh nghiệp và do đó yêu cầu công nghệ ít mạnh hơn để duy trì. Năm 1994, M. Demarest đề xuất kết hợp hai khái niệm này và sử dụng kho dữ liệu như một nguồn tích hợp duy nhất cho nhiều siêu thị dữ liệu. Trong phiên bản này, hệ thống phân tích và thông tin của công ty có cấu trúc ba cấp độ:

  • kho dữ liệu tập trung toàn công ty;
  • siêu thị dữ liệu chuyên đề cấp sở;
  • máy trạm của người dùng cuối được trang bị các công cụ phân tích.

Khái niệm được xem xét chỉ tập trung vào việc lưu trữ chứ không phải xử lý dữ liệu của công ty. Nó không xác định trước kiến ​​trúc của hệ thống phân tích mục tiêu mà chỉ tạo ra một lĩnh vực hoạt động cho chức năng của chúng, tập trung vào các yêu cầu dữ liệu. Vì vậy, cô ấy để lại quyền tự do lựa chọn trong mọi việc liên quan đến:

  • cách thể hiện dữ liệu trong bộ lưu trữ đích (ví dụ: quan hệ, đa chiều);
  • chế độ phân tích dữ liệu lưu trữ.

2. Phương pháp xử lý số liệu phân tích

Để kho dữ liệu hiện có tạo điều kiện thuận lợi cho việc ra quyết định quản lý, thông tin phải được trình bày cho nhà phân tích dưới dạng yêu cầu, nghĩa là anh ta phải phát triển các công cụ để truy cập và xử lý dữ liệu kho.

Theo tiêu chí về chế độ phân tích dữ liệu, hệ thống thông tin và phân tích được chia thành hai loại [, ]:

  • tĩnh (bao gồm một tập hợp các kịch bản báo cáo và xử lý dữ liệu được xác định trước); Danh mục này bao gồm cái gọi là hệ thống thông tin điều hành (MIS);
  • động (hỗ trợ xây dựng và thực hiện các truy vấn đặc biệt cũng như tạo báo cáo dạng tự do).

Rất thường xuyên, các hệ thống thông tin được tạo ra với mục đích sử dụng trực tiếp bởi những người ra quyết định hóa ra cực kỳ dễ sử dụng nhưng lại bị hạn chế nghiêm trọng về chức năng. DSS tĩnh như vậy [, P. 55] hoặc Hệ thống thông tin điều hành (IIS) [, P. 73] - (Hệ thống thông tin điều hành, EIS) [, P. 4] - chứa các bộ truy vấn được xác định trước và đủ để xem xét hàng ngày , không thể trả lời tất cả các câu hỏi về dữ liệu sẵn có có thể phát sinh khi đưa ra quyết định (LƯU Ý: Theo định nghĩa của V. Przyjalkowski [, P. 81], ISR là “hệ thống máy tính cho phép… cung cấp thông tin tại sa thải nhân viên quản lý cấp cao có kinh nghiệm hạn chế về máy tính."). Kết quả của một hệ thống như vậy, theo quy luật, là các báo cáo nhiều trang, sau khi nghiên cứu kỹ lưỡng, nhà phân tích sẽ đưa ra một loạt câu hỏi mới; tuy nhiên, mọi yêu cầu mới không được lường trước khi thiết kế một hệ thống như vậy trước tiên phải được mô tả chính thức, chuyển cho người lập trình, mã hóa và chỉ sau đó mới được thực thi. Thời gian chờ đợi trong trường hợp này có thể là hàng giờ và hàng ngày, điều này không phải lúc nào cũng có thể chấp nhận được. Do đó, tính đơn giản bên ngoài của DSS tĩnh, mà hầu hết khách hàng sử dụng hệ thống thông tin và phân tích đang tích cực đấu tranh, sẽ trở thành sự mất linh hoạt thảm khốc.

Ngược lại, DSS động tập trung vào việc xử lý các yêu cầu phân tích dữ liệu không được kiểm soát, bất ngờ (đặc biệt). Các yêu cầu đối với các hệ thống như vậy đã được E. F. Codd xem xét sâu sắc nhất trong bài viết đặt nền móng cho khái niệm OLAP. Công việc của các nhà phân tích với các hệ thống này bao gồm một chuỗi tương tác tạo ra các truy vấn và nghiên cứu kết quả của chúng, mỗi truy vấn có thể tạo ra nhu cầu về một loạt truy vấn mới.

Nhưng DSS động có thể hoạt động không chỉ trong lĩnh vực xử lý phân tích trực tuyến (OLAP); hỗ trợ đưa ra quyết định quản lý dựa trên dữ liệu tích lũy có thể được thực hiện trong ba lĩnh vực cơ bản.

Theo Codd, quan điểm khái niệm đa chiều là cách nhìn tự nhiên nhất của nhân viên quản lý về đối tượng quản lý. Nó thể hiện nhiều góc nhìn bao gồm một số chiều độc lập mà theo đó các bộ dữ liệu cụ thể có thể được phân tích. Phân tích đồng thời theo nhiều chiều của dữ liệu được định nghĩa là phân tích đa biến. Mỗi chiều bao gồm các lĩnh vực hợp nhất dữ liệu, bao gồm một loạt các cấp độ khái quát hóa liên tiếp, trong đó mỗi cấp độ cao hơn tương ứng với mức độ tổng hợp dữ liệu lớn hơn cho chiều tương ứng. Như vậy, chiều hướng Người thực hiện có thể được xác định theo hướng hợp nhất, bao gồm các mức độ khái quát hóa “doanh nghiệp - bộ phận - bộ phận - nhân viên”. Thứ nguyên Thời gian thậm chí có thể bao gồm hai hướng hợp nhất - “năm - quý - tháng - ngày” và “tuần - ngày”, vì việc tính thời gian theo tháng và theo tuần không tương thích. Trong trường hợp này, có thể tùy ý chọn mức độ chi tiết mong muốn của thông tin cho từng thứ nguyên. Hoạt động khoan xuống tương ứng với sự chuyển động từ giai đoạn cố kết cao xuống thấp; ngược lại, thao tác cuộn lên có nghĩa là chuyển động từ mức thấp lên mức cao hơn (Hình 2).


Cơm. 2. Quy mô và hướng hợp nhất dữ liệu.

3.1. Yêu cầu đối với công cụ xử lý phân tích trực tuyến

Codd đã xác định 12 quy tắc mà một sản phẩm phần mềm lớp OLAP phải đáp ứng (Bảng 1).

Bảng 1. Quy tắc đánh giá sản phẩm phần mềm lớp OLAP.

1. Chế độ xem khái niệm đa chiều Việc biểu diễn khái niệm của mô hình dữ liệu trong sản phẩm OLAP phải có bản chất đa chiều, nghĩa là cho phép các nhà phân tích thực hiện các thao tác “cắt và xúc xắc” trực quan (bản dịch của S. D. Kuznetsov, bài phát biểu tại hội nghị thường niên lần thứ 3 "Cơ sở dữ liệu doanh nghiệp" 98") , xoay (rotate) và đặt (pivot) các hướng cố kết.
2. Minh bạch Người dùng không cần biết công cụ cụ thể nào được sử dụng để lưu trữ và xử lý dữ liệu, dữ liệu được tổ chức như thế nào và nó đến từ đâu.
3. Khả năng tiếp cận Nhà phân tích phải có khả năng thực hiện phân tích trong khuôn khổ khung khái niệm chung, nhưng dữ liệu có thể vẫn nằm dưới sự kiểm soát của các DBMS cũ trong khi được gắn với một mô hình phân tích chung. Nghĩa là, công cụ OLAP phải phủ lược đồ logic của nó lên các tập dữ liệu vật lý, thực hiện tất cả các phép biến đổi cần thiết để cung cấp một cái nhìn duy nhất, nhất quán và toàn diện về thông tin của người dùng.
4. Hiệu suất báo cáo nhất quán Khi số lượng thứ nguyên và kích thước cơ sở dữ liệu tăng lên, các nhà phân tích sẽ không gặp phải bất kỳ sự suy giảm hiệu suất nào. Hiệu suất được duy trì là cần thiết để duy trì tính dễ sử dụng và không bị phức tạp cần thiết để mang OLAP đến với người dùng cuối.
5. Kiến trúc máy khách-máy chủ Hầu hết dữ liệu yêu cầu xử lý phân tích nhanh được lưu trữ trong hệ thống máy tính lớn và được lấy từ máy tính cá nhân. Vì vậy, một trong những yêu cầu là khả năng hoạt động của sản phẩm OLAP trong môi trường client-server. Ý tưởng chính ở đây là thành phần máy chủ của công cụ OLAP phải đủ thông minh và có khả năng xây dựng một lược đồ khái niệm chung bằng cách tóm tắt và hợp nhất các lược đồ logic và vật lý khác nhau của cơ sở dữ liệu doanh nghiệp để mang lại hiệu quả minh bạch.
6. Thứ nguyên chung Tất cả các kích thước dữ liệu phải bằng nhau. Chức năng bổ sung có thể được cung cấp cho các kích thước riêng lẻ, nhưng vì chúng đều đối xứng nên chức năng bổ sung này có thể được cung cấp cho bất kỳ kích thước nào. Cấu trúc dữ liệu cơ bản, công thức và định dạng báo cáo không được dựa vào bất kỳ thứ nguyên nào.
7. Xử lý ma trận thưa thớt động Công cụ OLAP phải cung cấp khả năng xử lý tối ưu các ma trận thưa thớt. Tốc độ truy cập phải được duy trì bất kể vị trí của các ô dữ liệu và không đổi đối với các mô hình có số lượng thứ nguyên khác nhau và độ thưa thớt dữ liệu khác nhau.
8. Hỗ trợ nhiều người dùng Thông thường, một số nhà phân tích cần làm việc đồng thời với một mô hình phân tích hoặc tạo các mô hình khác nhau dựa trên cùng một dữ liệu của công ty. Công cụ OLAP phải cung cấp cho họ quyền truy cập đồng thời và đảm bảo tính toàn vẹn và bảo mật dữ liệu.
9. Hỗ trợ hoạt động đa chiều không hạn chế Việc tính toán và thao tác dữ liệu theo bất kỳ số lượng chiều nào không được cấm hoặc hạn chế bất kỳ mối quan hệ nào giữa các ô dữ liệu. Các phép biến đổi yêu cầu định nghĩa tùy ý phải được chỉ định bằng ngôn ngữ công thức hoàn chỉnh về mặt chức năng.
10. Thao tác dữ liệu trực quan Việc định hướng lại các hướng hợp nhất, chi tiết dữ liệu theo cột và hàng, tổng hợp và các thao tác khác vốn có trong cấu trúc phân cấp của các hướng hợp nhất phải được thực hiện trong giao diện người dùng thuận tiện, tự nhiên và thoải mái nhất.
11. Cơ chế báo cáo linh hoạt Phải hỗ trợ nhiều cách trực quan hóa dữ liệu khác nhau, nghĩa là các báo cáo phải được trình bày theo mọi hướng có thể.
12. Kích thước và mức độ tổng hợp không giới hạn Chúng tôi đặc biệt khuyến nghị rằng mọi công cụ OLAP nghiêm túc đều phải giả định ít nhất mười lăm và tốt nhất là hai mươi chiều trong mô hình phân tích. Hơn nữa, mỗi thứ nguyên này sẽ cho phép số lượng tổng hợp hầu như không giới hạn do người dùng xác định theo bất kỳ hướng hợp nhất nào.

Tập hợp các yêu cầu này được dùng làm định nghĩa thực tế của OLAP đã bị chỉ trích khá thường xuyên. Vì vậy, người ta nói rằng trong khuôn khổ 12 yêu cầu sau đây được trộn lẫn:

  • yêu cầu chức năng thực tế (1, 2, 3, 6, 9, 12);
  • mong muốn không chính thức (4, 7, 10, 11);
  • các yêu cầu về kiến ​​trúc của hệ thống thông tin có mối quan hệ rất chặt chẽ với chức năng (5, 8); ví dụ: theo yêu cầu 5, một hệ thống được triển khai trên cơ sở máy chủ UNIX có thiết bị đầu cuối không thể là sản phẩm OLAP vì nó không hoạt động trong kiến ​​trúc máy khách-máy chủ; Ngoài ra, sản phẩm OLAP không thể là hệ thống máy tính để bàn một người dùng vì trong trường hợp này yêu cầu 8 bị vi phạm.

Mặt khác, theo bản thân Codd, không có sản phẩm phân tích dữ liệu vận hành nào hiện có trên thị trường đáp ứng đầy đủ mọi yêu cầu mà ông đưa ra. Do đó, 12 quy tắc nên được coi là khuyến nghị và các sản phẩm cụ thể phải được đánh giá theo mức độ gần đúng với việc tuân thủ đầy đủ mọi yêu cầu một cách lý tưởng.

3.2. Phân loại sản phẩm OLAP theo phương pháp trình bày dữ liệu

Hiện tại, có khoảng 30 sản phẩm trên thị trường cung cấp chức năng OLAP ở mức độ này hay mức độ khác (theo đánh giá về máy chủ Web http://www.olapreport.com tính đến tháng 2 năm 1998). Cung cấp chế độ xem khái niệm đa chiều từ giao diện người dùng đến cơ sở dữ liệu nguồn, tất cả các sản phẩm OLAP được chia thành ba lớp dựa trên loại cơ sở dữ liệu nguồn.

Ngoài các công cụ được liệt kê, còn có một lớp khác - các công cụ tạo truy vấn và báo cáo cho máy tính để bàn, được bổ sung các chức năng OLAP và/hoặc được tích hợp với các công cụ bên ngoài thực hiện các chức năng đó. Các hệ thống khá tiên tiến này lấy dữ liệu từ các nguồn nguồn, chuyển đổi chúng và đặt chúng vào cơ sở dữ liệu đa chiều động hoạt động trên trạm khách của người dùng cuối. Những công cụ này phù hợp nhất để làm việc với cơ sở dữ liệu nhỏ, được tổ chức đơn giản. Đại diện chính của lớp này là BusinessObjects của công ty cùng tên, BrioQuery của Brio Technology [, P. 34] và PowerPlay của Cognos [, P. 34-35].

3.2.1. OLAP đa chiều (MOLAP)

Trong các DBMS chuyên biệt dựa trên biểu diễn dữ liệu đa chiều, dữ liệu được tổ chức không phải ở dạng bảng quan hệ mà ở dạng mảng đa chiều có thứ tự:

  • siêu khối (tất cả các ô được lưu trữ trong cơ sở dữ liệu phải có cùng kích thước, nghĩa là ở cơ sở đo lường đầy đủ nhất) hoặc
  • polycubes (mỗi biến được lưu trữ với tập hợp kích thước riêng và tất cả sự phức tạp xử lý liên quan sẽ được chuyển đến các cơ chế bên trong của hệ thống).

Việc sử dụng cơ sở dữ liệu đa chiều trong các hệ thống xử lý phân tích trực tuyến có những ưu điểm sau.

Mặt khác, có những hạn chế đáng kể.

Do đó, việc sử dụng DBMS đa chiều chỉ được chứng minh theo các điều kiện sau.

  1. Khối lượng dữ liệu nguồn để phân tích không quá lớn (không quá vài gigabyte), tức là mức độ tổng hợp dữ liệu khá cao.
  2. Tập hợp các kích thước thông tin ổn định (vì bất kỳ thay đổi nào trong cấu trúc của chúng hầu như luôn đòi hỏi phải tái cấu trúc hoàn toàn siêu khối).
  3. Thời gian phản hồi của hệ thống đối với các yêu cầu không được kiểm soát là thông số quan trọng nhất.
  4. Yêu cầu sử dụng rộng rãi các hàm tích hợp phức tạp để thực hiện các phép tính đa chiều trên các ô siêu khối, bao gồm khả năng viết các hàm tùy chỉnh.
3.2.2. OLAP quan hệ (ROLAP)

Việc sử dụng trực tiếp cơ sở dữ liệu quan hệ làm dữ liệu nguồn trong các hệ thống xử lý phân tích trực tuyến có những ưu điểm sau.

  1. Khi thực hiện xử lý phân tích vận hành nội dung của kho dữ liệu, các công cụ ROLAP cho phép bạn thực hiện phân tích trực tiếp trên kho (vì trong phần lớn các trường hợp, kho dữ liệu của công ty được triển khai bằng cách sử dụng DBMS quan hệ).
  2. Trong trường hợp bài toán có kích thước thay đổi, khi phải thực hiện thay đổi cấu trúc của phép đo khá thường xuyên, hệ thống ROLAP với biểu diễn kích thước động là giải pháp tối ưu, vì những sửa đổi như vậy không yêu cầu tổ chức lại cơ sở dữ liệu về mặt vật lý.
  3. Hệ thống ROLAP có thể hoạt động trên các trạm khách kém mạnh hơn nhiều so với hệ thống MOLAP, vì tải tính toán chính trong chúng rơi vào máy chủ, nơi thực thi các truy vấn SQL phân tích phức tạp do hệ thống tạo ra.
  4. Các DBMS quan hệ cung cấp mức độ bảo vệ dữ liệu và quyền truy cập cao hơn đáng kể.
  5. Các DBMS quan hệ có kinh nghiệm thực tế khi làm việc với cơ sở dữ liệu rất lớn và các công cụ quản trị được phát triển.

Những nhược điểm của hệ thống ROLAP đã được thảo luận khi liệt kê những ưu điểm của việc sử dụng cơ sở dữ liệu đa chiều. Thứ nhất, đây là những khả năng hạn chế về mặt tính toán các giá trị loại chức năng và thứ hai là hiệu suất thấp hơn. Để đảm bảo hiệu suất có thể so sánh với MOLAP, các hệ thống quan hệ yêu cầu thiết kế lược đồ cơ sở dữ liệu cẩn thận và điều chỉnh đặc biệt các chỉ mục. Nhưng kết quả của những hoạt động này là hiệu suất của các hệ thống quan hệ được điều chỉnh tốt bằng cách sử dụng lược đồ sao khá tương đương với hiệu suất của các hệ thống dựa trên cơ sở dữ liệu đa chiều.

Các công trình [, ,] hoàn toàn dành cho việc mô tả lược đồ sao và các khuyến nghị cho việc sử dụng nó. Ý tưởng là có các bảng cho mỗi chiều và tất cả dữ kiện được đặt trong một bảng, được lập chỉ mục bằng một khóa đa tạo thành từ các khóa của các chiều riêng lẻ. Mỗi tia của sơ đồ sao chỉ định, theo thuật ngữ của Codd, hướng hợp nhất dữ liệu dọc theo chiều tương ứng (ví dụ: Cửa hàng - Thành phố/Quận - Khu vực).

Trong trường hợp chung, các sự kiện có các nhóm kích thước khác nhau, và khi đó sẽ thuận tiện khi lưu trữ chúng không phải trong một mà trong nhiều bảng; Ngoài ra, trong các truy vấn khác nhau, người dùng có thể chỉ quan tâm đến một phần của các thứ nguyên có thể có. Nhưng với cách tiếp cận này, với số lượng lớn các chiều độc lập, cần phải duy trì nhiều bảng Fact tương ứng với từng tổ hợp chiều có thể được chọn trong truy vấn, dẫn đến lãng phí bộ nhớ ngoài, tăng thời gian tải dữ liệu vào sao. cơ sở dữ liệu lược đồ từ các nguồn bên ngoài và những khó khăn trong quản trị. Để giải quyết vấn đề này, các tác giả của công trình đề xuất một tiện ích mở rộng đặc biệt cho ngôn ngữ SQL (toán tử "GROUP BY CUBE" và từ khóa "ALL") (LƯU Ý: Tại thời điểm này, tiện ích mở rộng này vẫn chưa được thông qua, vì vậy điều này đề xuất hiện chỉ được quan tâm về mặt học thuật.) và các tác giả của [,] khuyên bạn nên tạo các bảng thực tế không phải cho tất cả các kết hợp kích thước có thể có mà chỉ dành cho những kết hợp hoàn chỉnh nhất (những bảng có giá trị ô không thể thu được bằng cách tổng hợp tiếp theo của các ô từ các bảng dữ kiện khác trong cơ sở dữ liệu).

Trong các vấn đề phức tạp với phép đo đa cấp, nên chuyển sang phần mở rộng của lược đồ sao - lược đồ chòm sao (lược đồ chòm sao thực tế) [, trang 10-11] và lược đồ bông tuyết [, trang 13-15]. Trong những trường hợp này, các bảng dữ kiện riêng biệt được tạo ra để có thể kết hợp các mức tóm tắt có kích thước khác nhau. Điều này cho phép đạt hiệu suất tốt nhất nhưng thường dẫn đến dư thừa dữ liệu.

Trong mọi trường hợp, nếu mô hình đa chiều được triển khai dưới dạng cơ sở dữ liệu quan hệ, bạn nên tạo các bảng dữ kiện dài và "hẹp" cũng như các bảng chiều tương đối nhỏ và "rộng". Các bảng sự kiện chứa các giá trị số của các ô siêu khối và các bảng còn lại xác định cơ sở đo lường đa chiều chứa chúng.

Việc tập trung vào việc biểu diễn thông tin đa chiều bằng các mô hình quan hệ hình ngôi sao cho phép chúng ta loại bỏ vấn đề tối ưu hóa việc lưu trữ các ma trận thưa thớt, vấn đề cấp bách đối với các DBMS đa chiều (trong đó vấn đề thưa thớt được giải quyết bằng một lựa chọn lược đồ đặc biệt). Mặc dù toàn bộ bản ghi được sử dụng để lưu trữ từng ô trong bảng thực tế (ngoài các giá trị, còn bao gồm các khóa phụ - liên kết đến bảng thứ nguyên), các giá trị không tồn tại có thể đơn giản là không được đưa vào thực tế bảng, nghĩa là loại trừ sự hiện diện của các ô trống trong cơ sở dữ liệu. Lập chỉ mục đảm bảo tốc độ truy cập dữ liệu có thể chấp nhận được trong các bảng thực tế.

4. Khai thác dữ liệu

Phạm vi của các mẫu khác với hai mẫu trước ở chỗ trong đó thông tin tích lũy được tự động khái quát hóa thành thông tin có thể được mô tả là kiến ​​thức. Quá trình này cực kỳ phù hợp với người dùng hiện nay và tầm quan trọng của nó sẽ chỉ tăng lên theo thời gian, vì theo luật được đưa ra, “lượng thông tin trên thế giới tăng gấp đôi sau mỗi 20 tháng”, trong khi “công nghệ máy tính, hứa hẹn một nguồn năng lượng dồi dào”. của sự khôn ngoan, cho đến nay chỉ điều chỉnh các luồng dữ liệu."

Khai thác dữ liệu được định nghĩa trong hầu hết các ấn phẩm một cách cách ngôn - “trích xuất các hạt kiến ​​​​thức từ hàng núi dữ liệu”, “khai thác dữ liệu - bằng cách tương tự với việc phát triển tài nguyên khoáng sản”. Hơn nữa, trong tiếng Anh có 2 thuật ngữ được dịch là IAD - Knowledge Discovery in Databases (KDD) và Data Mining (DM). Trong hầu hết các tác phẩm, chúng được sử dụng như từ đồng nghĩa [ví dụ, xem], mặc dù một số tác giả [,] coi KDD là một khái niệm rộng hơn - một hướng khoa học được hình thành “tại sự giao thoa của trí tuệ nhân tạo, thống kê và lý thuyết cơ sở dữ liệu” và cung cấp quy trình trích xuất thông tin từ dữ liệu và việc sử dụng nó, và DM - như một tập hợp các phương pháp quy nạp của quy trình này, nghĩa là những gì sẽ được định nghĩa dưới đây là giai đoạn tìm kiếm IAD miễn phí.

Chúng ta hãy tập trung vào định nghĩa sau: IAD là một quy trình hỗ trợ quyết định dựa trên việc tìm kiếm các mẫu ẩn (mẫu thông tin) trong dữ liệu [,]. Cần lưu ý rằng hầu hết các phương pháp IDA ban đầu được phát triển trong khuôn khổ lý thuyết về trí tuệ nhân tạo (AI) vào những năm 70-80, nhưng chỉ trở nên phổ biến trong những năm gần đây, khi vấn đề trí tuệ hóa việc xử lý khối lượng lớn và ngày càng tăng nhanh. dữ liệu của công ty yêu cầu sử dụng chúng làm tiện ích bổ sung cho kho dữ liệu.

4.2.2. Mô hình dự đoán

Ở đây, ở giai đoạn thứ hai của IAD, thành quả công việc của giai đoạn đầu tiên được sử dụng, nghĩa là các mẫu tìm thấy trong cơ sở dữ liệu được sử dụng để dự đoán các giá trị chưa biết:

  • khi phân loại một đối tượng mới, chúng ta có thể gán nó một cách chắc chắn nhất định cho một nhóm kết quả nhất định từ việc xem xét các giá trị đã biết của các thuộc tính của nó;
  • Khi dự đoán một quá trình động, kết quả xác định xu hướng và biến động định kỳ có thể được sử dụng để đưa ra các giả định về khả năng phát triển của một quá trình động nào đó trong tương lai.

Quay trở lại các ví dụ đã thảo luận, hãy tiếp tục đến giai đoạn này. Biết ai đó Ivanov là lập trình viên, bạn có thể chắc chắn 61% rằng tuổi của anh ấy

Cần lưu ý rằng tìm kiếm miễn phí sẽ tiết lộ các mẫu chung, tức là nó có tính quy nạp, trong khi bất kỳ dự báo nào cũng đưa ra phỏng đoán về giá trị của các đại lượng cụ thể chưa biết, do đó, nó có tính suy diễn. Ngoài ra, các cấu trúc kết quả có thể trong suốt, tức là cho phép diễn giải hợp lý (như trong ví dụ với các quy tắc logic được tạo) hoặc không thể giải thích được - “hộp đen” (ví dụ: không ai biết chính xác cách xây dựng và huấn luyện một nơ-ron mạng đó chính xác là những gì hoạt động).

4.2.3. Phân tích ngoại lệ (Phân tích pháp y)

Chủ đề của phân tích này là những điểm bất thường trong các mẫu đã được tiết lộ, tức là những trường hợp ngoại lệ không giải thích được. Để tìm thấy chúng, trước tiên bạn phải xác định định mức (giai đoạn tìm kiếm miễn phí), sau đó xác định các vi phạm của nó. Vì vậy, sau khi xác định rằng 84% trường trung học được phân loại là tài sản của thành phố, người ta có thể đặt câu hỏi - trong 16% đó có những gì là ngoại lệ đối với quy tắc này? Có lẽ có một lời giải thích hợp lý cho chúng, cũng có thể được chính thức hóa dưới dạng một khuôn mẫu. Nhưng cũng có thể là chúng ta đang xử lý các lỗi trong dữ liệu nguồn, trong trường hợp đó, phân tích ngoại lệ có thể được sử dụng như một công cụ để dọn dẹp thông tin trong kho dữ liệu.

4.3. Phân loại các phương pháp công nghệ của IAD

Tất cả các phương pháp IDA được chia thành hai nhóm lớn dựa trên nguyên tắc làm việc với dữ liệu huấn luyện ban đầu.

  1. Trong trường hợp đầu tiên, dữ liệu nguồn có thể được lưu trữ ở dạng chi tiết rõ ràng và được sử dụng trực tiếp để lập mô hình dự đoán và/hoặc phân tích ngoại lệ; Đây được gọi là phương pháp lý luận dựa trên phân tích trường hợp. Vấn đề chính của nhóm phương pháp này là khó khăn khi sử dụng chúng trên khối lượng dữ liệu lớn, mặc dù chính khi phân tích kho dữ liệu lớn thì phương pháp IDA mới mang lại lợi ích lớn nhất.
  2. Trong trường hợp thứ hai, thông tin trước tiên được trích xuất từ ​​dữ liệu chính và được chuyển đổi thành một số cấu trúc chính thức (loại của chúng phụ thuộc vào phương pháp cụ thể). Theo phân loại trước, giai đoạn này được thực hiện ở giai đoạn tìm kiếm tự do, giai đoạn này về cơ bản không có trong các phương pháp của nhóm đầu tiên. Do đó, để lập mô hình dự đoán và phân tích ngoại lệ, kết quả của giai đoạn này được sử dụng, kết quả này nhỏ gọn hơn nhiều so với bản thân mảng dữ liệu nguồn. Trong trường hợp này, cấu trúc thu được có thể là “trong suốt” (có thể giải thích được) hoặc “hộp đen” (không thể giải thích được).

Hai nhóm này và các phương pháp trong đó được trình bày trong Hình 2. 4.


Cơm. 4. Phân loại các phương pháp công nghệ của IAD.

4.3.1. Sử dụng trực tiếp dữ liệu đào tạo

Thuật toán Lazy-Learning tổng quát, thuộc nhóm đang được xem xét, trông như thế này (mô tả thuật toán được lấy từ đó). Một ví dụ được cung cấp cho đầu vào của bộ phân loại và dự đoán về lớp bao gồm nó sẽ được mong đợi ở đầu ra. Mỗi ví dụ được biểu diễn bằng một điểm trong không gian đa chiều gồm các thuộc tính (thuộc tính) thuộc một lớp nhất định. Mỗi thuộc tính chấp nhận các giá trị liên tục hoặc các giá trị rời rạc từ một tập hợp cố định. Ví dụ, lớp có nhiều khả năng nhất sẽ được trả về.

Một đặc điểm riêng của thuật toán k-láng giềng gần nhất là phương pháp xác định xác suất hậu nghiệm của một mẫu thuộc một lớp:

trong đó trả về 1 khi các đối số bằng nhau hoặc 0 nếu ngược lại, là hàm lân cận được xác định là

a là tập k lân cận gần nhất trong tập các mẫu huấn luyện đã biết, độ gần của mẫu đó với mẫu đang được phân loại được xác định bởi hàm khoảng cách. Phương pháp k-láng giềng gần nhất tính toán khoảng cách từ mỗi hàng bằng công thức:

hơn nữa, r=2 (không gian Euclide) thường được giả định nhiều nhất và hàm, tùy thuộc vào loại thuộc tính, được xác định theo các cách sau:

w(f) là hàm theo trọng số của thuộc tính f. Trong thuật toán lân cận gần nhất k thuần túy:

nghĩa là hàm này được coi là một hằng số.

Phương pháp lân cận gần nhất là trường hợp đặc biệt của phương pháp lân cận gần nhất k với k=1. Các thuật toán phức tạp hơn như Lazy-Learning dựa trên cùng một thuật toán tổng quát [ , , ], nhưng hoặc xác định xác suất hậu nghiệm của các mẫu thuộc về các lớp, hoặc (ví dụ như Thuật toán mẫu tổng quát lồng nhau) làm phức tạp việc tính toán hàm w(f).

Điểm đặc biệt của nhóm phương pháp này là việc dự đoán các giá trị chưa biết được thực hiện dựa trên so sánh rõ ràng giữa một đối tượng mới (ví dụ) với các ví dụ đã biết. Trong trường hợp số lượng mẫu huấn luyện lớn, để không phải quét tuần tự toàn bộ tập huấn luyện để phân loại từng mẫu mới, đôi khi kỹ thuật lấy mẫu một tập con tương đối nhỏ “đại diện điển hình” của các mẫu huấn luyện được sử dụng, dựa trên so sánh. với việc phân loại được thực hiện. Tuy nhiên, kỹ thuật này nên được sử dụng một cách thận trọng vì một số mẫu thiết yếu có thể không được phản ánh trong tập hợp con đã chọn.

Đối với đại diện nổi tiếng nhất của nhóm này - phương pháp k-láng giềng gần nhất - nó phù hợp hơn với những lĩnh vực chủ đề mà thuộc tính đối tượng chủ yếu là số, vì việc xác định khoảng cách giữa các ví dụ trong trường hợp này tự nhiên hơn so với các thuộc tính rời rạc.

4.3.2. Xác định và sử dụng các mẫu chính thức

Các phương pháp trong nhóm này trích xuất các phụ thuộc phổ biến từ một tập hợp dữ liệu và sau đó cho phép chúng được áp dụng trong thực tế. Chúng khác nhau:

  • theo loại thông tin được truy xuất (được xác định bởi nhiệm vụ đang được giải quyết - xem phân loại nhiệm vụ IAD ở trên);
  • bằng cách trình bày các mẫu tìm được.

Chủ nghĩa hình thức được chọn để diễn đạt các định luật cho phép chúng ta phân biệt ba cách tiếp cận khác nhau, mỗi cách đều bắt nguồn từ các nhánh tương ứng của toán học:

  • phương pháp lập bảng chéo;
  • phương pháp quy nạp logic;
  • các phương pháp rút ra phương trình.

Các phương thức Boolean linh hoạt nhất theo nghĩa là chúng có thể hoạt động với cả các loại thuộc tính số và các loại thuộc tính khác. Việc xây dựng các phương trình yêu cầu chuyển tất cả các thuộc tính về dạng số, trong khi việc lập bảng chéo, ngược lại, yêu cầu chuyển đổi từng thuộc tính số thành một tập hợp các khoảng rời rạc.

Phương pháp lập bảng chéo

Lập bảng chéo là một hình thức phân tích đơn giản được sử dụng rộng rãi trong báo cáo xử lý phân tích trực tuyến (OLAP). Bảng chéo hai chiều là một ma trận các giá trị, mỗi ô nằm ở giao điểm của các giá trị thuộc tính. Như đã đề cập, việc mở rộng ý tưởng biểu diễn bảng chéo cho trường hợp mô hình thông tin siêu khối là cơ sở của phân tích dữ liệu đa chiều, do đó nhóm phương pháp này có thể được coi là sự cộng sinh của phân tích vận hành đa chiều và khai thác dữ liệu .

Trực quan hóa bảng chéo là cách thực hiện đơn giản nhất ý tưởng tìm kiếm thông tin trong dữ liệu bằng phương pháp lập bảng chéo. Nói đúng ra, phương pháp này không hoàn toàn phù hợp với đặc tính đã lưu ý của IAD - sự chuyển đổi sáng kiến ​​​​sang hệ thống trong giai đoạn tìm kiếm tự do. Trên thực tế, trực quan hóa chéo bảng là một phần của chức năng OLAP. Ở đây hệ thống chỉ cung cấp một ma trận các chỉ báo mà nhà phân tích có thể nhìn thấy một mẫu hình. Nhưng chính việc cung cấp bảng chéo như vậy nhằm mục đích tìm kiếm “các mẫu thông tin” trong dữ liệu để hỗ trợ việc ra quyết định, nghĩa là nó đáp ứng định nghĩa trên về IAD. Vì vậy, không phải ngẫu nhiên mà nhiều tác giả vẫn phân loại trực quan hóa bảng chéo là phương pháp IAD.

Các phương pháp IAD của nhóm lập bảng chéo cũng bao gồm việc sử dụng Mạng Bayesian, dựa trên định lý lý thuyết xác suất của Bayes để xác định xác suất sau của nhóm hoàn chỉnh các sự kiện không tương thích theo cặp theo xác suất trước đó của chúng:

Mạng Bayesian đã được sử dụng tích cực để chính thức hóa kiến ​​thức của các chuyên gia trong các hệ thống chuyên gia, nhưng gần đây đã bắt đầu được sử dụng trong IAD để trích xuất kiến ​​thức từ dữ liệu.

Sau khi tỉa cây, các nút đầu cuối khác nhau của nó sẽ ở các cấp độ khác nhau, nghĩa là đường dẫn đến chúng bao gồm một số lần kiểm tra khác nhau về các giá trị thuộc tính; nói cách khác, để đến các nút đầu cuối nằm ở cấp độ cao của cây, giá trị của nhiều thuộc tính hoàn toàn không được xem xét. Vì vậy, khi xây dựng cây quyết định, thứ tự kiểm tra các thuộc tính tại các nút quyết định là rất quan trọng.

Chiến lược được sử dụng trong các thuật toán quy nạp cây quyết định được gọi là chiến lược chia để trị, trái ngược với chiến lược tách để chinh phục mà nhiều thuật toán quy tắc quy nạp dựa trên đó. Quinlan đã mô tả thuật toán phân tách và thu thập sau đây.

Nhiều thuộc tính;
- tập hợp các giá trị thuộc tính có thể có (do đó, các miền định nghĩa các thuộc tính liên tục để xây dựng cây quyết định cũng phải được chia thành một tập hữu hạn các khoảng).

Quinlan đề xuất tính điểm E như sau. Hãy cho nút hiện tại:

Số lượng ví dụ tích cực;
- số lượng ví dụ tiêu cực;
- số lượng các ví dụ tích cực có giá trị cho ;
- số lượng ví dụ phủ định có giá trị cho .

Điểm điện tử là thước đo lý thuyết thông tin dựa trên entropy. Nó cho thấy mức độ không chắc chắn về phân loại phát sinh khi sử dụng thuộc tính được đề cập trong nút quyết định. Do đó, thuộc tính có điểm E thấp nhất được coi là có khả năng phân loại cao nhất. Tuy nhiên, điểm E được xác định theo cách này cũng có nhược điểm: cụ thể là nó mang lại lợi thế cho các thuộc tính có số lượng giá trị lớn khi xây dựng cây. Vì vậy, một số công trình [,] đề xuất sửa đổi ước tính điện tử để loại bỏ những thiếu sót này.

Việc cắt tỉa cây quyết định để cải thiện độ chính xác dự đoán khi phân loại các mẫu mới thường được thực hiện trên cây đầy đủ đã được xây dựng, nghĩa là thực hiện quy trình đơn giản hóa sau. Di chuyển từ dưới lên trên, các nút quyết định với các cây con tương ứng được thay thế bằng các nút cuối cho đến khi thước đo heuristic nhất định được tối ưu hóa.

quy tắc cảm ứng

Sự phổ biến của cây quyết định bắt nguồn từ tốc độ xây dựng và tính dễ sử dụng trong phân loại. Hơn nữa, cây quyết định có thể dễ dàng chuyển đổi thành tập hợp các quy tắc tượng trưng bằng cách tạo ra một quy tắc từ mỗi đường dẫn từ nút gốc đến nút cuối. Tuy nhiên, các quy tắc trong tập hợp như vậy sẽ không chồng chéo, vì trong cây quyết định, mỗi ví dụ có thể được gán cho một và chỉ một nút đầu cuối. Tổng quát hơn (và thực tế hơn) là trường hợp tồn tại một lý thuyết bao gồm một tập hợp các quy tắc biểu tượng chồng chéo không phân cấp. Một phần quan trọng của các thuật toán thực hiện việc tạo ra các bộ quy tắc như vậy được kết hợp với chiến lược tách và thu thập (tách và chinh phục), hoặc che phủ (che phủ), bắt đầu từ công trình của R. Michalski [,] . Thuật ngữ "tách và bắt" được Pagallo và Haussler đưa ra, người đã mô tả chiến lược cảm ứng này như sau:

  • tạo ra một quy tắc bao trùm một phần của tập huấn luyện;
  • xóa các ví dụ thuộc quy tắc đó khỏi tập huấn luyện (tách);
  • lần lượt học các quy tắc khác bao gồm các nhóm mẫu còn lại (bắt) cho đến khi tất cả các mẫu đã được giải thích.

Cơm. Hình 5 trình bày thuật toán chung để tạo quy tắc bằng phương pháp tách và bắt. Các tùy chọn triển khai khác nhau cho các chương trình con được gọi trong thuật toán chung xác định sự đa dạng của các phương pháp phân tách và thu thập đã biết.


Cơm. 5. Thuật toán tách và bắt chung cho quy tắc quy nạp.

Thuật toán SEPARATEANDCONQUER bắt đầu bằng một lý thuyết trống. Nếu có các mẫu dương trong tập huấn luyện, chương trình con FINDBESTRULE được gọi để truy xuất quy tắc bao gồm một phần của các mẫu dương. Sau đó, tất cả các ví dụ được đề cập sẽ được tách khỏi tập huấn luyện, quy tắc được tạo sẽ được đưa vào lý thuyết và quy tắc tiếp theo sẽ được tìm kiếm từ các ví dụ còn lại. Các quy tắc được truy xuất cho đến khi không còn ví dụ tích cực nào hoặc cho đến khi tiêu chí dừng RULESTOPPINGCRITERION được thỏa mãn. Thông thường, lý thuyết thu được sẽ được xử lý hậu kỳ bằng POSTPROCESS.

Thủ tục FINDBESTRULE tìm kiếm không gian giả thuyết cho một quy tắc tối ưu hóa tiêu chí chất lượng đã chọn được mô tả trong ĐÁNH GIÁ. Giá trị của hàm heuristic này, theo quy luật, càng cao thì quy tắc ứng viên càng bao quát được nhiều ví dụ tích cực và ít tiêu cực hơn. FINDBESTRULE xử lý các Quy tắc, một danh sách có thứ tự các quy tắc ứng viên được tạo ra bởi thủ tục INITIALIZERULE.

Các quy tắc mới luôn được chèn vào đúng vị trí (INSERTSORT), do đó các Quy tắc luôn là một danh sách, được sắp xếp theo thứ tự giảm dần của các đánh giá heuristic về các quy tắc. Trong mỗi vòng lặp, SELECTCANDIDATES chọn một tập hợp con các quy tắc ứng viên, sau đó được xóa trong REFINERULE. Mỗi kết quả dọn dẹp được đánh giá và chèn vào danh sách Quy tắc đã sắp xếp, trừ khi STOPPINGCRITERION ngăn chặn điều này. Nếu điểm NewRule tốt hơn quy tắc tốt nhất được tìm thấy trước đó thì giá trị NewRule sẽ được gán cho biến BestRule. FILTERRULES chọn một tập hợp con của danh sách quy tắc được sắp xếp để sử dụng trong các lần lặp tiếp theo. Khi tất cả các quy tắc ứng cử viên đã được xử lý, quy tắc tốt nhất sẽ được trả về.

Thách thức chính mà các thuật toán quy tắc quy nạp phải đối mặt vẫn là tránh trang bị quá mức khi sử dụng dữ liệu nhiễu. Việc tránh trang bị quá mức trong thuật toán tách và chụp có thể xử lý nhiễu:

So sánh khả năng của cây quyết định và quy tắc quy nạp

Cây quy tắc và cây quyết định, là những cách giải quyết cùng một vấn đề, có sự khác biệt đáng kể về khả năng của chúng. Mặc dù cây quyết định được sử dụng rộng rãi, nhưng việc quy nạp quy tắc, vì một số lý do được nêu trong [ , , ], dường như là một cách tiếp cận thích hợp hơn.

Mặt khác, việc quy nạp quy tắc được thực hiện bằng các thuật toán phức tạp hơn (và chậm hơn) nhiều so với quy tắc quy nạp. Đặc biệt khó khăn lớn nảy sinh với việc đơn giản hóa lý thuyết được xây dựng, trái ngược với sự đơn giản của việc cắt tỉa cây quyết định, điều mà Furnkranz đã chú ý đến: việc cắt tỉa các nhánh trong cây quyết định sẽ không bao giờ ảnh hưởng đến các nhánh lân cận, trong khi việc cắt tỉa các điều kiện của một quy tắc sẽ ảnh hưởng đến tất cả các nhánh. các quy tắc trùng lặp với nó (Hình 6).


Cơm. 6. Tuyển sinh học thuật toán
(a) tách và thu và (b) tách và thu.

Cơm. 6(a) minh họa công việc hậu đơn giản hóa trong việc xây dựng cây quyết định. Nửa bên phải của cây quá phức tạp được bao phủ bởi tập C và D của các ví dụ huấn luyện. Khi thuật toán đơn giản hóa quyết định cắt bớt hai đỉnh cuối này, nút sinh ra chúng sẽ trở thành nút cuối, hiện được bao phủ bởi các ví dụ. Nhánh bên trái của cây quyết định không bị ảnh hưởng bởi thao tác này.

Mặt khác, việc loại bỏ các điều kiện khỏi một quy tắc có nghĩa là khái quát hóa nó, tức là dưới một hình thức mới, nó sẽ bao gồm nhiều ví dụ tích cực hơn và nhiều ví dụ tiêu cực hơn. Do đó, những ví dụ tích cực và tiêu cực bổ sung này phải được loại trừ khỏi tập huấn luyện để không ảnh hưởng đến việc tạo ra các quy tắc tiếp theo. Trong trường hợp trong hình. 6(b) quy tắc đầu tiên trong ba quy tắc đơn giản hóa và bắt đầu bao gồm không chỉ các ví dụ được đề cập trong phiên bản gốc mà còn bao gồm tất cả các ví dụ mà quy tắc thứ ba đề cập đến, cũng như một số ví dụ mà quy tắc thứ hai đề cập đến. Nếu quy tắc thứ ba có thể được loại bỏ một cách đơn giản bằng thuật toán hậu đơn giản hóa, thì tình huống với tập ví dụ B2 còn lại không đơn giản như vậy. Quy tắc thứ hai đương nhiên bao gồm tất cả các ví dụ của tập B2, bởi vì nó được tạo ra để bao gồm các ví dụ của tập B chứa nó. Tuy nhiên, rất có thể một quy tắc khác sẽ phù hợp hơn để tách các ví dụ dương của B2 khỏi những ví dụ tiêu cực còn lại. Việc xử lý chính xác các tình huống như vậy đòi hỏi phải tích hợp chặt chẽ các quy trình tiền đơn giản hóa và hậu đơn giản hóa, điều này làm phức tạp đáng kể thuật toán quy tắc quy nạp và làm giảm hiệu suất của nó.

Do đó, dựa trên sự so sánh, chúng ta có thể kết luận rằng việc xây dựng cây quyết định là hợp lý trong các bài toán đơn giản với một lượng nhỏ thông tin ban đầu do tính đơn giản và tốc độ quy nạp của chúng. Tuy nhiên, khi phân tích khối lượng lớn dữ liệu được tích lũy trong kho, việc sử dụng các phương pháp quy nạp quy tắc được ưu tiên hơn, mặc dù chúng tương đối phức tạp.

Các phương pháp rút ra phương trình

Các phương pháp phái sinh phương trình cố gắng thể hiện các mẫu ẩn trong dữ liệu dưới dạng biểu thức toán học. Do đó, chúng chỉ có thể hoạt động với các thuộc tính thuộc loại số, trong khi các thuộc tính khác phải được mã hóa giả tạo bằng các giá trị số. Điều này đặt ra một số vấn đề hạn chế việc sử dụng các phương pháp này trong thực tế. Tuy nhiên, chúng được sử dụng rộng rãi trong nhiều ứng dụng.

Số liệu thống kê

Các phương pháp phân tích thống kê cổ điển được sử dụng thường xuyên nhất trong các công cụ IAD để giải quyết vấn đề dự báo.

  1. Xác định các xu hướng trong chuỗi thời gian. Xu hướng mức trung bình có thể được trình bày dưới dạng biểu đồ hoặc hàm phân tích, xung quanh giá trị mà các giá trị thực tế của các mức của quá trình đang nghiên cứu là khác nhau. Thông thường, các xu hướng ở mức trung bình được gọi là thành phần xác định của quá trình và chuỗi thời gian tương ứng được biểu thị bằng phương trình , trong đó mức của chuỗi tại thời điểm t, là thành phần xác định của chuỗi, là thành phần ngẫu nhiên. Thành phần xác định thường được biểu diễn bằng một hàm phân tích khá đơn giản - tuyến tính, parabol, hyperbol, mũ - có các tham số được chọn theo dữ liệu lịch sử để ước tính tốt hơn dữ liệu lịch sử.
  2. Phân tích hài hòa. Trong nhiều trường hợp, việc làm trơn chuỗi thời gian bằng cách sử dụng phương pháp xác định xu hướng không mang lại kết quả khả quan vì hiện tượng tự tương quan được quan sát thấy trong phần dư. Nguyên nhân của sự tự tương quan của phần dư có thể là do những dao động định kỳ đáng chú ý thường thấy trong chuỗi động lực so với xu hướng đã xác định. Trong những trường hợp như vậy, người ta nên sử dụng phương pháp phân tích điều hòa, nghĩa là tách thành phần tuần hoàn khỏi chuỗi động. Dựa trên kết quả tách xu hướng và thành phần định kỳ khỏi chuỗi thời gian, dự báo thống kê của quá trình có thể được thực hiện bằng cách sử dụng nguyên tắc ngoại suy, với giả định rằng các tham số của xu hướng và biến động sẽ giữ nguyên cho dự báo. kỳ [, P. 304].
  3. Phân tích tương quan và hồi quy. Không giống như kết nối chức năng (được xác định nghiêm ngặt), kết nối thống kê (xác định ngẫu nhiên) giữa các biến xảy ra khi, với sự thay đổi giá trị của một trong số chúng, biến thứ hai có thể, trong một số giới hạn nhất định, đảm nhận bất kỳ giá trị nào với một số xác suất, nhưng giá trị trung bình của nó hoặc các đặc tính thống kê khác thay đổi theo một quy luật nhất định [, trang 191-192]. Một trường hợp đặc biệt của mối quan hệ thống kê, khi các giá trị khác nhau của một biến tương ứng với các giá trị trung bình khác nhau của biến khác, đó là mối quan hệ tương quan. Theo bản chất của mối tương quan, nghiên cứu của nó có hai mục tiêu:
    1) đo các tham số của phương trình biểu thị mối quan hệ giữa giá trị trung bình của các biến phụ thuộc và giá trị của biến độc lập (sự phụ thuộc của các giá trị trung bình của đặc tính tổng vào các giá trị của đặc điểm của yếu tố);
    2) đo mức độ gần gũi của kết nối giữa các tính năng [, trang 195-196].
    Phương pháp phân tích hồi quy tương quan đã được nghiên cứu kỹ lưỡng [, 19, 29] và được sử dụng rộng rãi trong thực tế. Tuy nhiên, nó có một số hạn chế:
    1) để đảm bảo đủ độ chính xác và độ tin cậy, số lượng quan sát phải lớn hơn hàng chục hoặc hàng trăm lần số lượng hệ số, sao cho luật số lớn, vận hành toàn lực, đảm bảo loại bỏ hiệu quả lẫn nhau các sai lệch ngẫu nhiên so với tự nhiên. bản chất của mối quan hệ của các dấu hiệu;
    2) để thể hiện một cách đáng tin cậy một mẫu dựa trên giá trị trung bình, cần có sự đồng nhất chất lượng đủ cao của tổng thể để các tham số tương quan không bị biến dạng; Ngoài ra, đôi khi, như một điều kiện để phân tích tương quan, cần phải đặt sự phân bố của tổng thể theo đặc điểm tổng hợp và yếu tố phụ thuộc vào quy luật phân bố xác suất thông thường (điều kiện này gắn liền với việc sử dụng phương pháp bình phương tối thiểu khi tính toán các tham số tương quan - chỉ với phân phối chuẩn, nó mới đưa ra ước tính các tham số đáp ứng các nguyên tắc về khả năng tối đa), mặc dù trên thực tế, ngay cả khi đáp ứng gần đúng điều kiện tiên quyết này, phương pháp bình phương tối thiểu cho kết quả tốt [, P. 14 ];
    3) phương pháp phân tích tương quan hồi quy không thể giải thích được vai trò của đặc điểm nhân tố trong việc tạo ra đặc tính hiệu quả [, P. 198];
    4) các chỉ số tương quan chỉ nên được giải thích theo các biến thể trong đặc điểm kết quả và yếu tố; nếu nhiệm vụ là đo lường mối quan hệ giữa những thay đổi về đặc điểm của một đối tượng theo thời gian thì phương pháp phân tích tương quan – hồi quy đòi hỏi những thay đổi đáng kể (cần nghiên cứu mối tương quan của chuỗi thời gian) [ ; , trang 307-313].
    Các mô hình hồi quy tương quan (CRM) thu được thường khá dễ hiểu và có thể được sử dụng trong mô hình dự đoán. Tuy nhiên, như đã lưu ý ở trên, không thể áp dụng kiểu phân tích này nếu không có kiến ​​thức sâu về lĩnh vực thống kê. Việc đào tạo lý thuyết của nhà phân tích đóng một vai trò đặc biệt quan trọng ở đây, vì vậy rất ít công cụ IAD hiện có cung cấp phương pháp phân tích hồi quy tương quan như một trong những công cụ xử lý dữ liệu.
  4. Sự tương quan của chuỗi thời gian. Vấn đề nghiên cứu mối quan hệ nhân quả theo thời gian là rất phức tạp và vẫn chưa có giải pháp hoàn chỉnh cho tất cả các vấn đề của một nghiên cứu như vậy [, P. 307]. Khó khăn chính là nếu có một xu hướng trong một khoảng thời gian đủ dài thì phần lớn tổng độ lệch bình phương đều có liên quan đến xu hướng đó; Hơn nữa, nếu hai đặc điểm có xu hướng thay đổi theo cùng một mức độ, thì điều này hoàn toàn không có nghĩa là có mối quan hệ nhân quả. Do đó, để có được các chỉ số tương quan thực sự, cần phải loại bỏ ảnh hưởng méo mó của các xu hướng - tính toán độ lệch so với xu hướng và đo lường mối tương quan của các biến động (toàn bộ công việc được dành để xem xét chi tiết phương pháp này). Tuy nhiên, không phải lúc nào cũng được phép chuyển kết luận về mối liên hệ chặt chẽ giữa các biến động sang mối liên hệ giữa các chuỗi động lực nói chung (theo ví dụ nêu trong [, P. 312], việc xem xét mối liên hệ giữa các biến động trong năng suất và sự biến động về lượng mưa giảm trong mùa hè, nhưng mối liên hệ giữa năng suất và liều lượng phân bón không thể giảm đi chỉ bằng mối tương quan của sự biến động).

Mạng lưới thần kinh

Mạng lưới thần kinh nhân tạo như một phương tiện xử lý thông tin được mô hình hóa bằng cách tương tự với các nguyên tắc hoạt động đã biết của mạng lưới thần kinh sinh học. Cấu trúc của chúng dựa trên các giả định sau [, P. 3]:

  • việc xử lý thông tin được thực hiện trong nhiều yếu tố đơn giản - tế bào thần kinh;
  • tín hiệu giữa các nơ-ron được truyền qua các kết nối từ đầu ra tới đầu vào;
  • mỗi kết nối được đặc trưng bởi trọng số mà tín hiệu truyền qua nó được nhân lên;
  • mỗi nơ-ron có một hàm kích hoạt (thường là phi tuyến), đối số của hàm này được tính bằng tổng của các tín hiệu đầu vào có trọng số và kết quả được coi là tín hiệu đầu ra.

Do đó, mạng nơ-ron là tập hợp các nút được kết nối, mỗi nút có đầu vào, đầu ra và hàm kích hoạt (thường là phi tuyến) (Hình 7). Họ có khả năng học hỏi từ một tập hợp các ví dụ đã biết trong tập huấn luyện. Mạng lưới thần kinh được đào tạo là một “hộp đen” (một mô hình dự đoán không thể giải thích hoặc rất khó diễn giải) có thể được sử dụng trong các vấn đề phân loại, phân cụm và dự báo.


Cơm. 7. Neuron có chức năng kích hoạt F; .

Huấn luyện mạng nơ-ron bao gồm việc điều chỉnh các hệ số trọng số kết nối đầu ra của một số nơ-ron với đầu vào của các nơ-ron khác. Huấn luyện mạng có thể được thực hiện bằng một trong hai kịch bản cơ bản:

Thông thường, các công cụ IAD sử dụng một loại mạng lưới thần kinh đặc biệt được đào tạo “với giáo viên” - perceptron nhiều lớp [, trang 54-55]. Trong bộ lễ phục. Hình 8 cho thấy một mạng lưới thần kinh như vậy với hai lớp nơ-ron, có ba biến đầu vào và ba biến đầu ra (nói chung, số lượng đầu vào, số lượng đầu ra, số lớp và số lượng nơ-ron ở mỗi lớp bên trong có thể là bất kỳ ). Đầu ra của mỗi nơ-ron của lớp trước được kết nối với đầu vào của mỗi nơ-ron của lớp tiếp theo.


Cơm. 8. Perceptron nhiều lớp được huấn luyện bằng thủ tục lan truyền ngược lỗi.

Việc điều chỉnh trọng số của perceptron nhiều lớp được thực hiện bằng thuật toán lan truyền ngược [, trang 56-69]. Trong quá trình huấn luyện, giả định rằng đối với mỗi vectơ đầu vào (tập hợp đầu vào) có một vectơ mục tiêu (tập hợp đầu ra) được ghép nối với nó và chúng cùng nhau tạo thành một cặp huấn luyện (ví dụ). Trước khi bắt đầu đào tạo, tất cả các trọng số phải được gán các giá trị ban đầu nhỏ, được chọn ngẫu nhiên, để ngăn ngừa các trường hợp bệnh lý không học được. Toàn bộ tập hợp các cặp huấn luyện tạo thành tập huấn luyện. Huấn luyện mạng yêu cầu các hoạt động sau:

  1. chọn một cặp huấn luyện từ tập huấn luyện;
  2. gửi vectơ đầu vào của cặp huấn luyện vào đầu vào mạng;
  3. tính toán đầu ra của mạng;
  4. tính toán sự khác biệt giữa đầu ra mạng và vectơ mục tiêu của cặp huấn luyện;
  5. điều chỉnh trọng số mạng để giảm thiểu lỗi;
  6. lặp lại các bước 1-5 cho mỗi cặp của tập huấn luyện cho đến khi lỗi trên toàn bộ tập đạt đến mức chấp nhận được.

Việc huấn luyện sử dụng phương pháp lan truyền ngược được thực hiện từng lớp, bắt đầu từ lớp đầu ra, ở bước 4 và 5.

Là “các công cụ xấp xỉ phổ quát”, các perceptron có thể học các mẫu khá phức tạp, trái ngược với các mô hình hồi quy, trong đó loại hàm gần đúng được chọn từ một tập hợp có thể giới hạn. Nhưng tính linh hoạt này cũng có một nhược điểm - số bậc tự do của mô hình dự đoán được tạo ra thường vượt quá số lượng ví dụ được sử dụng để huấn luyện. Điều này có nghĩa là mạng lưới thần kinh có thể “học” ngay cả từ một dãy số ngẫu nhiên được tạo ra. Thật vậy, khi sử dụng mạng lưới thần kinh để giải bài toán thử nghiệm phân tích thị trường chứng khoán được đưa ra trong các chương trình, nó giải thích một cách hoàn hảo mọi biến động của thị trường trong quá khứ nhưng không đưa ra dự báo hợp lý cho tương lai. Có thể cải thiện độ chính xác dự đoán của mạng được huấn luyện bằng cách chỉ sử dụng một phần nhất định của tập huấn luyện để huấn luyện mạng thần kinh, trong khi phần còn lại của ví dụ được sử dụng để kiểm tra tính đầy đủ của mô hình đã tạo trên dữ liệu chưa xác định; Đồng thời, bạn nên cố gắng huấn luyện mạng với cấu hình ít phức tạp nhất có thể để giảm số bậc tự do.

Có một số nhược điểm khác làm hạn chế việc sử dụng mạng nơ-ron làm công cụ IAD.

Vấn đề chính của việc huấn luyện mạng nơ-ron là tổng hợp cấu trúc mạng có khả năng học trên một tập huấn luyện nhất định. Không có gì đảm bảo rằng quá trình huấn luyện mạng có cấu trúc nhất định sẽ không dừng lại trước khi đạt đến ngưỡng lỗi có thể chấp nhận được hoặc sẽ không rơi xuống mức tối thiểu cục bộ. Mặc dù mạng nhiều lớp được sử dụng rộng rãi để phân loại và xấp xỉ hàm, các tham số cấu trúc của chúng vẫn cần được xác định thông qua thử và sai. Theo kết luận, các kết quả lý thuyết hiện tại chỉ cung cấp những hướng dẫn yếu cho việc lựa chọn các thông số này trong các ứng dụng thực tế.

Do đó, mạng nơ-ron, một công cụ IDA khá mạnh mẽ và linh hoạt, nên được sử dụng một cách thận trọng và không phù hợp với mọi vấn đề yêu cầu khai thác dữ liệu của công ty.

4.3.3. kết luận

Như có thể thấy từ quá trình xem xét, không có phương pháp nào được xem xét có khả năng thực hiện tất cả các nhiệm vụ cung cấp hỗ trợ cho các quyết định quản lý dựa trên việc khai thác nội dung của kho dữ liệu. Nhưng hầu hết các hệ thống phân tích thông minh hiện có trên thị trường đều triển khai một hoặc ba phương pháp (ví dụ: Pilot Discovery Server của Pilot Software Inc. và Information Harvester của Information Harvester Corp. - chỉ cây quyết định, Idis của Information Discovery Inc. - cây quyết định và cảm ứng quy tắc, Darwin từ Máy tư duy - mạng lưới thần kinh, cây quyết định và trực quan hóa dữ liệu, MineSet từ Silicon Graphics - cây quyết định, tạo ra các quy tắc kết hợp và trực quan hóa dữ liệu), do đó, trong các ứng dụng thực tế, để không mất một số lượng lớn các mẫu quan trọng, theo quy luật, cần phải sử dụng một số công cụ khác nhau. Ngoài ra, nhiều công cụ không cho phép làm việc trực tiếp với kho dữ liệu, đòi hỏi phải chuẩn bị sơ bộ dữ liệu nguồn để phân tích dưới dạng tệp phẳng có cấu trúc cố định, điều này cũng làm phức tạp việc sử dụng thực tế của chúng.

5. Tính bổ sung của OLAP và IAD

Xử lý phân tích hoạt động và khai thác dữ liệu là hai thành phần của quy trình hỗ trợ quyết định. Nhưng ngày nay, hầu hết các hệ thống OLAP chỉ tập trung vào việc cung cấp quyền truy cập vào dữ liệu đa chiều và hầu hết các công cụ phân tích mẫu đều xử lý các khía cạnh dữ liệu một chiều. Hai loại phân tích này phải được kết hợp chặt chẽ, nghĩa là hệ thống OLAP không chỉ phải tập trung vào khả năng truy cập mà còn phải tập trung vào việc tìm kiếm các mẫu.


Cơm. 9. Kiến trúc hệ thống khai thác dữ liệu đa chiều.

Mục tiêu lý tưởng của việc xây dựng hệ thống phân tích và thông tin công ty là tạo ra DSS chu trình khép kín. Như N. Raden đã lưu ý, “nhiều công ty đã tạo ra… kho dữ liệu tuyệt vời, lý tưởng là sắp xếp vào các kệ hàng núi thông tin không được sử dụng, bản thân chúng không cung cấp phản ứng nhanh chóng hoặc đủ hiệu quả cho các sự kiện thị trường” [, P. 39] . Trong các khu vực đặc biệt năng động (ví dụ: trong bán lẻ), nơi tình hình thay đổi hàng ngày, việc ra quyết định kịp thời và hiệu quả không được đảm bảo ngay cả khi sử dụng các công cụ OLAP và IAD thông thường. Chúng phải được tích hợp với nhau và có phản hồi về hệ thống xử lý dữ liệu nguồn để kết quả của DSS được truyền ngay lập tức dưới dạng hành động kiểm soát đến hệ thống vận hành. Do đó, công ty bán lẻ lớn nhất của Mỹ Wal-Mart đang phát triển DSS chu trình khép kín)