Hệ thống CNTT chống thiên tai: cách triển khai chúng trong công ty của bạn. Các loại đặt phòng

Hãy tưởng tượng hôm nay trung tâm dữ liệu (hoặc máy chủ chiến đấu) của bạn bị hỏng. Anh ta chỉ lấy nó và rơi xuống. Như thực tế cho thấy, không phải ai cũng sẵn sàng cho việc này:

93% công ty bị mất trung tâm dữ liệu từ 10 ngày trở lên do thảm họa đã phá sản trong vòng một năm (Cục Quản lý Hồ sơ và Lưu trữ Quốc gia ở Washington)
140.000 ổ cứng bị lỗi ở Mỹ mỗi tuần (Sao lưu trực tuyến Mozy)
75% doanh nghiệp không có giải pháp khắc phục thảm họa(Nghiên cứu Forrester, Inc.)
34% công ty không kiểm tra các bản sao lưu.
77% số thử nghiệm đó tìm thấy các ổ đĩa không thể đọc được trong thư viện của họ.

Trong các bài đăng trước (một và hai), tôi đã viết về các biện pháp tổ chức sẽ tăng tốc và tạo điều kiện thuận lợi cho việc khôi phục hệ thống CNTT và các quy trình liên quan của công ty trong quá trình khẩn cấp.

Bây giờ hãy nói về các giải pháp kỹ thuật sẽ giúp giải quyết vấn đề này. Giá của chúng dao động từ vài nghìn đến hàng trăm nghìn đô la.

Tính sẵn sàng cao và khắc phục thảm họa

Rất thường xuyên, các giải pháp về tính sẵn sàng cao (HA - High Availability) và khắc phục thảm họa (DR - Disaster Recovery) bị nhầm lẫn. Trước hết, khi nói về tính liên tục trong kinh doanh, chúng tôi muốn nói đến một địa điểm dự phòng. Liên quan đến CNTT – trung tâm dữ liệu dự phòng. Kinh doanh liên tục không phải là về hỗ trợđến thư viện ở quầy tiếp theo (điều này cũng rất quan trọng). Điều này có nghĩa là tòa nhà chính của công ty sẽ bị thiêu rụi và trong vài giờ hoặc vài ngày nữa, chúng tôi sẽ có thể tiếp tục công việc, quay lại địa điểm mới:
Điều này có nghĩa là cần có một trung tâm dữ liệu dự phòng. Các lựa chọn là gì? Thông thường có ba: dự trữ nóng, ấm và lạnh.

Dự trữ lạnh

Dự trữ lạnh ngụ ý rằng có một phòng máy chủ nhất định mà bạn có thể mang thiết bị vào và triển khai nó ở đó. Trong quá trình khôi phục, có thể dự định mua phần cứng hoặc cất giữ trong nhà kho. Bạn cần lưu ý rằng hầu hết các hệ thống đều được cung cấp theo đơn đặt hàng và bạn có thể nhanh chóng tìm thấy hàng chục đơn vị máy chủ, hệ thống lưu trữ, thiết bị chuyển mạch, v.v. sẽ là một nhiệm vụ không hề nhỏ. Là một giải pháp thay thế cho việc lưu trữ thiết bị nội bộ, bạn có thể cân nhắc việc lưu trữ thiết bị quan trọng hoặc hiếm nhất của mình trong kho của nhà cung cấp. Đồng thời, các kênh viễn thông phải có mặt tại cơ sở nhưng việc ký kết hợp đồng với nhà cung cấp thường diễn ra sau khi có quyết định triển khai trung tâm dữ liệu “lạnh”. Việc khôi phục hoạt động của một trung tâm dữ liệu như vậy trong trường hợp trang web chính gặp sự cố nghiêm trọng có thể mất vài tuần. Đảm bảo rằng công ty của bạn có thể tồn tại trong vài tuần này mà không cần CNTT và không bị mất hoạt động kinh doanh (ví dụ: do bị thu hồi giấy phép hoặc thiếu hụt tiền mặt không thể khắc phục) - Tôi đã viết về điều này trước đó. Thành thật mà nói, tôi sẽ không giới thiệu tùy chọn đặt phòng này cho bất kỳ ai. Có lẽ tôi đã phóng đại vai trò của CNTT trong hoạt động kinh doanh của một số công ty.

Dự trữ ấm áp

Điều này có nghĩa là chúng tôi có một địa điểm thay thế có các kênh Internet và WAN đang hoạt động, cơ sở hạ tầng máy tính và viễn thông cơ bản. Nó luôn “yếu” hơn cái chính về khả năng tính toán, có thể thiếu một số thiết bị ở đó. Điều quan trọng nhất là luôn có bản sao lưu dữ liệu cập nhật trên trang web. Sử dụng phương pháp cũ, bạn có thể tổ chức chuyển thường xuyên các bản sao lưu trên băng từ đó. Phương pháp hiện đại là sao chép các bản sao lưu qua mạng từ trung tâm dữ liệu chính. Sử dụng tính năng sao lưu chống trùng lặp sẽ cho phép bạn nhanh chóng chuyển các bản sao lưu ngay cả qua kênh “mỏng” giữa các trung tâm dữ liệu.

Chế độ chờ nóng

Đây là sự lựa chọn của những người cứng rắn hỗ trợ các hệ thống CNTT, những người có thời gian ngừng hoạt động dù chỉ trong vài giờ sẽ mang lại tổn thất lớn cho công ty. Mọi thứ đều ở đây thiết bị cần thiếtđể vận hành đầy đủ hệ thống CNTT. Thông thường, nền tảng của trang web đó là hệ thống lưu trữ dữ liệu, trên đó dữ liệu từ trung tâm dữ liệu chính được phản ánh đồng bộ hoặc không đồng bộ. Để khoản dự trữ nóng vào giờ X có thể lấy lại số tiền đã đầu tư vào đó, việc chuyển thử hệ thống thường xuyên phải được thực hiện, cài đặt và phiên bản hệ điều hành của máy chủ trên trang chính và trang dự phòng phải được đồng bộ hóa liên tục - bằng tay hoặc tự động.

Nhược điểm của nguồn dự trữ nóng và ấm là các thiết bị đắt tiền nằm im chờ thảm họa. Cách thoát khỏi tình trạng này là chiến lược trung tâm dữ liệu phân tán. Với tùy chọn này, hai (hoặc nhiều) nền tảng có quyền ngang nhau - hầu hết các ứng dụng có thể chạy trên cả nền tảng này và nền tảng kia. Điều này cho phép bạn sử dụng sức mạnh của tất cả các thiết bị và đảm bảo cân bằng tải. Mặt khác, yêu cầu tự động hóa việc chuyển giao dịch vụ CNTT giữa các trung tâm dữ liệu ngày càng tăng cao. Nếu cả hai trung tâm dữ liệu đều đang “chiến đấu”, doanh nghiệp có quyền kỳ vọng rằng nếu tải trên một trong các ứng dụng dự kiến đạt đỉnh thì nó có thể nhanh chóng được chuyển sang một trung tâm dữ liệu tự do hơn. Thông thường, trong các trung tâm dữ liệu như vậy có sự sao chép đồng bộ giữa các hệ thống lưu trữ, nhưng cũng có thể xảy ra hiện tượng không đồng bộ nhẹ (trong vòng vài phút).

Ba từ kỳ diệu

Trước khi chuyển thẳng sang các công nghệ chống chịu thảm họa cho dịch vụ CNTT, hãy để tôi nhắc bạn về ba từ “ma thuật” xác định chi phí của bất kỳ giải pháp DR nào: RTO, RPO, RCO.

RTO (Mục tiêu thời gian phục hồi) – thời gian có thể khôi phục hệ thống CNTT
RPO (Mục tiêu điểm khôi phục) - lượng dữ liệu sẽ bị mất trong quá trình khắc phục thảm họa
RCO (Mục tiêu về khả năng phục hồi) - phần tải nào sẽ được hệ thống dự phòng cung cấp. Chỉ số này có thể được đo bằng tỷ lệ phần trăm, giao dịch hệ thống CNTT và các đại lượng khác.

RPO

Sự phân chia đầu tiên mà chúng tôi có thể thực hiện giữa tất cả các giải pháp CNTT đa dạng để đảm bảo khả năng phục hồi sau thảm họa là liệu chúng có cung cấp RPO bằng 0 hay không. Không mất dữ liệu do lỗi được đảm bảo bằng cách sao chép đồng bộ. Thông thường, việc này được thực hiện ở cấp hệ thống lưu trữ, nhưng nó cũng có thể được triển khai ở cấp DBMS hoặc máy chủ (sử dụng LVM nâng cao). Trong trường hợp đầu tiên, máy chủ không nhận được xác nhận từ hệ thống lưu trữ mà nó hoạt động rằng việc ghi đã thành công cho đến khi hệ thống lưu trữ truyền giao dịch này đến hệ thống thứ hai và nhận được xác nhận từ hệ thống đó rằng việc ghi đã thành công.

100% hệ thống lưu trữ thuộc phân khúc giá trung bình và một số hệ thống cấp thấp của các hãng nổi tiếng có thể thực hiện nhân rộng đồng bộ. Chi phí của giấy phép để sao chép đồng bộ trên các hệ thống lưu trữ “đơn giản” bắt đầu từ vài nghìn đô la. Phần mềm sao chép ở cấp độ máy chủ cho 2-3 máy chủ có giá gần như nhau. Nếu hiện tại bạn chưa có trung tâm dữ liệu dự phòng, đừng quên cộng thêm chi phí mua thiết bị dự phòng.

RPO trong vài phút có thể được cung cấp bằng cách sao chép không đồng bộ ở cấp hệ thống lưu trữ, phần mềm quản lý khối máy chủ (LVM - Trình quản lý khối logic) hoặc DBMS. Cho đến nay, bản sao dự phòng của cơ sở dữ liệu vẫn là một trong những giải pháp phổ biến nhất cho DR. Thông thường, chức năng "vận chuyển nhật ký", như cách gọi của quản trị viên DBMS, không được nhà sản xuất cấp phép riêng. Nếu bạn có cơ sở dữ liệu được cấp phép, hãy nhân rộng để có biện pháp tốt. Chi phí sao chép không đồng bộ cho máy chủ và hệ thống lưu trữ không khác với sao chép đồng bộ, xem đoạn trước.

Nếu chúng ta đang nói về RPO trong vài giờ nữa, thì đó thường là việc sao chép các bản sao lưu từ trang này sang trang khác. Hầu hết các thư viện đĩa đều có thể thực hiện việc này và một số phần mềm sao lưu cũng có thể làm được. Như tôi đã nói, tính năng chống trùng lặp sẽ giúp ích rất nhiều cho tùy chọn này. Bạn sẽ không chỉ tải kênh ít hơn bằng cách chuyển các bản sao dự phòng mà còn thực hiện việc này nhanh hơn nhiều - mỗi bản sao lưu được chuyển sẽ mất ít thời gian hơn hàng chục hoặc hàng trăm lần so với thực tế. Mặt khác, chúng ta phải nhớ rằng bản sao lưu đầu tiên trong quá trình chống trùng lặp vẫn phải chuyển nhiều dữ liệu duy nhất vào hệ thống. Bạn sẽ thấy khả năng chống trùng lặp “thực sự” sau chu kỳ sao lưu kéo dài một tuần. Khi đồng bộ hóa thư viện đĩa - điều tương tự. Nếu thời gian truyền ước tính với độ rộng kênh của bạn giữa các trung tâm dữ liệu là vài ngày hoặc thậm chí vài tuần (có thể tốn rất nhiều chi phí), thì trước tiên bạn nên cài đặt thư viện thứ hai gần đó, thực hiện đồng bộ hóa và đưa nó đến trung tâm dữ liệu dự phòng.

Đồng bộ hóa các bản sao lưu giữa các trung tâm dữ liệu

RTO

Khi nhiệm vụ là giảm thiểu thời gian phục hồi ( RTO), quá trình này phải được ghi lại và tự động hóa nhất có thể. Một trong những điều tốt nhất và tốt nhất giải pháp phổ quát– Cụm HA với các nút phân tán về mặt địa lý. Thông thường, các giải pháp như vậy dựa trên việc sao chép bộ nhớ, nhưng cũng có thể áp dụng các tùy chọn khác. Các sản phẩm hàng đầu trong lĩnh vực này, chẳng hạn như Symantec Veritas Cluster, bao gồm các mô-đun để làm việc với hệ thống lưu trữ chuyển hướng sao chép khi cần khởi động lại dịch vụ trên nút sao lưu. Đối với các cụm kém tiên tiến hơn (ví dụ: Dịch vụ cụm của Microsoft, được tích hợp trong Windows), các nhà sản xuất hệ thống lưu trữ chính (IBM, EMC, HP) cung cấp các tiện ích bổ sung, biến cụm HA thông thường thành cụm có khả năng chống chịu thảm họa.

Cụm phân bố theo địa lý

Hiếm khi có ai nghĩ đến một tính năng thú vị của phần lớn các giải pháp sao chép dữ liệu - “khả năng tính phí một lần” của chúng. Bạn chỉ có thể nhận được một trạng thái dữ liệu tại trang dự phòng. Nếu hệ thống có dữ liệu này không khởi động vì lý do nào đó, chúng ta chuyển sang kế hoạch “B”. Thông thường đây là sự phục hồi từ bản sao lưu với sự mất mát dữ liệu lớn. Trong số các công nghệ tôi đã liệt kê, ngoại lệ duy nhất là việc sao chép các bản sao lưu giống nhau. Câu trả lời ở đây là sử dụng lớp giải pháp Bảo vệ dữ liệu liên tục. Bản chất của chúng là tất cả các bản ghi đến từ máy chủ đều được đánh dấu và lưu trữ trong một tập nhật ký cụ thể trên một trang sao lưu. Khi khôi phục hệ thống, bạn có thể chọn bất kỳ điểm nào từ nhật ký này và nhận được trạng thái không chỉ tại thời điểm xảy ra tai nạn trong đó dữ liệu bị hỏng mà còn trong vài giây. Các giải pháp như vậy bảo vệ khỏi mối đe dọa nội bộ—việc người dùng xóa dữ liệu. Trong trường hợp sao chép hệ thống lưu trữ, việc chuyển cái gì không quan trọng – ổ đĩa trống hoặc cơ sở dữ liệu quan trọng nhất của bạn. Khi sử dụng CDP, bạn có thể chọn thời điểm ngay trước khi thông tin bị xóa và khôi phục lại thông tin đó. Hệ thống CDP thường có giá hàng chục nghìn đô la. Theo tôi, một trong những ví dụ thành công nhất là EMC RecoverPoint.

Sơ đồ giải pháp dựa trên RecoverPoint

Gần đây, các hệ thống đã trở nên phổ biến ảo hóa lưu trữ. Ngoài chức năng chính - kết hợp các mảng từ các nhà cung cấp khác nhau thành một nhóm tài nguyên duy nhất - chúng có thể giúp ích rất nhiều trong việc tổ chức một trung tâm dữ liệu phân tán. Bản chất của ảo hóa lưu trữ là một lớp bộ điều khiển trung gian xuất hiện giữa máy chủ và hệ thống lưu trữ, truyền tất cả lưu lượng truy cập qua chúng. Khối lượng lưu trữ không được cung cấp trực tiếp cho máy chủ mà cho các bộ ảo hóa này. Họ lần lượt phân phát chúng cho các máy chủ. Trong lớp ảo hóa, bạn có thể sao chép dữ liệu giữa các hệ thống lưu trữ khác nhau và thường có các khả năng nâng cao hơn - ảnh chụp nhanh, lưu trữ đa cấp, v.v. Đồng thời, chức năng cơ bản nhất của trình ảo hóa là cần thiết nhất cho mục đích DR. Nếu chúng tôi có hai hệ thống lưu trữ ở các trung tâm dữ liệu khác nhau được kết nối bằng đường trục quang, chúng tôi sẽ lấy khối lượng từ mỗi hệ thống đó và lắp ráp một “tấm gương” ở cấp độ ảo hóa. Kết quả là, chúng tôi nhận được một ổ đĩa ảo cho hai trung tâm dữ liệu mà máy chủ sẽ nhìn thấy. Nếu các máy chủ này là ảo, tính năng Di chuyển trực tiếp của máy ảo sẽ bắt đầu hoạt động và bạn có thể chuyển các tác vụ giữa các trung tâm dữ liệu một cách “nhanh chóng” - người dùng sẽ không nhận thấy bất cứ điều gì.

Việc mất hoàn toàn một trung tâm dữ liệu sẽ được cụm HA thông thường xử lý tự động sau vài phút. Có lẽ, việc ảo hóa các hệ thống lưu trữ phân tán cho phép giảm thiểu thời gian phục hồi cho hầu hết các ứng dụng. Đối với DBMS, có Oracle RAC vượt trội và các giải pháp tương tự của nó, nhưng chi phí khiến bạn phải suy nghĩ. Ảo hóa SAN cũng không hề rẻ, vì khối lượng nhỏ Chi phí của giải pháp lưu trữ có thể dưới 100 nghìn USD, nhưng trong hầu hết các trường hợp, giá sẽ cao hơn. Theo tôi, giải pháp đã được chứng minh rõ ràng nhất là IBM SAN Volume Controller (SVC), tiên tiến nhất về mặt kỹ thuật là EMC VPLEX.

Nhân tiện, nếu không phải tất cả các ứng dụng của bạn vẫn tồn tại trên môi trường ảo thì bạn nên thiết kế một trung tâm dữ liệu dự phòng cho chúng trên đó. máy ảo. Thứ nhất, nó sẽ rẻ hơn nhiều, và thứ hai, sau khi thực hiện việc này như một bản sao lưu, sẽ không còn xa nữa khi di chuyển các hệ thống chính dưới sự kiểm soát của một loại trình ảo hóa nào đó...

Sự cạnh tranh trên thị trường gia công trung tâm dữ liệu khiến việc thuê không gian trong trung tâm dữ liệu của nhà cung cấp có lợi hơn so với việc xây dựng và vận hành trung tâm dự phòng của riêng bạn. Nếu bạn đăng bài với anh ấy cơ sở hạ tầng ảo, sẽ tiết kiệm đáng kể số tiền thuê nhà. Nhưng các trung tâm dữ liệu gia công phần mềm không còn ở đỉnh cao của sự tiến bộ nữa. Tốt hơn là xây dựng cơ sở hạ tầng sao lưu trực tiếp trên đám mây. Đồng bộ hóa dữ liệu với các hệ thống chính có thể được đảm bảo bằng cách sao chép ở cấp độ máy chủ (có một dòng giải pháp DoubleTake tuyệt vời từ Vision Solutions).

Cuối cùng nhưng rất tâm điểm, điều không thể quên khi thiết kế cơ sở hạ tầng CNTT chống thiên tai - máy trạm của người dùng. Việc cơ sở dữ liệu hoạt động không có nghĩa là quy trình kinh doanh đã được tiếp tục. Người dùng phải có khả năng thực hiện công việc của họ. Ngay cả một văn phòng dự phòng đầy đủ tiện nghi, trong đó có tắt máy tính cho các nhân viên chủ chốt, cũng không Giải pháp hoàn hảo. Một người bị mất việc có thể có những tài liệu tham khảo, macro, v.v., nếu không có những thứ đó thì công việc chính thức là không thể. Đối với những người dùng quan trọng nhất của công ty, việc chuyển sang máy tính để bàn ảo (VDI) có vẻ hợp lý. Khi đó, không có dữ liệu nào được lưu trữ trên máy trạm (có thể là PC thông thường hoặc máy khách “mỏng” ưa thích), nó chỉ được sử dụng làm thiết bị đầu cuối để truy cập Windows XP hoặc Windows 7 chạy trên máy ảo trong trung tâm dữ liệu. Việc truy cập vào một máy trạm như vậy có thể được tổ chức dễ dàng từ nhà hoặc từ bất kỳ máy tính nào trong mạng chi nhánh. Ví dụ: nếu bạn có nhiều tòa nhà và một trong số đó không thể tiếp cận được, người dùng chính có thể đến văn phòng lân cận và ngồi ở những chỗ làm việc “ít quan trọng hơn”. Sau đó họ bình tĩnh đăng nhập vào hệ thống, đăng nhập vào máy ảo và công ty đi vào cuộc sống!

Tóm lại, đây là những câu hỏi chính cần đặt ra khi đánh giá giải pháp DR:

Nó bảo vệ chống lại những thất bại nào?
Nó cung cấp RPO/RTO/RCO gì?
Giá bao nhiêu?
Việc vận hành khó khăn như thế nào?

Có vô số giải pháp chống lại thảm họa - cả những giải pháp có sẵn và những giải pháp mà bạn có thể thực hiện một cách thực tế bằng chính đôi tay của mình. Vui lòng chia sẻ trong phần nhận xét những gì bạn có và những câu chuyện về cách những giải pháp này đã giúp ích cho bạn. Nếu bất kỳ hệ thống nào được mô tả ở trên hoặc các hệ thống tương tự của chúng phù hợp với bạn, hãy để lại phản hồi về mức độ yên bình của bạn khi ngủ khi hệ thống CNTT được chúng bảo vệ.

Thuật ngữ "chế độ chờ nóng" được sử dụng để mô tả khả năng kết nối với máy chủ và thực hiện các yêu cầu đọc trong khi máy chủ ở chế độ sao lưu hoặc khôi phục lưu trữ. Điều này hữu ích cho cả mục đích sao chép và khôi phục trạng thái mong muốn từ bản sao lưu với độ chính xác cao. Ngoài ra, thuật ngữ "chế độ chờ nóng" mô tả khả năng máy chủ chuyển từ chế độ khôi phục sang hoạt động bình thường trong khi người dùng tiếp tục thực hiện yêu cầu và/hoặc kết nối của họ vẫn mở.

Ở chế độ chờ nóng, các yêu cầu được xử lý theo cách tương tự như ở chế độ bình thường, với một số khác biệt về cách sử dụng và quản trị được mô tả bên dưới.

26.5.1. Tổng quan ở cấp độ người dùng

Các giao dịch chạy ở chế độ chờ nóng có thể thực hiện các lệnh sau:

Các giao dịch bắt đầu ở chế độ chờ nóng sẽ không bao giờ nhận được ID giao dịch và không thể ghi vào nhật ký ghi trước. Do đó, nếu bạn cố gắng thực hiện những điều sau, bạn sẽ gặp lỗi:

Các lệnh thao tác dữ liệu (DML) - INSERT, UPDATE, DELETE, COPY FROM, TRUNCATE. Cần lưu ý rằng không có hành động nào được phép có thể khiến trình kích hoạt kích hoạt khi đang chạy trên máy chủ dự phòng. Giới hạn này cũng áp dụng cho các bảng tạm thời, vì không thể đọc hoặc ghi các hàng trong bảng nếu không truy cập ID giao dịch, điều này hiện không thể thực hiện được trong môi trường dự phòng nóng.

Lệnh định nghĩa dữ liệu (DDL) - TẠO, THẢ, THAY ĐỔI, BÌNH LUẬN. Những hạn chế này cũng áp dụng cho các bảng tạm thời vì các thao tác có thể yêu cầu cập nhật các bảng danh mục hệ thống.

CHỌN... ĐỂ CHIA SẺ | CẬP NHẬT vì không thể giữ khóa hàng mà không cập nhật các tệp dữ liệu tương ứng.

Quy tắc cho câu lệnh SELECT dẫn đến việc thực thi các lệnh DML.

LOCK rõ ràng yêu cầu một chế độ nghiêm ngặt hơn CHẾ ĐỘ ĐỘC QUYỀN HÀNG.

LOCK ở dạng ngắn với các giá trị mặc định vì nó yêu cầu CHẾ ĐỘ ĐỘC QUYỀN TRUY CẬP.

Các lệnh kiểm soát giao dịch yêu cầu rõ ràng chế độ không chỉ đọc

BẮT ĐẦU ĐỌC VIẾT, BẮT ĐẦU GIAO DỊCH ĐỌC VIẾT
THIẾT LẬP GIAO DỊCH ĐỌC VIẾT, THIẾT LẬP ĐẶC ĐIỂM PHIÊN NHƯ GIAO DỊCH ĐỌC VIẾT
SET giao dịch_read_only = tắt

Đội cố định hai pha- CHUẨN BỊ GIAO DỊCH, CHUẨN BỊ CAM KẾT, CHUẨN BỊ PHỤC HỒI, vì ngay cả các giao dịch chỉ đọc cũng cần được ghi vào WAL trong giai đoạn chuẩn bị (giai đoạn đầu tiên của cam kết hai giai đoạn).

Cập nhật trình tự - nextval() , setval()

Trong quá trình hoạt động giao dịch bình thường « chỉ để đọc» có thể sử dụng lệnh LISTEN và NOTIFY; do đó, các phiên dự phòng nóng hoạt động với những hạn chế lớn hơn một chút so với các phiên chỉ đọc thông thường. Có thể một số hạn chế này sẽ được nới lỏng trong các phiên bản tương lai.

Ở chế độ chờ nóng, giao dịch_read_only luôn đúng và không thể thay đổi. Nhưng nếu bạn không cố sửa đổi nội dung của cơ sở dữ liệu thì việc kết nối với máy chủ ở chế độ này không khác gì kết nối với cơ sở dữ liệu thông thường. Khi xảy ra chuyển đổi dự phòng hoặc chuyển đổi vai trò, cơ sở dữ liệu sẽ trở lại hoạt động bình thường. Khi máy chủ thay đổi chế độ hoạt động, các phiên đã thiết lập vẫn được kết nối. Sau khi thoát khỏi chế độ chờ nóng, bạn có thể bắt đầu ghi giao dịch (ngay cả trong các phiên bắt đầu ở chế độ chờ nóng).

Người dùng có thể tìm hiểu xem phiên có ở chế độ chỉ đọc hay không bằng cách sử dụng lệnh SHOWtransaction_read_only. Ngoài ra, một bộ chức năng (Bảng 9.80) cho phép người dùng truy cập thông tin về máy chủ dự phòng. Điều này cho phép bạn tạo các chương trình có tính đến trạng thái hiện tại của cơ sở dữ liệu. Chế độ này có thể hữu ích cho việc theo dõi quá trình khôi phục hoặc ghi lại quá trình khôi phục phức tạp cho các trường hợp đặc biệt.

26.5.2. Xử lý xung đột yêu cầu

Máy chủ chính và máy chủ dự phòng được kết nối bằng nhiều liên kết yếu. Các sự kiện trên máy chủ chính ảnh hưởng đến máy chủ dự phòng. Kết quả là, có khả năng ảnh hưởng tiêu cực hoặc xung đột giữa chúng. Xung đột dễ hiểu nhất là hiệu suất: nếu một lượng dữ liệu rất lớn được tải trên máy chủ chính thì một luồng bản ghi WAL tương ứng sẽ được tạo trên máy chủ dự phòng. Do đó, các yêu cầu ở chế độ chờ cạnh tranh để giành tài nguyên hệ thống, chẳng hạn như I/O.

Nó cũng có thể xảy ra loại bổ sung xung đột trên một máy chủ dự phòng nóng. Xung đột này được gọi là xung đột nghiêm trọng , có tác động đến các yêu cầu, dẫn đến việc hủy yêu cầu và trong một số trường hợp dẫn đến việc chấm dứt phiên giải quyết xung đột. Người dùng được cung cấp một bộ công cụ để xử lý những xung đột đó. Các trường hợp xung đột bao gồm:

Đặt khóa độc quyền trên máy chủ chính bằng cách sử dụng lệnh LOCK rõ ràng hoặc sử dụng nhiều DDL khác nhau, dẫn đến xung đột quyền truy cập vào các bảng trên máy chủ dự phòng.

Việc xóa một vùng bảng trên máy chủ chính sẽ gây ra xung đột trên máy chủ dự phòng khi các truy vấn sử dụng vùng bảng này để lưu trữ các tệp công việc tạm thời.

Việc xóa cơ sở dữ liệu trên máy chủ chính sẽ xung đột với các phiên được kết nối với cơ sở dữ liệu này trên máy chủ dự phòng.

Ứng dụng xóa các giao dịch cũ khỏi WAL xung đột với các giao dịch ở chế độ chờ sử dụng ảnh chụp nhanh dữ liệu vẫn thấy một số hàng bị xóa trên giao dịch chính.

Ứng dụng dọn dẹp các giao dịch cũ từ WAL xung đột với các yêu cầu đến trang đích trên máy chủ dự phòng, bất kể dữ liệu bị xóa hay hiển thị.

Trong những trường hợp này, máy chủ chính chỉ cần chờ; Người dùng nên chọn bên xung đột nào để hủy. Tuy nhiên, chế độ chờ không có lựa chọn nào khác: các hành động từ WAL đã xảy ra trên máy chủ nên chế độ chờ phải áp dụng chúng. Hơn nữa, việc cho phép trình xử lý WAL chờ vô thời hạn có thể là điều không mong muốn vì độ trễ giữa máy chủ dự phòng và máy chủ chính có thể tăng lên. Bằng cách này, cơ chế này đảm bảo rằng các yêu cầu trên máy chủ dự phòng xung đột với các bản ghi WAL được áp dụng sẽ bị hủy bỏ một cách cưỡng bức.

Một ví dụ về sự cố như vậy có thể là tình huống: quản trị viên trên máy chủ chính đã đưa ra lệnh DROP TABLE cho một bảng hiện đang tham gia truy vấn ở chế độ chờ. Rõ ràng là truy vấn này không thể được thực hiện thêm nếu lệnh DROP TABLE được sử dụng ở chế độ chờ. Nếu truy vấn này đang chạy trên máy chủ, lệnh DROP TABLE sẽ đợi truy vấn này kết thúc. Nhưng khi chỉ có lệnh DROP TABLE được ban hành trên máy chủ, thì máy chủ không biết truy vấn nào đang chạy ở chế độ chờ, vì vậy nó không thể đợi các truy vấn đó hoàn tất. Do đó, nếu bản ghi WAL đã sửa đổi đến máy chủ dự phòng trong khi truy vấn vẫn đang chạy thì xung đột sẽ xảy ra. Trong trường hợp này, máy chủ dự phòng phải trì hoãn việc áp dụng các mục WAL này (và tất cả các mục khác theo sau chúng) hoặc hủy yêu cầu xung đột để có thể áp dụng DROP TABLE.

Nếu yêu cầu xung đột ngắn, thì thường nên cho phép yêu cầu đó hoàn thành bằng cách trì hoãn một thời gian ngắn việc áp dụng bản ghi WAL, nhưng cũng Thời gian chờ lâu WAL thường không được mong muốn trong các ứng dụng. Do đó, cơ chế hủy có các tham số max_standby_archive_delay và max_standby_streaming_delay xác định thời gian trễ tối đa cho phép đối với ứng dụng WAL. Các yêu cầu xung đột sẽ bị loại bỏ nếu chúng tồn tại lâu hơn thời gian trễ cho phép để áp dụng các bản ghi WAL liên tiếp. Có hai tham số để bạn có thể đặt những nghĩa khác nhauđể đọc các bản ghi WAL từ kho lưu trữ (nghĩa là trong quá trình khôi phục ban đầu từ bản sao cơ sở hoặc khi "bắt kịp" máy chủ chính trong trường hợp tồn đọng lớn) và để lấy các bản ghi WAL trong quá trình sao chép luồng.

Trên máy chủ dự phòng được thiết kế chủ yếu để chịu lỗi, tốt nhất nên giữ cài đặt độ trễ tương đối thấp để nó không thể tụt quá xa so với máy chủ chính do độ trễ liên quan đến việc chờ đợi các yêu cầu dự phòng nóng. Tuy nhiên, nếu máy chủ dự phòng được thiết kế để xử lý các yêu cầu chạy trong thời gian dài thì giá trị cao hoặc thậm chí thời gian chờ vô hạn có thể thích hợp hơn. Tuy nhiên, hãy lưu ý rằng các truy vấn chạy dài có thể ảnh hưởng đến các phiên khác trên máy chủ dự phòng bằng cách khiến máy chủ bỏ lỡ những thay đổi mới nhất do áp dụng bản ghi WAL chậm trễ.

Nếu vượt quá độ trễ được xác định bởi max_standby_archive_delay hoặc max_standby_streaming_delay thì yêu cầu xung đột sẽ bị hủy bỏ. Điều này thường được biểu thị dưới dạng lỗi hủy, nhưng nếu lệnh DROP DATABASE được phát thì toàn bộ phiên xung đột sẽ bị chấm dứt. Ngoài ra, nếu xảy ra xung đột trong khi chặn do giao dịch ở trạng thái IDLE gây ra thì phiên xung đột sẽ bị hỏng (hành vi này có thể thay đổi trong tương lai).

Các yêu cầu đã hủy có thể được thử lại ngay lập tức (tất nhiên là sau khi bắt đầu một giao dịch mới). Vì lý do hủy phụ thuộc vào bản chất của bản ghi WAL đang được phát nên yêu cầu đã bị hủy có thể được thực hiện lại thành công.

Xin lưu ý rằng các tham số độ trễ được tính từ thời điểm máy chủ dự phòng nhận được dữ liệu WAL. Do đó, khoảng thời gian làm việc được phép đối với một yêu cầu trên máy chủ dự phòng không bao giờ có thể dài hơn tham số độ trễ và có thể ngắn hơn đáng kể nếu chế độ chờ đã ở chế độ trễ do phải chờ yêu cầu trước đó hoặc không có kết quả. do tải cập nhật cao.

Hầu hết nguyên nhân chung xung đột giữa các yêu cầu trên máy chủ dự phòng và phát lại WAL là do việc dọn dẹp quá sớm. Thông thường, PostgreSQL cho phép xóa các phiên bản cũ của bản ghi, miễn là không có giao dịch nào có thể nhìn thấy chúng, theo quy tắc hiển thị dữ liệu cho MVCC. Tuy nhiên, những quy tắc này chỉ áp dụng cho các giao dịch được thực hiện trên máy chủ chính. Vì vậy, có thể một bản ghi đã bị xóa trên máy chủ chính nhưng bản ghi đó vẫn hiển thị cho các giao dịch trên máy chủ dự phòng.

Đối với người dùng nâng cao, cần lưu ý rằng cả việc xóa phiên bản hàng cũ và đóng băng phiên bản hàng đều có thể gây ra xung đột với các yêu cầu trên máy chủ dự phòng. Việc chạy lệnh VACUUM FREEZE theo cách thủ công có thể dẫn đến xung đột, ngay cả trên một bảng không có hàng được cập nhật hoặc xóa.

Người dùng nên lưu ý rằng việc thay đổi dữ liệu thường xuyên và tích cực trong các bảng trên máy chủ chính có nguy cơ hủy bỏ các truy vấn dài hạn trên máy chủ dự phòng. Trong trường hợp này, cài đặt giá trị cuối cùngđối với max_standby_archive_delay hoặc max_standby_streaming_delay hoạt động tương tự như ràng buộc Statement_timeout.

Nếu số lượng yêu cầu bị hủy trên máy chủ dự phòng là không thể chấp nhận được thì có một số Tính năng bổ sung. Tùy chọn đầu tiên là đặt tham số hot_standby_feedback, điều này ngăn lệnh VACUUM xóa các bản ghi gần đây trở nên không hợp lệ, do đó ngăn ngừa xung đột dọn dẹp. Xin lưu ý rằng điều này gây ra sự chậm trễ trong việc xóa các hàng chết trên đầu bảng, điều này có thể dẫn đến sự phình to của bảng không mong muốn. Tuy nhiên, cuối cùng thì tình hình sẽ không tệ hơn nếu các yêu cầu tới máy chủ dự phòng được thực thi trực tiếp trên máy chủ chính, nhưng tác động tích cực của việc chia sẻ tải sẽ vẫn còn. Trong trường hợp kết nối giữa máy chủ dự phòng và máy chủ chính thường xuyên bị gián đoạn, cần điều chỉnh khoảng thời gian không cung cấp phản hồi qua hot_standby_feedback. Ví dụ: bạn có thể xem xét tăng max_standby_archive_delay để các yêu cầu không bị hủy ngay lập tức khi có xung đột với kho lưu trữ WAL trong thời gian ngắt kết nối. Cũng có thể hợp lý khi tăng max_standby_streaming_delay để ngăn chặn hủy nhanh yêu cầu do bản ghi WAL nhận được sau khi kết nối được khôi phục.

Một khả năng khác là tăng Vacuum_defer_cleanup_age trên máy chủ chính để các bản ghi chết không được dọn sạch nhanh như hoạt động bình thường. Điều này giúp các yêu cầu trên máy chủ dự phòng có nhiều thời gian hơn để hoàn thành trước khi chúng có thể bị hủy mà không làm tăng độ trễ max_standby_streaming_delay. Tuy nhiên, rất khó để cung cấp bất kỳ khoảng thời gian cụ thể nào cho phương pháp này, vì Vacuum_defer_cleanup_age được đo bằng số lượng giao dịch đang chạy trên máy chủ chính.

Số lượng yêu cầu bị hủy và lý do hủy có thể được xem qua chế độ xem hệ thống pg_stat_database_conflicts trên máy chủ dự phòng. Chế độ xem hệ thống pg_stat_database cũng chứa thông tin tóm tắt.

26.5.3. Tổng quan phần hành chính

Nếu hot_standby được đặt thành bật (mặc định) trong tệp postgresql.conf và tệp recovery.conf tồn tại, máy chủ sẽ khởi động ở chế độ chờ nóng. Tuy nhiên, có thể mất một thời gian trước khi có thể kết nối vì nó sẽ không chấp nhận kết nối cho đến khi khôi phục về trạng thái nhất quán phù hợp để thực hiện các yêu cầu. (Thông tin về trạng thái nhất quán được ghi lại trên máy chủ chính tại điểm kiểm tra.) Trong thời gian này, máy khách sẽ nhận được thông báo lỗi khi cố gắng kết nối. Bạn có thể đảm bảo rằng máy chủ đang hoạt động bằng cách lặp lại các lần thử kết nối từ ứng dụng cho đến khi kết nối thành công hoặc bằng cách đợi những thông báo này xuất hiện trong nhật ký máy chủ:

LOG: vào chế độ chờ ... sau đó một thời gian sau ... LOG: đạt trạng thái khôi phục nhất quán LOG: hệ thống cơ sở dữ liệu sẵn sàng chấp nhận các kết nối chỉ đọc

Bạn không thể bật chế độ chờ nóng nếu WAL được ghi trong khoảng thời gian mà tham số wal_level trên máy chủ chính không được đặt thành bản sao cũng như logic . Việc đạt được trạng thái đồng thuận cũng có thể bị trì hoãn nếu xảy ra cả hai điều kiện sau:

Một giao dịch bằng văn bản có hơn 64 giao dịch phụ

Giao dịch viết rất dài

Nếu bạn đang sử dụng sao chép nhật ký dựa trên tệp (chế độ chờ ấm), bạn có thể phải đợi tệp WAL tiếp theo đến ( thời gian tối đa thời gian chờ được đặt bởi tham số archive_timeout trên máy chủ chính).

Giá trị của một số tham số trên máy chủ dự phòng phải được thay đổi khi sửa đổi chúng trên máy chủ chính. Đối với các tham số như vậy, các giá trị trên máy chủ dự phòng phải không nhỏ hơn các giá trị trên máy chủ chính. Vì vậy, nếu bạn muốn tăng chúng, trước tiên bạn phải làm như vậy trên máy chủ dự phòng và sau đó áp dụng các thay đổi trên máy chủ chính. Ngược lại, nếu bạn muốn giảm chúng, trước tiên hãy thực hiện trên máy chủ chính, sau đó áp dụng các thay đổi cho tất cả các máy chủ dự phòng. Nếu các thông số không đủ giá trị lớn, máy chủ dự phòng sẽ không thể bắt đầu hoạt động. Trong trường hợp này, bạn có thể tăng chúng và thử khởi động lại máy chủ để nó tiếp tục khôi phục. Điều này áp dụng cho các tham số sau:

max_prepared_transactions
max_locks_per_transaction
max_worker_processes

Điều rất quan trọng đối với quản trị viên là chọn các giá trị phù hợp cho max_standby_archive_delay và max_standby_streaming_delay. Giá trị tối ưu phụ thuộc vào mức độ ưu tiên. Ví dụ: nếu mục đích chính của máy chủ là cung cấp tính sẵn sàng cao thì khoảng thời gian này phải được đặt thành một khoảng thời gian ngắn, thậm chí có thể bằng 0, mặc dù đây là một tùy chọn rất nghiêm ngặt. Nếu máy chủ dự phòng được lên kế hoạch làm máy chủ bổ sung cho các truy vấn phân tích thì độ trễ tối đa là vài giờ hoặc thậm chí -1 sẽ có thể chấp nhận được, điều đó có nghĩa là phải chờ vô thời hạn để truy vấn hoàn tất.

Các bit trạng thái giao dịch phụ được ghi vào máy chủ không kết thúc trong WAL, vì vậy chúng có thể bị máy chủ ghi đè khi dữ liệu được xử lý. Bằng cách này, máy chủ dự phòng sẽ ghi vào đĩa ngay cả khi tất cả người dùng chỉ đọc dữ liệu mà không thay đổi bất cứ điều gì. Ngoài ra, người dùng sẽ ghi các tệp tạm thời khi sắp xếp khối lượng lớn và cập nhật các tệp bộ đệm. Do đó, ở chế độ chờ nóng, không có phần nào của cơ sở dữ liệu thực sự ở chế độ chỉ đọc. Cần lưu ý rằng cũng có thể viết thư cho căn cứ từ xa dữ liệu bằng mô-đun dblink và các hoạt động khác bên ngoài cơ sở dữ liệu bằng các hàm PL, mặc dù các giao dịch vẫn chỉ có thể đọc dữ liệu.

Các loại lệnh quản trị sau không khả dụng trong chế độ khôi phục:

Các lệnh định nghĩa dữ liệu (DDL) - ví dụ: TẠO CHỈ SỐ

Các lệnh cấp đặc quyền và chuyển quyền sở hữu - GRANT, REVOKE, REASSIGN

Các lệnh bảo trì - ANALYZE, VACUUM, CLUSTER, REINDEX

Một lần nữa, cần lưu ý rằng một số lệnh này thực sự có sẵn trên máy chủ chính dành cho các giao dịch chỉ đọc.

Kết quả là không thể tạo ra chỉ số bổ sung hoặc thống kê để chúng chỉ tồn tại trên bản sao lưu. Nếu cần các lệnh quản trị như vậy thì chúng phải được chạy trên máy chủ chính và sau đó những thay đổi này sẽ được truyền đến các máy chủ dự phòng.

Các hàm pg_cancel_backend() và pg_terminate_backend() hoạt động ở phía người dùng, nhưng không hoạt động ở quy trình khởi động cung cấp khả năng khôi phục. Chế độ xem pg_stat_activity không hiển thị các giao dịch có thể phục hồi là đang hoạt động. Do đó, chế độ xem pg_prepared_xacts luôn trống trong quá trình khôi phục. Nếu bạn cần phân tích các giao dịch đã chuẩn bị có vấn đề, bạn nên truy cập pg_prepared_xacts trên bản gốc và chạy các lệnh để phân tích các giao dịch ở đó hoặc phân tích chúng sau khi quá trình khôi phục hoàn tất.

pg_locks hiển thị các khóa xảy ra trong khi máy chủ đang chạy bình thường. pg_locks cũng hiển thị các giao dịch ảo được xử lý bởi quy trình khởi động, quy trình này sở hữu tất cả AccessExclusiveLocks được áp đặt bởi các giao dịch ở chế độ khôi phục. Cần lưu ý rằng quá trình khởi động không yêu cầu khóa để thực hiện thay đổi đối với cơ sở dữ liệu, do đó, các khóa không phải AccessExclusiveLocks không được hiển thị trong pg_locks cho quá trình khởi động, sự tồn tại của chúng được giả định.

Mô-đun check_pgsql cho Nagios sẽ hoạt động vì máy chủ tạo ra thông tin đơn giản mà nó kiểm tra. Tập lệnh giám sát check_postgres hoạt động theo cách tương tự, mặc dù kết quả có thể khác nhau hoặc gây hiểu nhầm đối với một số số liệu mà nó tạo ra. Ví dụ: bạn không thể theo dõi thời gian của lần thanh lọc cuối cùng vì quá trình thanh lọc không được thực hiện trên máy chủ dự phòng. Quá trình dọn dẹp được bắt đầu trên máy chủ chính và kết quả công việc của nó được chuyển sang máy chủ dự phòng.

Các lệnh quản lý tệp WAL như pg_start_backup, pg_switch_wal, v.v. sẽ không hoạt động trong quá trình khôi phục.

Các mô-đun được tải động sẽ hoạt động, bao gồm cả pg_stat_statements.

Khóa tư vấn hoạt động bình thường trong quá trình khôi phục, bao gồm cả việc phát hiện bế tắc. Cần lưu ý rằng khóa tư vấn không bao giờ xâm nhập vào WAL, do đó, khóa tư vấn trên máy chủ chính hoặc máy chủ dự phòng không thể xung đột với việc phát lại WAL. Tuy nhiên, có thể lấy khóa tư vấn trên máy chủ chính và sau đó lấy khóa tư vấn tương tự trên máy chủ dự phòng. Khối tư vấn chỉ áp dụng cho máy chủ mà nó được nhận.

Các hệ thống sao chép dựa trên trình kích hoạt như Slony, Londiste và Bucardo hoàn toàn không thể chạy trên máy chủ dự phòng, mặc dù chúng hoạt động tốt trên máy chủ chính cho đến khi có lệnh không đẩy các thay đổi đến máy chủ dự phòng. Phát lại WAL không dựa trên trình kích hoạt, do đó luồng WAL không thể được phát từ máy chủ dự phòng đến hệ thống khác yêu cầu mục bổ sung trong cơ sở dữ liệu hoặc hoạt động dựa trên trình kích hoạt.

Không thể cấp OID mới, mặc dù chẳng hạn như trình tạo UUID sẽ có thể hoạt động miễn là chúng không cố gắng ghi trạng thái mới vào cơ sở dữ liệu.

Hiện tại, việc tạo bảng tạm thời không được phép trong giao dịch chỉ đọc, trong một số trường hợp, tập lệnh hiện có sẽ không hoạt động chính xác. Hạn chế này có thể được nới lỏng trong các phiên bản tương lai. Đây vừa là yêu cầu chuẩn SQL và yêu cầu kỹ thuật.

Lệnh DROP TABLESPACE chỉ có thể được thực thi nếu vùng bảng trống. Một số người dùng máy chủ dự phòng có thể chủ động sử dụng không gian bảng thông qua tham số temp_tablespaces. Nếu có các tệp tạm thời trong vùng bảng, tất cả các truy vấn đang hoạt động sẽ bị hủy để đảm bảo rằng các tệp tạm thời bị xóa, khi đó vùng bảng có thể bị loại bỏ và việc phát lại WAL có thể tiếp tục.

Việc chạy lệnh DROP DATABASE hoặc ALTER DATABASE ... SET TABLESPACE trên máy chủ chính sẽ tạo ra một mục WAL buộc tất cả người dùng được kết nối với cơ sở dữ liệu đó ở chế độ chờ phải bị ngắt kết nối. Điều này xảy ra ngay lập tức, bất kể giá trị của max_standby_streaming_delay. Cần lưu ý rằng lệnh ALTER DATABASE ... RENAME không ngắt kết nối người dùng nên thường hoạt động âm thầm, mặc dù trong một số trường hợp các chương trình phụ thuộc vào tên cơ sở dữ liệu có thể bị lỗi.

Nếu bạn đang ở chế độ bình thường (không phải ở chế độ khôi phục), hãy thực hiện DROP USER hoặc DROP ROLE cho vai trò có kết nối, tại thời điểm người dùng này được kết nối, điều này sẽ không ảnh hưởng đến người dùng này dưới bất kỳ hình thức nào - anh ta sẽ vẫn được kết nối. Tuy nhiên, anh ấy sẽ không thể kết nối lại được nữa. Hành vi tương tự cũng áp dụng trong chế độ khôi phục - nếu bạn thực hiện DROP USER trên máy chủ chính, người dùng sẽ không bị ngắt kết nối khỏi bản sao lưu.

Trình thu thập số liệu thống kê chạy trong quá trình khôi phục. Tất cả các lần quét, đọc, chặn, sử dụng chỉ mục, v.v. sẽ được ghi lại như bình thường trên máy chủ dự phòng. Các hành động xảy ra trong quá trình phát lại sẽ không trùng lặp với các hành động trên máy chủ chính, nghĩa là việc phát lại lệnh chèn sẽ không làm tăng giá trị của cột Chèn trong chế độ xem pg_stat_user_tables. Các tệp thống kê sẽ bị xóa khi quá trình khôi phục bắt đầu, do đó số liệu thống kê trên máy chủ chính và máy chủ dự phòng sẽ khác nhau. Đây là một tính năng, không phải là một lỗi.

Cần có thông tin về tất cả các giao dịch đang chạy trước khi có thể tạo ảnh chụp nhanh dữ liệu. Các giao dịch sử dụng số lượng lớn các giao dịch phụ (hiện tại là hơn 64) sẽ trì hoãn việc bắt đầu kết nối chỉ đọc cho đến khi giao dịch ghi dài nhất hoàn tất. Nếu tình huống này xảy ra, một thông báo giải thích sẽ được ghi vào nhật ký máy chủ.

Điểm bắt đầu phù hợp cho các yêu cầu trên máy chủ dự phòng được tạo tại mỗi điểm kiểm tra trên máy chủ chính. Nếu máy chủ dự phòng ngừng hoạt động trong khi máy chủ chính ngừng hoạt động thì có thể không thể đưa nó trở lại dưới dạng chế độ chờ nóng trước khi máy chủ chính khởi động và thêm các điểm bắt đầu sau vào nhật ký WAL. Tình trạng tương tự không phải là vấn đề đối với hầu hết các trường hợp nó có thể xảy ra. Thông thường, nếu máy chủ chính ngừng hoạt động và không còn khả dụng, đây là hậu quả của một lỗi nghiêm trọng và trong mọi trường hợp, cần phải chuyển đổi chế độ dự phòng sang máy chủ mới. Ngoài ra, trong tình huống bản gốc bị cố ý vô hiệu hóa, việc kiểm tra mức độ sẵn sàng của bản sao lưu để chuyển đổi sang bản gốc cũng là một thủ tục thông thường.

Khi kết thúc quá trình khôi phục, AccessExclusiveLocks do các giao dịch đã chuẩn bị gây ra yêu cầu gấp đôi số lượng khóa bản ghi bảng thông thường. Nếu bạn dự định sử dụng một số lượng lớn các giao dịch được chuẩn bị cạnh tranh, thường gọi AccessExclusiveLocks hoặc các giao dịch lớn sử dụng số lượng lớn AccessExclusiveLocks thì nên chọn tầm quan trọng lớn tham số max_locks_per_transaction, có thể gấp đôi giá trị của tham số trên máy chủ chính. Điều này không thành vấn đề khi max_prepared_transactions bằng 0.

Mức cô lập giao dịch có thể tuần tự hóa hiện không khả dụng ở chế độ chờ nóng. (Xem Tiểu mục 13.2.3 và Tiểu mục 13.4.1 để biết chi tiết.) Việc cố gắng đặt mức cô lập này cho một giao dịch ở chế độ chờ nóng sẽ phát sinh lỗi.

Với các tùy chọn sao lưu “lạnh”, thiết bị dự phòng sẽ bị tắt và chỉ được bật khi sao lưu được đưa vào hoạt động. Trước khi bật thiết bị dự phòng, tài nguyên của nó không bị tiêu hao và bản sao lưu “lạnh” cung cấp FBG lớn nhất.

Nhược điểm của dự phòng nguội là việc bật thiết bị dự phòng mất một khoảng thời gian, trong thời gian đó hệ thống không được kiểm soát hoặc không thể hoạt động. Trong khoảng thời gian vận hành thiết bị dự phòng “lạnh” này, nguồn điện đi vào hoạt động, thiết bị được kiểm tra và làm nóng. Các thông tin cần thiết được tải vào nó.

Trong trường hợp sao lưu “nóng”, tất cả các thành phần sao lưu của máy tính kỹ thuật số đều được bật và sẵn sàng bắt đầu hoạt động ngay sau khi có lệnh. Điều này có thể cung cấp thời gian chuyển đổi ngắn hơn. Tuy nhiên, tài nguyên của thiết bị “nóng” dự phòng đi kèm sẽ bị tiêu hao và FBG có thể đạt được trong phương pháp này sẽ ít hơn so với trường hợp sao lưu “lạnh”. Thời gian chuyển sang dự trữ là một tham số quan trọng và các giá trị cho phép của nó được xác định bởi tác vụ ứng dụng cụ thể.

Đối với một hệ thống được sao chép bằng cách thay thế bằng dự trữ lạnh, FBG bằng:

Phép tính gần đúng này có giá trị đối với FBG. Sử dụng sao chép với thay thế nguội trong ví dụ của chúng tôi về máy tính kỹ thuật số 100 LSI với

đối với mỗi FBR trong một năm hoạt động liên tục sẽ bằng

Rdub.x = 1 – 0,01 = 0,99. Thay vì 0,9 đối với hệ thống không dư thừa.

Do đó, việc sao chép đơn giản máy tính kỹ thuật số sẽ mang giá trị FBG của nó vào khuôn khổ mong muốn.

Đối với hệ thống thay thế ba lần có dự trữ lạnh, FBG bằng:

Rtr.x.= 0,995

Đối với một hệ thống được sao chép bằng cách thay thế bằng hệ thống dự phòng nóng, FBG bằng:

Và với ví dụ của chúng ta, máy tính số sẽ có giá trị FBG

Rdb.g.= 0,99

Đối với hệ thống thay thế ba lần có chế độ chờ nóng, FBG bằng:

Biểu đồ hiển thị những thay đổi về P(t) trong ba trường hợp:

1) hệ thống không dư thừa

2) hệ thống dự phòng có dự trữ lạnh

3) hệ thống dự phòng với chế độ chờ nóng

Sao lưu nóng bằng cách tăng gấp ba lần số lượng cơ thể khôi phục (với các phần tử đa số).

Phương pháp này thực hiện sao lưu nóng với phục hồi thông tin trên các thành phần đa số có biểu quyết đa số.

Phần tử đa số là một thiết bị logic hoạt động theo đa số. Nếu đầu vào của nó là 011.110.101.111 thì đầu ra của nó là 1. Nếu đầu vào của nó là 001.010.100.000 thì đầu ra của nó là 0.

Phần tử đa số (ME) đồng thời giải quyết vấn đề phát hiện lỗi - đầu ra của một trong các phần tử khác với hai phần tử còn lại và kết nối với phần tử dự phòng. Trong trường hợp kết nối tuần tự các bộ ba phần tử lớn như vậy, việc khôi phục thông tin trong tất cả các phần tử sau một phần tử bị lỗi sẽ được đảm bảo.

Hệ thống hoạt động khi tất cả các kênh đều hoạt động hoặc hai trong số ba kênh bất kỳ (có ba kết hợp như vậy) đang hoạt động.

Ở đây P1 là FBG của mỗi kênh của hệ thống ba.

Sơ đồ này tốt không phải vì FBG cao (FBG cao hơn trong các hệ thống có dự phòng thay thế nóng và lạnh), mà vì các chức năng giám sát và kết nối dự trữ được thực hiện đồng thời và tự động ở cấp ME. Sự kiểm soát đa số chuyên biệt sẽ tiến hành từng chút một đối với kết quả của từng hoạt động của máy. Ở đây bản thân ME không dư thừa và đây là một nhược điểm của sơ đồ được áp dụng.

Trong các máy tính kỹ thuật số được dự trữ theo sơ đồ bộ ba với phần đa số, tất cả các chữ số (bitwise) của một số được truyền qua bus dữ liệu, một số được chọn từ bộ nhớ hoặc một số được ghi vào bộ nhớ, v.v. đều phải được chuyên hóa. Theo ví dụ của chúng tôi, máy tính kỹ thuật số FBR có một phần thân đa số sau thanh ghi đầu ra có vấn đề. Rtr.mf = 0,972

Đặc điểm so sánh của các phương án dự phòng khác nhau cho FBG, theo thời điểm chuyển sang dự trữ.

Những thay đổi trong FBG được trình bày theo thời gian tương đối. Điều này rất thuận tiện vì các biểu đồ có giá trị cho mọi tệp . Đây -

cường độ lỗi hệ thốngĐối với một mạch độ tin cậy tuần tự.

Tỷ lệ hư hỏng của các phần tử tạo nên hệ thống.

Sự thay đổi FBG trên t đối với hệ thống không dự phòng được đánh dấu màu đỏ.

Tôi muốn thu hút sự chú ý của bạn đến các vấn đề tăng cường khả năng chịu lỗi và thảm họa hệ thông thông tin tại doanh nghiệp của bạn.

Công nghệ thông tin ngày càng được ứng dụng rộng rãi trong mọi lĩnh vực hoạt động. Ngày nay, ở bất kỳ doanh nghiệp nào cũng khó có thể tìm được một quy trình sản xuất được thực hiện mà không có sự trợ giúp của công nghệ máy tính. Chúng trở thành một trong những phương tiện sản xuất chính.

Tại các doanh nghiệp lọc dầu có các quy trình sản xuất, công nghệ quan trọng, bất kỳ sai sót nào cũng có thể dẫn đến hậu quả cực kỳ nghiêm trọng hoặc không thể khắc phục được. Nhiều trong số đó được quản lý bằng công nghệ thông tin.

Cùng với đó, việc thâm nhập rộng rãi các công nghệ này vào sản xuất cũng có mặt trái. Sự phụ thuộc của doanh nghiệp vào họ ngày càng tăng. Bất kỳ lỗi máy tính nào cũng dẫn đến thời gian ngừng hoạt động của một hoặc nhiều công nhân. Trong thời gian này, họ không thực hiện công việc của mình nên không thu được lợi nhuận. Lợi nhuận chưa kiếm được là tổn thất trực tiếp.

Những gì đã nói đủ để suy nghĩ nghiêm túc về việc giải quyết vấn đề đảm bảo tính sẵn sàng cao và khả năng chịu lỗi của hệ thống thông tin.

Công ty chúng tôi thúc đẩy và triển khai các hệ thống nhằm nâng cao độ tin cậy của hệ thống thông tin dựa trên công nghệ và phần mềm từ các công ty dẫn đầu thị trường.

Phần mềm cũng như hệ thống phần cứng được thiết kế để đảm bảo hoạt động liên tục của các hoạt động kỹ thuật và phần mềm hoạt động dưới sự kiểm soát của vận hành Hệ thống Windows và Linux. Nó được cài đặt trên hai máy chủ giống hệt nhau và cho phép các ứng dụng đang chạy tiếp tục chạy trong trường hợp có sự cố hoặc trục trặc của bất kỳ máy chủ nào, loại bỏ ngay cả những gián đoạn nhỏ trong công việc của người dùng.

Những ưu điểm chính của giải pháp chúng tôi cung cấp là:

∙ Tiết kiệm- tổng chi phí sở hữu thấp hơn đáng kể so với các hệ thống có tính sẵn sàng cao khác với các thông số về độ tin cậy và khả năng sống sót cao hơn.

∙ Sự đơn giản- Cái này công nghệ duy nhất tính sẵn sàng cao, dễ quản lý như một máy chủ duy nhất. Việc lắp đặt và vận hành không đòi hỏi chi phí lớn cho việc đào tạo nhân sự.

∙ Thời gian tối thiểu chỉ mình tôi— lỗi của các phần tử máy chủ hầu như không ảnh hưởng đến hiệu suất và tính toàn vẹn của dữ liệu.

Các loại đặt phòng

∙ Chống thiên tai— cho phép bạn duy trì chức năng của máy chủ ngay cả khi một trong các nút bị phá hủy về mặt vật lý, trong khi các nút có thể nằm ở vị trí địa lý trên các tầng khác nhau của tòa nhà, trong các tòa nhà khác nhau hoặc thậm chí ở các thành phố khác nhau.

∙ Bảo vệ thông tin hoàn chỉnh— dữ liệu không bị mất ngay cả khi một trong các nút bị lỗi.

∙ Kiến trúc mở- tất cả các thành phần hệ thống đều đạt tiêu chuẩn tuyệt đối; không cần sử dụng phần cứng đặc biệt, trình điều khiển thiết bị được sửa đổi hoặc viết đặc biệt.

Các giải pháp của chúng tôi được sử dụng thành công như một phần của hệ thống hiện đại quản lý, giám sát quá trình sản xuất kinh doanh tình trạng kỹ thuật thiết bị, phân tích và đánh giá tình hình, thu thập và xử lý thông tin quan trọng, việc mất thông tin đó sẽ dẫn đến thiệt hại không thể khắc phục được. Họ cũng cung cấp khả năng chịu lỗi hệ thống tự động kiểm soát quá trình, được sử dụng để đảm bảo an toàn cho các cơ sở, như một phần của hệ thống giám sát video và kiểm soát truy cập,

Nên cân nhắc kinh nghiệm tích cực của chúng tôi trong việc triển khai các công nghệ có khả năng chịu lỗi, nên cùng nhau xem xét mở rộng việc sử dụng chúng trong khuôn khổ chính sách kỹ thuật thống nhất, bao gồm cả việc ngăn chặn các tình huống khẩn cấp và nghiêm trọng tại cơ sở của bạn.

Chúng tôi sẵn sàng cung cấp thêm thông tin và trình diễn các công nghệ này.

Dự phòng nguồn điện

2.4.1 .Các loại đặt phòng

Ở giai đoạn thiết kế nhà máy điện mặt trời, để đảm bảo độ tin cậy cần thiết, trong nhiều trường hợp, ít nhất cần phải sao chép các phần tử riêng lẻ và thậm chí hệ thống riêng biệt, I E. sử dụng đặt phòng.

Tính dự phòng được đặc trưng bởi thực tế là nó cho phép tăng độ tin cậy của hệ thống so với độ tin cậy của các thành phần cấu thành nó. Việc tăng độ tin cậy của các yếu tố riêng lẻ đòi hỏi chi phí vật liệu lớn. Trong những điều kiện này, dự phòng, ví dụ, thông qua việc đưa vào các phần tử bổ sung, là một phương tiện hiệu quả để đảm bảo độ tin cậy cần thiết của hệ thống.

Nếu, khi kết nối các phần tử nối tiếp, độ tin cậy tổng thể của hệ thống (tức là xác suất vận hành không có lỗi) thấp hơn độ tin cậy của phần tử kém tin cậy nhất, thì với tính năng dự phòng, độ tin cậy tổng thể của hệ thống có thể cao hơn độ tin cậy của yếu tố đáng tin cậy nhất.

Sự dư thừa đạt được bằng cách đưa ra sự dư thừa. Tùy thuộc vào bản chất của cái sau, việc đặt trước là:

Kết cấu (phần cứng);

Thông tin;

Tạm thời.

Dự phòng cấu trúc là phiên bản yêu cầu tối thiểu của hệ thống, bao gồm các phần tử cơ bản, bao gồm yếu tố bổ sung, thiết bị hoặc thậm chí thay vì một hệ thống, dự kiến sẽ sử dụng một số hệ thống giống hệt nhau.

Sao lưu thông tin liên quan đến việc sử dụng thông tin dư thừa. Ví dụ đơn giản nhất của nó là việc truyền đi lặp lại cùng một thông điệp qua một kênh liên lạc. Một ví dụ khác là các mã được sử dụng trong máy tính điều khiển để phát hiện và sửa lỗi do trục trặc và lỗi phần cứng.

Đặt chỗ tạm thời liên quan đến việc sử dụng thời gian dư thừa. Việc khôi phục hoạt động của hệ thống bị gián đoạn do lỗi xảy ra bằng cách khôi phục hệ thống nếu có một khoảng thời gian nhất định.

Có hai phương pháp để tăng độ tin cậy của hệ thống thông qua dự phòng cấu trúc:

1) dự phòng chung, trong đó toàn bộ hệ thống là dự phòng;

2) dự phòng riêng biệt (từng phần tử), trong đó các phần (phần tử) riêng lẻ của hệ thống được dự trữ.

Các sơ đồ dự phòng cấu trúc chung và riêng biệt được trình bày tương ứng trong Hình 1. 2.6. và 2.7., ở đâu N- số phần tử liên tiếp trong mạch tôi- số lượng mạch dự phòng (có dự phòng chung) hoặc phần tử dự phòng cho từng mạch chính (có dự phòng riêng).

Tại tôi= 1 có sự trùng lặp và khi tôi=2 – gấp ba. Thông thường họ cố gắng sử dụng sự dư thừa riêng biệt bất cứ khi nào có thể, bởi vì Hơn nữa, độ tin cậy đạt được thường đạt được với chi phí thấp hơn đáng kể so với dự phòng chung.

Tùy thuộc vào phương pháp bao gồm các yếu tố dự trữ, có sự phân biệt giữa đặt trước vĩnh viễn, đặt trước thay thế và đặt trước trượt.

Đặt chỗ vĩnh viễn –Đây là khu đặt chỗ trong đó các phần tử dự phòng tham gia vào hoạt động của cơ sở cùng với các phần tử chính. Trong trường hợp phần tử chính bị hỏng thì không cần thiết thiết bị đặc biệt, đưa phần tử dự trữ vào hoạt động, vì nó được đưa vào hoạt động đồng thời với phần tử chính.

Đặt chỗ bằng cách thay thế –Đây là sự dự phòng trong đó các chức năng của phần tử chính chỉ được chuyển sang phần tử dự phòng sau khi phần tử chính bị hỏng. Khi dự phòng bằng cách thay thế, cần có các thiết bị giám sát và chuyển mạch để phát hiện lỗi của phần tử chính và chuyển từ phần chính sang phần dự phòng.

Bật thiết bị dự phòng bằng cách thay thế. Chế độ chờ lạnh và nóng.

Đặt chỗ luân phiên – là kiểu đặt trước bằng cách thay thế, trong đó các phần tử chính của một đối tượng được hỗ trợ bởi các phần tử, mỗi phần tử có thể thay thế bất kỳ phần tử bị lỗi nào.

Cả hai loại đặt chỗ trước (vĩnh viễn và thay thế) đều có những ưu điểm và nhược điểm.

Ưu điểm của việc đặt chỗ cố định là tính đơn giản của nó, bởi vì trong trường hợp này, không cần thiết bị giám sát và chuyển mạch, điều này làm giảm độ tin cậy của toàn bộ hệ thống và quan trọng nhất là không bị gián đoạn hoạt động. Nhược điểm của tính năng dự phòng liên tục là làm gián đoạn chế độ hoạt động của các phần tử dự phòng trong trường hợp các phần tử chính bị hỏng.

Việc kích hoạt dự trữ bằng cách thay thế có ưu điểm sau: nó không làm gián đoạn chế độ vận hành của các phần tử dự trữ, duy trì độ tin cậy của các phần tử dự trữ ở mức độ lớn hơn và cho phép sử dụng một phần tử dự trữ cho một số công nhân (với tính năng dự trữ trượt).

Tùy thuộc vào chế độ hoạt động của các phần tử dự trữ, có sự phân biệt giữa dự trữ có tải (nóng) và dự trữ không tải (lạnh).

phụ tùng có tải (nóng) trong ngành năng lượng nó còn được gọi là quay hoặc bật. Ở chế độ này, phần tử dự phòng ở cùng chế độ với phần tử chính. Tài nguyên của các phần tử dự trữ bắt đầu bị tiêu hao kể từ thời điểm toàn bộ hệ thống được đưa vào hoạt động và xác suất hoạt động không bị lỗi của các phần tử dự trữ trong trường hợp này không phụ thuộc vào thời điểm chúng được đưa vào hoạt động.

Loại dự trữ này thường được đặt trên các thiết bị hoạt động ở tốc độ không tải, và do đó, trong trường hợp này, tuổi thọ của các bộ phận dự trữ sẽ giảm so với điều kiện vận hành khi các thiết bị mang tải.

Xác suất hoạt động không có sự cố của các phần tử dự trữ trong trường hợp loại dự trữ này sẽ phụ thuộc cả vào thời điểm kích hoạt của chúng và vào mức độ khác nhau của quy luật phân bố xác suất hoạt động không có sự cố của chúng trong điều kiện vận hành và dự phòng.

Khi dự trữ không tải (lạnh) các phần tử dự phòng bắt đầu tiêu thụ tài nguyên kể từ thời điểm chúng được đưa vào hoạt động thay vì các phần tử chính. Trong lĩnh vực năng lượng, loại dự trữ này thường được các đơn vị không kết nối sử dụng.

Tính toán độ tin cậy cho hệ thống có các phần tử kết nối song song phụ thuộc vào phương pháp dự phòng.

⇐ Trước13141516171819202122Tiếp theo ⇒

Thông tin liên quan:

Tìm kiếm trên trang web:

Trong thực tiễn xây dựng các hệ thống có tính sẵn sàng cao, chủ yếu là CNTT, có khái niệm “điểm lỗi duy nhất” (SPOF, Single Point Of Failed). Bất kỳ hệ thống dữ liệu có tính sẵn sàng cao nào đều cố gắng không có nút, đường liên lạc hoặc đối tượng trong kiến trúc của nó, nếu lỗi của chúng có thể làm hỏng toàn bộ hệ thống hoặc gây ra tình trạng không có sẵn dữ liệu.

Tất cả điều này là đúng. Tuy nhiên, tôi nhận thấy rằng gần đây, đặc biệt là trong môi trường CNTT, một kiểu “tôn sùng” đã nảy sinh đối với việc “thiếu một điểm thất bại” này. Người ta tin rằng “không có điểm thất bại duy nhất” đồng nghĩa với “tốt” và “hệ thống Chính xác”, và sự hiện diện của cô ấy là “xấu” và “hệ thống sai”. �?

dự trữ lạnh

Đây là nghiên cứu về vấn đề kiến trúc sự đúng đắn kết thúc. Tuy nhiên, cũng như bất kỳ vấn đề nào khác, trên thực tế, bản chất nằm sâu hơn một chút.

Vấn đề là “không có điểm thất bại duy nhất” là một “công cụ” để đạt được tính sẵn sàng cao chứ không phải là một “mục tiêu”. “Không SPOF” là một trong những phương tiện để đạt được khả năng tiếp cận, nhưng bản thân nó không phải là khả năng tiếp cận, một phương tiện, một trong chứ không phải mục tiêu, thường là điều kiện cần nhưng chưa đủ.

Vậy thì điều gì thực sự quyết định tính hợp lệ của một giải pháp?

Đối với tôi, có vẻ như điều này đang đáp ứng các yêu cầu RPO/RTO cho vấn đề kinh doanh cụ thể này.

Thuật ngữ RPO/RTO được các chuyên gia sao lưu và bảo vệ dữ liệu biết đến. RPO, Mục tiêu điểm hoàn trả– đây là “điểm sẵn có của dữ liệu” trong trường hợp mất dữ liệu. RTO, Mục tiêu thời gian quay lại– đây là lúc hệ thống cần khôi phục hoạt động và tiếp tục phục vụ.

Ví dụ: nếu bạn sao lưu cơ sở dữ liệu của mình mỗi ngày một lần vào buổi tối, sau khi kết thúc ngày làm việc, lúc 21:00, thì RPO cho hệ thống của bạn sẽ là 21:00 tối ngày hôm trước, tức là , thời điểm quá trình sao lưu bắt đầu.

Giả sử bạn bị mất dữ liệu và đã khôi phục dữ liệu đó từ bản sao lưu vào lúc 21:00 ngày hôm qua. Việc khôi phục căn cứ mất 40 phút. Nếu bạn có cơ sở dữ liệu đang chạy thì bạn vẫn cần cập nhật trạng thái của nó từ nhật ký lưu trữ bằng cách khôi phục các thay đổi được ghi từ 21:00 về thời điểm hiện tại. Giả sử nó mất 15 phút. Hơn nữa, RTO, trong trường hợp của bạn, là 55 phút.

No tôt hay xâu? Không thể trả lời từ góc độ CNTT. Câu trả lời sẽ đến từ doanh nghiệp bạn phục vụ. Đối với một số nhiệm vụ, thậm chí 10 phút ngừng hoạt động cũng là rất nhiều. Một số nhiệm vụ sẵn sàng chờ đợi vài giờ, trong khi một số nhiệm vụ có thể dễ dàng tồn tại trong một ngày, sẽ không có điều gì xấu xảy ra. Sự sụt giảm của NYSE có thể dẫn đến sự hoảng loạn trong toàn bộ nền kinh tế toàn cầu. Sự cố sập mạng dịch vụ ATM của một ngân hàng lớn mà trong 10 phút ngừng hoạt động có thể xử lý hàng chục nghìn yêu cầu từ các “nhà vật lý” chưa phải là điều đáng lo ngại nhưng vẫn rất khó chịu. Và việc lưu trữ các trang chủ có thể sẽ nằm trong một ngày với thông báo “Xin lỗi, công việc đang được tiến hành” trong kịch bản hay nhất trả cho khách hàng một khoản tiền phạt cho một ngày ngừng hoạt động.

Tất nhiên, doanh nghiệp sẽ yêu cầu RPO/RTO bằng 0, điều này luôn xảy ra, họ luôn yêu cầu điều đó. 🙂 Tuy nhiên, cần nhớ rằng mọi thứ đều tốn tiền và mỗi sự cải thiện trong tình huống không có thời gian đều tốn tiền và thường tăng theo cấp số nhân; mỗi cải tiến tiếp theo về các thông số này sẽ khiến doanh nghiệp ngày càng tốn nhiều chi phí hơn.

Do đó, theo quy luật, hoạt động kinh doanh và CNTT thường đi đến một số thỏa hiệp. Sự thỏa hiệp này, như một quy luật, được phân chia theo nhiệm vụ. Nhưng cuối cùng, doanh nghiệp và CNTT cùng nhau phát triển một số yêu cầu đối với RPO/RTO.

�? một hệ thống đáp ứng các yêu cầu này, một hệ thống đáp ứng các yêu cầu kinh doanh này, với mức tiền chấp nhận được cho doanh nghiệp - đây là hệ thống tốt . Một hệ thống không thỏa mãn họ - xấu.

Xin lưu ý rằng trong định nghĩa của tôi về hệ thống “xấu” và “tốt”, tôi hoàn toàn không sử dụng khái niệm “không có một điểm thất bại nào”.

Liệu một hệ thống có “một điểm lỗi duy nhất” có thể hoạt động tốt, tức là đáp ứng các yêu cầu kinh doanh cho RPO/RTO không? Vâng, dễ dàng. Nếu khoảng thời gian khôi phục chức năng của hệ thống nằm trong khuôn khổ quy định thì hãy để có bao nhiêu điểm lỗi tùy thích. Đặc biệt, nếu việc thanh lý trong quyết định mọi người“Điểm thất bại duy nhất” không khả thi về mặt kinh tế vì nó quá tốn kém cho vấn đề mà doanh nghiệp đang giải quyết.

Hãy nhớ rằng độ tin cậy là tham số phức tạp, tùy thuộc vào nhiều yếu tố và nhiều người tham gia. Việc tạo một bộ lưu trữ cực kỳ đáng tin cậy để lưu trữ dữ liệu sẽ không làm cho hệ thống CNTT của bạn trở nên cực kỳ đáng tin cậy nếu các máy chủ không đáng tin cậy được kết nối với bộ lưu trữ cực kỳ đáng tin cậy này, được phân cụm, không có một điểm lỗi nào và thông qua FC Dual Fabric, không phân cụm và có thời hạn sử dụng đã hết hạn. hợp đồng dịch vụ, chạy ứng dụng kinh doanh thực tế và chức năng kinh doanh. Hãy nhớ rằng, giống như trường hợp của một hải đội, tốc độ của nó được xác định bởi tốc độ của con tàu chậm nhất trong đó, Độ tin cậy của hệ thống CNTT được xác định bởi độ tin cậy của liên kết yếu nhất của nó, và không có nghĩa là đáng tin cậy nhất.

Không có “viên đạn ma thuật” nào về độ tin cậy, cũng như không có độ tin cậy tuyệt đối. �? sự hiện diện hay vắng mặt của “một điểm lỗi duy nhất” trong phần hệ thống CNTT của bạn có thể không ảnh hưởng đến độ tin cậy của toàn bộ hệ thống kinh doanh. Bạn phải luôn nhìn sâu hơn và hỏi xem các yêu cầu RPO/RTO mà doanh nghiệp cần có được đáp ứng hay không và chi phí là bao nhiêu. �? Với cùng số tiền hoặc rẻ hơn, có thể tìm ra giải pháp cải thiện chỉ số này không và bằng cách nào.

Và không chỉ tôn sùng một trong nhiều công cụ để đạt được mục tiêu này.

Tags: RPO, RPO/RTO, RTO, SPOF
Thể loại: vừa đọc | miễn bình luận

Dự phòng đĩa và kênh

Khi sử dụng đĩa được nhân đôi, có khả năng bị hỏng cùng một kênh, bộ điều khiển và nguồn điện cho cả hai đĩa.

OS NetWare 386 có thể dự trữ toàn bộ kênh bằng cách sử dụng hai bộ điều khiển mà hai đĩa được kết nối tương ứng. Hai nguồn điện được sử dụng để cấp nguồn cho các bộ điều khiển và ổ đĩa này.

Máy chủ dự phòng nóng

Việc khôi phục dữ liệu từ đĩa được phản chiếu có thể cần khoảng vài giờ, tùy thuộc vào kích thước đĩa. Đôi khi sự chậm trễ trong hoạt động mạng như vậy là hoàn toàn không thể chấp nhận được.

Gần đây, Novell đã phát triển hệ điều hành mạng NetWare System Fault Tolerance Level III (SFT III) phiên bản 3.11. Hệ điều hành này cung cấp các máy chủ dự phòng nóng.

Hệ thống NetWare SFT III bao gồm hai máy chủ được kết nối với nhau bằng đường truyền tốc độ cao sử dụng bộ điều hợp MSL (Mirrored Server Link) đặc biệt. cáp đồng trục dài tới 33 mét hoặc cáp quang dài tới 4 km.

Sự cố của một máy chủ không dẫn đến việc tắt mạng - máy chủ dự phòng sẽ tự động được kích hoạt. Nhờ kênh liên lạc tốc độ cao, các đĩa của máy chủ dự phòng chứa các tệp giống như các đĩa của máy chủ chính nên không cần khôi phục dữ liệu. Bạn có thể sửa chữa một trong hai máy chủ đang sử dụng mà không cần dừng toàn bộ hệ thống, điều này rất quan trọng nếu hệ thống phải hoạt động suốt ngày đêm.

Chương II. Xây dựng kỹ thuật mạng cục bộ

Xây dựng vấn đề

Mục đích của khóa học là tổ chức mạng cục bộ và truy cập Internet trong một tòa nhà dân cư

Để đạt được mục tiêu trong khóa học các nhiệm vụ sau được giải quyết:

· Lựa chọn cấu trúc liên kết và hệ thống cáp mạng lưới;

· Lựa chọn thiết bị mạng;

· Lựa chọn phần mềm.

Cần xây dựng sơ đồ cấu trúc mạng lưới nhà ở hợp lý, linh hoạt, đưa ra các phương thức cập nhật nhanh thông tin hoạt động trên máy chủ, cũng như giải quyết các vấn đề về mức độ bảo vệ dữ liệu cần thiết.

Xây dựng mạng lưới

Để giải quyết vấn đề đầu tiên, tôi chọn cấu trúc liên kết “Sao” vì:

Theo truyền thống người ta tin rằng mạng cục bộ nên được xây dựng trên cấu trúc liên kết sao và kiến trúc vòng vốn có trong các hệ thống viễn thông nghiêm túc dựa trên SDH/ATM (điều này rất biện pháp khắc phục hiệu quả tăng độ tin cậy trong điện thoại, trong đó một số PBX có thể tiếp tục hoạt động bất kể nút bị lỗi).

Tuy nhiên, bất kỳ kiến trúc lưới nào cũng đáng tin cậy hơn một kết nối đơn giản. Và vòng Ethernet cũng không ngoại lệ. Với sự gia tăng của các thiết bị chuyển mạch giá rẻ hỗ trợ STP (giao thức cây bao trùm), việc sử dụng các liên kết dự phòng đã trở nên đủ quá trình đơn giản, không cần sự can thiệp của quản trị viên mạng.

Chế độ chờ nóng

Khi sử dụng "vòng", trong trường hợp bất kỳ nút nào (hoặc một phần của hệ thống cáp) bị lỗi, khả năng hoạt động của toàn bộ mạng vẫn được duy trì.

Tuy nhiên, cấu trúc liên kết vòng dư thừa về số lượng kết nối và do đó đắt hơn. Và vấn đề về độ tin cậy không quá gay gắt do kích thước mạng LAN nhỏ.

Rõ ràng, từ quan điểm độ tin cậy, cấu trúc liên kết “vòng” là thích hợp hơn, nhưng vì đối với mạng trong nhà Vấn đề cấp bách hơn là chi phí của mạng và có tính đến những khó khăn phát sinh khi đặt cáp, thì cuối cùng, cấu trúc liên kết “ngôi sao” là tối ưu nhất.

Để giải quyết bài toán chọn hệ thống cáp mạng, tôi chọn cáp xoắn đôi thuộc loại “cat5e” vì:

Đối với hệ thống thuê bao tòa nhà, lựa chọn tối ưu là cáp xoắn đôi loại 5e. Nó cho phép bạn truyền dữ liệu với tốc độ 100 Mbit/s, dễ cài đặt, chi phí khá thấp và đáp ứng tất cả các yêu cầu về độ tin cậy cho hệ thống thuê bao.

Xem xét ngân sách tổng thể của dự án thấp, sự lựa chọn rõ ràngĐối với các kết nối đường trục, cáp xoắn đôi loại 5e dành cho hệ thống dây điện bên ngoài đã sẵn có. Hạn chế đáng kể của nó là mức độ bảo vệ thấp khỏi nhiễu điện từ bên ngoài và điện áp tĩnh, ảnh hưởng đến độ tin cậy chung của mạng, nhưng nhược điểm này được khắc phục bằng cách đặt cáp trong các kênh cáp đặc biệt, tách biệt với hệ thống dây điện chung trong nhà.

Để giải bài toán chọn thiết bị mạng mình chọn 2 switch D-Link DES-3028, vì thiết bị chuyển mạch được quản lý cấp độ thứ hai của dòng DES-3028 đại diện nhiều nhất giải pháp hiệu quả trong danh mục thiết bị chuyển mạch mạng được quản lý cấp đầu vào. Với chức năng phong phú, các thiết bị chuyển mạch này cung cấp giải pháp chi phí thấp để tạo ra sự an toàn và mạng lưới hiệu quả các bộ phận của các doanh nghiệp vừa và nhỏ cũng như các doanh nghiệp công nghiệp. Ngoài ra, dòng sản phẩm này còn là giải pháp về giá/chức năng tối ưu cho cấp độ truy cập mạng của nhà cung cấp dịch vụ. Điểm đặc biệt của công tắc này là mật độ cao cổng, 4 cổng Gigabit Uplink, cài đặt thay đổi từng bước nhỏ để quản lý băng thông và cải thiện quản lý mạng. Các thiết bị chuyển mạch này cho phép bạn tối ưu hóa mạng của mình cả về chức năng và đặc điểm chi phí.

Máy chủ chính và duy nhất trên mạng phải cung cấp:

· Máy chủ web

· Lưu trữ tập tin

· P2P – theo dõi

· Đóng vai trò trung gian giữa máy chủ của nhà cung cấp Internet và mạng cục bộ

Để giải quyết vấn đề này, tôi quyết định từ bỏ các giải pháp máy chủ chuyên dụng và chọn một hệ thống có cấu hình gần đúng:

Bộ xử lý: Core 2 Quad Q9650

Bộ nhớ: 8Gb DDR II

· 2x HDD 1.5Tb kết hợp trong RAID 0

Hệ điều hành mạng đã được chọn Máy chủ Ubuntu x64, vì hệ điều hành này có một số lợi thế rất lớn, chẳng hạn như:

Miễn phí, không giống như, ví dụ, máy chủ Windows

Cấu hình linh hoạt

· Có sẵn tất cả các phần mềm cần thiết trong gói cơ bản

· Hỗ trợ hầu hết tất cả các thiết bị

· Cập nhật thường xuyên và có sẵn trang web hỗ trợ bằng tiếng Nga

dự phòng nóng), đôi khi là tiếng lóng tia nóng- công nghệ dành cho thiết bị điện tử dự phòng, trong đó thiết bị dự trữ được kết nối với hệ thống và tự động thay thế bộ phận bị lỗi hoặc ít nhất là không làm gián đoạn hoạt động của hệ thống. Thường được sử dụng nhất cho ổ cứng, bộ nhớ truy cập tạm thời máy tính. Trong ngữ cảnh của một số hệ thống, nó có thể được gọi đơn giản là "dự phòng" (ngụ ý rằng các thiết bị có thể thay thế nguội đơn giản là không hiển thị trong hệ thống và không yêu cầu một thuật ngữ đặc biệt).

Dự phòng nóng cho hệ thống lưu trữ

Thông thường, các đĩa có khả năng tráo đổi nóng được sử dụng kết hợp với mảng RAID. Trong trường hợp này, có một số loại đĩa dự phòng nóng:

địa phương (tiếng Anh) địa phương, Tiếng Anh thuộc sở hữu mảng) - đĩa thuộc về một mảng cụ thể và chỉ được sử dụng để thay thế đĩa bị lỗi trong mảng đã cho, nếu có một số mảng trong hệ thống và một đĩa bị lỗi ở mảng lân cận thì đĩa cục bộ của mảng đó sẽ không được sử dụng để thay thế.
toàn cầu, chung toàn cầu, Tiếng Anh đã chia sẻ) - đĩa không thuộc bất kỳ mảng nào và có thể được sử dụng để thay thế đĩa bị lỗi trong bất kỳ mảng nào. Khi kết hợp các hotspar toàn cầu và cục bộ, có hai thuật toán để sử dụng chúng: đầu tiên là cục bộ và sau đó là toàn cầu, hoặc đầu tiên là toàn cầu và sau đó là cục bộ. Tùy chọn thứ hai cho phép bạn tạo các mảng có độ tin cậy cao hơn một chút cho các mảng đã chọn, tùy chọn đầu tiên - cho tất cả.
nhóm (tiếng Anh) nhóm) - trong trường hợp này, một số mảng được kết hợp thành một nhóm trong đó có thể sử dụng đĩa sao lưu. Các mảng không nằm trong nhóm sẽ không nhận được đĩa này (ví dụ: tùy chọn này sử dụng linux-raid).

chỉ định

Một số hệ thống và bộ điều khiển đột kích có thể sử dụng ký hiệu đèn LED cụ thể (hoặc loại đèn LED nhấp nháy đặc biệt) để biểu thị cặp nóng.

Theo dõi tình trạng dự trữ nóng

Nhiều hệ thống kiểm tra định kỳ trạng thái của các đĩa dự phòng (bằng cách đọc hoặc ghi) - điều này cho phép bạn đảm bảo rằng đĩa thay thế ở tình trạng bình thường và bảo vệ khỏi tình huống một đĩa được thêm vào mảng thay vì một đĩa bị lỗi hóa ra là tự nó bị lỗi.

Xây dựng lại mảng khẩn cấp

Thông thường, ổ cứng không bị lỗi hoàn toàn mà chỉ bị lỗi một phần (trong một số lĩnh vực). Một số hệ thống có khả năng sao chép trước dữ liệu từ mảng bị ảnh hưởng một phần sang ổ đĩa dự phòng trước khi tháo ổ đĩa bị ảnh hưởng. Các vị trí xấu được xây dựng lại theo thuật toán RAID, những vị trí bình thường chỉ được sao chép từ một đĩa bị hỏng một nửa. Điều này giảm thiểu thời gian khi mảng ở trạng thái xuống cấp và giảm tải (vì không cần tính toán lại tổng kiểm tra cho toàn bộ mảng).

Lựa chọn thay thế

Dự trữ lạnh(thiết bị yêu cầu kết nối thủ công), thông thường đây là tên được đặt cho các linh kiện dự phòng đặt trong kho gần thiết bị. Đôi khi bị cô lập dự trữ ấm áp, tức là các thành phần yêu cầu thay thế thủ công nhưng không yêu cầu tắt hệ thống (xem thay thế nóng).

Xem thêm

Quỹ Wikimedia. 2010.

Xem “Hot dự trữ” là gì trong các từ điển khác:

Xem quãng đường đầu máy phụ trợ. Từ điển đường sắt kỹ thuật. M.: Nhà xuất bản Đường sắt Vận tải Nhà nước. N. N. Vasiliev, O. N. Isaakyan, N. O. Roginsky, Ya. B. Smolyansky, V. A. Sokovich, T. S. Khachaturov. 1941 ... Từ điển đường sắt kỹ thuật

dự trữ nóng- - Chủ đề viễn thông, khái niệm cơ bản EN hot byhot chờ...

dự trữ nóng- aktyvusis rezervas statusas T sritis Standartizacija ir metrologija apibrėžtis Rezervas, apibūdinamas tuo, kad atsarginiai įtaisai veikia ta pačia veika, kaip ir pagrindiniai įtaisai. atitikmenys: tiếng Anh. dự trữ tích cực; đã nạp vok dự trữ.… … Penkiakalbis aiškinamasis metrologijos terminų žodynas Hướng dẫn dịch thuật kỹ thuật

bao gồm cả năng lượng dự trữ của hệ thống điện tàu- NDP. Dự trữ nóng dự trữ kéo sợi Sự khác biệt giữa các giá trị của nguồn điện được bật và phụ tải của hệ thống điện của tàu ở chế độ vận hành đang xem xét. [GOST 22652 77] Dự trữ nóng dự trữ luân phiên không được chấp nhận, không được khuyến nghị ... Hướng dẫn dịch thuật kỹ thuật

Bao gồm năng lượng dự trữ của hệ thống điện của tàu- 27. Bao gồm năng lượng dự phòng của hệ thống điện NDP của tàu. Dự trữ quay dự trữ nóng Chênh lệch giữa giá trị công suất bật và phụ tải của hệ thống điện của tàu ở chế độ vận hành đang xét

Ở giai đoạn thiết kế của một nhà máy điện mặt trời, để đảm bảo độ tin cậy cần thiết, trong nhiều trường hợp, ít nhất cần phải sao chép các phần tử riêng lẻ và thậm chí cả các hệ thống riêng lẻ, tức là các bộ phận riêng lẻ. sử dụng đặt phòng.

Sự dư thừa đạt được bằng cách đưa ra sự dư thừa. Tùy thuộc vào bản chất của cái sau, việc đặt trước là:

Kết cấu (phần cứng);

Thông tin;

Tạm thời.

Dự phòng cấu trúc thực tế là các phần tử, thiết bị bổ sung được đưa vào phiên bản yêu cầu tối thiểu của một hệ thống bao gồm các phần tử cơ bản hoặc thậm chí thay vì một hệ thống, việc sử dụng một số hệ thống giống hệt nhau được cung cấp.

Có hai phương pháp để tăng độ tin cậy của hệ thống thông qua dự phòng cấu trúc:

1) dự phòng chung, trong đó toàn bộ hệ thống là dự phòng;

2) dự phòng riêng biệt (từng phần tử), trong đó các phần (phần tử) riêng lẻ của hệ thống được dự trữ.

Các sơ đồ dự phòng cấu trúc chung và riêng biệt được trình bày tương ứng trong Hình 1. 5.3 và 5.4, trong đó n là số phần tử liên tiếp trong mạch, m là số mạch dự phòng (có dự phòng chung) hoặc phần tử dự phòng cho từng mạch chính (có dự phòng riêng)

Khi m=1 thì có sự nhân đôi và khi m=2 thì có gấp ba. Thông thường, họ cố gắng sử dụng dự phòng riêng biệt bất cứ khi nào có thể, vì độ tin cậy thường đạt được với chi phí thấp hơn đáng kể so với dự phòng chung.

Tùy thuộc vào phương pháp bao gồm các yếu tố dự trữ, có sự phân biệt giữa đặt trước vĩnh viễn, đặt trước thay thế và đặt trước trượt.

Đặt chỗ vĩnh viễn –Đây là khu đặt chỗ trong đó các phần tử dự phòng tham gia vào hoạt động của cơ sở cùng với các phần tử chính. Trong trường hợp phần tử chính bị hỏng, không cần thiết bị đặc biệt nào để kích hoạt phần tử dự phòng vì nó được đưa vào hoạt động đồng thời với phần tử chính.

Cả hai loại đặt chỗ trước (vĩnh viễn và thay thế) đều có những ưu điểm và nhược điểm.

Tùy thuộc vào chế độ hoạt động của các phần tử dự trữ, có sự phân biệt giữa dự trữ có tải (nóng) và dự trữ không tải (lạnh).

phụ tùng có tải (nóng) trong ngành năng lượng nó còn được gọi là quay hoặc bật. Ở chế độ này, phần tử dự phòng ở cùng chế độ với phần tử chính. Tài nguyên của các phần tử dự trữ bắt đầu bị tiêu hao kể từ thời điểm toàn bộ hệ thống được đưa vào vận hành và xác suất hoạt động không bị lỗi của các phần tử dự trữ trong trường hợp này không phụ thuộc vào thời điểm chúng được đưa vào vận hành.

Dự trữ nhẹ (ấm)được đặc trưng bởi thực tế là phần tử dự trữ ở chế độ ít tải hơn phần tử chính. Do đó, mặc dù tài nguyên của các phần tử dự trữ cũng bắt đầu bị tiêu hao kể từ thời điểm toàn bộ hệ thống được bật, nhưng tốc độ tiêu thụ tài nguyên của các phần tử dự trữ cho đến khi chúng được bật thay vì các phần tử bị lỗi thấp hơn đáng kể so với trong điều kiện vận hành. . Loại dự trữ này thường được đặt trên các thiết bị hoạt động ở tốc độ không tải, và do đó, trong trường hợp này, tài nguyên của các phần tử dự trữ được sử dụng ít hơn so với điều kiện vận hành khi các thiết bị mang tải. các yếu tố dự trữ trong trường hợp loại dự trữ này sẽ phụ thuộc vào cả thời điểm chúng bắt đầu làm việc và vào mức độ khác nhau của quy luật phân bổ xác suất cho hoạt động không có sự cố của chúng trong điều kiện làm việc và chờ.

Tính toán độ tin cậy cho hệ thống có các phần tử kết nối song song phụ thuộc vào phương pháp dự phòng.

ĐỘ TIN CẬY CỦA HỆ THỐNG VỚI SỰ DỰ PHÒNG CHUNG LIÊN TỤC

Chúng tôi sẽ giả định rằng các phần tử dành riêng và dự phòng đều đáng tin cậy như nhau, tức là
Và
. Để thuận tiện, xác suất hoạt động không có lỗi và sự xuất hiện lỗi của các phần tử riêng lẻ được biểu thị bằng chữ in hoa trong phần này và các phần tiếp theo.

Xét mạch tương đương (Hình 5.5) và công thức (5.18), xác suất sự cố của hệ thống có m mạch dự phòng có thể được tính như sau:

, (5.22)

Ở đâu (t) - xác suất hỏng mạch chính,
– xác suất hỏng mạch dự phòng thứ i.

Theo đó, xác suất hoạt động không có lỗi của hệ thống

(5.23)

Theo công thức (5 8) ta có

(5.24)

Với xác suất hỏng hóc của mạch chính và mạch dự phòng bằng nhau
công thức (5 22) và (5 23) có dạng:

, (5.25)

(5.26)

Thời gian hoạt động trung bình của hệ thống có dự phòng chung

(5.27)

Ở đâu – tỷ lệ lỗi hệ thống,
, - tỷ lệ hỏng hóc của bất kỳ mạch nào trong số (m+1), – tỷ lệ thất bại của phần tử thứ i

Đối với hệ thống gồm hai mạch điện song song (m=1), công thức (5.27) có dạng:

(5.28)

Thời gian phục hồi trung bình của hệ thống trong trường hợp tổng quát được xác định theo công thức

(5.29)

Ở đâu – thời gian phục hồi trung bình của chuỗi thứ i.

Đối với trường hợp đặc biệt m=1, công thức (5.29) có dạng:

Ví dụ 5.2.

Tính xác suất vận hành không có sự cố trong 3 tháng, tỷ lệ sự cố, thời gian trung bình giữa các lần sự cố của đường dây trên không một mạch dài l = 35 km cùng với máy biến áp giảm áp 110/10 kV và thiết bị chuyển mạch (Hình 5.6).

Mạch tương đương độ tin cậy của SES đang được xem xét là một cấu trúc tuần tự (Hình 5.7)

Tỷ lệ hư hỏng của các phần tử được lấy từ Bảng 3.2:

;

Theo công thức (5.7), ta xác định được tỷ lệ hỏng hóc của mạch cấp nguồn

Tính toán này cho thấy ảnh hưởng chủ yếu đến sự cố mạch điện là sự hư hỏng của đường dây trên không. Thời gian trung bình giữa các lần hỏng mạch cấp nguồn

Xác suất mạch hoạt động không hỏng hóc trong thời gian t=0,25 năm

Ví dụ 5.3.

Xác định các chỉ tiêu độ tin cậy của trạm giảm áp 110/10 kV khi vận hành chung cả hai máy biến áp liên tục trong 6 tháng cao hơn bao nhiêu so với trạm biến áp một máy biến áp. Chúng tôi bỏ qua lỗi chuyển đổi thiết bị và tắt máy có chủ ý.

Dữ liệu ban đầu được lấy từ bảng. 3.2 như sau:

;

Xác suất vận hành không có sự cố của một máy biến áp trong 6 tháng

Thời gian trung bình giữa các lần hỏng máy biến áp

Xác suất vận hành không sự cố của trạm biến áp hai máy biến áp, tính theo công thức (5.20):

Thời gian trung bình giữa các lần sự cố của trạm biến áp hai máy biến áp, tính theo công thức (5.28):

năm

Tỷ lệ hư hỏng trạm biến áp hai máy biến áp

Thời gian phục hồi trung bình của trạm biến áp hai máy biến áp (xem công thức (5.30))

Phân tích kết quả cho thấy độ tin cậy của trạm biến áp hai máy biến áp cao hơn nhiều so với độ tin cậy của trạm biến áp một máy biến áp.

Ví dụ 5.4.

Hãy xem xét một phần thiết bị đóng cắt 6 kV, từ đó cấp nguồn cho 18 đường dây ra (Hình 5.8), tỷ lệ hỏng hóc của các thiết bị chuyển mạch kèm theo đoản mạch được ước tính bằng giá trị = 0,003
, tỷ lệ thất bại với

ngắn mạch cho thanh cái trên mỗi kết nối
(xem bảng 3 2). Xác định cường độ chuyển đổi ngắn hạn của phần thiết bị đóng cắt, giả sử độ tin cậy tuyệt đối của thiết bị chuyển mạch tự động (ATI) và thiết bị chuyển mạch Q2, dự phòng nguồn điện của phần này.