Trong nhiều năm, câu chuyện vềtrung tâm dữ liệutiêu thụ năng lượng theo một vòng cung có thể dự đoán được. Chắc chắn là quá trình số hóa đang phát triển nhưng hiệu quả đạt được nhờ các máy chủ tốt hơn, ảo hóa và hợp nhất đám mây đã khiến tổng lượng điện sử dụng ở mức ổn định một cách đáng ngạc nhiên. Nhu cầu năng lượng của trung tâm dữ liệu toàn cầu chiếm khoảng 1% tổng lượng điện tiêu thụ - khoảng 200 terawatt giờ mỗi năm - trong gần một thập kỷ.
Thời đại đó đang kết thúc.
Sự hội tụ của AI sáng tạo, khai thác tiền điện tử, điện toán biên và sự tăng trưởng theo cấp số nhân của các thiết bị được kết nối đã phá vỡ đường cong hiệu quả cũ. Ước tính của ngành hiện cho thấy nhu cầu năng lượng của trung tâm dữ liệu đang tăng với tốc độ hàng năm chưa từng thấy kể từ đầu những năm 2000. Ở một số khu vực – Ireland, Bắc Virginia, Singapore – các trung tâm dữ liệu đã chiếm từ 15 đến 25% tổng lượng điện tiêu thụ, buộc các cơ quan quản lý phải áp dụng lệnh cấm xây dựng mới.
Trong bối cảnh đó, các lựa chọn cơ sở hạ tầng từng có vẻ giống như các chi tiết kỹ thuật — kiến trúc làm mát, cấu trúc liên kết phân phối điện, quy hoạch mật độ giá đỡ — đã trở thành quyết định của hội đồng quản trị. Chi phí năng lượng không còn là một chi tiết đơn hàng nữa. Đó là một hạn chế đối với sự tăng trưởng.
Hiệu quả sử dụng năng lượng, hay PUE, là thước đo hiệu quả tiêu chuẩn của ngành trung tâm dữ liệu trong gần hai thập kỷ. Đó là một tỷ lệ đơn giản: tổng công suất cơ sở chia cho công suất thiết bị CNTT.
PUE bằng 2.0 có nghĩa là cứ mỗi watt cung cấp năng lượng cho máy chủ và bộ lưu trữ thì sẽ có thêm một watt dành cho làm mát, chiếu sáng, tổn thất do chuyển đổi điện năng và các chi phí khác. PUE bằng 1,2 nghĩa là chi phí hoạt động chỉ tiêu thụ 0,2 watt trên mỗi watt IT.
Ngành đã chấp nhận rộng rãi các cấp độ dựa trên PUE:
| Mức độ | PUE | DCiE | Nó có nghĩa là gì |
|---|---|---|---|
| Bạch kim | <1,25 | > 0,80 | Hiệu suất đẳng cấp thế giới, thường yêu cầu làm mát miễn phí hoặc làm mát bằng chất lỏng |
| Vàng | 1,25 – 1,43 | 0,70 – 0,80 | Rất hiệu quả, có thể đạt được với thiết kế hiện đại ở vùng khí hậu ôn hòa |
| Bạc | 1,43 – 1,67 | 0,60 – 0,70 | Có thể chấp nhận đối với các cơ sở cũ hoặc khí hậu ấm hơn |
| đồng | 1,67 – 2,00 | 0,50 – 0,60 | Điển hình cho các trung tâm dữ liệu cũ không có cải tiến lớn |
| Hội chợ | 2,00 – 2,50 | 0,40 – 0,50 | Hiệu quả kém, chi phí vận hành cao |
| Nghèo | >2,50 | <0,40 | Sự kém hiệu quả nghiêm trọng, có thể cần được chú ý ngay lập tức |
Vấn đề là nhiều tổ chức không thực sự biết PUE của họ. Họ ước tính. Họ đoán. Hoặc họ chỉ đo ở đồng hồ tiện ích chính và đảm nhận phần còn lại.
Một cuộc khảo sát trong ngành năm 2023 cho thấy gần 40% nhà khai thác trung tâm dữ liệu chưa bao giờ đo PUE ở cấp độ giá đỡ. Trong số những người đã làm như vậy, mức chênh lệch giữa PUE được báo cáo và PUE thực tế trung bình là 0,3 điểm - đủ để chuyển một cơ sở từ Vàng sang Bạc mà không ai nhận ra.
Để hiểu lý do tại sao PUE lại có sự khác biệt lớn như vậy, hãy bắt đầu bằng việc xem xét nguồn điện rời khỏi trung tâm dữ liệu ở đâu.
Trong một cơ sở làm mát bằng không khí điển hình có PUE khoảng 1,8, sự cố trông gần như thế này:
Tải làm mát là biến lớn nhất. Một cơ sở ở vùng khí hậu ôn hòa sử dụng không khí bên ngoài để làm mát miễn phí có thể chỉ tiêu tốn 15% năng lượng phi CNTT cho việc làm mát. Cơ sở tương tự ở vùng khí hậu nhiệt đới với hệ thống làm mát cơ học quanh năm có thể tiêu tốn 40%.
Đây là lý do tại sao các nhà cung cấp dịch vụ cho thuê vị trí quảng cáo PUE ở cấp độ cơ sở nhưng lại phân phối PUE theo đồng hồ đo của khách hàng — những con số khác nhau, hàm ý khác nhau. Khách hàng trả tiền cho tất cả.
Quản lý trung tâm dữ liệu truyền thống giả định một môi trường tương đối tĩnh. Các giá đỡ đã được lấp đầy trong nhiều tháng hoặc nhiều năm. Làm mát có thể được điều chỉnh từ từ. Hệ thống phân phối điện đã quá tải ngay từ ngày đầu tiên.
Kỷ nguyên đám mây đã thay đổi các giả định. Giá bây giờ điền vào ngày. Khối lượng công việc tự động chuyển đổi giữa các máy chủ. Các cụm AI mật độ cao có thể tiêu thụ năng lượng gấp ba lần so với các giá máy tính đa năng liền kề.
Những thay đổi này đã buộc phải suy nghĩ lại về quản lý cơ sở hạ tầng. Ba xu hướng nổi bật.
Thứ nhất, mật độ tăng không đều.Một giá đỡ máy chủ tiêu chuẩn cách đây một thập kỷ tiêu tốn 5-8 kilowatt. Ngày nay, các giá đỡ đa năng tiêu thụ 10-15 kilowatt. Các giá đỡ đào tạo AI và điện toán hiệu năng cao thường vượt quá 30 kilowatt mỗi giá. Một số vượt quá 50 kilowatt.
Điều này tạo ra những thách thức về quản lý nhiệt mà hệ thống làm mát không khí phải nỗ lực giải quyết. Ở mức 20 kilowatt mỗi giá, hệ thống làm mát không khí vẫn hoạt động hiệu quả với khả năng ngăn chặn thích hợp. Ở mức 30 kilowatt, nó trở nên cận biên. Ở mức 40 kilowatt trở lên, khả năng làm mát bằng chất lỏng chuyển từ tùy chọn sang cần thiết.
Thứ hai, việc lập kế hoạch năng lực đã mang tính dự đoán.Phương pháp cũ — mua nhiều dung lượng hơn mức cần thiết và để nó ở trạng thái không hoạt động — không còn hiệu quả ở quy mô lớn. Công suất nhàn rỗi có cả chi phí vốn và chi phí bảo trì liên tục.
Các hệ thống quản lý cơ sở hạ tầng hiện đại sử dụng dữ liệu lịch sử và dự báo khối lượng công việc để dự đoán khi nào hết nguồn điện, hệ thống làm mát hoặc không gian tủ mạng. Các hệ thống tốt nhất có thể đề xuất nên cấu hình lại công suất hiện có hay đặt mua phần cứng mới, vài ngày hoặc vài tuần trước khi một hạn chế trở nên nghiêm trọng.
Thứ ba, yêu cầu về khả năng hiển thị cópand.Một trung tâm dữ liệu truyền thống có thể theo dõi nguồn điện ở cấp độ PDU. Cơ sở hiện đại cần khả năng hiển thị ở cấp độ giá đỡ, đôi khi ở cấp độ máy chủ và ngày càng tăng ở cấp độ khối lượng công việc — biết máy ảo hoặc ổ đĩa nào tiêu thụ điện năng.
Cơ sở hạ tầng trung tâm dữ liệuPhần mềm quản lý (DCIM) đã tồn tại hơn một thập kỷ nhưng việc áp dụng vẫn chưa đồng đều. Chưa đến một nửa số trung tâm dữ liệu doanh nghiệp đã triển khai hệ thống DCIM đầy đủ. Nhiều người chỉ sử dụng một phần khả năng của nó.
Một hệ thống DCIM được triển khai đúng cách sẽ thực hiện bốn việc:
Quản lý tài sản.Mọi máy chủ, bộ chuyển mạch, PDU và thiết bị làm mát đều được theo dõi trong cơ sở dữ liệu quản lý cấu hình (CMDB). Vị trí, mức công suất, kết nối mạng, lịch sử bảo trì — tất cả. Điều này nghe có vẻ cơ bản nhưng nhiều tổ chức vẫn theo dõi nội dung trong bảng tính cách nhau hàng tháng giữa các lần cập nhật.
Giám sát thời gian thực.Mất điện ở mức PDU hoặc giá đỡ, nhiệt độ và độ ẩm tại các điểm cung cấp và trả lại, trạng thái hệ thống làm mát, tình trạng pin của UPS. Cảnh báo kích hoạt khi các thông số lệch khỏi điểm đặt. Mục tiêu là phát hiện vấn đề trước khi chúng gây ra thời gian ngừng hoạt động.
Lập kế hoạch năng lực.Hệ thống biết lượng điện năng và công suất làm mát hiện có, mức sử dụng và lượng dự trữ để triển khai trong tương lai. Nó có thể mô hình hóa tác động của việc thêm một giá đỡ mật độ cao mới hoặc loại bỏ một bộ máy chủ cũ hơn.
Trực quan hóa.Bản song sinh kỹ thuật số của trung tâm dữ liệu – từng giá, từng ô – hiển thị các điều kiện hiện tại và cho phép người vận hành mô phỏng các thay đổi. Thêm 10 kilowatt tải vào hàng ba, cột bốn: con số đó có vượt quá khả năng làm mát không? Hệ thống sẽ trả lời trước khi có người di chuyển thiết bị.
Việc cắt giảm mức tiêu thụ năng lượng của trung tâm dữ liệu không phải là điều bí ẩn. Các phương pháp được hiểu rõ. Thách thức là kỷ luật thực hiện.
Tăng nhiệt độ không khí cung cấp.Hầu hết các trung tâm dữ liệu đều hoạt động ở nhiệt độ lạnh - 18 đến 20 độ C khi bộ làm mát quay trở lại - bởi vì đó là điều mà các nhà khai thác luôn làm. Hướng dẫn của ASHRAE hiện khuyến nghị nhiệt độ từ 24 đến 27 độ. Mỗi độ tăng sẽ cắt giảm năng lượng làm mát khoảng 4%. Chạy ở 26 độ thay vì 20 độ giúp tiết kiệm 20-25% điện năng làm mát.
Loại bỏ sự trộn lẫn không khí nóng và lạnh.Ngăn chặn lối đi nóng, ngăn lối đi lạnh hoặc ống xả thẳng đứng buộc không khí làm mát đi đến nơi cần thiết thay vì đạp xe ngắn qua phía trước giá đỡ. Chỉ riêng việc ngăn chặn thường làm giảm năng lượng làm mát từ 15-25%.
Sử dụng ổ đĩa tốc độ thay đổi.Quạt và máy bơm tốc độ không đổi sẽ lãng phí năng lượng khi tải một phần. Ổ đĩa tốc độ thay đổi phù hợp với luồng không khí và lưu lượng nước theo nhu cầu thực tế. Thời gian hoàn vốn trang bị thêm thường là 1-3 năm.
Tối ưu hóa hoạt động của UPS.Hầu hết các hệ thống UPS chạy liên tục ở chế độ chuyển đổi kép - chuyển đổi AC thành DC và quay lại AC ngay cả khi nguồn điện sạch. Các hệ thống UPS hiện đại có thể chuyển sang chế độ sinh thái khi chất lượng điện cho phép, đạt hiệu suất 99% thay vì 94-96%. Sự đánh đổi là thời gian chuyển sang pin ngắn nếu nguồn điện bị hỏng. Đối với các tải CNTT có nguồn điện được thiết kế để truyền tải như vậy thì rủi ro là rất nhỏ.
Áp dụng phân phối điện áp cao hơn.Việc phân phối điện ở mức 415V thay vì 208V giúp giảm tổn thất phân phối khoảng 25%. Điều này yêu cầu các PDU và nguồn điện máy chủ tương thích nhưng nhiều thiết bị hiện đại hỗ trợ nó.
Công ty CPSY Thượng Ngu, một doanh nghiệp công nghệ cao tập trung vào cơ sở hạ tầng trung tâm dữ liệu, báo cáo PUE là 1,3 cho các giải pháp trung tâm dữ liệu mô-đun của mình. Điều này đưa công ty lên hạng Vàng, tiến tới hạng Bạch kim.
Mức tiết kiệm năng lượng được tuyên bố là 25% so với các thiết kế thông thường đến từ nhiều yếu tố. Hệ thống UPS mô-đun có hiệu suất 97,4% ở cấp hệ thống giúp giảm tổn thất phân phối ở mức 15-20%. Máy điều hòa không khí chính xác với máy nén tốc độ thay đổi và quạt EC điều chỉnh công suất làm mát để phù hợp với tải nhiệt thực tế thay vì chạy ở công suất cố định. Và cách bố trí vật lý — ngăn chặn lối đi nóng, khoảng cách giá đỡ tối ưu, sàn nâng với gạch đục lỗ có kích thước phù hợp — giải quyết vấn đề quản lý luồng không khí làm suy yếu nhiều cơ sở hiệu quả khác.
Danh mục chứng nhận của công ty bao gồm ISO 9001 (quản lý chất lượng) và ISO 27001 (quản lý bảo mật thông tin). Việc triển khai khách hàng của nó bao gồm quan hệ đối tác với Huawei, ZTE và Inspur, với các cơ sở xuất khẩu tại Hoa Kỳ, Vương quốc Anh, Đức, Pháp và Úc.
Trong nhiều năm, làm mát bằng chất lỏng là công nghệ thích hợp cho các trung tâm siêu máy tính. Điều đó đang thay đổi nhanh chóng.
Các cụm đào tạo AI sử dụng GPU NVIDIA H100 hoặc B200 sắp ra mắt tạo ra 30-50 kilowatt mỗi giá ở cấu hình hoàn toàn làm mát bằng không khí. Ở mật độ này, việc làm mát không khí đòi hỏi tốc độ luồng khí cao - quạt lớn, giá đỡ sâu và khả năng kiểm soát nhiệt ở mức hạn chế.
Làm mát bằng chất lỏng trực tiếp trên chip giúp loại bỏ 60-80 phần trăm nhiệt tại nguồn. Chip chạy mát hơn. Quạt chạy chậm hơn. Máy điều hòa không khí trong phòng chỉ xử lý lượng nhiệt còn lại từ nguồn điện, bộ nhớ và các bộ phận khác.
Hiệu quả đạt được là đáng kể. Các thiết bị có hệ thống làm mát trực tiếp tới chip báo cáo giá trị PUE từ 1,1 đến 1,2. Sự đánh đổi là chi phí vốn cao hơn, quản lý rò rỉ phức tạp hơn và nhu cầu xử lý nước cấp cơ sở.
Làm mát nhúng hoàn toàn — nhấn chìm toàn bộ máy chủ trong chất lỏng điện môi — đẩy PUE xuống dưới 1,1 nhưng vẫn chuyên dụng. Hầu hết các trung tâm dữ liệu thương mại sẽ áp dụng phương pháp làm mát trực tiếp trên chip trước, sau đó mới áp dụng phương pháp làm mát nhúng cho các vùng có mật độ cao cụ thể.
Nền tảng trung tâm dữ liệu SHANGYU bao gồm các điều khoản cho cả kiến trúc làm mát bằng không khí và chất lỏng, nhận thấy rằng việc triển khai mật độ cao trong tương lai sẽ yêu cầu quản lý nhiệt dựa trên chất lỏng bất kể thiết kế cơ sở như thế nào.
Hầu hết các nhóm vận hành trung tâm dữ liệu vẫn làm việc một cách thụ động. Một âm thanh báo động vang lên. Có người điều tra. Một bản sửa lỗi được áp dụng. Chu kỳ lặp lại.
Việc chuyển đổi sang quản lý dự đoán đòi hỏi ba khả năng mà nhiều tổ chức còn thiếu.
Hoàn thành dữ liệu cấu hình.Biết những gì có trong trung tâm dữ liệu — mọi máy chủ, mọi bộ chuyển mạch, mọi PDU, mọi bộ phận làm mát — là nền tảng. Nếu không có dữ liệu CMDB chính xác, việc lập kế hoạch năng lực chỉ là phỏng đoán.
Đo từ xa dạng hạt.Đo công suất ở mức giá là tối thiểu. Đo công suất trên mỗi máy chủ tốt hơn. Phân bổ quyền lực ở cấp độ khối lượng công việc là tốt nhất nhưng khó đạt được nhất.
Phân tích phân biệt tín hiệu với nhiễu.Nhiệt độ tăng đột biến ở một giá có thể có nghĩa là quạt bị hỏng. Nhiệt độ tăng đột biến trên một nửa trung tâm dữ liệu có thể đồng nghĩa với việc máy làm lạnh bị hỏng. Hệ thống cần phân biệt và đề xuất phản hồi phù hợp.
Nền tảng DCIM của SHANGYU cung cấp hỗ trợ thiết bị SNMP và Modbus, giao diện ứng dụng Windows và dựa trên web cũng như tích hợp với camera mạng để chụp ảnh kích hoạt sự kiện. Các mục tiêu đã nêu rất đơn giản: giảm thời gian ngừng hoạt động tốn kém, cắt giảm chi phí vận hành hàng ngày thông qua kiểm soát môi trường hoàn chỉnh và cải thiện khả năng hiển thị và truy xuất nguồn gốc của ban quản lý.
Mức tiêu thụ năng lượng của trung tâm dữ liệu chiếm khoảng 1% nhu cầu điện toàn cầu. Con số đó nghe có vẻ nhỏ cho đến khi đặt vào bối cảnh. Nó gần tương đương với tổng lượng điện tiêu thụ của Vương quốc Anh.
Quan trọng hơn, tốc độ tăng trưởng đang tăng tốc. Các dự báo của ngành cho thấy nhu cầu năng lượng của trung tâm dữ liệu tăng ở mức 10-15% hàng năm cho đến năm 2030, do AI, áp dụng đám mây và tiếp tục mở rộng các thiết bị được kết nối. Với tốc độ đó, các trung tâm dữ liệu sẽ tiêu thụ 3-4% lượng điện toàn cầu vào cuối thập kỷ này.
Hiệu quả đạt được giúp giữ mức tiêu thụ điện năng ổn định trong thập kỷ trước đến từ ảo hóa máy chủ (giảm số lượng máy chủ vật lý), hiệu suất ổ đĩa được cải thiện (chuyển từ đĩa quay sang SSD) và triển khai rộng rãi hệ thống làm mát miễn phí (sử dụng không khí bên ngoài thay vì làm lạnh cơ học). Những quả ở tầm thấp đó phần lớn đã được hái.
Làn sóng hiệu quả tiếp theo sẽ đến từ làm mát bằng chất lỏng, phân phối điện áp cao hơn, điều khiển làm mát được tối ưu hóa bằng AI và – có lẽ quan trọng nhất – sự liên kết tốt hơn giữa công suất cơ sở hạ tầng và tải CNTT thực tế. Phần cuối cùng đó yêu cầu loại khả năng hiển thị theo thời gian thực và phân tích dự đoán mà hệ thống DCIM cung cấp nhưng ít cơ sở sử dụng đầy đủ.
Bạn có biết PUE thực tế của mình chứ không phải số trên bảng thông số kỹ thuật không?Nếu chưa đo ở đầu ra UPS và ở đầu vào thiết bị IT thì bạn chưa biết. Sự khác biệt là chi phí thực sự của bạn.
Hệ thống làm mát của bạn có đang đấu tranh với nhau không?Ở nhiều trung tâm dữ liệu, các đơn vị CRAC được thiết lập với các dải nhiệt độ và độ ẩm chồng chéo. Một thiết bị hút ẩm trong khi một thiết bị khác làm ẩm. Một cái nguội đi trong khi cái khác nóng lên. Điều này không có gì bất thường. Nó cũng không hiệu quả.
Mức tiêu thụ năng lượng nhàn rỗi của máy chủ của bạn là bao nhiêu?Dữ liệu ngành cho thấy các máy chủ doanh nghiệp điển hình tiêu thụ 30-40% công suất tối đa khi không làm gì. Tắt hoặc chuyển sang chế độ ngủ các máy chủ không sử dụng là biện pháp hiệu quả mang lại ROI cao nhất hiện có. Nó cũng là thứ bị bỏ qua nhiều nhất.
Bạn có thể tăng nhiệt độ không khí cung cấp lên hai độ mà không vi phạm thông số kỹ thuật của thiết bị không?Có thể là có. Hầu hết các thiết bị được đánh giá ở nhiệt độ hấp thụ 25-27 độ. Hầu hết các trung tâm dữ liệu đều chạy ở nhiệt độ 20-22 độ. Khoảng cách sáu độ đó thể hiện lượng năng lượng làm mát không cần thiết trong nhiều năm.
Lần cuối cùng bạn xác nhận hiệu suất của UPS là khi nào?Hiệu suất của bảng tên được đo ở mức đầy tải với hệ số công suất hoàn hảo. Hiệu suất trong thế giới thực ở mức tải một phần với hệ số công suất trong thế giới thực có thể thấp hơn 5-10 điểm.