Jakie wyzwania i innowacje czekają branżę centrów danych w obliczu rozwoju sztucznej inteligencji? Arkadiusz Starczewski, ekspert z Talex S.A., dzieli się swoimi spostrzeżeniami po konferencji Vertiv, gdzie globalny lider infrastruktury krytycznej przedstawił swoją wizję zasilania i chłodzenia wysokomocowych serwerów. Nasz rozmówca wskazuje kluczowe kierunki rozwoju i wyzwania, jakie stoją przed branżą, zwłaszcza w kontekście chłodzenia cieczą oraz nowych rozwiązań projektowych dedykowanych dla AI.
Jakie są Twoje kluczowe wnioski z konferencji Vertiv?
Powinniśmy zacząć od tego, że Vertiv pokazał rozwój AI oraz idące za tym wyzwania z własnej perspektywy tzn. jako firmy zajmującej się stworzeniem środowiska (infrastruktury), które jest w stanie zapewnić gwarantowane zasilanie oraz bardzo precyzyjne chłodzenie dla serwerów/szaf, których zadaniem jest obsługa procesów sztucznej inteligencji i uczenia maszynowego. Niemniej jednak jest to marka o globalnym zasięgu i jeden z liderów w zakresie infrastruktury krytycznej, więc z całą pewnością warto było zapoznać się z eksperckim spojrzeniem na rozwój szeroko pojętego AI.
Przede wszystkim możemy wyróżnić dwa kluczowe wnioski, jakie nasuwają się po analizie tabel i wykresów przedstawionych przez Vertiv.
Pierwszy mówi o dość gwałtownym rozwoju procesorów graficznych. Głównym graczem wywołującym zamieszanie na tym polu jest Nvidia, gdzie każda kolejna generacja ich GPU przynosi oczywiście większą moc obliczeniową, ale też niestety większy pobór energii. Należało opracować konkretny model radzenia sobie z dużą mocą w obrębie serwera i szaf IT o dużej gęstości.
Drugą konkluzją, jaka się nasuwa, jest zupełnie nowe podejście do projektowania Centrum Przetwarzania Danych i to już na etapie projektu budowlanego. Tutaj mowa o DC dedykowanym pod AI, gdzie główną rolę odgrywa naprawdę duża moc oraz chłodzenie cieczą. Nie jest to oczywiście jednoznaczne z tym, że tradycyjne serwerownie będą zaraz wyparte z obiegu, na pewno nie – obie technologie będą współistnieć.
Czy mógłbyś rozwinąć temat rosnącego zapotrzebowania na szafy IT o wysokiej mocy i jego konsekwencji dla centrów danych?
Obecnie mamy do czynienia ze standardową mocą szaf IT na poziomie 5-10 kW, z pewnymi wahaniami w obie strony. Z doświadczenia wiem, że na polskim rynku średnia utrzymuje się nawet bliżej tej niższej wartości ~5 kW. To jest poziom energii, którą chłodzimy tradycyjnie powietrzem, oczywiście z zastosowaniem np. wody lodowej, ale medium chłodzącym bezpośrednio urządzenia IT jest zimne powietrze. Technicznie do poziomu 40-50kW (w zależności od danego projektu) jesteśmy w stanie nadal chłodzić powietrzem – w pewnym momencie trzeba jednak zastosować dodatkowe chłodzenie np. w postaci tylnych drzwi szaf IT wyposażonych w chłodny obieg wodny, ale nadal medium wpływającym do urządzeń IT będzie schłodzone powietrze.
Powyżej wartości 50 kW zapominamy już o tradycyjnej metodzie chłodzenia i musimy projektować system chłodzenia cieczą, gdzie obieg ze specjalnie przystosowaną wodą lodową jest podłączony bezpośrednio do serwera, w którym z kolei są odpowiednie przyłącza z kanalikami połączonymi z wymiennikiem ciepła zamontowanym na CPU/GPU. Marki takie jak Dell, HP, Nvidia i kilku innych dużych graczy mają już gotowe rozwiązania.
Odpowiadając na drugie zagadnienie: konsekwencja to może za duże słowo, ale nowe wyzywania i inwestycje dla centrów danych z pewnością. Chłodzenie cieczą to nie tylko zakup innego typu klimatyzatorów, ale również szereg dodatkowych przedsięwzięć, jak choćby konieczność ich podłączenia pod UPS. Nie ma możliwości czasowego wyłączenia klimatyzatorów bez wcześniejszego wyłączenia serwera. Pozostaje pewien problem z wprowadzeniem cieczy do pomieszczeń, czy nawet samych szaf serwerowych – taki system musi być nieustannie monitorowany pod względem wycieków i spadków ciśnień. Ewentualne reakcje muszą być bezzwłoczne.
Nvidia wydaje się być liderem w tej dziedzinie. Jaką rolę odgrywają ich procesory graficzne w zwiększaniu zapotrzebowania na chłodzenie cieczą w serwerach?
Nvidia jest obecnie bez wątpienia liderem w dziedzinie projektowania i wydawania na świat nowych generacji bardzo wydajnych GPU. Intel czy AMD są może nieco w tyle, ale również mają własne rozwiązania i ich CPU/GPU są w odpowiednich wersjach przystosowane do chłodzenia cieczą.
Aktualne zapotrzebowanie na energię per chip w topowych wersjach to 1200 W. Biorąc pod uwagę fakt, że w każdym serwerze możemy umieścić kilka takich procesorów, to mamy prosty szacunek z wynikiem bardzo dużej gęstości mocy, którą możemy umieścić w standardowej szafie rack. A jak wcześniej wspomniałem, od pewnego poziomu chłodzenie cieczą jest obecnie jedynym rozwiązaniem, umożliwiającym produkcyjną pracę takich maszyn.
Mówisz, że chłodzenie cieczą staje się standardem w serwerach wykorzystujących GPU. Jakie są główne korzyści i wyzwania związane z wprowadzeniem takiego rozwiązania?
Chyba jeszcze za wcześnie, aby chłodzenie cieczą nazywać standardem. Owszem – jest ono używane, potrzebne i z roku na rok będzie się rozwijało i przyrastało, ale trochę czasu jeszcze upłynie, nim będzie to powszechnie używane rozwiązanie. Nie jest to technologia wymyślona w tej dekadzie. IBM wykorzystywał z powodzeniem taką metodę chłodzenia już w ubiegłym wieku. Istnieje też kilka technik m.in. zastępowanie tradycyjnych radiatorów blokami z obiegiem wodnym (opisywane w poprzednich pytaniach), ale także chłodzenie zanurzeniowe, gdzie całe urządzenia zanurza się w schładzanej cieczy.
Trzeba mieć też na uwadze fakt, że serwery, które będą podłączone do systemu chłodzenia cieczą, wymagają również chłodzenia powietrzem. Ciecz chłodzi tylko najbardziej energochłonne elementy, to jest 70-90% całkowitej mocy zużywanej przez serwer. Natomiast reszta komponentów nadal jest chłodzona powietrzem.
Wyzwaniem jest więc zaprojektowanie podwójnego układu klimatyzacji. Należy uwzględnić redundancję potrzebną do bezprzerwowej pracy serwerów. Kolejnym punktem jest rozbudowa modułów UPS, które zapewnią bezprzerwową pracę klimatyzacji opartej na cieczy. W przypadku całkowitej utraty klimatyzacji chłodzącej powietrzem, mamy od kilku do kilkunastu minut na ponowne jej uruchomienie lub uruchomienie (również automatyczne) np. alternatywnych jednostek. Nie jest to dużo czasu, ale powinno wystarczyć, aby uniknąć problemów z chłodzonymi urządzeniami. Natomiast w przypadku awarii systemu chłodzenia cieczą, serwer powinien się wyłączyć w czasie kilku sekund, inaczej dojdzie do poważnych, często nieodwracalnych uszkodzeń.
Rosną nam więc systemy klimatyzacji, rosną systemy gwarantowanego zasilania, a więc rośnie, i to znacznie, moc potrzebna do zasilania całego Data Center. Wyzywaniem staje się więc uzyskanie dużej mocy od operatorów energetycznych albo inwestycja we własne źródła zasilania.
Wspomniałeś też, że chłodzenie cieczą jest bardzo precyzyjne. Rozwiniesz ten temat?
Tak, dodałem słowo „bardzo” nie bez przyczyny. W zasadzie zawsze w centrach danych mamy do czynienia z klimatyzacją precyzyjną. Jej nastawy nie sprowadzają się tylko do określenia poziomu temperatury i wilgotności tak jak w zwykłej klimatyzacji komfortu. Sterowniki klimatyzatorów precyzyjnych to w tej chwili tak naprawdę komputery z systemem operacyjnym i dedykowaną aplikacją. Na poziomie serwisowym jest bardzo dużo parametrów definiowanych pod konkretne chłodzone pomieszczenie czy też układ zimnych korytarzy. Kalibrowane są np. przelotowe czujniki, aby poza ww. wskaźnikami badać też w czasie rzeczywistym różnicę ciśnień, którą generują wentylatory w zasilaczach urządzeń IT.
Przy systemach chłodzenia cieczą ta precyzja wchodzi na kolejny poziom. Glikol (woda lodowa) w tradycyjnym układzie musi być odpowiedniej jakości i w odpowiednim stężeniu, natomiast glikol pracujący w obiegu podłączonym do bloków umieszczonych bezpośrednio na procesorach, musi być tak naprawdę idealnie czysty i wzbogacony o substancje chroniące przed utratą jego projektowych właściwości, przed wytwarzaniem osadu czy rdzy. Nie ma tam miejsca na błąd, ponieważ kanaliki na blokach chłodzących mają średnicę między 20 a 30 mikronów, czytaj – są kilkukrotnie cieńsze od ludzkiego włosa, więc bez dokładnej filtracji doszłoby do zatoru, który momentalnie ugotowałby procesor.
Do tego dochodzi też bardziej skomplikowany proces uruchomienia takiego układu, warunki muszą być sterylne. Serwis wprost określa, że konfiguracja i prace przy takich klimatyzatorach są prowadzone w taki sam sposób jak dla urządzeń medycznych.
Jakie zmiany w projektowaniu serwerowni będą kluczowe w przyszłości? Jakie są Twoje przewidywania na temat przyszłości serwerowni dedykowanych dla AI, w szczególności jeśli chodzi o projektowanie infrastruktury energetycznej?
Temat projektowania serwerowni jest obecnie ciekawym przedsięwzięciem. Już teraz trzeba przewidywać wykorzystywanie serwerowni na przestrzeni najbliższych kilku, kilkunastu lat. Przede wszystkim musimy zdefiniować sobie przeznaczenie serwerowni tj. czy idziemy w tradycyjne rozwiązania, które są cały czas aktualne, mieszane, czy też właśnie w dedykowane stricte pod AI.
Pytanie było o rozwiązanie dedykowane dla AI, więc na tym się skupię. Zakładając, że mamy już wybraną lokalizację po wykonaniu wcześniejszej analizy ryzyka oraz pewność, że przyłącza energetyczne odpowiadają naszym potrzebom, to możemy spokojnie przejść do całkowitego odwrócenia projektowania i budowania infrastruktury. Do tej pory, w dużym uproszczeniu, można było przyjąć, że 1/3 przestrzeni Data Center będzie wykorzystywana przez infrastrukturę energetyczną: rozdzielnie, UPS-y, agregaty prądotwórcze, częściowo systemy klimatyzacji, a 2/3 to miejsce na komory serwerowe. Natomiast przy potrzebach AI i szafach IT, których moc będzie przekraczać jednostkowo 100 kW, można zakładać 1/3 przestrzeni dla samych serwerów i 2/3 dla infrastruktury, co pozwoli im bezpiecznie i bez przerwy pracować.
Oczywiście dochodzi nam też szereg zagadnień, z jakimi musimy sobie poradzić, a o których częściowo już wcześniej wspominałem: większa moc UPS, więcej akumulatorów, dokładne zaprojektowanie systemu chłodniczego. Być może bez nadmuchu dolnego oraz bez podłogi technicznej. Układanie wszelkich instalacji kablowych, szynoprzewodów bezpośrednio nad szafami IT i w bezpośrednim sąsiedztwie instalacji doprowadzającej wodę do serwerów.
Takich zagadnień jest dużo, każdy pojedynczy system wymaga dogłębnej analizy. Koniec końców wszystko zależy od konkretnych założeń projektowych, określenia konkretnych potrzeb, od których zaczynamy prace projektowe.
Elektryzująca przyszłość