Kluczowe rzeczy, których należy szukać w centrum danych

34

Próbuję zbudować prostą listę kontrolną, aby określić jakość centrum danych ... gdzie i czego powinienem szukać i jak mogę ustalić, co mówią właściciele (np. „Nasz UPS utrzymuje centrum danych przez 100 dni bez moc ”) jest prawdą czy nie? Jakie są typowe objawy lub dobre lub złe centra danych?

AX1
źródło

Odpowiedzi:

43

Oto lista pytań, które zadałem sobie podczas ostatniej wizyty w centrum danych:

  • Wyjaśnij, ile potrzeba, aby tryskacze zepsuły się na naszym sprzęcie.
  • Co będą skłonne robić odległe ręce? Na przykład zainstaluj dyski twarde, obróć taśmy…
  • Czy twoje zdalne ręce są dostępne 24/7/365, średni czas oczekiwania na wejście do klatki po złożeniu biletu (Jak wprowadzane są bilety?)
  • Czy jesteś na wielu siatkach?
  • Czy masz podniesione chłodzenie podłogi?
  • Ile centrów danych operujesz poza tym?
  • Jak długo centrum danych może działać przy zasilaniu awaryjnym?
  • Czy możemy dostarczyć sprzęt bezpośrednio do centrum danych?
  • Czy jest stacja dokująca i bezpłatny, zamknięty i dostępny parking?
  • Jeśli mamy dostawcę przybywającego do centrum danych, czy musimy mu towarzyszyć?
  • Jaka temperatura i wilgotność otoczenia są utrzymywane?
  • Ile jest możliwości wyboru dostawcy usług internetowych?
  • Czy któryś z Twoich klientów kiedykolwiek stracił moc na jakiś czas w historii centrum danych?
  • Jak długo to centrum danych działa?
  • Jakie są kontrole dostępu do podłogi i wyposażenia?

Jeśli odwiedzisz kilka i zadasz te pytania między ceną, wrażeniami z wizyty i odpowiedziami, prawdopodobnie będzie jasne, które z nich chcesz. Upewnij się, że zawsze je odwiedzasz i odwiedzasz ich dużą liczbę.

Kyle Brandt
źródło
2
Dobra robota. +1 dla ciebie.
gWaldo
3
Chciałbym również zapytać o kontrolę dostępu do podłogi i twojego sprzętu.
Scott Pack
Świetna lista !! Dodałbym: „Czy jesteś właścicielem budynku?” Ponadto, jeśli mają zraszacze, odejdź!
JakeRobinson
@JakeRobinson Tryskacze są wymagane przez kod przeciwpożarowy , nawet w centrach danych, w wielu miejscach. Kiedy zobaczysz tryskacze, zapytaj, czy są to tryskacze z suchą rurą .
sysadmin1138
3
@JakeRobinson Nowy DC, do którego przeprowadziłem się w 2003 roku, miał zarówno FM200, jak i tryskacze. Sędziowie przeciwpożarowi byli bardzo stanowczy, że tam MUSI BYĆ tryskaczami. Jeśli FM200 może ugasić pożar, to świetnie. Ale jeśli tak się nie stanie (przedmuch UPS przebije zaporę powietrzną FM200, aby O2 mógł dostać się po zrzucie), dużo wody uratuje budynek. Właściwy system rur suchych oznacza, że ​​w przypadku uderzenia głowicy zraszacza prąd stały nie zaleje.
sysadmin1138
6

Kyle dość dobrze to opisał, ale oto kilka punktów:

Bezpieczeństwo fizyczne jest ogromne. Wejście do środka powinno zająć prawie akt Kongresu (parlament, wstaw wolno powolną biurokratyczną instytucję).

Powinien mieć tłumienie ognia Halon, a nie tryskacze; Serwery nie powinny być wilgotne. (Lokalne przepisy przeciwpożarowe mogą zastąpić ...)

Dowiedz się, jakie są preferowane przez nich dostawcy serwerów. O ile nie jest to z bardzo szczególnego powodu (jak prowadzenie centrum danych podobnego do Google), powinny to być serwery firmowe. (Dell, HP, IBM, Sun, Apple itp.) Jeśli mówią „biała skrzynka” lub marka, której nie rozpoznajesz, uruchom. Należy pamiętać, że istnieje kilku renomowanych dostawców serwerów niższego poziomu, którzy są renomowani (na przykład System76), ale „zbudowany na zamówienie” oznacza, że ​​sami składają swoje produkty. Idealne dla twojego domu, ale złe dla twojego centrum danych. (Nie obejmuje to zakupu HP Proliant DL580 i instalowania takich rzeczy, jak zestawy opcji pamięci lub klatki dysków).

Jakie opcje własności są dostępne? Kup za ich pośrednictwem? Kupować bezpośrednio i wysyłać tam? Leasing? Maszyny wirtualne?

gWaldo
źródło
4
Zgadzam się na gaszenie pożaru, chociaż dla „Halonu” czytamy „halon / FM200 / Argonite / Inergen / inny gaz gaśniczy tutaj”
MadHatter obsługuje Monikę
11
Tryskacze są w rzeczywistości wymagane przez kod przeciwpożarowy w wielu miejscach. Przekonałem się o tym w 2003 roku podczas kompilacji DC, w której asystowałem. Ma strzelać tylko wtedy, gdy FM200 nie gaśnie źródła ciepła. Powinien to być system zraszający z suchą rurą , podtrzymujący gaz obojętny.
sysadmin1138
2

Znakomicie jak zawsze Kyle, Kilka rzeczy nauczyłem się z doświadczenia:

  • Zapytaj, czy istnieją generatory do tworzenia kopii zapasowych zasilaczy UPS, a jeśli tak, to czy generatory zostały przetestowane, jak często?

  • Jakie mają fizyczne zamki i kontrole, aby zapobiec zabiciu prądu przez elektryków?

  • Jaką oni mają ubezpieczenie od odpowiedzialności / ubezpieczenia?

  • Jak radzą sobie z sytuacjami, w których nie spełniają warunków umowy SLA?

  • Jak często nie spotkali się z SLA?

  • Ile mocy dostarczają do każdej szafy / klatki / itp.? (Czy będziesz miał ograniczoną moc i potrzebujesz innej szafy / klatki tylko dla dodatkowej mocy?)

  • Poproś o referencje, w twojej branży byłoby dobrze.

Śmieszne historie, które wtedy nie były śmieszne:

  1. W Vancouver doszło do pożaru w podziemnym przedziale elektrycznym, 4 bloki od mojego DC, ogień zabrał moc na promień 10 bloków. UPS trzymał włączone światła, dopóki agregat nie wszedł do trybu online. Zespół prądotwórczy pozostawał online przez około godzinę przed przegrzaniem. UPS byli w stanie utrzymać światła przez kolejne 30 minut po wyłączeniu się agregatu prądotwórczego. Gen-set należał do budynku, IIRC DC było w stanie ich winić i umyć ręce.

  2. Elektryk zabił moc do kilku rzędów stojaków w DC, ponieważ panel trochę spadł i otworzył wszystkie wyłączniki. Słyszałem także o elektryku z innego prądu stałego, który będzie pracował na zasilaczu UPS, nie przełączając go w tryb obejściowy i nie usuwając całego prądu stałego.

Clint
źródło
Czy w takich przypadkach wskazane jest posiadanie zasilacza UPS typu rack? Czy to nie ma znaczenia, ponieważ połączenie i tak zwykle jest usuwane?
AX1
Byłoby miło ... Nasz DC powiedział, że nie wolno nam mieć UPS w naszych szafach, podali nam powód, ale nie pamiętam, co to było.
Clint
Może ciepło? Nie mam dużego doświadczenia z zasilaczem UPS typu rack, ale zasilacz UPS zawsze się nagrzewa.
AX1
4
@ AX1: UPSes ze sobą w chaosie łańcuchowym. Oczekują pewnych charakterystyk prądu, a inne zasilacze UPS mogą je odfiltrować. Sieć prawdopodobnie przestanie działać, gdy prąd stały straci moc, więc nawet jeśli twoje serwery są wyłączone, sieć nie będzie.
quinnr
Mógłby to być kod ogniowy, jeśli EPO zostanie trafiony, strażacy spodziewają się braku zasilania na żywo.
Sean Reifschneider,
1
  • Powiedziałbym, że prawdopodobnie jedna trzecia centrum danych to techniczne pozycje (czy masz {VESDA, umowy o tankowanie, agregaty objęte UPSami, wiele sieci energetycznych, różne wejścia światłowodowe).

  • Kolejna trzecia kwestia dotyczy tego, jak sobie z tym radzą, gdy coś nie idzie dobrze. Czy pochłaniają swoją dumę, badają porażkę i zastanawiają się, co zrobić, aby upewnić się, że to się nie powtórzy? A może po prostu robią to, co wcześniej nie działało?

  • A druga trzecia to personel. Czy są inteligentne, łatwe w obsłudze i nie przewracają się co miesiąc?

Ale co ważniejsze: czy mają wystarczająco dużo miejsca? W jednym miejscu, do którego prawie weszliśmy, w ciągu 2 lat zużywaliśmy więcej miejsca, niż mieli.

Sean Reifschneider
źródło
1

Pracuję w małym centrum danych w Dolinie Krzemowej. Jestem administratorem systemu po stronie zarządzanego serwera.

Złe znaki:

  • Brak zbędnego monitorowania i ostrzegania o mocy, temperaturze, wilgotności
  • Brak monitorowania urządzeń sieciowych, kolosów, serwerów i innego sprzętu
  • Zaśmiecenie i niestosowanie opasek kablowych lub innego zarządzania kablami w celu utrzymania czystych, uporządkowanych regałów

Dobre znaki: - Generator Diesla na miejscu z automatycznym przełączaniem awaryjnym - Chłodnice zapasowe i urządzenia klimatyzacyjne z automatycznym przełączaniem awaryjnym - Duża przepustowość głównych sieci szkieletowych przewoźnika (AT&T, XO Comm) - Nadmiarowi dostawcy sieci - Nadmiarowe routery rdzeniowe, zapory ogniowe, moduły równoważenia obciążenia i przełączniki - Uruchamianie kontrola pamięci i diagnostyka sprzętu przed wdrożeniem serwerów

Serwery z marką są w porządku, ale jeśli są stare i kilka razy były w pobliżu, lepiej upewnij się, że przechodzą diagnostykę sprzętu przed ich użyciem.

Dobre centrum danych powinno zapewniać klientom stronę internetową, na której mogą monitorować zużycie przepustowości i czas pracy. Powinni również odpowiedzieć na wszelkie pytania. Zapytaj ich o markę i model UPS. Poproś ich o sprawdzenie aktualnego obciążenia UPS. Dzięki tym informacjom możesz sprawdzić, jak długo może trwać bez zasilania.

Ale szczerze mówiąc, UPS nie powinien być twoim zmartwieniem. UPS zapewnia jedynie krótki czas pracy (około 30 minut). O wiele lepszym problemem jest to, czy DC ma zapasowy generator. Warto również zapytać, która sieć jest włączona. Jeśli chodzi o przerwy w dostawie prądu i przerwy w dostawie prądu, różne priorytety są przypisane do różnych sieci. Zgadnij co? Szpitale i straże pożarne mają wysoki priorytet (zasilanie nigdy nie jest odcięte). Jeśli centrum danych znajduje się w tej samej sieci, jego gwarantowana niezawodna moc.

Zapytaj ich, ile mocy jest dostępne na szafę. Tam, gdzie pracuję, dostarczamy do każdego stojaka obwody 3 x 25 A. Typowy serwer 1u zużywa 1-3 amp.

80skey
źródło
Ten, do którego mam ochotę, ma 40amp na szafę. Czy to jest za niskie? To prawie połowa tego, co mówisz (75amp).
AX1
1
@ AX1, 40 A przy 110 V wynosi 4400 W; przy 230 V to 9200 W. O ile nie jest to wysokiej gęstości (Twin / Twin ^ 2 / Blade) lub HPC / GPU, to jest PLENTY.
Mircea Chirea