Jump to content

Massive Performance Probleme seit vSphere 6


Direkt zur Lösung Gelöst von Leuchtkondom,
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Hallo Leute,

 

ich weiß gar nicht so recht wo ich Anfangen soll.

 

Wir haben ein 2 Host Cluster mit VMWare vSphere, die auf ein gemeinsames shared Storage Zugreifen.

Bis letzte Woche Donnerstag lief alles perfekt, und super schnell, was wohl auch daran liegt das wir unsere Hosts überdimensioniert haben.

 

Die Hosts sind vom Prinzip her so ausgelegt, das theoretisch einer alleine (natürlich mit Performanceeinbußen) laufen könnte, falls Host 2 ausfällt. 

Das heißt im Normalbetrieb (beide Hosts laufen) sind die im Arbeitsspeicher und auch in den vCPU´s "untercommit", ich habe weniger vCPUs auf den laufenden Hosts als pCPUs und auch beim Arbeitsspeicher sieht das genauso aus.

 

Vor 2 Wochen hatte ich den vCenter Sever von 5.5 auf 6 geupdatet, auch das lief noch alles reibungslos und ohne Probleme.

Letzte Woche Donnerstag habe ich dann die Hosts von 5.5 auf 6 geupdatet (per Boot CD).

 

Auf den 1. Blick hat auch alles wunderbar funktioniert, habe danach noch die VMs "Hardwaremäßig" geupdatet (von VM-8 auf VM-11) und die Tools überall aktualisiert, auch das lief reibungslos.

 

Allerdings haben wir seit Freitag extrem massive Probleme mit der Performance. 

Ein Arbeiten in DATEV (Remoteapp auf 2012 R2 RDS) ist quasi unmöglich, was vorher völlig flüssig lief. Auch andere Programme die über RemoteAPP laufen und vorher super schnell liefen sind teilweise unbedienbar geworden. An anderer Stelle (Exchange) ist es quasi nicht zu merken ob es auch da Performanceprobleme gibt, da bei uns alle im Cached Mode Arbeiten. Auch bei anderen "wenig belasteten" Servern kann ich nichts zu performance sagen, da ja dort nicht drauf gearbeitet wird und ein "Vergleich zu Vorher" schwer fällt (beispielsweise DCs, Kaspersky Adminserver, etc.)

 

Ich weiß überhaupt nicht wo ich ansetzen soll, habe gestern Nacht noch mal die Hosts neugestartet, ohne Erfolg.

 

Arbeitsspeicher kann ausgeschlossen werden, da die Hosts wie gesagt deutlich mehr Speicher zur Verüfung haben als die virtuellen Maschinen, die auf Ihnen laufen, nutzen.

Bei den CPUs sieht es nicht anders aus, pro Hosts sind 2* 10 Core CPUs verbaut (mit HT insgesamt pro Host 40 pCPUs), "vergeben" sind aber aktuell auf Host-1 23vCPUs und auf Host-2 24vCPUs.

Auch die Ready werte in ESXTOP sehen eigentlich, meiner Meinung nach Gut aus.

 

Am Storage (Netapp) wüsste ich nicht was ich da schauen sollte, denn wie gesagt, es hat sich rein gar nichts an der Infrastruktur, virtuellen Maschinen usw. geändert. Nur die Hosts wurden geupdatet auf ESX6 und die VM aktualisiert (Tools und HW-Version). Es wurden weder Windows Updates installiert (war schon alles aktuell zu dem Zeitpunkt), noch virtuelle Maschinen neuinstalliert, geändert oder was weiß ich.

 

Hat jemand Tips für mich???

Ich wäre für alles dankbar..

Link zu diesem Kommentar

Hallo,

 

Danke für eure schnellen Antworten.

Wir konnten das Problem mittlerweile etwas eingrenzen. Es betrifft nur Host 2, Host 1 nicht.

 

Beispiel: 2 RDS Server die Datev per RemoteAPP verteilen, jeder der auf RDS-Server 1 landet (läuft auf Host 1) kann super arbeiten, jeder der auf RDS-Server 2 landet (läuft auf Host 2) kann quasi überhaupt nicht arbeiten. Lässt sich tatsächlich nachstellen. Auch mit anderen Servern das gleiche verhalten. Wir haben jetzt den Datev RDS 2 von Host 2 auf Host 1 verschoben, und plötzlich können alle in Datev super arbeiten, und das obwohl Host 1 jetzt ja mehr Last dadurch hat (vorher waren die VMs Lastmäßig gleich verteilt auf den Hosts)

 

Es scheint also ein lokales Problem an Host 2 zu sein, da muss ich dazusagen das genau dieser Host nach dem Update folgende Meldung brachte:

"Es wurden veraltete VMFS Volumes gefunden. Bitte aktualisieren sie auf die aktuelle Version" (ähnlicher Wortlaut). Komischerweise hat Host 1 das nicht gesagt (und beide teilen sich ja den Storage)

 

Ich hatte nach dem Fehler gegoogelt und da stand nach einen Host neustart soll dieser Fehler weg sein, war er auch.

 

@zahni: Die Server sind in der HCL gelistet, das Storage ist per SAS-3 angebunden (Shared SAS Storage, Netapp E2700)

Storage Performance würde ich nach obiger Erkenntnis Ausschließen, da die Last am Storage durch das Verschieben der virtuellen Maschinen ja nicht weniger wird, aber jetzt plötzlich wieder super schnell geht.

 

@testperson: Es wird auf allen Windows Maschinen VMXNet3 verwendet (damals zur installation gab es unter 2012 R2 irgendwie Bluescreens mit den alten Netzwerkkarten E1000E usw, außerdem ist die VMXNet 3 10Gbit und in den Hosts sind auch 10 GBIt Karten verbaut), deinen Link schau ich mir gleich an

 

danke schon mal für eure schnellen Antworten

 

 

edit: @testperson: Dein Link klingt interessant, allerdings würde ich mit der Einstellung erstmal noch abwarten da wie gesagt auch andere Anwendungen die per Remoteapp verteilt werden betroffen sind (Sage KHK z.b., da ist auch ein Arbeiten unmöglich, aber auch wieder nur Host 2, Host 1 io)

bearbeitet von Leuchtkondom
Link zu diesem Kommentar

Okay, meine Thoerie hat sich bestätigt, wir haben jetzt auch mal die SAGE KHK RDS-Server alle auf Host 1 verschoben, und plötzlich läuft alles wunderbar. 

Es muss also ein reines Problem mit Host 2 sein, aber was? Im Eventlog vom Serverboard ist nichts zu finden, alles io


sorry überlesen,

 

Hardware:

Supermicro SC825 TQ-R720LPB 
Mainboard Supermicro X9DRI-F 
2* Intel® Xeon® Prozessor E5-2670v2 - 2.5 GHz
256 GB Ram Kingston KVR16R11D4/16KF
1* Flash InnoDisk SATA-III 8GB 3SE series (ESXI Installation)
LSI HBA 9300-8e 8x SAS extern PCIe 3.0 x8
10GBit Ethernet Server Adapter Emulex 10Gb/s OneConnect dual 
 
VMware ESXi, 6.0.0, 3380124
Image ESXi-6.0.0-20160104001-standard
 
 
edit: Die Hosts sind Hardwaremäßig komplett identisch, und ESXI auch identischer Stand
bearbeitet von Leuchtkondom
Link zu diesem Kommentar

@zahni

 

Laut Webseite sollte das dann der hier sein?

VMware ESXi 6.0 elxnet 11.0.259.0 NIC Driver for Emulex and OEM Branded Adapters

 

Der Host meldet das hier:

 

elxnet                         10.2.309.6v-1vmw.600.0.0.2494585      VMware  VMwareCertified   2016-02-25
emulex-esx-elxnetcli           10.2.309.6v-0.0.2494585               VMware  VMwareCertified   2016-02-25
 
 
 
Allerdings, bin ich ehrlich, habe ich das noch nie gemacht. Dazu müsste ich mich erstmal kurz belesen wie das funktioniert mit dem Treiber Update
 
edit: Allerdings läuft auf beiden Hosts, auch bei dem Fehlerfreien, die gleiche Version
bearbeitet von Leuchtkondom
Link zu diesem Kommentar

mmmm also allzu viel kann man da nicht falsch machen glaube ich, das SAS ist da ja deutlich einfacher als FC zu konfigurieren, und bis vor dem Update der Hosts lief ja alles einwandfrei :-(

 

edit: Ich werde wohl den Server heute Nacht neuinstallieren, ich schließe Treiber, Storage usw. jetzt mal komplett aus, den die Hosts sind 1:1 identisch (Treiber) und auf Host 1 gibt es 0 Probleme.

An der Storageanbindung wurde nichts geändert, sodass ich das auch mal ausschließe. Mal sehen ob eine Neuinstallation was bringt...

bearbeitet von Leuchtkondom
Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...