Massive Performance Probleme seit vSphere 6

Leuchtkondom · 1. März 2016

Hallo Leute,

ich weiß gar nicht so recht wo ich Anfangen soll.

Wir haben ein 2 Host Cluster mit VMWare vSphere, die auf ein gemeinsames shared Storage Zugreifen.

Bis letzte Woche Donnerstag lief alles perfekt, und super schnell, was wohl auch daran liegt das wir unsere Hosts überdimensioniert haben.

Die Hosts sind vom Prinzip her so ausgelegt, das theoretisch einer alleine (natürlich mit Performanceeinbußen) laufen könnte, falls Host 2 ausfällt.

Das heißt im Normalbetrieb (beide Hosts laufen) sind die im Arbeitsspeicher und auch in den vCPU´s "untercommit", ich habe weniger vCPUs auf den laufenden Hosts als pCPUs und auch beim Arbeitsspeicher sieht das genauso aus.

Vor 2 Wochen hatte ich den vCenter Sever von 5.5 auf 6 geupdatet, auch das lief noch alles reibungslos und ohne Probleme.

Letzte Woche Donnerstag habe ich dann die Hosts von 5.5 auf 6 geupdatet (per Boot CD).

Auf den 1. Blick hat auch alles wunderbar funktioniert, habe danach noch die VMs "Hardwaremäßig" geupdatet (von VM-8 auf VM-11) und die Tools überall aktualisiert, auch das lief reibungslos.

Allerdings haben wir seit Freitag extrem massive Probleme mit der Performance.

Ein Arbeiten in DATEV (Remoteapp auf 2012 R2 RDS) ist quasi unmöglich, was vorher völlig flüssig lief. Auch andere Programme die über RemoteAPP laufen und vorher super schnell liefen sind teilweise unbedienbar geworden. An anderer Stelle (Exchange) ist es quasi nicht zu merken ob es auch da Performanceprobleme gibt, da bei uns alle im Cached Mode Arbeiten. Auch bei anderen "wenig belasteten" Servern kann ich nichts zu performance sagen, da ja dort nicht drauf gearbeitet wird und ein "Vergleich zu Vorher" schwer fällt (beispielsweise DCs, Kaspersky Adminserver, etc.)

Ich weiß überhaupt nicht wo ich ansetzen soll, habe gestern Nacht noch mal die Hosts neugestartet, ohne Erfolg.

Arbeitsspeicher kann ausgeschlossen werden, da die Hosts wie gesagt deutlich mehr Speicher zur Verüfung haben als die virtuellen Maschinen, die auf Ihnen laufen, nutzen.

Bei den CPUs sieht es nicht anders aus, pro Hosts sind 2* 10 Core CPUs verbaut (mit HT insgesamt pro Host 40 pCPUs), "vergeben" sind aber aktuell auf Host-1 23vCPUs und auf Host-2 24vCPUs.

Auch die Ready werte in ESXTOP sehen eigentlich, meiner Meinung nach Gut aus.

Am Storage (Netapp) wüsste ich nicht was ich da schauen sollte, denn wie gesagt, es hat sich rein gar nichts an der Infrastruktur, virtuellen Maschinen usw. geändert. Nur die Hosts wurden geupdatet auf ESX6 und die VM aktualisiert (Tools und HW-Version). Es wurden weder Windows Updates installiert (war schon alles aktuell zu dem Zeitpunkt), noch virtuelle Maschinen neuinstalliert, geändert oder was weiß ich.

Hat jemand Tips für mich???

Ich wäre für alles dankbar..

testperson · 1. März 2016

Hi,

VMXNet3 wird verwendet? Unter vSphere 6 gab es auch Probleme mit dem High Speed Networking (RSS).

https://www.datev.de/dnlexom/client/app/index.html#/document/1080080/D108008000039

Gruß

Jan

zahni · 1. März 2016

Welche Hardware (Server) und wurde alle Updates vom ESXI installiert?

Ist die Hardware in der HCL gelistet?

Wie ist der Storage angebunden?

Leuchtkondom · 1. März 2016

Hallo,

Danke für eure schnellen Antworten.

Wir konnten das Problem mittlerweile etwas eingrenzen. Es betrifft nur Host 2, Host 1 nicht.

Beispiel: 2 RDS Server die Datev per RemoteAPP verteilen, jeder der auf RDS-Server 1 landet (läuft auf Host 1) kann super arbeiten, jeder der auf RDS-Server 2 landet (läuft auf Host 2) kann quasi überhaupt nicht arbeiten. Lässt sich tatsächlich nachstellen. Auch mit anderen Servern das gleiche verhalten. Wir haben jetzt den Datev RDS 2 von Host 2 auf Host 1 verschoben, und plötzlich können alle in Datev super arbeiten, und das obwohl Host 1 jetzt ja mehr Last dadurch hat (vorher waren die VMs Lastmäßig gleich verteilt auf den Hosts)

Es scheint also ein lokales Problem an Host 2 zu sein, da muss ich dazusagen das genau dieser Host nach dem Update folgende Meldung brachte:

"Es wurden veraltete VMFS Volumes gefunden. Bitte aktualisieren sie auf die aktuelle Version" (ähnlicher Wortlaut). Komischerweise hat Host 1 das nicht gesagt (und beide teilen sich ja den Storage)

Ich hatte nach dem Fehler gegoogelt und da stand nach einen Host neustart soll dieser Fehler weg sein, war er auch.

@zahni: Die Server sind in der HCL gelistet, das Storage ist per SAS-3 angebunden (Shared SAS Storage, Netapp E2700)

Storage Performance würde ich nach obiger Erkenntnis Ausschließen, da die Last am Storage durch das Verschieben der virtuellen Maschinen ja nicht weniger wird, aber jetzt plötzlich wieder super schnell geht.

@testperson: Es wird auf allen Windows Maschinen VMXNet3 verwendet (damals zur installation gab es unter 2012 R2 irgendwie Bluescreens mit den alten Netzwerkkarten E1000E usw, außerdem ist die VMXNet 3 10Gbit und in den Hosts sind auch 10 GBIt Karten verbaut), deinen Link schau ich mir gleich an

danke schon mal für eure schnellen Antworten

edit: @testperson: Dein Link klingt interessant, allerdings würde ich mit der Einstellung erstmal noch abwarten da wie gesagt auch andere Anwendungen die per Remoteapp verteilt werden betroffen sind (Sage KHK z.b., da ist auch ein Arbeiten unmöglich, aber auch wieder nur Host 2, Host 1 io)

bearbeitet 1. März 2016 von Leuchtkondom

zahni · 1. März 2016

Du möchtest also nicht wirklich was zur Hardware Deiner Server und zum Patchlevel der ESXI-Server schreiben?

Leuchtkondom · 1. März 2016

Okay, meine Thoerie hat sich bestätigt, wir haben jetzt auch mal die SAGE KHK RDS-Server alle auf Host 1 verschoben, und plötzlich läuft alles wunderbar.

Es muss also ein reines Problem mit Host 2 sein, aber was? Im Eventlog vom Serverboard ist nichts zu finden, alles io

sorry überlesen,

Hardware:

Supermicro SC825 TQ-R720LPB

Mainboard Supermicro X9DRI-F

2* Intel® Xeon® Prozessor E5-2670v2 - 2.5 GHz

256 GB Ram Kingston KVR16R11D4/16KF

1* Flash InnoDisk SATA-III 8GB 3SE series (ESXI Installation)

LSI HBA 9300-8e 8x SAS extern PCIe 3.0 x8

10GBit Ethernet Server Adapter Emulex 10Gb/s OneConnect dual

VMware ESXi, 6.0.0, 3380124

Image ESXi-6.0.0-20160104001-standard

edit: Die Hosts sind Hardwaremäßig komplett identisch, und ESXI auch identischer Stand

bearbeitet 1. März 2016 von Leuchtkondom

zahni · 1. März 2016

Prüfe mal, ob Dein Emulex-Treiber aktuell ist:

https://my.vmware.com/en/web/vmware/info/slug/datacenter_cloud_infrastructure/vmware_vsphere/6_0#drivers_tools

testperson · 1. März 2016

Ggfs. auch einfach mal ein Ticket bei VMWare aufmachen. Du müsstest ja entsprechend SnS haben. Alternativ kostet ein Einzelfallticket ca. 300€.

Leuchtkondom · 1. März 2016

@zahni

Laut Webseite sollte das dann der hier sein?

VMware ESXi 6.0 elxnet 11.0.259.0 NIC Driver for Emulex and OEM Branded Adapters

Der Host meldet das hier:

elxnet 10.2.309.6v-1vmw.600.0.0.2494585 VMware VMwareCertified 2016-02-25

emulex-esx-elxnetcli 10.2.309.6v-0.0.2494585 VMware VMwareCertified 2016-02-25

Allerdings, bin ich ehrlich, habe ich das noch nie gemacht. Dazu müsste ich mich erstmal kurz belesen wie das funktioniert mit dem Treiber Update

edit: Allerdings läuft auf beiden Hosts, auch bei dem Fehlerfreien, die gleiche Version

bearbeitet 1. März 2016 von Leuchtkondom

zahni · 1. März 2016

Ich würde mir noch anschauen, ob die Netapp und die Host-Config korrekt ist.

Vielleicht hilft der Guide hier weiter:

https://library.netapp.com/ecm/ecm_download_file/ECMP1532523

Gibt es bei Netapp nicht irgendein Tool, dass die Storage-Settings am Host passend zum Storage richtig konfiguriert?

Leuchtkondom · 1. März 2016

mmmm also allzu viel kann man da nicht falsch machen glaube ich, das SAS ist da ja deutlich einfacher als FC zu konfigurieren, und bis vor dem Update der Hosts lief ja alles einwandfrei :-(

edit: Ich werde wohl den Server heute Nacht neuinstallieren, ich schließe Treiber, Storage usw. jetzt mal komplett aus, den die Hosts sind 1:1 identisch (Treiber) und auf Host 1 gibt es 0 Probleme.

An der Storageanbindung wurde nichts geändert, sodass ich das auch mal ausschließe. Mal sehen ob eine Neuinstallation was bringt...

bearbeitet 1. März 2016 von Leuchtkondom

OliverHu · 1. März 2016

Willst du nicht erstmal ein Ticket bei VMware aufmachen? Kann dir eventuell einiges ersparen.

Leuchtkondom · 1. März 2016

Leider haben wir keinen Support mehr :-(

DocData · 1. März 2016

Wie bist du denn dann an die vSphere 6 Keys gekommen, wenn ihr keinen Support mehr habt?

Leuchtkondom · 1. März 2016

Der Support ist im November abgelaufen, da haben wir Lizenzmäßig noch geupdatet. Die Installation hat aufgrund vieler anderer Projekte (DATEV Einführung -> Ablösung Sage usw) sich aber nach hinten verschoben sodass ich erst letzte Woche dazu gekommen bin (war ja auch nichts obernotwendiges, unter 5.5 lief ja alles perfekt)

Anmelden

Massive Performance Probleme seit vSphere 6

Empfohlene Beiträge

Leuchtkondom 17

testperson 2.007

zahni 597

Leuchtkondom 17

zahni 597

Leuchtkondom 17

zahni 597

testperson 2.007

Leuchtkondom 17

zahni 597

Leuchtkondom 17

OliverHu 19

Leuchtkondom 17

DocData 85

Leuchtkondom 17

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Menu

Aktivitäten