首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 多层感知器 / Verfahren und Anordnung zur neuronalen Modellierung eines dynamischen Systems mit nichtlinearem stochastischem Verhalten

Verfahren und Anordnung zur neuronalen Modellierung eines dynamischen Systems mit nichtlinearem stochastischem Verhalten

阅读:722发布:2020-12-21

专利汇可以提供Verfahren und Anordnung zur neuronalen Modellierung eines dynamischen Systems mit nichtlinearem stochastischem Verhalten专利检索,专利查询,专利分析的服务。并且Die Erfindung gibt eine Lösung zur Modellierung stochastischer nicht linearer dynamischer Systeme an, bei denen wenige Meßwerte der Einflußgröße vorliegen und die restlichen Werte der Zeitreihe modelliert werden müssen. Als Lösung wird eine spezifische Kombination eines nichtlinearen rekurrenten neuronalen prädiktiven Netzwerkes und eines linearen Fehlermodells vorgeschlagen, womit eine Vorhersage durchgeführt werden kann und die Anwendung von maximum likelihood Adaptionsregeln durchgeführt werden kann. Im Speziellen kann dazu das rekurrente neuronale Netzwerk mit Hilfe der Echtzeitrekurrenten Lernregel trainiert werden und das lineare Fehlermodell wird mit Hilfe der Fehlermodelladaptionsregel trainiert, die auf Basis der vorwärts-rückwärts Kalman-Filter-Gleichungen implementiert ist. Dieses Modell wird eingesetzt, um Werte des Glukose-Insulin-Metabolismus eines Diabetespatienten vorherzusagen. Die Anordnung realisiert die Kombination dieser beiden Modelle.,下面是Verfahren und Anordnung zur neuronalen Modellierung eines dynamischen Systems mit nichtlinearem stochastischem Verhalten专利的具体信息内容。

Verfahren zur neuronalen Modellierung eines dynamischen Systems mit nichtlinarem stochastischem Verhalten. mit folgenden Merkmalen:a) das Systemverhalten wird in Form von einer Zeitreihe (Z10) von mindestens einer Einflußgröße des Systems für eine Vorhersage modelliert;b) die Einflußgröße wird als additive Kombination aus einer deterministischen Ausgangsgröße (y*) eines rekurrenten neuronalen Netzes (NN) und einem linear modellierten Systemfehler (ε) gebildet;c) das rekurrente neuronale Netz wird an einem ersten Zeitpunkt mit dem Fehlermodelladaptionsfehler adaptiert, der als Differenz zwischen der am ersten Zeitpunkt gemessenen Einflußgröße (M70) des Systems und dem Systemfehler gebildet wird.Verfahren zur neuronalen Modellierung eines dynamischen Systems mit nichtlinarem stochastischem Verhalten. mit folgenden Merkmalen:a) das Systemverhalten wird in Form von einer Zeitreihe (Z10) von mindestens einer Einflußgröße des Systems für eine Vorhersage modelliert;b) die modellierte Einflußgröße wird als additive Kombination aus einer deterministischen Ausgangsgröße (y*) eines rekurrenten neuronalen Netzes und einem linear modellierten Systemfehler (ε) gebildet;c) das Modell (L) für die Modellierung des Systemfehlers (ε) wird mit dem als Differenz aus der dem Netz an einem ersten Zeitpunkt als Eingangsgröße zugeführten Einflußgröße und der Ausgangsgröße, welche das adaptierte Netz ausgibt, gebildeten Neuronenmodelladaptionsfehler, adaptiert.Verfahren nach Anspruch 1 und 2Verfahren nach einem der vorangehenden Ansprüche,a) bei dem der Systemfehler (ε) mit einem Kalmanfilter modelliert wird,b) bei dem ein Fehlender Meßwert (V60) in der Zeitreihe mit Varianz unendlich modelliert wird;c) und bei dem ein Meßwert in der Zeitreihe mit Varianz Null modelliert wird.Verfahren nach Anspruch 3 oder 4 mit folgenden Systemgleichungen,(1)yt* = fw(y*t-1,...,yt-N*,ut)(2)xt = i=1Kθixt-i + εt(3)yt = yt* + xt = fw(yt-1*,...,yt-N*,ut) + i=1Kθixt-i + εt , und der Meßwertgleichungzt = yt + δt mit:εt und δt:   additives Rauschen. Hierbei wird diey*t:   Antwortyt:   Einflußgrößext:   SystemfehlerVerfahren nach einem der vorangehenden Ansprüche, bei dem das rekurrente neuronale Netz (NN) mit der Echtzeit Lernregel für neuronale Netze trainiert wird.Verfahren nach einem der vorangehenden Ansprüche, bei dem das lineare Fehlermodell (L) mit vorwärts/rückwärts Kalman-Filtergleichungen adaptiert wird.Verfahren nach einem der vorangehenden Ansprüche,a) bei dem als dynamisches System der Glucose/Insulin-Metabolismus eines Diabetes Patienten modelliert wird,b) und bei dem als Einflußgröße mindestens der Glucosespiegel des Blutes modelliert wird.Verfahren nach Anspruch 8 bei dem dem rekurrenten neuronalen Netz (NN) zum Training mindestens Zeitreihen (Z10) von folgenden Einflußgrößen des Patienten zugeführt werden: verabreichte Insulindosen, Essensmenge, Sport, aktueller Blut-Gluosespiegel, vorangegangener geschätzter Blut-Gluosespiegel.Anordnung zur neuronalen Modellierung eines dynamischen Systems mit nichtlinarem stochastischem Verhalten. mit folgenden Merkmalen:a) sie weist ein rekurrentes neuronales Netz (NN) zur Prognose von mindestens einer Einflußgröße des Systems auf;b) sie weist Mittel zur Fehlermodellierung (L) eines Systemfehlers (ε) des dynamischen Systems auf;c) sie weist Mittel zur Bildung eines Adaptionsfehlers für einen ersten Zeitpunkt als der Differenz aus dem Systemfehler des dynamischen Systems und der am ersten Zeitpunkt gemessenen Einflußgröße des Systems auf;d) sie weist wenigstens beim Training des Neuronalen Netzes mit dem Systemverhalten Mittel zur Adaption des rekurrenten neuronalen Netzes mit dem Adaptionsfehler auf.Anordnung zur neuronalen Modellierung eines dynamischen Systems nach Anspruch 10,a) bei der das neuronale Netz (NN) als Multilayer Perceptron ausgeführt ist,b) und bei der das neuronale Netz (NN) einen hidden Layer mit drei Neuronen aufweist.Anordnung zur neuronalen Modellierung eines dynamischen Systems nach einem der Ansprüche 10 oder 11, bei der das neuronale Netz (NN) Mittel zur Eingabe eines Blutzuckermeßwertes aufweist.
说明书全文

Die Erfindung bezieht sich auf ein Verfahren und auf eine Anordnung zur Modellierung eines Systems mit nicht linearem stochastischem Verhalten, insbesondere eines biologischen Systems, wie beispielsweise dem Insulin-Glukose-Metabolismus, für den, wie auch für andere Systeme, wenig Lerndaten zum Training des neuronalen Netzes zur Verfügung stehen.

Weil Messungen von Einflußgrößen, zur Zustandsbestimmung eines technischen oder physiologischen Systems, teilweise sehr aufwendig und umständlich durchzuführen sind, werden sie häufig nur in unregelmäßigen Zeitintervallen vorgenommen. Diabetiker bestimmen ihren Blutzuckergehalt beispielsweise lediglich 4-5 mal am Tag. Falls man versucht Modelle von derartigen Systemen zu erstellen, so kommt erschwerend hinzu, daß diese sich in hohem Maße nichtlinear und stochastisch verhalten, so daß neuronale Netze für ihre Modellierung geeignet erscheinen. In üblicher Weise werden solche Netze im Free-Running"-Betrieb, auch als Freilaufmodus bezeichnet, eingesetzt, in dem Netzwerkvorhersagen iteriert werden, oder im "Teacher-Forcing Mode", in dem aktuelle Messungen der Zeitreihe, die dem Netz zur Verfügung gestellt wird, die iterierten Werte ersetzen. Beide Ansätze sind problematisch bei solchen Systemen, die sich in hohem Maße stochastisch verhalten und bei denen für die einzelnen Einflußgrößen nur wenig Meßwerte in der Zeitreihe zur Verfügung stehen. Aus dem Stand der Technik [2] ist es bekannt solche Probleme mit Hilfe von stochastischen Modellen anzugehen, in dem man beispielsweise nichtlineare Zustandsraummodelle verwendet. Dabei besteht jedoch das Problem der Vorhersage und des Trainings von fehlenden Meßwerten, dessen analytische Lösung zu derartig komplizierten Integralen führt, daß sie unbehandelbar sind. Alternativ dazu können für die Vorhersage und das Training zustandsabhängige Linearisierungen durchgeführt werden, von denen die populärste der Extended Kalman Filter" ist. Weitere Lösungsmöglichkeiten für derartige Probleme sind aus dem Stand der Technik nicht bekannt.

Die der Erfindung zu Grunde liegende Aufgabe besteht darin, ein Verfahren und eine Anordnung anzugeben, um von Systemen, die sich nichtlinear und stochastisch verhalten und von deren Einflußgrößen wenig Meßwerte zum Training des neuronalen Netzes zur Verfügung stehen, ein gültiges Modell zu erhalten.

Diese Aufgabe wird für das Verfahren gemäß den Merkmalen des Patentanspruches 1 und für die Anordnung gemessen Merkmalen des Patentanspruches 10 gelöst. Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Ein Vorteil des erfindungsgemäßen Verfahrens und der erfindungsgemäßen Anordnung besteht darin, daß man durch die Kombination eines linearen Fehlermodells mit einem rekurrenten neuronalen Netz, für Ein- oder Mehrschrittvorhersage einfache Iterationsregeln erhält, mit denen das lineare Fehlermodell verbessert werden kann. Ein weiterer Vorteil besteht darin, daß für das "maximum likelihood learning" das rekurrente neuronale Netz mit Hilfe von Real Time recurrent learning", auch Echtzeit-Lernregel für rekurrente neurronale Netze genannt, trainiert werden kann und daß das lineare Fehlermodell mit Hilfe einer Adaptionsregel trainiert werden kann, die sich der vorwärts-, rückwärts-Kalman-Filter-Gleichungen bedient.

Vorteilhaft werden bei einer Weiterbildung des Verfahrens die angegebenen Systemgleichungen verwendet, da damit ein möglichst geringer Rechenaufwand beim Training und bei der Simulation des Modells verbunden ist.

Vorteilhaft kann bei einer Weiterbildung des Verfahrens das dynamische System des Glukose-Insulin-Metabolismus eines Diabetespatienten modelliert werden, wobei bevorzugt als Einflußgröße der Glukosespiegel des Patienten durch das neuronale Netz und das Fehlermodell modelliert wird, da für diesen Meßwert als Einflußgröße wenig Werte zur Verfügung stehen und sich das gesamte System in hohem Maße stochastisch und nichtlinear verhält.

Vorteilhaft werden bei einer Weiterbildung des Verfahrens für das Training des Modells Zeitreihen von verabreichten Insulindosen, der Essensmenge, körperlicher Ertüchtigung und dem aktuellen, sowie dem vorangegangenen geschätzten Blutzuckerwert zur Verfügung gestellt, da dieses die Einflußgrößen sind, die sich am meisten auf den Blutzuckerspiegel auswirken.

Vorteilhaft weist eine Anordnung zur neuronalen Modellierung eines dynamischen Systems mit nichtlinearem stochastischem Verhalten ein rekurrentes Netz, sowie Mittel zur Fehlermodellierung des Systemfehlers des dynamischen Systems auf, wobei das neuronale Netz mit Hilfe der Differenz aus dem Systemfehler und einem Meßwert, der zum jeweiligen Zeitpunkt der Zeitreihe gemessen wurde, trainiert wird. Auf diese Weise wird sichergestellt, daß das neuronale Netz alle Nichtlinearitäten des Systems lernt.

Vorteilhaft wird in einer Weiterbildung der Anordnung das neuronale Netz als multi-layer perceptron ausgeführt, da sich derartige neuronale Netze besonders gut zur Modellierung von unvollständigen Zeitreihen eignen.

Vorteilhaft wird eine Weiterbildung der Anordnung zur Vorhersage des Blutzuckerwertes eines Diabetespatienten eingesetzt, indem der aktuelle Blutzuckerwert zur Verfügung gestellt wird, da sich mit einer solchen Anordnung derzeit die besten Vorhersageergebnisse erzielen lassen.

Im Folgenden werden Ausführungsbeispiele der Erfindung anhand von Figuren weiter erläutert.

Figur 1
zeigt eine Zeitreihe und den Vorhersagewert in Abhängigkeit verschiedener Iterationsverfahren des neuronalen Netzes.

Figur 2
zeigt die selbe Zeitreihe mit Vorhersagewerten unter Verwendung eines richtigen Fehlermodelles.

Figur 3
zeigt ein Beispiel einer erfindungsgemäßen Anordnung.

Figur 4
zeigt Blutzuckerkurven für verschiedene Modellierungsmethoden.

Figur 5
zeigt die Standardabweichung für eine erfindungsgemäß modellierte Blutzuckerkurve.

Wie Figur 1 zeigt, besteht eine Zeitreihe Z10 für solche Zeitpunkte an denen keine Meßwerte von Einflußgrößen zur Verfügung stehen, wie hier für t=1 bis t=6 aus iterierten Werten, die hier als unausgefüllte Kreise dargestellt sind. Für den Fall daß das Netzwerk in einem Freilaufmodus betrieben wird, würde es den Meßwert zum Zeitpunkt t=7 M70 ignorieren und als Vorhersagewert FR zum Zeitpunkt 8 ausgeben. Wie erkannt werden kann, werden dem neuronalen Netz NN hier die Werte der Zeitreihe zum Zeitpunkt 6 und 7 zur Vorhersage des 8-ten Wertes zur Verfügung gestellt. Für den Fall, daß das neuronale Netz im sogenannten "Teacher-Forcing-Mode" betrieben wird, würde der gemessene Wert M70 für den iterierten Wert zum Zeitpunkt 7 eingesetzt werden. Dies ist nicht die optimale Vorgehensweise, da durch das Wissen über den Meßwert zum Zeitpunkt 7 auch Informationen für die Zeitreihe zum Zeitpunkt 6 zur Verfügung stehen. In diesem Fall ist in der Zeitreihe der Wert V60 geeigneter, als der iterierte Wert.

Wie Figur 2 zeigt, sieht ein vernünftiger Werteverlauf der diesen Sachverhalt berücksichtigt für die Werte 8-13 so aus, daß die Vorhersagen nach dem Meßwert im Nahbereich dieses Meßwertes zu finden sind. Dieses Vorhersageverhalten des Modells kann durch Verwendung eines geeigneten Fehlermodells erreicht werden. Dem Systemmodell des dynamischen Systems liegt dabei die Systemgleichung der Formyt = fw(yt-1,...,yt-N,ut) zu Grunde. Diese ist von der Ordnung N, mit einer Eingangsgröße ut wobei fw(.) ein neuronales Netzwerkmodell darstellt, daß den Parametervektor w aufweist. Gemäß dem Verfahren wird ein Modell mit Zustandsaktualisierungen gemäß folgender Gleichungen vorgeschlagen:(1)yt* = fw(yt-1*,...,yt-N*,ut)(2)xt = i=1Kθixt-i + εt(3)yt = yt* + xt = fw(yt-1*,...,yt-N*,ut) + i=1Kθixt-i + εt , wobei die Meßwertgleichungzt = yt + δt lautet. Dabei bedeuten εt und δt additives Rauschen. Hierbei wird die Einflußgröße yt nun durch die Summe der deterministischen Antwort des rekurrenten neuronalen Netzwerkes y*t mit dem von einem linearen Systemfehlermodell abgegebenen Systemfehler xt gebildet. Dieser Sachverhalt ist in der Anordnung in Figur 3 zu erkennen. Das neuronale Netz ist mit NN bezeichnet und das lineare Systemfehlermodell mit L. Weiterhin sind einzelne Summationsstellen S10 und S20 vorhanden und die gesamte Anordnung ist mit A10 bezeichnet. zt ist dabei eine verrauschte Messung von yt. Da nur wenige Meßwerte zur Verfügung stehen, sind im einzelnen jene Fälle interessant, in denen yt mit Sicherheit gemessen werden kann, wobei also die Varianz δt=0 ist und solche Fälle, in denen kein Meßwert vorliegt, in denen also die Varianz von δt = ∞ ist. Vorteilhaft kann dabei y*t als deterministischer Eingangswert für das Zustandsraummodell, das aus den Gleichungen 2-3 besteht, angesehen werden. Daraus ergibt sich, daß für eine optimale Einschritt- und Mehrschrittvorhersage des Modells lineare Kalman-Filter-Gleichungen für die Gleichungen (2) bis (3) und die Meßwertgleichung (4) verwendet werden können, bei denen y*t als deterministischer Eingang eingesetzt wird. In ähnlicher Weise kann das lineare Fehlermodell des Systems trainiert werden, d. h.{θi}Ni=1 Varianz von εt, indem eine Fehlermodelladaptionsregel verwendet wird, welche mit vorwärtsrückwärts Kalman-Filter-Gleichungen implementiert wurde. Das deterministische rekurrente neuronale Netz wird dabei mit dem Restfehler adaptiert, der vom linearen Fehlermodell nicht nachgebildet werden kann, d. h.targettmn = ytm - y^tlinear , wobei ymt den Meßwert von yt zur Zeit t darstellt und y^lineart den Systemfehler angibt, der vom linearen Fehlermodell geschätzt wurde. Die Anwendung der vorwärts-rückwärts Kalman-Gleichungen wird in einem mathematischen Anhang noch erklärt.

Nachdem das neuronale Modell mit diesem Fehler adaptiert wurde, kann das lineare Fehlermodell mit dem verbleibenden Restfehler trainiert werden, der vom neuronalen Netz nicht adaptiert werden konnte. Diese Verfahrensweise kann solange durchgeführt werden, bis keine weitere Verbesserung erzielt werden kann. Der Vorteil des Verfahrens besteht dabei darin, daß alle nichtlinearen Einflüsse des Systems durch das rekurrente neuronale Netzwerk nachgebildet werden, während das lineare Fehlermodell lediglich das Rauschen des Systems nachbildet, das mit Hilfe von bekannten Lernalgorithmen für lineare Systeme antrainiert werden kann.

Vorteilhaft kann mit dem erfindungsgemäßen Verfahren und mit der erfindungsgemäßen Anordnung eine Vorhersage des Blutzuckerwertes einer Person mit Diabetes mellitus durchgeführt werden. Für solche Modelle gibt es mehrere sinnvolle Anwendungen in der Therapie: es kann benutzt werden um eines Person vor gefährlichen metabolischen Zuständen zu warnen, weiterhin kann das Modell Empfehlungen abgeben, um die Therapie des Patienten zu optimieren und schließlich kann es eingesetzt werden für die Kontrolle einer sogenannten künstlichen Betazelle, die automatisch den Blutzuckerspiegel mit Hilfe von Messungen und Insulingaben steuert. Bevorzugt wird das Systemmodell mit Daten eines Patienten trainiert, die über eine größere Zeitperiode, beispielsweise 6 Monate aufgenommen wurden. Maßgebliche Einflußgrößen für diesen Blutzucker-Insulin-Metabolismus sind im einzelnen die Zeiten und Dosierungsmengen von Insulininjektionen, die Zeiten und Mengen von Essensaufnahmen (Basalinsulin u1t und Normalinsulin u2t), die Zeiten und Mengen von Essensaufnahme (schnelle u3t, mittlere u4t und langsame u5t Kohlehydrate), die Zeitpunkte und Andauer von körperlichen Übungen (regelmäßig u6t oder intensiv u7t) und der Blutzuckerspiegel yt (mehrfach am Tag gemessen). Dabei sind ujt, für j=1,...,7 = 0 ausgenommen für den Fall, daß ein Ereignis, wie beispielsweise Essensaufnahme, Insulininjektion oder sportliche Übung stattfindet. Beispielsweise werden diese Daten für 15-minütige Anstände aufgenommen. Von diesen Daten werden beispielsweise die für 43 Tage aufgenommenen 312 Blutzuckermeßwerte zum Training des Modelles eingesetzt und die für die folgenden 21 Tage aufgenommenen 151 Blutzuckermeßwerte zu seiner Validierung. Das bedeutet, daß hierbei mit ca. 93 % fehlenden Daten beim Training umgegangen werden muß.

Dabei ist zu beachten, daß die Einflüsse von Insulin, Essensaufnahme und sportlichen Übungen auf den Blutzuckerspiegel verzögert eintreten und bevorzugt durch lineare Antwortfunktionen der Formvtj = hj(utj) modelliert werden, wobei diese den Einfluß der Eingangsgröße ujt auf den Glukosewert beschreibt. Beispielsweise wird die Antwort v2t von Normalinsulin u2t nach der Injektion bestimmt, indem die Diffusion des subkutan injizierten Insulins in den Blutstrom durch drei Abteilungen erster Ordnung in Serien modelliert wird, oder wie beispielsweise durchgeführt, durch eine Antwortfunktion der Formvt2 = h2(ut2) = Στg2(t - τ)uτ2 mit g2(t) = a2t2e-b2t.

Die funktionalen Abhängigkeiten für den Verdauungsapparat gj(.) sind dabei weniger bekannt. Es wird deshalb ebenfalls die Gleichung von obiger Form angenommen. Die Antwortfunktionen gj(.) beschreiben den Verzögerungseffekt der Eingänge auf den Blutzuckerspiegel. Dabei wird davon ausgegangen, daß die Gleichung der Form gj(.) ausreicht, um sämtliche Variationen der Verzögerungen der Eingänge abzubilden und das sie an die Physiologie des Patienten durch Variation der einzelnen Parameter aj, bj angepaßt werden kann. Um die hochgradig nichtlinearen physiologischen Zusammenhänge zwischen den Antwortfunktionen Vjt und dem Blutzuckerspiegel yt nachbilden zu können, welcher lediglich wenige Male am Tag bestimmt wird, wird, wie zuvor beschrieben, die Kombination eines linearen Fehlermodells mit einem rekurrenten neuronalen Netz eingesetzt. Dabei wird bevorzugt als fw(.) ein vorwärtsgerichtetes multi-layer perceptron" als neuronales Netz verwendet, bei dem drei versteckte lagen vorhanden sind. Als die fünf Eingänge des Netzwerkes werden dabei Insulin(int1 = vt1 + vt2), Essen(int2 = vt3 + vt4 + vt5), körperliche Ertüchtigung(int3 = vt6 + vt7) und der gegenwärtige und vorherige Schätzwert des Blutzuckerspiegels verwendet. Die Gleichung des nichtlinearen rekurrenten Netzwerkes zweiter Ordnung ist dabei wie folgt:yt* = yt-1* + fw(yt-1*,yt-2*,int1,int2,int3).

Für das lineare Fehlermodell wird ebenfalls ein Modell zweiter Ordnung verwendetxt = θ1xt-1 + θ2xt-2 + εt

Tabelle 1 zeigt dabei die Varianz der verschiedenen Vorhersagemodelle.

Modell

%

Modell

%

mean

0

RNN-TF

18.8

LM

8.9

LM-LEM

31.4

LEM

12.9

RNN-LEM1

43.7

RNN-FR

14.1

RNN-LEM2

44.9

Zunächst wurde das rückwärtsgerichtete neuronale Netz im Freilaufmodus untersucht (RNN-FR). Dabei wurde der Blutzuckerspiegel zur Zeit t als der Ausgang des neuronalen Netzes gemäßy^t = yt* vorhergesagt. Das neuronale Netz wurde dabei im Freilaufmodus beim Training und bei der Vorhersage betrieben. Als Lernregel wurde die Echtzeit-Lernregel für rekurrente neuronale Netze verwendet, sowohl um die Gewichte des neuronalen Netzes anzupassen, als auch die Parameter der Antwortfunktionen gj (.). Wie erkannt werden kann, erklärt dieses Modell 14.1 % der Varianz. Das rückwärtsgerichtete neuronale Netz im Teacher-Forcing-Modus (RNN-TF)ist dabei identisch zur vorherigen Untersuchung eingesetzt worden mit der Ausnahme, daß die Meßwerte für die iterierten Werte der Zeitreihe eingesetzt wurden, wann immer sie verfügbar waren. Wie aus Tabelle 1 gesehen werden kann, erklärt RNN-TF mit 18.8 % mehr der Varianz. Die Erklärung besteht darin, daß die Information der Meßwerte verwertet wird.

Die Kombination aus rekurrentem neuronalen Netzwerk und linearem Fehlermodell zweiter Ordnung der Formyt = xt + yt* modelliert den Blutzuckerspiegel und zt = yt + δt modelliert die Meßwertgleichung, wobei die Varianz von δt zu 0 gesetzt wurde für einen Meßwert des Blutzuckerspiegels zum Zeitpunkt t und die Varianz von δt zu unendlich gesetzt wird für fehlende Meßwerte. Für εt werden unabhängige Gaußverteilungen des Rauschens angenommen. Zur Vorhersage wird die Gleichung im Freilaufmodus des Netzes iteriert. Der Blutzuckerspiegel zum Zeitpunkt t wird dabei durch einen linearen Kalmanfilter geschätzt, der y*t als deterministischen Eingang in das Zustandsraummodellyt = xt + yt*, zt = yt + δt behandelt. Die Parameter des linearen Fehlermodells (θ1, θ2, die Varianz von εt) werden dabei durch eine Fehlermodelladaptionsregel angepaßt, die mit Hilfe von vorwarts-rückwärts Kalman-Filtergleichungen implementiert ist, die im mathematischen Erklärungsteil ausgeführt werden. Die Parameter die neuronalen Netzes werden mit derselben Lernregel angepaßt, mit der Ausnahme, daß als Target nuntargettmnn = ytm - y^tlinear verwendet wird, wobei ymt einen Meßwert von yt zum Zeitpunkt t darstellt und y^lineart den Schätzwert des linearen Fehlermodells basierend auf dem linearen Kalman-Filter angibt. Die Adaption des linearen Fehlermodells und des neuronalen Netzwerkes wird dabei alternierend solange durchgeführt, bis sich keine entscheidende Verbesserung mehr in der Leistungsfähigkeit des Modells ergibt.

Wie Tabelle 1 weiter zeigt, erreicht dieses Modell RNN-LEM2 die beste Leistungsfähigkeit, indem es die Varianz zu 44.9 % erklärt (das Fehlermodell erster Ordnung RNN-LEM1 kommt lediglich auf 43.7 %). Zum Vergleich mit anderen Methoden, wird ebenfalls die Leistungsfähigkeit des linearen Fehlermodells LEM, das alle Eingänge ignoriert, aufgezeigt, und des linearen Modells (LM-FR) das ohne Fehlermodell arbeitet und mit Hilfe der Echtzeitlernregel für rekurrente neuronale Netze trainiert wird. Ebenfalls dargestellt ist das lineare Modell mit dem Fehlermodell (LM-LEM). Dadurch das die nichtlinearen Modell bei weitem bessere Resultate erzielen (RNN-FR, RNN-TF, RNN-LEM), als ihr linearen Gegenstücke, wird bestätigt, daß das System sich in hohem Maße nichtlinear verhält.

Figur 4 zeigt einige Beispiele von Ergebnissen mit den unterschiedlichen Modellen. Sie sind in einem Diagramm D10 zusammengefaßt, das zeigt, wie gut die Unterschiedlichen Modelle K10, K20 und K30 einzelne Meßwerte der Zeitreihe M10, M20 und M30 annähern können. Im Diagramm D10 ist nach oben der Blutglukosegehalt in mg/dl und nach rechts die Zeit in Stunden angegeben. Mit K30 ist der Systemverlauf angegeben, den man durch Modellierung mit dem neuronalen Netzwerk im Freilaufmodus erzielt. Mit dem rekurrenten neuronalen Netzwerk, das im "Teacher Forcing" Modus betrieben und trainiert wird, kann in bezug auf die Meßwerte ein besserer Kurvenverlauf erzielt werden, als mit der Behandlung des Meßwertes im Freilaufmodus, was Kurve K20 veranschaulicht. Der beste Kurvenverlauf ergibt sich durch die Kurve K10, also durch eine Modellierung mit einem linearen Fehlermodell und einem rekurrenten neuronalen Netzwerk in Kombination.

In Figur 5 sind in einem Diagramm D20 nach rechts die Zeit aufgetragen und nach oben die Varianz der Vorhersage in mg/dl. Dargestellt ist diese Signalkurve SIG10 für die Modellierung des Systemverhaltens mit dem linearen Fehlermodell und dem rekurrenten neuronalen Netzwerk in Kombination. Die Varianz der Vorhersage wird dabei mit dem linearen iterierten Kalman-Filter berechnet. Wie Figur 5 weiter zeigt, ist die Standardabweichung um einen Meßwert herum vergleichsweise klein und konvergiert dann gegen einen konstanten Wert. Basierend auf der Vorhersage und der geschätzten Varianz ist es also möglich eine Risikoanalyse für den Diabetiker durchzuführen, um ihn vor gefährlichen metabolischen Zuständen des Blut-Insulin-Metabolismus zu warnen.

Im folgenden werden die mathematischen Grundlagen für die Anpassung und das Training des linearen Fehlermodells dargestellt. Die Modellierung und Beobachtungsgleichungen des allgemeinen Modells ergeben sich zu:xt = θxt-1 + εt   zt = Mtxt + δt wobei θ die K × K Übertragungsmatrix des linearen Fehlermodells mit der K-ten Ordnung darstellt. Die K × 1 Rauschterme εt sind dabei unkorrelierte Normalenvektoren mit Mittelwert 0 und der allgemeinen Kovarianzmatix Q. δt ist ein m-dimensionaler unkorrelierter Normalenrauschvektor mit Mittelwert 0 und Kovarianzmatix Rt. In grundlegender Weise wird bei diesem Lösungsansatz davon ausgegangen, daß bestimmte Messungen und fehlende Meßwerte als Spezialfälle von verrauschten Messungen zu betrachten sind. Beim Ausgangszustand des Systems wird davon ausgegangen, daß dieser normalverteilt ist mit mittlerem µ und mittlerer Kovarianz Σ.

Zur Beschreibung der Gleichungen für das lineare Fehlermodel zur Maximierung der "likelihood" des Modells wird wie folgt vorgegangen: es werden die geschätzten Parameter zur (r + 1)-sten Iteration des Fehlermodells zu den Werten µ, Σ, θ, Q, definiert, welche die GleichungG(µ,Σ,θ,Q) = Eτ(logL|z1,...,zn) maximieren, wobei logL die log-likelihood Funktion der kompletten Daten x0, x1,..., xn, z1,..., zn angibt und Er die wahrscheinliche Erwartung relativ zu einer Dichte angibt, welche die Werte der r-ten Iteration µ(r), Σ(r), θ(r) und Q(r) angibt. Die fehlenden Zielgrößen werden dabei implizit durch die Definition von Mt und Rt modelliert.

Um die durch Gleichung 8 angegebene bedingte Erwartung zu berechnen, wird der folgende Satz von Rekursionsformeln, der die Standard Kalman-Filter-Ergebnisse auswertet, benutzt [1]. Zunächst wird dabei die Vorwärtsrekursion angegeben:xtt-1 = θxtt-1Ptt-1 = θPtt-1θT + QKt = Ptt-1MtT(MtPtt-1MtT + Rt)-1 xtt = xtt-1 + Kt(yt* - Mtxtt-1)Ptt = Ptt-1 - KtMtPtt-1 wobeix00 = µ undP00 = Σ gilt. Als nächstes wird die Rückwärtsrekursionsformel angegeben:Jt-1 = Pt-1t-1θT(Pt-1t-1)-1xt-1n = xt-1t-1 + Jt-1(xtn - θxt-1t-1)Pt-1n = Pt-1t-1 + Jt-1(Ptn - Ptt-1)Jt-1TPt-1,t-2n = Pt-1t-1Jt-2T + Jt-1(Pt,t-1n - θPt-1t-1)Jt-2T mit der InitialisierungPn,n-1n = (I - KnMn)θPn-1n-1. Dabei bildet eine Vorwärts- und eine Rückwärtsrekursion den Fehlerschritt des Fehlermodellierungs-Algorithmus. Um daraus den Modellierungsschritt zu erhalten, werden die bedingten Wahrscheinlichkeiten in Gleichung 8 zu folgenden Gleichungen umgebildet:G = -12log|Σ|-12tr{Σ-1(P0n + (x0n - µ)(x0n - µ)T)}-n2log|Q|-12tr{Q-1(C - BθT - θBT - θAθT)}-n2log|Rt|-12tr{Rt-1Σt=1n[(yt* - Mtxt)(y*t - Mtxt)T + MtPtnMtT]} wobei tr{.} die Spur angibt, undA = Σt=1n(Pt-1n + xt-1nxt-1T),B = Σt=1n(Pt,t-1n + xt-1nT) und C = Σt=1n(Ptn + xtnxtnT) gelten. θ(r + 1) = BA-1 und Q(r + 1) = n-1(C - BA-1BT) maximieren dabei die logarithmische Wahrscheinlichkeitsgleichung 11. µ(r+1) wird zu nn0 gesetzt und Σ kann auf einen vernünftigen Grundwertpegel gesetzt werden. Die Ableitung dieser Gleichungen ergibt sich aus [3]. Die E- (vorwärts und rückwärts Kalman-Filter-Gleichungen) und die M-Schritte werden alternierend wiederholt bis sie gegen eine Fehlermodellösung konvertieren.

Literatur

  • [1] Jazwinski, A. H. (1970) Stochastic Processes and Filtering Theory, Academic Press, N.Y.
  • [2] Lewis, F. L. (1986) Optimal Estimation, John Wiley, N.Y.
  • [3] Shumway, R. H. and Stoffer, D. S. (1981) Time Series Smoothing and Forecasting Using the EM Algorithm, Technical Report No. 27, Division of Statistics, UC Davis.
  • [4] Tresp, V., Moody, J. and Delong, W.-R. (1994) Neural Modeling of Physiological Processes, in comput. Learning Theory and Natural Learning Sys. 2, Hanson et al., eds., MIT Press.

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈