Mixture Modell - Unigram Sprachmodell

DKK007

PCGH-Community-Veteran(in)
Ich habe ein kleines Problem aus der Theoretischen Informatik, bei dem ich gerade ein Brett vorm Kopf habe.
Gegeben sind zwei Unigram Sprachmodelle Theta1 und Theta2 und eine Menge Wörter {w}.
Die Wahrscheinlichkeitsverteilung für das Mixturemodell ist:
mixturetabelle-png.1032922


Die Prior-Wahrscheinlichkeiten sind P(Theta1) = 0,3 und P(Theta2) = 0,7.
Gesucht ist nun die Wahrscheinlichkeit für P(the technology).

Nebenbedingungen:
p(Theta1) + p(Theta2) = 1
Sum( p(wi|Theta1) ) = 1; Sum( p(wi|Theta2) ) = 1

Wie ich die Wahrscheinlichkeit für ein Wort bestimme weiß ich. [ z.B. P(the) = 0,4*0,3 + 0,05*0,7 ]
Aber bei zwei Wörtern komme ich nicht weiter.

Edit: Mittlerweile bin ich selber drauf gekommen.
Wenn beide/alle Wörter aus dem gleichen Modell kommen sollen: p(Theta1)*(p(w1|Theta1)*p(w2|Theta1)) + p(Theta2)*(p(w1|Theta2)*p(w2|Theta2)) = 0,3*(0,4*0,1) + 0,7*(0,05*0,5)
Wenn das Modell gewechselt wird (normaler Fall): ( p(Theta1)*p(w1|Theta1) + p(Theta2)*p(w1|Theta2) ) * ( p(Theta1)*p(w2|Theta1) + p(Theta2)*p(w2|Theta2) ) = (0,3*0,4+0,7*0,05) * (0,3*0,1+0,7*0,5)
 

Anhänge

  • mixturetabelle.png
    mixturetabelle.png
    3,1 KB · Aufrufe: 107
Zuletzt bearbeitet:
Zurück