python: hmm/semiSup.py comparison

comparison hmm/semiSup.py @ 3:26d9c0308fcf

updated/added from ecclerig version

author	Henry S. Thompson <ht@inf.ed.ac.uk>
date	Mon, 09 Mar 2020 17:35:28 +0000
parents	e07789816ca5
children

comparison

equal deleted inserted replaced

-:e07789816ca5
+:26d9c0308fcf
 '''Exploring the claim that a small dictionary can seed
 an otherwise unsupervised HMM to learn a decent POS-tagger'''
-import nltk, random, itertools
+import nltk, random
 from nltk.corpus import brown
-from nltk.tag.hmm import HiddenMarkovModelTagger, HiddenMarkovModelTrainer, logsumexp2
+from nltk.tag.hmm import HiddenMarkovModelTagger, HiddenMarkovModelTrainer
 from nltk.probability import FreqDist,ConditionalFreqDist
 from nltk.probability import MLEProbDist, RandomProbDist, DictionaryConditionalProbDist
-def totLogProb(self,sequences):
+trainTagsPercent=0.99
-N = len(self._states)
+trainHMMPercent=0.9
-M = len(self._symbols)
+knownWordsPercent=0.99
-logProb = 0
-for sequence in sequences:
-T = len(sequence)
-# compute forward and backward probabilities
-alpha = self._forward_probability(sequence)
-beta = self._backward_probability(sequence)
-# find the log probability of the sequence
-logProb += logsumexp2(alpha[T-1])
-return logProb
-HiddenMarkovModelTagger.totLogProb=totLogProb
-trainTagsPercent=1.0
-trainHMMPercent=0.9
-knownWordsPercent=1.0
-SST=SSW='<s>'
-EST=ESW='</s>'
-SS=[(SSW,SST)]
-ES=[(ESW,EST)]
 TAGSETS={
 'univ':
 [u'ADJ', u'ADP', u'ADV', u'CONJ', u'DET', u'NOUN', u'NUM',
-u'PRON', u'PRT', u'VERB', u'X', u'.',SST,EST],
+u'PRON', u'PRT', u'VERB', u'X', u'.'],
 'brown':
 [u"ABL", u"ABN", u"ABX", u"AP", u"AP$", u"AP+AP", u"AT", u"BE",
 u"BED", u"BED*", u"BEDZ", u"BEDZ*", u"BEG", u"BEM", u"BEM*",
 u"BEN", u"BER", u"BER*", u"BEZ", u"BEZ*", u"CC", u"CD",
 u"CD$", u"CS", u"DO", u"DO*", u"DO+PPSS", u"DOD", u"DOD*",
 TAGSETS['universal']=TAGSETS['univ']
 TAGSETS['penn']=TAGSETS['upenn']
 def setup(cat='news',tagset='brown',corpus=brown):
-return ([list(itertools.chain(iter(SS),
+return ([[(word.lower(),tag) for (word,tag) in s]
-((word.lower(),tag) for (word,tag) in s)
-,iter(ES)))
 for s in corpus.tagged_sents(categories=cat,tagset=tagset)],
-list(itertools.chain(iter(SS), iter(ES),
+[(word.lower(),tag) for (word,tag) in corpus.tagged_words(categories=cat,tagset=tagset)],
-((word.lower(),tag) for (word,tag) in
-corpus.tagged_words(categories=cat,tagset=tagset)))),
 TAGSETS[tagset])
 def notCurrent(s,missList):
 global i,n,done
 if done or (missList[i] is not s):
 def pickWords(tagged,percent):
 #wToT=ConditionalFreqDist(tagged)
 tToW=ConditionalFreqDist((t,w) for (w,t) in tagged)
 #print len(tToW[u'ADV'])
-dd=dict((tag,(lambda wl,p=percent:\
+return dict((tag,(lambda wl,p=percent:\
 wl[:int(p*len(wl))])(
 sorted(tToW[tag].items(),key=lambda (k,v):v,reverse=True)))
 for tag in tToW.keys())
-return dd
 (tagged_s,tagged_w,tagset)=setup(tagset='universal')
-true_tagged_w=tagged_w[2:] # not SS, SE
+wordTokens=FreqDist(word for word,tag in tagged_w)
-wordTokens=FreqDist(word for word,tag in true_tagged_w)
-wordsAsSuch=list(wordTokens.keys())
 print len(wordTokens), wordTokens.N()
-(trainTags,trainHMM,testHMM)=splitData(true_tagged_w,trainTagsPercent,
+(trainTags,trainHMM,testHMM)=splitData(tagged_w,trainTagsPercent,
 tagged_s,trainHMMPercent)
 knownWords=pickWords(trainTags,knownWordsPercent)
 class SubsetFreqDist(FreqDist):
 self._nTypes=len(self._words)
 def words(self):
 return self._words
-def buildPD(self,allTokens):
+def buildPD(self,tokens):
-self._sfd=SubsetFreqDist(self._wordsAndCounts,allTokens)
+self._sfd=SubsetFreqDist(self._wordsAndCounts,tokens)
 self._pd=MLEProbDist(self._sfd)
 def getSFD(self):
 return self._sfd
 def getPD(self):
 return self._pd
-class FixedTag(Tag):
-def buildPD(self):
-self._pd=MLEProbDist(FreqDist(dict(self._wordsAndCounts)))
-def getSFD(self):
-raise NotImplementedError("not implemented for this subclass")
 tags=dict((tagName,Tag(tagName,wl)) for tagName,wl in knownWords.items())
 kws=dict((tagName,tag.words()) for tagName,tag in tags.items())
 t2=list(filter(None,
 ((lambda i:False if not i[1] else i)
 (((tagset[i],tagset[j]),
 kws[tagset[i]].intersection(kws[tagset[j]])),)
-for i in xrange(0,len(tagset)-2)
+for i in xrange(0,len(tagset))
-for j in xrange(i+1,len(tagset)-2))))
+for j in xrange(i+1,len(tagset)))))
 for tag in tags.values():
 tag.buildPD(wordTokens)
-tags[SST]=FixedTag(SST,[(SSW,1)])
+priors = RandomProbDist(tagset)
-tags[SST].buildPD()
-tags[EST]=FixedTag(EST,[(ESW,1)])
-tags[EST].buildPD()
-priors = MLEProbDist(FreqDist(dict((tag,1 if tag==SST else 0) for tag in tagset)))
 transitions = DictionaryConditionalProbDist(
 dict((state, RandomProbDist(tagset))
 for state in tagset))
 outputs = DictionaryConditionalProbDist(
 dict((state, tags[state].getPD())
 for state in tagset))
-model = HiddenMarkovModelTagger(wordsAsSuch, tagset,
+model = HiddenMarkovModelTagger(wordTokens, tagset,
 transitions, outputs, priors)
-print "model", model.evaluate(testHMM), model.totLogProb(testHMM)
+print model.evaluate(testHMM)
-nm=HiddenMarkovModelTrainer(states=tagset,symbols=wordsAsSuch)
+nm=HiddenMarkovModelTrainer(states=tagset,symbols=wordTokens)
 # Note that contrary to naive reading of the documentation,
 #  train_unsupervised expects a sequence of sequences of word/tag pairs,
 #  it just ignores the tags
-nnm=nm.train_unsupervised(trainHMM,True,model=model,max_iterations=10,testMe=testHMM)
+nnm=nm.train_unsupervised(trainHMM,model=model,max_iterations=15,updateOutputs=False)
-print nnm.totLogProb(testHMM)
+print nnm.evaluate(testHMM)

Mercurial > hg > python

comparison hmm/semiSup.py @ 3:26d9c0308fcf