Pythonの実践的プログラミングがとても参考になる本だ。
Nグラムについての説明があった。
2グラムで、何回出現したか カウントするプログラム P116を参考にちょっと試してみた。
input=['abc','test','abc','test','hello','xyz','hello','xyz']
output=dict()
for i in range(len(input)-2+1):
newNGram = " ".join(input[i:i+2])
if newNGram in output:
output[newNGram] += 1
else:
output[newNGram] = 1
これを実行すると
outputは {'hello xyz':2 ,'test abc':1 ,'abc test':2,'test hello':1,'xyz hello':1}
という具合になった。
" ".join(input[i:i+2])は、inputから抽出した2語をスペースでつなぐようだ。
0 件のコメント:
コメントを投稿