2016年4月18日月曜日

PythonによるWebスクレイピング

Pythonの実践的プログラミングがとても参考になる本だ。
Nグラムについての説明があった。

2グラムで、何回出現したか カウントするプログラム P116を参考にちょっと試してみた。
input=['abc','test','abc','test','hello','xyz','hello','xyz']
output=dict()
for i in range(len(input)-2+1):
  newNGram = " ".join(input[i:i+2])
  if newNGram in output:
    output[newNGram] += 1
  else:
    output[newNGram] = 1

これを実行すると
outputは {'hello xyz':2 ,'test abc':1 ,'abc test':2,'test hello':1,'xyz hello':1}
という具合になった。
" ".join(input[i:i+2])は、inputから抽出した2語をスペースでつなぐようだ。

0 件のコメント:

コメントを投稿