レシートをスキャンして、文字認識データの入ったPDFにして、pdfDoctというフリーソフトでテキストデータを作成し、それをこのソフトで読むと、OFXデータを作成できるので、それをMoneyに読み込ませることができます。(本当は、ソフトの中で、PDFのテキストデータの読み取りをしたかったのですが、うまくいきませんでした。今後の課題です。)
ReadMeドキュメントを作成していませんが、ソースは公開しています。
まとめて、複数レシートをOCRすれば、レシートからの手入力から解放されそうです。
ただし、OCRが完全でないと文字化けもあるので、ところどころ、手で修正はどうしても必要かと思います。また、それぞれの店名毎に、年月日・値段・備考抽出用の正規表現を登録できるようにしています。
https://drive.google.com/file/d/0B4pVdxZ3b8JAMzNGVnRQQnREYVk/view?usp=sharing
上記ソフトへの追加機能として
CSVデータをOFXへ変換するツールも メニューに追加してみた。
マニュアルなしで、しかも操作性を考慮してないので、わかりにくいと思います。
そのうち、改良したいと考えていますが、とりあえず、覚え書き的なものとしてアップしておきます。
銀行によって、CSV形式がまったく違うため、合わせるのに少し手間取りましたが、
Linqをうまく活用すると、少し楽に、わかりやすくプログラミングできるような気がします。
1行の中に、処理の流れをある程度わかりやすくまとめられるところが、すっきりしていいようです。
ただ、ちょっと複雑になると、別に関数を作った方がいいような気もしますが。
0 件のコメント:
コメントを投稿