Saturday, November 2, 2013

pytextcheck

 お久しぶりです。
最近はブログではなく、別のWebページを作成に勤しんでいました。
私の記事を待ってくれている人がいたら、すみませんでした。

今回はpytextcheckというPythonから使用できるテキストチェッカーを作ったので紹介します。

このモジュールはテキスト形式の文書の中身を検索して、特定の語句を検出します。

Texで論文を書くために作成しました。

論文のように公開する文書内の語句には、いくつか規定があります。
例えば、ある学会では「行う」は「おこなう」、「。」は「.」と表記するといった決まりがあります。
文書を書いたあとに、1つずつ検索して禁止語句が含まれていないか探すのは大変面倒でした。
この前書いた論文では 208個も使用してはいけない漢字があり、とても検索する気が起きませんでした。
そこで、 今回紹介する、pytextcheckを書きました。
使い方は簡単で、以下のようにたった3行のコードで使用できます。

import pytextcheck
t = Text()
t.check_text('test.tex', 'basic.txt', 'sice.txt')

ダウンロードと詳しい説明はここからお願いします。
サンプルではtest.tex内で、basic.txtとsice.txtに記述された語句を使用されているか調べます。
もし使用されていらば、該当する語句とそれが含まれる行番号を表示してくれます。
現状では、あまり文書のコンテキストを読む機能はありませんので、漢字があれば拾ってしまいます。
例えば、「~の時」は「~のとき」と表記しなけらばならないとします。
そこで、禁止語句リストに「時」を入れると、「時間」「時計」なども検出するということです。
回避方法をいくつか思いつきましたが、用途的には余計なことをしてfalse negative(偽陰性)を発生させるよりは、
false positive(偽陽性)は許容するということにしました。
このあたりの問題は、もう少し色々な人に使ってもらって検討したいと思います。

 余談ですが、このモジュールを作成するにあたり、文字コードと改行コードには苦労しました。
改行コードは各OSで以下のようになっています。
・Windows
\r\n
・Mac (9以下)
\r
・Unix
\n

このようにOSによってコードが違うので、読み込んだ文字列から改行コードを削除しています。
また、Pythonで扱いやすいよう、Unicode形式に変換して検索を行っています。
今回で文字列を扱うときの注意点がなんとなくわかってきたのは、収穫でした。


次回もへばらない程度に、気を抜きながら何か記事にしたいと思います。
気長にお待ちください。

No comments:

Post a Comment