.
Project description
言葉のしっぽ(tails-of-words)
表記ゆれ検出の実装実験
概要
- 形態素解析(jumanpp)による名詞の検出
- 名詞の出現数のレポート
- 名詞の編集距離のレポート
- レーベンシュタイン距離
- 読みのレーベンシュタイン距離
Usage
docker ならビルドするだけで実行環境が整います。
python setup.py install する場合は、別途 jumanpp のインストールが必要です。
e.g.
$ echo コンピュータとコンピューター | tails-of-words swing -
1, 0.86, 0.86: コンピュータ(1) vs コンピューター(1) : 1.03
curl -fsSL https://srz-zumix.blogspot.com/2021/09/cedec.html | tails-of-words --stdin-type html swing --exclude-alphabet --exclude-ascii -t 1 -
1, 0.75, 0.75: ブクログ(1) vs ブログ(6) : 1.29
1, 0.67, 0.67: ホスト(1) vs リスト(3) : 1.00
1, 0.67, 0.67: ホスト(1) vs テスト(3) : 1.00
Help
usage: tails-of-words [-h] [-v] [--dumpversion] [--log {DEBUG,INFO,WARN,ERROR,CRITICAL,debug,info,warn,error,critical}] {count,distance,show,swing,help} ...
positional arguments:
{count,distance,show,swing,help}
count count words. see `count -h`
distance distance counted words. see `distance -h`
show show words. see `show -h`
swing show notation fluctuations. see `swing -h`
help show subcommand help. see `help -h`
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
--dumpversion show program's version number and exit
--log {DEBUG,INFO,WARN,ERROR,CRITICAL,debug,info,warn,error,critical}
set log level.
参考
貢献
このリポジトリは表記ゆれ検出の実験的な実装をしています。 アイディアや PR を歓迎します。
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
tails-of-words-0.2.1.tar.gz
(12.3 kB
view hashes)
Built Distribution
Close
Hashes for tails_of_words-0.2.1-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 9d41a5620583c62d2764cbee113469965c717b76492cba127f8b610bd2b81332 |
|
MD5 | 5db6d2e68b98336b83b1af43fdc76220 |
|
BLAKE2b-256 | 89378e59cf42b458173e15db09c85b58f33e960c32990d5106a16332ee7fda97 |