ワークス徳島人工知能NLP研究所 による自然言語処理のためのソフトウェアと言語資源
開発者やユーザーの方々が質問したり議論するためのSlackワークスペースを用意しています。
SudachiDictとchiVe、chiTraのデータは、AWSのOepn Data Sponsorship Program によりホストしていただいています。
日本語形態素解析辞書です。詳細は SudachiDict を参照してください。
ビルド済みの辞書ファイルは こちら からダウンロードできます。
事前学習済み日本語単語ベクトルです。詳細は chiVe を参照してください。
版 | 正規化 | 最低頻度 | 語彙数 | Sudachi | Sudachi辞書 | テキスト | gensim | Magnitude |
---|---|---|---|---|---|---|---|---|
v1.3 mc5 | o | 5 | 2,530,791 | v0.6.8 | 20240109-core | 3.6GB (tar.gz) | 2.9GB (tar.gz) | - |
v1.3 mc15 | o | 15 | 1,186,019 | v0.6.8 | 20240109-core | 1.7GB (tar.gz) | 1.3GB (tar.gz) | - |
v1.3 mc30 | o | 30 | 759,011 | v0.6.8 | 20240109-core | 1.1GB (tar.gz) | 0.8GB (tar.gz) | - |
v1.3 mc90 | o | 90 | 410,533 | v0.6.8 | 20240109-core | 0.6GB (tar.gz) | 0.5GB (tar.gz) | - |
v1.2 mc5 | o | 5 | 3,197,456 | v0.4.3 | 20200722-core | 9.2GB (tar.gz) | 3.8GB (tar.gz) | 5.5GB (.magnitude) |
v1.2 mc15 | o | 15 | 1,454,280 | v0.4.3 | 20200722-core | 5.0GB (tar.gz) | 1.7GB (tar.gz) | 2.4GB (.magnitude) |
v1.2 mc30 | o | 30 | 912,550 | v0.4.3 | 20200722-core | 3.1GB (tar.gz) | 1.1GB (tar.gz) | 1.5GB (.magnitude) |
v1.2 mc90 | o | 90 | 482,223 | v0.4.3 | 20200722-core | 1.7GB (tar.gz) | 0.6GB (tar.gz) | 0.8GB (.magnitude) |
v1.1 mc5 | o | 5 | 3,196,481 | v0.3.0 | 20191030-core | 11GB (tar.gz) | 3.6GB (tar.gz) | 5.5GB (.magnitude) |
v1.1 mc15 | o | 15 | 1,452,205 | v0.3.0 | 20191030-core | 4.7GB (tar.gz) | 1.7GB (tar.gz) | 2.4GB (.magnitude) |
v1.1 mc30 | o | 30 | 910,424 | v0.3.0 | 20191030-core | 3.0GB (tar.gz) | 1.1GB (tar.gz) | 1.5GB (.magnitude) |
v1.1 mc90 | o | 90 | 480,443 | v0.3.0 | 20191030-core | 1.6GB (tar.gz) | 0.6GB (tar.gz) | 0.8GB (.magnitude) |
v1.0 mc5 | x | 5 | 3,644,628 | v0.1.1 | 0.1.1-dictionary-full | 12GB (tar.gz) | 4.1GB (tar.gz) | 6.3GB (.magnitude) |
版 | 語彙数 | テキスト | gensim | Magnitude |
---|---|---|---|---|
v1.1 mc5 aunit | 322,094 (10.1%) | 1.1GB (tar.gz) | 0.4GB (tar.gz) | 0.5GB (.magnitude) |
v1.1 mc15 aunit | 276,866 (19.1%) | 1.0GB (tar.gz) | 0.3GB (tar.gz) | 0.4GB (.magnitude) |
v1.1 mc30 aunit | 242,658 (26.7%) | 0.8GB (tar.gz) | 0.3GB (tar.gz) | 0.4GB (.magnitude) |
v1.1 mc90 aunit | 189,775 (39.5%) | 0.7GB (tar.gz) | 0.2GB (tar.gz) | 0.3GB (.magnitude) |
版 | gensim (full) |
---|---|
v1.3 mc5 | 5.5GB (tar.gz) |
v1.3 mc15 | 2.6GB (tar.gz) |
v1.3 mc30 | 1.7GB (tar.gz) |
v1.3 mc90 | 0.9GB (tar.gz) |
v1.2 mc5 | 6.7GB (tar.gz) |
v1.2 mc15 | 3.0GB (tar.gz) |
v1.2 mc30 | 1.9GB (tar.gz) |
v1.2 mc90 | 1.0GB (tar.gz) |
日本語形態素解析器 SudachiPy で事前学習済みの大規模な言語モデルを利用するためのライブラリです。 詳細は chiTra を参照ください。
版 | 正規化 | SudachiTra | Sudachi | Sudachi辞書 | テキスト | 事前学習済みモデル |
---|---|---|---|---|---|---|
v1.0 | normalized_and_surface | v0.1.7 | 0.6.2 | 20211220-core | NWJC (148GB) | 395 MB (tar.gz) |
v1.1 | normalized_nouns | v0.1.8 | 0.6.6 | 20220729-core | NWJC with additional cleaning (79GB) | 396 MB (tar.gz) |