2021-11-22

日本語 WordNet を使って文章を非可逆圧縮してみた

先日、Deflate を JS で実装したライブラリを使って、文字列を可逆圧縮してみた。

JavaScript で文字列を圧縮できるらしいよ

今回は、日本語 WordNet という辞書データを利用し、文字列を非可逆圧縮してみた。

日本語 WordNet

日本語 WordNet は、単語の「意味」をまとめた辞書データで、SQLite3 データベースの形式で配布されている。

Japanese Wordnet and English WordNet in an sqlite3 database

↑ コレがそれ。コレをダウンロードすると、圧縮された状態で 58MB 程度のファイルであり、gunzip で解凍してやると 194MB 程度のファイルが出てくる。

SQLite3 DB 形式なので、何らかの DB ビューアソフトで開いてやれば中身を見られる。例えば「ドラゴン」という単語は、意味としては「龍」というデータが入っていたりする。

コレを利用して、冗長な単語を簡素な単語に変換してやれば、非可逆圧縮できるのでは、というワケ。実装してみたコードは以下のとおり。Node.js でコーディングした。

Neos21/practice-japanese-wordnet: Practice Japanese WordNet

SQLite3 DB から SELECT するには、普通に npm の sqlite3 パッケージを使用。

引数で与えた文章を単語に分割するため、以前にも使ったことがある形態素解析ライブラリの kuromoji.js を使って、単語と品詞を確認できるようにした。

tiny-segmenter・kuromoji.js : JavaScript 製の形態素解析ツールを2つ使ってみた

精度はまぁまぁｗ。お遊びとしてはこんなモンか。

参考 : 文章を非可逆圧縮するという世紀の大発見！という夢の跡 - Qiita

形態素解析器kuromoji.jsで遊ぶ: 文章分割読み取得からマルコフ連鎖までるてんのプチ技術書

機械学習・深層学習による自然言語処理入門 scikit-learnとTensorFlowを使った実践プログラミング [ 中山光樹 ]

楽天ブックス

価格 : 3168円