形態素解析
なんだかすごく小難しい言葉ですが、単語ごとの区切りのない日本語を
いかにして単語ごとに分割するか。
わかち書き。
大手検索エンジンの使っているものは
Basis Technologyらしいのですが、
価格の表記などされていなくて、
多分ぶりっといってしまうくらいのお値段なんでしょう。
さしあたりテストサイトを作りたいだけなので、
検索キーワードに「フリーウェア」を当たり前のように足しました。
大学関係のものが多いようで、
研究関連リンク集にまとめてのっていたのでがっつり。
日本語形態素解析システム
- 東京工業大学田中・徳永研究室:
形態素・構文解析パーザ (MSLR)
- NTT基礎研究所「すもも」
- NTT 情報通信研究所 (JTAG)
- NAIST Natural
Language Tools (ChaSen)
- 京都大学長尾研究室 (JUMAN)
- 富士通研究所 (Breakfast)
- 全文検索システム
freeWAIS-sf 日本語化情報
(形態素解析システム kakasi + わかち書きパッチの情報あり)
以上、研究関連リンク集より引用
ほとんどリンク切れなんですけど。
あとは…
MeCab (和布蕪)
freeWAIS-sf
ChaSen (茶筌)
Namazuかkakashiだけ使って単語分割のみを簡単にできるんだったら
それが一番いいかも。
参考になりそうな記事を。
あ、はてなブックマークできた。
これ便利いいな〜
誰でもリンクはれるんかな?
早速やってみよう。
もうひとつは
http://pukiwiki.sourceforge.jp/?PukiWiki%2FInstall%2Fxrea.com%2Fkakasi%E3%82%92%E4%BD%BF%E3%81%86
ただ単語分けたいだけなんで、
とりあえずPHP関数なんかにしやすそうなのがいいのですが、
どれにしたらいいんでしょうか?
うーーーん…