2009年9月21日月曜日

割と調子良いかも。

コーパスを無視すように設定したAnthyですが、割と良い感じかも。
そんでも、まだ文節区切り時に妙な区切りをすることはありますが、なんぼかマシになった気がします。
たぶん、どこまで行っても、完璧は有り得ないので、このくらいで十分と満足すべきなんだと思うんですけどね。
ま、実際、このくらいきちんと変換できていれば、問題はないかなぁ。
しかし、こうなるとコーパスってどんだけの意味があったんだろうな、と思ってしまったり。
標準のアルゴリズムだと、コーパスあった方が精度が高いのかもしれませんが、万人に使用可能なコーパスってのは困難だと思うので、最初はバカでも使い込んで行くうちに学習結果が蓄積されて、手放せなくなるってのがいいと思うんですけどね。
初期の変換効率の良さはシステム辞書の語彙だとは思うんですが、ある程度使い込んで行くと、特に文節の区切り、よく使う文字、それらは使う人の個性に依存していくものなので、変換結果、学習結果の保持の方が、最大公約数的な辞書やコーパスを充実させていくよりも効率がいいんじゃないかと思うんですが。
ま、Anthyその物の開発は終了しているっぽいので、今後ってのはあんまし期待は出来ないのかも知れませんけど。次があるなら、その辺は考えて欲しいものですよね。

2009年9月20日日曜日

Ubuntu日本語フォーラム(沈静化?)

Ubuntu日本語フォーラムですが、最近は沈静化してきたような気もしますな。
荒らしとはもちろん違いますが、相変わらずの方もいらっしゃるようですけど。
善意って難しいんですよね。
善意を持った善行を行うことが、ってことですけど。
自分にとっての善行なら、そんなに難しくはないですよ。
言ってしまえば、ヒトラーだって、最初は自分の善意で、戦争を始めたんでしょ、ってことで。
難しいのは、自分が善意の善行だと思っている行いを、他人もきちんと認めてくれるか、ってことです。
認められない善行は、ある意味悪行よりたちが悪いというか。
悪行を行う人って、ある程度は、それが悪行と知って行うと思うんですよね。
でも、善行を行う人って、「自分にとっての善行」なので、悪意はちっともないんですよ。
結果的に他人にとっての悪行になったとしても、それを指摘されない限りは、悪行であったと気付けない。
なので、ある程度の多数にとっての善行ってのは難しいな、と。

困ってる人に手を差し伸べるのはもちろん悪いことではないので、それはどんどんやってよいと思うんですが、場の雰囲気を見定めることも必要なのかな、と。
以前にKYなんて言葉が流行りましたけど、フォーラムや掲示板なんかでも、そんなのは必要な能力なんだなぁ、なんて思ったりします。

文字だけの情報って、読まないと取捨選択が出来ないので、なるべく簡潔に短い方がいいんですよ。
フォーラムなんかの回答の場合、ベストは、「やることを箇条書き」だと思うんですね。
もちろん、そのように書いていらっしゃる方もいて。
きちんと相手に対しての思いやりを持てている人なんだなぁ、と思ったりしてましたが。
そうじゃなく、例えばワタクシのブログのように、話すように書く、方もいらっしゃいまして。
実は、問題解決のための書き方としては、あまり望ましくないんですねぇ。(笑)

相手が欲しているのは、おそらくは、「見て解る」ことなんだと思うんですよ。
読んで解る、ではなく。
なので、短く。簡潔に。相手に解る言葉で。が初心者相手の基本でしょうね。
相手は初心者だから、説明もしてあげよう、ってのは、まあ、気持ちは理解できますが、ある意味で「余計なお世話」になりがちなんです。
「やること」だけでもいっぱいあるのに、さらに「説明」までされてしまっては、相手に与える情報が多すぎて混乱の元になります。
この辺、うまい方もいて。
問題の対策は簡潔に伝えて、解決してから、なぜ解決出来たのかを説明してる方も。
これなら、あいても問題が解決した安心感から、説明を読んで理解しようとする気持ちの余裕が生まれるので、うまいやり方だと思いましたね。
まあ、駄文が長くなりました。

このまま、沈静化するといいんですけどねぇ。
Japanチームの人も大変だわ。

懲りもせず。

懲りもせずに、再度Anthyのコンフィグファイルなんぞを弄くってて見たり。
G-HALさんのサイトを再度読み直していたら、辞書の変更がある場合には、コーパスも作り直さないとならないらしい。Ubuntuでは、そもそも作り直してないみたいなので、コーパスを無視するように設定を変更してみた。
コーパスが与える影響がどのくらいあるのかは、ワタクシ自身解ってないので、この変更による影響は、ぶっちゃけどういう結果になるのか予測も何も出来ないのが正直なところ。
まあ、開発に関わってるわけでもなく、日本語変換に関してアルゴリズム的な知識があるわけでもないので、試行錯誤の連続になるのはある程度仕方ないのところではあるんですが。
そこそこ長い文節でも、今のところはきちんと切り直してくれるので、このレベルであれば問題はないのかな、と思うんですけどね。

まあ、ねぇ。実際、G-HALさんパッチを適用してから、辞書学習に間してはストレスは減ったなぁ。
標準でこのくらい辞書学習をしてくれて、きちんと保持してくれれば、いうことないんですけど。
今気がついたけど、口語的な変換がちょっと弱いのね。
口語の文節区切ろうとすると、たぶん区切りが見つからないんだろうなぁ。
一発というか、一つの文節として解釈しようとするから、そこそこ無理が出る、と。
まあ、なるほどな、って感じですけど。

もしかしたら。
この手の記事も本館の方に書いた方がいいのかも。
ま、自分用の備忘録である、という点と、パッチ適用結果の確認のために書いてるような内容なので、本館には不適かも。
う~ん。
この設定でOKかな。
これなら結構使えそう。
母艦と共有するか。
この設定だと、Atomではちょっと性能的に厳しいかもしれない。
以前の設定と比較して、ちょっと引っかかるような感じがあるので、変換時に結構CPUに負荷がかかってるものと思われる。
まあ、母艦の方はパワーは売るくらいあるので、あっちはこの設定でも全然問題ないか。
記事一本書いてみないと、文節区切りの結果に関しては解らないかも知れないなぁ。

2009年9月19日土曜日

だんだんと。

試し書き専用になってきたような。(笑)
G-HALさんのパッチの新しいのが出ていたので、ビルド。
例によって使い勝手は使い込まないと解らないので、今時点ではなんとも言えず。

ただ、前回パッチで思ったのが、使い込んで行くと変換時の文節の区切りが、惜しい所で切れているというか、一文字短かったり、長かったり、ということがあるな、と。
今回もその辺は変わらない感じがするので、附属語とかの問題があるのかも知れない。
とはいっても、これはパッチの問題ではなく、付属語辞書にパッチが当たらないので、組み込んでないワタクシの環境のせいがあるのかな、と思ってたりしますが。

そんでもノーマルAnthyよりはよほど変換にストレスがないので、ある程度の長文を書くにしても、MS-IME2000程度の使い勝手はあるように思えますけどね。
まあ、このままG-HALさんによる進化を続けるのか、いずれ誰かの手によって、この辺がうまい具合に取り込まれるのか。
ワタクシとしては、せめて学習結果の保持サイズと、その辺のアクセスの高速化くらいは取り込んで欲しいものだと思っていますけれどもね。

2009年9月6日日曜日

初心者フォーラムは必要か?

日本語フォーラムで議論になるかも知れないんですけどね。
あんまし、その手の議論には混ざらないようにしようかな、と考えてますけど。
まあ、JapaneseTeamの方々が考えて運用しているんでしょうし、「今トラブルになってるから」という理由で、「初心者」という看板を掲げたフォーラムを閉じるのは、やはり望ましくないだろうな、と。
内容が初心者向けじゃなくなってしまうなら、それは、議論に参加している人たちが問題なので、救いを求めてくる初心者が、「どこに投稿すれば回答が得られるか?」を悩まなくてよい、「初心者」フォーラムは必要なんじゃないかと思うわけで。

なので、今の初心者フォーラムのカオスっぷりは、むしろ(ワタクシを含めた)回答者に問題があるんじゃないのかな、と思ってます。

ひとつに、質問者が対応し切れないほどのアドバイス。
一件一件丁寧に試行錯誤していけば、確実に解決出来そうな話でも、(雰囲気的には)複数の回答者が我先に、とアドバイスを行い、そもそもどのアドバイスを実行していいのか、質問者側にも解らなくなるようなトピックが、結構あります。
ワタクシが読んでいても、さて、何から手をつければ、これは解決するのか?と思われるような多数のアドバイスがあったりして、これ初心者が取捨選択するのは厳しいんじゃないのかな、なんて思うような場面もありました。

誰かがアドバイスをして、質問者からのレスポンスがあり、その結果を受けて、また他の誰かが、って流れなら、質問者も混乱しないで済むと思うんですが、何故か複数の回答者が矢継ぎ早にアドバイスをしてしまうんですよね。
それと、似たような話かもしれませんが、最初に回答つけた人が、責任を持って質問者の面倒を見なくちゃならないような気持ちでいる方もいらっしゃるようで。
フォーラムって、もう少し自由な議論の場のイメージでいたので、トピックを仕切ろうとする回答者がいることに、結構違和感を覚えてたり。
#ワタクシとしては、質問者が他の回答者にお礼を言うのは普通の事として、質問者に対しての回答に、他の回答者がお礼を言うってのは、非常に違和感がありました。他の回答者の投稿が、自分の回答に対する明らかなフォローである場合には、まだ理解できるんですけど。
#正直、最初に、やんわりと「自分の縄張りを荒らすな」と主張されているような気がしました。(笑)

まあ、いろいろと思うところがあるなら、見ない、とか、参加しない、ってのが一番かとは思います。
仕事じゃないし、参加の義務もないし。
単に自分の趣味と気分で、解りそうなことだけ回答つけてるスタンスは変わらないんですが、Ubuntu人口が増えてるせいか、フォーラム運営も困難なんだろうな、とは思います。

それと、ある方の投稿で、これはワタクシも含まれるのかな、と思ったのが、「上級者きどりの馴れ合い」って言葉があり。
ワタクシとしては、馴れ合ったつもりも、上級者気取りもないようにしてたつもりなんですが、他所から見れば、そう見える場面もあったのかも知れないなぁ、なんてね。(笑)
#ある意味笑い事じゃないのか。

上級者とか、中級者とか、あるいは初心者とか。
切り分けが難しい点でもあると思うんです。
Linux試験もあるそうなので、それをクリアすれば上級者とか、明確な区分があれば、もしかしたら、このフォーラムには、上級者しか回答しちゃダメなんて制限もつけられるのかも知れませんけど。
まあ、そうはならないし、あるOSの上級者って、特に全般多岐に渡りなんでも解る人なんて、限られてるんじゃないかと思うんですよね。
なので、多くは「初心者に毛が生えたレベル」じゃないかと思ってるんですが。
#もちろん、エキスパートが存在する事は否定しませんが。
もしかしたら、質問されている方々の意識では、それらの回答している人は、すべて「上級者」という思いがあるのかも知れません。
そうすると、ある意味便乗質問に近い形で展開される回答者同士での試行錯誤のやりとりが、前述の「上級者気取りの馴れ合い」に見えるのかもしれないなぁ、なんて思ったりしてますけどね。

質問する側に、「回答する方も決してエキスパートではない」というのを理解してくれというのは、もしかしたら難しいのかも知れませんが、メーカーのサポートではないので、そういう相互扶助の場であることを理解して、お互いに考えながら、フォーラムを構築して行かないと、将来的に有用な情報が集まった場所、にはならない気がしますよね。

さて、ワタクシも気をつけますかね。

2009年9月3日木曜日

いやぁ。

驚くほどアクセスありませんな。(笑)
宣伝もしてないから当然なんだけど。
本館の方にリンク作れば、アクセスは増えると思うけど、こっちはそういう目的で書いてないしねぇ。
ま、こっそりと、ひっそりと。
適当なことを書いとく方なので。(笑)

G-HALさんパッチの新しいのが出てる。

さっそくダウンロードして、ビルド。
ビルドはメインマシン環境に構築してあるので、パッチ名を書き換えるだけでOK。
メインマシンはamd64なんで、i386の環境は、別途仮想環境に作成済み。
amd64で正常にビルド可能なことを確認して、i386版も作成。

一応、現在アスワンで運用中だけど、問題なくビルド版を使用してます。
例によってこればっかりは使い込んでみないとなんとも言えないんだけど、ちょっと妙な文節区切りがあったので、この辺改善されているといいな、と思ってますが。

文節区切りの癖は、なかなか覚えないのかも知れませんけど。

さて、改善となりますか、それとも新たな問題が発生するのか。
楽しみといえば楽しみ。

そういう意味では、9.10が出てしまうと、この辺も必ずビルドになるんだなぁ。
ちと面倒かも。
で、たぶん、こうしてカスタムメイドは使われなくなるんだよね、きっと。(笑)