金曜日, 7月 20, 2007

オーストロネシア諸語

オーストロネシア諸語は、インドネシア語、マレー語、フィリピノ語、ハワイ語、ミクロネシア、ポリネシア、メラネシア、マダガスカルのマラガシ語(Malagasy)語を含む、マダガスカルからイースター島までの地域で使われる言語からなる語族である。大きく分けて、東オーストロネシア諸語(オセアニア諸語)、西オーストロネシア諸語に分類される。オセアニア諸語は、タヒチ語、トンガ語、フィジ語、モトゥ語、トラック語を含む。西オーストロネシア諸語は、タガログ語、マレー語、インドネシア語、ジャワ語、チャモロ語(北マリアナ諸島)、パラオ語(ベラウ)を含む。台湾のオーストロネシア諸語の帰属は、議論が分かれているという。

言語年代学(glottochronology)によると、東オーストロネシア諸語は、紀元前2、3000年から、西オーストロネシア諸語は紀元前1000年から分化したとされている。Otto Dempwolff によると、原始オーストロネシア語は、母音をaieu、子音をptTck bdDjg q mnnyng lrR hszZ wyとする CVCVC, CVCCVC形の語を持つ言語であるという。Andrew Pawley, Robert Blust によると、名詞から動詞へ派生、前辞、後辞によるアスペクトや態の指定、音節の繰り返しによる表現、否定詞、形容詞、数詞が動詞として使用される、人称代名詞が主格、所有格、目的格をとり、1人称複数に、聞き手を含むものと含まないものが区別されること、などを特徴とするとしている。

台湾のオーストロネシア諸語は、北部と中央部のものに大別され、北部では、アタヤルAtayal語、セーディクSeedik語、サイシヤットSaisiyat語が、中央部ではアミAmi語、パイワンPaiwan語、ブヌンBunun語、サオThao語などが使用されているという。カナブKanabu語、サアロアSaarpa語、ツォウTsou語などは、帰属が不明という。

西オーストロネシア諸語のいくつかに存在する、そり舌音は、サンスクリット経由だという。母音は、マアニャン語、マラガシー語で4つ、マライ語、バリ語で6つ、スンダ語で7つ、ジャワ語で8つあるという。

東インドネシア諸語は、マカッサル海峡からフォーヘルコップ半島にかけて使用されている言語で、ブギBuginese語、シジャイSidjai語、ドゥリDuri語、マンダルMandar語、ケンダリKendari語、ムナMuna語、ブトゥングButung語、シッカSikka語、エンデEndeh語、ソロルSolor語、ハヴHavunese語、スンバSumba語、アンボンAmbon語、ブリBuli語、ミニャフインMinyafuin語、ビガBiga語、アスAs語、ボンベライ半島・セラム半島の小言語群などが含まれるという。サレラ湾以西は帰属が不明という。

このような言語に対する資料はネット上に少ないため、英語での表記が欠かせない(検索のため)。表記のゆれがあり、マダガスカル語と、マラガシー語、マラガチー語は同じものである。

講座言語 第6巻 (6) (単行本)

月曜日, 7月 16, 2007

ハフマン符号

ハフマン符号という、「文字を数値化する」アルゴリズムがある。数値化する際に、01で表される符号の長さを「最大限に短くする」アルゴリズムである。符号の長さには、理論値というものがあり、その長さは情報の複雑さを表すエントロピーによって制限される。ハフマン符号化アルゴリズムでは、その最短の符号を計算することができる。

ハフマン符号化アルゴリズムは、通常、ツリー(木)と呼ばれる図で表されることが多い。文字の出現頻度によって、ツリーを構成していくという形をとる。この場合のツリーとは、二分木と呼ばれるもので、上からたどっていくと、「葉」の位置に配置された文字の符号が表現できるというものである。



この図はミシガン大学のサイトからお借りしたものであるが、頂点から末端まで、0・1と書かれた枝を追っていく。最終的に、Aにたどり着くまでには「100」、Eでは「0」、Iは「1011」、Oで「11」、Uで「1010」と、符号がツリーによって表現できていることが分かる。この符号(100,0,1011,11,1010)は、AEIUOの各文字を、重複なく表現できており、途中でどの文字であるか分からなくなる、ということがなく、一意に表すことができる。そして、この符号は、可能な限りでの符号のうちで、もっとも短いものである。

このツリーを構成するには、文字の出現頻度、つまり文字の使われる確率によって、ツリーの「バランス」を決めていかねばならない。すべての文字が、同じ確率で出現するのであれば、すべて同じ長さの符号を表すツリーを構成する。分布に偏りがあれば、よく使われる文字を短く、出現頻度の低い文字を長く符号化するように、ツリーを構成する。

ツリーの構成方法を正確に述べると、出現頻度の低い文字を「分岐」の左右に配置するということを繰返す、というものである。まず、出現頻度の低い文字を2つとり、ツリーを構成する。そして、そのツリーの合計値を新たな要素の確率値とし、再び、出現頻度のもっとも低い要素を2つとり、ツリーを構成する。このようにツリーを構成すると、常に出現確率の低い文字の符号が長くなる。

なぜなら、確率の低い文字は、先にツリーを構成しており、新たに出現確率の高い文字を加えた場合、その符号の長さは常に長くなっていく。だから、上段の文字の出現確率は、下段の文字の出現確率よりも、常に高い。新たに選択された文字は、ツリーより短いか同じ長さの符号を持つ。なぜなら、出現確率の低い要素が先にツリーをつくるからである。

ハフマン符号化には、静的アルゴリズムと、動的アルゴリズムがある。

火曜日, 7月 10, 2007

エネループ




エネループという充電式の乾電池は、放電しないという。使い捨ての乾電池に比べ、充電式の乾電池が、「すぐ使えなくなる」ということがない、という。実際に商品のパッケージをあけて使ってみると、乾電池をそのまま使用することができた。

エネループ

エネループは人気商品らしく、ギフトセットまである。電圧が1.2Vと通常のアルカリ乾電池より低いため、使えない機器がある。純国産の製品だという。

エネループ/パナループ(緑パナ) 性能試験

日曜日, 7月 08, 2007

書籍検索サービス「Googleブック検索」、日本語版開始

書籍の全文検索が可能な、「Googleブック検索」が7月5日開始されたという。検索結果は、全文や一部で表示される。英文のほうが充実しており、「All art is quite useless.」と検索すると、「The Picture of Drian Gray」の全文が読める仕組みになっている。

書籍検索サービス「Googleブック検索」、日本語版開始 (2007-7-5)
グーグルと慶應義塾 蔵書検索で提携 12万冊、世界に公開 (2007-7-8)
Googleブック検索

国会図書館では、「近代デジタルライブラリー」で、大正期の資料約7,200タイトル(約15,700冊)、明治期の資料約240タイトル(約270冊)のスキャン写真を公開している。

近代デジタルライブラリー

Qt: 外部プログラムを起動する

  Qt/C++ のアプリは、外部へ直接アクセスできます。これはネットアプリでは不可能な Qt のメリットです。 外部プログラムを起動することもできます。QProcess::startDetached() を使うと独立したプロセスを立ち上げることができます。 この QProces...