easai's Get Technical page: 7月 2007

金曜日, 7月 20, 2007

オーストロネシア諸語

オーストロネシア諸語は、インドネシア語、マレー語、フィリピノ語、ハワイ語、ミクロネシア、ポリネシア、メラネシア、マダガスカルのマラガシ語（Malagasy）語を含む、マダガスカルからイースター島までの地域で使われる言語からなる語族である。大きく分けて、東オーストロネシア諸語（オセアニア諸語）、西オーストロネシア諸語に分類される。オセアニア諸語は、タヒチ語、トンガ語、フィジ語、モトゥ語、トラック語を含む。西オーストロネシア諸語は、タガログ語、マレー語、インドネシア語、ジャワ語、チャモロ語（北マリアナ諸島）、パラオ語（ベラウ）を含む。台湾のオーストロネシア諸語の帰属は、議論が分かれているという。

言語年代学（glottochronology）によると、東オーストロネシア諸語は、紀元前２、３０００年から、西オーストロネシア諸語は紀元前１０００年から分化したとされている。Otto Dempwolff によると、原始オーストロネシア語は、母音をaieu、子音をptTck bdDjg q mnnyng lrR hszZ wyとする CVCVC, CVCCVC形の語を持つ言語であるという。Andrew Pawley, Robert Blust によると、名詞から動詞へ派生、前辞、後辞によるアスペクトや態の指定、音節の繰り返しによる表現、否定詞、形容詞、数詞が動詞として使用される、人称代名詞が主格、所有格、目的格をとり、１人称複数に、聞き手を含むものと含まないものが区別されること、などを特徴とするとしている。

台湾のオーストロネシア諸語は、北部と中央部のものに大別され、北部では、アタヤルAtayal語、セーディクSeedik語、サイシヤットSaisiyat語が、中央部ではアミAmi語、パイワンPaiwan語、ブヌンBunun語、サオThao語などが使用されているという。カナブKanabu語、サアロアSaarpa語、ツォウTsou語などは、帰属が不明という。

西オーストロネシア諸語のいくつかに存在する、そり舌音は、サンスクリット経由だという。母音は、マアニャン語、マラガシー語で４つ、マライ語、バリ語で６つ、スンダ語で７つ、ジャワ語で８つあるという。

東インドネシア諸語は、マカッサル海峡からフォーヘルコップ半島にかけて使用されている言語で、ブギBuginese語、シジャイSidjai語、ドゥリDuri語、マンダルMandar語、ケンダリKendari語、ムナMuna語、ブトゥングButung語、シッカSikka語、エンデEndeh語、ソロルSolor語、ハヴHavunese語、スンバSumba語、アンボンAmbon語、ブリBuli語、ミニャフインMinyafuin語、ビガBiga語、アスAs語、ボンベライ半島・セラム半島の小言語群などが含まれるという。サレラ湾以西は帰属が不明という。

このような言語に対する資料はネット上に少ないため、英語での表記が欠かせない（検索のため）。表記のゆれがあり、マダガスカル語と、マラガシー語、マラガチー語は同じものである。

→ 講座言語第6巻 (6) (単行本)

月曜日, 7月 16, 2007

ハフマン符号

ハフマン符号という、「文字を数値化する」アルゴリズムがある。数値化する際に、０１で表される符号の長さを「最大限に短くする」アルゴリズムである。符号の長さには、理論値というものがあり、その長さは情報の複雑さを表すエントロピーによって制限される。ハフマン符号化アルゴリズムでは、その最短の符号を計算することができる。

ハフマン符号化アルゴリズムは、通常、ツリー（木）と呼ばれる図で表されることが多い。文字の出現頻度によって、ツリーを構成していくという形をとる。この場合のツリーとは、二分木と呼ばれるもので、上からたどっていくと、「葉」の位置に配置された文字の符号が表現できるというものである。

この図はミシガン大学のサイトからお借りしたものであるが、頂点から末端まで、０・１と書かれた枝を追っていく。最終的に、Ａにたどり着くまでには「１００」、Ｅでは「０」、Ｉは「１０１１」、Ｏで「１１」、Ｕで「１０１０」と、符号がツリーによって表現できていることが分かる。この符号（１００，０，１０１１，１１，１０１０）は、ＡＥＩＵＯの各文字を、重複なく表現できており、途中でどの文字であるか分からなくなる、ということがなく、一意に表すことができる。そして、この符号は、可能な限りでの符号のうちで、もっとも短いものである。

このツリーを構成するには、文字の出現頻度、つまり文字の使われる確率によって、ツリーの「バランス」を決めていかねばならない。すべての文字が、同じ確率で出現するのであれば、すべて同じ長さの符号を表すツリーを構成する。分布に偏りがあれば、よく使われる文字を短く、出現頻度の低い文字を長く符号化するように、ツリーを構成する。

ツリーの構成方法を正確に述べると、出現頻度の低い文字を「分岐」の左右に配置するということを繰返す、というものである。まず、出現頻度の低い文字を２つとり、ツリーを構成する。そして、そのツリーの合計値を新たな要素の確率値とし、再び、出現頻度のもっとも低い要素を２つとり、ツリーを構成する。このようにツリーを構成すると、常に出現確率の低い文字の符号が長くなる。

なぜなら、確率の低い文字は、先にツリーを構成しており、新たに出現確率の高い文字を加えた場合、その符号の長さは常に長くなっていく。だから、上段の文字の出現確率は、下段の文字の出現確率よりも、常に高い。新たに選択された文字は、ツリーより短いか同じ長さの符号を持つ。なぜなら、出現確率の低い要素が先にツリーをつくるからである。

ハフマン符号化には、静的アルゴリズムと、動的アルゴリズムがある。

火曜日, 7月 10, 2007

エネループ

エネループという充電式の乾電池は、放電しないという。使い捨ての乾電池に比べ、充電式の乾電池が、「すぐ使えなくなる」ということがない、という。実際に商品のパッケージをあけて使ってみると、乾電池をそのまま使用することができた。

→ エネループ

エネループは人気商品らしく、ギフトセットまである。電圧が１．２Ｖと通常のアルカリ乾電池より低いため、使えない機器がある。純国産の製品だという。

→ エネループ／パナループ(緑パナ) 性能試験

日曜日, 7月 08, 2007

書籍検索サービス「Googleブック検索」、日本語版開始

書籍の全文検索が可能な、「Ｇｏｏｇｌｅブック検索」が７月５日開始されたという。検索結果は、全文や一部で表示される。英文のほうが充実しており、「All art is quite useless.」と検索すると、「The Picture of Drian Gray」の全文が読める仕組みになっている。

→ 書籍検索サービス「Googleブック検索」、日本語版開始 (2007-7-5)
→ グーグルと慶應義塾　蔵書検索で提携　１２万冊、世界に公開 (2007-7-8)
→ Ｇｏｏｇｌｅブック検索

国会図書館では、「近代デジタルライブラリー」で、大正期の資料約7,200タイトル（約15,700冊）、明治期の資料約240タイトル（約270冊）のスキャン写真を公開している。

→ 近代デジタルライブラリー

easai's Get Technical page