オーストロネシア諸語は、インドネシア語、マレー語、フィリピノ語、ハワイ語、ミクロネシア、ポリネシア、メラネシア、マダガスカルのマラガシ語(Malagasy)語を含む、マダガスカルからイースター島までの地域で使われる言語からなる語族である。大きく分けて、東オーストロネシア諸語(オセアニア諸語)、西オーストロネシア諸語に分類される。オセアニア諸語は、タヒチ語、トンガ語、フィジ語、モトゥ語、トラック語を含む。西オーストロネシア諸語は、タガログ語、マレー語、インドネシア語、ジャワ語、チャモロ語(北マリアナ諸島)、パラオ語(ベラウ)を含む。台湾のオーストロネシア諸語の帰属は、議論が分かれているという。
言語年代学(glottochronology)によると、東オーストロネシア諸語は、紀元前2、3000年から、西オーストロネシア諸語は紀元前1000年から分化したとされている。Otto Dempwolff によると、原始オーストロネシア語は、母音をaieu、子音をptTck bdDjg q mnnyng lrR hszZ wyとする CVCVC, CVCCVC形の語を持つ言語であるという。Andrew Pawley, Robert Blust によると、名詞から動詞へ派生、前辞、後辞によるアスペクトや態の指定、音節の繰り返しによる表現、否定詞、形容詞、数詞が動詞として使用される、人称代名詞が主格、所有格、目的格をとり、1人称複数に、聞き手を含むものと含まないものが区別されること、などを特徴とするとしている。
台湾のオーストロネシア諸語は、北部と中央部のものに大別され、北部では、アタヤルAtayal語、セーディクSeedik語、サイシヤットSaisiyat語が、中央部ではアミAmi語、パイワンPaiwan語、ブヌンBunun語、サオThao語などが使用されているという。カナブKanabu語、サアロアSaarpa語、ツォウTsou語などは、帰属が不明という。
西オーストロネシア諸語のいくつかに存在する、そり舌音は、サンスクリット経由だという。母音は、マアニャン語、マラガシー語で4つ、マライ語、バリ語で6つ、スンダ語で7つ、ジャワ語で8つあるという。
東インドネシア諸語は、マカッサル海峡からフォーヘルコップ半島にかけて使用されている言語で、ブギBuginese語、シジャイSidjai語、ドゥリDuri語、マンダルMandar語、ケンダリKendari語、ムナMuna語、ブトゥングButung語、シッカSikka語、エンデEndeh語、ソロルSolor語、ハヴHavunese語、スンバSumba語、アンボンAmbon語、ブリBuli語、ミニャフインMinyafuin語、ビガBiga語、アスAs語、ボンベライ半島・セラム半島の小言語群などが含まれるという。サレラ湾以西は帰属が不明という。
このような言語に対する資料はネット上に少ないため、英語での表記が欠かせない(検索のため)。表記のゆれがあり、マダガスカル語と、マラガシー語、マラガチー語は同じものである。
→ 講座言語 第6巻 (6) (単行本)
金曜日, 7月 20, 2007
月曜日, 7月 16, 2007
ハフマン符号
ハフマン符号という、「文字を数値化する」アルゴリズムがある。数値化する際に、01で表される符号の長さを「最大限に短くする」アルゴリズムである。符号の長さには、理論値というものがあり、その長さは情報の複雑さを表すエントロピーによって制限される。ハフマン符号化アルゴリズムでは、その最短の符号を計算することができる。
ハフマン符号化アルゴリズムは、通常、ツリー(木)と呼ばれる図で表されることが多い。文字の出現頻度によって、ツリーを構成していくという形をとる。この場合のツリーとは、二分木と呼ばれるもので、上からたどっていくと、「葉」の位置に配置された文字の符号が表現できるというものである。
この図はミシガン大学のサイトからお借りしたものであるが、頂点から末端まで、0・1と書かれた枝を追っていく。最終的に、Aにたどり着くまでには「100」、Eでは「0」、Iは「1011」、Oで「11」、Uで「1010」と、符号がツリーによって表現できていることが分かる。この符号(100,0,1011,11,1010)は、AEIUOの各文字を、重複なく表現できており、途中でどの文字であるか分からなくなる、ということがなく、一意に表すことができる。そして、この符号は、可能な限りでの符号のうちで、もっとも短いものである。
このツリーを構成するには、文字の出現頻度、つまり文字の使われる確率によって、ツリーの「バランス」を決めていかねばならない。すべての文字が、同じ確率で出現するのであれば、すべて同じ長さの符号を表すツリーを構成する。分布に偏りがあれば、よく使われる文字を短く、出現頻度の低い文字を長く符号化するように、ツリーを構成する。
ツリーの構成方法を正確に述べると、出現頻度の低い文字を「分岐」の左右に配置するということを繰返す、というものである。まず、出現頻度の低い文字を2つとり、ツリーを構成する。そして、そのツリーの合計値を新たな要素の確率値とし、再び、出現頻度のもっとも低い要素を2つとり、ツリーを構成する。このようにツリーを構成すると、常に出現確率の低い文字の符号が長くなる。
なぜなら、確率の低い文字は、先にツリーを構成しており、新たに出現確率の高い文字を加えた場合、その符号の長さは常に長くなっていく。だから、上段の文字の出現確率は、下段の文字の出現確率よりも、常に高い。新たに選択された文字は、ツリーより短いか同じ長さの符号を持つ。なぜなら、出現確率の低い要素が先にツリーをつくるからである。
ハフマン符号化には、静的アルゴリズムと、動的アルゴリズムがある。
ハフマン符号化アルゴリズムは、通常、ツリー(木)と呼ばれる図で表されることが多い。文字の出現頻度によって、ツリーを構成していくという形をとる。この場合のツリーとは、二分木と呼ばれるもので、上からたどっていくと、「葉」の位置に配置された文字の符号が表現できるというものである。
この図はミシガン大学のサイトからお借りしたものであるが、頂点から末端まで、0・1と書かれた枝を追っていく。最終的に、Aにたどり着くまでには「100」、Eでは「0」、Iは「1011」、Oで「11」、Uで「1010」と、符号がツリーによって表現できていることが分かる。この符号(100,0,1011,11,1010)は、AEIUOの各文字を、重複なく表現できており、途中でどの文字であるか分からなくなる、ということがなく、一意に表すことができる。そして、この符号は、可能な限りでの符号のうちで、もっとも短いものである。
このツリーを構成するには、文字の出現頻度、つまり文字の使われる確率によって、ツリーの「バランス」を決めていかねばならない。すべての文字が、同じ確率で出現するのであれば、すべて同じ長さの符号を表すツリーを構成する。分布に偏りがあれば、よく使われる文字を短く、出現頻度の低い文字を長く符号化するように、ツリーを構成する。
ツリーの構成方法を正確に述べると、出現頻度の低い文字を「分岐」の左右に配置するということを繰返す、というものである。まず、出現頻度の低い文字を2つとり、ツリーを構成する。そして、そのツリーの合計値を新たな要素の確率値とし、再び、出現頻度のもっとも低い要素を2つとり、ツリーを構成する。このようにツリーを構成すると、常に出現確率の低い文字の符号が長くなる。
なぜなら、確率の低い文字は、先にツリーを構成しており、新たに出現確率の高い文字を加えた場合、その符号の長さは常に長くなっていく。だから、上段の文字の出現確率は、下段の文字の出現確率よりも、常に高い。新たに選択された文字は、ツリーより短いか同じ長さの符号を持つ。なぜなら、出現確率の低い要素が先にツリーをつくるからである。
ハフマン符号化には、静的アルゴリズムと、動的アルゴリズムがある。
火曜日, 7月 10, 2007
エネループ
エネループという充電式の乾電池は、放電しないという。使い捨ての乾電池に比べ、充電式の乾電池が、「すぐ使えなくなる」ということがない、という。実際に商品のパッケージをあけて使ってみると、乾電池をそのまま使用することができた。
→ エネループ
エネループは人気商品らしく、ギフトセットまである。電圧が1.2Vと通常のアルカリ乾電池より低いため、使えない機器がある。純国産の製品だという。
→ エネループ/パナループ(緑パナ) 性能試験
日曜日, 7月 08, 2007
書籍検索サービス「Googleブック検索」、日本語版開始
書籍の全文検索が可能な、「Googleブック検索」が7月5日開始されたという。検索結果は、全文や一部で表示される。英文のほうが充実しており、「All art is quite useless.」と検索すると、「The Picture of Drian Gray」の全文が読める仕組みになっている。
→ 書籍検索サービス「Googleブック検索」、日本語版開始 (2007-7-5)
→ グーグルと慶應義塾 蔵書検索で提携 12万冊、世界に公開 (2007-7-8)
→ Googleブック検索
国会図書館では、「近代デジタルライブラリー」で、大正期の資料約7,200タイトル(約15,700冊)、明治期の資料約240タイトル(約270冊)のスキャン写真を公開している。
→ 近代デジタルライブラリー
→ 書籍検索サービス「Googleブック検索」、日本語版開始 (2007-7-5)
→ グーグルと慶應義塾 蔵書検索で提携 12万冊、世界に公開 (2007-7-8)
→ Googleブック検索
国会図書館では、「近代デジタルライブラリー」で、大正期の資料約7,200タイトル(約15,700冊)、明治期の資料約240タイトル(約270冊)のスキャン写真を公開している。
→ 近代デジタルライブラリー
登録:
投稿 (Atom)
Qt: 外部プログラムを起動する
Qt/C++ のアプリは、外部へ直接アクセスできます。これはネットアプリでは不可能な Qt のメリットです。 外部プログラムを起動することもできます。QProcess::startDetached() を使うと独立したプロセスを立ち上げることができます。 この QProces...
-
コンデンサマイク 極性があります コンデンサマイクがようやく届きました。モジュールではないのでそのままでは信号が弱いので使えません。信号を増幅する必要があります。 ちょっとした手間ですが、首尾よく動いてくれました。この回路の応用で、使えるマイクが出来ます。 ...
-
Flask/SQLAlchemy 使ってる方、jinja で困ってませんか? 本体で Python の関数を書いてもいいんですが、テンプレートでも関数が呼べます。 日付を出したい場合、フォーマットなら strftime() が使えます。 わざわざ文字列を作って渡す必...
-
PowerBuilder では Time, Date, DateTime などという型があります。 デフォルトの表示形式から変更する場合は String() 関数を使います。 String(Date('1/12/2016'),'yyyy-mm-dd...