約 468,459 件
https://w.atwiki.jp/meruneru/pages/20.html
待ち行列モデル(平成24年春期 午前2問目) 待ち行列モデルは、銀行のATMに並ぶ顧客の列,レジに並ぶ顧客の列などのように順番待ちの行列を確率モデル化したものです。情報処理の分野ではトランザクションがサーバ処理を待つケースなどがあり、システムの性能評価の1つとして待ち行列モデルを用いて「待ち時間」や「待ち行列」の長さなどの計算を行うことがあります。 「M/M/1」の部分はケンドール記号という確率分布記号を用いて 到着分布/サービス時間分布/窓口の数 の組合せでモデルを表現します。「M」はMarkovianの略で到着がポアソン分布となるランダム型,到着間隔は指数分布に従うことを表しています。 確率分布には次のように離散型と連続型があります。 離散型確率分布 サイコロを投げた時に出る目の数字(1,2,3…)など確率変数が不連続(離散)の場合の確率分布。 連続型確率分布 時間や距離など確率変数が連続している場合の確率分布。 M/M/1の待ち行列モデルにおいては、到着率は確率変数(人数)が離散値なので離散型確率分布の「ポアソン分布」,サービス時間分布は確率分布が連続値(時間)なので連続型確率分布の「指数分布」ということを覚えておきましょう。 キャッシュメモリのマッピング イレクトマップ(マッピング) キャッシュメモリへの割付方式のひとつで、主記憶のアドレスにハッシュ演算を行い、その結果から対応するキャッシュメモリのアドレスを算出します。ハッシュ演算で計算するので主記憶のアドレスとキャッシュメモリのアドレスが1対1で対応します。 フルアソシアティブ 主記憶のブロックが、キャッシュメモリのどのブロックにも対応付けられる方式です。 ハッシュ演算の結果によらずどこにも書き込めるので、キャッシュメモリの使用率が向上にしますが、ダイレクトマッピングよりも計算にかかるオーバーヘッドが増加し、システムの仕組みを複雑になってしまうデメリットもあります。 セットアソシアティブ 連続したキャッシュブロックをセットとしてまとめ、その中であればどこのブロックでも格納できるようにした方式です。 ダイレクトマッピングでは、ハッシュ関数で算出されたブロックに既にデータが存在する場合には追い出しが発生しますが、セットアソシアティブでは、一つのセットに複数のブロックがあるので追い出しをしなくてもデータを格納できます。 詳しく スーパースカラ 複数のパイプラインを用いて,同時に複数の命令を実行可能にすることによって高速化を図る方式である。 詳しく
https://w.atwiki.jp/merorpg/pages/26.html
・メロの種類 現在10種類のメロが確認されている。 初期段階では3種類の中からしかメロを選べないが、 世代交代をし、多くのメロを育てることで 選択肢を増やすことができる。 追加される世代一覧 初期 メロリン、モフモフ、メロッチョ 二代目~ ピースバット、ニョロロ 三代目~ ヒッキーマッキー 四代目 ぺト、ポロリ 五代目 マシュー、ベヤー ・模様について ある成長段階になると、メロに模様やパーツが現れる。 たくさんの色や模様、パーツの種類があるため、 自分のほかのメロと同じになる確率は低い。
https://w.atwiki.jp/adventurer/pages/19.html
距離や時間などの連続変数に対応した確率分布の指標は積分で簡単に求まる。 一方で、大当たり回数を変数とした離散変数に対応した確率分布の指標は級数の和を計算することになります。
https://w.atwiki.jp/tkonishi73/pages/349.html
2.5 準備その3:余事象・和事象・積事象・排反事象 全事象(オメガ)=起こりうるすべての結果の集合 空事象(ファイ)=決して起こらない事象 余事象=事象に対して、が起こらない事象 事象が起こる確率(probability)をとかく。 ={サイコロの目が偶数} のとき、の余事象={サイコロの目が奇数} 和事象 かの少なくとも一方が起こる 積事象 との両方が起こる とは排反(disjoint)である のとき 2.6 相互排反性と加法定理 加法定理 事象、に対して 例 サイコロを1個ふり、出た目を調べる ={3以下の目}={1,2,3}のとき ={偶数の目}={2,4,6}のとき 以上により、 特に、とが排反であれば、で、 より、加法定理より、 2.7 事象の独立性と乗法定理 独立である 関連(関係)が無い 従属である 関連(関係)がある 条件付き確率 =事象が起こったもとでが起こる確率 とが独立である 乗法定理 特に、とが独立であれば、 2.8 確率とは何か 先験的確率=実験によらないで確率を求める サイコロを1回振って「3」の目が出る確率は、どの目の出る割合も等しい(はず)だから、「6分の1」になる。 実験的確率=実験の結果として得られる極限値 ●降水確率は実験的確率で求められる。 公理論的確率=テキストp.41のように決める(確率論)
https://w.atwiki.jp/matsudai/pages/15.html
4.2 大数の強法則 試行を繰り返していけば,その確率変数の統計的な値は理想的な,数学的な値に収束していく.これを大数の法則の法則と言う. 弱法則が確率収束に,強法則が概収束に対応する. 定義(上極限,下極限) これらをそれぞれ上極限,下極限と言い,前者にωが含まれる場合,ωを含むA_nが無限個存在する事を意味し,下の場合はωを含まないA_nがたかだか有限個である事を意味している. ちなみに,nが有限の場合は下極限の方が広い集合を言っている. 定理(Borel-Cantelli lemma) A_1,A_2,...を事象の系列とし, とおく,この時 (1)ならばP(B)=0. (2)事象A_1,A_2,...が独立でかつ であればP(B)=1 定理(4次モーメントの存在を仮定した大数の強法則・概収束) X_1,X_2,...を独立に同一の分布に従う確率変数列とする.X_iの分布の4次モーメントは有限である仮定し,期待値と,分散をそれぞれμ,σ^2とおく.このとき 5 確率分布の弱収束 定義(弱収束,または分布収束,法則収束) P_n(n=1,2,...),PをそれぞれR^k上の確率測度とする.R^k上の任意の有界連続関数fに対し, が成立するとき,P_nはPに弱収束とか分布収束だとか法則収束するとか言う. 定理(Fが収束する=Pが弱収束) P_n(n=1,2,...),PをそれぞれR^k上の確率測度,F_n,Fをそれぞれに対応する分布関数とする.Fの任意の連続点xにおいて が成立する事はP_nがPに弱収束する為の必要十分条件である.
https://w.atwiki.jp/umaumablog/pages/12.html
馬券にはいくつかの種類があります。予想をして馬券を購入する参考にして下さい。 馬券の種類は全部で下記の8種類です。 ・ 単勝 ・ 複勝 ・ 枠連 ・ 馬連 ・ ワイド ・ 馬単 ・ 三連複 ・ 三連単 では、それぞれの馬券の詳細を説明します。 18頭立てのレースの場合での組み合わせと的中確率も記載しています。 【単勝】 『1着になる馬を選ぶ』・・・18通り・確率5.56% 1番単純な馬券ですね。選んだ馬が1着になれば的中です。 【複勝】 『3着以内に入る馬を選ぶ』・・・18通り・確率16.68% 選んだ馬が、3着以内に入っていれば的中です。馬券の中ではもっとも的中する確率が高い馬券です。しかし、当て易い分配当が1番低くなるのがこの馬券です。 【枠連】 『1着と2着に来る馬の出走枠を当てる』・・・36通り・確率2.78% 競馬では出走する枠が決まっていて基本的に1枠から8枠の構成になっています。 枠を2つ選んで(ゾロ目でもOK)、選んだ枠に入ってる馬が1着と2着にくれば的中。 【馬連】 『1着と2着になる競走馬の組み合わせを選ぶ(着順は予想しなくてOK)』・・・153通り・確率0.65% 1着と2着になる馬を予想します。着順は当てなくても良いので、選んだ2頭の組み合わせが1着と2着なら的中。 【ワイド】 『1着~3着に入る競走馬2頭の組み合わせを選ぶ(着順は予想しなくてOK)』・・・153通り・確率1.96% 2頭の組み合わせを選んで、その競走馬が1着~3着に入れば的中。つまり1着と2着or2着と3着or1着と3着、の馬を当てるということ。 【馬単】 『1着と2着になる競走馬の組み合わせを着順通りに選ぶ』・・・306通り・確率0.32% 「馬単」と同じで1着と2着の馬の組み合わせを予想しますが、「馬単」は着順も当てないといけません。 例えば馬単で②→⑥の馬券を買って、⑥番の馬が1着、②番の馬が2着の場合は不的中となってしまいます。⑥→②なら的中です。 【三連複】 『1着、2着、3着になる競走馬を選ぶ(着順は予想しなくてOK)』・・・816通り・確率0.122% 1~3着までの馬を3頭を予想します。着順は予想しません。 【三連単】 『1着、2着、3着になる競走馬を順番通りに選ぶ』・・・4896通り・確率0.02% 1~3着までの馬3頭とその着順を予想します。これが馬券の中でもっとも的中させるのが難しい馬券です。でもその分配当は高いです! マークシートで馬券を購入するときは 競馬場やウインズでは「マークシート」に記入して馬券を購入します。 マークシートは馬券の買い方によって異なるものを使うのでマークシートの種類をお知っておきましょう。 【ボックス】・・・枠連、馬連、馬単、ワイド 選んだ馬のすべての組み合わせを買うこと。 例えば馬連のマークシートで①②③を塗りつぶと、①-②、①-③、②-③を購入できる。ワザワザ同じ番号を何度も塗らなくて済みます。 【ながし】・・・馬連、馬単、ワイド 必ず買う軸馬を決めて、相手馬を選んで買う。 例えば馬連で、①番の馬は必ず来ると予想して、もう1頭は②③④⑤のどれかと予想下とします。 その場合、①-②、①-③、①-④、①-⑤とマークシートをつけるのは面倒です。 しかし、ながしで買うと、①ながし②③④⑤を塗りつぶせば、予想した買い目が購入できます。 【フォーメーション】・・・枠連、馬連、馬単、ワイド、3連複、3連単 買い目が多くなりやすい三連単で使うことがほとんどだと思います。 とっても便利です。 例えば、①→②→③、①→④→③、①→⑤→③の馬券を購入したい時。 1着-① 2着-②④⑤ 3着-③ をマークカードで塗ればOK。 1着と予想した馬、2着と予想した馬、3着と予想した馬の組み合わせ全部を購入する買い方です。
https://w.atwiki.jp/mechwarrior5japan/pages/111.html
MISSION TYPE(契約の種類) 紛争地域で受ける事ができる契約の種類 MISSION TYPEによって依頼の目的(ゴール)が異なる Battlefield Contract(戦場) 規定数の敵を撃破する。 War Zone Contract(戦場) 規定数の敵を撃破する。 Targeted Kill Contract(標的殺害・暗殺) 目標対象の撃破。対象は敵メックだが、1体とは限らず複数体の場合もある。 Raid Contract(襲撃) 対象施設の破壊。対象はアンテナ等の1施設のみだが、複数の基地に散在している事が多く、行軍距離が長いケースが多い。 Scorched Earth Contract(焦土作戦) 指定された敵拠点の耐久値を0%にする。60t以上のメックなら、接触で壊せる建造物の種類が増えるので少し楽になる。 開始直後から迫撃砲攻撃を受けるケースもある。迫撃砲の破壊を狙うと行軍距離が長くなる。 Demolition Contract(解体) 指定された敵拠点の耐久値を0%にする。60t以上のメックなら、接触で壊せる建造物の種類が増えるので少し楽になる。 Garrioson Duty Contract(駐屯任務) 敵の襲撃から拠点を防衛する。拠点耐久値0%もしくは自軍の全滅で失敗。全ての敵を倒した時点でクリアなので帰還ポイントまで移動しなくていい。「ギャリソン義務」と表記される事もある。 Defence Contract(防衛) 敵の襲撃から拠点を防衛する。拠点耐久値0%もしくは自軍の全滅で失敗。全ての敵を倒した時点でクリアなので帰還ポイントまで移動しなくていい。 Beachhead Contract(橋頭保) 初心者は避けるべき依頼その1 まずは指定拠点の敵をせん滅し、次に奪還を目指す敵が襲撃してくるので、これを退けつつ一定時間拠点内に敵がいない時間を確保する必要がある。かなりの確率で敵迫撃砲による支援砲撃にさらされる事になり、登場する敵も多い。特に迫撃砲が非常に厳しく、同じ難易度帯の中でも他の種類より明らかに難しい事が多い。 Multiple Mission Operation(複数の依頼) 初心者は避けるべき依頼その2 2~4つの任務を順次こなす依頼。全てを完了するまで星間移動はできず、各任務の間の日数には制限がある。つまり、損傷したメックの修理や負傷者の治療は現地で行わねばならず、次の出撃までに完治しない場合は損傷したまま出撃するか別の機体を使わねばならない。要するに長丁場になるので戦力が十分揃ってない段階では厳しい。とりあえず、パイロット4人&機体4機が揃った程度の段階では避けるのが無難。重量制限に合致したメックを12~16機くらい揃えられるようになってから挑戦するのが無難。 Infiltration Mission(潜入任務) 敵陣に潜入して情報収集や物資調達する。敵メック情報はターゲットロックする事で情報収集扱いになる。発見されない限り戦闘無しで完了する事もあり得る。特徴として他ミッションに比べて敵の索敵能力が甘い。また、発見されても一定時間以内に発見者を撃破すれば潜入状態に戻る。 Campaign ミッションやキャンペーン用に用意された特別な依頼。
https://w.atwiki.jp/prml_note/pages/14.html
第二章 確率分布 2.1節 ベルヌーイ分布 コインの表と裏のようなバイナリな事象の確率分布 平均・分散 i.i.d仮定の下での尤度関数は 頻度論者は尤度関数の最大化問題を解くことによってパラメータを推定する。 この対数尤度関数は観測データに対してその和を通じてのみ依存しており、この和は十分統計量(sufficient statistic)の一例となっている。 最尤推定量(すなわち標本平均(sample mean))は 二項分布(binomial distribution) 二項分布の共役事前分布(conjugate prior distribution)はベータ分布 ベータ分布の平均・分散 以上より、のデータ数、のデータ数とした場合、の事後分布はベータ分布の事前分布と二項分布の尤度関数との積に比例する、すなわち これは事前分布と同様のベータ分布となっており、事前分布を二項分布の尤度関数と共役な性質を持つように選択したことの結果である。正規化定数も含めると上の式は ベイズ更新による学習によれば、データを一個ないし少数のかたまりに分割して処理することができる利点がある。(連続的(sequential)アプローチ) データセットを観測した直後にとなる予測分布は [この本の欠点の一つは、予測分布を定義する前に2回もこれを使っていること。] とするとこの結果は最尤推定量に近づく。 ベイズ学習を重ねるごとに事後分布の分散は平均としては小さくなっていく。 2.2節 多項分布 k通りのうちの一つが実現する場合の分布 ()内はについての十分統計量。上の式の対数をとってラグランジュの未定乗数法により これをについて偏微分して0とおいて解くと、最尤解 多項分布(multinomial distribution) 多項分布のパラメータについての共役事前分布がディリクレ分布(Dirichlet distribution) 多項分布の事後分布を事前分布をディリクレ分布として得る 2.3節 正規分布(Gaussian Distribution) 連続エントロピーを最大化する確率分布は正規分布 中央極限定理(central limit theorem) 一定の緩やかな条件の下では、複数の確率変数の和は項数が増えるにつれて正規分布に近付く。したがって二項分布の試行回数を増やしていくと正規分布に近付く。 以下、多次元の正規分布 についてみる。 ととのマハラノビス距離(Mahalanobis distance)の二乗は 正規分布はこの二次形式が空間における平面について一定であるような平面上で一定となる。 が単位行列の場合はユークリッド距離となる。なお、は対称行列としてよい。の固有値、互いに直交する固有ベクトルを使って書くと ここでは、元の座標について平行移動および回転された直交ベクトルによって定義される新たな座標系と見ることができる。 とすると、は直交行列。 のすべての固有値が正であるとき、この二次形式はその平面は中心が、その軸がに平行で、各軸についてのスケールがな楕円を描く。 すべての固有値が正となる行列を正定値(positive definite)行列、非負の場合を半正定値(positive semidefinite)行列という。正規分布の場合、その共分散行列の固有値がすべて正でないときは正しく正規化されない。固有値のうちの一つまたはそれ以上が0である場合にはその分布は特異分布となり、より低次元の空間に限定されることになる。 で定められる新たな座標系への変換のためのヤコビアンはこの場合1となる。また、は対称行列だから、その行列式は固有値の積に等しい。以上よりによる正規分布は以下のように個の独立した一変数正規分布の積の形になる。 多変数正規分布の平均 二次モーメント 共分散 共分散行列は計算量軽減のために対角行列に、さらに等方的なに代替させることができるが、その代償にモデルの自由度を低下させる。 正規分布の単峰性は柔軟性に欠けるが、潜在変数(latent variables)を導入することによってこれを改良しうる。離散潜在変数の導入により複数の正規分布の混合が可能になり、連続潜在変数の導入によりデータセットの次元と独立に自由パラメータ数を制御することが可能となる。マルコフランダム場(Marcov random field)、線形力学系(linear dynamical system)など。 条件付正規分布(conditional Gaussian distribution)と周辺正規分布(marginal Gaussian distribution) 多変数の同時確率分布が正規分布なら、条件付確率分布も正規分布となる。このとき、それぞれの変数についての周辺確率分布も正規分布となる。 分割された正規分布(データセットを二分割した) 正規分布でとし、およびを以下のように分割する。 共分散行列 精度行列 この場合、条件付確率分布は (これはの線形関数) 周辺確率分布は 正規線形モデル(linear Gaussian model) 、の二変数での周辺確率分布、が所与の場合のの条件付確率分布をそれぞれ とすると、の周辺確率分布およびが所与の場合のの条件付確率分布はそれぞれ 逐次推定(sequential estimation) 同時確率に支配される二つの確立変数およびを考える。が与えられたときのの条件付期待値(回帰関数(regression function)) ロビンス・モンローのアルゴリズム(Robbins-Monro algorithm)によってとなるようなを逐次的に求める。 係数が次の三条件を満たすとき、上の推定量は確率1で根に収束する。 正規分布におけるベイズ推定 分散が既知として平均を推定する。尤度関数は これはについての二次形式の指数関数だから、共役事前分布は正規分布とするのが適切。事前分布を とすると、事後分布は ただし (2.141)から、事後分布における平均は事前平均と最尤解との合成であることが分かる。観測データ数が0なら、(2.141)は事前平均に等しくなり、なら事後分布平均は最尤解によって与えられる。 (2.142)から、事後分布における分散の逆数(すなわち精度)は事前精度に観測された各データの精度を加えたものであることが分かる。データ数が増えるとそれにつれて精度は大きくなり、分散は小さくなってゆく。事後分散は、なら事前分散に等しくなり、なら0に近づき、事後分布は最尤解の周辺で無限に極大となる。 逐次推定の観点から書き直された事後分布 平均が既知として分散を推定する。とするとについての尤度関数は以下のような形になる。 これに対応する共役事前分布は、の乗数との線形関数の指数関数でなければならないから、ガンマ分布が適切となる。 ガンマ分布 ここでは(2.146)が正しく正規化されることを保証する。ガンマ分布はの場合に有限な積分を持ち、のとき分布じたいが上に有界となる。 ガンマ分布の平均・分散 いま事前分布をガンマ分布とすると事後分布は以下に比例する。 ただし (2.150)によれば個のデータを観測するとパラメータはずつ増加することが分かる。すなわち、事前分布におけるパラメータは個の有効なデータを既に観測した状態に等しいものと考えることができる。同様に(2.151)から、個のデータを観測するとパラメータはずつ増加することが分かる。すなわち、事前分布におけるパラメータはの分散を持つ個の有効なデータを既に観測した状態に等しいものと考えることができる。 このように指数分布族に属する確率分布についてその共役事前分布のパラメータを仮想の有効なデータ観測の効果に置き換えて見る考え方は一般的なもの。 精度で考える代わりに分散のままで考えた場合、共役事前分布は逆ガンマ分布(inverse gammma distibution)と呼ばれる。 平均および分散の両方が未知であるとする。 尤度関数は 共役事前分布は以下のような形をとらなければならず、 したがって正規化された事前分布は次のようなものになる(正規-ガンマ分布)。 多変数の場合 精度が既知の場合の共役事前分布は正規分布となる 平均が既知の場合の共役事前分布はウィシャート分布(Wishart distribution)となる を分布の自由度(degree of freedom)という。 1変数の場合同様、精度行列の代わりに共分散行列について共役事前分布を定義することもでき、その場合には逆ウィシャート分布となる。 平均および精度の両方が未知の場合には共役事前分布は次のような正規-ウィシャート分布となる。 スチューデントのt分布(student s t-distribution) は自由度と呼ばれ、のときスチューデントのt分布はコーシー分布に帰着し、のとき平均、精度の正規分布となる。 スチューデントのt分布は同じ平均と異なる精度を持つ無限個の正規分布を加算することで得られるため、一般に正規分布よりも長い尾を持つ。これがスチューデントのt分布に頑健性(robustness)、すなわち異常値が存在してもそれらにあまり影響されない性質を与えている。頑健性は回帰問題においても重要で、例えば最小二乗法は条件付正規分布の最尤法と同等なため、このような頑健性を持たない。回帰モデルをt分布のようなより尾の長い分布に基づかせることによってより頑健なモデルを得ることができる。 多変数のスチューデントのt分布 周期的変数(periodic variables)を扱う場合、原点をどこに取るかが問題となるが、このような場合には極座標を用いる。正規分布を極座標に一般化したものをフォン・ミーゼス分布(von Mises distribution)という。 (は集中パラメータ(正規分布の精度と同様)、は次第一種ベッセル関数) 周期的変数に対処する他の方法として、極座標を固定幅で分割したヒストグラムを使用することも考えられる。この手法は簡単で柔軟だが、ヒストグラムに内在する限界によって制限を受ける。ほかには、単位円内に制限するフォン・ミーゼス分布とは異なり単位円上に周縁化を行う方法もあるが、分布が複雑になる。座標を対応させる方法もあるが、これも分布が複雑になる。フォン・ミーゼス分布の短所としては、単峰的であることが挙げられるが混合によってそれを補うことも可能。 正規分布の混合 混合分布(mixture distribution)とは複雑な分布をより単純ないくつかの分布の線形結合に還元して構成する。これにより、複雑な分布に対して任意の精度での近似を与えることが可能になる。 正規分布の混合 個々の正規分布は混合の構成要素(component)と呼ばれ、は混合係数(mixing coefficients)という。 2.4節 指数分布族 指数分布族(exponential family) ここでは分布の自然パラメータ(natural parameter)と呼ばれる。はの関数。 ベルヌーイ分布を指数分布族の一般形に変形すると、 したがって、 これをについて解くと ロジスティック・シグモイド関数(logistic sigmoid function)となる。これを用いてベルヌーイ分布を書き直すと、 すなわち(2.194)において の場合がベルヌーイ分布。 多項分布 指数分布族の標準形に書き直すと すなわち(2.194)において の場合が多項分布。 単変数正規分布は 指数分布族の分布を正規化できれば簡単な微分によってモーメントを得ることが出来る。 など (2.194)の指数分布族においてベクトルを最尤法を用いて推定することを考える。i.i.d.なデータについて尤度関数 はその最尤解において停留点。よって これを見ると、最尤推定量はという量のみを通じてデータに依存していることが分かる(十分統計量(sufficient statistic))。 事前分布による事後分布に対する拘束を最小限にとどめるために無情報事前分布(noninformative prior)を利用することがある。 はパラメータによって制御されている場合、事前分布としてとしたい。 が個の状態を有する離散変数の場合は、各状態の確率が等しくとなるように設定するだけだが、が連続の場合には二つの問題が生ずる。一つは、の定義域が有界でないときにはその積分は発散するため、インプロパー(improper)と呼ばれる。実際上、インプロパーな事前分布は対応する事後分布がプロパー(proper)(すなわち正しく正規化されうる)であることを条件に使用される。もう一つは非線形な変数変換による確率密度関数の変化(ヤコビアン)。 たとえば は並進不変性(translation invariance)を持つ(を位置パラメータ(location parameter)という。正規分布の平均は位置パラメータの例)。また、 はスケール不変性(scale invariance)を持つ(をスケールパラメータ(scale parameter)という。正規分布の分散はスケールパラメータの例)。 2.5節 ノンパラメトリックな手法 ノンパラメトリックな手法(nonparametric methods)とは、確率分布のパラメータを決定することなく観測データからxに対応する確率密度を推定する手法。 ヒストグラム法は、定義域を固定幅のビンに分割しそこに落ちるデータ数をグラフで表したもの。データを簡易に視覚化でき、いったんヒストグラムを構築した後はデータを捨てることが出来るので巨大データセットや連続するデータセットを扱うのには利点があるものの、多くの場合密度推定には不向き。連続変数がビンによって不連続にされるうえ、多変数の場合にはビンの数が爆発し、次元の呪いにより有意義な推定を行うことが非常に困難になる欠点がある。 密度推定にはある種の近傍、つまりは距離の概念が必要だということと、よい結果を得るためには平滑化のためのパラメータ(ヒストグラム法の場合にはビンの幅)は適切な値が選ばれなければならないということが分かる。 カーネル密度推定 ある未知の確率分布に従って抽出されたデータ集合があるとする。十分に大きな個のデータについて十分に小さな領域(その幅をとする)に落ちるデータ数をとすると、 という関係が成り立つ。ここでを固定してを求めるのがK最近傍法、逆にを固定してを求めるのがカーネル法だといえる。K最近傍密度推定もカーネル密度推定も同じ真の確率密度関数に収束する。 カーネル密度推定(kernel density estimation)は、各データ点上のカーネル関数を総和したものをデータ数で割る。 パルツェンの窓(Parzen window)はデータ点を中心とした立方体を領域とするカーネル関数。これを使用した場合、における推定密度は (は一辺の長さがの次元超立方体の体積)パルツェンの窓はヒストグラムと同様に各カーネルが不連続。 より平滑な密度モデルとしてガウスカーネルを使った場合、 はガウスカーネルの標準偏差であり、平滑化パラメータとして機能する。カーネル密度推定法の欠点は、データの密度に関わらず平滑化パラメータが一様であるため、データが密集している領域では過剰に平滑化されて特徴が失われ、データがまばらな領域ではノイズに影響されやすくなる傾向がある。 最近傍法(nearest-neighbour method) 固定の領域幅の代わりに、k個のデータ点が含まれる近傍ごとに区切る(k近傍法)。kが小さすぎるとノイズが多くなる。k近傍法で得られる関数はその積分が発散するため、真の確率密度関数ではない。 k近傍法はクラス分け問題に拡張して適用することができる。ある新データ点の帰属先クラスを決定するのに、近傍のk個の既知データのうちの最多数が帰属するクラスを選択する。の場合、すなわち最も近くの既知データと同じクラスに分類する方法を最近傍法(nearest-neighbour)という。最近傍法の誤り確率は十分に大きい標本数Nについて真のクラス分布を使用した最適なクラス分けによって達成しうる最小の誤り確率の2倍を超えないという特質が知られている。 カーネル密度推定法およびk近傍法は全ての学習データを保存しておく必要がある。データを探索木化しておくことも計算量を減らすのに役立つが、これらノンパラメトリックな手法の有効性はごく限られている。
https://w.atwiki.jp/novpat/pages/35.html
ここでは、パターン認識や回帰分析の研究をするにあたって基礎となる機械学習と決定理論について、知っておくべき事項を簡単まとめる。 目次 機械学習 最尤法 ベイズ推定法 MAP推定法(最大事後確率推定法) ヒストグラム密度推定法 カーネル密度推定法 最近傍法 モデル選択 交差確認 周辺尤度最大化 決定理論 識別率最大化法 期待損失最小化法 棄却オプション ベイズの定理 参考文献 機械学習 学習データセットから確率分布を推定することを機械学習という。とくに、対となる2つの学習データセットから結合分布もしくは条件付き分布を推定する場合を教師あり学習という。パターン認識や回帰分析は、教師あり学習の一つである。 機械学習では、無作為抽出されたサンプル集団から元の確率分布を推定することになるので、推測統計学と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。 機械学習には、大きく分けてパラメトリック法とノンパラメトリック法とがある。パラメトリック法は、パラメトリックモデル — 有限次元のモデルパラメータで記述された関数の族(Ex.正規分布) — を用いて確率変数の確率分布を推定する方法である。パラメトリック法には、最尤法、ベイズ推定法、最大事後確率推定法がある。一方、ノンパラメトリック法は、モデルパラメーターは用いずに、データ集合から直接に目的の確率を計算する方法である。ノンパラメトリック法には、ヒストグラム密度推定法やカーネル密度推定法、最近傍法がある。 パラメトリック法 最尤法 ベイズ推定法 最大事後確率最大化法 ノンパラメトリック法 ヒストグラム密度推定法 カーネル密度推定法 最近傍法 最尤法 パラメトリック法のなかで、もっともポピュラーかつ古典的な推定法が最尤法である。最尤法のコンセプトは、学習データがもっとも生起しやすいようにモデルパラメーターを決めることである。変数の確率分布が、モデルパラメーターを用いて条件付き確率であらわせるとしたら、尤度関数 を最大化するを推定値とする: 。 実際に利用する場合には、尤度関数を直接最大化するのではなく、対数尤度関数を最大化することが多い。対数をとることで、 となり、解析的な取り扱いが容易となるためだ。とくに、確率分布が指数関数族であらわされる場合は右辺が多項式になるので、解析的にとなるを求めることができる。 教師あり学習において、条件付き確率を,とモデル化すれば、最尤法と最小二乗法が等価になることが数学的に証明されている。さらに、に対して決定理論を適用すると、予測関数はとなり、これもやはり最小二乗法の予測関数と一致する。 ベイズ推定法 パラメトリック法において、本来、定数であるはずのモデルパラメーターに不確実性があることをみとめ、その不確実性をも評価する推定法がベイズ推定法である。モデルパラメーターの不確実性は(ベイズ)確率によって定量的に評価する。古典的な確率論の立場では、確率は客観的な頻度としてしか解釈されないので、定数であるモデルパラメーターに確率を定義することはできない。そのため、ベイズ主義者のなかでしか認められていない推定法である。 ベイズ推定法のコンセプトは、モデルパラメーターの確率変数化と周辺化である。まず、データセットからモデルパラメーターの事後確率を求める。次に、求めた事後確率に条件付き確率をかけて、結合分布を計算する。これをモデルパラメーターについて周辺化することで、を推定する: 。 ベイズ推定法を用いる利点としては、次のものが挙げられる。 モデルの複雑度が高い場合でも、オーバーフィッティング(モデルパラメーターの過適応)を避けることができる。 モデルの比較・選択を訓練データからおこなえる。→ 周辺尤度最大化法 ベイズ確率を認めていることから、逐次的な学習が容易に導入できる。今、モデルパラメーターの確率分布が既知であるとする(事前確率)。ここで、新しい情報が得られたとすると、ベイズの定理より、と更新できる(事後確率)。さらに、新しい情報を得られたとすると、と更新できる。これを繰り返すことで、最終的にを得ることができる。 MAP推定法(最大事後確率推定法) 最尤法とベイズ推定法の中間に位置する推定法である。ベイズ推定法と同様に、ベイズ確率を採用している。 基本的な考え方は、最尤法にしたがうが、尤度を最大化するのではなく、モデルパラメーターの事後確率を最大化する: 。 MAP推定法は、最尤推定法に正則化項を加えることに対応する。事前確率が正則化項にあたる。正則化項を加えることで、確率モデルの複雑度を制御し、オーバーフィッティングを防止できる。ただし、ベイズ推定法とは異なり、適切な事前確率を見つけ出すことができなければ、オーバーフィッティングを防ぐことはできない。 ヒストグラム密度推定法 ノンパラメトリック法のなかでもっともシンプルな推定法がヒストグラム密度推定法である。 連続な確率変数を幅で区切り、その番目の区間に入ったの観測地の数をとする。この係数を正規化された確率密度とするために、これらの係数を、観測地の総数と、区間の幅とで割る。すると、各区間の密度は、 になる カーネル密度推定法 ヒストグラム密度推定法と同様に、ノンパラメトリックなアプローチの推定法である。 最近傍法 これも、ノンパラメトリックなアプローチの推定法である。 モデル選択 交差確認 モデルの推定に最尤推定法を用いた場合のモデル選択法が交差確認である。訓練データとは別にテストデータを用意し、尤度関数を最大化するモデルを選択する。はモデルパラメーターで、訓練データによって最尤推定する。 訓練データとテストデータを分けねばならず、効率が悪い。また、モデルパラメーターを繰り返し学習しなおす必要があるため、時間もかかる。 周辺尤度最大化 モデルの推定にベイズ推定法を用いた場合のモデル選択法が周辺尤度最大化である。ベイズ確率を認めているので、モデルの確かさを確率によって定量的に評価できる。交差確認と異なり、訓練データとテストデータを分ける必要がなく、手持ちのデータをすべて有効活用できるという長所を持つ。モデル選択のひとつであるハイパーパラメーターの決定も、周辺尤度最大化によって解決できる。 今、モデルの候補をであらわすと、モデルの確かさは次のようにあらわせる。 。 ここで、事前確率はモデルの好みをあらわしている。事前確率が等確率であると仮定すれば、 である。はモデルパラメーターである。モデルパラメーターについて周辺化しているので、を周辺尤度という。周辺尤度最大化では、これを最大化するモデルを選択する。 周辺尤度を最大化することの、根拠は以下のとおりである。もし、モデルの複雑度が小さすぎると、自由度の狭さから、周辺尤度は小さくなる可能性が高い。一方で、モデルの複雑度が大きすぎると、密度が薄くなり、やはり周辺尤度は小さくなる可能性が高い。この結果、周辺尤度最大化によって、中程度の複雑さをもったモデルが選ばれることになる。 決定理論 パターン認識や回帰分析のような教師付き学習において、条件付き確率から予測関数を求める方法が決定理論である。条件付き確率は機械学習によって求める。 識別率最大化法 識別率を最大化するように予測関数を決定する。定式化すると下記のようになる。 。 条件付き確率が正規分布を用いてモデル化される場合、予測関数と分布の平均は一致する: 。 期待損失最小化法 予測関数をとしたときに、予想される損失の期待値を最小化する。確率変数の分布が条件付き確率によってあらわされるときに(このとき、)、と決定してしまったときの損失をとすると、損失の期待値は とあらわせる。これを最小化する予測関数を求めればよい。変分法を用いれば、その答えは、 であると導かれる。したがって、予測分布が正規分布のときは、識別率最大化法と期待損失最小化法は同じ予測関数を導くことになる。 棄却オプション 書き込み中 ベイズの定理 ベイズ推定法において重要な役割を果たすベイズの定理は次式である。 は、情報が得られる前からわかっている確率分布だから、事前確率分布とよぶ。一方、は、情報が得られた後にわかる確率分布だから、事後確率分布と呼ぶ。事前確率を事後確率に変換するために必要な関数は尤度である。 参考文献 Christopher M. Bishop Pattern Recognition And Machine Learning Springer-Verlag (2006) ISBN 978-0387310732 統計学 font(green){無作為抽出されたサンプル集団から母集団の確率分布を推定する方法論が統計学である。} 確率分布の推定方法には、大きく分けてパラメトリックモデルとノンパラメトリックモデルがある。パラメトリックモデルは、確率分布を関数の線型(非線型)結合によって表現し、そのパラメーターを推定することで、確率分布の推定をおこなう。一方、ノンパラメトリックモデルは、今現在得られているデータ集合から目的の確率分布を計算する。 パターン認識や回帰分析は、目的変数と従属変数の結合分布もしくは条件付き分布を推定することと言い換えることもできる。 ベイズ統計学 ベイズ推論の概要 font(green){ベイズ推論とは、確率の加法定理や乗法定理を過不足なく用いて(未知)変数の確率分布を推論することである。}従来の方式(未知変数の不確実性を無視し一つの推定値を求めていた)とは異なり、すべての可能性を保持・評価するため、 +ベイズの定理を用いることで、逐次的な学習(確率分布の更新)が自然に導入できる。今、目的変数$$Y$$の確率分布$$P(Y)$$が既知であるとする(事前確率)。ここで、新しい情報$$X_1=x_1$$が得られたとすると、ベイズの定理より、$$P(Y|X_1=x_1) \propto P(Y)P(X_1 = x_1|Y)$$と更新できる(事後確率)。さらに、新しい情報$$X_2=x_2$$を得られたとすると、$$P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y, X_1=x_1)$$と更新できる。ただし、逐次的に得られる情報が独立であると仮定できる場合は(ほとんどの例でできる)、$$P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y)$$である。これをナイーブベイズ識別器という。最尤推定法でも、Robbins-Monroアルゴリズムを用いれば、逐次的な学習は可能であるが、収束スケジュールの調整など技巧的なテクニックを必要とする。 +期待値を推定値とすることで、学習時に含まれる誤差(外れ値)の影響を少なくできる。 +決定理論と組み合わせることで、最適な意志決定(事後確率の最大化 or 期待損失の最小化)ができる。 +棄却オプションを利用できる。 +確率モデル(独立に学習した結果)の結合が容易である。 というメリットがある。 ベイズ推論をおこなおうとすると、客観確率(頻度としての確率)に加えて主観確率(不確実性の尺度としての確率)をも確率として認める必要がでてくる。というのも、ベイズ推論にしたがえば、頻度の定義できない変数にも確率分布が定義できてしまうためである。たとえば、正規分布にしたがって生成された乱数列から元の正規分布の平均$$\mu$$を推定することを考える。このとき、$$\mu$$は間違いなく定数であり確率(頻度)を伴う変数ではない。しかし、ベイズ推論にしたがうと、$$\mu$$の確率分布を求める(考える)ことになる。確率を不確実性の尺度として理解することで、この矛盾が解消できるのである。 ベイズの定理 ベイズ推論では、未知変数の確率分布を求めようとする。そのため、確率分布の更新を可能とするベイズの定理: $$P(Y|X=x) \propto P(Y)P(X=x|Y)$$ は大きな意味をもつ。$$X, Y$$は確率変数である。確率分布$$P(Y)$$を bold(){事前確率}, $$P(Y|X=x)$$を bold(){事後確率}とよぶ。$$P(Y)$$は、$$X=x$$という情報を得る bold(){前}にわかっている確率分布だから bold(){事前}確率であり、$$P(Y|X=x)$$は$$X=x$$という情報を得た bold(){後}にわかる確率分布だから bold(){事後}確率である。 font(green){ベイズの定理によれば、事後確率$$P(Y|X=x)$$は、事前確率$$P(Y)$$に尤度関数$$P(X=x|Y)$$を掛けることで得ることができる。} パターン認識への3つのアプローチ 生成モデル |$$x$$を入力変数、$$y$$を目的変数とする。結合分布$$P(x,y)$$をモデル化し、決定理論を用いることで$$y$$の最適値を決定する。このモデルの最大の特徴は、サンプリング法によって人工の入力列を生成できる点にある。これによって学習データの不足領域が明らかになる。入力変数の確率分布までも求めなければならないため、3つのアプローチのなかで最も手間がかかる。特に入出力空間が大きい場合は、パラメトリック学習を用いないと安定した識別器を得ることは難しい。 識別モデル |事後確率$$P(y|x)$$を直接モデル化する。推論と意思決定だけが問題である場合、識別モデルで十分である。 識別関数モデル |識別関数$$y = f(x)$$の関数形を直接モデル化する。このとき、学習の対象は関数のパラメーターとなる。このアプローチは、他の2つの方法と異なり、入力変数や出力変数の確率分布を考慮しない。そのため、ベイズ推論をおこなうメリットのうち、2.〜5.は使えない。しかし、一度学習さえ完了すれば、意思決定は高速にできるので、音声認識などの実時間処理をしたいシステムに向いている。誤差逆伝搬法やSVMは、ノンパラメトリックな識別関数の学習法の一種である。 決定理論 ベイズ推論によって得られた確率分布から最適な意思決定(行動決定)するための方法論が決定理論である。入力ベクトルを$$\bf{x}$$とすると、入力空間$$\bf{x}$$のすべてに最適なクラス$$\rm{C}_k$$を割り当てることが目標となる。以後の説明では、結合確率$$P(x,\rm{C}_k)$$は既知とする。クラス$$\rm{C}_k$$の決定領域(クラス$$\rm{C}_k$$に割り当てられた$$\bf{x}$$の集合)は$$\rm{R}_k$$で表す。 ベイズ決定則(事後確率最大化法) |事後確率$$P(\rm{C}_k|\bf{X=x})$$は、$$\bf{X=x}$$という乗法が与えられたとき、クラスが$$\rm{C}_k$$となる確率を表しているが、 bold(){クラスが}$$\rm{C}_k$$ bold(){で正しい確率}と読み替えることもできる。このように読み替えると、決定領域$$\rm{R}_k$$が正しい識別結果を返却する確率は br()$$\sum_k \int_{\bf{x} \in \rm{R}_k} P(\rm{C}_k|\bf{X=x})d\bf{x}$$ br()によって表すことができる。この確率を最大化するように決定領域を設定したい。その方法は、上式より明らかに、事後確率$$P(\rm{C}_k|\bf{X=x})$$を最大にするクラスへ分類することだ。 期待損失最小化 |入力$$x$$にクラス$$\rm{C}_k$$を割り当てたときの期待損失(損失の期待値)を考える。損失は$$x$$と思っていたものが 期待値 |目的変数$$y$$が実数ならば・・・ 棄却オプション | 最尤推定法 最尤推定法の概要 ベイズ推論とは異なり、頻度主義にもとづく推定法である。 確率モデル 情報理論 情報量 エントロピー 期待できる情報量。驚きの期待値。分布の一様性を定量的に表したもの。 カルバックライブラー情報量
https://w.atwiki.jp/matsudai/pages/18.html
定理(X_nが確率収束⇒P_nは弱収束) ある確率空間(Ω,F,P)上の確率変数列X_n(n=1,2,..)が確率変数Xに確率収束するとする.P_nをX_nの確率分布,PをXの確率分布とする時,P_n(n=1,2,...)はPに弱収束する. 証明は任意の実数εに対して ...(a) ...(b) が成立する.ここからεをゼロに漸近させていくと,つまりnを無限大に持って行くと挟み撃ちの定理より が得られる.20pの定理より,FがこうなればFを基にしたPは確率収束である事が言える. -本当は最後の詰めは(b)右辺 F_nの下極限 F_nの上極限 (a)右辺とやってから結論に持っていく必要がある. 定義(Levi距離) P,Qを実数上の確率測度,F,Gを対応する確率分布関数とする.このとき をFとGの間のLevy距離と呼ぶ. -Levy距離は距離の公理を満たす立派な距離である. 定理 P_n,Pはそれぞれ実数上の確率測度である.この時 P_nがPに弱収束⇔L(P_n,P)→0 -iffである.弱収束に関する話は距離空間で議論できる様になる. -Levy距離の他にも事象Aでの確率測度の差の絶対値を取ったものを全事象で上限を取った物もある.これを全変動距離と言う. -全変動距離の意味で弱収束⇒Levy距離の意味で弱収束が言える. 定理(Helly-Brayの定理,列F_nを一般的なFに収束させられる) {F_n}を任意の確率分布関数列とする.適当な{n}の部分列{n_i}と実数上の単調非減少で右連続なかん数F(0 F 1)をとることによりFの任意の連続店xでと取る事が出来る. -この定理は確率分布関数っぽいF(x)を与えるが,xがマイナス無限大と無限大においてそれぞれ0と1となるとは限らない.つまり確率分布関数になるとは限らない.収束先が確率分布関数となるために,次のタイトの定義とProhorovの定理の特別な場合が用いられる. 定義(タイトネス) 確率分布関数の列{F_n}があり,P_nをF_nに対応する確率測度とする.任意の与えられたε 0に対しあるC 0が存在して任意のnに対して な時,{F_n}はタイトであると言う.ここに -この定義が確率分布関数列の裾の確率測度が任意の定数で抑えられることを意味している.これによって無限に飛ぶようなxについて確率測度がゼロに限りなく近くなる. 定理(Prohorovの定理の特別な場合) 確率分布関数の列{F_n}がタイトである時,ある確率分布関数Fに弱収束する{F_n}の部分列が存在する. もうちょっとこのwikiの書き方工夫したほうがいいな.