約 2,105,534 件
https://w.atwiki.jp/trpg_summary/pages/2626.html
KP 空衣御侍 PL&PC 高生紳士:明日弾 ひよりん*:海音零次 配信 2021/01/12 20 30- クトゥルフ神話TRPG「灼熱さえあればいい」/PL-高生紳士、ひよりん*【ストロベリーチューンズ】 ハッシュタグ #黄色さえあればいい イラスト kaka:@kaka_024 ツイート 配信告知 キャラクター紹介 / 詳細 名付け 感想 空衣御侍 / 高生紳士 / ひよりん* 立ち絵 明日弾 / 海音零次 2周年ツイート ひよりん* 1 / 2
https://w.atwiki.jp/ce00582/pages/59.html
Private Sub Command1_Click() Dim theta(1 To 2, 15 To 65) As Single Dim m2(-3 To 99, 16 To 65) As Single Dim f2(-3 To 99, 16 To 65) As Single Dim de(1 To 2, 16 To 65) As Single Dim mis(16 To 65, 1 To 50) As Single Dim mos(16 To 65, 1 To 50) As Single Dim mrate(-3 To 99, 16 To 65) As Single Dim frate(-3 To 99, 16 To 65) As Single Dim b(-1 To 10, 0 To 99) As Single Dim c(-1 To 10, 0 To 99) As Single Dim m(-5 To 99, 0 To 99) As Single Dim f(-5 To 99, 0 To 99) As Single Dim newm(-3 To 99) As Single Dim newf(-3 To 99) As Single Dim alpha(1 To 2, 15 To 64) As Single Dim beta(1 To 2, 15 To 64) As Single Dim phi(1 To 2, 15 To 64) As Single Dim age As Single Dim car As Single Dim year As Single Dim c1 As Single Dim c2 As Single Dim c3 As Single Dim zero As Single Dim syear As Single Dim rate(-3 To 99) As Single n = -1 s = 0 Open "c /simple/data/死亡(男性).txt" For Input As #1 Do Until EOF(1) Input #1, x b(n, s) = x n = n + 1 If n 10 Then s = s + 1 If n 10 Then n = -1 Loop Close #1 n = -1 s = 0 Open "c /simple/data/死亡(女性).txt" For Input As #11 Do Until EOF(11) Input #11, x c(n, s) = x n = n + 1 If n 10 Then s = s + 1 If n 10 Then n = -1 Loop Close #11 Open "c /simple/gdata/厚生年金加入率.txt" For Input As #2 Do Until EOF(2) Input #2, a1, a2, a3, a4 year = a1 age = a2 mrate(year, age) = a3 frate(year, age) = a4 Loop Close #2 Open "c /simple/data/脱退率.txt" For Input As #3 Do Until EOF(3) Input #3, a1, a2, a3, a4, a5, a6, a7, a8, a9 age = a1 alpha(1, age) = a3 beta(1, age) = a4 phi(1, age) = a5 alpha(2, age) = a7 beta(2, age) = a8 phi(2, age) = a9 Loop Close #3 Open "c /simple/data/再加入率.txt" For Input As #4 Do Until EOF(4) Input #4, a1, a2, a3 age = a1 theta(1, age) = a2 theta(2, age) = a3 Loop Close #4 Open "c /simple/gdata/将来推計人口.txt" For Input As #5 Do Until EOF(5) Input #5, a1, a2, a3, a4 year = a1 age = a2 m(year, age) = a3 f(year, age) = a4 Loop Close #5 Open "c /simple/gdata/厚生年金被保険者.txt" For Input As #6 Do Until EOF(6) Input #6, a1, a2, a3, a4 year = a1 age = a2 m2(year, age) = a3 f2(year, age) = a4 Loop Close #6 For syear = 49 To 99 zero = 1 mis(16, 1) = m2(syear - 49, 16) For age = 17 To 64 year = syear + age - 65 c1 = 1 - alpha(1, age) - beta(1, age) - phi(1, age) c2 = c1 * m2(year - 1, age - 1) mis(age, 1) = (1 - theta(1, age)) * (m2(year, age) - c2) If mis(age, 1) 0 Then mis(age, 1) = 0 If zero 0 Then mis(age, 1) = 0 c3 = 0 For car = 1 To 50 c3 = c3 + mos(age - 1, car) Next c5 = 0 If c3 = 0 Then c5 = 1 If c3 = 0 Then c3 = 1 c4 = (m2(year, age) - c2 - mis(age, 1)) / c3 If c5 = 1 Then c4 = 0 For car = 2 To 50 mis(age, car) = c1 * mis(age - 1, car - 1) + c4 * mos(age - 1, car - 1) Next For car = 1 To 50 mos(age, car) = alpha(1, age) * mis(age - 1, car) + (1 - c4 - beta(1, age)) * mos(age - 1, car) Next z1 = 0 For car = 1 To 50 z1 = z1 + mis(age, car) + mos(age, car) Next zero = m(year, age) - z1 Next z2 = 0 For car = 1 To 50 z2 = z2 + mis(64, car) + mos(64, car) Next z3 = 0 For car = 1 To 24 z3 = z3 + mis(64, car) + mos(64, car) Next rate(syear) = z3 / z2 Debug.Print syear, rate(syear) Next For year = -3 To 49 rate(year) = rate(49) Next For year = -3 To 99 newm(year) = rate(year) * m(year, 65) Next For car = 1 To 50 Debug.Print car, mis(64, car), mos(64, car) Next Open "c /simple/gdata/男子通算年金新規裁定者.txt " For Output As #8 For year = -3 To 99 Write #8, year, newm(year) Next Close #8 End Sub
https://w.atwiki.jp/aesthetica/pages/126.html
Ernst Gombrich Botticelli s Mythologies A Study in the Neo-Platonic Symbolism of his Circle (Symbolic images, London Phaidon, 1967. pp. 31-81.) first published in Journal of the Warburg and Courtauld Institutes, Vol. 8, 1945, pp. 7-60. [JSTOR] A Postscript as a Preface 31 Introduction 36 The Primavera 37 Past Interpretations The Historical Aperoach Ficino s Letter to Botticelli s Patron-Apuleius Description of Venus Misreadings of the Text Description and Symbolism in Apuleius The Graces and the Problem of Exegesis The Typological Approach The Platonic Academy and Botticelli s Art 64 Ficino and Botticelli s Patron Mars and Venus Pallas and the Centaur The Birth of Venus-The Villa Lemmi Frescoes Ficino and Art Appendix Three unpublished letters by Lorenzo di Pierfrancesco de Medici 79 *****************************************
https://w.atwiki.jp/gtav/pages/154.html
チーター (Cheetah) チーター (Cheetah)詳細データ ステータス(無改造車) 解説 入手場所、出現場所オフライン オンライン 改造費用アーマー ブレーキ エンジン マフラー ライト 損害/窃盗の阻止 スポイラー サスペンション トランスミッション ターボ 画像PS3 PC 参考モデル 動画 詳細 データ 種類 メーカー 日本語 日本語訳 ドア 乗車定員 駆動 ギア スーパーカー グロッティ チーター チーター 2ドア 2人 MR 6速 モデル ラジオ 主な選局 洗車 エンツォ・フェラーリ(フロント)パガーニ・ゾンダR(フロント)GTA・Spano(リア)チゼータ・V16T(リア) 有り Non-Stop-Pop FM 可 プラットフォーム カスタム 改造費用クラス カラー デフォルトクラクションタイプ オフライン オンライン 盗難車 正規購入車 PS3 / Xbox 360 可 不可 可 最高 メインのみ 高級 PS4 / Xbox One / PC メイン/サブ プラットフォーム 価格 売却額 保険料 オフライン オンライン オンライン オンライン 盗難車 正規購入車 PS3 / Xbox 360 $650,000 売却不可 $390,000 $8,125 PS4 / Xbox One / PC プラットフォーム ガレージ保管 オフライン オンライン 隠れ家ガレージ 物件ガレージ 自宅物件ガレージ 盗難車 正規購入車 PS3 / Xbox 360 可 不可 可 PS4 / Xbox One / PC ステータス(無改造車) 公称値 実測値 Top Speed(最高速度) 350km/h km/h Acceleration(0-100km/h加速時間)(*1) 4秒 秒 Braking(100-0km/h制動時間) - 秒 Weight(重量) 解説 名前だけなら『III』からの古参組の一つ。 前作『IV』では一旦姿を消したが今作にてデザインを改め再登場。 『III』『LCS』『VC』『VCS』『SA』 で登場していた際はフェラーリ・テスタロッサ がモデルだった。今作はチーターレトロがその面影を受け継いでいる。 中央に一本だけという大胆なワイパー配置や特徴的なマフラー形状を持つ。 車好きならフロントを見ただけでエンツォ・フェラーリが元だと分かるだろう。 ボディの中央やサイドスカートの一部はカーボン化されていて、色の変更ができず、パールセントも影響しない (ここがかなり好みが分かれる所であり、雑談掲示板で議論する場も時々見られる) インテリアはスーパーカー/スポーツカー兼用タイプで、ステアリング中央にグロッティのエンブレム、 バケットシートにチーターの表記あり。 フロア下がフルフラット加工されておりエキゾーストパイプやプロペラシャフトの凹凸が全く無い。 リアガラスは外側に更に覆いが付いているが、防弾性能は無く後方からのドライブバイを受けるのはやや厳しい。 PS4/Xbox One/PC版ではワイパーが横向きに変更された。 おそらく一人称視点時に視界が阻害されてしまうゆえの修正と考えられる。 ジャンプ台と揶揄されるほど車高が低く、正面衝突した車両を打ち上げることもしばしば。 ツーリスモRとは違い、ちょっとしたスロープでバンパーを削ることは(かなりギリギリだが)ない。 PS4/Xbox One/PC版に追加されたベニーズモーターワークスにはカスタム可能な車両が展示されているが、その中に一台本車両と思わしき車両が覆いをかけられて置かれている、もしかすると、今後のアップデートで…? 現在ではほぼ全車種にドリフトタイヤをつけることができるようになったが、本車は相性が悪く特に未改造では加速が大幅に悪くなる。 そこら辺の野良スポーンのトラックにすら負けそうなほどの遅さはある意味一見の価値ありだ…。 モデルとなったエンツォ・フェラーリ は世界で399+1台しか製作されていない希少車。もともと2004年までに349台+追加50台が作られたが、ローマ教皇がチャリティーのためにもう1台注文し2005年に「400台目」が誕生した。ちなみにこの車両はオークションにかけられ落札され、落札金95万ユーロ(日本円で約1億5,000万円)は寄付されてインド洋大津波の義捐金になったとされている。 元車両の値段は約7800万円だが希少性のため1億円以上で取引されることもある...GTAでは6500万円程度で新車が買えるのでお得かもしれない...? エンツォ・フェラーリのデザインは日本人カーデザイナーの奥山清行氏によるもの。この一件で奥山氏は「イタリア人以外で初めてフェラーリをデザインした男」として話題となった。後年、同氏は「新幹線E6系」や「新幹線E7系・W7系」等の鉄道車両のデザインも手掛けるようになる。 標準クラクションは高級なもので、普段聴かないなかなか珍しい音を発する。聴いてみる価値はある。 なお、この車種のほかにJB 700、エンティティーXFも同じクラクションを持つ。 ちなみに『VC』『VCS』では通常仕様の他に覆面パトカー仕様が登場していた。 シートベルト、飲酒運転防止条例、アンチロックブレーキ、 そして男の尊厳を無視したGPSと、口やかましい女性のナビ音声… ここ50年の技術の進歩をさっぱり忘れて、ドライビングの黄金時代に立ち返りましょう。 この車は1970年代にグロッティ社が生み出した試作型スポーツカーです。 イタリア流設計の粋を集めたこのマシンは、どんなコンプレックスをも過剰にカバーしてくれます。 そう、まさにイタリア人のように。 (Legendary Motorsport サイト内の解説より) 入手場所、出現場所 オフライン オンラインショップ「Legendary Motorsport」で購入。 ミッション「チェイスダウン」には青いチーターが登場し、トレバーがこれを奪うことになる。主人公3人のレースの際、トレバーを選択。真っ先に目的地へは向かわず、塗装屋に向かう。1つだけで良いので何かをカスタマイズし目的地へ向かう。ミッション完了後、押収品保管所に押収されている(通常、乗っていた車に何かをカスタマイズすればほぼ必ず押収される)ので$250を払えばあとは自由。 オンライン オンラインショップ「Legendary Motorsport」で購入。 マドラッゾのミッション「バートンの籠城」で目的地マドラッゾ宅に黒い塗装のものが駐車されている。ミッション終了時に乗っていることで入手は可能だが、トラッカー付与は出来ない。 ダイヤモンドカジノ強盗の逃走車両調達で警察の押収車両を盗むパターンにて車庫に出現。乗車可能 改造費用 カスタムでマフラーとナンバープレートの位置を入れ替える事ができる。 この状態で、ボンネットが半開きになるとマフラーがめり込む。 リアは既にスポイラーのような形状だが、カスタムでその上に別のスポイラーが付く。 強化版では、サブカラーも変更可能。 ダッシュボードとシートに走るラインの色が変わるが、正直パッと見気づかない。 ボンネット等の黒い部分はカーボン製なので何をしても色は変わらない。 アーマー アーマー 【6種】 費用 オフライン オンライン なし $500 $1,000 アーマー強化20% $2,500 $7,500 アーマー強化40% $6,250 $12,000 アーマー強化60% $10,000 $20,000 アーマー強化80% $17,500 $35,000 アーマー強化100% $25,000 $50,000 ブレーキ ブレーキ 【4種】 費用 オフライン オンライン ブレーキ(標準装備) $500 $1,000 ストリート・ブレーキ $11,000 $20,000 スポーツ・ブレーキ $13,500 $27,000 レース・ブレーキ $17,500 $35,000 エンジン エンジン 【4種】 費用 オフライン オンライン EMSアップグレード:レベル1 $4,600 $9,000 EMSアップグレード:レベル2 $6,250 $12,500 EMSアップグレード:レベル3 $9,000 $18,000 EMSアップグレード:レベル4 $16,750 $33,500 マフラー マフラー 【4種】 費用 オフライン オンライン マフラー(標準装備) $130 $260 トリプル・マフラー $375 $750 デュアル・マフラー $899 $1,800 レーシング・マフラー $1,499 $3,000 ライト ライト 【2種】 費用 オフライン オンライン ライト(標準装備) $300 $600 HIDライト $1,450 $7,500 損害/窃盗の阻止 損害/窃盗の阻止 【2種】 費用 オンライン専用 トラッカー 補償済み フル補償プラン スポイラー スポイラー 【4種】 費用 オフライン オンライン なし $3,000 $6,000 ハイレベル・スポイラー $3,750 $7,050 カーボン・ウイング $5,000 $10,000 GTウイング $6,500 $13,000 サスペンション サスペンション 【5種】 費用 オフライン オンライン サスペンション(標準装備) $100 $200 ロウアード・サスペンション $500 $1,000 ストリート・サスペンション $1,000 $2,000 スポーツ・サスペンション $1,700 $3,400 コンペ・サスペンション $2,200 $4,400 トランスミッション トランスミッション 【4種】 費用 オフライン オンライン トランスミッション(標準装備) $500 $1,000 ストリート・トランスミッション $14,750 $29,500 スポーツ・トランスミッション $16,250 $32,500 レース・トランスミッション $20,000 $40,000 ターボ ターボ 【2種】 費用 オフライン オンライン なし $2,500 $5,000 ターボチューニング $12,500 $50,000 画像 PS3 フロント リア インテリア エンジン部分 blankimgプラグインエラー:画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 グロッティのロゴ フロントフェンダーの表記 リアの表記 PC インテリア インテリア(一人称視点:運転席) インテリア(一人称視点:助手席) インテリア(一人称視点:後方) 参考 モデル フェラーリ・エンツォ フェラーリ #ref error :画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 パガーニ・ゾンダR #ref error :画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 GTA・Spano チゼータ・V16T #ref error :画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 動画
https://w.atwiki.jp/gtavi_gta6/pages/154.html
チーター (Cheetah) チーター (Cheetah)詳細データ ステータス(無改造車) 解説 入手場所、出現場所オフライン オンライン 改造費用アーマー ブレーキ エンジン マフラー ライト 損害/窃盗の阻止 スポイラー サスペンション トランスミッション ターボ 画像PS3 PC 参考モデル 動画 詳細 データ 種類 メーカー 日本語 日本語訳 ドア 乗車定員 駆動 ギア スーパーカー グロッティ チーター チーター 2ドア 2人 MR 6速 モデル ラジオ 主な選局 洗車 エンツォ・フェラーリ(フロント)パガーニ・ゾンダR(フロント)GTA・Spano(リア)チゼータ・V16T(リア) 有り Non-Stop-Pop FM 可 プラットフォーム カスタム 改造費用クラス カラー デフォルトクラクションタイプ オフライン オンライン 盗難車 正規購入車 PS3 / Xbox 360 可 不可 可 最高 メインのみ 高級 PS4 / Xbox One / PC メイン/サブ プラットフォーム 価格 売却額 保険料 オフライン オンライン オンライン オンライン 盗難車 正規購入車 PS3 / Xbox 360 $650,000 売却不可 $390,000 $8,125 PS4 / Xbox One / PC プラットフォーム ガレージ保管 オフライン オンライン 隠れ家ガレージ 物件ガレージ 自宅物件ガレージ 盗難車 正規購入車 PS3 / Xbox 360 可 不可 可 PS4 / Xbox One / PC ステータス(無改造車) 公称値 実測値 Top Speed(最高速度) 350km/h km/h Acceleration(0-100km/h加速時間)(*1) 4秒 秒 Braking(100-0km/h制動時間) - 秒 Weight(重量) 解説 名前だけなら『III』からの古参組の一つ。 前作『IV』では一旦姿を消したが今作にてデザインを改め再登場。 『III』『LCS』『VC』『VCS』『SA』 で登場していた際はフェラーリ・テスタロッサ がモデルだった。今作はチーターレトロがその面影を受け継いでいる。 中央に一本だけという大胆なワイパー配置や特徴的なマフラー形状を持つ。 車好きならフロントを見ただけでエンツォ・フェラーリが元だと分かるだろう。 ボディの中央やサイドスカートの一部はカーボン化されていて、色の変更ができず、パールセントも影響しない (ここがかなり好みが分かれる所であり、雑談掲示板で議論する場も時々見られる) インテリアはスーパーカー/スポーツカー兼用タイプで、ステアリング中央にグロッティのエンブレム、 バケットシートにチーターの表記あり。 フロア下がフルフラット加工されておりエキゾーストパイプやプロペラシャフトの凹凸が全く無い。 リアガラスは外側に更に覆いが付いているが、防弾性能は無く後方からのドライブバイを受けるのはやや厳しい。 PS4/Xbox One/PC版ではワイパーが横向きに変更された。 おそらく一人称視点時に視界が阻害されてしまうゆえの修正と考えられる。 ジャンプ台と揶揄されるほど車高が低く、正面衝突した車両を打ち上げることもしばしば。 ツーリスモRとは違い、ちょっとしたスロープでバンパーを削ることは(かなりギリギリだが)ない。 PS4/Xbox One/PC版に追加されたベニーズモーターワークスにはカスタム可能な車両が展示されているが、その中に一台本車両と思わしき車両が覆いをかけられて置かれている、もしかすると、今後のアップデートで…? 現在ではほぼ全車種にドリフトタイヤをつけることができるようになったが、本車は相性が悪く特に未改造では加速が大幅に悪くなる。 そこら辺の野良スポーンのトラックにすら負けそうなほどの遅さはある意味一見の価値ありだ…。 モデルとなったエンツォ・フェラーリ は世界で399+1台しか製作されていない希少車。もともと2004年までに349台+追加50台が作られたが、ローマ教皇がチャリティーのためにもう1台注文し2005年に「400台目」が誕生した。ちなみにこの車両はオークションにかけられ落札され、落札金95万ユーロ(日本円で約1億5,000万円)は寄付されてインド洋大津波の義捐金になったとされている。 元車両の値段は約7800万円だが希少性のため1億円以上で取引されることもある...GTAでは6500万円程度で新車が買えるのでお得かもしれない...? エンツォ・フェラーリのデザインは日本人カーデザイナーの奥山清行氏によるもの。この一件で奥山氏は「イタリア人以外で初めてフェラーリをデザインした男」として話題となった。後年、同氏は「新幹線E6系」や「新幹線E7系・W7系」等の鉄道車両のデザインも手掛けるようになる。 標準クラクションは高級なもので、普段聴かないなかなか珍しい音を発する。聴いてみる価値はある。 なお、この車種のほかにJB 700、エンティティーXFも同じクラクションを持つ。 ちなみに『VC』『VCS』では通常仕様の他に覆面パトカー仕様が登場していた。 シートベルト、飲酒運転防止条例、アンチロックブレーキ、 そして男の尊厳を無視したGPSと、口やかましい女性のナビ音声… ここ50年の技術の進歩をさっぱり忘れて、ドライビングの黄金時代に立ち返りましょう。 この車は1970年代にグロッティ社が生み出した試作型スポーツカーです。 イタリア流設計の粋を集めたこのマシンは、どんなコンプレックスをも過剰にカバーしてくれます。 そう、まさにイタリア人のように。 (Legendary Motorsport サイト内の解説より) 入手場所、出現場所 オフライン オンラインショップ「Legendary Motorsport」で購入。 ミッション「チェイスダウン」には青いチーターが登場し、トレバーがこれを奪うことになる。主人公3人のレースの際、トレバーを選択。真っ先に目的地へは向かわず、塗装屋に向かう。1つだけで良いので何かをカスタマイズし目的地へ向かう。ミッション完了後、押収品保管所に押収されている(通常、乗っていた車に何かをカスタマイズすればほぼ必ず押収される)ので$250を払えばあとは自由。 オンライン オンラインショップ「Legendary Motorsport」で購入。 マドラッゾのミッション「バートンの籠城」で目的地マドラッゾ宅に黒い塗装のものが駐車されている。ミッション終了時に乗っていることで入手は可能だが、トラッカー付与は出来ない。 ダイヤモンドカジノ強盗の逃走車両調達で警察の押収車両を盗むパターンにて車庫に出現。乗車可能 改造費用 カスタムでマフラーとナンバープレートの位置を入れ替える事ができる。 この状態で、ボンネットが半開きになるとマフラーがめり込む。 リアは既にスポイラーのような形状だが、カスタムでその上に別のスポイラーが付く。 強化版では、サブカラーも変更可能。 ダッシュボードとシートに走るラインの色が変わるが、正直パッと見気づかない。 ボンネット等の黒い部分はカーボン製なので何をしても色は変わらない。 アーマー アーマー 【6種】 費用 オフライン オンライン なし $500 $1,000 アーマー強化20% $2,500 $7,500 アーマー強化40% $6,250 $12,000 アーマー強化60% $10,000 $20,000 アーマー強化80% $17,500 $35,000 アーマー強化100% $25,000 $50,000 ブレーキ ブレーキ 【4種】 費用 オフライン オンライン ブレーキ(標準装備) $500 $1,000 ストリート・ブレーキ $11,000 $20,000 スポーツ・ブレーキ $13,500 $27,000 レース・ブレーキ $17,500 $35,000 エンジン エンジン 【4種】 費用 オフライン オンライン EMSアップグレード:レベル1 $4,600 $9,000 EMSアップグレード:レベル2 $6,250 $12,500 EMSアップグレード:レベル3 $9,000 $18,000 EMSアップグレード:レベル4 $16,750 $33,500 マフラー マフラー 【4種】 費用 オフライン オンライン マフラー(標準装備) $130 $260 トリプル・マフラー $375 $750 デュアル・マフラー $899 $1,800 レーシング・マフラー $1,499 $3,000 ライト ライト 【2種】 費用 オフライン オンライン ライト(標準装備) $300 $600 HIDライト $1,450 $7,500 損害/窃盗の阻止 損害/窃盗の阻止 【2種】 費用 オンライン専用 トラッカー 補償済み フル補償プラン スポイラー スポイラー 【4種】 費用 オフライン オンライン なし $3,000 $6,000 ハイレベル・スポイラー $3,750 $7,050 カーボン・ウイング $5,000 $10,000 GTウイング $6,500 $13,000 サスペンション サスペンション 【5種】 費用 オフライン オンライン サスペンション(標準装備) $100 $200 ロウアード・サスペンション $500 $1,000 ストリート・サスペンション $1,000 $2,000 スポーツ・サスペンション $1,700 $3,400 コンペ・サスペンション $2,200 $4,400 トランスミッション トランスミッション 【4種】 費用 オフライン オンライン トランスミッション(標準装備) $500 $1,000 ストリート・トランスミッション $14,750 $29,500 スポーツ・トランスミッション $16,250 $32,500 レース・トランスミッション $20,000 $40,000 ターボ ターボ 【2種】 費用 オフライン オンライン なし $2,500 $5,000 ターボチューニング $12,500 $50,000 画像 PS3 フロント リア インテリア エンジン部分 blankimgプラグインエラー:画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 グロッティのロゴ フロントフェンダーの表記 リアの表記 PC インテリア インテリア(一人称視点:運転席) インテリア(一人称視点:助手席) インテリア(一人称視点:後方) 参考 モデル フェラーリ・エンツォ フェラーリ #ref error :画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 パガーニ・ゾンダR #ref error :画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 GTA・Spano チゼータ・V16T #ref error :画像を取得できませんでした。しばらく時間を置いてから再度お試しください。 動画
https://w.atwiki.jp/thecockrockshockpop/pages/1054.html
http //www.steelpantherrocks.com/ http //www.myspace.com/steelpantherkicksass aka METAL SKOOL member Michael Starr ( Ralph Saenz ) vocal, guitar Satchel ( Russ Parrish ) guitar Lexxi Foxx ( Travis Haley ) bass Stix Zadinia ( Darren Leader ) drums, keyboards CDBalls Out ( 鋼鉄の玉! ) Feel The Steel ( 鋼鉄の女豹 ) Death To All But Metal LiveLive @ Nokia Theatre, Los Angeles, CA November 10, 2014 Live In Manchester, UK September 14th 2009 Live @ Midland Theatre, Kansas City, Missouri August 29th 2009 Live @ Astro Hall, Harajuku, Tokyo August 4th 2009 DVDNHK 大阪発疾走ステージ ~ West Wind CD Balls Out ( 鋼鉄の玉! ) November 1st 2011 【 HP 】 1. In The Future / 2. Supersonic Sex Machine / 3. Just Like Tiger Woods / 4. 17 Girls In A Row / 5. If You Really Really Love Me / 6. It Won t Suck Itself / 7. Tomorrow Night / 8. Why Can t You Trust Me / 9. That s What Girls Are For / 10. Gold Digging Whore / 11. I Like Drugs / 12. Critter / 13. Let Me Come In / 14. Weenie Ride Feel The Steel ( 鋼鉄の女豹 ) August 5th 2009 1. Death To All But Metal ( メタル魂 ) / 2. Asian Hooker ( 快楽人生 ) / 3. Community Property ( 大好きなお前 ) / 4. Eyes Of A Panther ( 狙い撃ち ! ) / 5. Fat Girl ( Thar She Bloes / ちょっと太めのあの娘 ) / 6. Eatin Ain t Cheatin ( 移り気な俺 ) / 7. Party All Day ( 夜明けのヘイ ! ヘイ ! ヘイ ) / 8. Turn Out The Lights ( 暗がりが好き ・・・ ) / 9. Stripper Girl ( ヒモへの哀願 ) / 10. The Shocker ( 悪役野郎 ) / 11. Girl From Oklahoma ( 田舎育ちの女 ) / 12. Hell s On Fire ( 地獄の炎 ) PV Death To All But Metal / Fat Girl ( Thar She Bloes ) / Behind The Music Scene Death To All But Metal June 15th 2009 1. Death To All But Metal 2. I Want Your Tits Live Live @ Nokia Theatre, Los Angeles, CA November 10, 2014 【 D / tCK 】 1. Pussywhipped / 2. Party Like Tomorrow Is The End Of The World / 3. Intro / 4. Asian Hooker / 5. Just Like Tiger Woods / 6. Intro / 7. Community Property / 8. Eyes Of A Panther / 9. Intro / 10. 17 Girls In A Row / 11. Gloryhole / 12. Intro / 13. Party All Day Fuck All Night / 14. Death To All But Metal / 15. Band Intro Live In Manchester, UK September 14th 2009 1. Eyes Of A Panther / 2. Asian Hooker / 3. Fat Girl / 4. The Shocker / 5. Party All Day / 6. Community Property / 7. Guitar Solo / 8. Death To All But Metal / 9. Highway To Hell / 10. Girl From Oklahoma / 11. Stripper Girl / 12. Hells On Fire / 13. Jump / 14. Turn Out The Lights Live @ Midland Theatre, Kansas City, Missouri August 29th 2009 1. Opening M.C. / 2. Eyes Of A Panther / 3. Asian Hooker / 4. Fat Girl / 5. Stripper Girl / 6. Guitar Solo / 7. Girl From Oklahoma / 8. Party All Day / 9. Sweet Child O Mine [ cover of GUNS N ROSES ] / 10. Happy Birthday, Johnny Dare / 11. Don t Stop Believing [ cover of JOURNEY ] / 12. Community Property / 13. Panama [ cover of VAN HALEN ]] / 14. Death To All But Metal Live @ Astro Hall, Harajuku, Tokyo August 4th 2009 1. Eyes Of A Panther / 2. Fat Girl / 3. The Shocker / 4. Death To All But Metal / 5. Asian Hooker / 6. Community Property / 7. Guitar Solo / 8. Turn Out The Lights / 9. Girl From Oklahoma / 10. Hell s On Fire / 11. Stripper Girl / 12. Party All Day / 13. Kickstart My Heart [ cover of MOTLEY CRUE ] / 14. Sweet Child O Mine [ cover of GUNS N ROSES ] / 15. You Really Got Me [ cover of VAN HALEN ] DVD NHK 大阪発疾走ステージ ~ West Wind O.A. 2009年8月30日(日)
https://w.atwiki.jp/dora-eroparo/pages/309.html
「もしもし、ネギ君?え、極秘に取材受けて欲しい人がいるって?場所は?…」 放課後、偽ネギからの電話を受けた和美が訪れたのは、 郊外型ショッピングセンターの食料品売り場だった。 「えーと、これとこれとー」 「いいとこ持ってくねー」 偽ネギは、和美を引き連れて、割と良質で知られる売り場の肉や野菜をカートの籠に入れていく。 「でもさー、ネギ君」 「はい」 「こんな準備までして、極秘に取材して貰いたい相手って?」 「それはだから極秘です」 にっこり微笑む偽ネギに、和美も苦笑を浮かべる。 * * * 「あ、ネギ君?」 夜、自分の部屋で待たされていた和美が携帯で偽ネギからの連絡を受ける。 「え、そこまで来てる?うん、分かった」 和美が電話を切り、そして、程なくチャイムが鳴った。 「はいはーい、それでネギ君、取材相手、って…」 「えへへ」 ネギの背後に視線を走らせた和美が、何か遥か理解の範疇を越えていたものの存在を 強制的に信じさせられたかのごとく、目を見開いて腰を抜かした。 「…取りあえず、入れていただけます?」 機械的にその言葉に従い、チェーンを外した和美の横を、 偽ネギとセーラー服の美少女がてくてくと通り過ぎた。 「さ、さささささ、さ、さささ、さ…」 「はい、相坂さよです」 腰を抜かし、指を差す和美の言葉に、さよはにっこり笑って頷いた。 「あー、和美さん、人を指差すというのは失礼な行為ですよ」 さり気なく玄関の鍵を掛けチェーンを掛けた偽ネギがにっこり笑って言う。 既に、ここに来るまでさよが持っていた「かくれん棒」はさよから受け取ってポケットにしまっている。 「これ、何?どう言う事?」 「魔法です」 偽ネギがあっさりと答える。 「簡単に言えば、朝倉さんがいつも会っているさよさんがこの肉体に取り憑いています。 ここに至るまでには非常に複雑怪奇な魔法理論が関わっている上に、 魔法世界的な違法性の問題も生じてきますので詳しくは言えないのですが、 この肉体はさよさんの本来の肉体に極めて近いものとなっています」 「そ、そそ、そりゃそうだよ、だって、さよちゃんにしか見えないし」 「魔法研究の中で、この誘惑にはどうしても勝てませんでした。 でも、今も言った通り、これは人間の生と死の倫理そのものに関わって来る、 魔法的にも極めてタブーな領域の術式です。 今表沙汰になったら、僕は僕がやった事だから仕方がありませんが…」 真面目な顔で言う偽ネギに、和美が頷く。 “…計画通り…” 偽ネギは、悪魔の笑みをそっと隠す。ある種の記者にいるタイプだが、和美は隠せば暴こうとする。 むしろ、直球で事実を明かしてお願いすれば、内容にもよるが秘密の約束は守ってくれる。 それが、さよの事となれば完璧だ。 「朝倉さん…」 「さよちゃん…」 「予定メモ帳」によって、さよを見てはならない者全員が遠くとおーくへ外出して当分帰って来ない 女子寮の中にある和美の部屋で、そのメモの例外となっている和美とさよは、黙って抱き合い、泣き続けた。 * * * 「上手だねーさよちゃん」 「はいー、久しぶりだから上手に出来るか自信なかったのですけどー」 「お鍋用意出来ましたー」 リビングのテーブルに鍋と下ごしらえされた牛肉、野菜、卵等々が用意され、 鍋に割り下が張られて具が並べられる。 「美味しそう…」 ぐつぐつ音を立てる鋤焼きを前に、さよの表情は既に陶然とすらしていた。 「そろそろいいかなー」 「じゃあ、皆さん」 「いただきまーす♪」 「あつ、あつつっ」 「大丈夫さよちゃんっ?」 「はいっ、おいふいです!」 「良かったー、ご飯もあるからねー」 和美から、炊き立ての白いご飯の茶碗を渡されたさよは、 茶碗を両手持ちして、しばしそのまま目を輝かせていた。 「さよちゃん?」 さよが、茶碗に箸を入れ、大きく摘んで口に入れる。 「美味しいです」 にこっと笑ったさよの目尻には、涙が光っていた。 * * * しばし楽しい食事が続き、鋤焼きも大方終わった頃、偽ネギの視線は鋭く腕時計に向けられていた。 「あひゃらぁあぁー」 「ん?さよちゃん?」 偽ネギに「ネムケスイトール」でテーブルの下から銃撃されたさよががっくりくずおれ、和美が駆け寄った。 「あー、疲れちゃったみたいですねー、今日、色々ありましたからー」 駆け寄った偽ネギがすっとぼける横で、和美がどこかぽーっとした眼差しを偽ネギに向けていた。 「ネギ君」 「はい」 「ネギ君、やっぱ、凄いカッコいい…」 「やですよ朝倉さーん」 「ん、んんんっ!」 次の瞬間には、偽ネギは和美の唇を奪い、その舌で存分に口の中をかき回していた。 「じゃ、さよさんの事お願いします」 「うん、分かった」 和美が、とろんとした眼差しで言う。 和美が、床ですーすー寝息を立てるさよにタオルケットを掛け、片づけを始める。 そっと「ウルトラストップウォッチ」のスイッチを押した偽ネギが、 「予定メモ帳」に書き込みを行ってからタイムロックを解除する。 「いやー、卵ちょっと用意し過ぎたかな…わああっ!」 何にけつまずいたのか、リビングで転倒した和美に、バラバラと投げ出された卵が降り注いだ。 「大丈夫ですか朝倉さんっ!?」 「う、うん、大丈夫…わあっ!」 そんな和美が更に床を滑って偽ネギ共々卵塗れになる。 「ごめーんネギ君汚しちゃった。べったべたじゃないシャワー入らないと」 「い、いえ、その…」 「駄目だってこんななっちゃってさぁ」 熱っぽい口調で和美が言い、和美に背中を押されながら、 「ウルトラミキサー」によって「かたづけラッカー」仕様虫眼鏡と合成された眼鏡を掛けた偽ネギは、 そろそろお開きと言うタイミングで「ウルトラストップウォッチ」と「きょうじき」を駆使した偽ネギによって 「つづきをヨロシク」で空中に浮遊しながら「かたづけラッカー」を吹き付けられた 「あいあいパラソル」にそっと視線を走らせる。 * * * 「かっ、和美さんっ!」 「私も卵塗れなっちゃったからねー、洗いっこしよーネギくーん♪」 バスルームでわたわたと見せかけの驚きを見せる偽ネギを前に、和美がにかっと狐の笑みを見せた。 「うわぁー、朝倉さんのおっぱい、おっきくて柔らかくてぷるぷるですぅー」 「あんっ、もうネギくーん、駄目だってぇああーんっ♪」 かくして、バスルームでは、偽ネギが背後から和美の見事な膨らみを鷲掴みにし、 馬鹿丸出しの応酬が展開されていた。 「朝倉さん、和美さん、和美さんの裸、凄く綺麗だから僕、もう…」 「んふふー、ビンビンなっちゃってるのー?ネギ君エッチー、オマセさんなんだからー」 背中に熱いものを押し付けられた和美が、満更でもない口調で笑う。 「僕、和美さんのおっきくて柔らかいおっぱいで気持ちよくして欲しいなぁー」 「オッケー」 なぜそんなものが今ここにあるのか余り深く考える者は誰もなく、 腰掛けに掛ける偽ネギの前に跪くと、和美はその豊満な胸の谷間にベビーオイルを垂らし、 むにゅむにゅ挟み込んだ。 「あっ、あ、和美さんっ、僕、僕もうっ!」 「んふふっ、凄い、ネギ君の熱くて硬くておっぱい気持ちいいっ、 いいよネギ君、ああっ」 見せかけの恐縮を見せる偽ネギの前で、 顔に飛び散った濃厚な液体をぺろりと舐めてにまっと笑みを浮かべる。 「んんっ、ネギ君、いつもこんな、してるんじゃないからね、軽く見えても、 ああっ、又硬くぅんんっ…」 「分かってます、ホントはすごーく純情な女の子なんだって和美さん♪」 「やだぁ、ああっ、もうこんなに逞しくぅ」 そのまま偽ネギの前に跪き、もごもごと口を動かしていた和美が、 その口の中で見る見る膨れあがって硬く反り返っていく、その逞しさを感じるだけで、 食事中のウーロン茶に垂らされた「アワセール」で遅効性の媚薬と化したウーロン茶の効果が 全身に十分馴染んでその脳味噌も「あいあいパラソル」に支配されていて 元々が満更でもない「ネギ」相手である和美の下半身がきゅうっとしてとろとろ溢れるのを実感する。 「ああっ、ネギ君、ネギ君もうこんなにっ、あっ、ああっ」 「和美さんのおっぱい柔らかい、和美さんの中も熱くてぐにゅぐにゅぬるぬるっ」 「だ、だって、だってネギ君が、ネギ君がこんなにぃ、ああっ」 すっかり雄々しく復活したものがじゅぽんと口から弾け出すと、 和美は、偽ネギに促されるまま、壁に手を着いていた。 偽ネギの両手でむにゅむにゅと柔らかに、しかし時には痛いぐらいに 豊満に揺れる膨らみを揉まれ、そして、背後から直接、自分の女を愛する男に抉られる、 その力強さを前に、和美の脳裏は何度となく真っ白にかすみ、 偽ネギのうめき声に満足の笑みを浮かべながら、 これが自分の声かと苦笑したくなる牝の喘ぎ声がバスルームに跳ね返るのが嫌でも脳に響く。 それを聞きながら、和美は、力の入らない掌がずるずると滑るのを遠くに感じていた。 * * * 「さよさん、さよさん」 「ん、んー…」 偽ネギに揺り起こされたさよは、目の前で、和美がタオルケットを被って床で寝息を立てているのを見た。 「何か、色々疲れちゃったみたいですね、寝かせておいてあげましょう」 「そうですね、こんなご馳走用意してくれたんですから、本当に…」 偽ネギは、涙ぐみそうになったさよの唇をちゅっと吸い、そして、その手を取って引っ張った。 はっと前を見たさよが、にっこり笑う偽ネギの天使の笑顔に魅せられる。 * * * 古びた時計塔の前庭、しんと静まり返ったその場所で、 偽ネギとさよは、敷物を敷いてティータイムを楽しんでいた。 「美味しい…これが、ネギ先生のお茶とお菓子なんですね…」 偽ネギの手作りアップルパイとミルクティーに、さよがほーっとしていた。 「ええ、でも、僕のもいいですけど、やっぱりさよさんには…」 「お饅頭♪」 評判の店の大福餅と、元々が器用な偽ネギのちょっとした煎茶道が披露される。 「美味しい…甘いもの、甘いものでお茶を、白いご飯と美味しいお肉とお野菜で鋤焼きをお腹いっぱい… 本当に、美味しい、凄く、嬉しい…」 向かい合った偽ネギとさよが、静かに唇を重ねた。 偽ネギは、敷物にさよの体を優しく横たえ、セーラー服をまくり上げていく。 「恥ずかしい…私、皆さんみたいに胸も、無いし貧弱で…」 「凄く綺麗ですよ、さよさん」 「あっ…」 剥き出しにされた慎ましくも形のいい膨らみを、偽ネギは優しく愛で、その薄い桃色の頂きに唇を寄せる。 スカートの中から、現代なら不格好と言ってもいいたっぷりとした下着を下ろし、 偽ネギは時間を掛けて太股からゆっくりと掌で、指で、その手の全てを駆使してさよの感覚を探り当てていく。 「はっ、あっ!」 中指が何度目かと言うさりさりとした感触を越えて、その下でつんと顔を出し始めた部分を刺激する。 「あ、ああっ…私、こんな、ああっ…」 「凄く、可愛いですよさよさん」 「恥ずかしいああっ…」 とろりと湿って来た頃合いに、偽ネギはズボンと下着を下ろし、スカートを大きくまくり上げる。 両手で顔を覆っていたが、しかし、さよは拒む動きをしなかった。 それを、意思の力で抑え込んでいるのが分かった。 「ん、んんっ!」 「んっ!」 さよの顔が、一瞬、苦痛に歪むのが分かる。 偽ネギは、その切ない顔ときつい締め付けだけで、果てそうになる自分を懸命に叱咤していた。 「あ、ああっ、ネギ、先生が私にぃ…」 「はい、さよさん、僕は今、さよさんの中に入ってます、凄く、凄くいいですさよさん」 「うれ、しい…」 「さよさん?」 「ずっと、ずっとずっと、みんなが、興味本位で、ドキドキしながらお喋りしてるの、 私は、ずっとそれを聞いているだけ、そんな風に、夢見る事にドキドキしながら、 みんなあそこを巣立って行って、何れ、愛する男性とその時を迎える。 私は、それを見る事すら出来ない。ずっと、ずっとずっと聞いてるだけ、 想像してドキドキきゃっきゃっお喋りしていたみんながその先に進むのを見えなくなるまで見送るだけ… 今、私、男の人に抱かれてる、ネギ先生と一つになってる…」 「はい、僕と、さよさんは、今、一つになって、僕は、今さよさんをこうして、抱いてます」 「嬉しい…ああっ…私、こんな、こんな破廉恥なはしたない…これが…」 「ええ、そうです、これが、生身の男と女の愛の形、肉体が求め合うと言う事なんです…」 言いながら、偽ネギはチラと腕時計を見る。 時計塔の中では、「分身ハンマー」で呼び出された偽ネギの分身が、 おもむろに奇妙なクチバシを装着している所だった。 “…25、26、27、28…” 「さよさん」 「はい…あっ…」 いつしか、偽ネギは敷物の上に仰向けに横たわり、 その下半身にはさよのスカートが大きく広がって被さっていた。 「さよさん、今はさよさんがこうしているんですよ」 「恥ずかしい…」 「だからさよさん、さよさんが、気持ちいい様に、動いて見て下さい」 「は、はい…ああっ!」 上着をまくり上げられ、夜闇に白い乳房をふるふると揺らして顎を反らす、 それだけで軽く達したさよを見上げるだけで、偽ネギは生唾を飲む。 “…36、37、38…” 「さよさん」 「はい…!?」 ハッと周囲を見回したさよは、いつの間にかさよを呑み込まんばかりに花開いていた 一面黄色い海のど真ん中に埋もれようとしている事に気が付いた。 「あ、あああ、あ…あっ!」 既に朱に染まったさよの白い頬をつーっと一筋の涙が伝う。 さよの姿をうずめんばかりの一面の黄色の中で、歓喜に打ち震えるさよを偽ネギがズン、と突き上げた。 夜闇に輝かんばかりに一面満開の黄色、その上に白い裸体がぼうと浮かび、ぎしぎしと揺れ動く。 言葉もなく、声はあっても言葉もなく、突き上げるものに突き動かされるままに、 ただ、ひたすら、生の証を貪欲に求めるままに、貪り続ける。 「…うれ、しい…」 さよの体がガックリと崩れ、うめき声と共にさよの肉体に幾度かの振動を伝えた偽ネギは、 覆い被さって来たさよの唇を吸い、滴る涙を頬に受けていた。 * * * 「じゃあ、まだ色々ありますんで今日は僕が預かります」 敷物の上に横たわるセーラー服の少女を前に偽ネギが言い、 その偽ネギの目の前で、さよの霊魂がぺこりと頭を下げている。 偽ネギがにこっと微笑むと、さよはぽっと頬を染め、そそくさとその場を離れていた。 さよが遠ざかるのを待って、「チッポケット二次元カメラ」で横たわる肉体を撮影した偽ネギは、 そのまま時計塔に向かう。 そして、廃墟となっている時計塔の中で分身Aからクチバシを受け取ると、 「分身ハンマー」で分身Aの頭を一撃する。 「計画通り…?」 口元に悪魔の笑みを浮かべた偽ネギが、掌の中のクチバシに怪訝な視線を向ける。 「うそつ機?間違えた?」 最強アイテムの一つとして知られる「ソノウソホント」は、 物理的にでもなんでも、言葉に現象、事実を合わせる。その言葉通りの事実、現象がそのまま実際に発生する。 対して、「うそつ機」の効力はその言葉を相手に信用させる事。 しかし、偽ネギは、離れた場所にいた分身Aの声など聞いた覚えは無い。 ハッとして偽ネギが振り返る。 季節はずれのガーデンで、夜闇に黒く広がる土の上を、落ち葉が一枚カサカサと舞っていた。 * * * 「ん、んー…あれ、さよちゃんは?」 「ああ、先帰りました。まだ実験中で色々ありますから。 和美さんぐっすり眠ってましたから、ご馳走様でしたって」 「ふーん、そう…」 タオルケットをズリ下ろして身を起こした和美がコキコキ首をならす。 「んふふー、和美さーん」 「きゃんっ、もうっ、ネギ君の甘えん坊」 「あうんあうんあうん♪」 やっぱり慎ましい和菓子の後はこれがいいのが偽ネギ流。 だから、偽ネギは「メモリーディスク」によって和美が自分で着替えたと思っている 短いノーブラタンクトップの胸元に顔を埋め、馬鹿丸出しで和美に頭を撫でられている。 「あうっ!」 そして、和美の部屋着のミニスカジーンズの中に手を突っ込んで、 既にしっとり潤んだノーパンの手触りを確認し、目と目でニッと会話する。 タンクトップをぶるんとまくり上げてちゅぱちゅぱすりすりのぱふぱふぱふぱふ、 さっさとズボンと下着をズリ下げ、スカートをまくり上げて侵入OK。 顎を突き出した和美の喘ぎ声を聞きながら、 これでこそ、このパチモン具合こそ自分であると、いつしか偽ネギは心の中で繰り返す。 * * * 「あーあー、さよさん、朝倉さんおはよーございます」 翌朝、クラスの全員分記載された「予定メモ帳」によって二人だけで3‐Aの教室にいた和美とさよに、 偽ネギが声を掛けた。 「おはよ、ネギ君」 「おはようございます、ネギ先生」 「えーと、ですね。その、結果を先に申し上げます。残念ながら今回は失敗でした。 やっぱり無理な術式を色々使いましたので不具合が多々ありまして、 たまたま昨日がうまく行っただけで、今後あの肉体を使用した場合、 肉体ごと魂が強制消滅してしまう事を含めてどんな事態になるか正直想像が付かないと。 ですから、えーと、ですね、この実験は今回をもって打ち切りです。 これ以上継続するには莫大な予算と魔力が必要で当局にも察知されて 関わったお二人にも、特にさよさんの立場が非常にまずい事になりますので」 「そうなんだ…」 「中途半端な事をしてすいません」 「いいですよー、二度と無いって思ってたんですから、 それが、ちょっとだけでも自分で出来た。凄く、楽しかったです」 ぺこりと頭を下げる偽ネギにさよが言い、和美も頷く。 既に、二人の記憶は当たり障りの無いものに改ざんされていた。 「僕、もっともっと勉強しますから。 これから十年後、何十年後になるか分かりませんが、さよさん…」 「はいっ♪楽しみに待ってます。幽霊は長生きなんですから」 「だから、あんたもう死んでるって、頑張んなよー、あんまし長引いたら、 私がスクープ待って地縛霊なっちゃうからねー」 「はいっ」 「おはよー、朝倉早いねー」 「おっ、お早う」 「お早うございまーす」 * * * 放課後、図書館島裏の「かべ紙秘密基地」に入った偽ネギは、 室内の一分が外の一年に設定された秘密基地の一室に向けて「きょうじき」を使い、 時間を標準進行に戻す。 それから、「シナリオライター」を使い、「うらめしドロップ」によって離脱して 室内で時間の間に封印されていたたましいを外に呼び出し、 秘密基地中央ホールに横たわるセーラー服姿の肉体へと導き入れる。 「さ、世界せーふく世界せーふく♪」 それを見届けた偽ネギは、「クローン培養基」の取り消しスイッチを押した。 浮かび上がる一本の髪の毛に目もくれず、偽ネギは両手を外側に広げて秘密基地を後にしていた。 「地ニ黄色キ満開之上」-了-
https://w.atwiki.jp/eraheta/pages/18.html
Q A Q1.erahetaって何? A1.漠々ト、獏より無償公開されている調教SLG作成ツール“eramaker”を元に開発されたバリアントの内の”eratohoA”を元に改変して作られた、二次創作のフリーソフトです。 もとはPINKちゃんねるの801スレに投下されたものが発端。 erahetaA最新版はこちらからダウンロードできます。 キーワードは「eraheta」です。 また、eratohoJを改変したerahetaJ、eratohoCPMを改変したerahetaCPM、eraSQRを改変したerahetaR、erahetaA私家改造版も作られています。別バリアントを覗いてみてください。 Q2.どうやって遊ぶの? A2.上のURLからダウンロードしたファイルを適当な場所へ解凍すればインストール完了です。 ただし外付けHDDやUSBメモリへはインストールしないようにしましょう。口上が表示されなくなることがあります。 Vistaの場合CドライブのProgram filesフォルダも避けた方が無難です。UAC機能により正常にセーブできないことがあります。 解凍後はフォルダ内の「eramaker.exe」あるいは「Emuera」のいずれかをクリックすればプレイできます。 選択肢に振ってある数字を入力し、Enterキーでその選択を実行することでゲームは進行します。 マウスクリックで操作したい場合は、Emueraの方をお使いください。 また、Emueraでしか使えない機能などもありますが、Emueraを使用するには本体の他に.NET Framework 2.0以降が必要です。 MicrosoftダウンロードセンターまたはMicrosoftUpdateなどから入手しインストールしてください。 なお、画面が真っ暗・文字しかないのは仕様です。 パッチを導入する時は、必ず対応バージョンを確認しパッチ関連のページや同梱のreadmeをよく読んでください。 また本体をバージョンアップする時は、あらかじめ古い本体を削除しておくか、違う場所へ解凍してからセーブデータだけをコピーするようにしましょう。 古い本体へ上書きすると動作がおかしくなる可能性があります。 Q3.「エラーが発生しました」と表示され、強制終了されたんだけど A3.まずは既存パッチを全て導入しているかどうかを確認してください。 既に解決済みのエラーである場合があります。 取り漏らしの可能性がある場合はパッチ関連から順番にダウンロードするのがお勧めです。 (導入に不安がある方は、新しいフォルダを作成してそこに解凍し、セーブデータをコピーして下さい) その上でエラーが発生する時は、実行しようとした行動、表示されたエラーメッセージなどを添えて下記erahetaスレにご報告下さい。 Q4.分からない事があるんだけど… A4.攻略・バグ報告などの質問は全てこちらのスレでお願いします。 Q5.改造してみたい/口上を書いてみたいんだけど、何か特別なものは必要? A5.テキストエディタ(txtファイルを読み書きできるソフト)だけあればOKです。 erahetaで使われているCSVファイルやERBファイルの中身はtxtファイルと同じなので、テキストエディタで開けば誰でも編集できます。 Vecterや窓の杜などで定番として紹介されているテキストエディタならばどれでも構いませんが、中でもサクラエディタは本体のおまけフォルダに同梱されているキーワードヘルプやこちらで紹介されている設定ファイルなど便利なツールを利用できるのでお勧めです。 Windowsに付属しているメモ帳でも一応可能ですが、テキストファイルを読む上での最低限の機能しかないのであまりお勧めできません(例 タブと半角スペースと全角スペースの区別が出来ない、改行した時にインデントを考慮しないなど) なお、CSVファイルをOfficeなどの表計算ソフトに関連付けている人も多いと思いますが、必ずテキストエディタで編集するようにしてください。 表計算ソフトは日本語部分をコメントと判断して勝手に『""』で括ったりするため、erahetaが正常に動作しなくなることがあります。 あとは本体の資料フォルダに同梱されている各種講座や上のページで紹介されている各種講座を読めば、基本的なことはわかるでしょう。
https://w.atwiki.jp/critter_eng/pages/12.html
\documentclass[10pt]{jreport} \usepackage{bm} \usepackage{amsmath} \usepackage{amsfonts} \usepackage{mathtools} \usepackage{txfonts} \usepackage{color} \usepackage{geometry} \DeclareMathOperator*{\argmax}{arg\,max} \begin{document} \chapter{序論} \section{例:多項式曲線フィッティング} N個の観測値xおよび対応する観測値tが存在。 フィッティングを \begin{eqnarray} y(x,\bm{w}) = w_{0}+w_{1}x+ w_{2}x^2 + \cdots + w_{M}x^{m} = \sum_{j=0}^{M}w_{j}x^{j} \end{eqnarray} により行う。二乗和誤差は \begin{eqnarray} E(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 \end{eqnarray} により定義される。これを最小化する$\bm{w}$を$\bm{w}^{*}$と書き \begin{eqnarray} E_{\mathrm{RMS}} = \sqrt{2E(\bm{w}^{*})/N} \end{eqnarray} を平均二乗平方根誤差という。過学習を抑制するために \begin{eqnarray} \tilde{E}(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{\lambda}{2}||\bm{w}||^2 \end{eqnarray} を用いることもある。これを正則化という。 \section{確率論} 省略 \subsection{確率密度} 省略 \subsection{期待値と分散} ある関数$f(x)$の確率分布$p(x)$のもとでの期待値は \begin{eqnarray} \mathbb{E}[f] \equiv \sum_{x}p(x)f(x) \end{eqnarray} で与えられる。連続変数の場合は \begin{eqnarray} \mathbb{E}[f] \equiv \int p(x)f(x)dx \end{eqnarray} となる。これは有限個の$N$点で \begin{eqnarray} \mathbb{E}[f]\approx\frac{1}{N}\sum_{n=1}^{N}f(x_{n}) \end{eqnarray} と近似できる。多変数関数の期待値で一部の変数についての平均をとるときには添え字を用いて \begin{eqnarray} \mathbb{E}_{x}[f(x,y)] \equiv \sum_{x}p(x,y)f(x,y) \end{eqnarray} と表す。これは$y$の関数となる。また、条件付き期待値 \begin{eqnarray} \mathbb{E}_{x}[f(x,y)|y] \equiv \sum_{x}p(x|y)f(x,y) \end{eqnarray} を考えることもできる。 $f(x)$の分散は \begin{eqnarray} \mathrm{var}[f] \equiv \mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^2\right] \notag \\ = \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2 \end{eqnarray} と定義される。確率変数$x$自身の分散は \begin{eqnarray} \mathrm{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 \end{eqnarray} となる。 2つの確率変数$x$と$y$の共分散は \begin{eqnarray} \mathrm{cov}[x,y] \equiv \mathbb{E}\left[ \{x-\mathbb{E}[x]\} \{y-\mathbb{E}[y]\} \right] \notag \\ = \mathbb{E}[xy] - \mathbb{E}[x]\mathbb{E}[y] \end{eqnarray} と定義される。また、2つの確率変数ベクトル$\bm{x},\bm{y}$に関して、共分散は行列 \begin{eqnarray} \mathrm{cov}[\bm{x},\bm{y}] \equiv \mathbb{E}\left[ \{\bm{x}-\mathbb{E}[\bm{x}]\} \{\bm{y}^{T}-\mathbb{E}[\bm{y}^{T}]\} \right] \notag \\ = \mathbb{E}[\bm{x}\bm{y}^{T}] - \mathbb{E}[\bm{x}]\mathbb{E}[\bm{y}^{T}] \end{eqnarray} となり、ベクトル$\bm{x}$の成分間の共分散を表すのには \begin{eqnarray} \mathrm{\bm{x}} \equiv \mathrm{cov}[\bm{x},\bm{x}] \end{eqnarray} と書く。 \subsection{ベイズ確率} モデルパラメータ$\bm{w}$の適切な選び方に関する不確実性を取り扱う方法を考える。 あらかじめ$\bm{w}$に関する事前確率分布$p(\bm{w})$を仮定し、観測データを$\mathcal{D}$と書くことにすれば \begin{eqnarray} p(\bm{w}|D) = \frac{p(\mathcal{D}|\bm{w})p(\bm{w})}{p(\mathcal{D})} \end{eqnarray} となる。$p(\mathcal{D}|\bm{w})$は尤度関数と呼ばれる。また \begin{eqnarray} p(\mathcal{D}) = \int p(\mathcal{D}|\bm{w})p(\bm{w})d\bm{w} \end{eqnarray} である。 \subsection{ガウス分布} ガウス分布は \begin{eqnarray} \mathcal{N}(x|\mu,\sigma^2) \equiv \frac{1}{(2\pi\sigma^2)^{1/2}} \exp\left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \end{eqnarray} で定義される。この分布については \begin{eqnarray} \mathbb{E}[x] = \mu \notag \\ \mathbb{E}[x^2] = \mu^2 + \sigma^2 \notag \\ \mathrm{var}[x] = \sigma^2 \end{eqnarray} が成り立つ。 多変数の場合は \begin{eqnarray} \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma}) \equiv \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}} \exp\left\{ -\frac{1}{2\sigma^2}(\bm{x}-\bm{\mu})^T\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu})\right\} \end{eqnarray} となる。ここで$D$はベクトルの次元で$|\Sigma|$は$\Sigma$の行列式を表す。 次にスカラー変数の$N$個の観測値からなるデータ集合${\bf x} = (x_{1},\cdots,x_{N})$から$\mu$と$\sigma^2$を推定することを考える。 尤度関数は \begin{eqnarray} p({\bf x}|\mu,\sigma^2) = \prod_{n=1}^{N}\mathcal{N}(x_{n}|\mu,\sigma^2) \end{eqnarray} で与えられ、その対数は \begin{eqnarray} \ln p({\bf x}|\mu,\sigma^2) = -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_{n}-\mu)^2 - \frac{N}{2}\ln \sigma^2 -\frac{N}{2}\ln(2\pi) \end{eqnarray} となる。 これを最大化すると \begin{eqnarray} \mu_{\mathrm{ML}} = \frac{1}{N}\sum_{n=1}^{N}x_{N} \notag \\ \sigma_{\mathrm{ML}}^{2} = \frac{1}{N}\sum_{n=1}^{N}(x_{n}-\mu_{\mathrm{ML}})^2 \end{eqnarray} となる。ところで、これらのデータがパラメータ$\mu,\sigma^2$を持つガウス分布から与えられたとすると、この量の期待値は \begin{eqnarray} \mathbb{E}[\mu_{ML}] = \mu \notag \\ \mathbb{E}[\sigma_{\mathrm{ML}}^2] = \left( \frac{N-1}{N}\right) \sigma^2 \end{eqnarray} となる。したがって \begin{eqnarray} \tilde{\sigma}^{2} = \frac{N}{N-1} \sigma_{\mathrm{ML}}^{2} \end{eqnarray} は分散パラメータの不偏推定量になる。 \subsection{曲線フィッティング再訪} 訓練データの集合${\bf x} = (x_{1},\cdots,x_{N})^{T}$とっそれに対応する目標値${\bf t} = (t_{1},\cdots,t_{N})^{T}$に基づいて、新たな入力$x$に対する目標変数$t$の予測を確率分布で表すことを考える。 ここでは$x$に対応する$t$が多項式曲線$y(x,\bm{w})$を平均とするガウス分布に従うと仮定する。 すなわち \begin{eqnarray} p(t|x,\bm{w},\beta) = \mathcal{N}(t|y(x,\bm{w}),\beta^{-1}) \end{eqnarray} として考える。尤度関数はデータが独立であると仮定し、 \begin{eqnarray} p({\bf t}|{\bf x},\bm{w},\beta) = \prod_{n=1}^{N} \mathcal{N}(t_{n}|y(x_{n},\bm{w}),\beta^{-1}) \end{eqnarray} で与えられる。その対数は \begin{eqnarray} \ln p({\bf t}|{\bf x},\bm{w},\beta) = -\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{N}{2}\ln \beta -\frac{N}{2}\ln(2\pi) \end{eqnarray} である。これを最大化することは$\bm{w}$については二乗和誤差の最小化と等価であり、$\beta$については \begin{eqnarray} \frac{1}{\beta} = \frac{1}{N} \sum_{n=1}^{N}\{y(x_{n},\bm{w}_{\mathrm{ML}})-t_{n}\}^2 \end{eqnarray} を得る。 よりベイズ的なアプローチでは$\bm{w}$に関する事前分布を導入する。ここでは \begin{eqnarray} p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) = \left(\frac{\alpha}{2\pi}\right)^{(M+1)/2} \exp \left\{ -\frac{\alpha}{2}\bm{w}^{T}\bm{w} \right\} \end{eqnarray} を考える。ここで$M$は多項式の時数であり、$\bm{w}$の要素数は$M+1$である。また$\alpha$を超パラメータと呼ぶ。 ベイズの定理より、$\bm{w}$の事後分布は事前分布と尤度関数の積に比例し \begin{eqnarray} p(\bm{w}|{\bf x},{\bf t},\alpha, \beta) \propto p({\bf t}| {\bf x}, \bm{w}, \beta)p(\bm{w}|\alpha) \end{eqnarray} となる。この最大値は \begin{eqnarray} \frac{\beta}{2}\sum_{n=1}^{N} \{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{\alpha}{2}\bm{w}^{T}\bm{w} \end{eqnarray} を最小にする$\bm{w}$によって与えられる。これは、正則化された二乗和誤差の最小化と等価である。 \subsection{ベイズ曲線フィッティング} 3.3節でやるため、省略。 \section{モデル選択} 省略 \section{次元の呪い} 省略 \section{決定理論} 入力ベクトル$\bm{x}$と対応する目標変数$\bm{t}$が存在し、新たな$\bm{x}$に対する$\bm{t}$を予測することを考える。 例として、入力$\bm{x}$を患者のX線画像、出力を癌であるクラス$\mathcal{C}_{1}$、癌でないクラス$\mathcal{C}_{2}$とする。 目標は患者の画像$\bm{x}$が与えられたときに2つのクラスに属する確率$p(\mathcal{C}_{k}|\bm{x})$を求めることであり、ベイズの定理により \begin{eqnarray} p(\mathcal{C}_{k}|\bm{x}) = \frac{p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})}{p(\bm{x})} \end{eqnarray} と表すことができる。 \subsection{誤識別率の最小化} $\bm{x}$の各値に一つのクラスを割り振る規則を考えることにする。すなわち、$\mathcal{R}_{k}$上の点にはクラス$C_{k}$を割り当てることにする。 同時分布を用いると、誤りが起きる確率は \begin{eqnarray} p(誤り) = \int_{\mathcal{R}_{1}} p(\bm{x},\mathcal{C}_{2}) d\bm{x} + \int_{\mathcal{R}_{2}} p(\bm{x},\mathcal{C}_{1})d\bm{x} \end{eqnarray} となる。また一般の$K$クラスの場合は、正解の確率が \begin{eqnarray} p(正解) = \sum_{k=1}^{K} \int_{\mathcal{R}_{k}} p(\bm{x},\mathcal{C}_{k})d\bm{x} \end{eqnarray} で表される。 これを最大化するには各$\bm{x}$を最大事後確率$p(\mathcal{C}_{k}|\bm{x})$を持つクラスに割り当てるべきである。 \subsection{期待損失の最小化} 目的が正解確率の最大化でない場合、例えば以下の損失関数を最小化したい場合を考える。 \begin{eqnarray} \mathbb{E}[L] = \sum_{k,j}\int_{\mathcal{R}_{j}}L_{kj}p(\bm{x},\mathcal{C}_{k})d\bm{x} \end{eqnarray} これを最小化するには各$\bm{x}$において \begin{eqnarray} \sum_{k}L_{kl}p(\bm{x},\mathcal{C}_{k}) \end{eqnarray} が最も小さくなるようなクラス$j$を選べばよい。 \subsection{棄却オプション} 省略 \subsection{推論と決定} 省略 \subsection{回帰のための損失関数} 回帰問題の場合についても、各入力$\bm{x}$に対して$t$の値に対する推定値$y(\bm{x})$を考えたときに、損失$L(t,y(\bm{x}))$をこうむるとすると、期待損失は \begin{eqnarray} \mathbb{E}[L] = \int\int L(t,y(\bm{x})) p(\bm{x},t) d\bm{x}dt \end{eqnarray} で与えられる。二乗誤差の場合 \begin{eqnarray} \mathbb{E}[L] = \int\int \{y(\bm{x})-t\}^2 p(\bm{x},t) d\bm{x}dt \end{eqnarray} となる。変分法を用いることによって、 \begin{eqnarray} \frac{\delta \mathbb{E}[L]}{\delta y(\bm{x})} = 2\int \{ y(\bm{x})-t \} p(\bm{x},t) dt = 0 \end{eqnarray} より、損失を最小にする$y(\bm{x})$として \begin{eqnarray} y(\bm{x}) = \frac{\int tp(\bm{x},t)dt}{p(\bm{x})} = \int tp(t|\bm{x}) dt = \mathbb{E}_{t}[t|\bm{x}] \end{eqnarray} を得る。この結果は別の方法で導くこともできる。 二乗の項は \begin{eqnarray} \{ y(\bm{x})-t \}^2 = \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] + \mathbb{E}_{t}[t|\bm{x}] - t \}^2 \notag \\ = \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \}^2 + 2\{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \} \{ \mathbb{E}_{t}[t|\bm{x}] - t \} + 2\{ \mathbb{E}_{t}[t|\bm{x}] - t \}^2 \notag \\ \end{eqnarray} となる。 \begin{eqnarray} \int \{ \mathbb{E}_{t}[t|\bm{x}] - t \} p(\bm{x},t) dt = 0 \end{eqnarray} より、 \begin{eqnarray} \mathbb{E}[L] = \int \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \}^2 p(\bm{x})d\bm{x} + \int \mathrm{var}[t|\bm{x}]p(\bm{x})d\bm{x} \end{eqnarray} となる。ただし \begin{eqnarray} \mathrm{var}[t|\bm{x}] = \int \{ t - \mathbb{E}_{t}[t|\bm{x}] \}^2 p(t|\bm{x}) dt \end{eqnarray} である。 二乗誤差には単純な一般化が存在し、 \begin{eqnarray} \mathbb{E}[L_{q}] = \int\int \{y(\bm{x})-t\}^q p(\bm{x},t) d\bm{x}dt \end{eqnarray} をミンコフスキー損失という。 \section{情報理論} 離散分布に対する \begin{eqnarray} H[x] = -\sum_{x}p(x)\log_{2}p(x) \end{eqnarray} をエントロピーという。また、連続分布に対する。 \begin{eqnarray} H[\bm{x}] = -\int p(\bm{x})\ln p(\bm{x}) d\bm{x} \end{eqnarray} を微分エントロピーという。離散分布のエントロピーを最大化する分布は等確率分布であり、微分エントロピーを最大化する分布はガウス分布である。 また、確率変数$\bm{x},\bm{y}$に対して、 \begin{eqnarray} H[\bm{y}|\bm{x}] = -\int \int p(\bm{y},\bm{x}) \ln p(\bm{y}|\bm{x})d\bm{y}d\bm{x} \end{eqnarray} を$\bm{x}$に対する$\bm{y}$の情報エントロピーという。このとき \begin{eqnarray} H[\bm{x},\bm{y}] = -\int \int p(\bm{y},\bm{x}) \ln p(\bm{y},\bm{x})d\bm{y}d\bm{x} = H[\bm{y}|\bm{x}] + H[\bm{x}] \end{eqnarray} が成り立つ。 \subsection{相対エントロピーと相互情報量} 二つの分布$p(\bm{x})$tと$q(\bm{x})$に対して、 \begin{eqnarray} KL(p||q) = -\int p(\bm{x}) \ln q(\bm{x})d\bm{x} -\left(-\int p(\bm{x}) \ln p(\bm{x})d \bm{x} \right) \notag \\ = -\int p(\bm{x}) \ln \left \{ \frac{ q(\bm{x}) }{ p(\bm{x}) } \right \} d\bm{x} \end{eqnarray} を$p(\bm{x})$tと$q(\bm{x})$の間の相対エントロピーという。これは真の分布$p(\bm{x})$の代わりに$q(\bm{x})$を使った時に必要となる追加の情報量と解釈される。 また、この量は対称ではない。 イェンセンの不等式を用いると、常に$KL(p||q) \geq 0$が成り立ち等号成立は$p(\bm{x}) = q(\bm{x})$に限ることがわかる。 イェンセンの不等式は$p(\bm{x}) 0$、$\int p(\bm{x})d\bm{x}=1$とし、関数fを凸関数とすると \begin{eqnarray} \int f(g(\bm{x}))p(\bm{x})d\bm{x} \geq f \left( \int g(\bm{x})p(\bm{x}) d\bm{x} \right) \end{eqnarray} が成り立つことをいい、その証明は以下のように行う。 \textcolor{blue}{ 凸関数については \begin{eqnarray} f(b) \geq f(a) + f (a)(b-a) \end{eqnarray} が成り立つ。等号成立は$b=a$の時に限る。 $b$に$g(\bm{x})$を、$a$に$\int g(\bm{x})p(\bm{x}) d\bm{x}$を代入し、辺々$p(\bm{x})$をかけて積分を行うと、イェンセンの不等式を得る。 等号成立は$g(\bm{x})$が定数の時に限る。 } 相対エントロピーの性質を証明するには、$f$を$-\ln$に、$g(\bm{x})$を$q(\bm{x})/p(\bm{x})$に置き換えればよい。 2つの確率変数$\bm{x}$、$\bm{y}$に関して \begin{eqnarray} I[\bm{x},\bm{y}] \equiv KL( p(\bm{x},\bm{y}) || p(\bm{x})p(\bm{y}) ) \notag \\ = -\int p(\bm{x},\bm{y}) \ln \left( \frac{ p(\bm{x})p(\bm{y}) }{ p(\bm{x},\bm{y} ) } \right) d\bm{x}d\bm{y} \end{eqnarray} を相互情報量とよぶ。相対エントロピー同様に$I[\bm{x},\bm{y}] \geq 0$であり、 \begin{eqnarray} I[\bm{x},\bm{y}] = H[\bm{x}] - H[\bm{x} | \bm{y}] = H[\bm{y}] - H[\bm{y}|\bm{x}] \end{eqnarray} が成り立つ。 \chapter{確率分布} \section{二値変数} $x\in \{0,1\}$上で定義された \begin{eqnarray} \mathrm{Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x} \end{eqnarray} をベルヌーイ分布とよぶ。$x=0,1$の確率がそれぞれ$1-\mu,\mu$で与えられる。期待値と分散は \begin{eqnarray} \mathbb{E}[x] = \mu \notag \\ \mathrm{var}[x] = \mu(1-\mu) \end{eqnarray} データ集合$\mathcal{D} = (x_{1},\cdots, x_{n})$がこの分布から独立に得られたとすると、尤度関数とその対数は \begin{eqnarray} p(\mathcal{D}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}} \notag \\ \ln p(\mathcal{D}|\mu) = \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x_{n}\ln\mu + (1-x_{n})\ln(1-\mu) \} \end{eqnarray} で与えられる。これを最大化すると \begin{eqnarray} \mu_{\mathrm{ML}} = \frac{1}{N} \sum_{n=1}^{N}x_{n} \end{eqnarray} を得る。 ベルヌーイ分布に基づく試行を$N$回行った場合に$x=1$が出る回数を表す確率分布を二項分布といい、 \begin{eqnarray} \mathrm{Bin}(m|N,\mu) = \begin{pmatrix} N \\ m \end{pmatrix} \mu^{m}(1-\mu)^{N-m} \notag \\ \begin{pmatrix} N \\ m \end{pmatrix} \equiv \frac{N!}{(N-m)!m!} \end{eqnarray} で表される。平均と分散は \begin{eqnarray} \mathbb{E}[x] = N\mu \notag \\ \mathrm{var}[x] = N\mu(1-\mu) \end{eqnarray} で与えられる。 \subsection{ベータ分布} $(0,1)$上で定義された以下の分布をベータ分布という。 \begin{eqnarray} \mathrm{Beta}(\mu|a,b) \equiv \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \notag \\ \Gamma(x) \equiv \int_{0}^{\infty}u^{x-1}e^{-u}du \end{eqnarray} その平均と分散は \begin{eqnarray} \mathbb{E}[\mu] = \frac{a}{a+b} \notag \\ \mathrm{var}[\mu] = \frac{ab}{(a+b)^2(a+b+1)} \end{eqnarray} で与えられる。 ベルヌーイ分布から$x=1$となる観測値を$m$個、$x=0$なる観測値を$l$個含むデータ集合を考え、ベルヌーイ分布のパラメータ$\mu$の事前分布がガンマ分布と仮定すると、$\mu$に関する事後分布は \begin{eqnarray} p(\mu|m,l,a,b) = \frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1} \end{eqnarray} となってやはりガンマ分布となる。この性質を共役性と呼ぶ。 次の試行に対する予測分布は \begin{eqnarray} p(x=1|m,l,a,b) = \int_{0}^{1}p(x=1|\mu)p(\mu|m,l,a,b)d\mu \notag \\ = \int_{0}^{1}\mu p(\mu|m,l,a,b)d\mu \notag \\ = \frac{m+a}{m+a+l+b} \end{eqnarray} となる。 \section{多値変数} $K$個の異なる状態のうち$1$つをとる離散変数を扱うことを考える。 状態を表す変数には、$K$次元空間を張る$K$個の単位ベクトルを考えればよく確率分布はパラメータ$\mu_{k}$を用いて \begin{eqnarray} p(\bm{x}|\bm{\mu}) = \prod_{k=1}^{K}\mu_{k}^{x_{k}} \end{eqnarray} と表され、その期待値は \begin{eqnarray} \mathbb{E}[\bm{x}|\bm{\mu}] = \sum_{\bm{x}}p(\bm{x}|\bm{\mu})\bm{x} = \bm{\mu} \end{eqnarray} となる。 $N$個の独立な観測値$\bm{x}_{1},\cdots,\bm{x}_{N}$のデータ集合$\mathcal{D}$が与えられた場合の尤度関数は \begin{eqnarray} p(\mathcal{D}|\bm{\mu}) = \prod_{n=1}^{N}\prod_{k=1}^{K}\mu_{k}^{x_{nk}} = \prod_{k=1}^{K}\mu_{k}^{m_{k}} \notag \\ m_{k} = \sum_{n}x_{nk} \end{eqnarray} となる。 $\mu$の最尤推定解を求めるには$\sum_{k}\mu_{k}=1$を満たしつつ尤度関数の対数を最大化するため、ラグランジュ乗数法を用いるとよく、 \begin{eqnarray} \sum_{k=1}^{K}m_{k}\ln\mu_{k} + \lambda\left(\sum_{k=1}^{K}\mu_{k}-1\right) \end{eqnarray} の導関数を$0$にすればよい。その結果として \begin{eqnarray} \mu_{k}^{\mathrm{ML}} = \frac{m_{k}}{N} \end{eqnarray} を得る。 パラメータ$\bm{\mu}$および観測値の総数$N$が与えられた条件での$m_{1},\cdots,m_{K}$の同時確率は \begin{eqnarray} \mathrm{Mult}(m_{1},\cdots,m_{K}|\bm{\mu},N) = \begin{pmatrix} N \\ m_{1}\cdots m_{K} \end{pmatrix} \prod_{k=1}^{K}\mu_{k}^{m_{k}} \notag \\ \begin{pmatrix} N \\ m_{1}\cdots m_{K} \end{pmatrix} = \frac{N!}{m_{1}!\cdots m_{K}!} \end{eqnarray} で与えられ、多項分布と呼ばれる。 \subsection{ディリクレ分布} 多項分布の共役事前分布は、パラメータ$\bm{\alpha}$を用いて \begin{eqnarray} \mathrm{Dir}(\bm{\mu}|\bm{\alpha}) = \frac{\Gamma(a_{0})}{\Gamma(a_{1})\cdots\Gamma(a_{K})} \prod_{k=1}^{K}\mu_{k}^{\alpha_{k}-1} \notag \\ \alpha_{0} = \sum_{k=1}^{K}\alpha_{k} \end{eqnarray} と表される。ここで$\bm{\mu}$には$\sum_{k=1}^{K}\mu_{k}=1$の制約が課されていることに注意する。 \textcolor{blue}{ ディリクレ分布に関する演習2.9保留 } データ集合が与えられた場合の事後分布は$p(\bm{\mu}|\mathcal{D},\bm{\alpha}) \propto p(\mathcal{D}|\bm{\mu})p(\bm{\mu}|\bm{\alpha})$であり、正規化係数を求めると、 \begin{eqnarray} p(\bm{\mu}|\mathcal{D},\bm{\alpha}) = \mathrm{Dir}(\bm{\mu}|\bm{\alpha}+\bm{m}) = \mathrm{Dir}(\bm{\mu}|\bm{\alpha}+\bm{m}) \notag \\ = \frac{\Gamma(a_{0}+N)}{\Gamma(a_{1}+m_{1})\cdots\Gamma(a_{K}+m_{k})} \end{eqnarray} を得る。 \textcolor{blue}{ 本文には「尤度関数(2.34)を掛けると」とあるが「(2.29)の方が適切と考えられる。」 } \section{ガウス分布} 1変数$x$に対するガウス分布は \begin{eqnarray} \mathcal{N}(x|\mu,\sigma^2) = \frac{1}{(2\pi\sigma^2)^{1/2}}\exp \left \{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right \} \end{eqnarray} と書かれる。ここで平均は$\mu$で、分散は$\sigma^2$である。$D$次元変数の場合は \begin{eqnarray} \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma}) = \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}\exp \left \{ -\frac{1}{2}(\bm{x}-\bm{\mu})\bm{\Sigma}^{-1} (\bm{x}-\bm{\mu}) \right \} \end{eqnarray} となり、 \begin{eqnarray} \mathbb{E}[\bm{x}] = \bm{\mu} \notag \\ \mathrm{cov}[\bm{x}] = \bm{\Sigma} \end{eqnarray} が成り立つ。 \subsection{条件付きガウス分布} $\bm{x}$をガウス分布$\mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma})$に従う$D$次元のベクトルとする。 これを2つの互いに素な部分$\bm{x}_{a},\bm{x}_{b}$に分割する場合を考える。また$\bm{\mu},\bm{\Sigma}$についても分割を定義し \begin{eqnarray} \bm{x} = \begin{pmatrix} \bm{x}_{a} \\ \bm{x}_{b} \end{pmatrix} \quad \bm{\mu} = \begin{pmatrix} \bm{\mu}_{a} \\ \bm{\mu}_{b} \end{pmatrix} \quad \bm{\Sigma} = \begin{pmatrix} \bm{\Sigma}_{aa} \bm{\Sigma}_{ab} \\ \bm{\Sigma}_{ba} \bm{\Sigma}_{bb} \end{pmatrix} \end{eqnarray} とする。また、共分散の逆行列を精度行列と定義しこれについても分割を考える。すなわち \begin{eqnarray} \bm{\Lambda} = \begin{pmatrix} \bm{\Lambda}_{aa} \bm{\Lambda}_{ab} \\ \bm{\Lambda}_{ba} \bm{\Lambda}_{bb} \end{pmatrix} \end{eqnarray} である。 このとき、$\bm{x}_{b}$を固定した場合の$\bm{x}_{a}$の条件付き分布は \begin{eqnarray} p(\bm{x}_{a}|\bm{x}_{b}) \equiv \frac{p(\bm{x}_{a},\bm{x}_{b})}{\int p(\bm{x}_{a},\bm{x}_{b}) d\bm{x}_{a}} = \mathcal{N}(\bm{x}_{a}|\bm{\mu}_{a|b}, \Lambda_{aa}^{-1}) \notag \\ \bm{\mu}_{a|b} = \bm{\mu}_{a} - \bm{\Lambda}_{aa}^{-1}\bm{\Lambda}_{ab}(\bm{x}_{b}-\mu_{b}) \end{eqnarray} となる。 \subsection{周辺ガウス分布} 周辺分布については以下が成り立つ \begin{eqnarray} p(\bm{x}_{a}) = \int p(\bm{x}_{a},\bm{x}_{b}) d\bm{x}_{b} = \mathcal{N}(\bm{x}_{a}|\bm{\mu}_{a},\bm{\Sigma}_{aa}) \end{eqnarray} \subsection{ガウス変数に対するベイズの定理} 次に周辺分布と条件付き分布が以下のように与えられている問題を考える。 \begin{eqnarray} p(\bm{x}) = \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Lambda}^{-1}) \notag \\ p(\bm{y}|\bm{x}) = \mathcal{N}(\bm{y}|\bm{Ax}+\bm{b},\bm{L}^{-1}) \end{eqnarray} このとき$\bm{z}^T=(\bm{x}^T,\bm{y}^T)$も正規分布に従い \begin{eqnarray} \mathbb{E}[\bm{z}] = \begin{pmatrix} \bm{\mu} \\ \bm{A\mu} + \bm{b} \end{pmatrix} \quad \mathrm{cov}[\bm{z}] = \bm{R}^{-1} = \begin{pmatrix} \bm{\Lambda} + \bm{A}^{T}\bm{LA} -\bm{A}^{T}\bm{L} \\ \bm{LA} \bm{L} \end{pmatrix} \end{eqnarray} が成り立つ。その他にも \begin{eqnarray} p(\bm{y}) = \int p(\bm{y}|\bm{x})p(\bm{x}) d\bm{x} = \mathcal{N}(\bm{y}|\bm{A\mu}+\bm{b},\bm{L}^{-1}+\bm{A\Lambda}^{-1}\bm{A}^{T}) \notag \\ p(\bm{x}|\bm{y}) = \mathcal{N}(\bm{x}|\bm{\Sigma}\{\bm{A}^{T}\bm{L}(\bm{y}-\bm{b})+\bm{\Lambda\mu} \}, \bm{\Sigma}) \notag \\ \bm{\Sigma} = (\bm{\Lambda}+\bm{A}^{T}\bm{L}\bm{A})^{-1} \end{eqnarray} \subsection{ガウス分布の最尤推定} 多変量ガウス分布から独立に得られたと仮定したデータ集合$\bm{X} = (\bm{x}_{1},\cdots,\bm{x}_{N})^{T}$があるとき、対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\mu},\bm{\Sigma}) = -\frac{ND}{2}\ln(2\pi) - \frac{N}{2}\ln|\bm{\Sigma}| \frac{1}{2}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu})^{T}\bm{\Sigma}^{-1}(\bm{x}_{n}-\bm{\mu}) \notag \\ \end{eqnarray} となり、これを最大化すると \begin{eqnarray} \bm{\mu}_{\mathrm{ML}} = \frac{1}{N}\sum_{n=1}^{N}\bm{x}_{n} \notag \\ \bm{\Sigma}_{\mathrm{ML}} = \frac{1}{N}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})^{T} \end{eqnarray} を得る。真の分布で最尤推定解の期待値を評価すると \begin{eqnarray} \mathbb{E}[\bm{\mu}_{\mathrm{ML}}] = \bm{\mu} \notag \\ \mathbb{E}[\bm{\Sigma}_{\mathrm{ML}}] = \frac{N-1}{N}\bm{\Sigma} \end{eqnarray} となる。したがって分散の不偏推定量は \begin{eqnarray} \tilde{\bm{\Sigma}} = \frac{1}{N-1}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})^{T} \end{eqnarray} となる。 \subsection{逐次推定} 同時分布$p(z,\theta)$に従う確率変数$\theta$と$z$を考える。また \begin{eqnarray} f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta)dz \end{eqnarray} という関数を定義し \begin{eqnarray} \mathbb{E}[(z-f)^2|\theta] \infty \end{eqnarray} と仮定する。 \textcolor{blue}{ $z,\theta$が独立である場合、$f(\theta)$はそもそも定数になる。この節の議論は何らかの仮定が落ちていると考えられるので以下省略 } \subsection{ガウス分布に対するベイズ推論} 1変数の場合から考える。$N$個のデータ集合${\bf x}=\{x_1,\cdots,x_{N}\}$が与えられ、それが分散$\sigma^2$を既知とするガウス分布から与えられたとすると、尤度関数は \begin{eqnarray} p({\bf x}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \frac{1}{(2\pi\sigma^2)^{N/2}}\exp\left\{ -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_n-\mu)^2 \right\} \end{eqnarray} となる。平均に関する共益事前分布は \begin{eqnarray} p(\mu) = \mathcal{N}(\mu|\mu_{0},\sigma_{0}^2) \end{eqnarray} となる。事後分布は \begin{eqnarray} p(\mu|{\bf x}) = \frac{1}{C} p({\bf x}|\mu)p(\mu) \notag \\ = \mathcal{N}(\mu|\mu_{N},\sigma_{N}^2) \end{eqnarray} となる。ただし \begin{eqnarray} \mu_{N} = \frac{\sigma^2}{N\sigma_{0}^2+\sigma^2}\mu_{0} + \frac{N\sigma_{0}^2}{N\sigma_{0}^2+\sigma^2}\mu_{\mathrm{ML}} \notag \\ \frac{1}{\sigma_{N}^2} = \frac{1}{\sigma_{0}^2} + \frac{N}{\sigma^2} \notag \\ \mu_{\mathrm{ML}} = \frac{1}{N}\sum_{n=1}^{N}x_{n} \end{eqnarray} である。 次に平均がわかっていて、分散がわからない場合を考える。 これについては精度$\lambda \equiv 1/\sigma^2$で考えるほうが容易で、尤度関数は \begin{eqnarray} p({\bf x}|\lambda) = \prod_{n=1}^{N}\mathcal{N}(x_{n}|\mu,\lambda^{-1}) \propto \lambda^{N/2} \exp\left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_{n}-\mu)^2 \right\} \end{eqnarray} で与えられる。 共役事前分布は \begin{eqnarray} \mathrm{Gam}(\lambda|a_0,b_0) \equiv \frac{1}{\Gamma(a)}b_{0}^{a_{0}}\lambda^{a_{0}-1}\exp(-b_{0}\lambda) \end{eqnarray} で定義されるガンマ分布になる。 なお、この分布の期待値、分散は \begin{eqnarray} \mathbb{E}[\lambda] = \frac{a}{b} \notag \\ \mathrm{var}[\lambda] = \frac{a}{b^2} \end{eqnarray} 事後分布については \begin{eqnarray} p(\lambda|{\bf x}) = \frac{1}{C} p({\bf x}|\lambda)p(\lambda) \notag \\ = \mathrm{Gam}(\lambda|a_{N},b_{N}) \end{eqnarray} となる。ただし \begin{eqnarray} a_{N} = a_{0} + \frac{N}{2} \notag \\ b_{N} = b_{0} + \frac{1}{2}\sum_{n=1}^{N}(x_{n}-\mu)^2 = b_{0}+\frac{N}{2}\sigma_{\mathrm{ML}}^2 \end{eqnarray} である。また平均と精度両方が未知の場合事前分布は \begin{eqnarray} p(\mu,\lambda) = \mathcal{N}(\mu|\mu_{0},(\beta_{0}\lambda)^{-1})\mathrm{Gam}(\lambda|a_{0},b_{0}) \end{eqnarray} で与えられる。ただし$a_{0}=(1+\beta_{0})/2$である。 \textcolor{blue}{$\mu_{N},\beta_{N},b_{N}$の表式は未確認。} 多変数の場合は省略 \subsection{スチューデントの$t$分布} 省略 \subsection{周期変数} $[0,2\pi)$上で定義された \begin{eqnarray} p(\theta|\theta_{0},m) = \frac{1}{2\pi I_{0}(m)}\exp\{m\cos(\theta-\theta_{0})\} \notag \\ I_{0}(m) = \frac{1}{2\pi}\int_{0}^{2\pi}\exp\{m \cos \theta \} d\theta \end{eqnarray} をフォン・ミーゼス分布という。 データ$\{\theta_{1},\cdots,\theta_{N}\}$が与えられた場合の対数尤度関数は \begin{eqnarray} \ln p(\mathcal{D}|\theta_{0},m) = -N\ln(2\pi) - N\ln I_{0}(m) + m\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}) \end{eqnarray} で与えられる。$\theta_{0}$についての導関数を$0$とおくと \begin{eqnarray} \sum_{n=1}^{N}\sin(\theta_{n}-\theta_{0}) = 0 \end{eqnarray} より、 \begin{eqnarray} \theta_{0}^{\mathrm{ML}} = \tan^{-1}\left\{ \frac{\sum_{n}\sin\theta_{n}}{\sum_{n}\cos\theta_{n}} \right\} \end{eqnarray} となる。これは幾何的には$\{(\cos\theta_{i},\sin\theta_{i})\}$の重心の偏角となっている。 一方$m$については \begin{eqnarray} \frac{I_{0} (m_{\mathrm{ML}})}{I_{0} (m_{\mathrm{ML}})} = \frac{1}{N}\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}^{\mathrm{ML}}) \end{eqnarray} より数値的に求めることができる。 \subsection{混合ガウス分布} \begin{eqnarray} \sum_{k=1}^{K}\pi_{k} = 1 \quad 0 \leq \pi_{k} \leq 1 \end{eqnarray} なる$\pi_{k}$を用いて表される \begin{eqnarray} p(\bm{x}) = \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} を混合ガウス分布という。 データ$\bm{X} = \{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられた場合の対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln \left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \right \} \end{eqnarray} となる。 \section{指数分布族} $\bm{\eta}$をパラメータとし \begin{eqnarray} p(\bm{x}|\bm{\eta}) = h(\bm{x})g(\bm{\eta})\exp\{\bm{\eta}^{T}\bm{u}(\bm{x})\} \notag \\ g(\bm{\eta}) = \frac{1}{\int h(\bm{x}) \exp\{\bm{\eta}^{T}\bm{u}(\bm{x})\}d\bm{x}} \end{eqnarray} で表されるを指数型分布族という。 ベルヌーイ分布、多項分布、ガウス分布はすべてこれに該当する。 \subsection{最尤推定と十分統計量} 指数型分布族では一般的に \begin{eqnarray} \nabla \ln g(\bm{\eta}) = \mathbb{E}[\bm{u}(\bm{x})] \end{eqnarray} が成り立つ。またデータの集合$\bm{X} = \{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられた場合の尤度関数は \begin{eqnarray} p(\bm{X}|\bm{\eta}) = \left(\prod_{n=1}^{N}h(\bm{x}) \right) g(\bm{\eta})^{N} \exp \left\{ \bm{\eta}^{T}\sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) \right\} \end{eqnarray} で与えられ、最尤推定量はこの対数の微分を$0$にする点として与えられ \begin{eqnarray} \nabla \ln g(\bm{\eta}_{\mathrm{ML}}) = \frac{1}{N} \sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) \end{eqnarray} を満たす。最尤推定の解はデータに$\sum_{n}\bm{u}(\bm{x}_{n})$を通じてのみ依存し、この量を分布の十分統計量と呼ぶ。 \subsection{共役事前分布} 指数型分布族の分布の共役事前分布は \begin{eqnarray} p(\bm{\eta}|\bm{\chi},\nu) = f(\bm{\chi},\nu)g(\bm{\eta})^{\nu}\exp\{ \nu \bm{\eta}^{T}\bm{\chi} \} \end{eqnarray} で与えられる。ここで$f(\bm{\chi},\nu)$は正規化係数である。 データが与えられた場合の事後分布は正規化係数を除くと \begin{eqnarray} p(\bm{\eta}|\bm{X},\bm{\chi},\nu) \propto g(\bm{\eta})^{\nu+N} \exp\left\{ \bm{\eta}^{T}\left( \sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) + \nu\bm{\chi} \right)\right\} \end{eqnarray} で与えられる。 \subsection{無情報事前分布} 省略 \section{ノンパラメトリック法} データ集合から値が決定される少数のパラメータで関数形が決まる方法はパラメトリックなアプローチと呼ばれる。 一方関数形を仮定しないものをノンパラメトリックなアプローチという。 たとえばヒストグラム密度推定法では、確率変数$x$のとりうる領域を幅$\Delta_{i}$の区間に区切り、$i$番目の区間に入った$x$の観測値を$n_{i}$とし、$i$番目の区間の確率密度を \begin{eqnarray} p_{i} = \frac{n_{i}}{N\Delta_{i}} \end{eqnarray} と推定する。ただし$N$はデータの総数である。 \subsection{カーネル密度推定法} カーネル密度推定法とは、与えられたデータに対して、 \begin{eqnarray} k(\bm{u}) \leq 0 \notag \\ \int k(\bm{u}) d\bm{u} = 1 \end{eqnarray} を満たすカーネル関数を用いて確率密度を \begin{eqnarray} p(\bm{x}) = \frac{1}{N} \sum_{n=1}^{N}\frac{1}{h^{D}}k\left( \frac{\bm{x}-\bm{x}_{n}}{h}\right) \end{eqnarray} と推定する方法である。 関数$k$としては、例えば原点を中心とする単位立方体を用いることができる。 また、ガウス関数をカーネルとして用いた場合 \begin{eqnarray} p(\bm{x}) = \frac{1}{N} \sum_{n=1}^{N}\frac{1}{(2\pi h^2)^{D/2}}\exp\left\{ -\frac{||\bm{x}-\bm{x}_{n}||^2}{2h^2}\right\} \end{eqnarray} となる。 \subsection{最近傍法} 省略 \chapter{線形回帰モデル} 回帰の目標は$N$個の観測値$\{\bm{x}_{n}\}$と対応する目標値${t_{n}}$が与えられた場合に新しい$\bm{x}$に対する$t$の値を予測することである。 最も単純なアプローチは適当な関数$y(\bm{x})$を直接構成することであり、より一般的には、予測分布$p(t|\bm{x})$を構成することである。 \section{線形基底関数モデル} $M$個のパラメータ$w_{i}$および、基底関数$\phi_{i}(\bm{x})$を用いて予測関数を \begin{eqnarray} y(\bm{x},\bm{w}) = \sum_{j=0}^{M-1}w_{j}\phi_{j}(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) \end{eqnarray} とするモデルを線形基底関数モデルという。ここで$\phi_{0}=1$は定数関数で、他の$M-1$個の関数はあらかじめ決めておき、 パラメータ$w_{i}$の方は与えられたデータに基づいて何らかの方法で決定する。 \subsection{最尤推定と最小二乗法} 予測分布を決定論的な関数$y(\bm{x},\bm{w})$を中心としたガウス分布で与えることを考える。すなわち \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} とする。$N$個のデータが与えられた場合の尤度関数は \begin{eqnarray} p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x_{n}}),\beta^{-1}) \end{eqnarray} となる。その対数は \begin{eqnarray} \ln p(\bm{t}|\bm{X},\bm{w},\beta) = \sum_{n=1}^{N} \ln \mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x}),\beta^{-1}) \notag \\ = \frac{N}{2}\ln\beta -\frac{N}{2}(2\pi) - \beta E_{\mathcal{D}}(\bm{w}) \notag \\ E_{\mathcal{D}}(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{t_{n} - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \}^{2} \end{eqnarray} で与えられる。$E_{\mathcal{D}}(\bm{w})$は二乗和誤差関数であり、$\bm{w}$の最尤解はこれを最小にする。 \textcolor{blue}{これを微分すると \begin{eqnarray} \frac{\partial}{\partial w_{i}} E_{\mathcal{D}}(\bm{w}) = \sum_{n=1}^{N}\left(t_{n}-\sum_{j=0}^{M-1}w_{j}\phi_{j}(\bm{x})\right) \phi_{i}(\bm{x}_{n}) \end{eqnarray} となり、$\phi_{i}(\bm{x}_{n})=\Phi_{ni}$と書き上式を0とおくと \begin{eqnarray} \sum_{n=1}^{N}\Phi_{ni}t_{n} = \sum_{n=1}^{N}\sum_{j=0}^{M-1}\Phi_{nj}\Phi_{ni}w_{j} \end{eqnarray} より } \begin{eqnarray} \bm{w}_{\mathrm{ML}} = \left( \bm{\Phi}^{T}\bm{\Phi} \right)^{-1} \bm{\Phi}^{T} \bm{t} \end{eqnarray} を得る。また、ノイズの精度パラメータ$\beta$については \begin{eqnarray} \frac{1}{\beta_{\mathrm{ML}}} = \frac{1}{N}\sum_{n=1}^{N} \{ t_{n}-\bm{w}_{\mathrm{ML}}^{T}\bm{\phi}(\bm{x}_{n}) \}^2 \end{eqnarray} で与えられる。 \subsection{最小二乗法の幾何学} 省略 \subsection{逐次学習} 省略 \subsection{正則化最小二乗法} 省略 \subsection{出力変数が多次元の場合} 目標ベクトルが$K$次元の場合、 \begin{eqnarray} \bm{y}(\bm{x},\bm{w}) = \bm{W}^{T}\bm{\phi}(\bm{x}) \end{eqnarray} とすればよい。目標ベクトルの条件付き分布を \begin{eqnarray} p(\bm{t}|\bm{x},\bm{W},\beta) = \mathcal{N}(\bm{t}|\bm{W}^{T}\bm{\phi}(\bm{x}),\beta^{-1}\bm{I}) \end{eqnarray} と仮定する。 $n$番目の行が$\bm{t}_{n}^{T}$となる行列を$\bm{T}$とすると、 このときの対数尤度関数は \begin{eqnarray} \ln p(\bm{T}|,\bm{X},\bm{W},\beta) = \sum_{n=1}^{N}\ln \mathcal{N}(\bm{t}_{n}|\bm{W}^{T}\bm{\phi}(\bm{x}_{n}), \beta^{-1}\bm{T}) \notag \\ = \frac{NK}{2}\ln \left( \frac{\beta}{2\pi} \right) - \frac{\beta}{2}\sum_{n=1}^{N} || \bm{t}_{n}-\bm{W}^{T}\bm{\phi}(\bm{x}_{n}) ||^2 \notag \\ \end{eqnarray} であり、これを最大にする$\bm{W}$として \begin{eqnarray} \bm{W}_{\mathrm{ML}} = \left( \bm{\Phi}^{T}\bm{\Phi} \right)^{-1} \bm{\Phi}^{T} \bm{T} \end{eqnarray} を得る。 \section{バイアス‐バリアンス分解} 引き続き、入力$\bm{x}$に対して出力$t$を予測する問題を考える。1.5.5節で示したように二乗損失関数 \begin{eqnarray} \mathbb{E}[L] = \int \int \{ y(\bm{x}) -t \}^{2}p(\bm{x},t)d\bm{x}dt \end{eqnarray} を最小にする予測は \begin{eqnarray} h(\bm{x}) = \mathbb{E}[t|\bm{x}] = \int tp(t|\bm{x})dt \end{eqnarray} で与えられる。同じく1.5.5節で示したように任意の予測関数$y(\bm{x})$に対して、期待二乗損失は \begin{eqnarray} \mathbb{E}[L] = \int \{ y(\bm{x}) - h(\bm{x})\}^2 d\bm{x} + \int \int \{ h(\bm{x}) -t\}^2 p(\bm{x},t) d\bm{x}dt \end{eqnarray} で与えられる。予測関数の関数形をどのように選ぼうと、これはデータに依存する量であり、その期待値を考えることができる。上の式の第一項は \begin{eqnarray} \{y(\bm{x};\mathcal{D}) - h(\bm{x}) \}^2 \notag \\ = \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] + \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 \notag \\ = \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 + \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 \notag \\ + 2\{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \} \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \} \end{eqnarray} である。この式全体のデータ集合$\mathcal{D}$の取り方に関する期待値は \begin{eqnarray} \mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - h(\bm{x}) \}^2 ] \notag \\ = \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 \mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 ] \end{eqnarray} となる。第一項は二乗バイアスとよばれ、第二項はバリアンスと呼ばれる。 したがって、期待二乗損失のデータに対する期待値についても \begin{eqnarray} \mathbb{E}_{\mathcal{D}}[\mathbb{E}[L]] = (バイアス)^2 + バリアンス + ノイズ \notag \\ (バイアス)^2 = \int \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 p(\bm{x})d\bm{x} \notag \\ バリアンス = \int \mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 ] p(\bm{x})d\bm{x} \notag \\ ノイズ = \int \int \{ h(\bm{x}) -t\}^2 p(\bm{x},t) d\bm{x}dt \end{eqnarray} となる。 \textcolor{blue}{ ここで言っているデータの期待値を考えるというのは、データ集合$\{(\bm{x}_{i},t_{i})\}$に対して \begin{eqnarray} \prod_{i=1}^{N}\int p(\bm{x}_{i},t_{i}) d\bm{x}_{i}dt_{i} \end{eqnarray} を考えるということである。 } \section{ベイズ線形回帰} \subsection{パラメータの分布} ここではモデルパラメータの事前分布 \begin{eqnarray} p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{m}_{0},\bm{S}_{0}) \end{eqnarray} を考える。 \textcolor{blue}{ この問題では、与えられたデータ$\bm{X}=(\bm{x}_{1},\cdots,\bm{x}_{N}) ,\bm{t} = (t_{1},\cdots,t_{N})$に対して$p(\bm{w}|\bm{t},\bm{X})$を考える。 対応するベイズの定理は \begin{eqnarray} p(\bm{w}|\bm{t},\bm{X}) p(\bm{t},\bm{X}) = p(\bm{t}|\bm{X},\bm{w})p(\bm{X}|\bm{w})p(\bm{w}) \end{eqnarray} である。この問題では$\bm{X}$は$\bm{w}$に依存しない、すなわち$p(\bm{X}|\bm{w})$は$\bm{w}$によらないため \begin{eqnarray} p(\bm{w}|\bm{t},\bm{X}) \propto p(\bm{t}|\bm{X},\bm{w})p(\bm{w}) \end{eqnarray} である。 } 3.1.1節の尤度関数 \begin{eqnarray} p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x_{n}}),\beta^{-1}) \end{eqnarray} を用いると、 \begin{eqnarray} p(\bm{w}|\bm{t},\bm{X}) = \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \notag \\ \bm{m}_{N} = \bm{S}_{N}\left( \bm{S}_{0}^{-1}\bm{m}_{0} + \beta \bm{\Phi}^{T}\bm{t} \right) \notag \\ \bm{S}_{N}^{-1} = \bm{S}_{0}^{-1} + \beta \bm{\Phi}^{T}\bm{\Phi} \end{eqnarray} を得る。ただし$\phi_{i}(\bm{x}_{n}) = \Phi_{ni}$である。 \subsection{予測分布} 実際的な場面では、$\bm{w}$の値そのものよりも、新しい$\bm{x}$に対する$t$の値を予測したいのであって、それは、 \begin{eqnarray} p(t|\bm{x},\bm{t},\bm{X}) = \int p(t|\bm{x},\bm{w})p(\bm{w}|\bm{t},\bm{X})d\bm{w} \end{eqnarray} で与えられる。 \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|\bm{w}^{T}\phi(\bm{x}),\beta^{-1}) \notag \\ p(\bm{w}|\bm{t},\bm{X},\beta) = \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \end{eqnarray} を考えると、 \begin{eqnarray} p(t|\bm{x},\bm{t},\bm{X}) = \mathcal{N}(t|\bm{m}_{N}^{T}\bm{\phi}(\bm{x}),\sigma_{N}^{2}(\bm{x})) \notag \\ \sigma_{N}^{2}(\bm{x}) = \frac{1}{\beta} + \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\phi}(\bm{x}) \end{eqnarray} を得る。 \subsection{等価カーネル} $\bm{w}$の事前分布の平均値を$0$とすると \begin{eqnarray} \bm{m}_{N} = \beta \bm{S}_{N}\bm{\Phi}^{T}\bm{t} \end{eqnarray} となる。これを用いると \begin{eqnarray} y(\bm{x},\bm{m}_{N}) = \bm{m}_{N}^{T}\bm{\phi}(\bm{x}) = \beta \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\Phi}^{T}\bm{t} = \sum_{n=1}^{N}\beta \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\phi}(\bm{x}_{n})t_{n} \end{eqnarray} を得る。ここで等価カーネルと呼ばれる関数 \begin{eqnarray} k(\bm{x},\bm{x} ) = \beta \bm{\phi}(\bm{x})^{T} \bm{S}_{N}\bm{\phi}(\bm{x} ) \end{eqnarray} を定義すると \begin{eqnarray} y(\bm{x},\bm{m}_{N}) = \sum_{n=1}^{N}k(\bm{x},\bm{x}_{n})t_{n} \end{eqnarray} が成り立つ。なお、等価カーネルはその関数の定義が$\bm{S}_{N}$を通してデータ集合$\bm{x}_{n}$に依存している。 \textcolor{blue}{ また、$\bm{w}$の事前分布の分散が大きい極限では \begin{eqnarray} \bm{S}_{N}^{-1} = \beta \bm{\Phi}^{T}\bm{\Phi} \end{eqnarray} が成り立つ。この状況の下では、 \begin{eqnarray} \sum_{n=1}^{N}k(\bm{x},\bm{x}_{n}) = 1 \end{eqnarray} が全ての$\bm{x}$について成り立つ。 (本文には書いてないが、演習3.14の書き方からしても、$\bm{w}$の事前分布の分散が大きい極限であることは上の式が成り立つ必要条件になっているはず。) これは以下のように証明する。 \begin{eqnarray} \sum_{n=1}^{N}k(\bm{x},\bm{x}_{n}) = \beta \sum_{n}\sum_{ij}\phi_{i}(\bm{x})S_{Nij}\phi_{j}(\bm{x}_{n}) \notag \\ = \beta \sum_{n}\sum_{ij}\phi_{i}(\bm{x})S_{Nij}\phi_{j}(\bm{x}_{n})\phi_{0}(\bm{x}_{n}) \notag \\ = \sum_{i}\phi_{i}(\bm{x})I_{i0} \notag \\ = 1 \end{eqnarray} } \section{ベイズモデル比較} 省略 \section{エビデンス近似} 本節では、超パラメータの事前分布を導入することを考える。 \textcolor{blue}{その前に数式などを確認しておく。 その際本文に合わせ、関数形の表記からは新しい入力$\bm{x}$を省略する。 起点となるのは、目標変数$t$を決定論的な関数$y(\bm{x},\bm{w})$と加法性のガウスノイズの和で表す \begin{eqnarray} p(t|\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} である。 $\bm{w}$についての事前分布を \begin{eqnarray} p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) \end{eqnarray} とすると、データを与えた後の事後分布は \begin{eqnarray} p(\bm{w}|\bm{t},\alpha,\beta) = \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \notag \\ \bm{m}_{N} = \beta \bm{S}_{N} \bm{\Phi}^{T} \bm{t} \notag \\ \bm{S}_{N}^{-1} = \alpha \bm{I} + \beta \bm{\Phi}^{T} \bm{\Phi} \end{eqnarray} で与えられる。 } ここで$\alpha,\beta$の事前分布を導入すると、予測分布の表式は \begin{eqnarray} p(t|\bm{t}) = \int\int\int p(t|\bm{w},\beta)p(\bm{w}|\bm{t},\alpha,\beta)p(\alpha,\beta|\bm{t}) d\bm{w}d\alpha d\beta \end{eqnarray} となる。 ベイズの定理によると \begin{eqnarray} p(\alpha,\beta|\bm{t}) \propto p(\bm{t}|\alpha,\beta)p(\alpha,\beta) \end{eqnarray} である。 \subsection{エビデンス関数の評価} 周辺尤度関数$p(\bm{t}|\alpha,\beta)$は \begin{eqnarray} p(\bm{t}|\alpha,\beta) = \int p(\bm{t}|\bm{w},\beta)p(\bm{w}|\alpha)d\bm{w} \end{eqnarray} であり計算を実行すると \begin{eqnarray} p(\bm{t}|\alpha,\beta) = \left( \frac{\beta}{2\pi} \right) ^{N/2} \left( \frac{\alpha}{2\pi} \right) ^{M/2} \int \exp \{-E(\bm{w})\} d\bm{w} \notag \\ E(\bm{w}) = \beta E_{D}(\bm{w}) + \alpha E_{W}(\bm{w}) \notag \\ = \frac{\beta}{2} || \bm{t} - \bm{\Phi}\bm{w} ||^2 + \frac{\alpha}{2} \bm{w}^{T}\bm{w} \end{eqnarray} となり、さらに計算を進めると \begin{eqnarray} \int \exp\{ -E(\bm{w}) \} d\bm{w} = \exp\{ -E(\bm{m}_{N}) \} (2\pi)^{M/2} |\bm{S}_{N}^{-1}|^{-1/2} \end{eqnarray} となり、 \begin{eqnarray} \ln p(\bm{t}|\alpha,\beta) = \frac{M}{2} \ln \alpha + \frac{N}{2} \ln \beta - E(\bm{m}_{N}) - \frac{1}{2} \ln|\bm{S}_{N}^{-1}| - \frac{N}{2} \ln(2\pi) \end{eqnarray} となる。 \subsection{エビデンス関数の最大化} \textcolor{blue}{ 周辺尤度の対数を微分する過程で、本文の(3.89)式で$\bm{m}_{N}$が$\alpha$に依存されることが無視されているように見えるので保留。} \subsection{有効パラメータ数} 省略 \section{固定された基底関数の限界} 省略 \chapter{線形識別モデル} 本章では、ある入力ベクトル$\bm{x}$を$K$個の離散クラス$\mathcal{C}_{k}$に割り当てる問題を考える。 \section{識別関数} \subsection{2クラス} $K=2$の場合に最も簡単な識別関数の表現は \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{x} + w_{0} \end{eqnarray} を考え、入力ベクトル$\bm{x}$を$y(\bm{x})\leq 0$ならば$\mathcal{C}_{1}$に、$y(\bm{x}) 0$ならば$\mathcal{C}_{2}$に割り当てることである。 \subsection{多クラス} 前節の内容を多クラスに一般化することを考える。それには、$K$個の線形関数 \begin{eqnarray} y_{k}(\bm{x}) = \bm{w}_{k}^{T}\bm{x} + w_{k0} \end{eqnarray} を用いて、全ての$j\neq k$に対して$y_{k}(\bm{x}) y_{j}(\bm{x})$である場合、点$\bm{x}$をクラス$\mathcal{C}_{k}$に割り当てればよい。 この場合2点$\bm{x}_{A},\bm{x}_{B}$が決定領域$\mathcal{R}_{k}$に属するとすると、2点を結ぶ線分上の点も$\bm{x}_{C}$もまた$\mathcal{R}_{k}$に属する。 これは以下のように証明できる。 \begin{eqnarray} y_{k}(\bm{x}_{C}) = y_{k}(\lambda\bm{x}_{A} + (1-\lambda)\bm{x}_{B}) \notag \\ = \lambda y_{k}(\bm{x}_{A}) + (1-\lambda)y_{k}(\bm{x}_{B}) \notag \\ \geq \lambda y_{j}(\bm{x}_{A}) + (1-\lambda)y_{j}(\bm{x}_{B}) \notag \\ = y_{j}(\bm{x}_{C}) \end{eqnarray} \subsection{分類における最小二乗} \textcolor{blue}{ この節では3.1節の手法を線形識別にそのまま用いることを考える。 それには、各クラスに対応する目的変数ベクトル$\bm{t}$を$1$-of-$K$符号化法により定めて、 \begin{eqnarray} y_{k}(\bm{x}) = \sum_{j=0}^{D}w_{kj}\phi_{j}(\bm{x}) \end{eqnarray} を考えて、$\phi_{0}(\bm{x}) = 1$および$\phi_{j}(\bm{x}) = x_{j}\ (j\geq1)$を考えればよい。 $\tilde{\bm{x}} = (1,\bm{x}^{T})^{T}$とすれば $K$個の要素は行列の表式で \begin{eqnarray} \bm{y}(\bm{x}) = \tilde{\bm{W}}^{T}\tilde{\bm{x}} \end{eqnarray} と書ける。 $\phi_{i}(\bm{x}_{n})=\Phi_{ni}$としたのと同様に、$\tilde{\bm{X}}_{ni} = \tilde{\bm{x}}_{ni}$ と定義すれば \begin{eqnarray} \tilde{\bm{W}} = \left( \tilde{\bm{X}}^{T}\tilde{\bm{X}} \right)^{-1} \tilde{\bm{X}}^{T} \bm{T} \end{eqnarray} を得る。 演習4.2は長いので省略 } \subsection{フィッシャーの線形判別} 2クラスの分類を次元の削減という観点から考える。 $D$次元の入力ベクトルを得て、それを1次元に射影することを考える。すなわち \begin{eqnarray} y = \bm{w}^{T}\bm{x} \end{eqnarray} を考える。また、クラス$\mathcal{C}_{1}$とクラス$\mathcal{C}_{2}$の平均ベクトル \begin{eqnarray} \bm{m}_{1} = \frac{1}{N_1}\sum_{n\in \mathcal{C}_{1}}\bm{x}_{n}, \quad \bm{m}_{2} = \frac{1}{N_2}\sum_{n\in \mathcal{C}_{2}}\bm{x}_{n}, \quad \end{eqnarray} を考える。 \begin{eqnarray} m_{k} = \bm{w}^{T}\bm{m}_{k} \end{eqnarray} を定義した時に \begin{eqnarray} m_{2}-m_{1} = \bm{w}^{T}(\bm{m}_{2}-\bm{m}_{1}) \end{eqnarray} の値が大きいベクトルは、2つのクラスを分類する適切なベクトルであると考えられる。 さらに、クラス内の分散 \begin{eqnarray} s_{k}^{2} = \sum_{n\in \mathcal{C}_{k}}(\bm{w}^{T}\bm{x}_{n} -m_{k})^2 \end{eqnarray} は小さい方が、各クラスを特徴づける適切なベクトルであると考えられる。 そこで、フィッシャーの判別基準 \begin{eqnarray} J(\bm{w}) = \frac{(m_{2}-m_{1})^2}{s_{1}^{2}+s_{2}^{2}} \end{eqnarray} を最大化することを考える。これは各量の定義から \begin{eqnarray} J(\bm{w}) = \frac{\bm{w}^{T}\bm{S}_{\mathrm{B}}\bm{w}}{\bm{w}^{T}\bm{S}_{\mathrm{W}}\bm{w}} \notag \\ \mathrm{S}_{\mathrm{B}} = (\bm{m}_{2}-\bm{m}_{1}) (\bm{m}_{2}-\bm{m}_{1})^{T} \notag \\ \mathrm{S}_{\mathrm{W}} = \sum_{n\in \mathcal{C}_{1}} (\bm{x}_{n}-\bm{m}_{1}) (\bm{x}_{n}-\bm{m}_{1})^{T} \sum_{n\in \mathcal{C}_{2}} (\bm{x}_{n}-\bm{m}_{2}) (\bm{x}_{n}-\bm{m}_{2})^{T} \notag \\ \end{eqnarray} となり、これを$\bm{w}$に関して微分することで \textcolor{blue}{(この場合は本文(4.22)と異なり分母にも$\bm{w}$があるためにラグランジュ未定乗数は必要ない)} \begin{eqnarray} (\bm{w}^{T}\bm{S}_{\mathrm{B}}\bm{w})\bm{S}_{\mathrm{W}}\bm{w} = (\bm{w}^{T}\bm{S}_{\mathrm{W}}\bm{w})\bm{S}_{\mathrm{B}}\bm{w} \end{eqnarray} を得る。$\bm{S}_{\mathrm{B}}\bm{w}$が常に$(\bm{m}_{2}-\bm{m}_{1})$の方向を向いていること、$\bm{w}$はその方向だけが重要であることから \begin{eqnarray} \bm{w} \propto \bm{S}_{\mathrm{W}}^{-1}(\bm{m}_{2}-\bm{m}_{1}) \end{eqnarray} がわかる。 \subsection{最小二乗との関連} 省略 \subsection{多クラスにおけるフィッシャーの判別} 省略 \subsection{パーセプトロンアルゴリズム} 省略 \section{確率的生成モデル} ここでは、クラスの条件付き確率密度$p(\bm{x}|\mathcal{C}_{k})$とクラスの事前確率$p(\mathcal{C}_{k})$をモデル化する生成的アプローチを考える。 2クラスの場合、事後確率は \begin{eqnarray} p(\mathcal{C}_{1}|\bm{x}) = \frac{p(\bm{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})}{p(\bm{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})+p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} \notag \\ = \frac{1}{1+\exp(-a)} = \sigma(a) \end{eqnarray} となる。ここで \begin{eqnarray} a = \ln \frac{p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})}{p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} \end{eqnarray} $\sigma(a)$はロジスティックシグモイド関数である。 また$K 2$クラスの場合、事後確率は \begin{eqnarray} p(\mathcal{C}_{k}|\bm{x}) = \frac{p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})}{\sum_{j}p(\bm{x}|\mathcal{C}_{j})p(\mathcal{C}_{j})} \notag \\ = \frac{\exp(a_{k})}{\sum_{j}\exp(a_{j})} \end{eqnarray} で与えられる。ただし \begin{eqnarray} a_{k} = \ln(p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})) \end{eqnarray} である。 \subsection{連続値入力} クラス$\mathcal{C}_{k}$の確率密度が \begin{eqnarray} p(\bm{x}|\mathcal{C}_{k}) = \frac{1}{(2\pi)^{D/2}|\bm{\Sigma}|^{1/2}} \exp \left \{ -\frac{1}{2}(\bm{x}-\bm{\mu}_{k})^{T} \bm{\Sigma}^{-1}(\bm{x}-\bm{\mu}_{k}) \right \} \end{eqnarray} の場合を考える。 2クラスの場合は \begin{eqnarray} p(\mathcal{C}_{1}|\bm{x}) = \sigma(\bm{w}^{T}\bm{x} + w_{0}) \notag \\ \bm{w} = \bm{\Sigma}^{-1}(\bm{\mu}_{1}-\bm{\mu}_{2}) \notag \\ w_{0} = -\frac{1}{2}\bm{\mu}_{1}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{1} + \frac{1}{2}\bm{\mu}_{2}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{2} + \ln \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} \end{eqnarray} を得る。多クラスの場合は \begin{eqnarray} p(\mathcal{C}_{k}|\bm{x}) = \frac{\exp(a_{k}(\bm{x}))}{\sum_{j}\exp(a_{j}(\bm{x}))} \notag \\ a_{k}(\bm{x}) = \bm{w}_{k}^{T}\bm{x} + w_{k0} \notag \\ \bm{w}_{k} = \bm{\Sigma}^{-1}\bm{\mu}_{k} \notag \\ w_{k0} = -\frac{1}{2} \bm{\mu}_{k}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{k} + \ln p(\mathcal{C}_{k}) \end{eqnarray} \subsection{最尤解} 2クラス分類の問題を考えて、各クラスの事前確率を$p(\mathcal{C}_{1})=\pi,\ p(\mathcal{C}_{2})=1-\pi$と仮定し、各クラスの条件付き確率密度をガウス分布とすると \begin{eqnarray} p(\bm{x}_{n},\mathcal{C}_{1}) = p(\mathcal{C}_{1})p(\bm{x}_{n}|\mathcal{C}_{1}) = \pi \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{1},\bm{\Sigma}) \notag \\ p(\bm{x}_{n},\mathcal{C}_{2}) = p(\mathcal{C}_{2})p(\bm{x}_{n}|\mathcal{C}_{2}) = (1-\pi) \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{2},\bm{\Sigma}) \end{eqnarray} となる。ここでは、データ集合$\{ \bm{x}_{n},t_{n} \}$が与えられた場合の各パラメータの最尤解を考える。ただし、$t_{n}=1$がクラス$\mathcal{C}_{1}$に$t_{n}=0$がクラス$\mathcal{C}_{2}$にそれぞれ対応する。 尤度関数は \begin{eqnarray} p(\bm{t},\bm{X}|\pi, \bm{\mu}_{1}, \bm{\mu}_{2}, \bm{\Sigma}) = \prod_{n=1}^{N} [\pi\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{1},\bm{\Sigma})]^{t_{n}} [(1-\pi)\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{2},\bm{\Sigma})]^{1-t_{n}} \notag \\ \end{eqnarray} で与えられ、各パラメータに対する対数の微分を0とおくと \begin{eqnarray} \pi = \frac{N_{1}}{N_{1}+N_{2}} \notag \\ \bm{\mu}_{1} = \frac{1}{N_{1}} \sum_{n=1}^{N}t_{n}\bm{x}_{n} \notag \\ \bm{\mu}_{2} = \frac{1}{N_{2}} \sum_{n=2}^{N}(1-t_{n}) \bm{x}_{n} \notag \\ \bm{\Sigma} = \frac{N_{1}}{N} \bm{S}_{1} + \frac{N_{2}}{N} \bm{S}_{2} \notag \\ \bm{S}_{i} = \frac{1}{N_{i}} \sum_{n\in \mathcal{C}_{1}} (\bm{x}-\bm{u}_{i}) (\bm{x}-\bm{u}_{i})^{T} \end{eqnarray} を得る。ここで$N_{i}$はクラス$\mathcal{C}_{i}$に属するデータ点の個数である。 \subsection{離散特徴} 省略 \subsection{指数型分布族} 省略 \section{確率的識別モデル} \subsection{固定既定関数} 省略 \subsection{ロジスティック回帰} 2クラス分類問題における一般化線形モデルを考える。このモデルでは、特徴ベクトル$\bm{\phi}$が与えられたときのクラス$\mathcal{C}_{1}$の事後確率は \begin{eqnarray} p(\mathcal{C}_{1}|\bm{\phi}) = y(\bm{\phi}) = \sigma(\bm{w}^{T}\bm{\phi}) \end{eqnarray} と与えられる。 \textcolor{blue}{ここで$\bm{\phi}$を用いているのは、特徴ベクトル$\bm{\phi}$が入力$\bm{x}$の関数であっても議論が成立するためと考えられる} ここではこのモデルのパラメータを最尤法を用いて決定する。 データ集合に対する尤度関数は \begin{eqnarray} p(\bm{t}|\bm{w}) = \prod_{n=1}^{N}y_{n}^{t_{n}}(1-y_{n})^{1-t_{n}} \end{eqnarray} となる。ただし$y_{n}=p(\mathcal{C}_{1}|\bm{\phi}_{n})$である。 尤度の負の対数を誤差関数とすると、 \begin{eqnarray} E(\bm{w}) = -\ln p(\bm{t}|\bm{w}) = -\sum_{n=1}^{N} \{ t_{n}\ln y_{n} + (1-t_{n})\ln(1-y_{n}) \} \end{eqnarray} となる。ここで$y_{n}=\sigma(\bm{w}^{T}\bm{\phi}_{n})$である。 これを$\bm{w}$について微分すると \begin{eqnarray} \nabla E(\bm{w}) = \sum_{n=1}^{N}(y_{n}-t_{n})\bm{\phi}_{n} \end{eqnarray} が得られる。 \textcolor{blue}{この手法を用いると図4.5の右の分類ができるらしいのだけれど、よくわからない。} \subsection{反復再重みづけ最小二乗} 関数$E(\bm{w})$を最小化するために \begin{eqnarray} \bm{w}^{\mathrm{(new)}} = \bm{w}^{\mathrm{(old)}} - \bm{H}^{-1}\nabla E(\bm{w}) \notag \\ \bm{H} = \nabla\nabla E(\bm{w}) \end{eqnarray} により順次ベクトルを更新していく手法をニュートン‐ラフソン法という。 線形回帰モデルにおける二乗和誤差関数 \begin{eqnarray} E_{\mathrm{D}}(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N} \{ t_{n} - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \}^2 \end{eqnarray} の場合 \begin{eqnarray} \nabla E(\bm{w}) = \sum_{n=1}^{N}(\bm{w}^{T}\bm{\phi}_{n}-t_{n})\bm{\phi}_{n} = \bm{\Phi}^{T}\bm{\Phi}\bm{w}-\bm{\Phi}^{T}\bm{t} \notag \\ \bm{H} = \nabla\nabla E(\bm{w}) = \bm{\Phi}^{T}\bm{\Phi} \end{eqnarray} であるため \begin{eqnarray} \bm{w}^{\mathrm{(new)}} = \bm{w}^{\mathrm{(old)}} - (\bm{\Phi}^{T}\bm{\Phi})^{-1} \left\{ \bm{\Phi}^{T}\bm{\Phi}\bm{w}-\bm{\Phi}^{T}\bm{t} \right\} \notag \\ = (\bm{\Phi}^{T}\bm{\Phi})^{-1} \bm{\Phi}^{T} \bm{t} \end{eqnarray} となるため、一度で最小二乗解に到達する。これは誤差関数が$\bm{w}$の二次関数だからである。 一方ロジスティック回帰の交差エントロピー誤差関数の場合 \begin{eqnarray} \nabla E(\bm{w}) = \sum_{n=1}^{N}(y_{n}-t_{n})\bm{\phi}_{n} = \bm{\Phi}^{T}(\bm{y}-\bm{t}) \notag \\ \bm{H} = \sum_{n=1}^{N}y_{n}(1-y_{n})\bm{\phi}_{n}\bm{\phi}_{n}^{T} = \bm{\Phi}^{T}\bm{R}\bm{\Phi} \end{eqnarray} となる。ここで$\bm{R}$は \begin{eqnarray} R_{nn} = y_{n}(1-y_{n}) \end{eqnarray} を満たす対角行列である。 \subsection{多クラスロジスティック回帰} 多クラスの事後確率は \begin{eqnarray} p(\mathcal{C}_{k}|\bm{\phi}) = y_{k}(\bm{\phi}) = \frac{\exp(a_{k})}{\sum_{j}\exp(a_{j})} \end{eqnarray} と与えられるが、ここでは \begin{eqnarray} a_{k} = \bm{w}_{k}^{T}\bm{\phi} \end{eqnarray} となるモデルを考え、最尤法を用いて$\bm{w}_{k}$を決定する。 目的変数ベクトルについては1-of-K符号化法を使うことで、与えられたデータに関する尤度関数は$y_{k}(\bm{\phi}_{n})=y_{nk}$と書いて \begin{eqnarray} p(\bm{T}|\bm{w}_{1},\cdots,\bm{w}_{K}) = \prod_{n=1}^{N}\prod_{k=1}^{K}p(\mathcal{C}_{k}|\bm{\phi}_{n})^{t_{nk}} = \prod_{n=1}^{N}\prod_{k=1}^{K}y_{nk}^{t_{nk}} \end{eqnarray} であり、負の対数を取ると、 \begin{eqnarray} E(\bm{w}_{1},\cdots,\bm{w}_{K}) = -\ln p(\bm{T}|\bm{w}_{1},\cdots,\bm{w}_{K}) = -\sum_{n=1}^{N}\sum_{k=1}^{K}t_{nk}\ln y_{nk} \end{eqnarray} となる。この勾配は \begin{eqnarray} \nabla_{\bm{w}_{j}} E(\bm{w}_{1},\cdots,\bm{w}_{K}) = \sum_{n=1}^{N}(y_{nj}-t_{nj})\bm{\phi}_{n} \end{eqnarray} で与えられ、ヘッセ行列の$M\times M$サイズのブロックは \begin{eqnarray} \nabla_{\bm{w}_{k}} \nabla_{\bm{w}_{j}} E(\bm{w}_{1},\cdots,\bm{w}_{K}) = \sum_{n=1}^{N}y_{nk}(I_{kj}-y_{nj})\bm{\phi}_{n}\bm{\phi}_{n}^{T} \end{eqnarray} で与えられる。 \textcolor{blue}{このヘッセ行列の半正定値性は以下のようにして示すことができる。 ヘッセ行列を$\bm{H}$と書き、ベクトルを$\bm{v}=(\bm{v}_{1}^{T},\cdots,\bm{v}_{K}^{T})^{T}$と書くことにすると、 \begin{eqnarray} \bm{v}^{T}\bm{H}\bm{v} = \sum_{n=1}^{N}\sum_{k,j=1}^{K}y_{nk}(I_{kj}-y_{nj})\bm{v}_{k}^{T}\bm{\phi}_{n}\bm{\phi}_{n}^{T}\bm{v}_{j} \notag \\ \sum_{k,j=1}^{K}y_{nk}(I_{kj}-y_{nj})\bm{v}_{k}^{T}\bm{\phi}_{n}\bm{\phi}_{n}^{T}\bm{v}_{j} = \sum_{k}y_{nk}(\bm{v}^{T}\bm{\phi}_{k})^{2} - \left(\sum_{k}y_{nk}\bm{v}_{k}^{T}\bm{\phi}_{k} \right)^{2} \notag \\ = \sum_{k}y_{nk}\left(a_{k}-\sum_{j}y_{nj}a_{j}\right)^{2} \geq 0 \end{eqnarray} より。ここで$a_{k} = \bm{v}_{k}^{T}\bm{\phi}_{n}$とした。 } \subsection{正準連結関数} \textcolor{blue}{この節の内容は線形識別モデルに限った話ではないように思える。} 入力$\bm{\phi}$に対する出力$t$が存在する系に対して、以下の式で与えられる確率分布を考える。 \begin{eqnarray} p(t|\eta=\psi(f(\bm{w}^{T}\bm{\phi})),s) = \frac{1}{s}h\left(\frac{t}{s}\right)g(\eta) \exp \left \{ \frac{\eta t}{s} \right \} \end{eqnarray} ここで関数$g$は規格化因子であり \begin{eqnarray} g(\eta) = \frac{1}{\int \frac{1}{s}h\left(\frac{t}{s}\right) \exp \left \{ \frac{\eta t}{s} \right \}dt } \end{eqnarray} である。また$y$で表現される$t$の条件付き平均が \begin{eqnarray} y \equiv \mathbb[t|\eta] = -s\frac{d}{d\eta}\ln g(\eta) \end{eqnarray} で与えられるが、$y$と$\eta$のこの関係を表すのが関数$\eta = \psi(y)$である。 $f$は何らかの非線形関数である。 このモデルを一般化線形モデルという。 このモデルについて、データが与えられた場合の$\bm{w}$を最尤法で考える。 データ$\{\bm{\phi}_{n}, t_{n} \}$が与えられた場合の対数尤度関数は \begin{eqnarray} \ln p(\bm{t}|\eta,s) = \sum_{n=1}^{N}\ln p(t_{n}|\eta_{n},s) \notag \\ = \sum_{n=1}^{N} \left \{ \ln g(\eta_{n}) + \frac{\eta_{n}t_{n}}{s} \right \} + \bm{w}によらない定数 \end{eqnarray} で与えられる。これを$\bm{w}$で微分すると \begin{eqnarray} \nabla_{\bm{w}} \ln p(\bm{t}|\eta,s) = \sum_{n=1}^{N} \left \{ \frac{d}{d\eta_{n}} \ln g(\eta_{n}) + \frac{t_{n}}{s} \right \} \frac{d\eta_{n}}{dy_{n}} \frac{dy_{n}}{da_{n}} \nabla a_{n} \notag \\ = \sum_{n=1}^{N}\frac{1}{s} \{ t_{n}-y_{n} \} \psi (y_{n}) f (a_{n})\bm{\phi_{n}} \end{eqnarray} ここで$a_{n}=\bm{w}^{T}\bm{\phi}$である。ここで \begin{eqnarray} f^{-1}(y) = \psi(y) \end{eqnarray} となるように関数$f$を選ぶと、$f(\psi(y))=y$より$f (\psi)\psi (y)=1$となり、誤差関数の勾配として \begin{eqnarray} \nabla E(\bm{w}) = \frac{1}{s} \sum_{n=1}^{N} \{ y_{n}-t_{n} \} \bm{\phi}_{n} \end{eqnarray} を得る。 \textcolor{blue}{ 難しく書かれているが結局本文(4.124)が成り立つモデルは \begin{eqnarray} p(t|\bm{w}^{T}\bm{\phi},s) = \frac{1}{s}h\left(\frac{t}{s}\right)g(\bm{w}^{T}\bm{\phi}) \exp \left \{ \frac{\bm{w}^{T}\bm{\phi} t}{s} \right \} \end{eqnarray} となるはず。 } \section{ラプラス近似} ある確率分布を、そのモードを平均とするガウス分布で近似する手法をラプラス近似という。 すなわち \begin{eqnarray} p(z) = \frac{1}{Z}f(z) \end{eqnarray} に対して、 \begin{eqnarray} \left. \frac{df(z)}{dz}\right|_{z=z_{0}} = 0 \end{eqnarray} なる$z_{0}$を求め、 \begin{eqnarray} A = - \left. \frac{d^2}{dz^2} \ln f(z) \right |_{z=z_{0}} \end{eqnarray} を計算し、 \begin{eqnarray} q(z) = \left( \frac{A}{2\pi} \right)^{1/2} \exp \left \{ -\frac{A}{2}(z-z_{0})^2 \right \} \end{eqnarray} で近似することをいう。 多変数の場合も同様である。 \subsection{モデルの比較とBIC} 省略 \section{ベイズロジスティック回帰} この節ではロジスティック回帰のベイズ的な取り扱いについて考える。 \subsection{ラプラス近似} 2クラスのロジスティック回帰問題を考える。すなわち、パラメータ$\bm{w}$が与えられた場合のデータ$\bm{t}$の尤度関数が \begin{eqnarray} p(\bm{t}|\bm{w}) = \prod_{n=1}^{N}y_{n}^{t_n} \{ 1-y_{n} \} ^{1-t_{n}} \notag \\ y_{n} = \sigma(\bm{w}^{T}\bm{\phi}_{n}) \end{eqnarray} で与えられるモデルで、$\bm{w}$の事前分布がガウス分布により \begin{eqnarray} p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{m}_{0}, \bm{S}_{0}) \end{eqnarray} で与えられるとする。 この時事後確率分布は \begin{eqnarray} p(\bm{w}|\bm{t}) \propto p(\bm{w}) p(\bm{t}|\bm{w}) \end{eqnarray} であり、対数尤度関数は \begin{eqnarray} \ln p(\bm{w}|\bm{t}) = -\frac{1}{2}(\bm{w}-\bm{m}_{0})^{T}\bm{S}_{0}^{-1}(\bm{w}-\bm{m}_{0}) \notag \\ + \sum_{n=1}^{N} \{ t_{n}\ln y_{n} + (1-t_{n})\ln(1-y_{n}) \} + 定数 \end{eqnarray} となる。ラプラス近似を行う場合、2回微分が必要になるが、これは \begin{eqnarray} \bm{S}_{N}^{-1} = -\nabla\nabla \ln p(\bm{w}|\bm{t}) = \bm{S}_{0}^{-1} + \sum_{n=1}^{N}y_{n}(1-y_{n}) \bm{\phi}_{n}\bm{\phi}_{n}^{T} \end{eqnarray} で与えられる。よって、事後確率のラプラス近似の結果として、 \begin{eqnarray} q(\bm{w}) = \mathcal{N}(\bm{w} | \bm{w}_{\mathrm{MAP}}, \bm{S}_{N}) \end{eqnarray} を得る。 \textcolor{blue} {$\bm{w}_{\mathrm{MAP}}$は何らかの反復法などで求められると考えられる。} \subsection{予測分布} 前節の結果に基づき、新たな入力$\bm{\phi}$が与えられた場合の予測分布 \begin{eqnarray} p(\mathcal{C}_{1}|\bm{\phi}, \bm{t}) = \int p(\mathcal{C}_{1}|\bm{\phi}, \bm{w}) p(\bm{w}|\bm{t}) d\bm{w} \notag \\ \approx \int \sigma(\bm{w}^{T}\bm{\phi})q(\bm{w}) d\bm{w} \end{eqnarray} について考える。デルタ関数を用いると \begin{eqnarray} \sigma(\bm{w}^{T}\bm{\phi}) = \int \delta(a-\bm{w}^{T}\bm{\phi}) \sigma(a)da \end{eqnarray} と書けるため、 \begin{eqnarray} \int \sigma(\bm{w}^{T}\bm{\phi})q(\bm{w}) d\bm{w} = \int \sigma(a)p(a)da \notag \\ p(a) = \int \delta(a-\bm{w}^{T}\bm{\sigma})q(\bm{w}) d\bm{w} \end{eqnarray} が成り立つ。2.3.2節の結果より、$p(a)$はガウス分布であるから \textcolor{blue}{($\bm{w}$の一つの成分に関する積分を実行すると、その成分が$a$を含む式で置き換わるため。)} 平均と分散がわかれば、分布がわかったことになる。 これらは \begin{eqnarray} \mu_{a} = \mathbb{E}[a] = \int p(a)ada = \int q(\bm{w}) \bm{w}^{T}\bm{\phi} d\bm{w} = \bm{w}_{\mathrm{MAP}}^{T}\bm{\phi} \notag \\ \sigma_{a}^{2} = \mathrm{var}[a] = \int p(a) \{ a^{2}-\mathbb{E}[a]^{2} \} da \notag \\ = \int q(\bm{w}) \{ (\bm{w}^{T}\bm{\phi})^2 - (\bm{w}_{\mathrm{MAP}}^{T}\bm{\phi})^2 \} d\bm{w} = \bm{\phi}^{T}\bm{S}_{N}\bm{\phi} \end{eqnarray} により与えられるため、 \begin{eqnarray} p(\mathcal{C}_{1}|\bm{\phi}, \bm{t}) = \int \sigma(a)p(a) da = \int \sigma(a) \mathcal{N}(a|\mu_{a},\sigma_{a}^2) da \end{eqnarray} となる。以下省略。 \chapter{ニューラルネットワーク} \section{フィードフォワードネットワーク関数} 以下ではパラメータベクトル$\bm{w}$で制御される、入力変数の集合$\{x_{i}\}$から出力変数の集合$\{y_{k}\}$への非線形関数 \begin{eqnarray} y_{k}(\bm{w},\bm{w}) = \sigma \left( \sum_{j=1}^{M}w_{kj}^{(2)}h\left( \sum_{i=1}^{D}w_{ji}^{(1)}x_{i} + w_{j0}^{(1)} \right) + w_{k0}^{(2)} \right) \notag \\ = \sigma \left( \sum_{j=0}^{M}w_{kj}^{(2)}h\left( \sum_{i=0}^{D}w_{ji}^{(1)}x_{i} \right) \right) \end{eqnarray} を考える。ここで関数$h$は何らかの関数である。 また、より一般的な図5.2のような構造を持った関数も考えることができて、各ユニットが \begin{eqnarray} z_{k} = h\left( \sum_{j}w_{kj}z_{j} \right) \end{eqnarray} を計算する。 \subsection{重み空間対称性} 省略 \section{ネットワーク訓練} 導入部分に書いてあることは単純なので省略 \subsection{パラメータ最適化} 省略 \subsection{局所二次近似} 省略 \subsection{勾配情報の利用} 省略 \subsection{勾配降下最適化} 省略 \section{誤差逆伝播} \subsection{誤差関数微分の評価} 以下では誤差関数が、訓練集合の各データに対応する誤差項の和 \begin{eqnarray} E(\bm{w}) = \sum_{n=1}^{N}E_{n}(\bm{w}) \end{eqnarray} と表される場合を考える。 一般のフィードフォワードネットワークでは、それぞれのユニットの出力が \begin{eqnarray} a_{j} = \sum_{i}w_{ji}z_{i} \notag \\ z_{j} = h(a_{j}) \end{eqnarray} で与えられる。 誤差関数の微分は \begin{eqnarray} \frac{\partial E_{n}}{\partial w_{ji}} = \frac{\partial E_{n}}{\partial a_{j}} \frac{\partial a_{j}}{\partial w_{ji}} \notag \\ = \delta_{j}z_{i} \end{eqnarray} となる。ただし \begin{eqnarray} \delta_{j} \equiv \frac{\partial E_{n}}{\partial a_{j}} \end{eqnarray} であり、これは誤差とよばれる。これの評価は \begin{eqnarray} \delta_{j} \equiv \frac{\partial E_{n}}{\partial a_{j}} = \sum_{k} \frac{\partial E_{n}}{\partial a_{k}} \frac{\partial a_{k}}{\partial a_{j}} \notag \\ = h (a_{j}) \sum_{k}w_{kj}\delta_{k} \end{eqnarray} となっている。すなわち、ユニット$j$の誤差はそれよりも出力に近い側のユニットの誤差に依存しているのであり、逆伝播の公式と呼ばれる。 \subsection{単純な例} 省略 \subsection{逆伝播の効率} 省略 \subsection{ヤコビ行列} ここではネットワークの出力の入力に関する微分 \begin{eqnarray} J_{ki} \equiv \frac{\partial y_{k}}{\partial x_{i}} \end{eqnarray} を考える。これはヤコビ行列と呼ばれ \begin{eqnarray} J_{ki} = \frac{\partial y_{k}}{\partial x_{i}} = \sum_{j}\frac{\partial y_{k}}{\partial a_{j}} \frac{\partial a_{j}}{\partial x_{i}} \notag \\ = \sum_{j}w_{ji} \frac{\partial y_{k}}{\partial a_{j}} \notag \\ = \sum_{j}w_{ji} \sum_{l} \frac{\partial y_{k}}{\partial a_{l}} \frac{\partial a_{l}}{\partial a_{j}} \notag \\ = \sum_{j}w_{ji} h (a_{j}) \sum_{l} w_{lj} \frac{\partial y_{k}}{\partial a_{l}} \end{eqnarray} と逐次的に評価される。 \textcolor{blue}{ 演習5.15と関連するか不明であるが、上の式は \begin{eqnarray} J_{ki} = \frac{\partial y_{k}}{\partial x_{i}} = \sum_{l} \frac{\partial y_{k}}{\partial a_{l}} \sum_{j} w_{lj} h (a_{j}) w_{ji} \end{eqnarray} と書いた方が理解しやすい気がする。} \section{ヘッセ行列} 以下では誤差関数の2階微分 \begin{eqnarray} \frac{\partial^2 E}{\partial w_{ji}\partial w_{lk}} \end{eqnarray} について考える。 \subsection{対角近似} ヘッセ行列を対角成分だけ考えると \begin{eqnarray} \frac{\partial^2 E}{\partial w_{ji}^2} = \frac{\partial^2 E}{\partial a_{j}^2}z_{i}^2 \notag \\ \frac{\partial^2 E}{\partial a_{j}^2} = h (a_{j})^2\sum_{kk }w_{kj}w_{k j} \frac{\partial^2 E_{n}}{\partial a_{k}\partial a_{k }} + h (a_{j}) \sum_{k}w_{kj}\frac{\partial E_{n}}{\partial a_{k}} \end{eqnarray} を得る。2階微分についての非対角項を無視すると \begin{eqnarray} \frac{\partial^2 E}{\partial a_{j}^2} \approx h (a_{j})^2 \sum_{k} w_{kj}^{2} \frac{\partial^2 E_{n}}{\partial a_{k}^2} + h (a_{j})\sum_{k} w_{kj} \frac{\partial E_{n}}{\partial a_{k}} \end{eqnarray} \subsection{外積による近似} 回帰問題を考える場合、通常は \begin{eqnarray} E = \frac{1}{2} \sum_{n=1}^{N}(y_{n}-t_{n})^2 \end{eqnarray} の形を考える。このとき、ヘッセ行列は \begin{eqnarray} \bm{H} = \nabla \nabla E = \sum_{n=1}^{N}\nabla y_{n}(\nabla y_{n})^{T} + \sum_{n=1}^{N}(y_{n}-t_{n})\nabla \nabla y_{n} \end{eqnarray} で表されるが、このうち第一項だけでヘッセ行列を近似することを外積による近似という。 \subsection{ヘッセ行列の逆行列} 省略 \subsection{有限幅の差分による近似} 省略 \subsection{ヘッセ行列の厳密な評価} 省略 \subsection{ヘッセ行列の積の高速な計算} 多くの場合、興味ある量はヘッセ行列$\bm{H}$そのものではなく、$\bm{H}$と何らかのベクトル$\bm{v}$の積$\bm{v}^{T}\bm{H}$である。 これは \begin{eqnarray} \bm{v}^{T}\bm{H} = \bm{v}^{T}\nabla (\nabla E) \end{eqnarray} で与えられる量であり、以後$\bm{v}^{T}\nabla$を作用させることを$\mathcal{R}\{\cdot\}$とかく。 \textcolor{blue}{より明示的に書けば \begin{eqnarray} \mathcal{R}\{ f \} = \sum_{ij}v_{ij} \frac{\partial }{\partial w_{ij}}f \end{eqnarray} である。 } 2層ネットワーク \begin{eqnarray} a_{j} = \sum_{i}w_{ji}x_{i} \notag \\ z_{j} = h(a_{j}) \notag \\ y_{k} = \sum_{j}w_{kj}z_{j} \end{eqnarray} に対して \begin{eqnarray} \mathcal{R}\{a_{j}\} = \sum_{i}v_{ji}x_{i} \notag \\ \mathcal{R}\{z_{j}\} = h (a_{j})\mathcal{R}\{a_{j}\} \notag \\ \mathcal{R}\{y_{k}\} = \sum_{j}w_{kj}\mathcal{R}\{z_{j}\} + \sum_{j}v_{kj}z_{j} \end{eqnarray} が成り立つ。また、誤差関数として二乗和誤差関数を考えているので \begin{eqnarray} \delta_{k} \equiv \frac{\partial E}{\partial y_{k}} = y_{k} - t_{k} \notag \\ \delta_{j} \equiv \frac{\partial E}{\partial a_{j}} = h (a_{j}) \sum_{k} w_{kj} \delta_{k} \end{eqnarray} であり、 \begin{eqnarray} \mathcal{R}\{ \delta_{k} \} = \mathcal{R} \{ y_{k} \} \notag \\ \mathcal{R}\{ \delta_{j} \} = h (a_{j}) \mathcal{R}\{a_{j}\} \sum_{k}w_{kj}\delta_{k} + h (a_{j})\sum_{k}v_{kj}\delta_{k} + h (a_{j})\sum_{k}w_{kj}\mathcal{R}\{\delta_{k} \} \notag \\ \end{eqnarray} が成り立つ。最後に誤差関数の1階微分は \begin{eqnarray} \frac{\partial E}{\partial w_{kj}} = \delta_{k}z_{j} \notag \\ \frac{\partial E}{\partial w_{ji}} = \delta_{j}x_{i} \end{eqnarray} であるため、ベクトル$\bm{v}^{T}\bm{H}$の要素の式 \begin{eqnarray} \mathcal{R} \left \{ \frac{ \partial E}{\partial w_{kj}} \right \} = \mathcal{R} \{ \delta_{k} \} z_{j} + \delta_{k}\mathcal{R} \{ z_{j} \} \notag \\ \mathcal{R} \left \{ \frac{ \partial E}{\partial w_{ji}} \right \} = x_{i}\mathcal{R} \{ \delta_{j} \} \end{eqnarray} が得られる。 \section{ニューラルネットワークの正則化} ニューラルネットワークの学習でも、過学習を防ぐために、正則化誤差 \begin{eqnarray} \tilde{E}(\bm{w}) = E(\bm{w}) + \frac{\lambda}{2}\bm{w}^{T}\bm{w} \end{eqnarray} を考えることができる。この正則化項は、重みベクトル$\bm{w}$の平均ゼロのガウス事前分布の負の対数と解釈できる。 \subsection{無矛盾なガウス事前分布} 前の式の正則化項は、スケーリングンに関連する限界が存在する。 $\bm{x}$を入力とし$\bm{y}$を出力とする \begin{eqnarray} z_{j} = h \left( \sum_{i}w_{ji}x_{i} + w_{j0} \right) \notag \\ y_{k} = \sum_{j}w_{kj}z_{j} + w_{k0} \end{eqnarray} なるシステムを考える。このとき、訓練集合$\{(\bm{x}_{n},\bm{t}_{n})\}$に対して得られる$\bm{w}$と、 訓練集合$\{(a\bm{x}_{n}+b,\bm{t}_{n})\}$に対して得られる$\tilde{\bm{w}}$の間には \begin{eqnarray} \tilde{w}_{ji} = \frac{1}{a}w_{ji} \notag \\ \tilde{w}_{j0} = w_{j0} - \frac{b}{a}\sum_{i}w_{ji} \end{eqnarray} の関係があるべきであるが、全ての重みとバイアスを対等に扱う正則化項では、$\lambda$をどのようにスケーリングしてもこの関係が得られない。 一方で \begin{eqnarray} \frac{\lambda_{1}}{2}\sum_{w\in \mathcal{W}_{1}}w^2 + \frac{\lambda_{2}}{2}\sum_{w\in \mathcal{W}_{1}}w^2 \end{eqnarray} という正則化項を考えると、$\lambda_{1} \rightarrow a^2 \lambda_{1}$によって、重みの変換のもとでの不変性が保たれる。 ここで$\mathcal{W}_{1},\mathcal{W}_{2}$はそれぞれ第1,2層の重みの集合であり、バイアス項は和から除かれている。 この正則化項は \begin{eqnarray} p(\bm{w}|\alpha_{1},\alpha_{2}) \propto \exp \left( -\frac{\alpha_{1}}{2} \sum_{w\in \mathcal{W}_{1}}w^2 - \frac{\alpha_{2}}{2} \sum_{w\in \mathcal{W}_{2}}w^2 \right) \end{eqnarray} という事前分布に対応する。 \subsection{早期終了} 省略 \subsection{不変性} 5.5.1節では、線形変換された入力に対して、システムがどのように変換されるかという観点での不変性が考えられたが、 次の節では、何らかの変換された入力に対して、同じ出力を与えるようなシステムという観点での不変性を考える。 \subsection{接線伝播法} ある入力$\bm{x}_{n}$への連続的な変換が(例えばある軸での回転のように)1つのパラメータ$\xi$で表されるとする。 $\bm{x}_{n}$にこの変換を作用させて得られるベクトルを$\bm{s}(\bm{x}_{n},\xi)$とし、これは$\bm{s}(\bm{x},0)=\bm{x}$となるように定義されているとする。 このとき \begin{eqnarray} \bm{\tau_{n}} = \left. \frac{\partial \bm{s}(\bm{x}_{n},\xi)}{\partial \xi} \right |_{\xi=0} \end{eqnarray} を定義すると、出力$k$の$\xi$に対する微分は \begin{eqnarray} \left. \frac{\partial y_{k}}{\partial \xi} \right|_{\xi=0} = \left. \sum_{i=1}^{D} \frac{\partial y_{k}}{\partial x_{i}} \frac{\partial x_{i}}{\partial \xi} \right |_{\xi=0} = \sum_{i=1}^{D} J_{ki}\tau_{i} \end{eqnarray} となる。これを正則化項に加えることで、不変性を持つように修正することが可能である。すなわち、新しい誤差関数を \begin{eqnarray} \tilde{E} = E + \lambda \Omega \notag \\ \Omega = \frac{1}{2} \sum_{n}\sum_{k} \left( \left. \frac{\partial y_{nk}}{\partial \xi} \right|_{\xi=0} \right)^2 = \frac{1}{2} \sum_{n}\sum_{k} \left( \sum_{i}^{D}J_{nki}\tau_{ni} \right)^2 \end{eqnarray} とする。 \subsection{変換されたデータを用いた訓練} ベースとなる二乗和誤差関数として \begin{eqnarray} E = \frac{1}{2} \int \int \{ y(\bm{x})-t \}^2p(t|\bm{x}) p(\bm{x}) d\bm{x} dt \end{eqnarray} を考え、前節同様に1つのパラメータ$\xi$で支配される変換を考える。 この変換により拡張したデータでの学習による誤差関数は \begin{eqnarray} \tilde{E} = \frac{1}{2} \int \int \int \{ y(s(\bm{x},\xi))-t \}^2p(t|\bm{x}) p(\bm{x}) d\bm{x}p(\xi) dtd\xi \end{eqnarray} であたえられる。分布$p(\xi)$が平均ゼロで小さな分散を持つとして、$\xi$のまわりで$\bm{s}$をテイラー展開することを考えると、 \begin{eqnarray} \bm{s}(\bm{x},\xi) = \bm{x} + \xi \bm{\tau} + \frac{1}{2}\xi^2 \bm{\tau} + O(\xi^3) \end{eqnarray} を得る。ここで$\bm{\tau} $は$\xi=0$における$\bm{s}(\bm{x},\xi)$の$\xi$に関する2階微分である。 したがってモデル関数は \begin{eqnarray} y(\bm{s}(\bm{x},\xi)) = y(\bm{x}) + \xi \bm{\tau}^{T}\nabla y(\bm{x}) + \frac{\xi^2}{2} \left[ (\bm{\tau} )^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right] + O(\xi^3) \notag \\ \end{eqnarray} となる。これにより平均誤差関数は \begin{eqnarray} \tilde{E} = \frac{1}{2} \int \int \{ y(\bm{x})-t \}^2 p(t|\bm{x})p(\bm{x})d\bm{x}dt \notag \\ + \mathbb{E}[\xi]\int \int \{ y(\bm{x})-t \} \bm{\tau}^{T}\nabla y(\bm{x})p(t|\bm{x})p(\bm{x}) d\bm{x}dt \notag \\ + \mathbb{E}[\xi^2]\frac{1}{2} \int \int \left[ { y(\bm{x})-t } \left\{ (\bm{\tau} )^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right\} \right. \notag \\ + \left. (\bm{\tau}^{T}\nabla y(\bm{x}))^2 \right] p(t|\bm{x})p(\bm{x}) d\bm{x}dt + O(\xi^3) \end{eqnarray} を得る。変換の分布の平均は$0$、すなわち$\mathbb{E}[\xi]=0$であり、$\mathbb{E}[\xi^2] = \lambda$とおくことにすると、 \begin{eqnarray} \tilde{E} = E + \lambda \Omega \notag \\ \Omega = \frac{1}{2} \int \left[ \{ y(\bm{x}) - \mathbb{E}[t|\bm{x}] \} \left\{ (\bm{\tau} )^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right\} \right. \notag \\ + \left. (\bm{\tau}^{T}\nabla y(\bm{x}))^2 \right] p(\bm{x}) d\bm{x} \end{eqnarray} を得る。ところで、1.5.5節より、二乗和誤差を最小化するモデル関数は$\mathbb{E}[t|\bm{x}]$で与えらることと、正則化誤差が正則化していない二乗和に$O(\xi^2)$の大きさの項を加えたものであるから \begin{eqnarray} y(\bm{x}) = \mathbb{E}[t|\bm{x}) + O(\xi^2) \end{eqnarray} となる。したがって、$\Omega$の第一項は無視することができて \begin{eqnarray} \Omega = \frac{1}{2} \int (\bm{\tau}^{T}\nabla y(\bm{x}))^2 p(\bm{x}) d\bm{x} \end{eqnarray} となるが、これは接線伝播法の正則化項と本質的に等価である。 \subsection{たたみ込みニューラルネットワーク} 省略 \subsection{ソフト重み共有} ここでは、重み$\bm{w}$の成分が各々で近い値を取りやすくなるような正則化項を考える。 これには、事前分布として混合ガウス分布を用いればよく \begin{eqnarray} p(\bm{w}) = \prod_{i}p(w_{i}) \notag \\ p(w_{i}) = \sum_{j=1}^{M}\pi_{j} \mathcal{N}(w_{i}|\mu_{j},\sigma_{j}^2) \end{eqnarray} とする。 対応する誤差関数は \begin{eqnarray} \tilde{E}(\bm{w}) = E(\bm{w}) + \Omega(\bm{w}) \notag \\ \Omega(\bm{w}) = -\sum_{i} \ln \left( \sum_{j=1}^{M} \pi_{j} \mathcal{N}(w_{i}|\mu_{j}, \sigma_{j}^{2} ) \right) の形になる。 \end{eqnarray} 微分については \begin{eqnarray} \gamma_{j}(w) = \frac{\pi_{j}\mathcal{N}(w|\mu_{j}, \sigma_{j}^2)} {\sum_{k}\pi_{k} \mathcal{N}(w|\mu_{k},\sigma_{k}^2)} \end{eqnarray} を定義すると \begin{eqnarray} \frac{\partial \tilde{E}}{\partial w_{i}} + \sum_{j}\gamma_{j}(w_{i}) \frac{(w_{i}-\mu_{j})}{\sigma_{j}^2} \end{eqnarray} と書ける。 また事前分布のパラメータに対する微分は \begin{eqnarray} \frac{\partial \tilde{E}}{\partial \mu_{j}} = \sum_{i}\gamma_{j}(w_{i}) \frac{(\mu_{j}-w_{i})}{\sigma_{j}^2} \notag \\ \frac{\partial \tilde{E}}{\partial \sigma_{j}} = \sum_{i} \gamma_{j}(w_{i}) \left( \frac{1}{\sigma_{j}} - \frac{(w_{i}-\mu_{j})^2}{\sigma_{j}^3} \right) \end{eqnarray} で与えられる。 また、$\pi_{j}$については$\sum_{j}\pi_{j}=1$および$\pi \geq 0$を考慮して、補助変数$\{\eta_{j}\}$を \begin{eqnarray} \pi_{j} = \frac{\exp(\eta_{j})}{ \sum_{k=1}^{M}\exp(\eta_{k}) } \end{eqnarray} と導入すると \begin{eqnarray} \frac{\partial \tilde{E}}{\partial \eta_{j}} = \sum_{i} \{ \pi_{j} - \gamma_{j}(w_{i}) \} \end{eqnarray} \section{混合密度ネットワーク} ここではモデルの柔軟性をさらに高めるため、 \begin{eqnarray} p(\bm{t}|\bm{x},\bm{w}) = \sum_{k=1}^{K}\pi_{k}(\bm{x},\bm{w}) \mathcal{N}(\bm{t}|,\bm{\mu}_{k}(\bm{x},\bm{w}), \sigma_{k}^{2}(\bm{x},\bm{w})\bm{I}) \end{eqnarray} で与えられるモデルを考える。 \textcolor{blue}{訓練データ$\{(\bm{x_{n}},\bm{t_{n}})\}$が与えられたときに、$\bm{w}$の値を与えることで、 $\pi_{k}(\bm{x},\bm{w}),\bm{\mu}_{k}(\bm{x},\bm{w}),\sigma_{k}^{2}(\bm{x},\bm{w})$の関数形を決めることが目的である。} これは \begin{eqnarray} \pi_{k} = \frac{\exp(a_{k}^{\pi})}{\sum_{l=1}^{K}\exp(a_{l}^{\pi})} \notag \\ \sigma_{k} = \exp(a_{k}^{\sigma}) \notag \\ \mu_{kj} = a_{kj}^{\mu} \end{eqnarray} と置き換えれば、$\bm{w}$をパラメータとした、$\bm{x}$から$\bm{a}$へのニューラルネットワークの問題として考えることができる。 最小化するべき誤差関数は \begin{eqnarray} E(\bm{w}) = - \sum_{n=1}^{N} \ln \left \{ \sum_{k=1}^{K}\pi_{k}(\bm{x}_{n},\bm{w})\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w}) \bm{I}) \right \} \end{eqnarray} であり、出力に関する微分は \begin{eqnarray} \gamma_{nk}(\bm{t}_{n}|\bm{x}_{n}) = \frac{\pi_{k}\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w}) \bm{I})} {\sum_{l=1}^{K}\pi_{l}\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w})\bm{I})} \end{eqnarray} を用いると、 \begin{eqnarray} \frac{\partial E_{n}}{\partial a_{k}^{\pi}} = \pi_{k} - \gamma_{nk} \notag \\ \frac{\partial E_{n}}{\partial a_{kl}^{\mu}} = \gamma_{nk}\left \{ \frac{\mu_{kl}-t_{nl}}{\sigma_{k}^{2}} \right \} \notag \\ \frac{\partial E_{n}}{\partial a_{k}^{\sigma}} = \gamma_{nk} \left( L - \frac{||\bm{t}_{n}-\bm{\mu}_{k}||^2}{\sigma_{k}^{2}} \right) \end{eqnarray} と書くことができる。ここで$L$は$\bm{t}$の次元である。 \section{ベイズニューラルネットワーク} \subsection{パラメータの事後分布} ここでは、目標変数$t$を入力ベクトル$\bm{x}$から予測する問題を考える。 $y(\bm{x},\bm{w})$をニューラルネットワークとし、 \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} なるモデルを考える。そして、$\bm{w}$の事前分布を \begin{eqnarray} p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) \end{eqnarray} で与えることにすると、与えられたデータに対する尤度関数は \begin{eqnarray} p(\mathcal{D}|\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} となり、事後分布は \begin{eqnarray} p(\bm{w}|\mathcal{D},\alpha,\beta) \propto p(\bm{w}|\alpha)p(\mathcal{D}|\bm{w},\beta) \end{eqnarray} となる。 これは$y(\bm{x},\bm{w})$が$\bm{w}$に非線形に依存するため、ガウス分布にはならないのでラプラス近似を用いる。 まず、事後分布の(局所)最大値を見つけるため、事後分布の対数 \begin{eqnarray} \ln p(\bm{w}|\mathcal{D}) = -\frac{\alpha}{2}\bm{w}^{T}\bm{w} - \frac{\beta}{2}\sum_{n=1}^{N} \{ y(\bm{x}_{n},\bm{w}) - t_{n} \}^2 + 定数 \end{eqnarray} を反復的数値最適化法で最大化する。 モード$\bm{w}_{\mathrm{MAP}}$を見つけたら、 \begin{eqnarray} \bm{A} = -\nabla\nabla \ln p(\bm{w}|\mathcal{D},\alpha,\beta) = \alpha \bm{I} + \beta \bm{H} \end{eqnarray} を用いて$p(\bm{w}|\mathcal{D})$の近似式 \begin{eqnarray} q(\bm{w}|\mathcal{D}) = \mathcal{N}(\bm{w}|\bm{w}_{\mathrm{MAP}},\bm{A}^{-1}) \end{eqnarray} を得る。 同様に、新たな$\bm{x}$に対する$t$の予測分布 \begin{eqnarray} p(t|\bm{x},\mathcal{D}) = \int p(t|\bm{x},\bm{w})q(\bm{w}|\mathcal{D}) d\bm{w} \end{eqnarray} が得られるが、やはり解析的には積分を実行できない。 そこで、元のニューラルネットワークを \begin{eqnarray} y(\bm{x},\bm{w}) \sim y(\bm{x}, \bm{w}_{\mathrm{MAP}}) + \bm{g}^{T}(\bm{w}-\bm{w}_{\mathrm{MAP}}) \notag \\ \bm{g} = \nabla_{\bm{w}} y(\bm{x},\bm{w})|_{\bm{w}=\bm{w}_{\mathrm{MAP}}} \end{eqnarray} と近似しすると \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}_{\mathrm{MAP}}) + \bm{g}^{T}(\bm{w}-\bm{w}_{\mathrm{MAP}}), \beta^{-1}) \end{eqnarray} となるため、積分を実行することが可能になり、予測分布は \begin{eqnarray} p(t|\bm{x},\mathcal{D},\alpha,\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}_{\mathrm{MAP}}),\sigma^{2}(\bm{x})) \notag \\ \sigma^{2}(\bm{x}) = \beta^{-1} + \bm{g}^{T}\bm{A}^{-1}\bm{g} \end{eqnarray} となる。 \subsection{超パラメータ最適化} 省略 \subsection{クラス分類のためのベイズニューラルネットワーク} 省略 \chapter{カーネル法} \textcolor{blue}{ カーネル法、カーネル関数の定義が曖昧であるが、訓練データ$\mathcal{D}=\{ (\bm{x}_{n},t_{n}) \}$が与えられたとき 新たな入力$\bm{x}$に対する出力の予測$y(\bm{x})$が$k(\bm{x},\bm{x} ) = k(\bm{x} ,\bm{x})$なる関数を用いて、 \begin{eqnarray} y(\bm{x}) = \sum_{n}k(\bm{x},\bm{x}_{n}) f_{n}(\mathcal{D}) \end{eqnarray} と与えらえる時、$k(\bm{x},\bm{x} )$をカーネル関数、この手法をカーネル法というように思う。} \section{双対表現} 線形回帰モデルで、パラメータ$\bm{w}$が正則化された二乗和誤差関数 \begin{eqnarray} J(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{ \bm{w}^{T}\bm{\phi}(\bm{x}_{n})-t_{n} \}^2 + \frac{\lambda}{2}\bm{w}^{T}\bm{w} \end{eqnarray} を最小化することで与えられるモデルを考える。 過程は省略すると \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) = \bm{k}(\bm{x})^{T}(\bm{K}+\lambda\bm{T}_{N})^{-1}\bm{t} \end{eqnarray} を得る。ここに$\bm{w}$は正則化された二乗和誤差関数を最小化する$\bm{w}$であり、 \begin{eqnarray} \bm{K}_{nm} = \bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m}) = k(\bm{x}_{n},\bm{x}_{m}) \end{eqnarray} である。 \section{カーネル関数の構成} 省略 \section{RBFネットワーク} 関数が、ある点からの距離のみに依存しているとき、それを動径基底関数(radial basis function)という。 例えば、入力変数にノイズが含まれる場合の回帰問題では、二乗和誤差関数が、ノイズの確率分布$\nu(\bm{\xi})$を用いて \begin{eqnarray} E = \frac{1}{2}\sum_{n=1}^{N} \{ y(\bm{x}_{n}+\bm{\xi})-t_{n}\}^2\nu(\bm{\xi})d\bm{\xi} \end{eqnarray} で与えられる。変分法を用いて関数$y(\bm{x})$を求めると \begin{eqnarray} y(\bm{x}) = \sum_{n=1}^{N}t_{n}h(\bm{x}-\bm{x}_{n}) \notag \\ h(\bm{x}-\bm{x}_{n}) = \frac{\nu(\bm{x}-\bm{x}_{n})}{\sum_{n=1}^{N}\nu(\bm{x}-\bm{x}_{n}) } \end{eqnarray} となる。 \textcolor{blue}{ \begin{eqnarray} E = \frac{1}{2}\sum_{n=1}^{N} \{ y(\bm{x})-t_{n}\}^2\nu(\bm{x}-\bm{x}_{n})d\bm{x} \end{eqnarray} として変分法を用いれば \begin{eqnarray} y(\bm{x}) = \frac{\sum_{n=1}^{N}t_{n}\nu(\bm{x}-\bm{x}_{n})}{\sum_{n=1}^{N}\nu(\bm{x}-\bm{x}_{n}) } \end{eqnarray} となることは容易にわかるが、$h(\bm{x}-\bm{x}_{n})$は$\bm{x}-\bm{x}_{n}$の関数には見えないので、ここの書き方には疑問が残る。 } これはNadaraya-Watsonモデルとして知られている。 \subsection{Nadaraya-Watsonモデル} 訓練集合を$\{\bm{x}_{n},t_{n}\}$として、同時分布$p(\bm{x},t)$を推定するためにParzen推定法 \begin{eqnarray} p(\bm{x},t) = \frac{1}{N} \sum_{n=1}^{N}f(\bm{x}-\bm{x}_{n},t-t_{n}) \end{eqnarray} を用いることを考える。すると回帰関数は \begin{eqnarray} y(\bm{x}) = \mathbb{E}[t|\bm{x}] = \int_{-\infty}^{\infty}tp(t|\bm{x})dt \notag \\ = \frac{\int tp(\bm{x},t)dt}{\int p(\bm{x},t)dt} \notag \\ = \frac{\int tf(\bm{x}-\bm{x}_{n},t-t_{n})dt}{\sum_{n}f(\bm{x}-\bm{x}_{m},t-t_{m})dt} \end{eqnarray} で与えられる。 簡単のため \begin{eqnarray} \int_{-\infty}^{\infty}f(\bm{x},t)tdt = 0 \end{eqnarray} と仮定すると、 \begin{eqnarray} g(\bm{x}) = \int_{-\infty}^{\infty} f(\bm{x},t)dt \end{eqnarray} を用いて、 \begin{eqnarray} y(\bm{x}) = \frac{\sum_{n}g(\bm{x}-\bm{x}_{n})t_{n}}{\sum_{m}g(\bm{x}-\bm{x}_{m})} \notag \\ = \sum_{n}k(\bm{x},\bm{x}_{n})t_{n} \end{eqnarray} となる。ここでカーネル関数は \begin{eqnarray} k(\bm{x},\bm{x}_{n}) = \frac{g(\bm{x}-\bm{x}_{n})}{\sum_{m}g(\bm{x}-\bm{x}_{m})} \end{eqnarray} で与えられる。 \textcolor{blue}{ このカーネルも引数の置換に対する対称性を持っていないがこれでよいのだろうか。 } \section{ガウス過程} \subsection{線形回帰再訪} 入力$\bm{x}$に対して出力が \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) \end{eqnarray} と与えられるモデルを考え、$\bm{w}$の事前分布を \begin{eqnarray} p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) \end{eqnarray} とする。 データ点の集合$\bm{x}_{1},\cdots,\bm{x}_{N}$に対する関数の値の集合$y(\bm{x}_{1}),\cdots,y(\bm{x}_{N})$をベクトル$\bm{y}$と表現すると \begin{eqnarray} \bm{y} = \bm{\Phi}\bm{w} \end{eqnarray} となる。ここで$\Phi_{nk}=\phi_{k}(\bm{x}_{n})$である。この平均と共分散は \begin{eqnarray} \mathbb{E}[\bm{y}] = \bm{\Phi}\mathbb{E}[\bm{w}] = \bm{0} \notag \\ \mathrm{cov}[\bm{y}] = \mathbb{E}[\bm{y}\bm{y}^{T}] = \bm{\Phi}\mathbb{E}[\bm{w}\bm{w}^{T}]\bm{\Phi}^{T} = \frac{1}{\alpha}\bm{\Phi}\bm{\Phi}^{T} = \bm{K} \end{eqnarray} となる。ただし$\bm{K}$は \begin{eqnarray} K_{nm} = k(\bm{x}_{n},\bm{x}_{m}) = \frac{1}{\alpha}\bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m}) \end{eqnarray} なるカーネルである。 \subsection{ガウス過程による回帰} 観測される目標変数が、前節の$y_{n}$にガウス分布に従うノイズが混ざったもので与えられるモデルを考える。 すなわち \begin{eqnarray} t_{n} = y_{n} + \epsilon_{n} \end{eqnarray} とし、 \begin{eqnarray} p(t_{n}|y_{n}) = \mathcal{N}(t_{n}|y_{n},\beta^{-1}) \end{eqnarray} であるとする。 ノイズは各データに対して独立であるため、$\bm{y}=(y_{1},\cdots,y_{N})^{T}$が与えられた時の目標値$\bm{t} = (t_{1},\cdots,t_{N})^{T}$の同時分布は \begin{eqnarray} p(\bm{t}|\bm{y}) = \mathcal{N}(\bm{t}|\bm{y},\beta^{-1}\bm{I}_{N}) \end{eqnarray} となる。また前節より、周辺分布$p(\bm{y})$については \begin{eqnarray} p(\bm{y}) = \mathcal{N}(\bm{y}|\bm{0},\bm{K}) \end{eqnarray} である。したがって周辺分布$p(\bm{t})$は \begin{eqnarray} p(\bm{t}) = \int p(\bm{t}|\bm{y})p(\bm{y})d\bm{y} = \mathcal{N}(\bm{t}|\bm{0},\bm{C}) \notag \\ C(\bm{x}_{n},\bm{x}_{m}) = k(\bm{x}_{n},\bm{x}_{m}) + \beta^{-1}\delta_{nm} \end{eqnarray} となる。 ガウス過程回帰に用いるカーネル関数としては \begin{eqnarray} k(\bm{x}_{n},\bm{x}_{m}) = \theta_{0} \exp \left \{ -\frac{\theta_{1}}{2} || \bm{x}_{n}-\bm{x}_{m} ||^2 \right \} + \theta_{2} + \theta_{3}\bm{x}_{n}^{T}\bm{x}_{m} \end{eqnarray} の形のものがよく用いられる。 \textcolor{blue}{ これは本文(6.54)の形式にはならないが。。。 } 次に、入力$\bm{x}_{1},\cdots,\bm{x}_{N}$と対応する$t_{1},\cdots,t_{N}$が与えられている場合の、入力$\bm{x}_{N+1}$に対する出力$t_{N+1}$を考える。 これは \begin{eqnarray} p(\bm{t}_{N+1}) = \mathcal{N}(\bm{t}_{N+1}|\bm{0},\bm{C}_{N+1}) \end{eqnarray} を周辺化することで得られる。ここで、$\bm{t}_{N+1}$はベクトル$(t_{1},\cdots,t_{N},t_{N+1})^{T}$を表す。 \begin{eqnarray} \bm{C}_{N+1} = \begin{pmatrix} \bm{C}_{N} \bm{k} \\ \bm{k}^{T} c \end{pmatrix} \end{eqnarray} とあらわすことにすると \begin{eqnarray} p(t_{N+1}|\bm{t}) = \mathcal{N}(t_{N+1}|\bm{k}^{T}\bm{C}_{N}^{-1}\bm{t}, c-\bm{k}^{T}\bm{C}_{N}^{-1}\bm{k}) \end{eqnarray} を得る。 \subsection{超パラメータの学習} データ集合が与えられた場合の、超パラメータ$\bm{\theta}$の最尤推定の手法を考える。 尤度関数の対数は \begin{eqnarray} \ln p(\bm{t}|\bm{\theta}) = -\frac{1}{2} \ln |\bm{C}_{N}| - \frac{1}{2}\bm{t}^{T}\bm{C}_{N}^{-1}\bm{t} - \frac{N}{2} \ln (2\pi) \end{eqnarray} であり、その微分は \begin{eqnarray} \frac{\partial}{\partial \theta_{i}} \ln p(\bm{t}|\bm{\theta}) = -\frac{1}{2} \mathrm{Tr} \left( \bm{C}_{N}^{-1} \frac{\partial \bm{C}_{N}}{\partial \theta_{i}} \right) \frac{1}{2}\bm{t}^{T}\bm{C}_{N}^{-1} \frac{\partial \bm{C}_{N}}{\partial \theta_{i}} \bm{C}_{N}^{-1}\bm{t} \end{eqnarray} で与えられる。 \subsection{関連度自動決定} 省略 \subsection{ガウス過程による分類} 入力の訓練集合を$\bm{x}_{1},\cdots,\bm{x}_{N}$とし、観測値を$\bm{t}_{N} = (t_{1},\cdots,t_{N})^{T}$とするが、ここでは目標変数が$t\in \{0,1 \}$である2クラス分類問題を考える。そのために関数$a(\bm{x})$を前節までのガウス過程とし、$y=\sigma(a)$によって$y\in(0,1)$なる確率過程を得ることにする。 すなわち、$a$に対する$t$の分布は、ベルヌーイ分布 \begin{eqnarray} p(t|a) = \sigma(a)^{t}(1-\sigma(a))^{1-t} \end{eqnarray} で与えられ、$a$については \begin{eqnarray} p(\bm{a}_{N+1}) = \mathcal{N}(\bm{a}_{N+1}|\bm{0},\bm{C}_{N+1}) \end{eqnarray} が成り立つものとする。 共分散行列がこのモデルを特徴づける元になっていて、それは \begin{eqnarray} C(\bm{x}_{n},\bm{x}_{m}) = k(\bm{x}_{n},\bm{x}_{m}) + \nu\delta_{nm} \end{eqnarray} と、任意のカーネルと、正定値性を保証する対角項で構成される。 知りたい量は$N$個のデータが与えられたときの$N+1$個目のデータの予測であり、 \begin{eqnarray} p(t_{N+1}=1 | \bm{t}_{N} ) = \int p(t_{N+1}=1|a_{N+1}) p(a_{N+1}|\bm{t}_{N}) da_{N+1} \end{eqnarray} である。ここで、ベルヌーイ分布を考えているため、 \begin{eqnarray} p(t_{N+1}=1|a_{N+1}) = \sigma(a_{N+1}) \end{eqnarray} であり、 \begin{eqnarray} p(a_{N+1}|\bm{t}_{N}) = \int p(a_{N+1}|\bm{a}_{N})p(\bm{a}_{N}|\bm{t}_{N}) d\bm{a}_{N} \notag \\ p(a_{N+1}|\bm{a}_{N}) = \mathcal{N}(a_{N+1}|\bm{k}^{T}\bm{C}_{N}^{-1}\bm{a}_{N}, c-\bm{k}^{T}\bm{C}_{N}^{-1}\bm{k}) \end{eqnarray} が成り立つ。 \subsection{ラプラス近似} 前節の積分の中で、$p(\bm{a}_{N}|\bm{t}_{N})$は解析的に求めることができないので、ラプラス近似を用いることにする。 $p(\bm{a}_{N}|\bm{t}_{N}) \propto p(\bm{a}_{N}) + p(\bm{t}_{N}|\bm{a}_{N})$であることと、 データについての項は(データ点が互いに独立であるとして) \begin{eqnarray} p(\bm{t}_{N}|\bm{a}_{N}) = \prod_{n=1}^{N}\sigma(a_{n})^{t_{n}}(1-\sigma(a_{n}))^{1-t_{n}} = \prod_{n=1}^{N}e^{a_{n}t_{n}}\sigma(-a_{n}) \end{eqnarray} と表されることから、 \textcolor{blue}{(これは確率過程で$a_{N}$は$a_{N-1}$に依存しているので、互いに独立という仮定は違和感がある。 おそらく本文にわざわざ「データ点が互いに独立であるとして」と括弧つきでかかれているのはそのため。) } モードとヘッセ行列を求めるべき関数$\Psi(\bm{a}_{N})$は正規化項を無視すると \begin{eqnarray} \Psi(\bm{a}_{N}) = \ln p(\bm{a}_{N}) + \ln p(\bm{t}_{N}|\bm{a}_{N}) \notag \\ = -\frac{1}{2}\bm{a}_{N}^{T}\bm{C}_{N}^{-1}\bm{a}_{N} - \frac{N}{2}\ln (2\pi) - \frac{1}{2}\ln|\bm{C}_{N}| + \bm{t}_{N}^{T}\bm{a}_{N} \sum_{n=1}^{N}\ln(1+e^{a_{n}}) \notag \\ \end{eqnarray} となる。 勾配と二階微分は \begin{eqnarray} \nabla \Psi(\bm{a}_{N}) = \bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N} \notag \\ \nabla \nabla \Psi(\bm{a}_{N}) = -\bm{W}_{N} - \bm{C}_{N}^{-1} \end{eqnarray} で与えられる。ここで、$\bm{\sigma}_{N}$は$\sigma{a_{n}}$を持つベクトルであり、$\bm{W_{N}}$は$\sigma(a_{n})(1-\sigma(a_{n}))$を要素にもつ対角行列である。 ニュートン法でモードを求めることにすると、更新式は \begin{eqnarray} \bm{a}_{N}^{new} = \bm{a}_{N}^{old} - \left( \nabla \nabla \Psi(\bm{a}_{N}) \right)^{-1} \nabla \Psi(\bm{a}_{N}) \notag \\ = \bm{a}_{N}^{old} + (\bm{W}_{N} + \bm{C}_{N}^{-1})^{-1}(\bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N}) \notag \\ = \bm{C}_{N}(\bm{I}+\bm{W}_{N}\bm{C}_{N})^{-1}(\bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N}) \end{eqnarray} となる。 \textcolor{blue}{本文のヘッセ行列は符号が逆では?上巻206の方が正しいはず。} これにより$p(\bm{a}_{N}|\bm{t}_{N})$の近似として \begin{eqnarray} q(\bm{a}_{N}|\bm{t}_{N}) = \mathcal{N}(\bm{a}_{N}|\bm{a}_{N}^{*},(\bm{W}_{N}+\bm{C}_{N})^{-1}) \end{eqnarray} を得る。ここで、$\bm{a}_{N}^{*}$は$\Phi(\bm{a}_{N})$の最小値を与える点である。 これを用いると$p(a_{N+1}|\bm{t}_{N})$の積分を評価することができて、 \begin{eqnarray} p(a_{N+1}|\bm{t}_{N}) \approx \mathcal{N}(a_{N+1}| \bm{k}^{T}(\bm{t}-\bm{\sigma}_{N}), c - \bm{k}^{T}(\bm{W}_{N}^{-1}+\bm{C}_{N})^{-1}\bm{k}) \end{eqnarray} を得る。 次に共分散関数のパラメータ$\bm{\theta}$を決定することを考える。 そこで、尤度関数$p(\bm{t}_{N}|\bm{\theta})$を最大化することを考える。 \begin{eqnarray} p(\bm{t}_{N}|\bm{\theta}) = \int p(\bm{t}_{N}|\bm{a}_{N}) p(\bm{a}_{N}|\bm{\theta})d\bm{a}_{N} \end{eqnarray} この被積分関数の対数は$\Psi(\bm{a}_{N})$そのものであって、本文(4.135)を用いると、 \begin{eqnarray} \ln p(\bm{t}_{N}|\bm{\theta}) \approx \Psi(\bm{a}_{N}^{*}) - \frac{1}{2}\ln|\bm{W}_{N}+\bm{C}_{N}^{-1}| + \frac{N}{2}\ln(2\pi) \end{eqnarray} と近似することができる。 これは、行列$\bm{C}_{N}$が$\bm{\theta}$に依存することによる部分と、$\bm{a}^{*}_{N}$を通して依存する部分とがある。 $\bm{\theta}$に明示的に依存する寄与($\bm{C}_{N}$による部分)の微分は \begin{eqnarray} \frac{\partial \ln p(\bm{t}_{N}|\bm{\theta})}{\partial \theta_{j}} = \frac{1}{2}\bm{a}_{N}^{*T}\bm{C}_{N}^{-1}\frac{\partial \bm{C}_{N}}{\partial \theta_{j}}\bm{C}_{N}^{-1}\bm{a}_{N}^{-1} \notag \\ - \frac{1}{2}\mathrm{Tr}\left[ (\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}\bm{W}_{N}\frac{\partial \bm{C}_{N}}{\partial \theta_{j}} \right] \end{eqnarray} となる。 \textcolor{blue}{ この式は \begin{eqnarray} \frac{\partial}{\partial \theta_{j}}\ln |\bm{W}_{N}+\bm{C}_{N}^{-1}| = \mathrm{Tr} \left( (\bm{W}_{N}+\bm{C}_{N}^{-1})^{-1} \frac{\partial\bm{C}_{N}^{-1}}{\partial \theta_{j}} \right) \notag \\ = \mathrm{Tr} \left( - (\bm{W}_{N}+\bm{C}_{N}^{-1})^{-1}\bm{C}_{N}^{-1} \frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \bm{C}_{N}^{-1} \right) \notag \\ = \mathrm{Tr} \left( - \bm{C}_{N}^{-1} (\bm{C}_{N}\bm{W}_{N}+\bm{I})^{-1} \frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \right) \notag \\ \frac{\partial}{\partial \theta_{j}}\ln |\bm{C}_{N}| = \mathrm{Tr} \left( \bm{C}_{N}^{-1}\frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \right) \notag \end{eqnarray} および \begin{eqnarray} \left[ I-(\bm{C}_{N}\bm{W}_{N}+I)^{-1} \right] (\bm{C}_{N}\bm{W}_{N}+\bm{I}) = \bm{C}_{N}\bm{W}_{N} \notag \\ I-(\bm{C}_{N}\bm{W}_{N}+I)^{-1} = \bm{C}_{N}\bm{W}_{N} (\bm{C}_{N}\bm{W}_{N}+\bm{I})^{-1} \notag \\ \end{eqnarray} から導けそうな気がするが、最後$\bm{W}_{N}$が$(\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}$の右に来るのは・・・? } また、$\bm{a}_{N}^{*}$を通した寄与であるが、そもそもの定義から$\Psi(\bm{a}_{N})$の勾配は$\bm{a}_{N}^{*}$で$0$になるので、考えるべきは \begin{eqnarray} -\frac{1}{2}\sum_{n=1}^{N}\frac{\partial}{\partial a_{n}^{*}}\ln |\bm{W}_{N}+\bm{C}_{N}|^{-1} \frac{\partial a_{n}^{*}}{\partial \theta_{j}} \notag \\ = -\frac{1}{2}\sum_{n=1}^{N} [(\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}\bm{C}_{N}]_{nn}\sigma_{n}^{*}(1-\sigma_{n}^{*})(1-2\sigma_{n}^{*}) \frac{\partial a_{n}^{*}}{\partial \theta_{j}} \end{eqnarray} である。ここで、$\sigma_{n}^{*}=\sigma(a_{n}^{*})$である。 最後に、本文(6.84)を$\theta_{j}$について微分すると、 \begin{eqnarray} \frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} = \frac{\partial \bm{C}_{N}}{\partial \theta_{j}}(\bm{t}_{N}-\bm{\sigma}_{N}) - \bm{C}_{N}\bm{W}_{N}\frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} \notag \\ \frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} = (\bm{I}+\bm{W}_{N}\bm{C}_{N})^{-1} \frac{\bm{C}_{N}}{\partial \theta_{j}} (\bm{t}_{N}-\bm{\sigma}_{N}) \end{eqnarray} \subsection{ニューラルネットワークとの関係} 省略 \chapter{疎な解を持つカーネルマシン} \section{最大マージン分類器} まず、 \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) + b \end{eqnarray} を用いる2値分類問題を考える。 訓練データは、$N$個の入力ベクトル$\bm{x}_{1},\cdots,\bm{x}_{N}$と、対応する目標値$t_{1},\cdots,t_{N}(t_{n} \in \{-1,1\})$であり、未知のデータ点$\bm{x}$は$y(\bm{x})$の符号に応じて分類されるとする。 また当面の間、訓練データは特徴空間で線形分離可能とする。すなわち、少なくともある一組のパラメータ$\bm{w}$と$b$が存在して、全ての$n$に対して$t_{n}y(\bm{x}_{n}) 0$が成り立つとする。 分類境界から点$\bm{x}_{n}$までの距離は \begin{eqnarray} \frac{t_{n}y(\bm{x}_{n})}{||\bm{w}||} = \frac{t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)}{||\bm{w}||} \end{eqnarray} で与えられる。 \textcolor{blue}{ 分類境界からの距離が上のように求まるのは \begin{eqnarray} y = \bm{w}^{T}\bm{x} + b \end{eqnarray} の場合に限るように思う。 } 最大マージン分類器は、訓練データと分類境界の最短距離を最大化するものとして定義され \begin{eqnarray} \max_{\bm{w},b} \left \{ \frac{1}{||\bm{w}||} \min_{n} [t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)] \right \} \end{eqnarray} を解くことで得られる。 \textcolor{blue}{ 本文にあるarg maxはmaxを与える変数値という意味。 } パラメータ$\bm{w},b$を適当に定数倍することによって、境界に最も近い点について \begin{eqnarray} t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n}) + b ) = 1 \end{eqnarray} を成立させることができ、そのスケールの下では全てのデータについて \begin{eqnarray} t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n}) + b ) \geq 1 \end{eqnarray} が成り立つ。このようにスケーリングした識別関数は正規形と言われる。 この式は$\bm{w},b$に課された制約と考えることができ、等式が成り立つ点が存在する場合この制約は有効な制約であると言い、そうでない場合無効な制約という。 今の問題設定では一般に、$t_{n}$正負両側に等号を満たす点が現れるようなパラメータの選び方が存在する。 結局、マージンの最大化は有効な制約のもとで、$||\bm{w}||^{-1}$を最大化、すなわち$||\bm{w}||^2$を最小化することに他ならない。 これは付録Eの不等式の元での最小化より、未定乗数$a_{n}$を用い、 \begin{eqnarray} L(\bm{w},b,a) = \frac{1}{2}||\bm{w}||^2 - \sum_{n=1}^{N}a_{n}\{t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)-1\} \end{eqnarray} の停留点を \begin{eqnarray} a_{n} \geq 0 \notag \\ t_{n}y(\bm{x}_{n})-1 \geq 0 \notag \\ a_{n}\{ t_{n}y(\bm{x}_{n})-1\} = 0 \end{eqnarray} の条件下で求める問題に帰着する。 $\bm{w}$と$b$についての微分から \begin{eqnarray} \bm{w} = \sum_{n=1}^{N}a_{n}t_{n}\bm{\phi}(\bm{x}_{n}) \notag \\ 0 = \sum_{n=1}^{N}a_{n}t_{n} \end{eqnarray} を得る。 これより、$\bm{w},b$を消去すると \begin{eqnarray} \tilde{L}(\bm{a}) = \sum_{n=1}^{N}a_{n} - \frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_{n}a_{m}t_{n}t_{m}k(\bm{x}_{n},\bm{x}_{m}) \end{eqnarray} を得る。ここで$k(\bm{x},\bm{x} )=\bm{\phi}(\bm{x})^{T}\bm{\phi}(\bm{x} )$である。 \textcolor{blue}{ 本文にはこれを$\bm{a}$に対して最大化すると書いてあるが、最小化ではないだろうか。仮に$\bm{a}_{1},\bm{a}_{2}$が共に停留点になっていて、 $L(\bm{a}_{1}) L(\bm{a}_{2})$であるなら、解として$\bm{a}_{1}$を採用した方が対応する$||\bm{w}||^2$の値は小さくなるはず。 } また、$a_{n}$を用いて$y(\bm{x})$は \begin{eqnarray} y(\bm{x}) = \sum_{n=1}^{N}a_{n}t_{n}k(\bm{x},\bm{x}_{n}) + b \end{eqnarray} と書くことができる。既に条件に挙げられているが、全てのデータ点について、$a_{n}=0$あるいは$t_{n}y(\bm{x}_{n})=1$が成り立つのであって、 後者が成り立つデータ点をサポートベクトルと呼ぶ。 $\bm{a}$を求めたら、上の式よりサポートベクトル$\bm{x}_{n}$に$t_{n}$をかけることで \begin{eqnarray} t_{n}\left( \sum_{m\in\mathcal{S}}a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) + b \right) = 1 \end{eqnarray} となる。ここで$\mathcal{S}$はサポートベクトルの集合を表す。さらに$t_{n}$を両辺にかけて、(計算の誤差を少なくするために)全てのサポートベクトルに関する平均を取ることで \begin{eqnarray} b = \frac{1}{N_{\mathcal{S}}} \left(t_{n}-\sum_{m\in\mathcal{S}}a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) \right) \end{eqnarray} を得る。 \textcolor{blue}{ 条件が複数あるラグランジュ未定乗数法(複数に限らないかもしれない)は、本文付録のように幾何学的に考えるよりも、 $g_{1}(\bm{x})=g_{2}(\bm{x})=0$を満たしていて、極大(小)であるなら微小なベクトル$\bm{\epsilon}$に関して \begin{eqnarray} \nabla g_{1}(\bm{x})\bm{\epsilon}=0 \ \mathrm{and} \ \nabla g_{2}(\bm{x})\bm{\epsilon}=0 \Rightarrow \nabla f(\bm{x})\bm{\epsilon}=0 \end{eqnarray} がなりたち、よって \begin{eqnarray} \nabla f(\bm{x}) = \lambda_{1}\nabla g_{1}(\bm{x}) + \lambda_{2}\nabla g_{2}(\bm{x}) \end{eqnarray} が成り立つと考えた方がわかりやすいのではないだろうか。 } \subsection{重なりのあるクラス分布} 次に、訓練データが完全には線形分離できない場合を考える。すなわち、今までは全てのデータに対して \begin{eqnarray} t_{n}y(\bm{x}_{n}) \geq 1 \end{eqnarray} とできる関数が存在するとしてきたが、そもそも存在しない場合を考える。 その場合は正の変数(スラック変数)$\xi_{n} \geq 0$を導入し、 \begin{eqnarray} t_{n}y(\bm{x}_{n}) \geq 1 - \xi_{n} \end{eqnarray} の条件下で \begin{eqnarray} C\sum_{n=1}^{N}\xi_{n} + \frac{1}{2}||\bm{w}||^{2} \end{eqnarray} を最小にすることを考える。 ここで$C$は制御パラメータである。 この最小化問題のラグランジュ関数は \begin{eqnarray} L(\bm{w},b,\xi,\bm{a},\mu) = \frac{1}{2}||\bm{w}||^{2} + C\sum_{n=1}^{N}\xi_{n} - \sum_{n=1}^{N}a_{n}\{ t_{n}y(\bm{x}_{n})-1+\xi_{n}\} - \sum_{n=1}^{N}\mu_{n}\xi_{n} \notag \\ \end{eqnarray} となり、条件は \begin{eqnarray} a_{n} \geq 0 \notag \\ t_{n}y(\bm{x}_{n}) - 1 + \xi_{n} \geq 0 \notag \\ a_{n}( t_{n}y(\bm{x}_{n}) - 1 + \xi_{n} ) = 0 \notag \\ \mu_{n} \geq 0 \notag \\ \xi_{n} \geq 0 \notag \\ \mu_{n}\xi_{n} = 0 \end{eqnarray} である。各変数について微分を行うと \begin{eqnarray} \frac{\partial L}{\partial \bm{w}} = 0 \Rightarrow \bm{w} = \sum_{n=1}^{N}a_{n}t_{n}\bm{\phi}(\bm{x}_{n}) \notag \\ \frac{\partial L}{\partial b} = 0 \Rightarrow \sum_{n=1}^{N}a_{n}t_{n} = 0 \notag \\ \frac{\partial L}{\partial \xi_{n}} = 0 \Rightarrow a_{n} = C-\mu_{n} \end{eqnarray} となり、結果をラグランジュ関数に代入すると双対系のラグランジュ関数 \begin{eqnarray} \tilde{L}(\bm{a}) = \sum_{n=1}^{N}a_{n} - \frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_{n}a_{m}t_{n}t_{m}k(\bm{x}_{n},\bm{x}_{m}) \end{eqnarray} を得る。条件は \begin{eqnarray} 0 \leq a_{n} \leq C \notag \\ \sum_{n=1}^{N}a_{n}t_{n} = 0 \end{eqnarray} であり、この条件でラグランジュ関数を最小化 \textcolor{blue}{ (ここも本文に最大化とあるが最小化だと思う。) } する問題に帰着する。 ここでも$a_{n} 0$となる点をサポートベクトルと呼ぶことにする。 これらについては \begin{eqnarray} t_{n}y(\bm{x}_{n}) = 1-\xi_{n} \end{eqnarray} が成り立つ。 $0 a_{n} C$なるサポートベクトルについては$\xi_{n}=0$となるので、$t_{n}y(\bm{x}_{n}) = 1$すなわち \begin{eqnarray} t_{n}\left(\sum_{m\in \mathcal{S}} a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) + b \right) = 1 \end{eqnarray} が成り立つ。よって$b$は(数値計算の誤差をなくすため)上の式を満たす全ての点での平均を取り \begin{eqnarray} b = \frac{1}{N_{\mathcal{M}}}\sum_{n\in \mathcal{M}} \left( t_{n}-\sum_{m\in \mathcal{S}}a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) \right) \end{eqnarray} となる。ここで$\mathcal{M}$は$0 a_{n} C$を満たす点の集合である。 \subsection{ロジスティック回帰との関係} 省略 \subsection{多クラスSVM} 省略 \subsection{回帰のためのSVM} ここでは解の疎性を保ちながらSVMを回帰問題に適用する方法を考える。 単純な問題では誤差関数 \begin{eqnarray} \frac{1}{2}\sum_{n=1}^{N}\{ y_{n}-t_{n} \}^{2} + \frac{\lambda}{2}||\bm{w}||^{2} \end{eqnarray} を最小化する。 疎な解を得るためには \begin{eqnarray} E_{\epsilon}(y(\bm{x})-t) = \begin{cases} 0 |y(\bm{x}-t| \epsilon \\ |y(\bm{x}-t| - \epsilon それ以外 \end{cases} \end{eqnarray} を用いた誤差関数 \begin{eqnarray} C\sum_{n=1}^{N}E_{\epsilon}(y(\bm{x}_{n})-t_{n}) + \frac{1}{2}||\bm{w}||^{2} \end{eqnarray} を考えることにする。 この誤差関数を実現するために一つのデータ点に対して、二つの非負のスラック変数 \begin{eqnarray} t_{n} \leq y(\bm{x}_{n}) + \epsilon + \xi_{n} \notag \\ t_{n} \geq y(\bm{x}_{n}) - \epsilon - \hat{\xi}_{n} \end{eqnarray} を用い、誤差関数 \begin{eqnarray} C\sum_{n=1}^{N}(\xi_{n}+\hat{\xi}_{n}) + \frac{1}{2}||\bm{w}||^{2} \end{eqnarray} を考える。これはラグランジュ乗数$a_{n}\geq 0, \hat{a}_{n}\geq 0, \mu_{n} \geq 0, \hat{\mu}_{n} \geq 0$ を用いて \begin{eqnarray} L = C \sum_{n=1}^{N}(\xi_{n}+\hat{\xi}_{n}) + \frac{1}{2}||\bm{w}||^{2} - \sum_{n=1}^{N}(\mu_{n}\xi_{n} + \hat{\mu}_{n}\hat{\xi}_{n}) \notag \\ - \sum_{n=1}^{N}a_{n}(\epsilon + \xi_{n} + y_{n} - t_{n}) -\sum_{n=1}^{N}\hat{a}_{n}(\epsilon + \hat{\xi}_{n} - y_{n} + t_{n}) \end{eqnarray} を最小化することに帰着する。 各変数について微分すると \begin{eqnarray} \frac{\partial L}{\partial \bm{w}} = 0 \Rightarrow \bm{w} = \sum_{n=1}^{N}(a_{n}-\hat{a}_{n})\bm{\phi}(\bm{x}_{n}) \notag \\ \frac{\partial L}{\partial b} = 0 \Rightarrow \sum_{n=1}^{N}(a_{n}-\hat{a}_{n}) = 0 \notag \\ \frac{\partial L}{\partial \xi_{n}} = 0 \Rightarrow a_{n}+\mu_{n} = C \notag \\ \frac{\partial L}{\partial \hat{\xi}_{n}} = 0 \Rightarrow \hat{a}_{n} + \hat{\mu}_{n} = C \end{eqnarray} となって、ラグランジュ関数を変形すると \begin{eqnarray} \tilde{L}(\bm{a},\hat{\bm{a}}) = - \frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}(a_{n}-\hat{a}_{n})(a_{m}-\hat{a}_{m})k(\bm{x}_{n},\bm{x}_{m}) \notag \\ - \sum_{n=1}^{N}(a_{n}+\hat{a}_{n}) + \sum_{n=1}^{N}(a_{n}-\hat{a}_{n})t_{n} \end{eqnarray} を得る。 $a_{n}$と$\hat{a}_{n}$は不等式条件のラグランジュ乗数であり非負であり、$\mu_{n}$と$\hat{\mu}_{n}$も同様であるため、上の式より \begin{eqnarray} 0 \leq a_{n} \leq C \notag \\ 0 \leq \hat{a}_{n} \leq C \end{eqnarray} が成り立つ。 その他の条件もまとめると \begin{eqnarray} a_{n}(\epsilon + \xi_{n}+y_{n}-t_{n}) = 0 \notag \\ \hat{a}_{n}(\epsilon + \hat{\xi}_{n} - y_{n} + t_{n}) = 0 \notag \\ (C-a_{n})\xi_{n} = 0 \notag \\ (C-\hat{a}_{n})\hat{\xi_{n}} = 0 \end{eqnarray} また、$0 a_{n} C$が成り立つデータ点については$\xi_{n}=0$となるため、$\epsilon + y_{n} - t_{n}=0$が成り立ち、したがって \begin{eqnarray} b = t_{n} - \epsilon - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \notag \\ = t_{n} - \epsilon - \sum_{m=1}^{N}(a_{m}-\hat{a}_{m})k(\bm{x}_{n},\bm{x}_{m}) \end{eqnarray} を得る。実際には、こうして得られた$b$の値を平均すると信頼性が高い値が得られる。 \subsection{計算論的学習理論} 省略 \section{関連ベクトルマシン} \subsection{回帰問題に対するRVM} ここでは、入力ベクトル$\bm{x}$に対する目標変数$t$の条件付き確率分布を \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x}),\beta^{-1}) \notag \\ y(\bm{x}) = \sum_{i=1}^{M}w_{i}\phi_{i}(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) \notag \\ y(\bm{x}) = \sum_{n=1}^{N}w_{n}k(\bm{x},\bm{x}_{n}) + b \end{eqnarray} とするモデルを考える。 入力ベクトルの全体を行列$\bm{X}$により表し、対応する出力をまとめて$\bm{t}$とあらわすと、尤度関数は \begin{eqnarray} p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}p(t_{n}|\bm{x}_{n},\bm{w},\beta) \end{eqnarray} で与えられる。 パラメータベクトル$\bm{w}$の事前分布としては、各$w_{i}$ごとに異なる超パラメータ$\alpha_{i}$を持つ \begin{eqnarray} p(\bm{w}|\bm{\alpha}) = \prod_{i=1}^{M}\mathcal{N}(w_{i}|0,\alpha_{i}^{-1}) \end{eqnarray} を用いる。すると事後確率は \begin{eqnarray} p(\bm{w}|\bm{t},\bm{X},\bm{\alpha},\beta) = \mathcal{N}(\bm{w}|\bm{m},\bm{\Sigma}) \notag \\ \bm{m} = \beta \bm{\Sigma}\bm{\Phi}^{T}\bm{t} \notag \\ \bm{\Sigma} = \left(\bm{A}+\beta \bm{\Phi}^{T}\bm{\Phi} \right)^{-1} \end{eqnarray} となる。ここで $\Phi_{ni} = \phi_{i}(\bm{x}_{n})$であり、$\bm{A}=\mathrm{diag}(\alpha_{i})$である。 $\bm{\alpha},\beta$の関数としての尤度は$\bm{w}$について積分を行い、 \begin{eqnarray} p(\bm{t}|\bm{X},\bm{\alpha},\beta) = \int p(\bm{t}|\bm{X},\bm{w},\beta)p(\bm{w}|\bm{\alpha})d\bm{w} \notag \\ \ln p(\bm{t}|\bm{X},\bm{\alpha},\beta) = \ln \mathcal{N}(\bm{t}|\bm{0},\bm{C}) \notag \\ = -\frac{1}{2}\{ N\ln (2\pi) + \ln |\bm{C}| + \bm{t}^{T}\bm{C}^{-1}\bm{t} \} \end{eqnarray} を得る。ただし \begin{eqnarray} \bm{C} = \beta^{-1}\bm{I} + \bm{\Phi}\bm{A}^{-1}\bm{\Phi}^{T} \end{eqnarray} である。 \textcolor{blue}{ (7.87)から(7.89)は正直よくわからない。 } 尤度を最大化する超パラメータ$\bm{\alpha}^{*},\beta^{*}$が求まると、新しい入力$\bm{x}$に対する$t$の予測として \begin{eqnarray} p(t|\bm{x},\bm{X},\bm{t},\bm{\alpha}^{*},\beta^{*}) = \int p(t|\bm{x},\bm{w},\beta^{*})d\bm{w} \notag \\ = \mathcal{N}(t|\bm{m}^{T}\bm{\phi}(\bm{x}),\sigma^{2}(\bm{x})) \notag \\ \sigma^{2}(\bm{x}) = (\beta^{*})^{-1} + \bm{\phi}(\bm{x})^{T}\bm{\Sigma}\bm{\phi}(\bm{x}) \end{eqnarray} を得る。 \subsection{疎性の解析} ここでは本文(7.85)中の$\alpha_{i}$を陽に書き下した上で、$\alpha_{i}$についての停留点を求めることを考える。 行列$\bm{C}$の$\alpha_{i}$に依存する項を全て取り出すと \begin{eqnarray} \bm{C} = \beta^{-1}\bm{I} + \sum_{j\neq i}\alpha_{j}^{-1}\bm{\varphi}_{j}\bm{\varphi}_{j}^{T} + \alpha_{i}\bm{\varphi}_{i}\bm{\varphi}_{i}^{T} \notag \\ = \bm{C}_{-i} + \alpha_{i}^{-1}\bm{\varphi}_{i}\bm{\varphi}_{i}^{T} \end{eqnarray} となる。ここで、$\bm{\varphi}_{i} = (\phi_{i}(\bm{x}_{1}),\cdots,\phi_{i}(\bm{x}_{N}))^{T}$である。 この行列式と逆行列については \begin{eqnarray} |\bm{C}| = |\bm{C}_{-1}|(a+\alpha_{i}^{-1}\bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{\varphi}_{i}) \notag \\ \bm{C}^{-1} = \bm{C}_{-i}^{-1} - \frac{\bm{C}_{-i}^{-1}\bm{\varphi}_{i}\bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}}{\alpha_{i}+\bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{\varphi}_{i}} \end{eqnarray} が成り立ち、本文(7.85)の対数周辺尤度は \begin{eqnarray} L(\bm{\alpha}) = L(\bm{\alpha}_{-i}) + \lambda(\alpha_{i}) \notag \\ \lambda(\alpha_{i}) = \frac{1}{2} \left[ \ln \alpha_{i} - \ln (\alpha+s_{i}) + \frac{q_{i}^{2}}{\alpha_{i}+s_{i}} \right] \notag \\ s_{i} = \bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{\varphi}_{i} \notag \\ q_{i} = \bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{t} \notag \end{eqnarray} となる。停留点は \begin{eqnarray} \frac{d\lambda(\alpha_{i})}{d\alpha_{i}} = \frac{\alpha_{i}^{-1}s_{i}^{2}-(q_{i}^{2}-s_{i})}{2(\alpha_{i}+s_{i})^2} \end{eqnarray} から求めることができて、$\alpha_{i}\geq 0$より、$q_{i}^{2} s_{i}$の場合$\alpha_{i}\rightarrow \infty$が解となり、これは$w_{i}$の分散が$0$になることを意味するので、対応する$w_{i}$が$0$に固定される。 一方$q_{i}^{2} s_{i}$の場合は \begin{eqnarray} \alpha_{i} = \frac{s_{i}^2}{q_{i}^2-s_{i}} \end{eqnarray} となる。 \subsection{分類問題に対するRVM} 省略 \chapter{グラフィカルモデル} \section{ベイジアンネットワーク} \subsection{例:多項式フィッティング} 省略 \subsection{生成モデル} 省略 \subsection{離散変数} 省略 \subsection{線形ガウスモデル} 省略 \section{条件付き独立性} 3変数a,b,cが存在し \begin{eqnarray} p(a,b|c) = p(a|c)p(b|c) \end{eqnarray} が成立するとき、$a$と$b$は$c$が与えられた下で条件付き独立であるといい、 \begin{eqnarray} a\Perp b|c \end{eqnarray} と表す。 \subsection{3つのグラフの例} ここではノードを3つだけ持つ3種類のグラフを考える。 \begin{eqnarray} p(a,b,c) = p(a)p(c|a)p(b|c) \end{eqnarray} のように分解できるとき、ノード$c$は$a,b$を結ぶ経路に対してtail-to-tailであるという。また \begin{eqnarray} p(a,b,c) = p(a)p(b|a)p(c|b) \end{eqnarray} と分解できるとき、ノード$c$は$a,b$を結ぶ経路に対してhead-to-tailであるという。 最後に \begin{eqnarray} p(a,b,c) = p(a)p(b)p(c|a,b) \end{eqnarray} となるとき、ノード$c$は$a,b$を結ぶ経路に関してhead-to-headであるという。 tail-to-tailおよびhead-to-headが成り立つ場合 \begin{eqnarray} a \Perp b|c \end{eqnarray} が成り立つ。 ノード$x$からノード$y$への矢印に従う経路が存在するとき、ノード$y$はノード$x$の子孫であるという。 \subsection{有向分離(D分離)} 有向非循環グラフが与えられたとき、任意の重複しないノード集合$A,B,C$に対して$A\Perp B|C$が成り立つかどうかを考える。 まず、ノード$a,b$を結ぶ経路については二つの条件 \begin{itemize} \item ノード$c\in C$が存在し、経路がそこでhead-to-tailあるいはtail-to-tail \item ノード$d\notin C$が存在し、経路がそこでhead-to-headかつ、$d$の子孫はいずれも$C$に含まれない \end{itemize} のうち片方が成立すれば$a\Perp b|C$が成り立つ。 任意の$a\in A,\ b \in B$に対して、$a\Perp b|C$が成り立つとき$A\Perp B|C$が成り立つ。 \textcolor{blue}{ 91ページの後半の議論は不明な箇所が多い。 本来条件付き独立性はグラフを定めたら即座に決まるもので、ノードが観測されているかどうかにはよらないはず。 } \section{マルコフ確率場} \subsection{条件付き独立性} 省略 \subsection{分解特性} 省略 \subsection{例:画像のノイズ除去} 省略 \subsection{有向グラフとの関係} 省略 \section{グラフィカルモデルにおける推論} \subsection{連鎖における推論} 同時分布が \begin{eqnarray} p(\bm{x}) = \frac{1}{Z}\psi_{1,2}(x_{1},x_{2})\psi_{2,3}(x_{2},x_{3})\cdots \psi_{N-1,N}(x_{N-1},x_{N}) \end{eqnarray} で与えられる場合を考え、連鎖の途中のノード$x_{n}$の周辺分布$p(x_{n})$について考える。 これは \begin{eqnarray} p(x_{n}) = \sum_{x_{1}}\cdots \sum_{x_{n-1}} \sum_{x_{n+1}} \cdots \sum_{x_{N}}p(\bm{x}) \notag \\ = \frac{1}{Z} \left[\sum_{x_{n-1}} \psi_{n-1,n}(x_{n-1},x_{n})\cdots \left[ \sum_{x_{2}}\psi_{2,3}(x_{2},x_{3}) \left[ \sum_{x_{1}}\psi_{1,2}(x_{1},x_{2}) \right] \right]\cdots \right] \notag \\ \left[\sum_{x_{n+1}} \psi_{n,n+1}(x_{n},x_{n+1})\cdots \left[ \sum_{x_{N}}\psi_{N-1,N}(x_{N-1},x_{N}) \right]\cdots \right] \notag \\ \equiv \frac{1}{Z}\mu_{\alpha}(x_{n}) \mu_{\beta}(x_{n}) \end{eqnarray} となる。 これは \begin{eqnarray} \mu_{\alpha}(x_{2}) = \sum_{x_{1}}\psi_{1,2}(x_{1},x_{2}) \end{eqnarray} から始まり \begin{eqnarray} \mu_{\alpha}(x_{n}) = \sum_{x_{n-1}}\psi_{n-1,n}(x_{n-1},x_{n})\mu_{\alpha}(x_{n-1}) \end{eqnarray} と再帰的に計算される。 \textcolor{blue}{ $\mu_{\alpha}$は引数によって関数形が変わってしまう点に注意。あまりよい書き方ではないと思う。 } $\mu_{\beta}$の方も同様に計算される。 \subsection{木} 無向グラフおよび、次節で紹介される因子グラフにおいて、木とは任意のノードの組の間に唯一の経路が存在するものをいう。 \subsection{因子グラフ} $\bm{x}$上の確率分布が \begin{eqnarray} p(\bm{x}) = \prod_{s}f_{s}(\bm{x}_{s}) \end{eqnarray} で与えられるときに、各$x_{i}$を表すノードと、$f_{s}$を表すノードで構成されるグラフを因子グラフという。 $x_{i}$が$f_{s}$の引数に含まれる場合に2つのノードがリンクされる。 \subsection{積和アルゴリズム} 木構造の因子グラフで表されたモデルにおいて、ある特定の変数ノード$x$上の周辺分布$p(x)$を求める問題を考える。 そこで \begin{eqnarray} p(\bm{x}) = \prod_{s\in \mathrm{ne}(x)} F_{s}(x,X_{s}) \end{eqnarray} とする。ここで$\mathrm{ne}(x)$は$x$に隣接する因子ノードの集合を表し \begin{eqnarray} F_{s}(x,X_{s}) = f_{s}(x,x_{1},\cdots,x_{M})G_{1}(x_{1},X_{s1}) \cdots G_{M}(x_{M},X_{sM}) \end{eqnarray} である。 \textcolor{blue}{ ($F_{s}$が一意的に定義できるのはこの因子グラフが木構造上で定義されているからであるはず。) } これを代入して、積の中に入れられる和を中に入れると、 \begin{eqnarray} p(x) = \prod_{s\in\mathrm{ne}(x)} \left[ \sum_{X_{s}}F_{s}(x,X_{s}) \right] \notag \\ = \prod_{s\in\mathrm{ne}(x)} \mu_{f_{s}\rightarrow x}(x) \end{eqnarray} を得る。ここで \begin{eqnarray} \mu_{f_{s}\rightarrow x}(x) \equiv \sum_{X_{s}}F_{s}(x,X_{s}) \end{eqnarray} を定義した。さらに$\mu$について計算を進めると \begin{eqnarray} \mu_{f_{s}\rightarrow x}(x) = \sum_{x_{1}}\cdots \sum_{x_{M}}f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \left[ \sum_{X_{sm}}G_{m}(x_{m},X_{sm}) \right] \notag \\ = \sum_{x_{1}}\cdots \sum_{x_{M}}f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \mu_{x_{m}\rightarrow f_{s}}(x_{m}) \end{eqnarray} となる。ただし、 \begin{eqnarray} \mu_{x_{m}\rightarrow f_{s}}(x_{m}) \equiv \sum_{X_{sm}}G_{m}(x_{m},X_{sm}) \end{eqnarray} である。また \begin{eqnarray} G_{m}(x_{m},X_{sm}) = \prod_{f_{l}\in \mathrm{ne}(x_{m})\backslash f_{s}} F_{l}(x_{m},X_{lm}) \end{eqnarray} であるから、再び和を積の中に入れて \begin{eqnarray} \mu_{x_{m}\rightarrow f_{s}}(x_{m}) = \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \left[ \sum_{X_{lm}} F_{l}(x_{m},X_{lm}) \right] \notag \\ = \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \mu_{f_{l}\rightarrow x_{m}}(x_{m}) \end{eqnarray} を得る。 これで$\mu_{f_{s}\rightarrow x}(x)$に関する再帰的な表式が完成する。 \textcolor{blue}{ 式だけ並べるとわかりにくいので、$F$と$G$が何に対応しているかを図示している図8.46-48を合わせて見るべき。 } \subsection{max-sumアルゴリズム} ここではある確率分布の同時分布を最大にするベクトル$\bm{x}^{\mathrm{max}}$を求める問題を考える。すなわち \begin{eqnarray} p(\bm{x}^{\mathrm{max}}) = \max_{\bm{x}} p(\bm{x}) \end{eqnarray} を求める問題を考える。 ノードの連鎖の例について考えると \begin{eqnarray} \max_{\bm{x}}p(\bm{x}) = \frac{1}{Z}\max{x_{1}}\cdots\max_{x_{N}}[ \psi_{1,2}(x_{1},x_{2}) \cdots \psi_{N-1,N}(x_{N-1},x_{N}) ] \notag \\ = \frac{1}{Z} \max_{x_{1}} \left[ \max_{x_{2}} \left[ \psi_{1,2}(x_{1},x_{2}) \left[ \cdots \max_{x_{N}} \psi_{N-1,N}(x_{N-1},x_{N}) \right] \cdots \right] \right] \notag \\ \end{eqnarray} を得る。 これは前節の時と同じやり方で、任意の木構造の因子グラフに一般化することができる。 \textcolor{blue}{すなわち \begin{eqnarray} \max_{\bm{x}}p(\bm{x}) = \max_{x} \prod_{f_{s}\in \mathrm{ne}(x)} \left[ \max_{X_{s}}F_{s}(x,X_{s}) \right] \notag \\ = \prod_{f_{s}\in \mathrm{ne}(x)} \mu_{f_{s}\rightarrow x}(x) \notag \\ \mu_{f_{s}\rightarrow x}(x) \equiv \max_{X_{s}}F_{s}(x,X_{s}) \notag \\ = \max_{x_{1}\cdots x_{M}} f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \left[ \max_{X_{sm}}G_{m}(x_{m},X_{sm}) \right] \notag \\ = \max_{x_{1}\cdots x_{M}} f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \mu_{f_{l}\rightarrow x_{m}}(x_{m}) \end{eqnarray} とまとまる。(8.4.4の内容もこのように$G$を消去してまとめるとわかりやすいかもしれない。) 8.98の手順によって得られる変数値の集合が全体として必ずしも最大点に対応しないとあるが、今一つ状況が想像しにくい。 結局、各変数がどの値で最大状態を与えるかを記録していくというふつうの結果に落ち着いているが。 } \subsection{一般のグラフにおける厳密推論} 省略 \subsection{ループあり確率伝播} 省略 \chapter{混合モデルとEM} \section{K-meansクラスタリング} ここではまずはじめに、多次元空間のデータ点集合$\{ \bm{x}_{1}, \cdots, \bm{x}_{N} \}$を$K$個のクラスターに分割する問題を考える。 ただし$K$は既知とする。 ここでは、この問題を2値指示変数$r_{nk}\in\{0,1\} (k=1,\cdots,K)$および、各クラスタのプロトタイプベクトル$\bm{\mu}_{k}(k=1,\cdots,K)$からなる目的関数 \begin{eqnarray} J = \sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}||\bm{x}_{n}-\bm{\mu}_{k}||^2 \end{eqnarray} を最小化する問題として、定式化する。ただし$r_{nk}$は$n$を固定した時に$1$になる$k$がただ一つ存在するものとする。 これは$r_{nk}$の最適化と$\bm{\mu}_{k}$の最適化を交互に行うことで収束するアルゴリズムができる。 すなわち$\bm{\mu}_{k}$を固定して \begin{eqnarray} r_{nk} = \begin{cases} 1 k = \mathrm{arg\ min}_{j}||\bm{x}_{n}-\bm{\mu}_{j}||^2 の時 \\ 0 それ以外 \end{cases} \end{eqnarray} とするステップと$r_{nk}$を固定して、 \begin{eqnarray} \frac{\partial J}{\partial \bm{\mu}_{k}} = 2\sum_{n=1}^{N}r_{nk}(\bm{x}_{n}-\bm{\mu}_{k}) = 0 \notag \\ \bm{\mu_{k}} = \frac{\sum_{n}r_{nk}\bm{x}_{n}}{\sum_{n}r_{nk}} \end{eqnarray} とするステップを交互に繰り返す。これが$K$-meansアルゴリズムである。 \subsection{画像分割と画像圧縮} 省略 \section{混合ガウス分布} 混合ガウス分布は \begin{eqnarray} 0 \leq \pi_{k} \leq 1 \notag \\ \sum_{k=1}^{K}\pi_{k} = 1 \end{eqnarray} を満たす$\{\pi_{k}\}$を用いて \begin{eqnarray} p(\bm{x}) = \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} と書くことができる。 これはまた、1-of-K符号化法で符号化されたK次元の2値確率変数$\bm{z}$を考え、$\bm{z}$の値が与えられたときの$\bm{x}$の条件付き分布をガウス分布で与えることによっても定式化可能である。 すなわち、 \begin{eqnarray} p(z_{k}=1) = \pi_{k} \notag \\ p(\bm{x}|z_{k}=1) = \mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} とすれば、 \begin{eqnarray} p(\bm{x}) = \sum_{\bm{z}}p(\bm{z})p(\bm{x}|\bm{z}) = \sum_{k=1}^{K}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} を得る。これにより、同時分布$p(\bm{x},\bm{z})$を使った議論が可能になる。 $\bm{x}$が与えられたときの$\bm{z}$の条件付き確率は \begin{eqnarray} \gamma(z_{k}) \equiv p(z_{k}=1|\bm{x}) = \frac{p(z_{k}=1)p(\bm{x}|z_{k}=1)}{\sum_{j=1}^{K}p(z_{j}=1)p(\bm{x}|z_{j}=1)} \notag \\ = \frac{\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}|\bm{\mu}_{j},\bm{\Sigma}_{j})} \end{eqnarray} で与えられる。 \subsection{最尤推定} データ集合$\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられたときの、対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln\left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N} (\bm{x}|\bm{\mu}_{k}, \bm{\Sigma}_{k}) \right\} \end{eqnarray} で与えられるが、これは最尤推定を行うには不向きである。 なぜなら、$\bm{\mu}_{j}=\bm{x}_{n}$を仮定したとき、このデータ点は尤度関数に対して \begin{eqnarray} \mathcal{N}(\bm{x}_{n}|\bm{x}_{n},\sigma_{j}^2I) = \frac{1}{(2\pi)^{D/2}} \frac{1}{\sigma_{j}^{D}} \end{eqnarray} の寄与を与えるが、これは$\sigma_{j}\rightarrow 0$の極限で発散してしまう。 \subsection{混合ガウス分布のEMアルゴリズム} 尤度関数を平均$\bm{\mu}_{k}$に関して微分を$0$とおくと \begin{eqnarray} 0 = \sum_{n=1}^{N}\gamma(z_{nk})\bm{\Sigma}_{k}^{-1}(\bm{x}_{n}-\bm{\mu}_{k}) \notag \\ \gamma(z_{nk}) = \frac{\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})} \end{eqnarray} を得る。$\bm{\Sigma}_{k}$をかけて整理すると \begin{eqnarray} \bm{\mu}_{k} = \frac{1}{N_{k}} \sum_{n=1}^{N}\gamma(z_{nk}) \bm{x}_{n} \notag \\ N_{k} = \sum_{n=1}^{N}\gamma(z_{nk}) \end{eqnarray} を得る。また、$\bm{\Sigma}_{k}$に関する微分を$0$とおくと \begin{eqnarray} \bm{\Sigma}_{k} = \frac{1}{N_{k}}\sum_{n=1}^{N}\gamma(z_{nk})(\bm{x}_{n}-\bm{\mu}_{k})(\bm{x}_{n}-\bm{\mu}_{k})^{T} \end{eqnarray} となる。また混合係数$\pi_{k}$についてはラグランジュ未定乗数法を用い、 \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) + \lambda \left( \sum_{k=1}^{K}\pi_{k}-1\right) \end{eqnarray} を微分することで \begin{eqnarray} 0 = \sum_{n=1}^{N} \frac{\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})} + \lambda \end{eqnarray} を得る。これより \begin{eqnarray} \pi_{k} = \frac{N_{k}}{N} \end{eqnarray} を得る。これらを踏まえて、混合ガウス分布のためのEMアルゴリズムは以下のようになる。 \begin{enumerate} \item 平均$\bm{\mu}_{k}$、分散$\bm{M}_{k}$および混合係数$\pi_{k}$の初期値を決める \item Eステップ:現在のパラメータ値を用いて、負担率 \begin{eqnarray} \gamma(z_{nk}) = \frac{\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})} \end{eqnarray} を計算する。 \item Mステップ:現在の負担率を用いてパラメータを以下のように更新する。 \begin{eqnarray} \bm{\mu}_{k}^{\mathrm{new}} = \frac{1}{N_{k}} \sum_{n=1}^{N}\gamma(z_{nk}) \bm{x}_{n} \notag \\ \bm{\Sigma}_{k}^{\mathrm{new}} = \frac{1}{N_{k}}\sum_{n=1}^{N}\gamma(z_{nk})(\bm{x}_{n}-\bm{\mu}_{k}^{\mathrm{new}})(\bm{x}_{n}-\bm{\mu}_{k}^{\mathrm{new}})^{T} \notag \\ \pi_{k}^{\mathrm{new}} = \frac{N_{k}}{N} \notag \\ N_{k} = \sum_{n=1}^{N}\gamma(z_{nk}) \end{eqnarray} \item 対数尤度 \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln\left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N} (\bm{x}|\bm{\mu}_{k}, \bm{\Sigma}_{k}) \right\} \end{eqnarray} を計算し収束性を確認し、基準を満たしていない場合2に戻る。 \end{enumerate} \textcolor{blue}{ この方法で、9.2.1節で指摘された発散が起きない理由はなんだろう? } \section{EMアルゴリズムのもう一つの解釈} 全ての観測データの集合を$\bm{X}$で、潜在変数の集合を$\bm{Z}$で、モデルパラメータの組を$\bm{\theta}$で表すことにすると、対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\theta}) = \ln \left \{ \sum_{\bm{Z}}p(\bm{X},\bm{Z}|\bm{\theta}) \right \} \end{eqnarray} で与えられる。EMアルゴリズムでは$p(\bm{X},\bm{Z}|\bm{\theta})$の期待値に注目し、これを最大化する。 すなわちEMアルゴリズムは、観測変数$\bm{X}$と潜在変数$\bm{Z}$の同時分布$p(\bm{X},\bm{Z}|\bm{\theta})$が与えられている場合に 尤度関数$p(\bm{X}|\bm{\theta})$を$\bm{\theta}$について最大化するためのアルゴリズムである。具体的には \begin{enumerate} \item パラメータの初期値$\bm{\theta}^{\mathrm{old}}$を選ぶ \item Eステップ:$p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})$を計算する。 \item Mステップ:次式で与えられる$\bm{\theta}^{\mathrm{new}}$を計算する。 \begin{eqnarray} \bm{\theta}^{\mathrm{new}} = \argmax_{\bm{\theta}} \mathcal{Q}(\bm{\theta}, \bm{\theta}^{\mathrm{old}}) \notag \\ \mathcal{Q}(\bm{\theta}, \bm{\theta}^{\mathrm{old}}) = \sum_{\bm{Z}} p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln p(\bm{X},\bm{Z}|\bm{\theta}) \end{eqnarray} \item 収束条件が満たされていればアルゴリズムを終了し、そうでなければ$\bm{\theta}^{\mathrm{old}} \leftarrow \bm{\theta}^{\mathrm{new}}$として2に戻る。 \end{enumerate} \subsection{混合ガウス分布再訪} 省略 \subsection{K-meansとの関連} 省略 \subsection{混合ベルヌーイ分布} 省略 \subsection{ベイズ線形回帰に関するEMアルゴリズム} 省略 \section{一般のEMアルゴリズム} 全ての観測変数と潜在変数をそれぞれ$\bm{X},\bm{Z}$と集合的に表した確率モデルを考え、$\bm{\theta}$をパラメータの組として、同時分布を$p(\bm{X},\bm{Z}|\bm{\theta})$と書く。ここでの目的は尤度関数 \begin{eqnarray} p(\bm{X}|\bm{\theta}) = \sum_{\bm{Z}}p(\bm{X},\bm{Z}|\bm{\theta}) \end{eqnarray} を最大化することである。EMアルゴリズムを用いる際の重要な仮定は$p(\bm{X}|\bm{\theta})$に基づく尤度関数の最適化は困難であるが、$p(\bm{X},\bm{Z}|\bm{\theta})$に基づく尤度関数の最適化は容易であるとすることである。 まず潜在変数についての分布を$q(\bm{Z})$を導入し、 \begin{eqnarray} \ln p(\bm{X}|\bm{\theta}) = \mathcal{L}(q,\theta) + \mathrm{KL}(q||p) \notag \\ \mathcal{L}(q,\bm{\theta}) = \sum_{\bm{Z}}q(\bm{Z}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta})}{q(\bm{Z})} \right \} \notag \\ \mathrm{KL}(q||p) = -\sum_{\bm{Z}}q(\bm{Z}) \ln \left \{ \frac{p(\bm{Z}|\bm{X},\bm{\theta})}{q(\bm{Z})} \right \} \end{eqnarray} と分解する。この分解は \begin{eqnarray} \ln p(\bm{X},\bm{Z}|\bm{\theta}) = \ln p(\bm{Z}|\bm{X},\bm{\theta}) + \ln p(\bm{X}|\bm{\theta}) \end{eqnarray} に基づいている。$KL(q||p)$はKLダイバージェンスと呼ばれるもので、$KL(q||p)\geq 0$が成り立ち、等号成立は$q=p$の時に限る。 \textcolor{blue}{ このことを用いると、EMアルゴリズムが以下のようにして対数尤度関数を増加させていることがわかる。 \begin{eqnarray} \ln p(\bm{X}|\bm{\theta}^{\mathrm{old}}) \notag \\ = \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{old}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\ \leq \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\ \leq \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\ = \ln p(\bm{X}|\bm{\theta}^{\mathrm{new}}) \end{eqnarray} ここで、最初の等号で$q(\bm{Z})$の任意性と、KLダイバージェンスの等号成立条件を、2行目の不等式では$\bm{\theta}^{\mathrm{new}}$の定義を、3行目の不等式ではKLダイバージェンスの非負性を用いている。 }
https://w.atwiki.jp/monosepia/pages/7325.html
周波数 あらゆるものとのつながり 関係性の修復⇒周波数 ● 639Hz〔Google検索〕 ● 639Hz 人とのつながり、関係の修復。Integrating Structures. 「Mixcloud」より ■ 6hz Theta Binaural(639hz Solfeggio)~Full Length ■ 639 Hz Integrating Structures HD Solfeggio Harmonics Meditation .