だめんず・うぉ〜か〜と強化学習

まぐまぐから毎週届くニュースレターに,ダウンロード書籍の一部を立ち読み感覚で掲載しているコーナーがある.今週は「なぜ,女たちは『ダメな男』に惹かれるのか?」という文章が載っていた.

心理学的にいうと,「間欠強化」という現象なのだそうだ.強化において,報酬を毎回ではなくたまにしか与えないことを「間欠強化」(intermittent reinforcement) という.サルのボタン押し実験で間欠強化を行うと,より長い間ボタンを押し続けるようになるという.で,これは人間の恋愛の場合でいえば,「たまに見せるやさしさ」にはまりやすい,ということだという.だから「普段がひどい分,たまのやさしさが価値あるものと知覚される」のだそう.

強化学習の枠組でこれが説明できるだろうか? 報酬を期待していない時に報酬が来たら,ドーパミン細胞はバリバリ言うだろうし,予測が裏切られたわけだから TD 誤差は増大する.ふつう,学習が進むにつれて価値関数はサチっていくが,この場合たまに TD 誤差がどーんと増大するので間欠的ではあるが価値関数が増える.タイミングとタイムスケールをうまく考慮すれば,通常の強化よりも価値関数は増大するだろう.

つまり,間欠強化が功を奏すのはタイミングとタイムスケールにかかっている.報酬の間をあけすぎると連続強化レベルには届かない (ダメすぎて見限られる).頻度を上げすぎると TD 誤差は少なくなり,連続強化と同じようになってしまう (別にだめんずではない.これが一番よいのかも).十分な時間が経過して通常強化の TD 誤差がサチってくる (マンネリ化する) あたりで,報酬をどーんんと与えてやれば,連続強化よりも価値関数を上げられることもあるのだ(ぉ

定量的に実験してみたい (計算機上で).

ちなみにこのダウンロード書籍の購入は以下.買う気はさらさらないけど.

クリスマス・イブにやな話題だな(ぉ