強化のスケジュール: 犬にいつご褒美を与えるべきですか?

ご褒美を与えて犬を訓練することは、行動を教え、維持するための優れた方法です。しかし、それらのご褒美はどのくらいの頻度で与えるべきなのでしょうか? 犬が正しい行動をするたびにおやつを与えることも、時々おやつを投げることもできます。どちらが良いでしょうか？「強化スケジュール」として知られるものとその背後にある科学を理解することは、トレーニング中に犬に最も効果的にご褒美を与えるのに役立ちます。

「強化スケジュール」とは何ですか？

ポジティブ強化犬のトレーニングでは、ご褒美を使用して、犬に実行してほしい行動を強化または奨励します。正の強化は人にも当てはまります。ほとんどの人は、何らかの形で報酬を得ているため、仕事に行く可能性が高くなります。支払いが止まったら、ほとんどの人は仕事を続けられなくなるでしょう。しかし、給料が一番のモチベーションになるのでしょうか？それともボーナスが努力を促すのでしょうか？週単位ではなく、タスク単位で支払いを希望する人もいるかもしれません。

同様に、犬はご褒美を与えられる行動を繰り返す可能性が高くなります。ご褒美としては、トレーニングのおやつや、きしむボール投げなど、犬が興奮するものであれば何でも構いません。報酬を提供するにはさまざまな方法があり、これらは強化スケジュールとして知られています。これは、支払いや報酬の支払い方法に関するさまざまなルールを記述する技術的な方法です。さまざまなスケジュールとそれがあなたの犬にどのように適用されるかを見てみましょう。

継続的な強化スケジュール

継続的な強化スケジュール (CR) により、行動のすべてのインスタンスに報酬が与えられます。たとえば、子供がブロッコリーを食べるたびにデザートを与えるとします。あなたの犬の場合、座るたびにビスケットを与えることができます。これは、行動と報酬の関連性が明確になるため、新しい行動を教えるのに最適な方法です。座るたびにご褒美を与えないと、犬は飼い主が何を期待しているのか、いつ正しく行動しているのかを理解するのに苦労する可能性があります。

水道の蛇口について考えてみましょう。水道の蛇口には CR が備わっています。スイッチを入れるとさわやかな水が出てきます。しかし、蛇口をひねっても何も起こらなければ、何度も蛇口をひねろうとすることはありません。代わりに、諦めて配管工に電話してください。ただし、これは最も現実的なスケジュールではありません。常におやつを用意しているとは限りませんし、おやつを食べすぎるとペットの健康に良くありません。

犬があなたが何を望んでいるのかを理解したら、CRをやめる時が来ました。そうでない場合は、あなたの手におやつがあるのを見つけた場合にのみ機能する可能性があります。 CR は、犬がトリック (フープにボールを落とすなど) を実行するなど、複雑な動作を完了するときにも役立ちます。

この場合、CR は「行動連鎖」全体を維持するのに役立ちます。行動連鎖は、シーケンス内で実行される 2 つ以上の行動の組み合わせであり、各行動は次の行動への合図として機能し、強化子は連鎖の最後のステップの後に来ます。たとえば、ダンベルを取得するには、ダンベルを拾い上げ、元に戻し、ハンドラーの手に置きます。あるいは、フリースタイルダンスの動きを実行するには、後ろ向きに歩き、円を描いて回転してからハンドラーの腕に飛び込むことが含まれる場合があります。それぞれの行動は、最初は個別に教えられ、強化されてから、連鎖として結び付けられます。

消滅、または強化の予定なし

犬が行動を覚えたら、ご褒美をやめることはお勧めしません。ひねっても何も出ない水道の蛇口を思い出してください。報酬が流れなくなったとき、タップを回す動作も止まりました。それは絶滅として知られています。そして、犬がご褒美をもらえなくなると、最終的には犬の反応も枯れてしまいます。これは、飛び起きたり、物乞いをしたりするような問題行動に対処するときに役立ちます。しかし、特定の行動を強化して奨励することが目標である場合は、犬が積極的に関与し、喜んで反応し続けるようにする必要があります。そこで断続的な報酬が登場します。

断続的な強化スケジュール

犬が受け取るすべての反応に対してご褒美を与えていない場合は、断続的または部分的な強化スケジュールを使用していることになります。このタイプの報酬システムでは犬の学習は遅くなりますが、一度特定の行動を学習すると、その行動は消滅しにくくなります。断続的な強化には 4 つのカテゴリがあります。

固定比率

固定比率スケジュール (FR) では、一定数の応答後に報酬が提供されます。生産ラインを考えてみましょう。労働者は、ガジェットを 20 個作成するごとに報酬を受け取る可能性があります。最初の 19 個のガジェットの組み立てを完了しても何も得られませんが、20 個目は給料をもたらします。あなたの犬と、5 回座るごとに綱引きをして、1 回目から 4 回目までは何もしないかもしれません。

FR は簡単に実行できますが、犬はすぐにルーチンを習得します。彼らは報酬が支払われる直前に最もよく反応しますが、報酬の直後にはパフォーマンスが低下します。したがって、FR は犬の行動を改善するのに最適な方法ではない可能性があります。その生産ラインを考えてみましょう。作業員はこれらの機器を素早く組み立てますが、急いでいるあまり、最高品質の仕事をしていない可能性があります。

可変比率

可変比率スケジュール (VR) は、予測できない数の応答の後に報酬を提供します。これがギャンブルの基礎になっているものです (そしてギャンブルが中毒性がある理由も)。スロットマシンを使用するときは、どのスピンが報われるかわかりません。それで、あなたはお金がもうすぐそこにあるかもしれないと確信してプレイを続けます。 VR を使用して、犬が散歩中にあなたのそばを確実にかかとで歩くように教えることができます。平均して10歩ごとにおやつをあげることができますが、2歩後になる場合もあれば、15歩後になる場合もあります。

ただし、VR を使用するのは難しい場合があります。人間の脳はパターンを好むため、VR (可変数の応答後に報酬を分配する) を使用していると思っていたのに、FR (固定数の応答後に報酬を分配する) を使用していることに気づく可能性があります。コンピュータを使用してランダムな報酬スケジュールを作成すると便利です。あるいは、散歩中に匂いを嗅ぐ機会など、人生のご褒美を含めることもできます。犬はおやつをもらえることもあれば、おもちゃを投げてもらえることもありますが、何ももらえないこともあります。犬はいつ何が起こるかわからないので、あなたのために着実に一生懸命働いてくれます。

固定間隔

固定間隔スケジュール (FI) では、一定時間が経過した後に応答が発生した場合にのみ報酬を提供します。子供の週のお小遣いと同じくらいです。子供がその週の家事をすべて完了した場合にのみ、日曜日の夜にお金を受け取ります。定期的な給餌時間は FI の状況に応じて異なります。犬を地面に下ろす前にフードボウルのそばに座るように教えた場合、食事の間の時間が経過して初めてフードボウルのそばに座ることが報われます。

FI は予測可能なため、FR と同様に、犬はルーチンを学習できます。彼らは報酬が支払われる直前まで懸命に働きますが、日曜の午後まで家事を待つ子供のように、次のインターバルが始まるとパフォーマンスが低下します。

可変間隔

可変間隔スケジュール (VR) では、学校でのクイズと同様に、予測できない時間が経過した後に応答があった場合にのみ報酬が提供されます。クイズで A を獲得すると、教師から金星が与えられることになるかもしれませんが、生徒はクイズ間の時間の長さを知りません。万が一に備えて、宿題を最後までやり遂げる可能性が高くなります。 VR は、犬を飼い主の手に持ってくるように訓練するときに役立ちます。落としてもらうまでの待ち時間を変えることができるので、犬はいつご褒美が来るか分からず、あなたが求めるまでアイテムを持ち続けます。

比率

(犬は強化される前に一定回数反応する必要があります)

間隔

（犬は一定時間経過後にのみ強化されます）

修理済み

(応答数または応答間隔は同じ)

結果: 犬はご褒美の直前には良いパフォーマンスを示しましたが、ご褒美の直後は反応率が低下しました。

結果：犬は一定時間経過後にのみ強化される

変数

(応答数や応答間の時間は常に同じとは限りません)

結果: 犬はご褒美の直前には良いパフォーマンスを示しましたが、ご褒美の直後には反応率が低下しました。

結果: 犬のパフォーマンスは一時停止することなく安定していますが、間隔が長いと反応率が低くなります。

補強スケジュールの実践

CR は新しい行動を教えるのに最適ですが、行動を維持するには断続的なスケジュールの方が効果的です。 VRとIRのスケジュールは予測不可能であるため、より安定した対応が行われる可能性があります。可能であれば、ランダムにしてください。あなたの犬が人間のスロットマシンがいつ報われるかまったく分からないとしても、あなたがその行動を求めるたびに、彼らは熱心に反応するでしょう。

インターバルスケジュールは特定の特定の行動に適用されますが、ほとんどの場合、代わりに犬に滞在などの行動を一定期間保持してもらいたいと考えます。したがって、厳密には強化スケジュールではありませんが、期間スケジュールもトレーニングツールボックスに追加してください。これには、犬がご褒美を与えるまでの行動を維持する時間を変えることが含まれます。固定期間スケジュールまたは可変スケジュールを使用できますが、可変スケジュールの方が効果的です。

また、差分強化を実践することも役立ちます。これは、設定された基準に基づいて特定の応答のみに報酬を与えることを意味します。たとえば、これは、最もきついかかとまたは最も速く下りた人にのみ報酬を与えることを意味します。これはパフォーマンスを向上させるための優れた方法であり、報酬にも変動を加えることができます。差動補強を追加する前に、まず断続的な補強を段階的かつ意図的に導入します。そうすることで犬は自信を持ち、あなたのために働くことに興味を持ち続けるでしょう。そして、何がご褒美になるかにこだわり始めると、犬はおやつが毎回もらえるわけではないことをすでに理解しているでしょう。

最後に、あなたの犬について知ってください。報酬がめったにないためにイライラしたり諦めたり (消滅) してほしくありませんが、同時に退屈も防ぎたいと考えています。犬種や犬種によっては、おやつをもらう前に喜んで同じ行動を 20 回行う場合もありますが、その努力に対して頻繁にお金を払わないと、他の子犬や犬種がどこかへ行ってしまう可能性があります。高い補強率で犬の関与を維持します。