(Clicker Training vs Training with a Clicker)
沒有共通的語言叫人懊惱!當有人說他們作「響片訓練」,除非我詢問一些定義相關的問題或看著他們訓練,我永遠沒法確定他們是否真這麼做。如果在講座上的聽眾說自己作響片訓練,多達一半的人絕對只是『用響片』訓練,而非作『響片訓練』,這種模擬兩可的情形令響片訓練者懊惱,令認為自己作響片訓練(而且想這樣做)的人懊惱,也令身為講座講師的我感到懊惱。甚至我去參加一些所謂的響片講座時,卻失望地發現,一些德高望重、天賦聰穎的人以響片訓練者自我推銷,可是他們無疑卻是「誘導奬勵+響片」的訓練師。
為了區分出響片訓練,以下描述四處通常會發生誤解的地方,雖然有些訓練師擁護響片訓練的一些好處或甚至許多好處,明白不同訓練之間深切卻微妙的差異,明確闡明響片訓練,特別是它為何不同於極類似的「誘導奬勵+響片」訓練依然很重要。我們必須把響片訓練者一詞保留給完全信奉全套響片訓練的訓練者,否則我們無法清楚溝通我們是何種訓練者,持何種觀念。
以下涵蓋獲得行為和奬勵時機的差異,兩項重大差異則是給予零食的方式及狗兒不出現行為時的訓練者反應。
零食給予的方式
利用行為標定訊號(例如響片)的一大好處就是能夠改變零食給予的方式,它比其他訓練方法更能有效增進訓練成效及加快進展。
利用誘導法時,狗兒在達成誘導姿勢或依訊號出現姿勢時獲得零食,例如誘導狗兒趴下就以趴姿獲賞。訓練等待不動時,狗兒必須留在原地才能獲賞,如果牠在獲賞前移動了就不給賞。
響片訓練時,既然響片已標定成功的當下,使行為終結,狗兒不必保持姿勢或位置也會獲賞,響片訓練者可針對每個行為選擇最有效率的零食給予方式,藉以加速學習,下列一些例子顯示行為標定訊號出現之後如何運用零食增進並加速訓練:
。使行為回到起點:例如訓練趴下時,當狗兒趴下,訓練者按下響片,接著把零食遞到牠得站起來才吃得到的地方或丟到不遠處,讓牠起身去取,狗兒吃下零食後即可再度趴下,如果餵到狗兒嘴裡讓牠保持不動姿勢,你將多出一個必須讓牠改變姿勢才能再度出現行為的步驟;誘導奬勵法通常會利用來回誘導兩個姿勢解決這個問題,例如誘導站起來再誘導趴下去。
。定位奬勵:響片訓練者當然也會在原地奬勵,例如訓練長時間行為(例如等待不動或休息)時,響片聲標定時間已結束,訓練者可能就地奬勵狗兒,減少重新調整姿勢的必要性。訓練位置相關的行為(例如:腳側隨行)時,直接在定位給予奬勵很有效,但並不是非這樣做不可。如果狗兒在響片聲後離開位置,牠仍然可獲賞,因為響片本來就代表終結行為。
。影響整體反應:給予零食的方式有助提高活潑度或使過於激動的狗兒冷靜下來,例如,按響片後定位餵食或減少多餘的餵食動作可導致較冷靜的反應,從另一方面來看,把零食滾到地上讓狗兒追著它跑可能會提高興奮度。
。要的是動態行為:當想訓練的行為是退後或遠離的動作,給予零食的方式可以讓狗兒回到起點,這時不同於定位予賞的是,訓練者在狗兒尚在動作進行當中即按下響片,不會等到牠完成整個動作,例如當牠往後退,響片告訴牠動作沒有錯,在牠回到訓練者面前領賞後即能夠再度出現動作,增強動態動作時若不利用標定訊號將很困難。
。增加距離:響片訓練者很快便能遠離狗兒,例如訓練狗兒走向標的物或訓練遠距離訊號反應,由於狗兒成功出現行為時零食不必即時出現眼前,訓練者也不必在牠眼前。誘導式訓練時,零食必須刻意放在標的物上某處(通常設計起來不容易),或者訓練者只能一點一點地,慢慢拉長離開的距離。
。時間:若使用行為標定訊號,增強物不必立刻在行為發生後出現,舉例來說,如果奬勵是到屋外玩耍,在響片標定行為之後,人走到門口、打開門再讓狗兒出門時可能已經過一段時間。有了這個行為標定訊號的好處,響片訓練者可利用很多活動作為奬勵,但誘導式訓練者多半無法這麼做。
不出現動作
講座示範上,第一次看見從未受訓的狗兒或幼犬接受響片訓練的人總是不可思議地發出驚嘆,目睹從未受訓的狗兒沒有聽過響片,在幾分鐘之內即能開心衝到被子上趴下,看來真是神奇,它迅速使狗兒出現一連串看似複雜的行為,首次見識的人不得不對這種魔力印象深刻,他們是看到了,也相信它有可能──只要訓練者經驗老道,但是要他們產生信任,相信這種不作任何指引、不用暴力或肢體、也不作任何控制的作法對自家的狗真會有用?這對任何初入門的響片訓練者都是很大的問號,對於來看誘導背景、習慣狗兒出現機械化自動反應的人尤其困難,雖然自動反應並非「學習」,即時的成就感對於誘導者具有高度增強作用。
剛開始時,很不容易相信響片這一套會管用──人們必須有耐性,讓響片進行溝通。人類的天生傾向是減輕學習壓力──減少狗兒當下的混淆或可能出現的混淆,急著幫忙狗兒是人們最隱而不見的習性,尤其是誘導式跨域訓練者──狗兒看來困惑時就幫牠,狗兒挫折時也幫牠,狗兒無助也拯救牠。當訓練者喪失對於訓練方法的自信時,誘導法可以填補空缺。
於是當狗兒不提供某項行為(無論是何項行為),訓練者拿出零食作誘導,讓牠知道該做什麼,然後再試看看,情況又一樣,狗兒沒法出現行為;零食再度出現,再度誘導牠出現行為。訓練者誤以為這麼做就能讓牠懂,牠是懂得某件事,但是並不是訓練者希望的那件事:狗兒學習到什麼都不要做,直到訓練者拿出零食,然後跟著零食動就能得賞,結果『沒反應的行為受到增強』(或可稱為習得無助)。
狗兒不動的反應並不是意識下的抉擇,牠沒有坐在那兒想著:「我知道該做什麼,但是我不會這麼做。」其實是因為牠沒有反應的等待行為帶來了好的後果。
更糟的是,訓練者誤以為問題是狗兒只是需要多幾次示範,誘導幾次之後就決心試圖塑形行為或等待牠行為出現,所以他試著和狗兒比耐心──看看是否能等到牠出現行為,可是狗兒不會這麼做,畢竟牠已學會沒反應才會獲賞──只要等著跟隨誘導就好。當訓練者等得久一些,但終究仍掏出零食誘導,這麼做只會拉長狗兒等待零食出現的時間,不但增強等待行為,而且也使這個等待的行為受到隨機增強,變得更不易消失。
無論是否給予訊號,如果狗兒不出現動作之後人們無法克制想誘導的衝動,可能會一路每況愈下,最後到了訓練者所謂的『頑固』地步:「我家狗拒絕服從我,他知道我要什麼,但是牠就是不幹。」如果狗兒知道我們要什麼,也知道牠照做會獲得很高報酬,但牠仍拒絕這麼做?誘導時牠完全會樂意配合,所以既然牠不願出現行為,牠一定是『故意摃上』訓練者?我們真能相信狗會這麼做?當然不是,答案是訓練者訓練了這種持之以恒的等待行為。
我十分同情落入這種陷阱的訓練者──畢竟,我們都只是想幫幫狗兒,但是暫緩的作法是錯的,這種幫助牠的作法會消除讓牠自己去發現、去學習的能力,而這種能力對狗兒或訓練者有太大的好處了!
好消息是,只要訓練者意識到自己無意的行為,並且去除自己想去幫牠的衝動──花些時間比耐性,撐得比牠久,訓練就會往前邁一大步,而且看見狗兒腦子燈泡亮了的頓悟時刻,這種刺激和興奮也值得耐心等待。
正名的請求!
這些是響片訓練不同於其他訓練的地方,雖然我顯然公開承認自己是響片訓練者(我全心信仰響片的人──稱我是響片訓練傳教士也可),我並不討厭利用以下方式訓練的人:1。一直利用誘導法獲得行為,2。標定行為的同時送上零食,3。利用響片作為『繼續加油』訊號或『替代稱讚的訊號』,4。要求狗兒維持姿勢或位置才奬勵,5。狗兒迷惘時利用誘導協助牠,但不利用響片讓牠自個兒找出答案。
不過,請別再說這些人作響片訓練,這奪去我們這群人清楚溝通我們身份和訓練方法的能力──我們才是響片訓練者。
作者附註:有些狗兒的特定習得行為可稱為『故意槓上』訓練者的行為──但是它是不當訓練在無意間訓練出來的行為,在『誘導奬勵+響片』訓練的早期或甚至響片訓練時狗兒並不會出現這類行為。 |