比如具體到量化交易領(lǐng)域,我們要做的決策可以說(shuō)是每個(gè)時(shí)刻,要買(mǎi)什么股票,賣(mài)什么股票;買(mǎi)多少,賣(mài)多少;是用限價(jià)單還是市價(jià)單等等,這些都是決策。
所謂不確定性,可以包括未來(lái)股票價(jià)格的變化是不確定的,另外我們的單子進(jìn)入到市場(chǎng)之后,對(duì)市場(chǎng)的影響也是不確定的。
另外,強(qiáng)化學(xué)習(xí)涉及到幾個(gè)方面:優(yōu)化(Optimization)、延遲結(jié)果(Delayed Consequence)、探索(Exploration)、泛化(Generalization)
剛剛說(shuō)的4個(gè)方面。所謂優(yōu)化,目標(biāo)就是找到做決策的優(yōu)解方法,使得可以獲得更好或比較好的結(jié)果。
探索指的嘗試不同的決策,來(lái)獲得不同的結(jié)果,不斷學(xué)習(xí)改進(jìn)。比如下圍棋,每一步棋都要想著未來(lái)幾步,模擬未來(lái)的棋局,探索哪一個(gè)位置最好,這就是探索的過(guò)程。
最后就是泛化。比如下棋,不可能每一種情況過(guò)去都模擬過(guò),未來(lái)肯定會(huì)遇到?jīng)]見(jiàn)過(guò)的棋局,因此過(guò)去的模型必須要有泛化的能力,這樣遇到了沒(méi)見(jiàn)過(guò)的棋局也可以應(yīng)付。
相比監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),它們并沒(méi)有做決策的過(guò)程,所以并沒(méi)有上述說(shuō)的“優(yōu)化”的步驟;當(dāng)然,監(jiān)督學(xué)習(xí)要最小化誤差,這可以理解為優(yōu)化的一種方式;但兩個(gè)優(yōu)化不是一個(gè)意思,強(qiáng)化學(xué)習(xí)里說(shuō)到優(yōu)化一般指找到一個(gè)最有策略,從這個(gè)角度監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)都沒(méi)有優(yōu)化。另外,監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)也沒(méi)有所謂探索試錯(cuò)的過(guò)程,也沒(méi)有延遲結(jié)果這個(gè)東西;但監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)都有泛化的特征。這是它們與強(qiáng)化學(xué)習(xí)的區(qū)別。