reinforcement learning
Post on 08-Nov-2015
13 Views
Preview:
DESCRIPTION
TRANSCRIPT
ReinforcementLearningParadigmabarudalamMachineLearning
AliRidhoBarakbah,S.Kom.SoftComputationResearchGroup,EEPIS-ITS
ReinforcementLearning.Itulahtopikyangakansayaperbincangkandisini.Walaupuninisekedartulisanbiasa,bukantulisanilmiah,namunsetidaknyainimungkinbisadianggapsebagaisharingknowledgeyangmungkinbisabermanfaatbagirekan-rekandisini.
KILASBALIK
BerbicaratentangReinforcementLearning(RL),tidakterlepasdarisejarahberkembangnyabidangArtificialIntelligence(AI).Kalauandatidakberkeberatan,sayaakanmengajakandamemutarjamdindinganda,lalumenerobosdimensiwaktu,danpergikeawaltahun1950-an.
AdalahseorangyangbernamaAlanTuring,seorangmatematikawanInggris,ditahun1950-an,mencobamembuatsuatumesinyangdinamakanTuringMachinedimanadidalamnyaberisigameyangdibangundariserangkaianalgoritmasehinggamesintersebutmampubermaindenganmanusia.Padatahun1956,JohnMcCarthy,seorangprofessordariMIT,mulaimemperkenalkanbidangbarusecaraspesifikyangbernamaArtificialIntelligence.BeliaumendefinisikanbidangitusebagaiBidangyangmemodelkanproses-prosesberpikirmanusiadanmendesainmesinagardapatmenirukankelakuanmanusia[1].
MulailahduniaAIberkembangpesat,menjadidayatariktersendiribagiparapenelitidanpakarcomputerscience.Halinibisakitalihatdenganbermunculnyaberbagaimacammetode-metodeyangdikembangkanpadabidangAI,mulaidariteorigraph,teoritree,teoristate,knowledgebasedsystem,sampaiexpertsystemyangberbasisprobabilisticmodel.
Menariknya,sebelummasaberkembangnyaAIyangberorientasipadapemodelancaraberpikirmanusia,parascientistsebenarnyajugaberusahamengembangkanpemodelancaraberpikirmanusia.Padaawaltahun1940-an,merekamelakukanrisetterhadapmekanismeberpikirpadastrukturotakmanusia.ItulahawalberkembangnyaapayangdinamakandenganNeuralNetwork(NN).
Yanglebihmenariklagiadalah,meskipunberorientasipadapemodelancaraberpikirmanusia,berkembangNNdanAIseakan-akandalamduaduniayangberbeda.Olehkarenaitu,bisakitamaklumiadaperbedaanpendapatdikalanganpakarcomputerscienceapakahNNbisadikategorikansebagaisalahsatubidangAI.
SebagianexpertmenyakinibahwaNNtermasukdalamsalahsatumetodepadabidangAI.SebagianexpertlainnyamengatakanbahwaNNlebihcenderungmasukdalambidangSoftComputationdaripadamasukkebidangAI.AdajugasebagianexpertyangmengawinkankeduakutubperbedaanperdapattersebutdenganmengatakanbahwaNNlebihcocokmasukdalambidangComputationalIntelligent.Namunsayatidakakanmembahasterlalumendalammengenaihalini.
AIDANKONSEPLEARNING
Namunseiringdenganberjalannyawaktu,mulaimasuktahun1990-an,perkembanganAIsudahmulaimenurunpopularitasnyadikalanganscientistdibandingkandenganperkembanganNNsendiri.Mengapabisademikian?.Sayabisamerangkainyademikian.
AIyangpadamulanyadianggapsuatubidangkeilmuanyangmencobamemodelkancaraberpikirmanusia,tidaklainbanyakdidominasiolehteori-teorilogisyangsebenarnyatidakadahubungannyadengancaramanusiaberpikir.Metode-metodeyangberkembangpadabidangAIbukanlahbertumpupadakonseplearningyangmerupakandasarteorimanusiaitubisaberpikir.
Ambilsajasatucontoh,ExpertSystem(ES).ESitusebenarnyabukanmerupakancaramanusiaberpikir,tapilebihmengarahkepadaperkawinanantarateoritreedenganteoriprobabilistikuntukmenyelesaikanpermasalahanpengambilankeputusan.TerlaluberlebihanjikakitaberanggapanbahwaESterilhamiolehcaramanusiaberpikir,apalagicaraexpertberpikir,sebagaimanakataexpertyangdipinjampadateoritersebut.NamuninibukanberartiESitumetodeyangkurangbaik.AkantetapisayahanyamengatakanbahwaESbukanlahteoriyangdibangundaricaramanusiaberpikir.
Lebihmenguatkanhaltersebut,sayasedikitinginbercerita.SepertiyangkitaketahuibahwaESmulaidikembangkanpadatahun1960olehkomunitasAI.Teoriinisangatampuhdalammenyelesaikanpermasalahanpengambilankeputusanmelaluipendekatanrulebasedreasoningdancasebasedreasoning.Padatahun1971,ThomasL.Saaty[2]berhasilmengembangkansuatumetodebarudalammenyelesaikanpermasalahanpengambilankeputusan.MetodetersebutbernamaAnalyticalHierarchyProcess(AHP).Meskipunsama-samametodeyangdipakaiuntukkasuspengambilankeputusan,dibeberapasisiAHPmempunyaikelebihandibandingkanES.DiantarakelebihantersebutadalahAHPbisamelibatkannilaipreferensi,dimanahalitutidakpernahdibayangkanolehES.Disisilain,AHPbisamelakukankoreksikesalahaninputyangmanahalitutidakbisadilakukanolehES.LalukenapaAHPyangsama-samadipakaiuntukpenyelesaiankasuspengambilankeputusansebagaimanaESdandisatusisimempunyaikelebihandibandingkanES,tidakdimasukkankedalamsalahsatubidangdiAI?.Jawabannyasederhana.ItukarenaAHPbukandikembangkanolehseorangpakardarikomunitasAI,sehinggatidakpernahterbayangsamasekaliuntukmengaitkanantaraAHPdenganAI.
Cobalahandalihatmetode-metodelainyangmasukdalambidangAI,makaakanandatemukanbanyakmetodeyangsebenarnyabukanberasaldarimemodelkancaramanusiaberpikir.KalaulahAIdisebutkecerdasanbuatan,makabelumbisadikatakankecerdasan
tersebutadalahberasaldaripemodelancaraberpikirmanusiasebagaimanayangdidefinisikanolehMcCarthypertamakali,ataudengankatalain,bukanhumanartificialintelligence.Namunsekalilagi,inibukanberartimetode-metodediAImerupakanmetode-metodeyangtidakbaik.Selamaini,metode-metodediAIbanyakberhasilmenyelesaikanpermasalah-permasalahanyangkompleksdimanamanusiasendirimerasakesulitanuntukmemecahkannya.AIbanyakmemberikandasar-dasarlogisdalammenyelesaikanberbagaimasalahkomputasi.AIbahkanmerupakanpintugerbangyangharusdimasukiuntukmengenallebihjauhtentangberbagaidisiplinilmupadacomputerscience.
SEPUTARLEARNINGTHEORIES
Itulahsebabnya,parascientistlebihtertarikdanmulaiintensmelakukanrisetdalambidangyangberbasispadalearningtheory.Prof.Sugiyama[3]membagibidanglearningitudalam3bidangriset:
1.Memahamikonsephumanbrains(dikajipadabidangphysiology,psychology,neuroscience)2.Mengembangkanlearningmachines(computerandelectronicengineering)3.Mentranformasiesensilearningsecaramatematik(computerandinformationscience)
KarenaNNberbasispadalearningtheory,sehinggaitulahsebabnyamengapaNNsangatmenarikdanintensdikajiolehparapakarcomputerscience.Padalearningtheoryitupula,parascientistmengelompokkanNNkedalamsalahsatutipelearning,yaitusupervisedlearning,diantaratipeyanglain,unsupervisedlearning.
Supervisedlearningdiibaratkansebagaiprosesbelajardariseorangmuridyangberadadalamsebuahkelas.Simuriddiperbolehkanbertanyakepadaguruyangtelahmengetahuiaturanjawabannya,dankemudiansidosenmenjawabpertanyaantersebut.Darihasiltanya-jawabberkali-kali,simuridakanbisamemahamiruledaripermasalahan,sehinggajikaadapermasalahanlain,simuridakanmembandingkandenganruleyangiasimpulkansebelumnya,sehinggaiabisamemberikanjawaban.Olehkarenaitu,tipesupervisedlearninginimemerlukanapayangdisebuttraining.Semakinlamatraining,semakinpintarpulasimuridmemecahkanmasalah.Itulahbasicconceptdarisupervisedlearning.
Selainsupervisedlearning,adalagitipelearningyanglainyangdinamakandenganunsupervisedlearning.Ilustrasiyangmudahmisalkanhubunganantaramuriddandosenpadacontohyangsebelumnya.Ketikasimuridmenjumpaimasalah,iaharusdapatmenjawabmasalahtersebutdengansendirinya.Semakinbanyakiaberusahamenjawabsendiri,iaakansemakinpandaidalammenemukanruleyangdapatdigunakanuntukmemecahkanpermasalahandikemudianhari.Unsupervisedlearninginiakansangatbermanfaatjikamemangpermasalahanyangdihadapirelatiftidakbisaatausulitsekalidijawabolehsangguru.
Berbedadengansupervisedlearning,unsupervisedlearningtidakmemerlukanprosestraining.Ketikasimuridmenjumpaimasalah,iaharusdapatmenjawabmasalahtersebutdengansendirinya.Semakinbanyakiaberusahamenjawabsendiri,iaakansemakinpandaidalammenemukanruleyangdapatdigunakanuntukmemecahkanpermasalahandikemudianhari.
Tahun-tahunbelakanganini,parailmuwanterusmenggalikonsep-konsepseputarlearningtheory,dansampaiakhirnyamerekamenemukantipelearningyanglainyangdisebutdenganReinforcementLearning.
REINFORCEMENTTHEORY
KonsepdasarRLdiambildarisuatuteoridalamilmupsikologiyangdisebutdenganReinforcementTheory.ReinforcementTheoryinimerupakansuatupendekatanpsikologiyangsangatpentingbagimanusia.Teoriinimenjelaskanbagaimanaseseorangitudapatmenentukan,memilihdanmengambilkeputusandalamdinamikakehidupan.Teoriinibisadigunakanpadaberbagaimacamsituasiyangseringkalidihadapimanusia.
ReinforcementTheoryinimengatakanbahwatingkahlakumanusiaituadalahmerupakanhasilkompilasidaripengalaman-pengalamanyangiatemuisebelumnya,ataudalambahasalainnyadisebutConsequencesinfluencebehavior.
Contohyangpalingmudahyangbisasayagambarkandisiniadalahbagaimanasikapyangdiambilolehseorangsiswadidalamkelas.Asumsikanbahwasanggurusudahmenjelaskanseperangkapaturanyangharusditaatiolehsiswadidalamkelas.Suatuketika,seorangsiswaberteriakdidalamkelas.Makasanggurulangsungmemberikanhukumankepadasiswatersebut.Darihukumanitu,siswatadiakanmerubahsikapnyauntuktidakberteriaklagi.Jugademikian,kepadasiswayangtekunmengikutipelajarandidalamkelas,makasanggurumemberikankepadamerekasemacamhadiahataupenghargaan.Jikasisteminiberjalandalamjangkawaktutertentu,makakeadaansiswatadipastiakankonvergenuntukmengambilsikapyangbaikdidalamkelas.
DalamReinforcementTheory,terdapat3konsekuensiyangberbeda,yaitu:1.Konsekuensiyangmemberikanreward2.Konsekuensiyangmemberikanpunishment3.Konsekuensiyangtidakmemberikanapa-apa
Seorangsiswayangbersikapbaikdidalamkelas,iaakanmendapatkanreward.Denganrewarditu,iaakanbersikaplebihbaiklagi.Jikaiabersikaplebihbaiklagi,iaakanmendapatkanrewardlagi.Demikianseterusnyayangterjadisehinggaiapastiakansemakinkonvergendalambersikapbaikdidalamkelas.Sebaliknya,jikaiabersikapburuk,makaiaakanmenerimapunishment.Denganpunishmentitu,iaakanmerubahsikapnya.Jikapunishmentitutidakcukupuntukmembuatnyaberubah,makaiaakanmendapatkanpunishmentlagi,sehinggadalambatasantertentu,iapastiakanberubahsikapyanghasilnyaadalahiaakanmendapatkanreward.Demikianseterusnya,sehinggapadasuatusaatnanti,iaakankonvergenbersikapbaikdidalamkelas.
Iniadalahteoriyangluarbiasadalammenjelaskandynamicsystempadarealsystem.Akantetapi,sangatsulitsekaliuntukmemodelkandanmentransformasikannyadalambentukcomputationalsystem.
Cobabayangkanpadakasusdiatas.Seandainyasajasiswatersebutberteriakdaniamendapatkanpunishment,makabisajadipunishmentitutidakberpengaruhpadadirinya.Atausebaliknya,punishmentitusangatberpengaruhpadadirinya,sehinggaiamenjadisangatmalu,danakhirnyabunuhdiri!.Jugademikiandenganbagaimanamemodelkanbentukkonsekuensiyangtepat,baikdarisegikategorikonsekuensimaupundarisegiintensitaskonsekuensi.Kesulitanyanglainnyaadalahbagaimanamemodelkansistemyangdinamikdalamaturan-aturanReinforcementTheory.
SehinggabisadiambilkesimpulanbahwaReinforcementTheoryitubukanmerupakanteoriyangsederhana,akantetapimerupakanteoriyangsangatkompleksyangbenar-benardapatmenjelaskankeadaandynamicsystempadarealsystem.Jikasajateoriinidapatdimodelkandanditransformasikandalambentukcomputationalsystem,makaakanterjadiperubahanyangluarbiasapadacomputationallearningtheory.
REINFORCEMENTLEARNINGDALAMLINTASANMASA
BerkembangnyateoriyangberbasispadaReinforcementLearningdiawalidenganmunculnyaprinsippsikologiklasikyangdinyatakanolehThorndikedidalamteorinyayangdikenaldenganLawofEffectpadatahun1911.Dalamteorinyabeliaumenyatakan,
"Ofseveralresponsesmadetothesamesituation,thosewhichareaccompaniedorcloselyfollowedbysaticfactiontotheanimalwill,otherthingsbeingequal,bemorefirmlyconnectedwithsituation,sothat,whenitrecurs,theywillbemorelikelytorecur;thosewhichareaccompaniedorcloselyfollowedbydiscomforttotheanimalwill,otherthingsbeingequal,havetheirconnectionswiththatsituationweakened,sothat,whenitrecurs,theywillbelesslikelytooccur.Thegreaterthesatisfactionordiscomfort,thegreaterthestrengtheningorweakingofthebond."
Meskipunteoriitumenimbulkankontroversidikalanganpsikologi,namunteoritersebutbanyakmempengaruhimunculnyaberbagaiteoriyangmenghubungkanantarabehaviourdanenviroment.
LawofEffectmulaipertamakalinyadiaplikasikandalamcomputationalfieldpadatahun1954olehMinsky.DalamdisertasiPhD-nya,beliaumembuatsuatuanalogmachineyangdisebutSNARC(StochasticNeural-AnalogReinforcementCalculator)yangbekerjadenganprinsiplearningmelaluitrialanderror.Tahun1960-an,DonaldMichiemembuatsuatuprogramyangdisebutMENACE(forMatchboxEducableNoughtsandCrossesEngine)yangdapatbermainTic-Tac-ToedenganmengaplikasikanReinforcementLearningyangsederhana.Tahun1963,AndreamembuatsuatureinforcementlearningmachineyangdisebutSTeLLA.Padatahun1968,MichiedanChambersmenyempurnakanMENACEdenganmengaplikasikanReinforcementLearningyanglebihadvanceddanmenamakanprogramnyadengan
GLEE(GameLearningExpectimaxingEngine).DemikianseterusnyaReinforcementLearningberkembangdaritahunketahun.
Hanyasaja,mungkindibenakkitatimbulpertanyaan,"MengapaReinforcementLearningtidakbegituterkenaldibandingkanteori-teorilearninglainnyaataupunAI?."Sayamenjawab,"Ya,memangbenar."
Sejaktahun1960-an,teoriReinforcementLearningsecaraperlahan-lahantertutupidenganberkembangnyateori-teoriAIdansupervisedlearning,salahsatunyaNeuralNetwork.Saatitumunculnyateori-teoriAIdansupervisedlearningdisambutsebagaiteori-teoriyangsangatmenjanjikandalamhalmentransformasihumanbrain.Takayallagi,parascientistmengalihkanpandangandanmemutarkonsentrasimerekauntukmenekunidanmelakukanrisetpadateori-teoritersebut.Inilahyangmenyebabkansemakinberkembangnyateori-teoriAIdansupervisedlearningpadaperiodemasaitu.Setelahsekianlamabertahun-tahunmelakukanriset,sampailahpadatahun1990-an,parascientistakhirnyadapatmengambilkesimpulanterhadapteori-teoriyangmerekapelajari.Teori-teoriyangpadaawalnyamerekayakinisebagaiteori-teorilearningyangdapatmengarahuntukbisamengembangkansuatulearningmachine(mesin/programyangdapatbelajar),tidaklaincumanberhentipadalearnedmachine(mesin/programyangdiajari),suatumachineyangpintarsetelahdiajari,bukanmachineyangpintarsetelahbelajar.
HalitulahjugayangbisamenjawabmengapaReinforcementLearningjustrumulaimunculkembalipadaawal1990-an.Memangtakaneh,karenaReinforcementLearningmerupakansuatufenomenateoriyangberangkatdari,"Bagaimanamembuatsuatumachineitudapatmenjadipintarsetelahberinteraksidenganenvironment?".Semakinbanyakberinteraksi,makasemakinpintarlahmachinetersebut.Sekarangsaya-lahyangakanbalikbertanyakepadaanda,"Bukankahiniadalahtherealhumanartificialintelligent?"
TEORIDASAR
ReinforcementLearningadalahsalahsatuparadigmabarudidalamlearningtheory.RLdibangundariprosesmapping(pemetaan)darisituasiyangadadienvironment(states)kebentukaksi(behavior)agardapatmemaksimalkanreward.Agentyangbertindaksebagaisanglearnertidakperludiberitahukanbehaviorapakahyangakansepatutnyadilakukan,ataudengankatalain,biarlahsanglearnerbelajarsendiridaripengalamannya.Ketikaiamelakukansesuatuyangbenarberdasarkanruleyangkitatentukan,iaakanmendapatkanreward,danbegitujugasebaliknya.
RLsecaraumumterdiridari4komponendasar,yaitu:1.Policy:kebijaksanaan2.Rewardfunction3.Valuefunction4.Modelofenvironment
Policyadalahfungsiuntukmembuatkeputusandariagentyangmenspesifikasikantindakanapakahyangmungkindilakukandalamberbagaisituasiyangiajumpai.Policyinilahyangbertugasmemetakanperceivedstateskedalambentukaksi.Policybisaberupafungsisederhana,ataulookuptable.PolicyinimerupakanintidariRLyangsangatmenentukanbehaviordarisuatuagent.
Rewardfunctionmendefinisikantujuandarikasusatauproblemyangdihadapi.Iamendefinisikanrewardandpunishmentyangditerimaagentsaatiaberinteraksidenganenvironment.Tujuanutamadarirewardfunctioniniadalahmemaksimalkantotalrewardpadakurunwaktutertentusetelahagentituberinteraksi.
Valuefunctionmenspesifikasikanfungsiakumulasidaritotalrewardyangdidapatkanolehagent.Jikarewardfunctionberbicarapadamasing-masingpartialtimedariprosesinteraksi,valuefunctionberbicarapadalong-termdariprosesinteraksi.
Modelofenvironmentadalahsesuatuyangmenggambarkanbehaviordarienvironment.Modelofenvironmentinisangatbergunauntukmendesaindanmerencanakanbehavioryangtepatpadasituasimendatangyangmemungkinkansebelumagentsendirimempunyaipengalamandengansituasiitu.Saatmasa-masaawalRLdikembangkan,modelofenvironmentyangadaberupatrialanderror.NamunmodernRLsekarangsudahmulaimenjajakispektrumdarilow-level,trialanderrormenujuhigh-level,deliberativeplanning.
EXPLOITATIONANDEXPLORATION
SalahsatukeunggulanReinforcementLearningdibandingkanteori-teorilearningyanglainadalahkemampuannyadalammengadopsiprosesexploitationdanexplorationyangmemangbiasanyadilakukanolehhumanbeing.ExploitationdanexplorationinilahyangmenjadikuncikeberhasilanproseslearningdariRL.
Seringkalimanusiaitumengambilkeputusanuntukmelakukansesuatudenganberdasarkanpadainformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu.Prosesmenggalisebanyakmungkininformasitersebutdinamakandenganexploitation.
Namunseringkalijugamanusiaitumengambilkeputusanuntukmelakukansesuatudengantidakberdasarkanpadainformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu,akantetapilebihcenderungiamencobamelakukansesuatuyangmemangbenar-benarbarubagidirinyauntukmelihatbagaimanahasildaripadaperbuatantersebut.Prosesinilahyangdisebutdenganexploration.
Seseorangyangexploitation-nyarelatifbesarakancenderungbertindakover-pasivedanekstrahati-hati,bahkanmungkindiatidakakanberanimelakukansesuatuapapun.Inidisebabkaniahanyamenggaliinformasiyangiaterimasebelumnyadaripadaperbuatan-perbuatanyangialakukandimasalalu.Jikaiaberhadapandengansuatukeadaan
dimanahalitubelumpernahiaalamisebelumnya,makaiaakancenderungtidakberbuatapa-apa.
Namunsebaliknya,jikaseseorangyangexploration-nyarelatifbesar,makaiaakancenderungbertindakover-activedannekad.Orangyangsepertiinitermasuktipeorangyangtidakbelajardaripengalaman-pengalamanyangiadapatkansebelumnya.Akibatnya,tindakanapapunyangialakukanmerupakantindakanyangmengandungtingkatprobabilistikyangsangatbesar,ataudengankatalaingambling.
Keseimbanganantaraexploitationdanexplorationinilahyangmenjadikuncikeberhasilanproseslearningdalamkehidupanmanusia.Yangperlukitagarisbawahi,seimbangbukanberartisama,ataudengankatalainfifty-fifty,akantetapiprosentasekeduanyaakanberfluktuasisesuaidenganberbagaimacamkeadaanyangjelassangatberagam.
Nah,ReinforcementLearningmengadopsikonsepexploitationdanexplorationyangadapadahumanbeing.Yup!,satunilaitambahlagibuatRLsebagaihumanartificialintelligence.LalusepertiapakahbentukexploitationdanexplorationyangadapadaRL,ikutilahseri-seritulisaniniberikutnya.
EVALUATIVEFEEDBACK
SesuatuyangpalingpentingyangmembedakanantaraReinforcementLearningdengantipe-tipelearninglainnyaadalahpenggunaanevaluasiaksiyangtelahdiambillebihdaripadamemberikaninstruksiaksimanakahyangseharusnyadilakukan.Prosesevaluasiinimembukaperluadanyaexplorationsecaraaktif,denganmencobatrialanderroruntukmenemukanbehavioryangbaik.Evaluativefeedbackmengindikasikanbagaimanasebaiknyaaksiitudiambil,tetapibukanmenentukankemungkinanapakahituaksiyangterbaikatauterburuk.
Evaluativefeedbackmerupakanbasisberbagaimetodepadapermasalahanoptimasi,termasukjugametode-metodeevolutionary.Evaluativefeedbackjugamerupakanbasisdarisupervisedlearningyangseringkaliberbicaratentangpatternrecognition,artificialneuralnetworkdansystemidentification.BegitulahyangdipaparkanolehSuttondanBartodalambukunyayangterkenalReinforcementlearning:anintroductionmengawalipembahasantentangevaluativefeedback.
EvaluativefeedbackdalamRLmemuatpembahasanyangsangatluas,namunkaliinisayahanyamengenalkanyangsederhanaagarbisamemberikangambaranyangmudahandapahami.Jikaseseorangmelakukansesuatuuntukmencapaigoaltertentu(katakanlaha),dansetiapkaliiamelakukanhaltersebut,makaiaakanmendapatkanrewardRidimanaiadalahwaktudimanaseseorangitumelakukansesuatu.Jikaaksiyangialakukanrelatifmendekatia,makaiaakanmendapatkanrewardyangbesar,dandemikianpulasebaliknya.Yangjelas,ketikaiasudahmelakukanbeberapaaksi,makaiaakanmendapatkanrata-ratadarireward-rewardyangiaterima,sehinggaactionvalueQt(a)yangiadapatkanadalah:
Qt(a)=(R1+R2++Rn)/n
dimanatadalahfungsiwaktuyangiaperlukanuntukmelakukannaksi.IniberartibahwaQo(a)=0,sebabiabelummelakukansesuatuapapunpadafungsiwaktut=0.JikaQ*(a)adalahactionvalueyangidealuntukmencapaigoala,yangberartibahwajikaiaberusahamelakukansebaik-baiknyaaksi,makaQt(a)akanmendekatiQ*(a).Inilahyangdinamakandenganmetodesample-averageuntukmengestimasiactionvalue.Namuninihanyalahmetodeyangpalingsederhanadanbukanyangterbaikuntukmengestimasiactionvalue.
Laluapakahituberartikitaharusmenyimpansemuadata-dataRiuntukmendapatkanQt(a)?.Kalausajahalinidilakukan,pastiiniakanmembutuhkankomputasiyangbesar.HalinidisebabkankarenaRLbiasanyadipakaiuntukdynamicsystemsehinggatbiasanyabernilaibesar.Lalubagaimanamenghindarihaltersebut,RLmenyelesaikannyadenganincrementalimplementation.Mautahu,ikutilahdalamtulisanberikut
INCREMENTALIMPLEMENTATION
Incrementalimplementationyangakanbisamenjawabpertanyaanyanglalutentangapakahituberartikitaharusmenyimpansemuadata-dataRiuntukmendapatkanQt(a)?.Halitubisadihindaridengancaramenyederhanakanpersamaansebelumnyasebagaiberikut.
Q(k+1)=(R(i))/(k+1)dimanai=1..k+1
=[R(k+1)+R(i)]/(k+1)dimanai=1..k=[R(k+1)+k.Q(k)+Q(k)-Q(k)]/(k+1)=[R(k+1)+(k+1).Q(k)Q(k)]/(k+1)=Q(k)+{[R(k+1)Q(k)]/(k+1)}
Dengandemikian,implementasiactionvaluetersebuttidakmembutuhkanbanyakmemori.Dalambahasamanusia,persamaandiatasdapatdisederhanakansebagaiberikut:
NewEstimateOldEstimate+StepSize[TargetOldEstimate]
Ekspresi[TargetOldEstimate]padapersamaandiatasmerupakanbesaranselisihrewarduntukprosesestimasiterhadapaksiyangdilakukan.KetikaTargetternyatamemberikanreward,maka[TargetOldEstimate]akanmenjadipositif,yangkemudianmengakibatkannilaiNewEstimateakanmenjadilebihbesardaripadaOldEstimate.Tapisebaliknya,ketikaTargetternyatamemberikanpunishment,maka[TargetOldEstimate]akanmenjadinegatif,yangkemudianmengakibatkannilaiNewEstimateakanmenjadilebihkecildaripadaOldEstimate.
SedangkanStepSizemerupakanbesaranuntukmengaturseberapabesaragentmelakukanexploitationatauexploration.SemakinbesarnilaiStepSize,denganbatasan
maksimum1,makasemakinbesarkemungkinanagentuntukmelakukanexploitation.Begitujugasebaliknya,semakinkecilnilaiStepSize,denganbatasanminimum0,makasemakinbesarpulakemungkinagentuntukmelakukanexploration.
PadasaatnilaiStepSizedisetbesar,makainiakanmenyebabkanbesaranreward(baikrewardataupunpunishment)menjadisangatbesar,sehinggadampaknyaakanberpengaruhpadanilaiNewEstimateyangdidapatkanmempunyaiselisihyangsangatbesardenganOldEstimate.Karenaselisihyangsangatbesartersebut,sehinggadalamprosesaksiselanjutnya,agentakanlebihbesarkemungkinannyamelakukanprosesexploitation.
Tapisebaliknya,padasaatnilaiStepSizedisetkecil,makainiakanmenyebabkanbesaranreward(baikrewardataupunpunishment)menjadisangatkecil,sehinggadampaknyaakanberpengaruhpadanilaiNewEstimateyangdidapatkanmempunyaiselisihyangsangatkecildenganOldEstimate.Karenaselisihyangsangatkeciltersebut,sehinggadalamprosesaksiselanjutnya,agentakanlebihbesarkemungkinannyamelakukanprosesexploration.
REFERENSI:
SriKusumadewi,ArtificialIntelligence(TeknikdanAplikasinya),edisiI,penerbitGrahaIlmu,Yogya,2003.
SriMulyani,RisetOperasi,LembagaPenerbitFakultasEkonomiUI,Jakarta,2002.
MasashiSugiyama,PatternInformationProcessing,DepartmentofComputerScience,TokyoInstituteofTechnology,Japan.
R.S.Sutton,A.Barto,ReinforcementLearning:anIntroduction,secondprinting,1999,TheMITPress.
S.Booth,ReinforcementTheory,http://www.as.wvu.edu/~sbb/comm221/chapters/rf.htm,1999.
,M.E.Harmon,S.S.Harmon,ReinforcementLearning:aTutorial,http://citeseer.nj.nec.com/harmon96reinforcement.html1996.
D.Finton,WhatisReinforcementLearning,http://www.cs.wisc.edu/~finton/what-rl.html.S.Mahadevan,GlosarryofTerminologyinReinforcementLearning,http://www-anw.cs.umass.edu/rlr/terms.html
Y.Mansour,LectureNotesonReinforcementLearning,http://www.math.tau.ac.il/~mansour/rl.html
S.T.Hagen,B.Krse,AShortIntroductiontoReinforcementLearning,http://citeseer.ist.psu.edu/tenhagen97short.html,1997.
,S.Keerthi,B.Ravindran,ATutorialSurveyofReinforcementLearning,http://citeseer.ist.psu.edu/keerthi95tutorial.html1995.
top related