智能体的(de )行为需要有目标导向。奖励系统负责评估智能体(tǐ )的行为表现,并提供学习信号。这不仅仅(jǐn )是简单的标量奖励,可(kě )能涉及到(dào )多目标优化、内在动(dòng )机(如(rú )好奇心、探索(suǒ )欲)以及对未(wèi )来价值的预估。价值系统则负责评估不(bú )同(tóng )状态或行动的长(zhǎng )期价值,指导(dǎo )智能(néng )体的(de )决策。如何设计能够引导智能体学习(xí )复杂(zá )行为、符合人类价值观,并(bìng )且能(néng )够适(shì )应(yīng )动态环境的奖励和价值系(xì )统,是确保智能体目(mù )标一致(zhì )性的核(hé )心。
Copyright © 2008-2018 国产A精彩视频精品视频下载|久久中文字幕人妻熟女22页|成人午夜免费无码视频在线观看|97香蕉超级碰碰碰久久兔费|免费观看欧美成人AA片爱我多深|极光剧场