人工智能:模型与算法(十)
马尔科夫决策过程策略优化与策略评估强化学习求解Q-Learning深度学习+强化学习强化学习中的“维数灾难(Curse of Dimensionality)”无监督奥卡姆剃刀定律(Occam’s Razor),即“如无必要,勿增实体”、“简单有效原理”。传统图像和视频理解和表达过程中将提取的颜色、纹理、形状和运动等局部和全局特征拼合成高维向量,进行后续计算研究表明:维数过高时,每个对象之间的距离将
·
马尔科夫决策过程





















策略优化与策略评估










强化学习求解Q-Learning











深度学习+强化学习




强化学习中的“维数灾难(Curse of Dimensionality)”
无监督奥卡姆剃刀定律(Occam’s Razor),即“如无必要,勿增实体”、“简单有效原理”。
传统图像和视频理解和表达过程中将提取的颜色、纹理、形状和运动等局部和全局特征拼合成高维向量,进行后续计算
研究表明:维数过高时,每个对象之间的距离将因为中央极限定律而变得近乎相同,无法区分彼此,产生高维灾难(Curse of Dimensionality)问题。
卡耐基梅隆大学的研究人员通过详尽实验表明了图像和视频相似度计算的效率取决于其本身所具有的本征维度(intrinsic dimensionality),与样本数目和样本原始维度无关。
维数灾难是Richard E. Bellman在动态规划(dynamic programming)研究中率先提出的思想(并非针对特征冗余这个问题)。
Q-learning中,会构造一张表,里面记录了每个状态在某个动作行为下发生状态转移所得到的反馈期望(即q函数)。如果系统的状态众多,显然这个表格会异常庞大。
更多推荐




所有评论(0)