欢迎来到我的个人博客!这里我将分享我在编程、技术和生活中的一些见解和经验。希望你能在这里找到有价值的信息,并且享受阅读的过程。
最近发布
# 马尔可夫决策过程(MDP)
强化学习课堂笔记 2 / 2
4 min read 863 字
从马尔可夫链出发,系统梳理 MDP 的形式化定义(马尔可夫性、时齐性),并延伸到 TMDP 与 POMDP 的现实意义与转化技巧,为后续 Value Function 与 Bellman 方程打基础。面向统计/机器学习初学者的推导型笔记
# 多臂老虎机问题(MAB)
强化学习课堂笔记 1 / 2
7 min read 1,334 字
从问题定义、价值估计、增量更新到 epsilon-greedy,UCB 和 Thompson Sampling算法的多臂老虎机入门笔记。