0%

前言

2025年的第一篇博客献给去年12月的游记。本来应该早就开始写的了,因为这次旅游去了很多地方,玩了不少内容,怕写晚了都忘记有啥感想了。不过最终还是拖到了第二年。这也是我第一次在博客上写游记。很久以前(小学和初中的时候)我会在QQ空间上写游记,现在QQ空间我已经不用了,就把游记写到这里吧。

Problem Framework

Markov Decision Process (MDP)

  • Discrete time step, can be continuous space of action and state
  • We don’t know the exact outcome of the action
  • Once the action is performed, we know exactly what happened
  • The agent’s state is known (fully observed) – observation and the state is the same here

Formally defined as a 4-tuples (S, A, T, R):

  • State Space
  • Action Space
  • Transition Function
  • Reward Function

Partially Observable Markov Decision Process (POMDP)

  • Almost the same as MDP, except: the effect of the action are not known exactly before the action is performed (non-deterministic action effects)

前言

我在 Azure 有一台虚拟机,是 B1s 系列的。最近发现变得很卡,使用top命令排查发现sysi都很高:

%Cpu(s): 52.1 us, 21.9 sy,  0.0 ni,  0.0 id,  0.0 wa,  0.0 hi, 26.0 si,  0.0 st

排查过程

鉴于sy排查会比较复杂,所以先从简单的si开始。使用命令watch -n1 -d cat /proc/interrupts查看软中断情况:

问题描述

某日登录服务器发现我用screen挂起来的任务没了。看了下uptime发现系统启动时间不对,遂登录 Azure 查看虚拟机的 Activity log,发现:

Install OS update patches on virtual machine | Succeeded | 23 hours ago

这条日志的时间刚好和服务器重启时间对上了。

现象

神经网络训练,一开始准确率很高,然后逐渐下降。如下所示:

Epoch 	 Time 	 Train Loss 	 Train ACC 	 Val Loss 	 Val ACC 	 Test Loss 	 Test ACC 	 LR
1	 197.8234 	 0.0053 	 0.8645 	 0.0412 	 0.1443 	 0.0412 	 0.1443 	 0.0100
2	 108.6638 	 0.0084 	 0.7311 	 0.0272 	 0.1443 	 0.0272 	 0.1443 	 0.0100
3	 108.4892 	 0.0095 	 0.6777 	 0.0267 	 0.1443 	 0.0267 	 0.1443 	 0.0100
4	 108.8819 	 0.0087 	 0.7102 	 0.0269 	 0.1443 	 0.0269 	 0.1443 	 0.0100
5	 108.8337 	 0.0065 	 0.7712 	 0.0504 	 0.1443 	 0.0504 	 0.1443 	 0.0100
6	 109.4179 	 0.0061 	 0.8071 	 0.0624 	 0.1443 	 0.0624 	 0.1443 	 0.0100
7	 109.2300 	 0.0057 	 0.8349 	 0.0762 	 0.1443 	 0.0762 	 0.1443 	 0.0075
8	 109.2820 	 0.0101 	 0.6432 	 0.0245 	 0.1443 	 0.0245 	 0.1443 	 0.0075

具体现象是 Train ACC 一开始特别高,但 Val ACC 很低。随着 epoch 增加, Train ACC 开始下降,Val ACC 几乎不变。