0%

背景

我最近在搞 AffectNet 数据集,里面一百多万个文件。我用的是 Setonix 超级计算机,使用了 Lustre 文件系统,并且提供了一个 /scratch 分区给我们放临时文件。但是这个分区限制了文件数量为100万个,所以我在解压数据集的时候就遇到了报错。正常的解决办法是给他们提交工单,请求提高文件数量限制。澳洲的办事效率你们懂的,周一提交的工单,来回还问了几个问题,最后周五才给我扩容。求人不如求己,对于这种问题其实有替代的解决方案。

前言

2025年的第一篇博客献给去年12月的游记。本来应该早就开始写的了,因为这次旅游去了很多地方,玩了不少内容,怕写晚了都忘记有啥感想了。不过最终还是拖到了第二年。这也是我第一次在博客上写游记。很久以前(小学和初中的时候)我会在QQ空间上写游记,现在QQ空间我已经不用了,就把游记写到这里吧。

Problem Framework

Markov Decision Process (MDP)

  • Discrete time step, can be continuous space of action and state
  • We don’t know the exact outcome of the action
  • Once the action is performed, we know exactly what happened
  • The agent’s state is known (fully observed) – observation and the state is the same here

Formally defined as a 4-tuples (S, A, T, R):

  • State Space
  • Action Space
  • Transition Function
  • Reward Function

Partially Observable Markov Decision Process (POMDP)

  • Almost the same as MDP, except: the effect of the action are not known exactly before the action is performed (non-deterministic action effects)

前言

我在 Azure 有一台虚拟机,是 B1s 系列的。最近发现变得很卡,使用top命令排查发现sysi都很高:

%Cpu(s): 52.1 us, 21.9 sy,  0.0 ni,  0.0 id,  0.0 wa,  0.0 hi, 26.0 si,  0.0 st

排查过程

鉴于sy排查会比较复杂,所以先从简单的si开始。使用命令watch -n1 -d cat /proc/interrupts查看软中断情况:

问题描述

某日登录服务器发现我用screen挂起来的任务没了。看了下uptime发现系统启动时间不对,遂登录 Azure 查看虚拟机的 Activity log,发现:

Install OS update patches on virtual machine | Succeeded | 23 hours ago

这条日志的时间刚好和服务器重启时间对上了。