0%

题目

你可以多次掷一个六面骰子,每次得分为点数,累计为总收益;若掷出与之前相同的点数则收益归零,游戏立即结束。你可以随时停止,问最优停止时机是多少次,才能使期望收益最大?

前言

之前 DeepSeek 爆火,我就想看看能不能直接在超算( Setonix )上跑一个满血版。DeepSeek 官方推荐了好几种部署方式。但是超算嘛,软件是很难装的,只能用已经有的模块,不过幸好超算其实也能跑容器。经过多番测试(吐槽一句: SGLang 的 Docker 镜像居然缺依赖,不是开箱即用的 ),最后决定使用 AMD 打包的 vLLM Docker 镜像 (因为 GPU 是 MI250X)。这篇文章主要是记录一下命令,方便后面忘了回来复习。最后的结果就是,还是没跑成功,因为 DeepSeek 满血版是 8bit 量化,但是 MI250X 不支持。需要 MI300 系列显卡才行。也可以下载转换成 16bit 的模型,不过得用4个节点才能跑起来。以后有机会再折腾。

背景

我最近在搞 AffectNet 数据集,里面一百多万个文件。我用的是 Setonix 超级计算机,使用了 Lustre 文件系统,并且提供了一个 /scratch 分区给我们放临时文件。但是这个分区限制了文件数量为100万个,所以我在解压数据集的时候就遇到了报错。正常的解决办法是给他们提交工单,请求提高文件数量限制。澳洲的办事效率你们懂的,周一提交的工单,来回还问了几个问题,最后周五才给我扩容。求人不如求己,对于这种问题其实有替代的解决方案。

前言

2025年的第一篇博客献给去年12月的游记。本来应该早就开始写的了,因为这次旅游去了很多地方,玩了不少内容,怕写晚了都忘记有啥感想了。不过最终还是拖到了第二年。这也是我第一次在博客上写游记。很久以前(小学和初中的时候)我会在QQ空间上写游记,现在QQ空间我已经不用了,就把游记写到这里吧。

Problem Framework

Markov Decision Process (MDP)

  • Discrete time step, can be continuous space of action and state
  • We don’t know the exact outcome of the action
  • Once the action is performed, we know exactly what happened
  • The agent’s state is known (fully observed) – observation and the state is the same here

Formally defined as a 4-tuples (S, A, T, R):

  • State Space
  • Action Space
  • Transition Function
  • Reward Function

Partially Observable Markov Decision Process (POMDP)

  • Almost the same as MDP, except: the effect of the action are not known exactly before the action is performed (non-deterministic action effects)