如果不想在虛擬機上做,也可以使用一種在 Windows 下模擬 Linux 環境的程式,叫做 Cygwin
或是也可以考慮 WSL (Windows Subsystem for Linux),同樣也能在 Windows 下使用 Linux 環境。
\( \overline{\pi}_i = \frac{\sum_{n=1}^{N} \gamma_{1}^{n}(i)}{N} \)
\( \overline{a}_{i j} = \frac{\sum_{n=1}^{N} \sum_{t=1}^{T-1} \epsilon_{t}^{n}(i, j)}{\sum_{n=1}^{N} \sum_{t=1}^{T-1} \gamma_{t}^{n}(i)} \)
\( \overline{b}_j (k) = \text{Prob}\,[\,o_t = v_k\,|\,q_t = j\,] = \frac{\sum_{n=1}^{N} \sum_{t=1,\,o_t=v_k}^{T} \gamma_{t}^{n}(j)}{\sum_{n=1}^{N} \sum_{t=1}^{T} \gamma_{t}^{n}(j)} \)
上式中的 N 是 sample 的個數。TL;DR: 它是 test_seq.txt 的答案。
在 training 過程中,我們所使用的每個 train_seq_0x.txt 各自都是由單一 HMM 模型產出的 sequences; 而在 testing 的時候,我們所使用的 test_seq.txt 則是由多個 HMM 模型產出的 sequences 混合出來的。 所以才需要一份 test_lbl.txt (testing label),讓大家在訓練和測試程式都寫完後,能夠將這份檔案和 testing program 的輸出比對一下,檢視自己的模型訓練的如何,或是看看測試程式有沒有寫對。
評分時使用的 dataset 不是提供給同學們的那一組,但是它的 state 數量、observation 總數、sequence 長度以及 sequences 數量都與出作業時提供的那一組相同。