我一直有在看 Hugging Face 上關於 V3(在 R1 與預覽之前)的討論,追蹤他們如何把積木疊上既有架構——像 Mistral 推進的專家混合(Mixture-of-Experts)、Meta 的 Llama 等(分別來自法國與美國)。所以,一方面他們展現出如何在出口管制下,透過極低階程式把受限晶片「串起來」,這很令人佩服;但另一方面,那座積木塔每一層都來自世界各地——法國、美國、也有臺灣。從技術絕對水準看,DeepSeek-R1 出來後,很快就被其他開源與閉源版本超越。所以它當然有趣,但「領先」只維持了大約一週。