作者:
hiphoprover (浪浪洛夫)
180.176.14.202 (台灣)
2020-07-10 12:31:00 推 nickboy78: 厲害啊 就是environment相同然後有多組不同action數據夠大 理論上還是可以近似最佳化 等模型有一定水準之後 上路再對特殊情況修正 24F 07-10 13:03
→ nickboy78: 樓上 建議去了解一下強化學習 收集數據的用法不是只有 33F 07-10 13:14
→ nickboy78: 這樣 收集到的數據都可以配對成環境-行為 類似環境就會 36F 07-10 13:15
… 共有 6 則推文,點此顯示