đã tìm ra cách "hoàn tác" RL và biến gpt-oss trở lại thành mô hình cơ bản sẽ phát hành các trọng số vào ngày mai chúc ngủ ngon