dowiedziałem się, jak "cofnąć" RL i przywrócić gpt-oss do modelu bazowego jutro wrzucę wagi dobranoc