6.5 强化学习在重排中的应用