Files
dsp15/logs/train_9963.out
T
2026-05-21 01:21:51 +08:00

579 lines
53 KiB
Plaintext

Using GPU: Tesla V100-SXM2-32GB
Loading training data from new_dataset.csv...
Loading benchmark data from benchmark_dataset.csv...
Loading tokenizer and model from local path: ./byt5_local_weights...
Tokenizing datasets...
Starting training...
{'loss': '21.59', 'grad_norm': '697.3', 'learning_rate': '9.983e-05', 'epoch': '0.05556'}
{'loss': '10.54', 'grad_norm': '388.3', 'learning_rate': '9.965e-05', 'epoch': '0.1111'}
{'loss': '3.827', 'grad_norm': '107.8', 'learning_rate': '9.946e-05', 'epoch': '0.1667'}
{'loss': '1.343', 'grad_norm': '142.4', 'learning_rate': '9.928e-05', 'epoch': '0.2222'}
{'loss': '0.9092', 'grad_norm': '67.34', 'learning_rate': '9.909e-05', 'epoch': '0.2778'}
{'loss': '0.6402', 'grad_norm': '43.42', 'learning_rate': '9.891e-05', 'epoch': '0.3333'}
{'loss': '0.7005', 'grad_norm': '87.02', 'learning_rate': '9.872e-05', 'epoch': '0.3889'}
{'loss': '0.5286', 'grad_norm': '31.92', 'learning_rate': '9.854e-05', 'epoch': '0.4444'}
{'loss': '0.5145', 'grad_norm': '28.24', 'learning_rate': '9.835e-05', 'epoch': '0.5'}
{'loss': '0.5281', 'grad_norm': '8.394', 'learning_rate': '9.817e-05', 'epoch': '0.5556'}
{'loss': '0.495', 'grad_norm': '9.976', 'learning_rate': '9.798e-05', 'epoch': '0.6111'}
{'loss': '0.4585', 'grad_norm': '24.5', 'learning_rate': '9.78e-05', 'epoch': '0.6667'}
{'loss': '0.4811', 'grad_norm': '11.47', 'learning_rate': '9.761e-05', 'epoch': '0.7222'}
{'loss': '0.4551', 'grad_norm': '11.06', 'learning_rate': '9.743e-05', 'epoch': '0.7778'}
{'loss': '0.479', 'grad_norm': '22.05', 'learning_rate': '9.724e-05', 'epoch': '0.8333'}
{'loss': '0.4875', 'grad_norm': '17.25', 'learning_rate': '9.706e-05', 'epoch': '0.8889'}
{'loss': '0.4354', 'grad_norm': '10.06', 'learning_rate': '9.687e-05', 'epoch': '0.9444'}
{'loss': '0.4449', 'grad_norm': '10.03', 'learning_rate': '9.669e-05', 'epoch': '1'}
{'eval_loss': '0.1003', 'eval_accuracy': '0.3562', 'eval_f1_macro': '0.2862', 'eval_runtime': '90.81', 'eval_samples_per_second': '2.412', 'eval_steps_per_second': '0.308', 'epoch': '1'}
{'loss': '0.4266', 'grad_norm': '36.53', 'learning_rate': '9.65e-05', 'epoch': '1.056'}
{'loss': '0.4305', 'grad_norm': '16.46', 'learning_rate': '9.631e-05', 'epoch': '1.111'}
{'loss': '0.4334', 'grad_norm': '75.33', 'learning_rate': '9.613e-05', 'epoch': '1.167'}
{'loss': '0.4294', 'grad_norm': '26.73', 'learning_rate': '9.594e-05', 'epoch': '1.222'}
{'loss': '0.4145', 'grad_norm': '24.57', 'learning_rate': '9.576e-05', 'epoch': '1.278'}
{'loss': '0.4209', 'grad_norm': '29.89', 'learning_rate': '9.557e-05', 'epoch': '1.333'}
{'loss': '0.4397', 'grad_norm': '14.21', 'learning_rate': '9.539e-05', 'epoch': '1.389'}
{'loss': '0.4194', 'grad_norm': '26.61', 'learning_rate': '9.52e-05', 'epoch': '1.444'}
{'loss': '0.4129', 'grad_norm': '52.81', 'learning_rate': '9.502e-05', 'epoch': '1.5'}
{'loss': '0.4135', 'grad_norm': '38.07', 'learning_rate': '9.483e-05', 'epoch': '1.556'}
{'loss': '0.4212', 'grad_norm': '40.99', 'learning_rate': '9.465e-05', 'epoch': '1.611'}
{'loss': '0.4245', 'grad_norm': '53.28', 'learning_rate': '9.446e-05', 'epoch': '1.667'}
{'loss': '0.4115', 'grad_norm': '114.2', 'learning_rate': '9.428e-05', 'epoch': '1.722'}
{'loss': '0.4246', 'grad_norm': '833.3', 'learning_rate': '9.409e-05', 'epoch': '1.778'}
{'loss': '0.4173', 'grad_norm': '32.88', 'learning_rate': '9.391e-05', 'epoch': '1.833'}
{'loss': '0.4149', 'grad_norm': '72.07', 'learning_rate': '9.372e-05', 'epoch': '1.889'}
{'loss': '0.4141', 'grad_norm': '121.2', 'learning_rate': '9.354e-05', 'epoch': '1.944'}
{'loss': '0.3998', 'grad_norm': '39.45', 'learning_rate': '9.335e-05', 'epoch': '2'}
{'eval_loss': '0.09719', 'eval_accuracy': '0.4475', 'eval_f1_macro': '0.381', 'eval_runtime': '91.23', 'eval_samples_per_second': '2.4', 'eval_steps_per_second': '0.307', 'epoch': '2'}
{'loss': '0.4132', 'grad_norm': '46.63', 'learning_rate': '9.317e-05', 'epoch': '2.056'}
{'loss': '0.4134', 'grad_norm': '68.55', 'learning_rate': '9.298e-05', 'epoch': '2.111'}
{'loss': '0.4064', 'grad_norm': '23.98', 'learning_rate': '9.28e-05', 'epoch': '2.167'}
{'loss': '0.4006', 'grad_norm': '122.2', 'learning_rate': '9.261e-05', 'epoch': '2.222'}
{'loss': '0.4124', 'grad_norm': '94.57', 'learning_rate': '9.243e-05', 'epoch': '2.278'}
{'loss': '0.4125', 'grad_norm': '74.04', 'learning_rate': '9.224e-05', 'epoch': '2.333'}
{'loss': '0.4074', 'grad_norm': '70.69', 'learning_rate': '9.206e-05', 'epoch': '2.389'}
{'loss': '0.412', 'grad_norm': '65.61', 'learning_rate': '9.187e-05', 'epoch': '2.444'}
{'loss': '0.4223', 'grad_norm': '23.39', 'learning_rate': '9.169e-05', 'epoch': '2.5'}
{'loss': '0.4258', 'grad_norm': '20.46', 'learning_rate': '9.15e-05', 'epoch': '2.556'}
{'loss': '0.4133', 'grad_norm': '72.88', 'learning_rate': '9.131e-05', 'epoch': '2.611'}
{'loss': '0.408', 'grad_norm': '60', 'learning_rate': '9.113e-05', 'epoch': '2.667'}
{'loss': '0.424', 'grad_norm': '30.8', 'learning_rate': '9.094e-05', 'epoch': '2.722'}
{'loss': '0.3908', 'grad_norm': '35.06', 'learning_rate': '9.076e-05', 'epoch': '2.778'}
{'loss': '0.4053', 'grad_norm': '29.34', 'learning_rate': '9.057e-05', 'epoch': '2.833'}
{'loss': '0.396', 'grad_norm': '31.58', 'learning_rate': '9.039e-05', 'epoch': '2.889'}
{'loss': '0.4059', 'grad_norm': '153.2', 'learning_rate': '9.02e-05', 'epoch': '2.944'}
{'loss': '0.4011', 'grad_norm': '51.5', 'learning_rate': '9.002e-05', 'epoch': '3'}
{'eval_loss': '0.1003', 'eval_accuracy': '0.4338', 'eval_f1_macro': '0.3456', 'eval_runtime': '93.96', 'eval_samples_per_second': '2.331', 'eval_steps_per_second': '0.298', 'epoch': '3'}
{'loss': '0.411', 'grad_norm': '30.21', 'learning_rate': '8.983e-05', 'epoch': '3.056'}
{'loss': '0.381', 'grad_norm': '53.75', 'learning_rate': '8.965e-05', 'epoch': '3.111'}
{'loss': '0.413', 'grad_norm': '34.22', 'learning_rate': '8.946e-05', 'epoch': '3.167'}
{'loss': '0.3982', 'grad_norm': '32.69', 'learning_rate': '8.928e-05', 'epoch': '3.222'}
{'loss': '0.4036', 'grad_norm': '14.11', 'learning_rate': '8.909e-05', 'epoch': '3.278'}
{'loss': '0.4087', 'grad_norm': '26.49', 'learning_rate': '8.891e-05', 'epoch': '3.333'}
{'loss': '0.3727', 'grad_norm': '15.1', 'learning_rate': '8.872e-05', 'epoch': '3.389'}
{'loss': '0.4184', 'grad_norm': '12.9', 'learning_rate': '8.854e-05', 'epoch': '3.444'}
{'loss': '0.4186', 'grad_norm': '8.852', 'learning_rate': '8.835e-05', 'epoch': '3.5'}
{'loss': '0.4113', 'grad_norm': '13.04', 'learning_rate': '8.817e-05', 'epoch': '3.556'}
{'loss': '0.4069', 'grad_norm': '18.4', 'learning_rate': '8.798e-05', 'epoch': '3.611'}
{'loss': '0.394', 'grad_norm': '14.43', 'learning_rate': '8.78e-05', 'epoch': '3.667'}
{'loss': '0.3727', 'grad_norm': '18.54', 'learning_rate': '8.761e-05', 'epoch': '3.722'}
{'loss': '0.418', 'grad_norm': '35.77', 'learning_rate': '8.743e-05', 'epoch': '3.778'}
{'loss': '0.4127', 'grad_norm': '7.12', 'learning_rate': '8.724e-05', 'epoch': '3.833'}
{'loss': '0.408', 'grad_norm': '10.72', 'learning_rate': '8.706e-05', 'epoch': '3.889'}
{'loss': '0.3888', 'grad_norm': '54.96', 'learning_rate': '8.687e-05', 'epoch': '3.944'}
{'loss': '0.405', 'grad_norm': '17.72', 'learning_rate': '8.669e-05', 'epoch': '4'}
{'eval_loss': '0.09494', 'eval_accuracy': '0.4658', 'eval_f1_macro': '0.4063', 'eval_runtime': '92.71', 'eval_samples_per_second': '2.362', 'eval_steps_per_second': '0.302', 'epoch': '4'}
{'loss': '0.375', 'grad_norm': '44.38', 'learning_rate': '8.65e-05', 'epoch': '4.056'}
{'loss': '0.3966', 'grad_norm': '33.08', 'learning_rate': '8.631e-05', 'epoch': '4.111'}
{'loss': '0.3713', 'grad_norm': '19.92', 'learning_rate': '8.613e-05', 'epoch': '4.167'}
{'loss': '0.4002', 'grad_norm': '62.51', 'learning_rate': '8.594e-05', 'epoch': '4.222'}
{'loss': '0.3965', 'grad_norm': '52.26', 'learning_rate': '8.576e-05', 'epoch': '4.278'}
{'loss': '0.362', 'grad_norm': '30.78', 'learning_rate': '8.557e-05', 'epoch': '4.333'}
{'loss': '0.4028', 'grad_norm': '53.73', 'learning_rate': '8.539e-05', 'epoch': '4.389'}
{'loss': '0.3903', 'grad_norm': '676.3', 'learning_rate': '8.52e-05', 'epoch': '4.444'}
{'loss': '0.3651', 'grad_norm': '67.86', 'learning_rate': '8.502e-05', 'epoch': '4.5'}
{'loss': '0.3887', 'grad_norm': '45.64', 'learning_rate': '8.483e-05', 'epoch': '4.556'}
{'loss': '0.3974', 'grad_norm': '49.22', 'learning_rate': '8.465e-05', 'epoch': '4.611'}
{'loss': '0.3836', 'grad_norm': '39.57', 'learning_rate': '8.446e-05', 'epoch': '4.667'}
{'loss': '0.3799', 'grad_norm': '69.29', 'learning_rate': '8.428e-05', 'epoch': '4.722'}
{'loss': '0.3952', 'grad_norm': '31.08', 'learning_rate': '8.409e-05', 'epoch': '4.778'}
{'loss': '0.36', 'grad_norm': '42.42', 'learning_rate': '8.391e-05', 'epoch': '4.833'}
{'loss': '0.3906', 'grad_norm': '21.42', 'learning_rate': '8.372e-05', 'epoch': '4.889'}
{'loss': '0.3618', 'grad_norm': '24.08', 'learning_rate': '8.354e-05', 'epoch': '4.944'}
{'loss': '0.3905', 'grad_norm': '42.22', 'learning_rate': '8.335e-05', 'epoch': '5'}
{'eval_loss': '0.09095', 'eval_accuracy': '0.5662', 'eval_f1_macro': '0.5661', 'eval_runtime': '91.62', 'eval_samples_per_second': '2.39', 'eval_steps_per_second': '0.306', 'epoch': '5'}
{'loss': '0.3611', 'grad_norm': '48.05', 'learning_rate': '8.317e-05', 'epoch': '5.056'}
{'loss': '0.3585', 'grad_norm': '57.73', 'learning_rate': '8.298e-05', 'epoch': '5.111'}
{'loss': '0.3686', 'grad_norm': '20.26', 'learning_rate': '8.28e-05', 'epoch': '5.167'}
{'loss': '0.3661', 'grad_norm': '33.47', 'learning_rate': '8.261e-05', 'epoch': '5.222'}
{'loss': '0.3863', 'grad_norm': '28.25', 'learning_rate': '8.243e-05', 'epoch': '5.278'}
{'loss': '0.3648', 'grad_norm': '23.81', 'learning_rate': '8.224e-05', 'epoch': '5.333'}
{'loss': '0.3777', 'grad_norm': '64.03', 'learning_rate': '8.206e-05', 'epoch': '5.389'}
{'loss': '0.3617', 'grad_norm': '28.85', 'learning_rate': '8.187e-05', 'epoch': '5.444'}
{'loss': '0.385', 'grad_norm': '21.78', 'learning_rate': '8.169e-05', 'epoch': '5.5'}
{'loss': '0.3591', 'grad_norm': '32.07', 'learning_rate': '8.15e-05', 'epoch': '5.556'}
{'loss': '0.3605', 'grad_norm': '18.34', 'learning_rate': '8.131e-05', 'epoch': '5.611'}
{'loss': '0.3525', 'grad_norm': '29.55', 'learning_rate': '8.113e-05', 'epoch': '5.667'}
{'loss': '0.3546', 'grad_norm': '21.59', 'learning_rate': '8.094e-05', 'epoch': '5.722'}
{'loss': '0.3485', 'grad_norm': '11.08', 'learning_rate': '8.076e-05', 'epoch': '5.778'}
{'loss': '0.3565', 'grad_norm': '36.89', 'learning_rate': '8.057e-05', 'epoch': '5.833'}
{'loss': '0.3724', 'grad_norm': '17.3', 'learning_rate': '8.039e-05', 'epoch': '5.889'}
{'loss': '0.3507', 'grad_norm': '104', 'learning_rate': '8.02e-05', 'epoch': '5.944'}
{'loss': '0.3809', 'grad_norm': '22.81', 'learning_rate': '8.002e-05', 'epoch': '6'}
{'eval_loss': '0.09457', 'eval_accuracy': '0.5068', 'eval_f1_macro': '0.4995', 'eval_runtime': '91.55', 'eval_samples_per_second': '2.392', 'eval_steps_per_second': '0.306', 'epoch': '6'}
{'loss': '0.3612', 'grad_norm': '20.13', 'learning_rate': '7.983e-05', 'epoch': '6.056'}
{'loss': '0.3639', 'grad_norm': '53.45', 'learning_rate': '7.965e-05', 'epoch': '6.111'}
{'loss': '0.3474', 'grad_norm': '22.8', 'learning_rate': '7.946e-05', 'epoch': '6.167'}
{'loss': '0.3507', 'grad_norm': '59.48', 'learning_rate': '7.928e-05', 'epoch': '6.222'}
{'loss': '0.3532', 'grad_norm': '22.64', 'learning_rate': '7.909e-05', 'epoch': '6.278'}
{'loss': '0.3415', 'grad_norm': '23.6', 'learning_rate': '7.891e-05', 'epoch': '6.333'}
{'loss': '0.3315', 'grad_norm': '14.81', 'learning_rate': '7.872e-05', 'epoch': '6.389'}
{'loss': '0.3593', 'grad_norm': '91.89', 'learning_rate': '7.854e-05', 'epoch': '6.444'}
{'loss': '0.3666', 'grad_norm': '14.07', 'learning_rate': '7.835e-05', 'epoch': '6.5'}
{'loss': '0.3337', 'grad_norm': '37.98', 'learning_rate': '7.817e-05', 'epoch': '6.556'}
{'loss': '0.3593', 'grad_norm': '37.7', 'learning_rate': '7.798e-05', 'epoch': '6.611'}
{'loss': '0.3436', 'grad_norm': '24.87', 'learning_rate': '7.78e-05', 'epoch': '6.667'}
{'loss': '0.3602', 'grad_norm': '28.17', 'learning_rate': '7.761e-05', 'epoch': '6.722'}
{'loss': '0.3525', 'grad_norm': '16.39', 'learning_rate': '7.743e-05', 'epoch': '6.778'}
{'loss': '0.3463', 'grad_norm': '18.37', 'learning_rate': '7.724e-05', 'epoch': '6.833'}
{'loss': '0.3694', 'grad_norm': '11.18', 'learning_rate': '7.706e-05', 'epoch': '6.889'}
{'loss': '0.3557', 'grad_norm': '20.3', 'learning_rate': '7.687e-05', 'epoch': '6.944'}
{'loss': '0.343', 'grad_norm': '8.745', 'learning_rate': '7.669e-05', 'epoch': '7'}
{'eval_loss': '0.09066', 'eval_accuracy': '0.5479', 'eval_f1_macro': '0.5446', 'eval_runtime': '93.03', 'eval_samples_per_second': '2.354', 'eval_steps_per_second': '0.301', 'epoch': '7'}
{'loss': '0.3401', 'grad_norm': '100.4', 'learning_rate': '7.65e-05', 'epoch': '7.056'}
{'loss': '0.3473', 'grad_norm': '21.38', 'learning_rate': '7.631e-05', 'epoch': '7.111'}
{'loss': '0.3248', 'grad_norm': '20.99', 'learning_rate': '7.613e-05', 'epoch': '7.167'}
{'loss': '0.3577', 'grad_norm': '39.31', 'learning_rate': '7.594e-05', 'epoch': '7.222'}
{'loss': '0.336', 'grad_norm': '13.24', 'learning_rate': '7.576e-05', 'epoch': '7.278'}
{'loss': '0.3412', 'grad_norm': '12.83', 'learning_rate': '7.557e-05', 'epoch': '7.333'}
{'loss': '0.3334', 'grad_norm': '21.08', 'learning_rate': '7.539e-05', 'epoch': '7.389'}
{'loss': '0.3289', 'grad_norm': '24.74', 'learning_rate': '7.52e-05', 'epoch': '7.444'}
{'loss': '0.3418', 'grad_norm': '10.1', 'learning_rate': '7.502e-05', 'epoch': '7.5'}
{'loss': '0.3379', 'grad_norm': '77.94', 'learning_rate': '7.483e-05', 'epoch': '7.556'}
{'loss': '0.3321', 'grad_norm': '22.82', 'learning_rate': '7.465e-05', 'epoch': '7.611'}
{'loss': '0.3287', 'grad_norm': '32.86', 'learning_rate': '7.446e-05', 'epoch': '7.667'}
{'loss': '0.3312', 'grad_norm': '20.47', 'learning_rate': '7.428e-05', 'epoch': '7.722'}
{'loss': '0.35', 'grad_norm': '9.066', 'learning_rate': '7.409e-05', 'epoch': '7.778'}
{'loss': '0.3287', 'grad_norm': '21.42', 'learning_rate': '7.391e-05', 'epoch': '7.833'}
{'loss': '0.3162', 'grad_norm': '35.13', 'learning_rate': '7.372e-05', 'epoch': '7.889'}
{'loss': '0.3646', 'grad_norm': '23.15', 'learning_rate': '7.354e-05', 'epoch': '7.944'}
{'loss': '0.3252', 'grad_norm': '12.56', 'learning_rate': '7.335e-05', 'epoch': '8'}
{'eval_loss': '0.08625', 'eval_accuracy': '0.5799', 'eval_f1_macro': '0.5744', 'eval_runtime': '92.5', 'eval_samples_per_second': '2.367', 'eval_steps_per_second': '0.303', 'epoch': '8'}
{'loss': '0.3126', 'grad_norm': '20.5', 'learning_rate': '7.317e-05', 'epoch': '8.056'}
{'loss': '0.329', 'grad_norm': '35.31', 'learning_rate': '7.298e-05', 'epoch': '8.111'}
{'loss': '0.3126', 'grad_norm': '7.391', 'learning_rate': '7.28e-05', 'epoch': '8.167'}
{'loss': '0.321', 'grad_norm': '18.18', 'learning_rate': '7.261e-05', 'epoch': '8.222'}
{'loss': '0.3322', 'grad_norm': '8.814', 'learning_rate': '7.243e-05', 'epoch': '8.278'}
{'loss': '0.3052', 'grad_norm': '8.685', 'learning_rate': '7.224e-05', 'epoch': '8.333'}
{'loss': '0.3407', 'grad_norm': '10.95', 'learning_rate': '7.206e-05', 'epoch': '8.389'}
{'loss': '0.2986', 'grad_norm': '61.29', 'learning_rate': '7.187e-05', 'epoch': '8.444'}
{'loss': '0.3044', 'grad_norm': '16.39', 'learning_rate': '7.169e-05', 'epoch': '8.5'}
{'loss': '0.2884', 'grad_norm': '31.17', 'learning_rate': '7.15e-05', 'epoch': '8.556'}
{'loss': '0.3154', 'grad_norm': '15.03', 'learning_rate': '7.131e-05', 'epoch': '8.611'}
{'loss': '0.319', 'grad_norm': '11.6', 'learning_rate': '7.113e-05', 'epoch': '8.667'}
{'loss': '0.3021', 'grad_norm': '11.73', 'learning_rate': '7.094e-05', 'epoch': '8.722'}
{'loss': '0.3198', 'grad_norm': '7.768', 'learning_rate': '7.076e-05', 'epoch': '8.778'}
{'loss': '0.3339', 'grad_norm': '7.356', 'learning_rate': '7.057e-05', 'epoch': '8.833'}
{'loss': '0.3301', 'grad_norm': '6.101', 'learning_rate': '7.039e-05', 'epoch': '8.889'}
{'loss': '0.345', 'grad_norm': '7.068', 'learning_rate': '7.02e-05', 'epoch': '8.944'}
{'loss': '0.3385', 'grad_norm': '5.234', 'learning_rate': '7.002e-05', 'epoch': '9'}
{'eval_loss': '0.08377', 'eval_accuracy': '0.6073', 'eval_f1_macro': '0.612', 'eval_runtime': '92.55', 'eval_samples_per_second': '2.366', 'eval_steps_per_second': '0.303', 'epoch': '9'}
{'loss': '0.2962', 'grad_norm': '8.288', 'learning_rate': '6.983e-05', 'epoch': '9.056'}
{'loss': '0.3089', 'grad_norm': '14.63', 'learning_rate': '6.965e-05', 'epoch': '9.111'}
{'loss': '0.3216', 'grad_norm': '8.713', 'learning_rate': '6.946e-05', 'epoch': '9.167'}
{'loss': '0.3036', 'grad_norm': '28.04', 'learning_rate': '6.928e-05', 'epoch': '9.222'}
{'loss': '0.3164', 'grad_norm': '17.45', 'learning_rate': '6.909e-05', 'epoch': '9.278'}
{'loss': '0.3248', 'grad_norm': '7.688', 'learning_rate': '6.891e-05', 'epoch': '9.333'}
{'loss': '0.3359', 'grad_norm': '10.59', 'learning_rate': '6.872e-05', 'epoch': '9.389'}
{'loss': '0.3152', 'grad_norm': '11.02', 'learning_rate': '6.854e-05', 'epoch': '9.444'}
{'loss': '0.3027', 'grad_norm': '11.65', 'learning_rate': '6.835e-05', 'epoch': '9.5'}
{'loss': '0.2838', 'grad_norm': '10.88', 'learning_rate': '6.817e-05', 'epoch': '9.556'}
{'loss': '0.2933', 'grad_norm': '16.63', 'learning_rate': '6.798e-05', 'epoch': '9.611'}
{'loss': '0.2928', 'grad_norm': '18.06', 'learning_rate': '6.78e-05', 'epoch': '9.667'}
{'loss': '0.2695', 'grad_norm': '10.06', 'learning_rate': '6.761e-05', 'epoch': '9.722'}
{'loss': '0.2558', 'grad_norm': '18.05', 'learning_rate': '6.743e-05', 'epoch': '9.778'}
{'loss': '0.3066', 'grad_norm': '9.773', 'learning_rate': '6.724e-05', 'epoch': '9.833'}
{'loss': '0.2946', 'grad_norm': '34.24', 'learning_rate': '6.706e-05', 'epoch': '9.889'}
{'loss': '0.2934', 'grad_norm': '17.36', 'learning_rate': '6.687e-05', 'epoch': '9.944'}
{'loss': '0.3498', 'grad_norm': '10.57', 'learning_rate': '6.669e-05', 'epoch': '10'}
{'eval_loss': '0.0777', 'eval_accuracy': '0.6393', 'eval_f1_macro': '0.6434', 'eval_runtime': '92.24', 'eval_samples_per_second': '2.374', 'eval_steps_per_second': '0.304', 'epoch': '10'}
{'loss': '0.3125', 'grad_norm': '23.44', 'learning_rate': '6.65e-05', 'epoch': '10.06'}
{'loss': '0.2958', 'grad_norm': '16.33', 'learning_rate': '6.631e-05', 'epoch': '10.11'}
{'loss': '0.2918', 'grad_norm': '8.686', 'learning_rate': '6.613e-05', 'epoch': '10.17'}
{'loss': '0.2786', 'grad_norm': '8.336', 'learning_rate': '6.594e-05', 'epoch': '10.22'}
{'loss': '0.2932', 'grad_norm': '9.379', 'learning_rate': '6.576e-05', 'epoch': '10.28'}
{'loss': '0.3039', 'grad_norm': '8.065', 'learning_rate': '6.557e-05', 'epoch': '10.33'}
{'loss': '0.2826', 'grad_norm': '24.36', 'learning_rate': '6.539e-05', 'epoch': '10.39'}
{'loss': '0.2823', 'grad_norm': '14.57', 'learning_rate': '6.52e-05', 'epoch': '10.44'}
{'loss': '0.2801', 'grad_norm': '57.91', 'learning_rate': '6.502e-05', 'epoch': '10.5'}
{'loss': '0.2874', 'grad_norm': '14.43', 'learning_rate': '6.483e-05', 'epoch': '10.56'}
{'loss': '0.29', 'grad_norm': '12', 'learning_rate': '6.465e-05', 'epoch': '10.61'}
{'loss': '0.2655', 'grad_norm': '14.84', 'learning_rate': '6.446e-05', 'epoch': '10.67'}
{'loss': '0.2791', 'grad_norm': '77.07', 'learning_rate': '6.428e-05', 'epoch': '10.72'}
{'loss': '0.2867', 'grad_norm': '12.63', 'learning_rate': '6.409e-05', 'epoch': '10.78'}
{'loss': '0.2986', 'grad_norm': '23.68', 'learning_rate': '6.391e-05', 'epoch': '10.83'}
{'loss': '0.3224', 'grad_norm': '29.91', 'learning_rate': '6.372e-05', 'epoch': '10.89'}
{'loss': '0.2943', 'grad_norm': '44', 'learning_rate': '6.354e-05', 'epoch': '10.94'}
{'loss': '0.2585', 'grad_norm': '40.78', 'learning_rate': '6.335e-05', 'epoch': '11'}
{'eval_loss': '0.07975', 'eval_accuracy': '0.5982', 'eval_f1_macro': '0.589', 'eval_runtime': '92.83', 'eval_samples_per_second': '2.359', 'eval_steps_per_second': '0.302', 'epoch': '11'}
{'loss': '0.2999', 'grad_norm': '24.04', 'learning_rate': '6.317e-05', 'epoch': '11.06'}
{'loss': '0.2847', 'grad_norm': '14.93', 'learning_rate': '6.298e-05', 'epoch': '11.11'}
{'loss': '0.2792', 'grad_norm': '10.92', 'learning_rate': '6.28e-05', 'epoch': '11.17'}
{'loss': '0.254', 'grad_norm': '12.14', 'learning_rate': '6.261e-05', 'epoch': '11.22'}
{'loss': '0.2715', 'grad_norm': '10.52', 'learning_rate': '6.243e-05', 'epoch': '11.28'}
{'loss': '0.2906', 'grad_norm': '55.97', 'learning_rate': '6.224e-05', 'epoch': '11.33'}
{'loss': '0.2725', 'grad_norm': '38.25', 'learning_rate': '6.206e-05', 'epoch': '11.39'}
{'loss': '0.2467', 'grad_norm': '17.21', 'learning_rate': '6.187e-05', 'epoch': '11.44'}
{'loss': '0.2508', 'grad_norm': '16.03', 'learning_rate': '6.169e-05', 'epoch': '11.5'}
{'loss': '0.3076', 'grad_norm': '19.2', 'learning_rate': '6.15e-05', 'epoch': '11.56'}
{'loss': '0.2822', 'grad_norm': '38.17', 'learning_rate': '6.131e-05', 'epoch': '11.61'}
{'loss': '0.2773', 'grad_norm': '21.48', 'learning_rate': '6.113e-05', 'epoch': '11.67'}
{'loss': '0.2641', 'grad_norm': '15.47', 'learning_rate': '6.094e-05', 'epoch': '11.72'}
{'loss': '0.2704', 'grad_norm': '13.37', 'learning_rate': '6.076e-05', 'epoch': '11.78'}
{'loss': '0.2778', 'grad_norm': '25.46', 'learning_rate': '6.057e-05', 'epoch': '11.83'}
{'loss': '0.3093', 'grad_norm': '22.94', 'learning_rate': '6.039e-05', 'epoch': '11.89'}
{'loss': '0.2656', 'grad_norm': '19.58', 'learning_rate': '6.02e-05', 'epoch': '11.94'}
{'loss': '0.2894', 'grad_norm': '16.23', 'learning_rate': '6.002e-05', 'epoch': '12'}
{'eval_loss': '0.07949', 'eval_accuracy': '0.6073', 'eval_f1_macro': '0.6106', 'eval_runtime': '92.51', 'eval_samples_per_second': '2.367', 'eval_steps_per_second': '0.303', 'epoch': '12'}
{'loss': '0.2998', 'grad_norm': '10.96', 'learning_rate': '5.983e-05', 'epoch': '12.06'}
{'loss': '0.2649', 'grad_norm': '11.74', 'learning_rate': '5.965e-05', 'epoch': '12.11'}
{'loss': '0.2653', 'grad_norm': '16.06', 'learning_rate': '5.946e-05', 'epoch': '12.17'}
{'loss': '0.2623', 'grad_norm': '15.95', 'learning_rate': '5.928e-05', 'epoch': '12.22'}
{'loss': '0.272', 'grad_norm': '10.68', 'learning_rate': '5.909e-05', 'epoch': '12.28'}
{'loss': '0.2687', 'grad_norm': '33.45', 'learning_rate': '5.891e-05', 'epoch': '12.33'}
{'loss': '0.2887', 'grad_norm': '14.31', 'learning_rate': '5.872e-05', 'epoch': '12.39'}
{'loss': '0.2875', 'grad_norm': '25.53', 'learning_rate': '5.854e-05', 'epoch': '12.44'}
{'loss': '0.2788', 'grad_norm': '10.93', 'learning_rate': '5.835e-05', 'epoch': '12.5'}
{'loss': '0.2629', 'grad_norm': '12.14', 'learning_rate': '5.817e-05', 'epoch': '12.56'}
{'loss': '0.2934', 'grad_norm': '11.41', 'learning_rate': '5.798e-05', 'epoch': '12.61'}
{'loss': '0.2716', 'grad_norm': '14.29', 'learning_rate': '5.78e-05', 'epoch': '12.67'}
{'loss': '0.2633', 'grad_norm': '14.15', 'learning_rate': '5.761e-05', 'epoch': '12.72'}
{'loss': '0.3031', 'grad_norm': '16.13', 'learning_rate': '5.743e-05', 'epoch': '12.78'}
{'loss': '0.2535', 'grad_norm': '32.28', 'learning_rate': '5.724e-05', 'epoch': '12.83'}
{'loss': '0.2598', 'grad_norm': '99.77', 'learning_rate': '5.706e-05', 'epoch': '12.89'}
{'loss': '0.2427', 'grad_norm': '24.91', 'learning_rate': '5.687e-05', 'epoch': '12.94'}
{'loss': '0.265', 'grad_norm': '21.41', 'learning_rate': '5.669e-05', 'epoch': '13'}
{'eval_loss': '0.0846', 'eval_accuracy': '0.5799', 'eval_f1_macro': '0.5739', 'eval_runtime': '92.74', 'eval_samples_per_second': '2.361', 'eval_steps_per_second': '0.302', 'epoch': '13'}
{'loss': '0.2721', 'grad_norm': '40.15', 'learning_rate': '5.65e-05', 'epoch': '13.06'}
{'loss': '0.27', 'grad_norm': '8.684', 'learning_rate': '5.631e-05', 'epoch': '13.11'}
{'loss': '0.2494', 'grad_norm': '6.578', 'learning_rate': '5.613e-05', 'epoch': '13.17'}
{'loss': '0.2752', 'grad_norm': '20.32', 'learning_rate': '5.594e-05', 'epoch': '13.22'}
{'loss': '0.2789', 'grad_norm': '20.88', 'learning_rate': '5.576e-05', 'epoch': '13.28'}
{'loss': '0.2744', 'grad_norm': '8.658', 'learning_rate': '5.557e-05', 'epoch': '13.33'}
{'loss': '0.2905', 'grad_norm': '11.38', 'learning_rate': '5.539e-05', 'epoch': '13.39'}
{'loss': '0.2574', 'grad_norm': '147.6', 'learning_rate': '5.52e-05', 'epoch': '13.44'}
{'loss': '0.2708', 'grad_norm': '12.86', 'learning_rate': '5.502e-05', 'epoch': '13.5'}
{'loss': '0.2815', 'grad_norm': '16.38', 'learning_rate': '5.483e-05', 'epoch': '13.56'}
{'loss': '0.2675', 'grad_norm': '11.76', 'learning_rate': '5.465e-05', 'epoch': '13.61'}
{'loss': '0.2722', 'grad_norm': '11.13', 'learning_rate': '5.446e-05', 'epoch': '13.67'}
{'loss': '0.2629', 'grad_norm': '22.75', 'learning_rate': '5.428e-05', 'epoch': '13.72'}
{'loss': '0.2653', 'grad_norm': '6.393', 'learning_rate': '5.409e-05', 'epoch': '13.78'}
{'loss': '0.2471', 'grad_norm': '6.803', 'learning_rate': '5.391e-05', 'epoch': '13.83'}
{'loss': '0.2452', 'grad_norm': '10.88', 'learning_rate': '5.372e-05', 'epoch': '13.89'}
{'loss': '0.2697', 'grad_norm': '22.71', 'learning_rate': '5.354e-05', 'epoch': '13.94'}
{'loss': '0.2554', 'grad_norm': '35.61', 'learning_rate': '5.335e-05', 'epoch': '14'}
{'eval_loss': '0.08274', 'eval_accuracy': '0.5982', 'eval_f1_macro': '0.5971', 'eval_runtime': '92.31', 'eval_samples_per_second': '2.372', 'eval_steps_per_second': '0.303', 'epoch': '14'}
{'loss': '0.2627', 'grad_norm': '46.59', 'learning_rate': '5.317e-05', 'epoch': '14.06'}
{'loss': '0.2412', 'grad_norm': '3.826', 'learning_rate': '5.298e-05', 'epoch': '14.11'}
{'loss': '0.2297', 'grad_norm': '16.76', 'learning_rate': '5.28e-05', 'epoch': '14.17'}
{'loss': '0.242', 'grad_norm': '28.04', 'learning_rate': '5.261e-05', 'epoch': '14.22'}
{'loss': '0.2667', 'grad_norm': '12.63', 'learning_rate': '5.243e-05', 'epoch': '14.28'}
{'loss': '0.2643', 'grad_norm': '6.917', 'learning_rate': '5.224e-05', 'epoch': '14.33'}
{'loss': '0.2411', 'grad_norm': '10.55', 'learning_rate': '5.206e-05', 'epoch': '14.39'}
{'loss': '0.2429', 'grad_norm': '15.08', 'learning_rate': '5.187e-05', 'epoch': '14.44'}
{'loss': '0.2656', 'grad_norm': '10.24', 'learning_rate': '5.169e-05', 'epoch': '14.5'}
{'loss': '0.2527', 'grad_norm': '26.44', 'learning_rate': '5.15e-05', 'epoch': '14.56'}
{'loss': '0.2488', 'grad_norm': '5.841', 'learning_rate': '5.131e-05', 'epoch': '14.61'}
{'loss': '0.2762', 'grad_norm': '9.895', 'learning_rate': '5.113e-05', 'epoch': '14.67'}
{'loss': '0.2816', 'grad_norm': '10.97', 'learning_rate': '5.094e-05', 'epoch': '14.72'}
{'loss': '0.2693', 'grad_norm': '4.258', 'learning_rate': '5.076e-05', 'epoch': '14.78'}
{'loss': '0.2732', 'grad_norm': '4.476', 'learning_rate': '5.057e-05', 'epoch': '14.83'}
{'loss': '0.2535', 'grad_norm': '5.636', 'learning_rate': '5.039e-05', 'epoch': '14.89'}
{'loss': '0.2761', 'grad_norm': '7.013', 'learning_rate': '5.02e-05', 'epoch': '14.94'}
{'loss': '0.254', 'grad_norm': '4.758', 'learning_rate': '5.002e-05', 'epoch': '15'}
{'eval_loss': '0.0868', 'eval_accuracy': '0.5799', 'eval_f1_macro': '0.5692', 'eval_runtime': '92.35', 'eval_samples_per_second': '2.371', 'eval_steps_per_second': '0.303', 'epoch': '15'}
{'loss': '0.2438', 'grad_norm': '16.13', 'learning_rate': '4.983e-05', 'epoch': '15.06'}
{'loss': '0.263', 'grad_norm': '16.66', 'learning_rate': '4.965e-05', 'epoch': '15.11'}
{'loss': '0.2375', 'grad_norm': '6.809', 'learning_rate': '4.946e-05', 'epoch': '15.17'}
{'loss': '0.2369', 'grad_norm': '6.651', 'learning_rate': '4.928e-05', 'epoch': '15.22'}
{'loss': '0.27', 'grad_norm': '4.98', 'learning_rate': '4.909e-05', 'epoch': '15.28'}
{'loss': '0.2209', 'grad_norm': '6.693', 'learning_rate': '4.891e-05', 'epoch': '15.33'}
{'loss': '0.2245', 'grad_norm': '11.29', 'learning_rate': '4.872e-05', 'epoch': '15.39'}
{'loss': '0.2303', 'grad_norm': '16.76', 'learning_rate': '4.854e-05', 'epoch': '15.44'}
{'loss': '0.2429', 'grad_norm': '11.27', 'learning_rate': '4.835e-05', 'epoch': '15.5'}
{'loss': '0.2595', 'grad_norm': '24.9', 'learning_rate': '4.817e-05', 'epoch': '15.56'}
{'loss': '0.231', 'grad_norm': '9.57', 'learning_rate': '4.798e-05', 'epoch': '15.61'}
{'loss': '0.2655', 'grad_norm': '6.38', 'learning_rate': '4.78e-05', 'epoch': '15.67'}
{'loss': '0.2277', 'grad_norm': '9.057', 'learning_rate': '4.761e-05', 'epoch': '15.72'}
{'loss': '0.2784', 'grad_norm': '3.953', 'learning_rate': '4.743e-05', 'epoch': '15.78'}
{'loss': '0.2404', 'grad_norm': '8.082', 'learning_rate': '4.724e-05', 'epoch': '15.83'}
{'loss': '0.2805', 'grad_norm': '3.587', 'learning_rate': '4.706e-05', 'epoch': '15.89'}
{'loss': '0.2405', 'grad_norm': '4.404', 'learning_rate': '4.687e-05', 'epoch': '15.94'}
{'loss': '0.2509', 'grad_norm': '5.304', 'learning_rate': '4.669e-05', 'epoch': '16'}
{'eval_loss': '0.07667', 'eval_accuracy': '0.6164', 'eval_f1_macro': '0.6163', 'eval_runtime': '91.64', 'eval_samples_per_second': '2.39', 'eval_steps_per_second': '0.306', 'epoch': '16'}
{'loss': '0.2229', 'grad_norm': '5.85', 'learning_rate': '4.65e-05', 'epoch': '16.06'}
{'loss': '0.219', 'grad_norm': '6.651', 'learning_rate': '4.631e-05', 'epoch': '16.11'}
{'loss': '0.2311', 'grad_norm': '7.699', 'learning_rate': '4.613e-05', 'epoch': '16.17'}
{'loss': '0.2349', 'grad_norm': '6.257', 'learning_rate': '4.594e-05', 'epoch': '16.22'}
{'loss': '0.2172', 'grad_norm': '4.51', 'learning_rate': '4.576e-05', 'epoch': '16.28'}
{'loss': '0.2368', 'grad_norm': '12.98', 'learning_rate': '4.557e-05', 'epoch': '16.33'}
{'loss': '0.2237', 'grad_norm': '3.473', 'learning_rate': '4.539e-05', 'epoch': '16.39'}
{'loss': '0.2068', 'grad_norm': '5.579', 'learning_rate': '4.52e-05', 'epoch': '16.44'}
{'loss': '0.2558', 'grad_norm': '5.005', 'learning_rate': '4.502e-05', 'epoch': '16.5'}
{'loss': '0.2778', 'grad_norm': '2.774', 'learning_rate': '4.483e-05', 'epoch': '16.56'}
{'loss': '0.2403', 'grad_norm': '3.228', 'learning_rate': '4.465e-05', 'epoch': '16.61'}
{'loss': '0.2911', 'grad_norm': '2.211', 'learning_rate': '4.446e-05', 'epoch': '16.67'}
{'loss': '0.2399', 'grad_norm': '11.15', 'learning_rate': '4.428e-05', 'epoch': '16.72'}
{'loss': '0.2316', 'grad_norm': '3.57', 'learning_rate': '4.409e-05', 'epoch': '16.78'}
{'loss': '0.2485', 'grad_norm': '4.472', 'learning_rate': '4.391e-05', 'epoch': '16.83'}
{'loss': '0.2229', 'grad_norm': '1.876', 'learning_rate': '4.372e-05', 'epoch': '16.89'}
{'loss': '0.2072', 'grad_norm': '5.672', 'learning_rate': '4.354e-05', 'epoch': '16.94'}
{'loss': '0.2495', 'grad_norm': '4.414', 'learning_rate': '4.335e-05', 'epoch': '17'}
{'eval_loss': '0.07516', 'eval_accuracy': '0.6621', 'eval_f1_macro': '0.6637', 'eval_runtime': '92.5', 'eval_samples_per_second': '2.367', 'eval_steps_per_second': '0.303', 'epoch': '17'}
{'loss': '0.2501', 'grad_norm': '4.593', 'learning_rate': '4.317e-05', 'epoch': '17.06'}
{'loss': '0.2118', 'grad_norm': '2.51', 'learning_rate': '4.298e-05', 'epoch': '17.11'}
{'loss': '0.204', 'grad_norm': '5.391', 'learning_rate': '4.28e-05', 'epoch': '17.17'}
{'loss': '0.2264', 'grad_norm': '5.573', 'learning_rate': '4.261e-05', 'epoch': '17.22'}
{'loss': '0.2224', 'grad_norm': '2.328', 'learning_rate': '4.243e-05', 'epoch': '17.28'}
{'loss': '0.2338', 'grad_norm': '5.108', 'learning_rate': '4.224e-05', 'epoch': '17.33'}
{'loss': '0.2236', 'grad_norm': '2.586', 'learning_rate': '4.206e-05', 'epoch': '17.39'}
{'loss': '0.2203', 'grad_norm': '2.861', 'learning_rate': '4.187e-05', 'epoch': '17.44'}
{'loss': '0.2291', 'grad_norm': '4.201', 'learning_rate': '4.169e-05', 'epoch': '17.5'}
{'loss': '0.1751', 'grad_norm': '2.176', 'learning_rate': '4.15e-05', 'epoch': '17.56'}
{'loss': '0.201', 'grad_norm': '11.14', 'learning_rate': '4.131e-05', 'epoch': '17.61'}
{'loss': '0.2191', 'grad_norm': '3.242', 'learning_rate': '4.113e-05', 'epoch': '17.67'}
{'loss': '0.2358', 'grad_norm': '3.78', 'learning_rate': '4.094e-05', 'epoch': '17.72'}
{'loss': '0.25', 'grad_norm': '3.553', 'learning_rate': '4.076e-05', 'epoch': '17.78'}
{'loss': '0.2408', 'grad_norm': '2.908', 'learning_rate': '4.057e-05', 'epoch': '17.83'}
{'loss': '0.2077', 'grad_norm': '1.931', 'learning_rate': '4.039e-05', 'epoch': '17.89'}
{'loss': '0.2176', 'grad_norm': '5.024', 'learning_rate': '4.02e-05', 'epoch': '17.94'}
{'loss': '0.2176', 'grad_norm': '2.552', 'learning_rate': '4.002e-05', 'epoch': '18'}
{'eval_loss': '0.07309', 'eval_accuracy': '0.6712', 'eval_f1_macro': '0.667', 'eval_runtime': '92.79', 'eval_samples_per_second': '2.36', 'eval_steps_per_second': '0.302', 'epoch': '18'}
{'loss': '0.2068', 'grad_norm': '2.792', 'learning_rate': '3.983e-05', 'epoch': '18.06'}
{'loss': '0.2052', 'grad_norm': '2.625', 'learning_rate': '3.965e-05', 'epoch': '18.11'}
{'loss': '0.2143', 'grad_norm': '3.843', 'learning_rate': '3.946e-05', 'epoch': '18.17'}
{'loss': '0.179', 'grad_norm': '3.623', 'learning_rate': '3.928e-05', 'epoch': '18.22'}
{'loss': '0.2072', 'grad_norm': '2.81', 'learning_rate': '3.909e-05', 'epoch': '18.28'}
{'loss': '0.2168', 'grad_norm': '2.175', 'learning_rate': '3.891e-05', 'epoch': '18.33'}
{'loss': '0.2069', 'grad_norm': '3.218', 'learning_rate': '3.872e-05', 'epoch': '18.39'}
{'loss': '0.1851', 'grad_norm': '2.357', 'learning_rate': '3.854e-05', 'epoch': '18.44'}
{'loss': '0.1986', 'grad_norm': '4.906', 'learning_rate': '3.835e-05', 'epoch': '18.5'}
{'loss': '0.2004', 'grad_norm': '3.741', 'learning_rate': '3.817e-05', 'epoch': '18.56'}
{'loss': '0.2221', 'grad_norm': '5.885', 'learning_rate': '3.798e-05', 'epoch': '18.61'}
{'loss': '0.2366', 'grad_norm': '2.606', 'learning_rate': '3.78e-05', 'epoch': '18.67'}
{'loss': '0.2271', 'grad_norm': '3.475', 'learning_rate': '3.761e-05', 'epoch': '18.72'}
{'loss': '0.216', 'grad_norm': '2.365', 'learning_rate': '3.743e-05', 'epoch': '18.78'}
{'loss': '0.2185', 'grad_norm': '2.242', 'learning_rate': '3.724e-05', 'epoch': '18.83'}
{'loss': '0.2082', 'grad_norm': '4.21', 'learning_rate': '3.706e-05', 'epoch': '18.89'}
{'loss': '0.1884', 'grad_norm': '2.384', 'learning_rate': '3.687e-05', 'epoch': '18.94'}
{'loss': '0.1832', 'grad_norm': '3.996', 'learning_rate': '3.669e-05', 'epoch': '19'}
{'eval_loss': '0.07891', 'eval_accuracy': '0.6621', 'eval_f1_macro': '0.6631', 'eval_runtime': '91.41', 'eval_samples_per_second': '2.396', 'eval_steps_per_second': '0.306', 'epoch': '19'}
{'loss': '0.1779', 'grad_norm': '2.385', 'learning_rate': '3.65e-05', 'epoch': '19.06'}
{'loss': '0.1638', 'grad_norm': '2.869', 'learning_rate': '3.631e-05', 'epoch': '19.11'}
{'loss': '0.2059', 'grad_norm': '5.433', 'learning_rate': '3.613e-05', 'epoch': '19.17'}
{'loss': '0.2036', 'grad_norm': '3.941', 'learning_rate': '3.594e-05', 'epoch': '19.22'}
{'loss': '0.1839', 'grad_norm': '2.939', 'learning_rate': '3.576e-05', 'epoch': '19.28'}
{'loss': '0.1706', 'grad_norm': '2.049', 'learning_rate': '3.557e-05', 'epoch': '19.33'}
{'loss': '0.1955', 'grad_norm': '4.402', 'learning_rate': '3.539e-05', 'epoch': '19.39'}
{'loss': '0.1944', 'grad_norm': '4.088', 'learning_rate': '3.52e-05', 'epoch': '19.44'}
{'loss': '0.2064', 'grad_norm': '3.718', 'learning_rate': '3.502e-05', 'epoch': '19.5'}
{'loss': '0.1981', 'grad_norm': '4.671', 'learning_rate': '3.483e-05', 'epoch': '19.56'}
{'loss': '0.1939', 'grad_norm': '2.087', 'learning_rate': '3.465e-05', 'epoch': '19.61'}
{'loss': '0.2015', 'grad_norm': '3.569', 'learning_rate': '3.446e-05', 'epoch': '19.67'}
{'loss': '0.1765', 'grad_norm': '7.112', 'learning_rate': '3.428e-05', 'epoch': '19.72'}
{'loss': '0.211', 'grad_norm': '7.265', 'learning_rate': '3.409e-05', 'epoch': '19.78'}
{'loss': '0.182', 'grad_norm': '1.889', 'learning_rate': '3.391e-05', 'epoch': '19.83'}
{'loss': '0.1973', 'grad_norm': '9.152', 'learning_rate': '3.372e-05', 'epoch': '19.89'}
{'loss': '0.1945', 'grad_norm': '3.082', 'learning_rate': '3.354e-05', 'epoch': '19.94'}
{'loss': '0.1956', 'grad_norm': '3.156', 'learning_rate': '3.335e-05', 'epoch': '20'}
{'eval_loss': '0.07707', 'eval_accuracy': '0.6804', 'eval_f1_macro': '0.6781', 'eval_runtime': '92.27', 'eval_samples_per_second': '2.373', 'eval_steps_per_second': '0.303', 'epoch': '20'}
{'loss': '0.1766', 'grad_norm': '2.274', 'learning_rate': '3.317e-05', 'epoch': '20.06'}
{'loss': '0.1659', 'grad_norm': '3.547', 'learning_rate': '3.298e-05', 'epoch': '20.11'}
{'loss': '0.165', 'grad_norm': '3.092', 'learning_rate': '3.28e-05', 'epoch': '20.17'}
{'loss': '0.1904', 'grad_norm': '3.368', 'learning_rate': '3.261e-05', 'epoch': '20.22'}
{'loss': '0.1966', 'grad_norm': '3.305', 'learning_rate': '3.243e-05', 'epoch': '20.28'}
{'loss': '0.1722', 'grad_norm': '3.504', 'learning_rate': '3.224e-05', 'epoch': '20.33'}
{'loss': '0.1924', 'grad_norm': '3.444', 'learning_rate': '3.206e-05', 'epoch': '20.39'}
{'loss': '0.193', 'grad_norm': '2.292', 'learning_rate': '3.187e-05', 'epoch': '20.44'}
{'loss': '0.192', 'grad_norm': '3.153', 'learning_rate': '3.169e-05', 'epoch': '20.5'}
{'loss': '0.1596', 'grad_norm': '1.447', 'learning_rate': '3.15e-05', 'epoch': '20.56'}
{'loss': '0.1889', 'grad_norm': '2.718', 'learning_rate': '3.131e-05', 'epoch': '20.61'}
{'loss': '0.1715', 'grad_norm': '2.045', 'learning_rate': '3.113e-05', 'epoch': '20.67'}
{'loss': '0.1713', 'grad_norm': '1.8', 'learning_rate': '3.094e-05', 'epoch': '20.72'}
{'loss': '0.2093', 'grad_norm': '2.839', 'learning_rate': '3.076e-05', 'epoch': '20.78'}
{'loss': '0.1935', 'grad_norm': '3.3', 'learning_rate': '3.057e-05', 'epoch': '20.83'}
{'loss': '0.175', 'grad_norm': '2.621', 'learning_rate': '3.039e-05', 'epoch': '20.89'}
{'loss': '0.1763', 'grad_norm': '1.32', 'learning_rate': '3.02e-05', 'epoch': '20.94'}
{'loss': '0.1661', 'grad_norm': '1.986', 'learning_rate': '3.002e-05', 'epoch': '21'}
{'eval_loss': '0.07281', 'eval_accuracy': '0.7123', 'eval_f1_macro': '0.7124', 'eval_runtime': '92', 'eval_samples_per_second': '2.38', 'eval_steps_per_second': '0.304', 'epoch': '21'}
{'loss': '0.1996', 'grad_norm': '2.961', 'learning_rate': '2.983e-05', 'epoch': '21.06'}
{'loss': '0.18', 'grad_norm': '2.967', 'learning_rate': '2.965e-05', 'epoch': '21.11'}
{'loss': '0.1679', 'grad_norm': '2.723', 'learning_rate': '2.946e-05', 'epoch': '21.17'}
{'loss': '0.1791', 'grad_norm': '2.726', 'learning_rate': '2.928e-05', 'epoch': '21.22'}
{'loss': '0.1619', 'grad_norm': '3.545', 'learning_rate': '2.909e-05', 'epoch': '21.28'}
{'loss': '0.1641', 'grad_norm': '3.002', 'learning_rate': '2.891e-05', 'epoch': '21.33'}
{'loss': '0.1713', 'grad_norm': '2.664', 'learning_rate': '2.872e-05', 'epoch': '21.39'}
{'loss': '0.1636', 'grad_norm': '2.266', 'learning_rate': '2.854e-05', 'epoch': '21.44'}
{'loss': '0.1895', 'grad_norm': '1.923', 'learning_rate': '2.835e-05', 'epoch': '21.5'}
{'loss': '0.1546', 'grad_norm': '1.55', 'learning_rate': '2.817e-05', 'epoch': '21.56'}
{'loss': '0.1477', 'grad_norm': '2.465', 'learning_rate': '2.798e-05', 'epoch': '21.61'}
{'loss': '0.1723', 'grad_norm': '2.168', 'learning_rate': '2.78e-05', 'epoch': '21.67'}
{'loss': '0.158', 'grad_norm': '1.714', 'learning_rate': '2.761e-05', 'epoch': '21.72'}
{'loss': '0.1612', 'grad_norm': '3.673', 'learning_rate': '2.743e-05', 'epoch': '21.78'}
{'loss': '0.1738', 'grad_norm': '1.699', 'learning_rate': '2.724e-05', 'epoch': '21.83'}
{'loss': '0.159', 'grad_norm': '7.101', 'learning_rate': '2.706e-05', 'epoch': '21.89'}
{'loss': '0.185', 'grad_norm': '1.971', 'learning_rate': '2.687e-05', 'epoch': '21.94'}
{'loss': '0.1943', 'grad_norm': '5.779', 'learning_rate': '2.669e-05', 'epoch': '22'}
{'eval_loss': '0.07557', 'eval_accuracy': '0.7032', 'eval_f1_macro': '0.7026', 'eval_runtime': '92.15', 'eval_samples_per_second': '2.377', 'eval_steps_per_second': '0.304', 'epoch': '22'}
{'loss': '0.1444', 'grad_norm': '2.507', 'learning_rate': '2.65e-05', 'epoch': '22.06'}
{'loss': '0.1437', 'grad_norm': '2.154', 'learning_rate': '2.631e-05', 'epoch': '22.11'}
{'loss': '0.157', 'grad_norm': '1.84', 'learning_rate': '2.613e-05', 'epoch': '22.17'}
{'loss': '0.1649', 'grad_norm': '2.192', 'learning_rate': '2.594e-05', 'epoch': '22.22'}
{'loss': '0.1553', 'grad_norm': '2.42', 'learning_rate': '2.576e-05', 'epoch': '22.28'}
{'loss': '0.1656', 'grad_norm': '3.058', 'learning_rate': '2.557e-05', 'epoch': '22.33'}
{'loss': '0.1569', 'grad_norm': '2.862', 'learning_rate': '2.539e-05', 'epoch': '22.39'}
{'loss': '0.1868', 'grad_norm': '2.932', 'learning_rate': '2.52e-05', 'epoch': '22.44'}
{'loss': '0.1541', 'grad_norm': '2.365', 'learning_rate': '2.502e-05', 'epoch': '22.5'}
{'loss': '0.1667', 'grad_norm': '3.152', 'learning_rate': '2.483e-05', 'epoch': '22.56'}
{'loss': '0.1368', 'grad_norm': '2.709', 'learning_rate': '2.465e-05', 'epoch': '22.61'}
{'loss': '0.1626', 'grad_norm': '3.362', 'learning_rate': '2.446e-05', 'epoch': '22.67'}
{'loss': '0.1767', 'grad_norm': '1.935', 'learning_rate': '2.428e-05', 'epoch': '22.72'}
{'loss': '0.1996', 'grad_norm': '1.967', 'learning_rate': '2.409e-05', 'epoch': '22.78'}
{'loss': '0.1662', 'grad_norm': '3.441', 'learning_rate': '2.391e-05', 'epoch': '22.83'}
{'loss': '0.1891', 'grad_norm': '3.301', 'learning_rate': '2.372e-05', 'epoch': '22.89'}
{'loss': '0.1491', 'grad_norm': '2.989', 'learning_rate': '2.354e-05', 'epoch': '22.94'}
{'loss': '0.175', 'grad_norm': '1.83', 'learning_rate': '2.335e-05', 'epoch': '23'}
{'eval_loss': '0.07459', 'eval_accuracy': '0.6895', 'eval_f1_macro': '0.6912', 'eval_runtime': '92.2', 'eval_samples_per_second': '2.375', 'eval_steps_per_second': '0.304', 'epoch': '23'}
{'loss': '0.1294', 'grad_norm': '1.947', 'learning_rate': '2.317e-05', 'epoch': '23.06'}
{'loss': '0.1352', 'grad_norm': '1.519', 'learning_rate': '2.298e-05', 'epoch': '23.11'}
{'loss': '0.1376', 'grad_norm': '3.211', 'learning_rate': '2.28e-05', 'epoch': '23.17'}
{'loss': '0.149', 'grad_norm': '2.595', 'learning_rate': '2.261e-05', 'epoch': '23.22'}
{'loss': '0.1867', 'grad_norm': '1.367', 'learning_rate': '2.243e-05', 'epoch': '23.28'}
{'loss': '0.1736', 'grad_norm': '1.154', 'learning_rate': '2.224e-05', 'epoch': '23.33'}
{'loss': '0.1475', 'grad_norm': '3.817', 'learning_rate': '2.206e-05', 'epoch': '23.39'}
{'loss': '0.1821', 'grad_norm': '2.403', 'learning_rate': '2.187e-05', 'epoch': '23.44'}
{'loss': '0.1457', 'grad_norm': '2.223', 'learning_rate': '2.169e-05', 'epoch': '23.5'}
{'loss': '0.168', 'grad_norm': '3.179', 'learning_rate': '2.15e-05', 'epoch': '23.56'}
{'loss': '0.1821', 'grad_norm': '2.074', 'learning_rate': '2.131e-05', 'epoch': '23.61'}
{'loss': '0.1493', 'grad_norm': '1.99', 'learning_rate': '2.113e-05', 'epoch': '23.67'}
{'loss': '0.1528', 'grad_norm': '1.679', 'learning_rate': '2.094e-05', 'epoch': '23.72'}
{'loss': '0.1617', 'grad_norm': '1.411', 'learning_rate': '2.076e-05', 'epoch': '23.78'}
{'loss': '0.1363', 'grad_norm': '2.454', 'learning_rate': '2.057e-05', 'epoch': '23.83'}
{'loss': '0.1384', 'grad_norm': '1.721', 'learning_rate': '2.039e-05', 'epoch': '23.89'}
{'loss': '0.1566', 'grad_norm': '1.824', 'learning_rate': '2.02e-05', 'epoch': '23.94'}
{'loss': '0.1514', 'grad_norm': '2.098', 'learning_rate': '2.002e-05', 'epoch': '24'}
{'eval_loss': '0.09023', 'eval_accuracy': '0.6347', 'eval_f1_macro': '0.6335', 'eval_runtime': '91.75', 'eval_samples_per_second': '2.387', 'eval_steps_per_second': '0.305', 'epoch': '24'}
{'loss': '0.1198', 'grad_norm': '1.073', 'learning_rate': '1.983e-05', 'epoch': '24.06'}
{'loss': '0.154', 'grad_norm': '2.152', 'learning_rate': '1.965e-05', 'epoch': '24.11'}
{'loss': '0.1355', 'grad_norm': '2.118', 'learning_rate': '1.946e-05', 'epoch': '24.17'}
{'loss': '0.1501', 'grad_norm': '4.31', 'learning_rate': '1.928e-05', 'epoch': '24.22'}
{'loss': '0.1342', 'grad_norm': '2.274', 'learning_rate': '1.909e-05', 'epoch': '24.28'}
{'loss': '0.1254', 'grad_norm': '1.52', 'learning_rate': '1.891e-05', 'epoch': '24.33'}
{'loss': '0.1389', 'grad_norm': '1.385', 'learning_rate': '1.872e-05', 'epoch': '24.39'}
{'loss': '0.1453', 'grad_norm': '1.829', 'learning_rate': '1.854e-05', 'epoch': '24.44'}
{'loss': '0.1699', 'grad_norm': '2.862', 'learning_rate': '1.835e-05', 'epoch': '24.5'}
{'loss': '0.1604', 'grad_norm': '2.698', 'learning_rate': '1.817e-05', 'epoch': '24.56'}
{'loss': '0.1504', 'grad_norm': '3.564', 'learning_rate': '1.798e-05', 'epoch': '24.61'}
{'loss': '0.1447', 'grad_norm': '1.655', 'learning_rate': '1.78e-05', 'epoch': '24.67'}
{'loss': '0.1422', 'grad_norm': '1.93', 'learning_rate': '1.761e-05', 'epoch': '24.72'}
{'loss': '0.1087', 'grad_norm': '2.084', 'learning_rate': '1.743e-05', 'epoch': '24.78'}
{'loss': '0.1665', 'grad_norm': '2.86', 'learning_rate': '1.724e-05', 'epoch': '24.83'}
{'loss': '0.1448', 'grad_norm': '2.447', 'learning_rate': '1.706e-05', 'epoch': '24.89'}
{'loss': '0.1466', 'grad_norm': '2.334', 'learning_rate': '1.687e-05', 'epoch': '24.94'}
{'loss': '0.151', 'grad_norm': '2.147', 'learning_rate': '1.669e-05', 'epoch': '25'}
{'eval_loss': '0.08373', 'eval_accuracy': '0.6895', 'eval_f1_macro': '0.6928', 'eval_runtime': '91.89', 'eval_samples_per_second': '2.383', 'eval_steps_per_second': '0.305', 'epoch': '25'}
{'loss': '0.1718', 'grad_norm': '1.779', 'learning_rate': '1.65e-05', 'epoch': '25.06'}
{'loss': '0.1157', 'grad_norm': '1.862', 'learning_rate': '1.631e-05', 'epoch': '25.11'}
{'loss': '0.1618', 'grad_norm': '2.001', 'learning_rate': '1.613e-05', 'epoch': '25.17'}
{'loss': '0.1303', 'grad_norm': '2.505', 'learning_rate': '1.594e-05', 'epoch': '25.22'}
{'loss': '0.1816', 'grad_norm': '3.646', 'learning_rate': '1.576e-05', 'epoch': '25.28'}
{'loss': '0.1278', 'grad_norm': '1.952', 'learning_rate': '1.557e-05', 'epoch': '25.33'}
{'loss': '0.1439', 'grad_norm': '1.519', 'learning_rate': '1.539e-05', 'epoch': '25.39'}
{'loss': '0.1433', 'grad_norm': '1.675', 'learning_rate': '1.52e-05', 'epoch': '25.44'}
{'loss': '0.131', 'grad_norm': '2.328', 'learning_rate': '1.502e-05', 'epoch': '25.5'}
{'loss': '0.1252', 'grad_norm': '2.026', 'learning_rate': '1.483e-05', 'epoch': '25.56'}
{'loss': '0.1096', 'grad_norm': '2.781', 'learning_rate': '1.465e-05', 'epoch': '25.61'}
{'loss': '0.1366', 'grad_norm': '1.621', 'learning_rate': '1.446e-05', 'epoch': '25.67'}
{'loss': '0.1487', 'grad_norm': '1.701', 'learning_rate': '1.428e-05', 'epoch': '25.72'}
{'loss': '0.1176', 'grad_norm': '1.39', 'learning_rate': '1.409e-05', 'epoch': '25.78'}
{'loss': '0.1688', 'grad_norm': '2.096', 'learning_rate': '1.391e-05', 'epoch': '25.83'}
{'loss': '0.1482', 'grad_norm': '4.111', 'learning_rate': '1.372e-05', 'epoch': '25.89'}
{'loss': '0.1267', 'grad_norm': '1.845', 'learning_rate': '1.354e-05', 'epoch': '25.94'}
{'loss': '0.1332', 'grad_norm': '1.274', 'learning_rate': '1.335e-05', 'epoch': '26'}
{'eval_loss': '0.07521', 'eval_accuracy': '0.726', 'eval_f1_macro': '0.7264', 'eval_runtime': '92.82', 'eval_samples_per_second': '2.359', 'eval_steps_per_second': '0.302', 'epoch': '26'}
{'loss': '0.1244', 'grad_norm': '3.027', 'learning_rate': '1.317e-05', 'epoch': '26.06'}
{'loss': '0.1393', 'grad_norm': '3.609', 'learning_rate': '1.298e-05', 'epoch': '26.11'}
{'loss': '0.1206', 'grad_norm': '3.526', 'learning_rate': '1.28e-05', 'epoch': '26.17'}
{'loss': '0.134', 'grad_norm': '2.175', 'learning_rate': '1.261e-05', 'epoch': '26.22'}
{'loss': '0.1218', 'grad_norm': '1.598', 'learning_rate': '1.243e-05', 'epoch': '26.28'}
{'loss': '0.1273', 'grad_norm': '1.629', 'learning_rate': '1.224e-05', 'epoch': '26.33'}
{'loss': '0.1539', 'grad_norm': '2.378', 'learning_rate': '1.206e-05', 'epoch': '26.39'}
{'loss': '0.1523', 'grad_norm': '1.869', 'learning_rate': '1.187e-05', 'epoch': '26.44'}
{'loss': '0.1297', 'grad_norm': '1.992', 'learning_rate': '1.169e-05', 'epoch': '26.5'}
{'loss': '0.1545', 'grad_norm': '3.299', 'learning_rate': '1.15e-05', 'epoch': '26.56'}
{'loss': '0.132', 'grad_norm': '1.336', 'learning_rate': '1.131e-05', 'epoch': '26.61'}
{'loss': '0.1395', 'grad_norm': '2.031', 'learning_rate': '1.113e-05', 'epoch': '26.67'}
{'loss': '0.1051', 'grad_norm': '2.002', 'learning_rate': '1.094e-05', 'epoch': '26.72'}
{'loss': '0.1265', 'grad_norm': '2.724', 'learning_rate': '1.076e-05', 'epoch': '26.78'}
{'loss': '0.1364', 'grad_norm': '3.614', 'learning_rate': '1.057e-05', 'epoch': '26.83'}
{'loss': '0.142', 'grad_norm': '1.441', 'learning_rate': '1.039e-05', 'epoch': '26.89'}
{'loss': '0.163', 'grad_norm': '2.502', 'learning_rate': '1.02e-05', 'epoch': '26.94'}
{'loss': '0.1327', 'grad_norm': '1.702', 'learning_rate': '1.002e-05', 'epoch': '27'}
{'eval_loss': '0.07875', 'eval_accuracy': '0.6986', 'eval_f1_macro': '0.6997', 'eval_runtime': '91.67', 'eval_samples_per_second': '2.389', 'eval_steps_per_second': '0.305', 'epoch': '27'}
{'loss': '0.105', 'grad_norm': '2.566', 'learning_rate': '9.833e-06', 'epoch': '27.06'}
{'loss': '0.1383', 'grad_norm': '4.703', 'learning_rate': '9.648e-06', 'epoch': '27.11'}
{'loss': '0.1202', 'grad_norm': '2.268', 'learning_rate': '9.463e-06', 'epoch': '27.17'}
{'loss': '0.1102', 'grad_norm': '1.583', 'learning_rate': '9.278e-06', 'epoch': '27.22'}
{'loss': '0.1215', 'grad_norm': '1.284', 'learning_rate': '9.093e-06', 'epoch': '27.28'}
{'loss': '0.1461', 'grad_norm': '2.659', 'learning_rate': '8.907e-06', 'epoch': '27.33'}
{'loss': '0.1436', 'grad_norm': '2.754', 'learning_rate': '8.722e-06', 'epoch': '27.39'}
{'loss': '0.1116', 'grad_norm': '2.052', 'learning_rate': '8.537e-06', 'epoch': '27.44'}
{'loss': '0.112', 'grad_norm': '1.594', 'learning_rate': '8.352e-06', 'epoch': '27.5'}
{'loss': '0.1535', 'grad_norm': '1.813', 'learning_rate': '8.167e-06', 'epoch': '27.56'}
{'loss': '0.1271', 'grad_norm': '1.512', 'learning_rate': '7.981e-06', 'epoch': '27.61'}
{'loss': '0.1147', 'grad_norm': '2.345', 'learning_rate': '7.796e-06', 'epoch': '27.67'}
{'loss': '0.1478', 'grad_norm': '1.969', 'learning_rate': '7.611e-06', 'epoch': '27.72'}
{'loss': '0.1231', 'grad_norm': '2.241', 'learning_rate': '7.426e-06', 'epoch': '27.78'}
{'loss': '0.1618', 'grad_norm': '3.372', 'learning_rate': '7.241e-06', 'epoch': '27.83'}
{'loss': '0.1202', 'grad_norm': '2.06', 'learning_rate': '7.056e-06', 'epoch': '27.89'}
{'loss': '0.1368', 'grad_norm': '2.813', 'learning_rate': '6.87e-06', 'epoch': '27.94'}
{'loss': '0.125', 'grad_norm': '1.747', 'learning_rate': '6.685e-06', 'epoch': '28'}
{'eval_loss': '0.08419', 'eval_accuracy': '0.7032', 'eval_f1_macro': '0.707', 'eval_runtime': '91.63', 'eval_samples_per_second': '2.39', 'eval_steps_per_second': '0.306', 'epoch': '28'}
{'loss': '0.1191', 'grad_norm': '2.731', 'learning_rate': '6.5e-06', 'epoch': '28.06'}
{'loss': '0.1214', 'grad_norm': '1.833', 'learning_rate': '6.315e-06', 'epoch': '28.11'}
{'loss': '0.1309', 'grad_norm': '3.382', 'learning_rate': '6.13e-06', 'epoch': '28.17'}
{'loss': '0.1461', 'grad_norm': '3.138', 'learning_rate': '5.944e-06', 'epoch': '28.22'}
{'loss': '0.1215', 'grad_norm': '8.968', 'learning_rate': '5.759e-06', 'epoch': '28.28'}
{'loss': '0.107', 'grad_norm': '1.738', 'learning_rate': '5.574e-06', 'epoch': '28.33'}
{'loss': '0.122', 'grad_norm': '2.103', 'learning_rate': '5.389e-06', 'epoch': '28.39'}
{'loss': '0.1126', 'grad_norm': '2.628', 'learning_rate': '5.204e-06', 'epoch': '28.44'}
{'loss': '0.1289', 'grad_norm': '1.532', 'learning_rate': '5.019e-06', 'epoch': '28.5'}
{'loss': '0.1606', 'grad_norm': '2.081', 'learning_rate': '4.833e-06', 'epoch': '28.56'}
{'loss': '0.1363', 'grad_norm': '2.032', 'learning_rate': '4.648e-06', 'epoch': '28.61'}
{'loss': '0.09815', 'grad_norm': '1.965', 'learning_rate': '4.463e-06', 'epoch': '28.67'}
{'loss': '0.1142', 'grad_norm': '1.655', 'learning_rate': '4.278e-06', 'epoch': '28.72'}
{'loss': '0.1019', 'grad_norm': '1.819', 'learning_rate': '4.093e-06', 'epoch': '28.78'}
{'loss': '0.1125', 'grad_norm': '1.283', 'learning_rate': '3.907e-06', 'epoch': '28.83'}
{'loss': '0.1606', 'grad_norm': '2.834', 'learning_rate': '3.722e-06', 'epoch': '28.89'}
{'loss': '0.1253', 'grad_norm': '2.699', 'learning_rate': '3.537e-06', 'epoch': '28.94'}
{'loss': '0.1504', 'grad_norm': '1.523', 'learning_rate': '3.352e-06', 'epoch': '29'}
{'eval_loss': '0.08611', 'eval_accuracy': '0.6895', 'eval_f1_macro': '0.6922', 'eval_runtime': '92.45', 'eval_samples_per_second': '2.369', 'eval_steps_per_second': '0.303', 'epoch': '29'}
{'loss': '0.138', 'grad_norm': '1.424', 'learning_rate': '3.167e-06', 'epoch': '29.06'}
{'loss': '0.1157', 'grad_norm': '1.743', 'learning_rate': '2.981e-06', 'epoch': '29.11'}
{'loss': '0.1255', 'grad_norm': '2.786', 'learning_rate': '2.796e-06', 'epoch': '29.17'}
{'loss': '0.1267', 'grad_norm': '2.459', 'learning_rate': '2.611e-06', 'epoch': '29.22'}
{'loss': '0.1151', 'grad_norm': '2.063', 'learning_rate': '2.426e-06', 'epoch': '29.28'}
{'loss': '0.1353', 'grad_norm': '2.361', 'learning_rate': '2.241e-06', 'epoch': '29.33'}
{'loss': '0.1208', 'grad_norm': '1.71', 'learning_rate': '2.056e-06', 'epoch': '29.39'}
{'loss': '0.1097', 'grad_norm': '1.812', 'learning_rate': '1.87e-06', 'epoch': '29.44'}
{'loss': '0.09948', 'grad_norm': '1.888', 'learning_rate': '1.685e-06', 'epoch': '29.5'}
{'loss': '0.1272', 'grad_norm': '2.297', 'learning_rate': '1.5e-06', 'epoch': '29.56'}
{'loss': '0.1347', 'grad_norm': '3.788', 'learning_rate': '1.315e-06', 'epoch': '29.61'}
{'loss': '0.1098', 'grad_norm': '2.817', 'learning_rate': '1.13e-06', 'epoch': '29.67'}
{'loss': '0.1176', 'grad_norm': '1.938', 'learning_rate': '9.444e-07', 'epoch': '29.72'}
{'loss': '0.1653', 'grad_norm': '1.978', 'learning_rate': '7.593e-07', 'epoch': '29.78'}
{'loss': '0.1319', 'grad_norm': '3.36', 'learning_rate': '5.741e-07', 'epoch': '29.83'}
{'loss': '0.119', 'grad_norm': '2.515', 'learning_rate': '3.889e-07', 'epoch': '29.89'}
{'loss': '0.0958', 'grad_norm': '1.903', 'learning_rate': '2.037e-07', 'epoch': '29.94'}
{'loss': '0.1527', 'grad_norm': '3.489', 'learning_rate': '1.852e-08', 'epoch': '30'}
{'eval_loss': '0.08752', 'eval_accuracy': '0.6849', 'eval_f1_macro': '0.6884', 'eval_runtime': '91.5', 'eval_samples_per_second': '2.393', 'eval_steps_per_second': '0.306', 'epoch': '30'}
{'train_runtime': '1.921e+04', 'train_samples_per_second': '8.994', 'train_steps_per_second': '0.281', 'train_loss': '0.324', 'epoch': '30'}
Training complete! Model saved to ./byt5-taglish-nli-final-v2