first commit
This commit is contained in:
+9003
File diff suppressed because it is too large
Load Diff
@@ -0,0 +1,9 @@
|
||||
Loading model from ./byt5-taglish-nli-final-v3...
|
||||
Loading NewsPH-NLI dataset...
|
||||
Generating predictions...
|
||||
|
||||
==================================================
|
||||
NewsPH-NLI Binary Evaluation Results
|
||||
==================================================
|
||||
Accuracy: 57.08%
|
||||
F1 Macro: 0.4303
|
||||
+9003
File diff suppressed because one or more lines are too long
@@ -0,0 +1,9 @@
|
||||
Loading model from ./byt5-taglish-nli-final-v2...
|
||||
Loading NewsPH-NLI dataset...
|
||||
Generating predictions...
|
||||
|
||||
==================================================
|
||||
NewsPH-NLI Binary Evaluation Results
|
||||
==================================================
|
||||
Accuracy: 56.46%
|
||||
F1 Macro: 0.5054
|
||||
File diff suppressed because one or more lines are too long
@@ -0,0 +1,179 @@
|
||||
Using GPU: Quadro RTX 8000
|
||||
Loading training data from new_dataset.csv...
|
||||
Loading benchmark data from benchmark_dataset.csv...
|
||||
Loading tokenizer and model from local path: ./byt5_local_weights...
|
||||
Tokenizing datasets...
|
||||
Starting training...
|
||||
{'loss': '14.11', 'grad_norm': '7201', 'learning_rate': '0.0002992', 'epoch': '0.05556'}
|
||||
{'loss': '3.037', 'grad_norm': '992.4', 'learning_rate': '0.0002984', 'epoch': '0.1111'}
|
||||
{'loss': '0.9589', 'grad_norm': '285', 'learning_rate': '0.0002976', 'epoch': '0.1667'}
|
||||
{'loss': '0.6585', 'grad_norm': '238.9', 'learning_rate': '0.0002967', 'epoch': '0.2222'}
|
||||
{'loss': '0.5985', 'grad_norm': '489.7', 'learning_rate': '0.0002959', 'epoch': '0.2778'}
|
||||
{'loss': '0.6002', 'grad_norm': '1114', 'learning_rate': '0.0002951', 'epoch': '0.3333'}
|
||||
{'loss': '0.5507', 'grad_norm': '330.2', 'learning_rate': '0.0002942', 'epoch': '0.3889'}
|
||||
{'loss': '0.4983', 'grad_norm': '50.29', 'learning_rate': '0.0002934', 'epoch': '0.4444'}
|
||||
{'loss': '0.4855', 'grad_norm': '91.86', 'learning_rate': '0.0002926', 'epoch': '0.5'}
|
||||
{'loss': '0.4765', 'grad_norm': '721.2', 'learning_rate': '0.0002917', 'epoch': '0.5556'}
|
||||
{'loss': '0.4662', 'grad_norm': '81.06', 'learning_rate': '0.0002909', 'epoch': '0.6111'}
|
||||
{'loss': '0.456', 'grad_norm': '50.21', 'learning_rate': '0.0002901', 'epoch': '0.6667'}
|
||||
{'loss': '0.4549', 'grad_norm': '52.37', 'learning_rate': '0.0002892', 'epoch': '0.7222'}
|
||||
{'loss': '0.4547', 'grad_norm': '67.93', 'learning_rate': '0.0002884', 'epoch': '0.7778'}
|
||||
{'loss': '0.4319', 'grad_norm': '482.8', 'learning_rate': '0.0002876', 'epoch': '0.8333'}
|
||||
{'loss': '0.452', 'grad_norm': '58.43', 'learning_rate': '0.0002867', 'epoch': '0.8889'}
|
||||
{'loss': '0.4354', 'grad_norm': '44.05', 'learning_rate': '0.0002859', 'epoch': '0.9444'}
|
||||
{'loss': '0.4351', 'grad_norm': '57.75', 'learning_rate': '0.0002851', 'epoch': '1'}
|
||||
{'eval_loss': '0.1095', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1667', 'eval_runtime': '65.98', 'eval_samples_per_second': '3.319', 'eval_steps_per_second': '0.424', 'epoch': '1'}
|
||||
{'loss': '0.4244', 'grad_norm': '47.99', 'learning_rate': '0.0002842', 'epoch': '1.056'}
|
||||
{'loss': '0.4279', 'grad_norm': '101.2', 'learning_rate': '0.0002834', 'epoch': '1.111'}
|
||||
{'loss': '0.4098', 'grad_norm': '31.89', 'learning_rate': '0.0002826', 'epoch': '1.167'}
|
||||
{'loss': '0.4387', 'grad_norm': '46.5', 'learning_rate': '0.0002817', 'epoch': '1.222'}
|
||||
{'loss': '0.4289', 'grad_norm': '166.7', 'learning_rate': '0.0002809', 'epoch': '1.278'}
|
||||
{'loss': '0.4625', 'grad_norm': '52.09', 'learning_rate': '0.0002801', 'epoch': '1.333'}
|
||||
{'loss': '0.4373', 'grad_norm': '120.8', 'learning_rate': '0.0002792', 'epoch': '1.389'}
|
||||
{'loss': '0.4322', 'grad_norm': '433.9', 'learning_rate': '0.0002784', 'epoch': '1.444'}
|
||||
{'loss': '0.4293', 'grad_norm': '82.03', 'learning_rate': '0.0002776', 'epoch': '1.5'}
|
||||
{'loss': '0.4218', 'grad_norm': '102.6', 'learning_rate': '0.0002767', 'epoch': '1.556'}
|
||||
{'loss': '0.4113', 'grad_norm': '55.52', 'learning_rate': '0.0002759', 'epoch': '1.611'}
|
||||
{'loss': '0.4283', 'grad_norm': '62.15', 'learning_rate': '0.0002751', 'epoch': '1.667'}
|
||||
{'loss': '0.4203', 'grad_norm': '131.4', 'learning_rate': '0.0002742', 'epoch': '1.722'}
|
||||
{'loss': '0.4139', 'grad_norm': '111.7', 'learning_rate': '0.0002734', 'epoch': '1.778'}
|
||||
{'loss': '0.4165', 'grad_norm': '30.79', 'learning_rate': '0.0002726', 'epoch': '1.833'}
|
||||
{'loss': '0.4187', 'grad_norm': '83.58', 'learning_rate': '0.0002717', 'epoch': '1.889'}
|
||||
{'loss': '0.4115', 'grad_norm': '68.28', 'learning_rate': '0.0002709', 'epoch': '1.944'}
|
||||
{'loss': '0.4194', 'grad_norm': '35.55', 'learning_rate': '0.0002701', 'epoch': '2'}
|
||||
{'eval_loss': '0.1012', 'eval_accuracy': '0.3014', 'eval_f1_macro': '0.2297', 'eval_runtime': '66.11', 'eval_samples_per_second': '3.313', 'eval_steps_per_second': '0.424', 'epoch': '2'}
|
||||
{'loss': '0.4339', 'grad_norm': '16.67', 'learning_rate': '0.0002692', 'epoch': '2.056'}
|
||||
{'loss': '0.4157', 'grad_norm': '22.26', 'learning_rate': '0.0002684', 'epoch': '2.111'}
|
||||
{'loss': '0.4532', 'grad_norm': '12.54', 'learning_rate': '0.0002676', 'epoch': '2.167'}
|
||||
{'loss': '0.4235', 'grad_norm': '35.55', 'learning_rate': '0.0002667', 'epoch': '2.222'}
|
||||
{'loss': '0.4243', 'grad_norm': '21.34', 'learning_rate': '0.0002659', 'epoch': '2.278'}
|
||||
{'loss': '0.4247', 'grad_norm': '62.95', 'learning_rate': '0.0002651', 'epoch': '2.333'}
|
||||
{'loss': '0.4187', 'grad_norm': '17.24', 'learning_rate': '0.0002642', 'epoch': '2.389'}
|
||||
{'loss': '0.4082', 'grad_norm': '39.54', 'learning_rate': '0.0002634', 'epoch': '2.444'}
|
||||
{'loss': '0.4198', 'grad_norm': '35.25', 'learning_rate': '0.0002626', 'epoch': '2.5'}
|
||||
{'loss': '0.4153', 'grad_norm': '122.6', 'learning_rate': '0.0002617', 'epoch': '2.556'}
|
||||
{'loss': '0.4176', 'grad_norm': '17.69', 'learning_rate': '0.0002609', 'epoch': '2.611'}
|
||||
{'loss': '0.4064', 'grad_norm': '19.56', 'learning_rate': '0.0002601', 'epoch': '2.667'}
|
||||
{'loss': '0.4194', 'grad_norm': '103.3', 'learning_rate': '0.0002592', 'epoch': '2.722'}
|
||||
{'loss': '0.4155', 'grad_norm': '58.62', 'learning_rate': '0.0002584', 'epoch': '2.778'}
|
||||
{'loss': '0.4105', 'grad_norm': '20.83', 'learning_rate': '0.0002576', 'epoch': '2.833'}
|
||||
{'loss': '0.4139', 'grad_norm': '85.4', 'learning_rate': '0.0002567', 'epoch': '2.889'}
|
||||
{'loss': '0.411', 'grad_norm': '92.04', 'learning_rate': '0.0002559', 'epoch': '2.944'}
|
||||
{'loss': '0.4344', 'grad_norm': '533.7', 'learning_rate': '0.0002551', 'epoch': '3'}
|
||||
{'eval_loss': '0.1006', 'eval_accuracy': '0.3151', 'eval_f1_macro': '0.2072', 'eval_runtime': '66.31', 'eval_samples_per_second': '3.303', 'eval_steps_per_second': '0.422', 'epoch': '3'}
|
||||
{'loss': '0.4114', 'grad_norm': '78.27', 'learning_rate': '0.0002542', 'epoch': '3.056'}
|
||||
{'loss': '0.4175', 'grad_norm': '123', 'learning_rate': '0.0002534', 'epoch': '3.111'}
|
||||
{'loss': '0.4136', 'grad_norm': '922.3', 'learning_rate': '0.0002526', 'epoch': '3.167'}
|
||||
{'loss': '0.4055', 'grad_norm': '101.1', 'learning_rate': '0.0002517', 'epoch': '3.222'}
|
||||
{'loss': '0.4084', 'grad_norm': '147.2', 'learning_rate': '0.0002509', 'epoch': '3.278'}
|
||||
{'loss': '0.4076', 'grad_norm': '110.8', 'learning_rate': '0.0002501', 'epoch': '3.333'}
|
||||
{'loss': '0.3936', 'grad_norm': '431', 'learning_rate': '0.0002492', 'epoch': '3.389'}
|
||||
{'loss': '0.4118', 'grad_norm': '129.1', 'learning_rate': '0.0002484', 'epoch': '3.444'}
|
||||
{'loss': '0.4223', 'grad_norm': '37.17', 'learning_rate': '0.0002476', 'epoch': '3.5'}
|
||||
{'loss': '0.42', 'grad_norm': '31.41', 'learning_rate': '0.0002468', 'epoch': '3.556'}
|
||||
{'loss': '0.4275', 'grad_norm': '33.66', 'learning_rate': '0.0002459', 'epoch': '3.611'}
|
||||
{'loss': '0.4111', 'grad_norm': '60.32', 'learning_rate': '0.0002451', 'epoch': '3.667'}
|
||||
{'loss': '0.4101', 'grad_norm': '286.2', 'learning_rate': '0.0002443', 'epoch': '3.722'}
|
||||
{'loss': '0.4168', 'grad_norm': '64.4', 'learning_rate': '0.0002434', 'epoch': '3.778'}
|
||||
{'loss': '0.403', 'grad_norm': '61.76', 'learning_rate': '0.0002426', 'epoch': '3.833'}
|
||||
{'loss': '0.4106', 'grad_norm': '123.2', 'learning_rate': '0.0002417', 'epoch': '3.889'}
|
||||
{'loss': '0.4207', 'grad_norm': '226.2', 'learning_rate': '0.0002409', 'epoch': '3.944'}
|
||||
{'loss': '0.406', 'grad_norm': '95.46', 'learning_rate': '0.0002401', 'epoch': '4'}
|
||||
{'eval_loss': '0.1008', 'eval_accuracy': '0.3425', 'eval_f1_macro': '0.3014', 'eval_runtime': '67.91', 'eval_samples_per_second': '3.225', 'eval_steps_per_second': '0.412', 'epoch': '4'}
|
||||
{'loss': '0.4103', 'grad_norm': '91.96', 'learning_rate': '0.0002392', 'epoch': '4.056'}
|
||||
{'loss': '0.4149', 'grad_norm': '80.87', 'learning_rate': '0.0002384', 'epoch': '4.111'}
|
||||
{'loss': '0.4118', 'grad_norm': '45.06', 'learning_rate': '0.0002376', 'epoch': '4.167'}
|
||||
{'loss': '0.4192', 'grad_norm': '245.2', 'learning_rate': '0.0002367', 'epoch': '4.222'}
|
||||
{'loss': '0.3978', 'grad_norm': '100.5', 'learning_rate': '0.0002359', 'epoch': '4.278'}
|
||||
{'loss': '0.3969', 'grad_norm': '62.08', 'learning_rate': '0.0002351', 'epoch': '4.333'}
|
||||
{'loss': '0.4174', 'grad_norm': '37.23', 'learning_rate': '0.0002343', 'epoch': '4.389'}
|
||||
{'loss': '0.4199', 'grad_norm': '56.3', 'learning_rate': '0.0002334', 'epoch': '4.444'}
|
||||
{'loss': '0.4092', 'grad_norm': '38.33', 'learning_rate': '0.0002326', 'epoch': '4.5'}
|
||||
{'loss': '0.4203', 'grad_norm': '234.5', 'learning_rate': '0.0002317', 'epoch': '4.556'}
|
||||
{'loss': '0.4144', 'grad_norm': '173.2', 'learning_rate': '0.0002309', 'epoch': '4.611'}
|
||||
{'loss': '0.4104', 'grad_norm': '863.3', 'learning_rate': '0.0002301', 'epoch': '4.667'}
|
||||
{'loss': '0.4157', 'grad_norm': '134.3', 'learning_rate': '0.0002292', 'epoch': '4.722'}
|
||||
{'loss': '0.4163', 'grad_norm': '366.6', 'learning_rate': '0.0002284', 'epoch': '4.778'}
|
||||
{'loss': '0.3967', 'grad_norm': '65.24', 'learning_rate': '0.0002276', 'epoch': '4.833'}
|
||||
{'loss': '0.424', 'grad_norm': '66.93', 'learning_rate': '0.0002267', 'epoch': '4.889'}
|
||||
{'loss': '0.4062', 'grad_norm': '276', 'learning_rate': '0.0002259', 'epoch': '4.944'}
|
||||
{'loss': '0.4067', 'grad_norm': '103.1', 'learning_rate': '0.0002251', 'epoch': '5'}
|
||||
{'eval_loss': '0.1007', 'eval_accuracy': '0.3105', 'eval_f1_macro': '0.2474', 'eval_runtime': '65.58', 'eval_samples_per_second': '3.339', 'eval_steps_per_second': '0.427', 'epoch': '5'}
|
||||
{'loss': '0.4044', 'grad_norm': '179', 'learning_rate': '0.0002243', 'epoch': '5.056'}
|
||||
{'loss': '0.4011', 'grad_norm': '67', 'learning_rate': '0.0002234', 'epoch': '5.111'}
|
||||
{'loss': '0.4129', 'grad_norm': '130.2', 'learning_rate': '0.0002226', 'epoch': '5.167'}
|
||||
{'loss': '0.4079', 'grad_norm': '35.83', 'learning_rate': '0.0002217', 'epoch': '5.222'}
|
||||
{'loss': '0.4137', 'grad_norm': '24.63', 'learning_rate': '0.0002209', 'epoch': '5.278'}
|
||||
{'loss': '0.4126', 'grad_norm': '50.54', 'learning_rate': '0.0002201', 'epoch': '5.333'}
|
||||
{'loss': '0.4123', 'grad_norm': '52.41', 'learning_rate': '0.0002192', 'epoch': '5.389'}
|
||||
{'loss': '0.4221', 'grad_norm': '170.3', 'learning_rate': '0.0002184', 'epoch': '5.444'}
|
||||
{'loss': '0.4068', 'grad_norm': '287.1', 'learning_rate': '0.0002176', 'epoch': '5.5'}
|
||||
{'loss': '0.4096', 'grad_norm': '31.48', 'learning_rate': '0.0002167', 'epoch': '5.556'}
|
||||
{'loss': '0.4026', 'grad_norm': '52.11', 'learning_rate': '0.0002159', 'epoch': '5.611'}
|
||||
{'loss': '0.4181', 'grad_norm': '29.5', 'learning_rate': '0.0002151', 'epoch': '5.667'}
|
||||
{'loss': '0.4102', 'grad_norm': '101.8', 'learning_rate': '0.0002142', 'epoch': '5.722'}
|
||||
{'loss': '0.408', 'grad_norm': '36.18', 'learning_rate': '0.0002134', 'epoch': '5.778'}
|
||||
{'loss': '0.4096', 'grad_norm': '27.68', 'learning_rate': '0.0002126', 'epoch': '5.833'}
|
||||
{'loss': '0.4192', 'grad_norm': '271.1', 'learning_rate': '0.0002117', 'epoch': '5.889'}
|
||||
{'loss': '0.4076', 'grad_norm': '63.8', 'learning_rate': '0.0002109', 'epoch': '5.944'}
|
||||
{'loss': '0.4198', 'grad_norm': '34.42', 'learning_rate': '0.0002101', 'epoch': '6'}
|
||||
{'eval_loss': '0.1004', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1744', 'eval_runtime': '65.39', 'eval_samples_per_second': '3.349', 'eval_steps_per_second': '0.428', 'epoch': '6'}
|
||||
{'loss': '0.4138', 'grad_norm': '91.28', 'learning_rate': '0.0002092', 'epoch': '6.056'}
|
||||
{'loss': '0.4224', 'grad_norm': '91.96', 'learning_rate': '0.0002084', 'epoch': '6.111'}
|
||||
{'loss': '0.4095', 'grad_norm': '45.7', 'learning_rate': '0.0002076', 'epoch': '6.167'}
|
||||
{'loss': '0.4228', 'grad_norm': '1074', 'learning_rate': '0.0002067', 'epoch': '6.222'}
|
||||
{'loss': '0.4123', 'grad_norm': '194.2', 'learning_rate': '0.0002059', 'epoch': '6.278'}
|
||||
{'loss': '0.4059', 'grad_norm': '17.51', 'learning_rate': '0.0002051', 'epoch': '6.333'}
|
||||
{'loss': '0.412', 'grad_norm': '16.6', 'learning_rate': '0.0002042', 'epoch': '6.389'}
|
||||
{'loss': '0.4021', 'grad_norm': '28.19', 'learning_rate': '0.0002034', 'epoch': '6.444'}
|
||||
{'loss': '0.4105', 'grad_norm': '184.6', 'learning_rate': '0.0002026', 'epoch': '6.5'}
|
||||
{'loss': '0.4099', 'grad_norm': '53.71', 'learning_rate': '0.0002017', 'epoch': '6.556'}
|
||||
{'loss': '0.4152', 'grad_norm': '130.6', 'learning_rate': '0.0002009', 'epoch': '6.611'}
|
||||
{'loss': '0.4114', 'grad_norm': '48.4', 'learning_rate': '0.0002001', 'epoch': '6.667'}
|
||||
{'loss': '0.4116', 'grad_norm': '31.63', 'learning_rate': '0.0001992', 'epoch': '6.722'}
|
||||
{'loss': '0.4179', 'grad_norm': '64.32', 'learning_rate': '0.0001984', 'epoch': '6.778'}
|
||||
{'loss': '0.4109', 'grad_norm': '45.12', 'learning_rate': '0.0001976', 'epoch': '6.833'}
|
||||
{'loss': '0.4196', 'grad_norm': '224.8', 'learning_rate': '0.0001967', 'epoch': '6.889'}
|
||||
{'loss': '0.4073', 'grad_norm': '82.61', 'learning_rate': '0.0001959', 'epoch': '6.944'}
|
||||
{'loss': '0.4035', 'grad_norm': '58.54', 'learning_rate': '0.0001951', 'epoch': '7'}
|
||||
{'eval_loss': '0.1015', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1667', 'eval_runtime': '65.58', 'eval_samples_per_second': '3.34', 'eval_steps_per_second': '0.427', 'epoch': '7'}
|
||||
{'loss': '0.4047', 'grad_norm': '278.9', 'learning_rate': '0.0001942', 'epoch': '7.056'}
|
||||
{'loss': '0.414', 'grad_norm': '507.7', 'learning_rate': '0.0001934', 'epoch': '7.111'}
|
||||
{'loss': '0.4044', 'grad_norm': '425.9', 'learning_rate': '0.0001926', 'epoch': '7.167'}
|
||||
{'loss': '0.412', 'grad_norm': '101.5', 'learning_rate': '0.0001917', 'epoch': '7.222'}
|
||||
{'loss': '0.4019', 'grad_norm': '99.56', 'learning_rate': '0.0001909', 'epoch': '7.278'}
|
||||
{'loss': '0.4158', 'grad_norm': '34.15', 'learning_rate': '0.0001901', 'epoch': '7.333'}
|
||||
{'loss': '0.4121', 'grad_norm': '125.1', 'learning_rate': '0.0001892', 'epoch': '7.389'}
|
||||
{'loss': '0.4076', 'grad_norm': '96.14', 'learning_rate': '0.0001884', 'epoch': '7.444'}
|
||||
{'loss': '0.4174', 'grad_norm': '53.44', 'learning_rate': '0.0001876', 'epoch': '7.5'}
|
||||
{'loss': '0.4054', 'grad_norm': '32.7', 'learning_rate': '0.0001868', 'epoch': '7.556'}
|
||||
{'loss': '0.404', 'grad_norm': '63.24', 'learning_rate': '0.0001859', 'epoch': '7.611'}
|
||||
{'loss': '0.4132', 'grad_norm': '104', 'learning_rate': '0.0001851', 'epoch': '7.667'}
|
||||
{'loss': '0.4009', 'grad_norm': '89.86', 'learning_rate': '0.0001842', 'epoch': '7.722'}
|
||||
{'loss': '0.4071', 'grad_norm': '70.11', 'learning_rate': '0.0001834', 'epoch': '7.778'}
|
||||
{'loss': '0.4116', 'grad_norm': '36.62', 'learning_rate': '0.0001826', 'epoch': '7.833'}
|
||||
{'loss': '0.408', 'grad_norm': '291.6', 'learning_rate': '0.0001817', 'epoch': '7.889'}
|
||||
{'loss': '0.4101', 'grad_norm': '59.4', 'learning_rate': '0.0001809', 'epoch': '7.944'}
|
||||
{'loss': '0.4098', 'grad_norm': '152.1', 'learning_rate': '0.0001801', 'epoch': '8'}
|
||||
{'eval_loss': '0.1004', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1753', 'eval_runtime': '66.68', 'eval_samples_per_second': '3.284', 'eval_steps_per_second': '0.42', 'epoch': '8'}
|
||||
{'loss': '0.4135', 'grad_norm': '36.38', 'learning_rate': '0.0001792', 'epoch': '8.056'}
|
||||
{'loss': '0.401', 'grad_norm': '288', 'learning_rate': '0.0001784', 'epoch': '8.111'}
|
||||
{'loss': '0.4063', 'grad_norm': '52.41', 'learning_rate': '0.0001776', 'epoch': '8.167'}
|
||||
{'loss': '0.4046', 'grad_norm': '19.2', 'learning_rate': '0.0001767', 'epoch': '8.222'}
|
||||
{'loss': '0.4081', 'grad_norm': '36.77', 'learning_rate': '0.0001759', 'epoch': '8.278'}
|
||||
{'loss': '0.4028', 'grad_norm': '130.7', 'learning_rate': '0.0001751', 'epoch': '8.333'}
|
||||
{'loss': '0.4124', 'grad_norm': '71.84', 'learning_rate': '0.0001742', 'epoch': '8.389'}
|
||||
{'loss': '0.4017', 'grad_norm': '64.63', 'learning_rate': '0.0001734', 'epoch': '8.444'}
|
||||
{'loss': '0.4161', 'grad_norm': '112.4', 'learning_rate': '0.0001726', 'epoch': '8.5'}
|
||||
{'loss': '0.405', 'grad_norm': '82.75', 'learning_rate': '0.0001718', 'epoch': '8.556'}
|
||||
{'loss': '0.4001', 'grad_norm': '78.48', 'learning_rate': '0.0001709', 'epoch': '8.611'}
|
||||
{'loss': '0.4117', 'grad_norm': '65.27', 'learning_rate': '0.0001701', 'epoch': '8.667'}
|
||||
{'loss': '0.4068', 'grad_norm': '62.38', 'learning_rate': '0.0001692', 'epoch': '8.722'}
|
||||
{'loss': '0.4089', 'grad_norm': '141.5', 'learning_rate': '0.0001684', 'epoch': '8.778'}
|
||||
{'loss': '0.4043', 'grad_norm': '186.9', 'learning_rate': '0.0001676', 'epoch': '8.833'}
|
||||
{'loss': '0.414', 'grad_norm': '42.31', 'learning_rate': '0.0001667', 'epoch': '8.889'}
|
||||
{'loss': '0.4125', 'grad_norm': '34.83', 'learning_rate': '0.0001659', 'epoch': '8.944'}
|
||||
{'loss': '0.4094', 'grad_norm': '104.9', 'learning_rate': '0.0001651', 'epoch': '9'}
|
||||
{'eval_loss': '0.1022', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1667', 'eval_runtime': '65.64', 'eval_samples_per_second': '3.336', 'eval_steps_per_second': '0.427', 'epoch': '9'}
|
||||
{'train_runtime': '6517', 'train_samples_per_second': '17.67', 'train_steps_per_second': '0.552', 'train_loss': '0.5254', 'epoch': '9'}
|
||||
Training complete! Model saved to ./byt5-taglish-nli-final
|
||||
+1030
File diff suppressed because one or more lines are too long
@@ -0,0 +1,578 @@
|
||||
Using GPU: Tesla V100-SXM2-32GB
|
||||
Loading training data from new_dataset.csv...
|
||||
Loading benchmark data from benchmark_dataset.csv...
|
||||
Loading tokenizer and model from local path: ./byt5_local_weights...
|
||||
Tokenizing datasets...
|
||||
Starting training...
|
||||
{'loss': '21.59', 'grad_norm': '697.3', 'learning_rate': '9.983e-05', 'epoch': '0.05556'}
|
||||
{'loss': '10.54', 'grad_norm': '388.3', 'learning_rate': '9.965e-05', 'epoch': '0.1111'}
|
||||
{'loss': '3.827', 'grad_norm': '107.8', 'learning_rate': '9.946e-05', 'epoch': '0.1667'}
|
||||
{'loss': '1.343', 'grad_norm': '142.4', 'learning_rate': '9.928e-05', 'epoch': '0.2222'}
|
||||
{'loss': '0.9092', 'grad_norm': '67.34', 'learning_rate': '9.909e-05', 'epoch': '0.2778'}
|
||||
{'loss': '0.6402', 'grad_norm': '43.42', 'learning_rate': '9.891e-05', 'epoch': '0.3333'}
|
||||
{'loss': '0.7005', 'grad_norm': '87.02', 'learning_rate': '9.872e-05', 'epoch': '0.3889'}
|
||||
{'loss': '0.5286', 'grad_norm': '31.92', 'learning_rate': '9.854e-05', 'epoch': '0.4444'}
|
||||
{'loss': '0.5145', 'grad_norm': '28.24', 'learning_rate': '9.835e-05', 'epoch': '0.5'}
|
||||
{'loss': '0.5281', 'grad_norm': '8.394', 'learning_rate': '9.817e-05', 'epoch': '0.5556'}
|
||||
{'loss': '0.495', 'grad_norm': '9.976', 'learning_rate': '9.798e-05', 'epoch': '0.6111'}
|
||||
{'loss': '0.4585', 'grad_norm': '24.5', 'learning_rate': '9.78e-05', 'epoch': '0.6667'}
|
||||
{'loss': '0.4811', 'grad_norm': '11.47', 'learning_rate': '9.761e-05', 'epoch': '0.7222'}
|
||||
{'loss': '0.4551', 'grad_norm': '11.06', 'learning_rate': '9.743e-05', 'epoch': '0.7778'}
|
||||
{'loss': '0.479', 'grad_norm': '22.05', 'learning_rate': '9.724e-05', 'epoch': '0.8333'}
|
||||
{'loss': '0.4875', 'grad_norm': '17.25', 'learning_rate': '9.706e-05', 'epoch': '0.8889'}
|
||||
{'loss': '0.4354', 'grad_norm': '10.06', 'learning_rate': '9.687e-05', 'epoch': '0.9444'}
|
||||
{'loss': '0.4449', 'grad_norm': '10.03', 'learning_rate': '9.669e-05', 'epoch': '1'}
|
||||
{'eval_loss': '0.1003', 'eval_accuracy': '0.3562', 'eval_f1_macro': '0.2862', 'eval_runtime': '90.81', 'eval_samples_per_second': '2.412', 'eval_steps_per_second': '0.308', 'epoch': '1'}
|
||||
{'loss': '0.4266', 'grad_norm': '36.53', 'learning_rate': '9.65e-05', 'epoch': '1.056'}
|
||||
{'loss': '0.4305', 'grad_norm': '16.46', 'learning_rate': '9.631e-05', 'epoch': '1.111'}
|
||||
{'loss': '0.4334', 'grad_norm': '75.33', 'learning_rate': '9.613e-05', 'epoch': '1.167'}
|
||||
{'loss': '0.4294', 'grad_norm': '26.73', 'learning_rate': '9.594e-05', 'epoch': '1.222'}
|
||||
{'loss': '0.4145', 'grad_norm': '24.57', 'learning_rate': '9.576e-05', 'epoch': '1.278'}
|
||||
{'loss': '0.4209', 'grad_norm': '29.89', 'learning_rate': '9.557e-05', 'epoch': '1.333'}
|
||||
{'loss': '0.4397', 'grad_norm': '14.21', 'learning_rate': '9.539e-05', 'epoch': '1.389'}
|
||||
{'loss': '0.4194', 'grad_norm': '26.61', 'learning_rate': '9.52e-05', 'epoch': '1.444'}
|
||||
{'loss': '0.4129', 'grad_norm': '52.81', 'learning_rate': '9.502e-05', 'epoch': '1.5'}
|
||||
{'loss': '0.4135', 'grad_norm': '38.07', 'learning_rate': '9.483e-05', 'epoch': '1.556'}
|
||||
{'loss': '0.4212', 'grad_norm': '40.99', 'learning_rate': '9.465e-05', 'epoch': '1.611'}
|
||||
{'loss': '0.4245', 'grad_norm': '53.28', 'learning_rate': '9.446e-05', 'epoch': '1.667'}
|
||||
{'loss': '0.4115', 'grad_norm': '114.2', 'learning_rate': '9.428e-05', 'epoch': '1.722'}
|
||||
{'loss': '0.4246', 'grad_norm': '833.3', 'learning_rate': '9.409e-05', 'epoch': '1.778'}
|
||||
{'loss': '0.4173', 'grad_norm': '32.88', 'learning_rate': '9.391e-05', 'epoch': '1.833'}
|
||||
{'loss': '0.4149', 'grad_norm': '72.07', 'learning_rate': '9.372e-05', 'epoch': '1.889'}
|
||||
{'loss': '0.4141', 'grad_norm': '121.2', 'learning_rate': '9.354e-05', 'epoch': '1.944'}
|
||||
{'loss': '0.3998', 'grad_norm': '39.45', 'learning_rate': '9.335e-05', 'epoch': '2'}
|
||||
{'eval_loss': '0.09719', 'eval_accuracy': '0.4475', 'eval_f1_macro': '0.381', 'eval_runtime': '91.23', 'eval_samples_per_second': '2.4', 'eval_steps_per_second': '0.307', 'epoch': '2'}
|
||||
{'loss': '0.4132', 'grad_norm': '46.63', 'learning_rate': '9.317e-05', 'epoch': '2.056'}
|
||||
{'loss': '0.4134', 'grad_norm': '68.55', 'learning_rate': '9.298e-05', 'epoch': '2.111'}
|
||||
{'loss': '0.4064', 'grad_norm': '23.98', 'learning_rate': '9.28e-05', 'epoch': '2.167'}
|
||||
{'loss': '0.4006', 'grad_norm': '122.2', 'learning_rate': '9.261e-05', 'epoch': '2.222'}
|
||||
{'loss': '0.4124', 'grad_norm': '94.57', 'learning_rate': '9.243e-05', 'epoch': '2.278'}
|
||||
{'loss': '0.4125', 'grad_norm': '74.04', 'learning_rate': '9.224e-05', 'epoch': '2.333'}
|
||||
{'loss': '0.4074', 'grad_norm': '70.69', 'learning_rate': '9.206e-05', 'epoch': '2.389'}
|
||||
{'loss': '0.412', 'grad_norm': '65.61', 'learning_rate': '9.187e-05', 'epoch': '2.444'}
|
||||
{'loss': '0.4223', 'grad_norm': '23.39', 'learning_rate': '9.169e-05', 'epoch': '2.5'}
|
||||
{'loss': '0.4258', 'grad_norm': '20.46', 'learning_rate': '9.15e-05', 'epoch': '2.556'}
|
||||
{'loss': '0.4133', 'grad_norm': '72.88', 'learning_rate': '9.131e-05', 'epoch': '2.611'}
|
||||
{'loss': '0.408', 'grad_norm': '60', 'learning_rate': '9.113e-05', 'epoch': '2.667'}
|
||||
{'loss': '0.424', 'grad_norm': '30.8', 'learning_rate': '9.094e-05', 'epoch': '2.722'}
|
||||
{'loss': '0.3908', 'grad_norm': '35.06', 'learning_rate': '9.076e-05', 'epoch': '2.778'}
|
||||
{'loss': '0.4053', 'grad_norm': '29.34', 'learning_rate': '9.057e-05', 'epoch': '2.833'}
|
||||
{'loss': '0.396', 'grad_norm': '31.58', 'learning_rate': '9.039e-05', 'epoch': '2.889'}
|
||||
{'loss': '0.4059', 'grad_norm': '153.2', 'learning_rate': '9.02e-05', 'epoch': '2.944'}
|
||||
{'loss': '0.4011', 'grad_norm': '51.5', 'learning_rate': '9.002e-05', 'epoch': '3'}
|
||||
{'eval_loss': '0.1003', 'eval_accuracy': '0.4338', 'eval_f1_macro': '0.3456', 'eval_runtime': '93.96', 'eval_samples_per_second': '2.331', 'eval_steps_per_second': '0.298', 'epoch': '3'}
|
||||
{'loss': '0.411', 'grad_norm': '30.21', 'learning_rate': '8.983e-05', 'epoch': '3.056'}
|
||||
{'loss': '0.381', 'grad_norm': '53.75', 'learning_rate': '8.965e-05', 'epoch': '3.111'}
|
||||
{'loss': '0.413', 'grad_norm': '34.22', 'learning_rate': '8.946e-05', 'epoch': '3.167'}
|
||||
{'loss': '0.3982', 'grad_norm': '32.69', 'learning_rate': '8.928e-05', 'epoch': '3.222'}
|
||||
{'loss': '0.4036', 'grad_norm': '14.11', 'learning_rate': '8.909e-05', 'epoch': '3.278'}
|
||||
{'loss': '0.4087', 'grad_norm': '26.49', 'learning_rate': '8.891e-05', 'epoch': '3.333'}
|
||||
{'loss': '0.3727', 'grad_norm': '15.1', 'learning_rate': '8.872e-05', 'epoch': '3.389'}
|
||||
{'loss': '0.4184', 'grad_norm': '12.9', 'learning_rate': '8.854e-05', 'epoch': '3.444'}
|
||||
{'loss': '0.4186', 'grad_norm': '8.852', 'learning_rate': '8.835e-05', 'epoch': '3.5'}
|
||||
{'loss': '0.4113', 'grad_norm': '13.04', 'learning_rate': '8.817e-05', 'epoch': '3.556'}
|
||||
{'loss': '0.4069', 'grad_norm': '18.4', 'learning_rate': '8.798e-05', 'epoch': '3.611'}
|
||||
{'loss': '0.394', 'grad_norm': '14.43', 'learning_rate': '8.78e-05', 'epoch': '3.667'}
|
||||
{'loss': '0.3727', 'grad_norm': '18.54', 'learning_rate': '8.761e-05', 'epoch': '3.722'}
|
||||
{'loss': '0.418', 'grad_norm': '35.77', 'learning_rate': '8.743e-05', 'epoch': '3.778'}
|
||||
{'loss': '0.4127', 'grad_norm': '7.12', 'learning_rate': '8.724e-05', 'epoch': '3.833'}
|
||||
{'loss': '0.408', 'grad_norm': '10.72', 'learning_rate': '8.706e-05', 'epoch': '3.889'}
|
||||
{'loss': '0.3888', 'grad_norm': '54.96', 'learning_rate': '8.687e-05', 'epoch': '3.944'}
|
||||
{'loss': '0.405', 'grad_norm': '17.72', 'learning_rate': '8.669e-05', 'epoch': '4'}
|
||||
{'eval_loss': '0.09494', 'eval_accuracy': '0.4658', 'eval_f1_macro': '0.4063', 'eval_runtime': '92.71', 'eval_samples_per_second': '2.362', 'eval_steps_per_second': '0.302', 'epoch': '4'}
|
||||
{'loss': '0.375', 'grad_norm': '44.38', 'learning_rate': '8.65e-05', 'epoch': '4.056'}
|
||||
{'loss': '0.3966', 'grad_norm': '33.08', 'learning_rate': '8.631e-05', 'epoch': '4.111'}
|
||||
{'loss': '0.3713', 'grad_norm': '19.92', 'learning_rate': '8.613e-05', 'epoch': '4.167'}
|
||||
{'loss': '0.4002', 'grad_norm': '62.51', 'learning_rate': '8.594e-05', 'epoch': '4.222'}
|
||||
{'loss': '0.3965', 'grad_norm': '52.26', 'learning_rate': '8.576e-05', 'epoch': '4.278'}
|
||||
{'loss': '0.362', 'grad_norm': '30.78', 'learning_rate': '8.557e-05', 'epoch': '4.333'}
|
||||
{'loss': '0.4028', 'grad_norm': '53.73', 'learning_rate': '8.539e-05', 'epoch': '4.389'}
|
||||
{'loss': '0.3903', 'grad_norm': '676.3', 'learning_rate': '8.52e-05', 'epoch': '4.444'}
|
||||
{'loss': '0.3651', 'grad_norm': '67.86', 'learning_rate': '8.502e-05', 'epoch': '4.5'}
|
||||
{'loss': '0.3887', 'grad_norm': '45.64', 'learning_rate': '8.483e-05', 'epoch': '4.556'}
|
||||
{'loss': '0.3974', 'grad_norm': '49.22', 'learning_rate': '8.465e-05', 'epoch': '4.611'}
|
||||
{'loss': '0.3836', 'grad_norm': '39.57', 'learning_rate': '8.446e-05', 'epoch': '4.667'}
|
||||
{'loss': '0.3799', 'grad_norm': '69.29', 'learning_rate': '8.428e-05', 'epoch': '4.722'}
|
||||
{'loss': '0.3952', 'grad_norm': '31.08', 'learning_rate': '8.409e-05', 'epoch': '4.778'}
|
||||
{'loss': '0.36', 'grad_norm': '42.42', 'learning_rate': '8.391e-05', 'epoch': '4.833'}
|
||||
{'loss': '0.3906', 'grad_norm': '21.42', 'learning_rate': '8.372e-05', 'epoch': '4.889'}
|
||||
{'loss': '0.3618', 'grad_norm': '24.08', 'learning_rate': '8.354e-05', 'epoch': '4.944'}
|
||||
{'loss': '0.3905', 'grad_norm': '42.22', 'learning_rate': '8.335e-05', 'epoch': '5'}
|
||||
{'eval_loss': '0.09095', 'eval_accuracy': '0.5662', 'eval_f1_macro': '0.5661', 'eval_runtime': '91.62', 'eval_samples_per_second': '2.39', 'eval_steps_per_second': '0.306', 'epoch': '5'}
|
||||
{'loss': '0.3611', 'grad_norm': '48.05', 'learning_rate': '8.317e-05', 'epoch': '5.056'}
|
||||
{'loss': '0.3585', 'grad_norm': '57.73', 'learning_rate': '8.298e-05', 'epoch': '5.111'}
|
||||
{'loss': '0.3686', 'grad_norm': '20.26', 'learning_rate': '8.28e-05', 'epoch': '5.167'}
|
||||
{'loss': '0.3661', 'grad_norm': '33.47', 'learning_rate': '8.261e-05', 'epoch': '5.222'}
|
||||
{'loss': '0.3863', 'grad_norm': '28.25', 'learning_rate': '8.243e-05', 'epoch': '5.278'}
|
||||
{'loss': '0.3648', 'grad_norm': '23.81', 'learning_rate': '8.224e-05', 'epoch': '5.333'}
|
||||
{'loss': '0.3777', 'grad_norm': '64.03', 'learning_rate': '8.206e-05', 'epoch': '5.389'}
|
||||
{'loss': '0.3617', 'grad_norm': '28.85', 'learning_rate': '8.187e-05', 'epoch': '5.444'}
|
||||
{'loss': '0.385', 'grad_norm': '21.78', 'learning_rate': '8.169e-05', 'epoch': '5.5'}
|
||||
{'loss': '0.3591', 'grad_norm': '32.07', 'learning_rate': '8.15e-05', 'epoch': '5.556'}
|
||||
{'loss': '0.3605', 'grad_norm': '18.34', 'learning_rate': '8.131e-05', 'epoch': '5.611'}
|
||||
{'loss': '0.3525', 'grad_norm': '29.55', 'learning_rate': '8.113e-05', 'epoch': '5.667'}
|
||||
{'loss': '0.3546', 'grad_norm': '21.59', 'learning_rate': '8.094e-05', 'epoch': '5.722'}
|
||||
{'loss': '0.3485', 'grad_norm': '11.08', 'learning_rate': '8.076e-05', 'epoch': '5.778'}
|
||||
{'loss': '0.3565', 'grad_norm': '36.89', 'learning_rate': '8.057e-05', 'epoch': '5.833'}
|
||||
{'loss': '0.3724', 'grad_norm': '17.3', 'learning_rate': '8.039e-05', 'epoch': '5.889'}
|
||||
{'loss': '0.3507', 'grad_norm': '104', 'learning_rate': '8.02e-05', 'epoch': '5.944'}
|
||||
{'loss': '0.3809', 'grad_norm': '22.81', 'learning_rate': '8.002e-05', 'epoch': '6'}
|
||||
{'eval_loss': '0.09457', 'eval_accuracy': '0.5068', 'eval_f1_macro': '0.4995', 'eval_runtime': '91.55', 'eval_samples_per_second': '2.392', 'eval_steps_per_second': '0.306', 'epoch': '6'}
|
||||
{'loss': '0.3612', 'grad_norm': '20.13', 'learning_rate': '7.983e-05', 'epoch': '6.056'}
|
||||
{'loss': '0.3639', 'grad_norm': '53.45', 'learning_rate': '7.965e-05', 'epoch': '6.111'}
|
||||
{'loss': '0.3474', 'grad_norm': '22.8', 'learning_rate': '7.946e-05', 'epoch': '6.167'}
|
||||
{'loss': '0.3507', 'grad_norm': '59.48', 'learning_rate': '7.928e-05', 'epoch': '6.222'}
|
||||
{'loss': '0.3532', 'grad_norm': '22.64', 'learning_rate': '7.909e-05', 'epoch': '6.278'}
|
||||
{'loss': '0.3415', 'grad_norm': '23.6', 'learning_rate': '7.891e-05', 'epoch': '6.333'}
|
||||
{'loss': '0.3315', 'grad_norm': '14.81', 'learning_rate': '7.872e-05', 'epoch': '6.389'}
|
||||
{'loss': '0.3593', 'grad_norm': '91.89', 'learning_rate': '7.854e-05', 'epoch': '6.444'}
|
||||
{'loss': '0.3666', 'grad_norm': '14.07', 'learning_rate': '7.835e-05', 'epoch': '6.5'}
|
||||
{'loss': '0.3337', 'grad_norm': '37.98', 'learning_rate': '7.817e-05', 'epoch': '6.556'}
|
||||
{'loss': '0.3593', 'grad_norm': '37.7', 'learning_rate': '7.798e-05', 'epoch': '6.611'}
|
||||
{'loss': '0.3436', 'grad_norm': '24.87', 'learning_rate': '7.78e-05', 'epoch': '6.667'}
|
||||
{'loss': '0.3602', 'grad_norm': '28.17', 'learning_rate': '7.761e-05', 'epoch': '6.722'}
|
||||
{'loss': '0.3525', 'grad_norm': '16.39', 'learning_rate': '7.743e-05', 'epoch': '6.778'}
|
||||
{'loss': '0.3463', 'grad_norm': '18.37', 'learning_rate': '7.724e-05', 'epoch': '6.833'}
|
||||
{'loss': '0.3694', 'grad_norm': '11.18', 'learning_rate': '7.706e-05', 'epoch': '6.889'}
|
||||
{'loss': '0.3557', 'grad_norm': '20.3', 'learning_rate': '7.687e-05', 'epoch': '6.944'}
|
||||
{'loss': '0.343', 'grad_norm': '8.745', 'learning_rate': '7.669e-05', 'epoch': '7'}
|
||||
{'eval_loss': '0.09066', 'eval_accuracy': '0.5479', 'eval_f1_macro': '0.5446', 'eval_runtime': '93.03', 'eval_samples_per_second': '2.354', 'eval_steps_per_second': '0.301', 'epoch': '7'}
|
||||
{'loss': '0.3401', 'grad_norm': '100.4', 'learning_rate': '7.65e-05', 'epoch': '7.056'}
|
||||
{'loss': '0.3473', 'grad_norm': '21.38', 'learning_rate': '7.631e-05', 'epoch': '7.111'}
|
||||
{'loss': '0.3248', 'grad_norm': '20.99', 'learning_rate': '7.613e-05', 'epoch': '7.167'}
|
||||
{'loss': '0.3577', 'grad_norm': '39.31', 'learning_rate': '7.594e-05', 'epoch': '7.222'}
|
||||
{'loss': '0.336', 'grad_norm': '13.24', 'learning_rate': '7.576e-05', 'epoch': '7.278'}
|
||||
{'loss': '0.3412', 'grad_norm': '12.83', 'learning_rate': '7.557e-05', 'epoch': '7.333'}
|
||||
{'loss': '0.3334', 'grad_norm': '21.08', 'learning_rate': '7.539e-05', 'epoch': '7.389'}
|
||||
{'loss': '0.3289', 'grad_norm': '24.74', 'learning_rate': '7.52e-05', 'epoch': '7.444'}
|
||||
{'loss': '0.3418', 'grad_norm': '10.1', 'learning_rate': '7.502e-05', 'epoch': '7.5'}
|
||||
{'loss': '0.3379', 'grad_norm': '77.94', 'learning_rate': '7.483e-05', 'epoch': '7.556'}
|
||||
{'loss': '0.3321', 'grad_norm': '22.82', 'learning_rate': '7.465e-05', 'epoch': '7.611'}
|
||||
{'loss': '0.3287', 'grad_norm': '32.86', 'learning_rate': '7.446e-05', 'epoch': '7.667'}
|
||||
{'loss': '0.3312', 'grad_norm': '20.47', 'learning_rate': '7.428e-05', 'epoch': '7.722'}
|
||||
{'loss': '0.35', 'grad_norm': '9.066', 'learning_rate': '7.409e-05', 'epoch': '7.778'}
|
||||
{'loss': '0.3287', 'grad_norm': '21.42', 'learning_rate': '7.391e-05', 'epoch': '7.833'}
|
||||
{'loss': '0.3162', 'grad_norm': '35.13', 'learning_rate': '7.372e-05', 'epoch': '7.889'}
|
||||
{'loss': '0.3646', 'grad_norm': '23.15', 'learning_rate': '7.354e-05', 'epoch': '7.944'}
|
||||
{'loss': '0.3252', 'grad_norm': '12.56', 'learning_rate': '7.335e-05', 'epoch': '8'}
|
||||
{'eval_loss': '0.08625', 'eval_accuracy': '0.5799', 'eval_f1_macro': '0.5744', 'eval_runtime': '92.5', 'eval_samples_per_second': '2.367', 'eval_steps_per_second': '0.303', 'epoch': '8'}
|
||||
{'loss': '0.3126', 'grad_norm': '20.5', 'learning_rate': '7.317e-05', 'epoch': '8.056'}
|
||||
{'loss': '0.329', 'grad_norm': '35.31', 'learning_rate': '7.298e-05', 'epoch': '8.111'}
|
||||
{'loss': '0.3126', 'grad_norm': '7.391', 'learning_rate': '7.28e-05', 'epoch': '8.167'}
|
||||
{'loss': '0.321', 'grad_norm': '18.18', 'learning_rate': '7.261e-05', 'epoch': '8.222'}
|
||||
{'loss': '0.3322', 'grad_norm': '8.814', 'learning_rate': '7.243e-05', 'epoch': '8.278'}
|
||||
{'loss': '0.3052', 'grad_norm': '8.685', 'learning_rate': '7.224e-05', 'epoch': '8.333'}
|
||||
{'loss': '0.3407', 'grad_norm': '10.95', 'learning_rate': '7.206e-05', 'epoch': '8.389'}
|
||||
{'loss': '0.2986', 'grad_norm': '61.29', 'learning_rate': '7.187e-05', 'epoch': '8.444'}
|
||||
{'loss': '0.3044', 'grad_norm': '16.39', 'learning_rate': '7.169e-05', 'epoch': '8.5'}
|
||||
{'loss': '0.2884', 'grad_norm': '31.17', 'learning_rate': '7.15e-05', 'epoch': '8.556'}
|
||||
{'loss': '0.3154', 'grad_norm': '15.03', 'learning_rate': '7.131e-05', 'epoch': '8.611'}
|
||||
{'loss': '0.319', 'grad_norm': '11.6', 'learning_rate': '7.113e-05', 'epoch': '8.667'}
|
||||
{'loss': '0.3021', 'grad_norm': '11.73', 'learning_rate': '7.094e-05', 'epoch': '8.722'}
|
||||
{'loss': '0.3198', 'grad_norm': '7.768', 'learning_rate': '7.076e-05', 'epoch': '8.778'}
|
||||
{'loss': '0.3339', 'grad_norm': '7.356', 'learning_rate': '7.057e-05', 'epoch': '8.833'}
|
||||
{'loss': '0.3301', 'grad_norm': '6.101', 'learning_rate': '7.039e-05', 'epoch': '8.889'}
|
||||
{'loss': '0.345', 'grad_norm': '7.068', 'learning_rate': '7.02e-05', 'epoch': '8.944'}
|
||||
{'loss': '0.3385', 'grad_norm': '5.234', 'learning_rate': '7.002e-05', 'epoch': '9'}
|
||||
{'eval_loss': '0.08377', 'eval_accuracy': '0.6073', 'eval_f1_macro': '0.612', 'eval_runtime': '92.55', 'eval_samples_per_second': '2.366', 'eval_steps_per_second': '0.303', 'epoch': '9'}
|
||||
{'loss': '0.2962', 'grad_norm': '8.288', 'learning_rate': '6.983e-05', 'epoch': '9.056'}
|
||||
{'loss': '0.3089', 'grad_norm': '14.63', 'learning_rate': '6.965e-05', 'epoch': '9.111'}
|
||||
{'loss': '0.3216', 'grad_norm': '8.713', 'learning_rate': '6.946e-05', 'epoch': '9.167'}
|
||||
{'loss': '0.3036', 'grad_norm': '28.04', 'learning_rate': '6.928e-05', 'epoch': '9.222'}
|
||||
{'loss': '0.3164', 'grad_norm': '17.45', 'learning_rate': '6.909e-05', 'epoch': '9.278'}
|
||||
{'loss': '0.3248', 'grad_norm': '7.688', 'learning_rate': '6.891e-05', 'epoch': '9.333'}
|
||||
{'loss': '0.3359', 'grad_norm': '10.59', 'learning_rate': '6.872e-05', 'epoch': '9.389'}
|
||||
{'loss': '0.3152', 'grad_norm': '11.02', 'learning_rate': '6.854e-05', 'epoch': '9.444'}
|
||||
{'loss': '0.3027', 'grad_norm': '11.65', 'learning_rate': '6.835e-05', 'epoch': '9.5'}
|
||||
{'loss': '0.2838', 'grad_norm': '10.88', 'learning_rate': '6.817e-05', 'epoch': '9.556'}
|
||||
{'loss': '0.2933', 'grad_norm': '16.63', 'learning_rate': '6.798e-05', 'epoch': '9.611'}
|
||||
{'loss': '0.2928', 'grad_norm': '18.06', 'learning_rate': '6.78e-05', 'epoch': '9.667'}
|
||||
{'loss': '0.2695', 'grad_norm': '10.06', 'learning_rate': '6.761e-05', 'epoch': '9.722'}
|
||||
{'loss': '0.2558', 'grad_norm': '18.05', 'learning_rate': '6.743e-05', 'epoch': '9.778'}
|
||||
{'loss': '0.3066', 'grad_norm': '9.773', 'learning_rate': '6.724e-05', 'epoch': '9.833'}
|
||||
{'loss': '0.2946', 'grad_norm': '34.24', 'learning_rate': '6.706e-05', 'epoch': '9.889'}
|
||||
{'loss': '0.2934', 'grad_norm': '17.36', 'learning_rate': '6.687e-05', 'epoch': '9.944'}
|
||||
{'loss': '0.3498', 'grad_norm': '10.57', 'learning_rate': '6.669e-05', 'epoch': '10'}
|
||||
{'eval_loss': '0.0777', 'eval_accuracy': '0.6393', 'eval_f1_macro': '0.6434', 'eval_runtime': '92.24', 'eval_samples_per_second': '2.374', 'eval_steps_per_second': '0.304', 'epoch': '10'}
|
||||
{'loss': '0.3125', 'grad_norm': '23.44', 'learning_rate': '6.65e-05', 'epoch': '10.06'}
|
||||
{'loss': '0.2958', 'grad_norm': '16.33', 'learning_rate': '6.631e-05', 'epoch': '10.11'}
|
||||
{'loss': '0.2918', 'grad_norm': '8.686', 'learning_rate': '6.613e-05', 'epoch': '10.17'}
|
||||
{'loss': '0.2786', 'grad_norm': '8.336', 'learning_rate': '6.594e-05', 'epoch': '10.22'}
|
||||
{'loss': '0.2932', 'grad_norm': '9.379', 'learning_rate': '6.576e-05', 'epoch': '10.28'}
|
||||
{'loss': '0.3039', 'grad_norm': '8.065', 'learning_rate': '6.557e-05', 'epoch': '10.33'}
|
||||
{'loss': '0.2826', 'grad_norm': '24.36', 'learning_rate': '6.539e-05', 'epoch': '10.39'}
|
||||
{'loss': '0.2823', 'grad_norm': '14.57', 'learning_rate': '6.52e-05', 'epoch': '10.44'}
|
||||
{'loss': '0.2801', 'grad_norm': '57.91', 'learning_rate': '6.502e-05', 'epoch': '10.5'}
|
||||
{'loss': '0.2874', 'grad_norm': '14.43', 'learning_rate': '6.483e-05', 'epoch': '10.56'}
|
||||
{'loss': '0.29', 'grad_norm': '12', 'learning_rate': '6.465e-05', 'epoch': '10.61'}
|
||||
{'loss': '0.2655', 'grad_norm': '14.84', 'learning_rate': '6.446e-05', 'epoch': '10.67'}
|
||||
{'loss': '0.2791', 'grad_norm': '77.07', 'learning_rate': '6.428e-05', 'epoch': '10.72'}
|
||||
{'loss': '0.2867', 'grad_norm': '12.63', 'learning_rate': '6.409e-05', 'epoch': '10.78'}
|
||||
{'loss': '0.2986', 'grad_norm': '23.68', 'learning_rate': '6.391e-05', 'epoch': '10.83'}
|
||||
{'loss': '0.3224', 'grad_norm': '29.91', 'learning_rate': '6.372e-05', 'epoch': '10.89'}
|
||||
{'loss': '0.2943', 'grad_norm': '44', 'learning_rate': '6.354e-05', 'epoch': '10.94'}
|
||||
{'loss': '0.2585', 'grad_norm': '40.78', 'learning_rate': '6.335e-05', 'epoch': '11'}
|
||||
{'eval_loss': '0.07975', 'eval_accuracy': '0.5982', 'eval_f1_macro': '0.589', 'eval_runtime': '92.83', 'eval_samples_per_second': '2.359', 'eval_steps_per_second': '0.302', 'epoch': '11'}
|
||||
{'loss': '0.2999', 'grad_norm': '24.04', 'learning_rate': '6.317e-05', 'epoch': '11.06'}
|
||||
{'loss': '0.2847', 'grad_norm': '14.93', 'learning_rate': '6.298e-05', 'epoch': '11.11'}
|
||||
{'loss': '0.2792', 'grad_norm': '10.92', 'learning_rate': '6.28e-05', 'epoch': '11.17'}
|
||||
{'loss': '0.254', 'grad_norm': '12.14', 'learning_rate': '6.261e-05', 'epoch': '11.22'}
|
||||
{'loss': '0.2715', 'grad_norm': '10.52', 'learning_rate': '6.243e-05', 'epoch': '11.28'}
|
||||
{'loss': '0.2906', 'grad_norm': '55.97', 'learning_rate': '6.224e-05', 'epoch': '11.33'}
|
||||
{'loss': '0.2725', 'grad_norm': '38.25', 'learning_rate': '6.206e-05', 'epoch': '11.39'}
|
||||
{'loss': '0.2467', 'grad_norm': '17.21', 'learning_rate': '6.187e-05', 'epoch': '11.44'}
|
||||
{'loss': '0.2508', 'grad_norm': '16.03', 'learning_rate': '6.169e-05', 'epoch': '11.5'}
|
||||
{'loss': '0.3076', 'grad_norm': '19.2', 'learning_rate': '6.15e-05', 'epoch': '11.56'}
|
||||
{'loss': '0.2822', 'grad_norm': '38.17', 'learning_rate': '6.131e-05', 'epoch': '11.61'}
|
||||
{'loss': '0.2773', 'grad_norm': '21.48', 'learning_rate': '6.113e-05', 'epoch': '11.67'}
|
||||
{'loss': '0.2641', 'grad_norm': '15.47', 'learning_rate': '6.094e-05', 'epoch': '11.72'}
|
||||
{'loss': '0.2704', 'grad_norm': '13.37', 'learning_rate': '6.076e-05', 'epoch': '11.78'}
|
||||
{'loss': '0.2778', 'grad_norm': '25.46', 'learning_rate': '6.057e-05', 'epoch': '11.83'}
|
||||
{'loss': '0.3093', 'grad_norm': '22.94', 'learning_rate': '6.039e-05', 'epoch': '11.89'}
|
||||
{'loss': '0.2656', 'grad_norm': '19.58', 'learning_rate': '6.02e-05', 'epoch': '11.94'}
|
||||
{'loss': '0.2894', 'grad_norm': '16.23', 'learning_rate': '6.002e-05', 'epoch': '12'}
|
||||
{'eval_loss': '0.07949', 'eval_accuracy': '0.6073', 'eval_f1_macro': '0.6106', 'eval_runtime': '92.51', 'eval_samples_per_second': '2.367', 'eval_steps_per_second': '0.303', 'epoch': '12'}
|
||||
{'loss': '0.2998', 'grad_norm': '10.96', 'learning_rate': '5.983e-05', 'epoch': '12.06'}
|
||||
{'loss': '0.2649', 'grad_norm': '11.74', 'learning_rate': '5.965e-05', 'epoch': '12.11'}
|
||||
{'loss': '0.2653', 'grad_norm': '16.06', 'learning_rate': '5.946e-05', 'epoch': '12.17'}
|
||||
{'loss': '0.2623', 'grad_norm': '15.95', 'learning_rate': '5.928e-05', 'epoch': '12.22'}
|
||||
{'loss': '0.272', 'grad_norm': '10.68', 'learning_rate': '5.909e-05', 'epoch': '12.28'}
|
||||
{'loss': '0.2687', 'grad_norm': '33.45', 'learning_rate': '5.891e-05', 'epoch': '12.33'}
|
||||
{'loss': '0.2887', 'grad_norm': '14.31', 'learning_rate': '5.872e-05', 'epoch': '12.39'}
|
||||
{'loss': '0.2875', 'grad_norm': '25.53', 'learning_rate': '5.854e-05', 'epoch': '12.44'}
|
||||
{'loss': '0.2788', 'grad_norm': '10.93', 'learning_rate': '5.835e-05', 'epoch': '12.5'}
|
||||
{'loss': '0.2629', 'grad_norm': '12.14', 'learning_rate': '5.817e-05', 'epoch': '12.56'}
|
||||
{'loss': '0.2934', 'grad_norm': '11.41', 'learning_rate': '5.798e-05', 'epoch': '12.61'}
|
||||
{'loss': '0.2716', 'grad_norm': '14.29', 'learning_rate': '5.78e-05', 'epoch': '12.67'}
|
||||
{'loss': '0.2633', 'grad_norm': '14.15', 'learning_rate': '5.761e-05', 'epoch': '12.72'}
|
||||
{'loss': '0.3031', 'grad_norm': '16.13', 'learning_rate': '5.743e-05', 'epoch': '12.78'}
|
||||
{'loss': '0.2535', 'grad_norm': '32.28', 'learning_rate': '5.724e-05', 'epoch': '12.83'}
|
||||
{'loss': '0.2598', 'grad_norm': '99.77', 'learning_rate': '5.706e-05', 'epoch': '12.89'}
|
||||
{'loss': '0.2427', 'grad_norm': '24.91', 'learning_rate': '5.687e-05', 'epoch': '12.94'}
|
||||
{'loss': '0.265', 'grad_norm': '21.41', 'learning_rate': '5.669e-05', 'epoch': '13'}
|
||||
{'eval_loss': '0.0846', 'eval_accuracy': '0.5799', 'eval_f1_macro': '0.5739', 'eval_runtime': '92.74', 'eval_samples_per_second': '2.361', 'eval_steps_per_second': '0.302', 'epoch': '13'}
|
||||
{'loss': '0.2721', 'grad_norm': '40.15', 'learning_rate': '5.65e-05', 'epoch': '13.06'}
|
||||
{'loss': '0.27', 'grad_norm': '8.684', 'learning_rate': '5.631e-05', 'epoch': '13.11'}
|
||||
{'loss': '0.2494', 'grad_norm': '6.578', 'learning_rate': '5.613e-05', 'epoch': '13.17'}
|
||||
{'loss': '0.2752', 'grad_norm': '20.32', 'learning_rate': '5.594e-05', 'epoch': '13.22'}
|
||||
{'loss': '0.2789', 'grad_norm': '20.88', 'learning_rate': '5.576e-05', 'epoch': '13.28'}
|
||||
{'loss': '0.2744', 'grad_norm': '8.658', 'learning_rate': '5.557e-05', 'epoch': '13.33'}
|
||||
{'loss': '0.2905', 'grad_norm': '11.38', 'learning_rate': '5.539e-05', 'epoch': '13.39'}
|
||||
{'loss': '0.2574', 'grad_norm': '147.6', 'learning_rate': '5.52e-05', 'epoch': '13.44'}
|
||||
{'loss': '0.2708', 'grad_norm': '12.86', 'learning_rate': '5.502e-05', 'epoch': '13.5'}
|
||||
{'loss': '0.2815', 'grad_norm': '16.38', 'learning_rate': '5.483e-05', 'epoch': '13.56'}
|
||||
{'loss': '0.2675', 'grad_norm': '11.76', 'learning_rate': '5.465e-05', 'epoch': '13.61'}
|
||||
{'loss': '0.2722', 'grad_norm': '11.13', 'learning_rate': '5.446e-05', 'epoch': '13.67'}
|
||||
{'loss': '0.2629', 'grad_norm': '22.75', 'learning_rate': '5.428e-05', 'epoch': '13.72'}
|
||||
{'loss': '0.2653', 'grad_norm': '6.393', 'learning_rate': '5.409e-05', 'epoch': '13.78'}
|
||||
{'loss': '0.2471', 'grad_norm': '6.803', 'learning_rate': '5.391e-05', 'epoch': '13.83'}
|
||||
{'loss': '0.2452', 'grad_norm': '10.88', 'learning_rate': '5.372e-05', 'epoch': '13.89'}
|
||||
{'loss': '0.2697', 'grad_norm': '22.71', 'learning_rate': '5.354e-05', 'epoch': '13.94'}
|
||||
{'loss': '0.2554', 'grad_norm': '35.61', 'learning_rate': '5.335e-05', 'epoch': '14'}
|
||||
{'eval_loss': '0.08274', 'eval_accuracy': '0.5982', 'eval_f1_macro': '0.5971', 'eval_runtime': '92.31', 'eval_samples_per_second': '2.372', 'eval_steps_per_second': '0.303', 'epoch': '14'}
|
||||
{'loss': '0.2627', 'grad_norm': '46.59', 'learning_rate': '5.317e-05', 'epoch': '14.06'}
|
||||
{'loss': '0.2412', 'grad_norm': '3.826', 'learning_rate': '5.298e-05', 'epoch': '14.11'}
|
||||
{'loss': '0.2297', 'grad_norm': '16.76', 'learning_rate': '5.28e-05', 'epoch': '14.17'}
|
||||
{'loss': '0.242', 'grad_norm': '28.04', 'learning_rate': '5.261e-05', 'epoch': '14.22'}
|
||||
{'loss': '0.2667', 'grad_norm': '12.63', 'learning_rate': '5.243e-05', 'epoch': '14.28'}
|
||||
{'loss': '0.2643', 'grad_norm': '6.917', 'learning_rate': '5.224e-05', 'epoch': '14.33'}
|
||||
{'loss': '0.2411', 'grad_norm': '10.55', 'learning_rate': '5.206e-05', 'epoch': '14.39'}
|
||||
{'loss': '0.2429', 'grad_norm': '15.08', 'learning_rate': '5.187e-05', 'epoch': '14.44'}
|
||||
{'loss': '0.2656', 'grad_norm': '10.24', 'learning_rate': '5.169e-05', 'epoch': '14.5'}
|
||||
{'loss': '0.2527', 'grad_norm': '26.44', 'learning_rate': '5.15e-05', 'epoch': '14.56'}
|
||||
{'loss': '0.2488', 'grad_norm': '5.841', 'learning_rate': '5.131e-05', 'epoch': '14.61'}
|
||||
{'loss': '0.2762', 'grad_norm': '9.895', 'learning_rate': '5.113e-05', 'epoch': '14.67'}
|
||||
{'loss': '0.2816', 'grad_norm': '10.97', 'learning_rate': '5.094e-05', 'epoch': '14.72'}
|
||||
{'loss': '0.2693', 'grad_norm': '4.258', 'learning_rate': '5.076e-05', 'epoch': '14.78'}
|
||||
{'loss': '0.2732', 'grad_norm': '4.476', 'learning_rate': '5.057e-05', 'epoch': '14.83'}
|
||||
{'loss': '0.2535', 'grad_norm': '5.636', 'learning_rate': '5.039e-05', 'epoch': '14.89'}
|
||||
{'loss': '0.2761', 'grad_norm': '7.013', 'learning_rate': '5.02e-05', 'epoch': '14.94'}
|
||||
{'loss': '0.254', 'grad_norm': '4.758', 'learning_rate': '5.002e-05', 'epoch': '15'}
|
||||
{'eval_loss': '0.0868', 'eval_accuracy': '0.5799', 'eval_f1_macro': '0.5692', 'eval_runtime': '92.35', 'eval_samples_per_second': '2.371', 'eval_steps_per_second': '0.303', 'epoch': '15'}
|
||||
{'loss': '0.2438', 'grad_norm': '16.13', 'learning_rate': '4.983e-05', 'epoch': '15.06'}
|
||||
{'loss': '0.263', 'grad_norm': '16.66', 'learning_rate': '4.965e-05', 'epoch': '15.11'}
|
||||
{'loss': '0.2375', 'grad_norm': '6.809', 'learning_rate': '4.946e-05', 'epoch': '15.17'}
|
||||
{'loss': '0.2369', 'grad_norm': '6.651', 'learning_rate': '4.928e-05', 'epoch': '15.22'}
|
||||
{'loss': '0.27', 'grad_norm': '4.98', 'learning_rate': '4.909e-05', 'epoch': '15.28'}
|
||||
{'loss': '0.2209', 'grad_norm': '6.693', 'learning_rate': '4.891e-05', 'epoch': '15.33'}
|
||||
{'loss': '0.2245', 'grad_norm': '11.29', 'learning_rate': '4.872e-05', 'epoch': '15.39'}
|
||||
{'loss': '0.2303', 'grad_norm': '16.76', 'learning_rate': '4.854e-05', 'epoch': '15.44'}
|
||||
{'loss': '0.2429', 'grad_norm': '11.27', 'learning_rate': '4.835e-05', 'epoch': '15.5'}
|
||||
{'loss': '0.2595', 'grad_norm': '24.9', 'learning_rate': '4.817e-05', 'epoch': '15.56'}
|
||||
{'loss': '0.231', 'grad_norm': '9.57', 'learning_rate': '4.798e-05', 'epoch': '15.61'}
|
||||
{'loss': '0.2655', 'grad_norm': '6.38', 'learning_rate': '4.78e-05', 'epoch': '15.67'}
|
||||
{'loss': '0.2277', 'grad_norm': '9.057', 'learning_rate': '4.761e-05', 'epoch': '15.72'}
|
||||
{'loss': '0.2784', 'grad_norm': '3.953', 'learning_rate': '4.743e-05', 'epoch': '15.78'}
|
||||
{'loss': '0.2404', 'grad_norm': '8.082', 'learning_rate': '4.724e-05', 'epoch': '15.83'}
|
||||
{'loss': '0.2805', 'grad_norm': '3.587', 'learning_rate': '4.706e-05', 'epoch': '15.89'}
|
||||
{'loss': '0.2405', 'grad_norm': '4.404', 'learning_rate': '4.687e-05', 'epoch': '15.94'}
|
||||
{'loss': '0.2509', 'grad_norm': '5.304', 'learning_rate': '4.669e-05', 'epoch': '16'}
|
||||
{'eval_loss': '0.07667', 'eval_accuracy': '0.6164', 'eval_f1_macro': '0.6163', 'eval_runtime': '91.64', 'eval_samples_per_second': '2.39', 'eval_steps_per_second': '0.306', 'epoch': '16'}
|
||||
{'loss': '0.2229', 'grad_norm': '5.85', 'learning_rate': '4.65e-05', 'epoch': '16.06'}
|
||||
{'loss': '0.219', 'grad_norm': '6.651', 'learning_rate': '4.631e-05', 'epoch': '16.11'}
|
||||
{'loss': '0.2311', 'grad_norm': '7.699', 'learning_rate': '4.613e-05', 'epoch': '16.17'}
|
||||
{'loss': '0.2349', 'grad_norm': '6.257', 'learning_rate': '4.594e-05', 'epoch': '16.22'}
|
||||
{'loss': '0.2172', 'grad_norm': '4.51', 'learning_rate': '4.576e-05', 'epoch': '16.28'}
|
||||
{'loss': '0.2368', 'grad_norm': '12.98', 'learning_rate': '4.557e-05', 'epoch': '16.33'}
|
||||
{'loss': '0.2237', 'grad_norm': '3.473', 'learning_rate': '4.539e-05', 'epoch': '16.39'}
|
||||
{'loss': '0.2068', 'grad_norm': '5.579', 'learning_rate': '4.52e-05', 'epoch': '16.44'}
|
||||
{'loss': '0.2558', 'grad_norm': '5.005', 'learning_rate': '4.502e-05', 'epoch': '16.5'}
|
||||
{'loss': '0.2778', 'grad_norm': '2.774', 'learning_rate': '4.483e-05', 'epoch': '16.56'}
|
||||
{'loss': '0.2403', 'grad_norm': '3.228', 'learning_rate': '4.465e-05', 'epoch': '16.61'}
|
||||
{'loss': '0.2911', 'grad_norm': '2.211', 'learning_rate': '4.446e-05', 'epoch': '16.67'}
|
||||
{'loss': '0.2399', 'grad_norm': '11.15', 'learning_rate': '4.428e-05', 'epoch': '16.72'}
|
||||
{'loss': '0.2316', 'grad_norm': '3.57', 'learning_rate': '4.409e-05', 'epoch': '16.78'}
|
||||
{'loss': '0.2485', 'grad_norm': '4.472', 'learning_rate': '4.391e-05', 'epoch': '16.83'}
|
||||
{'loss': '0.2229', 'grad_norm': '1.876', 'learning_rate': '4.372e-05', 'epoch': '16.89'}
|
||||
{'loss': '0.2072', 'grad_norm': '5.672', 'learning_rate': '4.354e-05', 'epoch': '16.94'}
|
||||
{'loss': '0.2495', 'grad_norm': '4.414', 'learning_rate': '4.335e-05', 'epoch': '17'}
|
||||
{'eval_loss': '0.07516', 'eval_accuracy': '0.6621', 'eval_f1_macro': '0.6637', 'eval_runtime': '92.5', 'eval_samples_per_second': '2.367', 'eval_steps_per_second': '0.303', 'epoch': '17'}
|
||||
{'loss': '0.2501', 'grad_norm': '4.593', 'learning_rate': '4.317e-05', 'epoch': '17.06'}
|
||||
{'loss': '0.2118', 'grad_norm': '2.51', 'learning_rate': '4.298e-05', 'epoch': '17.11'}
|
||||
{'loss': '0.204', 'grad_norm': '5.391', 'learning_rate': '4.28e-05', 'epoch': '17.17'}
|
||||
{'loss': '0.2264', 'grad_norm': '5.573', 'learning_rate': '4.261e-05', 'epoch': '17.22'}
|
||||
{'loss': '0.2224', 'grad_norm': '2.328', 'learning_rate': '4.243e-05', 'epoch': '17.28'}
|
||||
{'loss': '0.2338', 'grad_norm': '5.108', 'learning_rate': '4.224e-05', 'epoch': '17.33'}
|
||||
{'loss': '0.2236', 'grad_norm': '2.586', 'learning_rate': '4.206e-05', 'epoch': '17.39'}
|
||||
{'loss': '0.2203', 'grad_norm': '2.861', 'learning_rate': '4.187e-05', 'epoch': '17.44'}
|
||||
{'loss': '0.2291', 'grad_norm': '4.201', 'learning_rate': '4.169e-05', 'epoch': '17.5'}
|
||||
{'loss': '0.1751', 'grad_norm': '2.176', 'learning_rate': '4.15e-05', 'epoch': '17.56'}
|
||||
{'loss': '0.201', 'grad_norm': '11.14', 'learning_rate': '4.131e-05', 'epoch': '17.61'}
|
||||
{'loss': '0.2191', 'grad_norm': '3.242', 'learning_rate': '4.113e-05', 'epoch': '17.67'}
|
||||
{'loss': '0.2358', 'grad_norm': '3.78', 'learning_rate': '4.094e-05', 'epoch': '17.72'}
|
||||
{'loss': '0.25', 'grad_norm': '3.553', 'learning_rate': '4.076e-05', 'epoch': '17.78'}
|
||||
{'loss': '0.2408', 'grad_norm': '2.908', 'learning_rate': '4.057e-05', 'epoch': '17.83'}
|
||||
{'loss': '0.2077', 'grad_norm': '1.931', 'learning_rate': '4.039e-05', 'epoch': '17.89'}
|
||||
{'loss': '0.2176', 'grad_norm': '5.024', 'learning_rate': '4.02e-05', 'epoch': '17.94'}
|
||||
{'loss': '0.2176', 'grad_norm': '2.552', 'learning_rate': '4.002e-05', 'epoch': '18'}
|
||||
{'eval_loss': '0.07309', 'eval_accuracy': '0.6712', 'eval_f1_macro': '0.667', 'eval_runtime': '92.79', 'eval_samples_per_second': '2.36', 'eval_steps_per_second': '0.302', 'epoch': '18'}
|
||||
{'loss': '0.2068', 'grad_norm': '2.792', 'learning_rate': '3.983e-05', 'epoch': '18.06'}
|
||||
{'loss': '0.2052', 'grad_norm': '2.625', 'learning_rate': '3.965e-05', 'epoch': '18.11'}
|
||||
{'loss': '0.2143', 'grad_norm': '3.843', 'learning_rate': '3.946e-05', 'epoch': '18.17'}
|
||||
{'loss': '0.179', 'grad_norm': '3.623', 'learning_rate': '3.928e-05', 'epoch': '18.22'}
|
||||
{'loss': '0.2072', 'grad_norm': '2.81', 'learning_rate': '3.909e-05', 'epoch': '18.28'}
|
||||
{'loss': '0.2168', 'grad_norm': '2.175', 'learning_rate': '3.891e-05', 'epoch': '18.33'}
|
||||
{'loss': '0.2069', 'grad_norm': '3.218', 'learning_rate': '3.872e-05', 'epoch': '18.39'}
|
||||
{'loss': '0.1851', 'grad_norm': '2.357', 'learning_rate': '3.854e-05', 'epoch': '18.44'}
|
||||
{'loss': '0.1986', 'grad_norm': '4.906', 'learning_rate': '3.835e-05', 'epoch': '18.5'}
|
||||
{'loss': '0.2004', 'grad_norm': '3.741', 'learning_rate': '3.817e-05', 'epoch': '18.56'}
|
||||
{'loss': '0.2221', 'grad_norm': '5.885', 'learning_rate': '3.798e-05', 'epoch': '18.61'}
|
||||
{'loss': '0.2366', 'grad_norm': '2.606', 'learning_rate': '3.78e-05', 'epoch': '18.67'}
|
||||
{'loss': '0.2271', 'grad_norm': '3.475', 'learning_rate': '3.761e-05', 'epoch': '18.72'}
|
||||
{'loss': '0.216', 'grad_norm': '2.365', 'learning_rate': '3.743e-05', 'epoch': '18.78'}
|
||||
{'loss': '0.2185', 'grad_norm': '2.242', 'learning_rate': '3.724e-05', 'epoch': '18.83'}
|
||||
{'loss': '0.2082', 'grad_norm': '4.21', 'learning_rate': '3.706e-05', 'epoch': '18.89'}
|
||||
{'loss': '0.1884', 'grad_norm': '2.384', 'learning_rate': '3.687e-05', 'epoch': '18.94'}
|
||||
{'loss': '0.1832', 'grad_norm': '3.996', 'learning_rate': '3.669e-05', 'epoch': '19'}
|
||||
{'eval_loss': '0.07891', 'eval_accuracy': '0.6621', 'eval_f1_macro': '0.6631', 'eval_runtime': '91.41', 'eval_samples_per_second': '2.396', 'eval_steps_per_second': '0.306', 'epoch': '19'}
|
||||
{'loss': '0.1779', 'grad_norm': '2.385', 'learning_rate': '3.65e-05', 'epoch': '19.06'}
|
||||
{'loss': '0.1638', 'grad_norm': '2.869', 'learning_rate': '3.631e-05', 'epoch': '19.11'}
|
||||
{'loss': '0.2059', 'grad_norm': '5.433', 'learning_rate': '3.613e-05', 'epoch': '19.17'}
|
||||
{'loss': '0.2036', 'grad_norm': '3.941', 'learning_rate': '3.594e-05', 'epoch': '19.22'}
|
||||
{'loss': '0.1839', 'grad_norm': '2.939', 'learning_rate': '3.576e-05', 'epoch': '19.28'}
|
||||
{'loss': '0.1706', 'grad_norm': '2.049', 'learning_rate': '3.557e-05', 'epoch': '19.33'}
|
||||
{'loss': '0.1955', 'grad_norm': '4.402', 'learning_rate': '3.539e-05', 'epoch': '19.39'}
|
||||
{'loss': '0.1944', 'grad_norm': '4.088', 'learning_rate': '3.52e-05', 'epoch': '19.44'}
|
||||
{'loss': '0.2064', 'grad_norm': '3.718', 'learning_rate': '3.502e-05', 'epoch': '19.5'}
|
||||
{'loss': '0.1981', 'grad_norm': '4.671', 'learning_rate': '3.483e-05', 'epoch': '19.56'}
|
||||
{'loss': '0.1939', 'grad_norm': '2.087', 'learning_rate': '3.465e-05', 'epoch': '19.61'}
|
||||
{'loss': '0.2015', 'grad_norm': '3.569', 'learning_rate': '3.446e-05', 'epoch': '19.67'}
|
||||
{'loss': '0.1765', 'grad_norm': '7.112', 'learning_rate': '3.428e-05', 'epoch': '19.72'}
|
||||
{'loss': '0.211', 'grad_norm': '7.265', 'learning_rate': '3.409e-05', 'epoch': '19.78'}
|
||||
{'loss': '0.182', 'grad_norm': '1.889', 'learning_rate': '3.391e-05', 'epoch': '19.83'}
|
||||
{'loss': '0.1973', 'grad_norm': '9.152', 'learning_rate': '3.372e-05', 'epoch': '19.89'}
|
||||
{'loss': '0.1945', 'grad_norm': '3.082', 'learning_rate': '3.354e-05', 'epoch': '19.94'}
|
||||
{'loss': '0.1956', 'grad_norm': '3.156', 'learning_rate': '3.335e-05', 'epoch': '20'}
|
||||
{'eval_loss': '0.07707', 'eval_accuracy': '0.6804', 'eval_f1_macro': '0.6781', 'eval_runtime': '92.27', 'eval_samples_per_second': '2.373', 'eval_steps_per_second': '0.303', 'epoch': '20'}
|
||||
{'loss': '0.1766', 'grad_norm': '2.274', 'learning_rate': '3.317e-05', 'epoch': '20.06'}
|
||||
{'loss': '0.1659', 'grad_norm': '3.547', 'learning_rate': '3.298e-05', 'epoch': '20.11'}
|
||||
{'loss': '0.165', 'grad_norm': '3.092', 'learning_rate': '3.28e-05', 'epoch': '20.17'}
|
||||
{'loss': '0.1904', 'grad_norm': '3.368', 'learning_rate': '3.261e-05', 'epoch': '20.22'}
|
||||
{'loss': '0.1966', 'grad_norm': '3.305', 'learning_rate': '3.243e-05', 'epoch': '20.28'}
|
||||
{'loss': '0.1722', 'grad_norm': '3.504', 'learning_rate': '3.224e-05', 'epoch': '20.33'}
|
||||
{'loss': '0.1924', 'grad_norm': '3.444', 'learning_rate': '3.206e-05', 'epoch': '20.39'}
|
||||
{'loss': '0.193', 'grad_norm': '2.292', 'learning_rate': '3.187e-05', 'epoch': '20.44'}
|
||||
{'loss': '0.192', 'grad_norm': '3.153', 'learning_rate': '3.169e-05', 'epoch': '20.5'}
|
||||
{'loss': '0.1596', 'grad_norm': '1.447', 'learning_rate': '3.15e-05', 'epoch': '20.56'}
|
||||
{'loss': '0.1889', 'grad_norm': '2.718', 'learning_rate': '3.131e-05', 'epoch': '20.61'}
|
||||
{'loss': '0.1715', 'grad_norm': '2.045', 'learning_rate': '3.113e-05', 'epoch': '20.67'}
|
||||
{'loss': '0.1713', 'grad_norm': '1.8', 'learning_rate': '3.094e-05', 'epoch': '20.72'}
|
||||
{'loss': '0.2093', 'grad_norm': '2.839', 'learning_rate': '3.076e-05', 'epoch': '20.78'}
|
||||
{'loss': '0.1935', 'grad_norm': '3.3', 'learning_rate': '3.057e-05', 'epoch': '20.83'}
|
||||
{'loss': '0.175', 'grad_norm': '2.621', 'learning_rate': '3.039e-05', 'epoch': '20.89'}
|
||||
{'loss': '0.1763', 'grad_norm': '1.32', 'learning_rate': '3.02e-05', 'epoch': '20.94'}
|
||||
{'loss': '0.1661', 'grad_norm': '1.986', 'learning_rate': '3.002e-05', 'epoch': '21'}
|
||||
{'eval_loss': '0.07281', 'eval_accuracy': '0.7123', 'eval_f1_macro': '0.7124', 'eval_runtime': '92', 'eval_samples_per_second': '2.38', 'eval_steps_per_second': '0.304', 'epoch': '21'}
|
||||
{'loss': '0.1996', 'grad_norm': '2.961', 'learning_rate': '2.983e-05', 'epoch': '21.06'}
|
||||
{'loss': '0.18', 'grad_norm': '2.967', 'learning_rate': '2.965e-05', 'epoch': '21.11'}
|
||||
{'loss': '0.1679', 'grad_norm': '2.723', 'learning_rate': '2.946e-05', 'epoch': '21.17'}
|
||||
{'loss': '0.1791', 'grad_norm': '2.726', 'learning_rate': '2.928e-05', 'epoch': '21.22'}
|
||||
{'loss': '0.1619', 'grad_norm': '3.545', 'learning_rate': '2.909e-05', 'epoch': '21.28'}
|
||||
{'loss': '0.1641', 'grad_norm': '3.002', 'learning_rate': '2.891e-05', 'epoch': '21.33'}
|
||||
{'loss': '0.1713', 'grad_norm': '2.664', 'learning_rate': '2.872e-05', 'epoch': '21.39'}
|
||||
{'loss': '0.1636', 'grad_norm': '2.266', 'learning_rate': '2.854e-05', 'epoch': '21.44'}
|
||||
{'loss': '0.1895', 'grad_norm': '1.923', 'learning_rate': '2.835e-05', 'epoch': '21.5'}
|
||||
{'loss': '0.1546', 'grad_norm': '1.55', 'learning_rate': '2.817e-05', 'epoch': '21.56'}
|
||||
{'loss': '0.1477', 'grad_norm': '2.465', 'learning_rate': '2.798e-05', 'epoch': '21.61'}
|
||||
{'loss': '0.1723', 'grad_norm': '2.168', 'learning_rate': '2.78e-05', 'epoch': '21.67'}
|
||||
{'loss': '0.158', 'grad_norm': '1.714', 'learning_rate': '2.761e-05', 'epoch': '21.72'}
|
||||
{'loss': '0.1612', 'grad_norm': '3.673', 'learning_rate': '2.743e-05', 'epoch': '21.78'}
|
||||
{'loss': '0.1738', 'grad_norm': '1.699', 'learning_rate': '2.724e-05', 'epoch': '21.83'}
|
||||
{'loss': '0.159', 'grad_norm': '7.101', 'learning_rate': '2.706e-05', 'epoch': '21.89'}
|
||||
{'loss': '0.185', 'grad_norm': '1.971', 'learning_rate': '2.687e-05', 'epoch': '21.94'}
|
||||
{'loss': '0.1943', 'grad_norm': '5.779', 'learning_rate': '2.669e-05', 'epoch': '22'}
|
||||
{'eval_loss': '0.07557', 'eval_accuracy': '0.7032', 'eval_f1_macro': '0.7026', 'eval_runtime': '92.15', 'eval_samples_per_second': '2.377', 'eval_steps_per_second': '0.304', 'epoch': '22'}
|
||||
{'loss': '0.1444', 'grad_norm': '2.507', 'learning_rate': '2.65e-05', 'epoch': '22.06'}
|
||||
{'loss': '0.1437', 'grad_norm': '2.154', 'learning_rate': '2.631e-05', 'epoch': '22.11'}
|
||||
{'loss': '0.157', 'grad_norm': '1.84', 'learning_rate': '2.613e-05', 'epoch': '22.17'}
|
||||
{'loss': '0.1649', 'grad_norm': '2.192', 'learning_rate': '2.594e-05', 'epoch': '22.22'}
|
||||
{'loss': '0.1553', 'grad_norm': '2.42', 'learning_rate': '2.576e-05', 'epoch': '22.28'}
|
||||
{'loss': '0.1656', 'grad_norm': '3.058', 'learning_rate': '2.557e-05', 'epoch': '22.33'}
|
||||
{'loss': '0.1569', 'grad_norm': '2.862', 'learning_rate': '2.539e-05', 'epoch': '22.39'}
|
||||
{'loss': '0.1868', 'grad_norm': '2.932', 'learning_rate': '2.52e-05', 'epoch': '22.44'}
|
||||
{'loss': '0.1541', 'grad_norm': '2.365', 'learning_rate': '2.502e-05', 'epoch': '22.5'}
|
||||
{'loss': '0.1667', 'grad_norm': '3.152', 'learning_rate': '2.483e-05', 'epoch': '22.56'}
|
||||
{'loss': '0.1368', 'grad_norm': '2.709', 'learning_rate': '2.465e-05', 'epoch': '22.61'}
|
||||
{'loss': '0.1626', 'grad_norm': '3.362', 'learning_rate': '2.446e-05', 'epoch': '22.67'}
|
||||
{'loss': '0.1767', 'grad_norm': '1.935', 'learning_rate': '2.428e-05', 'epoch': '22.72'}
|
||||
{'loss': '0.1996', 'grad_norm': '1.967', 'learning_rate': '2.409e-05', 'epoch': '22.78'}
|
||||
{'loss': '0.1662', 'grad_norm': '3.441', 'learning_rate': '2.391e-05', 'epoch': '22.83'}
|
||||
{'loss': '0.1891', 'grad_norm': '3.301', 'learning_rate': '2.372e-05', 'epoch': '22.89'}
|
||||
{'loss': '0.1491', 'grad_norm': '2.989', 'learning_rate': '2.354e-05', 'epoch': '22.94'}
|
||||
{'loss': '0.175', 'grad_norm': '1.83', 'learning_rate': '2.335e-05', 'epoch': '23'}
|
||||
{'eval_loss': '0.07459', 'eval_accuracy': '0.6895', 'eval_f1_macro': '0.6912', 'eval_runtime': '92.2', 'eval_samples_per_second': '2.375', 'eval_steps_per_second': '0.304', 'epoch': '23'}
|
||||
{'loss': '0.1294', 'grad_norm': '1.947', 'learning_rate': '2.317e-05', 'epoch': '23.06'}
|
||||
{'loss': '0.1352', 'grad_norm': '1.519', 'learning_rate': '2.298e-05', 'epoch': '23.11'}
|
||||
{'loss': '0.1376', 'grad_norm': '3.211', 'learning_rate': '2.28e-05', 'epoch': '23.17'}
|
||||
{'loss': '0.149', 'grad_norm': '2.595', 'learning_rate': '2.261e-05', 'epoch': '23.22'}
|
||||
{'loss': '0.1867', 'grad_norm': '1.367', 'learning_rate': '2.243e-05', 'epoch': '23.28'}
|
||||
{'loss': '0.1736', 'grad_norm': '1.154', 'learning_rate': '2.224e-05', 'epoch': '23.33'}
|
||||
{'loss': '0.1475', 'grad_norm': '3.817', 'learning_rate': '2.206e-05', 'epoch': '23.39'}
|
||||
{'loss': '0.1821', 'grad_norm': '2.403', 'learning_rate': '2.187e-05', 'epoch': '23.44'}
|
||||
{'loss': '0.1457', 'grad_norm': '2.223', 'learning_rate': '2.169e-05', 'epoch': '23.5'}
|
||||
{'loss': '0.168', 'grad_norm': '3.179', 'learning_rate': '2.15e-05', 'epoch': '23.56'}
|
||||
{'loss': '0.1821', 'grad_norm': '2.074', 'learning_rate': '2.131e-05', 'epoch': '23.61'}
|
||||
{'loss': '0.1493', 'grad_norm': '1.99', 'learning_rate': '2.113e-05', 'epoch': '23.67'}
|
||||
{'loss': '0.1528', 'grad_norm': '1.679', 'learning_rate': '2.094e-05', 'epoch': '23.72'}
|
||||
{'loss': '0.1617', 'grad_norm': '1.411', 'learning_rate': '2.076e-05', 'epoch': '23.78'}
|
||||
{'loss': '0.1363', 'grad_norm': '2.454', 'learning_rate': '2.057e-05', 'epoch': '23.83'}
|
||||
{'loss': '0.1384', 'grad_norm': '1.721', 'learning_rate': '2.039e-05', 'epoch': '23.89'}
|
||||
{'loss': '0.1566', 'grad_norm': '1.824', 'learning_rate': '2.02e-05', 'epoch': '23.94'}
|
||||
{'loss': '0.1514', 'grad_norm': '2.098', 'learning_rate': '2.002e-05', 'epoch': '24'}
|
||||
{'eval_loss': '0.09023', 'eval_accuracy': '0.6347', 'eval_f1_macro': '0.6335', 'eval_runtime': '91.75', 'eval_samples_per_second': '2.387', 'eval_steps_per_second': '0.305', 'epoch': '24'}
|
||||
{'loss': '0.1198', 'grad_norm': '1.073', 'learning_rate': '1.983e-05', 'epoch': '24.06'}
|
||||
{'loss': '0.154', 'grad_norm': '2.152', 'learning_rate': '1.965e-05', 'epoch': '24.11'}
|
||||
{'loss': '0.1355', 'grad_norm': '2.118', 'learning_rate': '1.946e-05', 'epoch': '24.17'}
|
||||
{'loss': '0.1501', 'grad_norm': '4.31', 'learning_rate': '1.928e-05', 'epoch': '24.22'}
|
||||
{'loss': '0.1342', 'grad_norm': '2.274', 'learning_rate': '1.909e-05', 'epoch': '24.28'}
|
||||
{'loss': '0.1254', 'grad_norm': '1.52', 'learning_rate': '1.891e-05', 'epoch': '24.33'}
|
||||
{'loss': '0.1389', 'grad_norm': '1.385', 'learning_rate': '1.872e-05', 'epoch': '24.39'}
|
||||
{'loss': '0.1453', 'grad_norm': '1.829', 'learning_rate': '1.854e-05', 'epoch': '24.44'}
|
||||
{'loss': '0.1699', 'grad_norm': '2.862', 'learning_rate': '1.835e-05', 'epoch': '24.5'}
|
||||
{'loss': '0.1604', 'grad_norm': '2.698', 'learning_rate': '1.817e-05', 'epoch': '24.56'}
|
||||
{'loss': '0.1504', 'grad_norm': '3.564', 'learning_rate': '1.798e-05', 'epoch': '24.61'}
|
||||
{'loss': '0.1447', 'grad_norm': '1.655', 'learning_rate': '1.78e-05', 'epoch': '24.67'}
|
||||
{'loss': '0.1422', 'grad_norm': '1.93', 'learning_rate': '1.761e-05', 'epoch': '24.72'}
|
||||
{'loss': '0.1087', 'grad_norm': '2.084', 'learning_rate': '1.743e-05', 'epoch': '24.78'}
|
||||
{'loss': '0.1665', 'grad_norm': '2.86', 'learning_rate': '1.724e-05', 'epoch': '24.83'}
|
||||
{'loss': '0.1448', 'grad_norm': '2.447', 'learning_rate': '1.706e-05', 'epoch': '24.89'}
|
||||
{'loss': '0.1466', 'grad_norm': '2.334', 'learning_rate': '1.687e-05', 'epoch': '24.94'}
|
||||
{'loss': '0.151', 'grad_norm': '2.147', 'learning_rate': '1.669e-05', 'epoch': '25'}
|
||||
{'eval_loss': '0.08373', 'eval_accuracy': '0.6895', 'eval_f1_macro': '0.6928', 'eval_runtime': '91.89', 'eval_samples_per_second': '2.383', 'eval_steps_per_second': '0.305', 'epoch': '25'}
|
||||
{'loss': '0.1718', 'grad_norm': '1.779', 'learning_rate': '1.65e-05', 'epoch': '25.06'}
|
||||
{'loss': '0.1157', 'grad_norm': '1.862', 'learning_rate': '1.631e-05', 'epoch': '25.11'}
|
||||
{'loss': '0.1618', 'grad_norm': '2.001', 'learning_rate': '1.613e-05', 'epoch': '25.17'}
|
||||
{'loss': '0.1303', 'grad_norm': '2.505', 'learning_rate': '1.594e-05', 'epoch': '25.22'}
|
||||
{'loss': '0.1816', 'grad_norm': '3.646', 'learning_rate': '1.576e-05', 'epoch': '25.28'}
|
||||
{'loss': '0.1278', 'grad_norm': '1.952', 'learning_rate': '1.557e-05', 'epoch': '25.33'}
|
||||
{'loss': '0.1439', 'grad_norm': '1.519', 'learning_rate': '1.539e-05', 'epoch': '25.39'}
|
||||
{'loss': '0.1433', 'grad_norm': '1.675', 'learning_rate': '1.52e-05', 'epoch': '25.44'}
|
||||
{'loss': '0.131', 'grad_norm': '2.328', 'learning_rate': '1.502e-05', 'epoch': '25.5'}
|
||||
{'loss': '0.1252', 'grad_norm': '2.026', 'learning_rate': '1.483e-05', 'epoch': '25.56'}
|
||||
{'loss': '0.1096', 'grad_norm': '2.781', 'learning_rate': '1.465e-05', 'epoch': '25.61'}
|
||||
{'loss': '0.1366', 'grad_norm': '1.621', 'learning_rate': '1.446e-05', 'epoch': '25.67'}
|
||||
{'loss': '0.1487', 'grad_norm': '1.701', 'learning_rate': '1.428e-05', 'epoch': '25.72'}
|
||||
{'loss': '0.1176', 'grad_norm': '1.39', 'learning_rate': '1.409e-05', 'epoch': '25.78'}
|
||||
{'loss': '0.1688', 'grad_norm': '2.096', 'learning_rate': '1.391e-05', 'epoch': '25.83'}
|
||||
{'loss': '0.1482', 'grad_norm': '4.111', 'learning_rate': '1.372e-05', 'epoch': '25.89'}
|
||||
{'loss': '0.1267', 'grad_norm': '1.845', 'learning_rate': '1.354e-05', 'epoch': '25.94'}
|
||||
{'loss': '0.1332', 'grad_norm': '1.274', 'learning_rate': '1.335e-05', 'epoch': '26'}
|
||||
{'eval_loss': '0.07521', 'eval_accuracy': '0.726', 'eval_f1_macro': '0.7264', 'eval_runtime': '92.82', 'eval_samples_per_second': '2.359', 'eval_steps_per_second': '0.302', 'epoch': '26'}
|
||||
{'loss': '0.1244', 'grad_norm': '3.027', 'learning_rate': '1.317e-05', 'epoch': '26.06'}
|
||||
{'loss': '0.1393', 'grad_norm': '3.609', 'learning_rate': '1.298e-05', 'epoch': '26.11'}
|
||||
{'loss': '0.1206', 'grad_norm': '3.526', 'learning_rate': '1.28e-05', 'epoch': '26.17'}
|
||||
{'loss': '0.134', 'grad_norm': '2.175', 'learning_rate': '1.261e-05', 'epoch': '26.22'}
|
||||
{'loss': '0.1218', 'grad_norm': '1.598', 'learning_rate': '1.243e-05', 'epoch': '26.28'}
|
||||
{'loss': '0.1273', 'grad_norm': '1.629', 'learning_rate': '1.224e-05', 'epoch': '26.33'}
|
||||
{'loss': '0.1539', 'grad_norm': '2.378', 'learning_rate': '1.206e-05', 'epoch': '26.39'}
|
||||
{'loss': '0.1523', 'grad_norm': '1.869', 'learning_rate': '1.187e-05', 'epoch': '26.44'}
|
||||
{'loss': '0.1297', 'grad_norm': '1.992', 'learning_rate': '1.169e-05', 'epoch': '26.5'}
|
||||
{'loss': '0.1545', 'grad_norm': '3.299', 'learning_rate': '1.15e-05', 'epoch': '26.56'}
|
||||
{'loss': '0.132', 'grad_norm': '1.336', 'learning_rate': '1.131e-05', 'epoch': '26.61'}
|
||||
{'loss': '0.1395', 'grad_norm': '2.031', 'learning_rate': '1.113e-05', 'epoch': '26.67'}
|
||||
{'loss': '0.1051', 'grad_norm': '2.002', 'learning_rate': '1.094e-05', 'epoch': '26.72'}
|
||||
{'loss': '0.1265', 'grad_norm': '2.724', 'learning_rate': '1.076e-05', 'epoch': '26.78'}
|
||||
{'loss': '0.1364', 'grad_norm': '3.614', 'learning_rate': '1.057e-05', 'epoch': '26.83'}
|
||||
{'loss': '0.142', 'grad_norm': '1.441', 'learning_rate': '1.039e-05', 'epoch': '26.89'}
|
||||
{'loss': '0.163', 'grad_norm': '2.502', 'learning_rate': '1.02e-05', 'epoch': '26.94'}
|
||||
{'loss': '0.1327', 'grad_norm': '1.702', 'learning_rate': '1.002e-05', 'epoch': '27'}
|
||||
{'eval_loss': '0.07875', 'eval_accuracy': '0.6986', 'eval_f1_macro': '0.6997', 'eval_runtime': '91.67', 'eval_samples_per_second': '2.389', 'eval_steps_per_second': '0.305', 'epoch': '27'}
|
||||
{'loss': '0.105', 'grad_norm': '2.566', 'learning_rate': '9.833e-06', 'epoch': '27.06'}
|
||||
{'loss': '0.1383', 'grad_norm': '4.703', 'learning_rate': '9.648e-06', 'epoch': '27.11'}
|
||||
{'loss': '0.1202', 'grad_norm': '2.268', 'learning_rate': '9.463e-06', 'epoch': '27.17'}
|
||||
{'loss': '0.1102', 'grad_norm': '1.583', 'learning_rate': '9.278e-06', 'epoch': '27.22'}
|
||||
{'loss': '0.1215', 'grad_norm': '1.284', 'learning_rate': '9.093e-06', 'epoch': '27.28'}
|
||||
{'loss': '0.1461', 'grad_norm': '2.659', 'learning_rate': '8.907e-06', 'epoch': '27.33'}
|
||||
{'loss': '0.1436', 'grad_norm': '2.754', 'learning_rate': '8.722e-06', 'epoch': '27.39'}
|
||||
{'loss': '0.1116', 'grad_norm': '2.052', 'learning_rate': '8.537e-06', 'epoch': '27.44'}
|
||||
{'loss': '0.112', 'grad_norm': '1.594', 'learning_rate': '8.352e-06', 'epoch': '27.5'}
|
||||
{'loss': '0.1535', 'grad_norm': '1.813', 'learning_rate': '8.167e-06', 'epoch': '27.56'}
|
||||
{'loss': '0.1271', 'grad_norm': '1.512', 'learning_rate': '7.981e-06', 'epoch': '27.61'}
|
||||
{'loss': '0.1147', 'grad_norm': '2.345', 'learning_rate': '7.796e-06', 'epoch': '27.67'}
|
||||
{'loss': '0.1478', 'grad_norm': '1.969', 'learning_rate': '7.611e-06', 'epoch': '27.72'}
|
||||
{'loss': '0.1231', 'grad_norm': '2.241', 'learning_rate': '7.426e-06', 'epoch': '27.78'}
|
||||
{'loss': '0.1618', 'grad_norm': '3.372', 'learning_rate': '7.241e-06', 'epoch': '27.83'}
|
||||
{'loss': '0.1202', 'grad_norm': '2.06', 'learning_rate': '7.056e-06', 'epoch': '27.89'}
|
||||
{'loss': '0.1368', 'grad_norm': '2.813', 'learning_rate': '6.87e-06', 'epoch': '27.94'}
|
||||
{'loss': '0.125', 'grad_norm': '1.747', 'learning_rate': '6.685e-06', 'epoch': '28'}
|
||||
{'eval_loss': '0.08419', 'eval_accuracy': '0.7032', 'eval_f1_macro': '0.707', 'eval_runtime': '91.63', 'eval_samples_per_second': '2.39', 'eval_steps_per_second': '0.306', 'epoch': '28'}
|
||||
{'loss': '0.1191', 'grad_norm': '2.731', 'learning_rate': '6.5e-06', 'epoch': '28.06'}
|
||||
{'loss': '0.1214', 'grad_norm': '1.833', 'learning_rate': '6.315e-06', 'epoch': '28.11'}
|
||||
{'loss': '0.1309', 'grad_norm': '3.382', 'learning_rate': '6.13e-06', 'epoch': '28.17'}
|
||||
{'loss': '0.1461', 'grad_norm': '3.138', 'learning_rate': '5.944e-06', 'epoch': '28.22'}
|
||||
{'loss': '0.1215', 'grad_norm': '8.968', 'learning_rate': '5.759e-06', 'epoch': '28.28'}
|
||||
{'loss': '0.107', 'grad_norm': '1.738', 'learning_rate': '5.574e-06', 'epoch': '28.33'}
|
||||
{'loss': '0.122', 'grad_norm': '2.103', 'learning_rate': '5.389e-06', 'epoch': '28.39'}
|
||||
{'loss': '0.1126', 'grad_norm': '2.628', 'learning_rate': '5.204e-06', 'epoch': '28.44'}
|
||||
{'loss': '0.1289', 'grad_norm': '1.532', 'learning_rate': '5.019e-06', 'epoch': '28.5'}
|
||||
{'loss': '0.1606', 'grad_norm': '2.081', 'learning_rate': '4.833e-06', 'epoch': '28.56'}
|
||||
{'loss': '0.1363', 'grad_norm': '2.032', 'learning_rate': '4.648e-06', 'epoch': '28.61'}
|
||||
{'loss': '0.09815', 'grad_norm': '1.965', 'learning_rate': '4.463e-06', 'epoch': '28.67'}
|
||||
{'loss': '0.1142', 'grad_norm': '1.655', 'learning_rate': '4.278e-06', 'epoch': '28.72'}
|
||||
{'loss': '0.1019', 'grad_norm': '1.819', 'learning_rate': '4.093e-06', 'epoch': '28.78'}
|
||||
{'loss': '0.1125', 'grad_norm': '1.283', 'learning_rate': '3.907e-06', 'epoch': '28.83'}
|
||||
{'loss': '0.1606', 'grad_norm': '2.834', 'learning_rate': '3.722e-06', 'epoch': '28.89'}
|
||||
{'loss': '0.1253', 'grad_norm': '2.699', 'learning_rate': '3.537e-06', 'epoch': '28.94'}
|
||||
{'loss': '0.1504', 'grad_norm': '1.523', 'learning_rate': '3.352e-06', 'epoch': '29'}
|
||||
{'eval_loss': '0.08611', 'eval_accuracy': '0.6895', 'eval_f1_macro': '0.6922', 'eval_runtime': '92.45', 'eval_samples_per_second': '2.369', 'eval_steps_per_second': '0.303', 'epoch': '29'}
|
||||
{'loss': '0.138', 'grad_norm': '1.424', 'learning_rate': '3.167e-06', 'epoch': '29.06'}
|
||||
{'loss': '0.1157', 'grad_norm': '1.743', 'learning_rate': '2.981e-06', 'epoch': '29.11'}
|
||||
{'loss': '0.1255', 'grad_norm': '2.786', 'learning_rate': '2.796e-06', 'epoch': '29.17'}
|
||||
{'loss': '0.1267', 'grad_norm': '2.459', 'learning_rate': '2.611e-06', 'epoch': '29.22'}
|
||||
{'loss': '0.1151', 'grad_norm': '2.063', 'learning_rate': '2.426e-06', 'epoch': '29.28'}
|
||||
{'loss': '0.1353', 'grad_norm': '2.361', 'learning_rate': '2.241e-06', 'epoch': '29.33'}
|
||||
{'loss': '0.1208', 'grad_norm': '1.71', 'learning_rate': '2.056e-06', 'epoch': '29.39'}
|
||||
{'loss': '0.1097', 'grad_norm': '1.812', 'learning_rate': '1.87e-06', 'epoch': '29.44'}
|
||||
{'loss': '0.09948', 'grad_norm': '1.888', 'learning_rate': '1.685e-06', 'epoch': '29.5'}
|
||||
{'loss': '0.1272', 'grad_norm': '2.297', 'learning_rate': '1.5e-06', 'epoch': '29.56'}
|
||||
{'loss': '0.1347', 'grad_norm': '3.788', 'learning_rate': '1.315e-06', 'epoch': '29.61'}
|
||||
{'loss': '0.1098', 'grad_norm': '2.817', 'learning_rate': '1.13e-06', 'epoch': '29.67'}
|
||||
{'loss': '0.1176', 'grad_norm': '1.938', 'learning_rate': '9.444e-07', 'epoch': '29.72'}
|
||||
{'loss': '0.1653', 'grad_norm': '1.978', 'learning_rate': '7.593e-07', 'epoch': '29.78'}
|
||||
{'loss': '0.1319', 'grad_norm': '3.36', 'learning_rate': '5.741e-07', 'epoch': '29.83'}
|
||||
{'loss': '0.119', 'grad_norm': '2.515', 'learning_rate': '3.889e-07', 'epoch': '29.89'}
|
||||
{'loss': '0.0958', 'grad_norm': '1.903', 'learning_rate': '2.037e-07', 'epoch': '29.94'}
|
||||
{'loss': '0.1527', 'grad_norm': '3.489', 'learning_rate': '1.852e-08', 'epoch': '30'}
|
||||
{'eval_loss': '0.08752', 'eval_accuracy': '0.6849', 'eval_f1_macro': '0.6884', 'eval_runtime': '91.5', 'eval_samples_per_second': '2.393', 'eval_steps_per_second': '0.306', 'epoch': '30'}
|
||||
{'train_runtime': '1.921e+04', 'train_samples_per_second': '8.994', 'train_steps_per_second': '0.281', 'train_loss': '0.324', 'epoch': '30'}
|
||||
Training complete! Model saved to ./byt5-taglish-nli-final-v2
|
||||
File diff suppressed because one or more lines are too long
@@ -0,0 +1,312 @@
|
||||
Using GPU: Tesla V100-SXM2-32GB
|
||||
Loading training data from new_dataset.csv...
|
||||
Loading benchmark data from benchmark_dataset.csv...
|
||||
Loading tokenizer and model from local path: ./byt5_base_local_weights...
|
||||
Tokenizing datasets...
|
||||
Starting training...
|
||||
{'loss': '17.49', 'grad_norm': '126.5', 'learning_rate': '1.667e-06', 'epoch': '0.05556'}
|
||||
{'loss': '17.71', 'grad_norm': '394.1', 'learning_rate': '3.519e-06', 'epoch': '0.1111'}
|
||||
{'loss': '17.12', 'grad_norm': '84.43', 'learning_rate': '5.37e-06', 'epoch': '0.1667'}
|
||||
{'loss': '16.68', 'grad_norm': '75.35', 'learning_rate': '7.222e-06', 'epoch': '0.2222'}
|
||||
{'loss': '16.43', 'grad_norm': '73.7', 'learning_rate': '9.074e-06', 'epoch': '0.2778'}
|
||||
{'loss': '14.46', 'grad_norm': '50.42', 'learning_rate': '1.093e-05', 'epoch': '0.3333'}
|
||||
{'loss': '13.43', 'grad_norm': '56.6', 'learning_rate': '1.278e-05', 'epoch': '0.3889'}
|
||||
{'loss': '11.79', 'grad_norm': '39.79', 'learning_rate': '1.463e-05', 'epoch': '0.4444'}
|
||||
{'loss': '10.1', 'grad_norm': '37.04', 'learning_rate': '1.648e-05', 'epoch': '0.5'}
|
||||
{'loss': '7.905', 'grad_norm': '44.11', 'learning_rate': '1.833e-05', 'epoch': '0.5556'}
|
||||
{'loss': '5.206', 'grad_norm': '43.47', 'learning_rate': '2.019e-05', 'epoch': '0.6111'}
|
||||
{'loss': '4.517', 'grad_norm': '43.53', 'learning_rate': '2.204e-05', 'epoch': '0.6667'}
|
||||
{'loss': '3.873', 'grad_norm': '21.54', 'learning_rate': '2.389e-05', 'epoch': '0.7222'}
|
||||
{'loss': '2.97', 'grad_norm': '17.54', 'learning_rate': '2.574e-05', 'epoch': '0.7778'}
|
||||
{'loss': '2.359', 'grad_norm': '81.92', 'learning_rate': '2.759e-05', 'epoch': '0.8333'}
|
||||
{'loss': '1.847', 'grad_norm': '12.21', 'learning_rate': '2.944e-05', 'epoch': '0.8889'}
|
||||
{'loss': '1.58', 'grad_norm': '20.55', 'learning_rate': '3.13e-05', 'epoch': '0.9444'}
|
||||
{'loss': '1.506', 'grad_norm': '16.61', 'learning_rate': '3.315e-05', 'epoch': '1'}
|
||||
{'eval_loss': '0.1121', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1667', 'eval_runtime': '106.5', 'eval_samples_per_second': '2.057', 'eval_steps_per_second': '0.263', 'epoch': '1'}
|
||||
{'loss': '1.54', 'grad_norm': '8.567', 'learning_rate': '3.5e-05', 'epoch': '1.056'}
|
||||
{'loss': '0.91', 'grad_norm': '39.48', 'learning_rate': '3.685e-05', 'epoch': '1.111'}
|
||||
{'loss': '0.9203', 'grad_norm': '5.683', 'learning_rate': '3.87e-05', 'epoch': '1.167'}
|
||||
{'loss': '0.7447', 'grad_norm': '4.14', 'learning_rate': '4.056e-05', 'epoch': '1.222'}
|
||||
{'loss': '0.6591', 'grad_norm': '11.54', 'learning_rate': '4.241e-05', 'epoch': '1.278'}
|
||||
{'loss': '0.6295', 'grad_norm': '6.007', 'learning_rate': '4.426e-05', 'epoch': '1.333'}
|
||||
{'loss': '0.5455', 'grad_norm': '4.925', 'learning_rate': '4.611e-05', 'epoch': '1.389'}
|
||||
{'loss': '0.5387', 'grad_norm': '1.691', 'learning_rate': '4.796e-05', 'epoch': '1.444'}
|
||||
{'loss': '0.5033', 'grad_norm': '3.911', 'learning_rate': '4.981e-05', 'epoch': '1.5'}
|
||||
{'loss': '0.5167', 'grad_norm': '6.595', 'learning_rate': '5.167e-05', 'epoch': '1.556'}
|
||||
{'loss': '0.4878', 'grad_norm': '7.394', 'learning_rate': '5.352e-05', 'epoch': '1.611'}
|
||||
{'loss': '0.5138', 'grad_norm': '5.293', 'learning_rate': '5.537e-05', 'epoch': '1.667'}
|
||||
{'loss': '0.4671', 'grad_norm': '1.434', 'learning_rate': '5.722e-05', 'epoch': '1.722'}
|
||||
{'loss': '0.4832', 'grad_norm': '1.653', 'learning_rate': '5.907e-05', 'epoch': '1.778'}
|
||||
{'loss': '0.5022', 'grad_norm': '12.34', 'learning_rate': '6.093e-05', 'epoch': '1.833'}
|
||||
{'loss': '0.451', 'grad_norm': '3.589', 'learning_rate': '6.278e-05', 'epoch': '1.889'}
|
||||
{'loss': '0.4325', 'grad_norm': '1.188', 'learning_rate': '6.463e-05', 'epoch': '1.944'}
|
||||
{'loss': '0.3984', 'grad_norm': '1.646', 'learning_rate': '6.648e-05', 'epoch': '2'}
|
||||
{'eval_loss': '0.09331', 'eval_accuracy': '0.4749', 'eval_f1_macro': '0.4241', 'eval_runtime': '105.7', 'eval_samples_per_second': '2.071', 'eval_steps_per_second': '0.265', 'epoch': '2'}
|
||||
{'loss': '0.4126', 'grad_norm': '1.936', 'learning_rate': '6.833e-05', 'epoch': '2.056'}
|
||||
{'loss': '0.4013', 'grad_norm': '1.64', 'learning_rate': '7.019e-05', 'epoch': '2.111'}
|
||||
{'loss': '0.3856', 'grad_norm': '1.888', 'learning_rate': '7.204e-05', 'epoch': '2.167'}
|
||||
{'loss': '0.3317', 'grad_norm': '1.572', 'learning_rate': '7.389e-05', 'epoch': '2.222'}
|
||||
{'loss': '0.3377', 'grad_norm': '1.841', 'learning_rate': '7.574e-05', 'epoch': '2.278'}
|
||||
{'loss': '0.3252', 'grad_norm': '1.3', 'learning_rate': '7.759e-05', 'epoch': '2.333'}
|
||||
{'loss': '0.3498', 'grad_norm': '1.531', 'learning_rate': '7.944e-05', 'epoch': '2.389'}
|
||||
{'loss': '0.3116', 'grad_norm': '1.637', 'learning_rate': '8.13e-05', 'epoch': '2.444'}
|
||||
{'loss': '0.3697', 'grad_norm': '2.368', 'learning_rate': '8.315e-05', 'epoch': '2.5'}
|
||||
{'loss': '0.3553', 'grad_norm': '1.5', 'learning_rate': '8.5e-05', 'epoch': '2.556'}
|
||||
{'loss': '0.3292', 'grad_norm': '1.308', 'learning_rate': '8.685e-05', 'epoch': '2.611'}
|
||||
{'loss': '0.3383', 'grad_norm': '1.561', 'learning_rate': '8.87e-05', 'epoch': '2.667'}
|
||||
{'loss': '0.3353', 'grad_norm': '1.995', 'learning_rate': '9.056e-05', 'epoch': '2.722'}
|
||||
{'loss': '0.2964', 'grad_norm': '3.824', 'learning_rate': '9.241e-05', 'epoch': '2.778'}
|
||||
{'loss': '0.2852', 'grad_norm': '1.144', 'learning_rate': '9.426e-05', 'epoch': '2.833'}
|
||||
{'loss': '0.2988', 'grad_norm': '3.979', 'learning_rate': '9.611e-05', 'epoch': '2.889'}
|
||||
{'loss': '0.2903', 'grad_norm': '11.14', 'learning_rate': '9.796e-05', 'epoch': '2.944'}
|
||||
{'loss': '0.2688', 'grad_norm': '0.9756', 'learning_rate': '9.981e-05', 'epoch': '3'}
|
||||
{'eval_loss': '0.08739', 'eval_accuracy': '0.5297', 'eval_f1_macro': '0.4854', 'eval_runtime': '106.1', 'eval_samples_per_second': '2.063', 'eval_steps_per_second': '0.264', 'epoch': '3'}
|
||||
{'loss': '0.2418', 'grad_norm': '1.327', 'learning_rate': '0.0001', 'epoch': '3.056'}
|
||||
{'loss': '0.2638', 'grad_norm': '1.858', 'learning_rate': '0.0001', 'epoch': '3.111'}
|
||||
{'loss': '0.2647', 'grad_norm': '1.894', 'learning_rate': '9.999e-05', 'epoch': '3.167'}
|
||||
{'loss': '0.252', 'grad_norm': '1.613', 'learning_rate': '9.998e-05', 'epoch': '3.222'}
|
||||
{'loss': '0.2114', 'grad_norm': '1.535', 'learning_rate': '9.997e-05', 'epoch': '3.278'}
|
||||
{'loss': '0.1979', 'grad_norm': '1.696', 'learning_rate': '9.996e-05', 'epoch': '3.333'}
|
||||
{'loss': '0.2036', 'grad_norm': '1.235', 'learning_rate': '9.995e-05', 'epoch': '3.389'}
|
||||
{'loss': '0.2308', 'grad_norm': '1.665', 'learning_rate': '9.993e-05', 'epoch': '3.444'}
|
||||
{'loss': '0.2274', 'grad_norm': '1.34', 'learning_rate': '9.992e-05', 'epoch': '3.5'}
|
||||
{'loss': '0.191', 'grad_norm': '1.447', 'learning_rate': '9.99e-05', 'epoch': '3.556'}
|
||||
{'loss': '0.2044', 'grad_norm': '2.155', 'learning_rate': '9.988e-05', 'epoch': '3.611'}
|
||||
{'loss': '0.1755', 'grad_norm': '1.544', 'learning_rate': '9.985e-05', 'epoch': '3.667'}
|
||||
{'loss': '0.1824', 'grad_norm': '2.093', 'learning_rate': '9.983e-05', 'epoch': '3.722'}
|
||||
{'loss': '0.1727', 'grad_norm': '2.961', 'learning_rate': '9.98e-05', 'epoch': '3.778'}
|
||||
{'loss': '0.2239', 'grad_norm': '1.734', 'learning_rate': '9.977e-05', 'epoch': '3.833'}
|
||||
{'loss': '0.1899', 'grad_norm': '1.448', 'learning_rate': '9.974e-05', 'epoch': '3.889'}
|
||||
{'loss': '0.1814', 'grad_norm': '2.32', 'learning_rate': '9.97e-05', 'epoch': '3.944'}
|
||||
{'loss': '0.1755', 'grad_norm': '1.86', 'learning_rate': '9.967e-05', 'epoch': '4'}
|
||||
{'eval_loss': '0.07903', 'eval_accuracy': '0.6895', 'eval_f1_macro': '0.6899', 'eval_runtime': '106.6', 'eval_samples_per_second': '2.054', 'eval_steps_per_second': '0.263', 'epoch': '4'}
|
||||
{'loss': '0.1275', 'grad_norm': '3.106', 'learning_rate': '9.963e-05', 'epoch': '4.056'}
|
||||
{'loss': '0.1281', 'grad_norm': '2.33', 'learning_rate': '9.959e-05', 'epoch': '4.111'}
|
||||
{'loss': '0.1452', 'grad_norm': '1.859', 'learning_rate': '9.954e-05', 'epoch': '4.167'}
|
||||
{'loss': '0.1269', 'grad_norm': '1.896', 'learning_rate': '9.95e-05', 'epoch': '4.222'}
|
||||
{'loss': '0.1233', 'grad_norm': '2.57', 'learning_rate': '9.945e-05', 'epoch': '4.278'}
|
||||
{'loss': '0.1465', 'grad_norm': '2.685', 'learning_rate': '9.94e-05', 'epoch': '4.333'}
|
||||
{'loss': '0.1661', 'grad_norm': '0.9907', 'learning_rate': '9.935e-05', 'epoch': '4.389'}
|
||||
{'loss': '0.1102', 'grad_norm': '2.938', 'learning_rate': '9.93e-05', 'epoch': '4.444'}
|
||||
{'loss': '0.1182', 'grad_norm': '1.862', 'learning_rate': '9.925e-05', 'epoch': '4.5'}
|
||||
{'loss': '0.1721', 'grad_norm': '2.176', 'learning_rate': '9.919e-05', 'epoch': '4.556'}
|
||||
{'loss': '0.1368', 'grad_norm': '1.267', 'learning_rate': '9.913e-05', 'epoch': '4.611'}
|
||||
{'loss': '0.1245', 'grad_norm': '3.203', 'learning_rate': '9.907e-05', 'epoch': '4.667'}
|
||||
{'loss': '0.1536', 'grad_norm': '2.007', 'learning_rate': '9.901e-05', 'epoch': '4.722'}
|
||||
{'loss': '0.1365', 'grad_norm': '2.343', 'learning_rate': '9.894e-05', 'epoch': '4.778'}
|
||||
{'loss': '0.1671', 'grad_norm': '3.646', 'learning_rate': '9.887e-05', 'epoch': '4.833'}
|
||||
{'loss': '0.1417', 'grad_norm': '1.09', 'learning_rate': '9.88e-05', 'epoch': '4.889'}
|
||||
{'loss': '0.1002', 'grad_norm': '1.696', 'learning_rate': '9.873e-05', 'epoch': '4.944'}
|
||||
{'loss': '0.1144', 'grad_norm': '1.926', 'learning_rate': '9.866e-05', 'epoch': '5'}
|
||||
{'eval_loss': '0.06116', 'eval_accuracy': '0.7808', 'eval_f1_macro': '0.7831', 'eval_runtime': '106.6', 'eval_samples_per_second': '2.055', 'eval_steps_per_second': '0.263', 'epoch': '5'}
|
||||
{'loss': '0.1054', 'grad_norm': '1.36', 'learning_rate': '9.858e-05', 'epoch': '5.056'}
|
||||
{'loss': '0.08459', 'grad_norm': '3.187', 'learning_rate': '9.851e-05', 'epoch': '5.111'}
|
||||
{'loss': '0.1275', 'grad_norm': '2.495', 'learning_rate': '9.843e-05', 'epoch': '5.167'}
|
||||
{'loss': '0.08002', 'grad_norm': '1.458', 'learning_rate': '9.835e-05', 'epoch': '5.222'}
|
||||
{'loss': '0.1002', 'grad_norm': '2.299', 'learning_rate': '9.826e-05', 'epoch': '5.278'}
|
||||
{'loss': '0.1129', 'grad_norm': '0.8684', 'learning_rate': '9.818e-05', 'epoch': '5.333'}
|
||||
{'loss': '0.07822', 'grad_norm': '0.9398', 'learning_rate': '9.809e-05', 'epoch': '5.389'}
|
||||
{'loss': '0.09044', 'grad_norm': '2.049', 'learning_rate': '9.8e-05', 'epoch': '5.444'}
|
||||
{'loss': '0.09677', 'grad_norm': '8.718', 'learning_rate': '9.791e-05', 'epoch': '5.5'}
|
||||
{'loss': '0.1067', 'grad_norm': '2.777', 'learning_rate': '9.782e-05', 'epoch': '5.556'}
|
||||
{'loss': '0.08454', 'grad_norm': '1.695', 'learning_rate': '9.772e-05', 'epoch': '5.611'}
|
||||
{'loss': '0.07226', 'grad_norm': '0.8294', 'learning_rate': '9.762e-05', 'epoch': '5.667'}
|
||||
{'loss': '0.07516', 'grad_norm': '0.9004', 'learning_rate': '9.752e-05', 'epoch': '5.722'}
|
||||
{'loss': '0.1167', 'grad_norm': '1.561', 'learning_rate': '9.742e-05', 'epoch': '5.778'}
|
||||
{'loss': '0.07728', 'grad_norm': '3.634', 'learning_rate': '9.732e-05', 'epoch': '5.833'}
|
||||
{'loss': '0.1273', 'grad_norm': '2.117', 'learning_rate': '9.721e-05', 'epoch': '5.889'}
|
||||
{'loss': '0.05944', 'grad_norm': '1.621', 'learning_rate': '9.711e-05', 'epoch': '5.944'}
|
||||
{'loss': '0.06912', 'grad_norm': '1.946', 'learning_rate': '9.7e-05', 'epoch': '6'}
|
||||
{'eval_loss': '0.05491', 'eval_accuracy': '0.7991', 'eval_f1_macro': '0.801', 'eval_runtime': '105.8', 'eval_samples_per_second': '2.071', 'eval_steps_per_second': '0.265', 'epoch': '6'}
|
||||
{'loss': '0.0387', 'grad_norm': '1.792', 'learning_rate': '9.688e-05', 'epoch': '6.056'}
|
||||
{'loss': '0.07151', 'grad_norm': '3.826', 'learning_rate': '9.677e-05', 'epoch': '6.111'}
|
||||
{'loss': '0.06049', 'grad_norm': '3.699', 'learning_rate': '9.666e-05', 'epoch': '6.167'}
|
||||
{'loss': '0.08918', 'grad_norm': '2.199', 'learning_rate': '9.654e-05', 'epoch': '6.222'}
|
||||
{'loss': '0.06295', 'grad_norm': '0.2884', 'learning_rate': '9.642e-05', 'epoch': '6.278'}
|
||||
{'loss': '0.0692', 'grad_norm': '2.308', 'learning_rate': '9.63e-05', 'epoch': '6.333'}
|
||||
{'loss': '0.06504', 'grad_norm': '2.358', 'learning_rate': '9.618e-05', 'epoch': '6.389'}
|
||||
{'loss': '0.08678', 'grad_norm': '1.519', 'learning_rate': '9.605e-05', 'epoch': '6.444'}
|
||||
{'loss': '0.05805', 'grad_norm': '1.092', 'learning_rate': '9.592e-05', 'epoch': '6.5'}
|
||||
{'loss': '0.04817', 'grad_norm': '2.172', 'learning_rate': '9.579e-05', 'epoch': '6.556'}
|
||||
{'loss': '0.08549', 'grad_norm': '3.618', 'learning_rate': '9.566e-05', 'epoch': '6.611'}
|
||||
{'loss': '0.08363', 'grad_norm': '2.229', 'learning_rate': '9.553e-05', 'epoch': '6.667'}
|
||||
{'loss': '0.06852', 'grad_norm': '2.268', 'learning_rate': '9.54e-05', 'epoch': '6.722'}
|
||||
{'loss': '0.06173', 'grad_norm': '1.336', 'learning_rate': '9.526e-05', 'epoch': '6.778'}
|
||||
{'loss': '0.05815', 'grad_norm': '1.254', 'learning_rate': '9.512e-05', 'epoch': '6.833'}
|
||||
{'loss': '0.0697', 'grad_norm': '0.8746', 'learning_rate': '9.498e-05', 'epoch': '6.889'}
|
||||
{'loss': '0.04526', 'grad_norm': '1.095', 'learning_rate': '9.484e-05', 'epoch': '6.944'}
|
||||
{'loss': '0.06447', 'grad_norm': '1.257', 'learning_rate': '9.47e-05', 'epoch': '7'}
|
||||
{'eval_loss': '0.08354', 'eval_accuracy': '0.7717', 'eval_f1_macro': '0.774', 'eval_runtime': '105.7', 'eval_samples_per_second': '2.071', 'eval_steps_per_second': '0.265', 'epoch': '7'}
|
||||
{'loss': '0.03113', 'grad_norm': '0.6693', 'learning_rate': '9.455e-05', 'epoch': '7.056'}
|
||||
{'loss': '0.03981', 'grad_norm': '2.623', 'learning_rate': '9.44e-05', 'epoch': '7.111'}
|
||||
{'loss': '0.0439', 'grad_norm': '1.121', 'learning_rate': '9.425e-05', 'epoch': '7.167'}
|
||||
{'loss': '0.05636', 'grad_norm': '0.9213', 'learning_rate': '9.41e-05', 'epoch': '7.222'}
|
||||
{'loss': '0.03435', 'grad_norm': '0.2191', 'learning_rate': '9.395e-05', 'epoch': '7.278'}
|
||||
{'loss': '0.05258', 'grad_norm': '1.381', 'learning_rate': '9.379e-05', 'epoch': '7.333'}
|
||||
{'loss': '0.03393', 'grad_norm': '0.4537', 'learning_rate': '9.364e-05', 'epoch': '7.389'}
|
||||
{'loss': '0.02731', 'grad_norm': '1.041', 'learning_rate': '9.348e-05', 'epoch': '7.444'}
|
||||
{'loss': '0.01783', 'grad_norm': '0.5819', 'learning_rate': '9.332e-05', 'epoch': '7.5'}
|
||||
{'loss': '0.0405', 'grad_norm': '1.067', 'learning_rate': '9.316e-05', 'epoch': '7.556'}
|
||||
{'loss': '0.07658', 'grad_norm': '2.287', 'learning_rate': '9.299e-05', 'epoch': '7.611'}
|
||||
{'loss': '0.05072', 'grad_norm': '1.161', 'learning_rate': '9.283e-05', 'epoch': '7.667'}
|
||||
{'loss': '0.04726', 'grad_norm': '0.1099', 'learning_rate': '9.266e-05', 'epoch': '7.722'}
|
||||
{'loss': '0.06298', 'grad_norm': '1.294', 'learning_rate': '9.249e-05', 'epoch': '7.778'}
|
||||
{'loss': '0.05601', 'grad_norm': '0.8206', 'learning_rate': '9.232e-05', 'epoch': '7.833'}
|
||||
{'loss': '0.05385', 'grad_norm': '0.9627', 'learning_rate': '9.214e-05', 'epoch': '7.889'}
|
||||
{'loss': '0.0451', 'grad_norm': '1.334', 'learning_rate': '9.197e-05', 'epoch': '7.944'}
|
||||
{'loss': '0.05816', 'grad_norm': '3.167', 'learning_rate': '9.179e-05', 'epoch': '8'}
|
||||
{'eval_loss': '0.08189', 'eval_accuracy': '0.7763', 'eval_f1_macro': '0.7742', 'eval_runtime': '106.1', 'eval_samples_per_second': '2.065', 'eval_steps_per_second': '0.264', 'epoch': '8'}
|
||||
{'loss': '0.04599', 'grad_norm': '2.56', 'learning_rate': '9.161e-05', 'epoch': '8.056'}
|
||||
{'loss': '0.04268', 'grad_norm': '0.6989', 'learning_rate': '9.143e-05', 'epoch': '8.111'}
|
||||
{'loss': '0.02385', 'grad_norm': '0.1719', 'learning_rate': '9.125e-05', 'epoch': '8.167'}
|
||||
{'loss': '0.04146', 'grad_norm': '0.6262', 'learning_rate': '9.107e-05', 'epoch': '8.222'}
|
||||
{'loss': '0.02073', 'grad_norm': '1.106', 'learning_rate': '9.088e-05', 'epoch': '8.278'}
|
||||
{'loss': '0.01266', 'grad_norm': '0.05547', 'learning_rate': '9.07e-05', 'epoch': '8.333'}
|
||||
{'loss': '0.02974', 'grad_norm': '1.085', 'learning_rate': '9.051e-05', 'epoch': '8.389'}
|
||||
{'loss': '0.02639', 'grad_norm': '2.068', 'learning_rate': '9.032e-05', 'epoch': '8.444'}
|
||||
{'loss': '0.0302', 'grad_norm': '0.1163', 'learning_rate': '9.013e-05', 'epoch': '8.5'}
|
||||
{'loss': '0.02345', 'grad_norm': '1.685', 'learning_rate': '8.993e-05', 'epoch': '8.556'}
|
||||
{'loss': '0.02137', 'grad_norm': '0.4356', 'learning_rate': '8.974e-05', 'epoch': '8.611'}
|
||||
{'loss': '0.02701', 'grad_norm': '0.4995', 'learning_rate': '8.954e-05', 'epoch': '8.667'}
|
||||
{'loss': '0.04726', 'grad_norm': '2.221', 'learning_rate': '8.934e-05', 'epoch': '8.722'}
|
||||
{'loss': '0.04754', 'grad_norm': '1.238', 'learning_rate': '8.914e-05', 'epoch': '8.778'}
|
||||
{'loss': '0.04136', 'grad_norm': '0.9662', 'learning_rate': '8.894e-05', 'epoch': '8.833'}
|
||||
{'loss': '0.05404', 'grad_norm': '1.516', 'learning_rate': '8.873e-05', 'epoch': '8.889'}
|
||||
{'loss': '0.0614', 'grad_norm': '0.7286', 'learning_rate': '8.853e-05', 'epoch': '8.944'}
|
||||
{'loss': '0.03767', 'grad_norm': '0.5761', 'learning_rate': '8.832e-05', 'epoch': '9'}
|
||||
{'eval_loss': '0.09824', 'eval_accuracy': '0.7717', 'eval_f1_macro': '0.7688', 'eval_runtime': '105.9', 'eval_samples_per_second': '2.068', 'eval_steps_per_second': '0.264', 'epoch': '9'}
|
||||
{'loss': '0.01035', 'grad_norm': '0.272', 'learning_rate': '8.811e-05', 'epoch': '9.056'}
|
||||
{'loss': '0.01853', 'grad_norm': '0.4025', 'learning_rate': '8.79e-05', 'epoch': '9.111'}
|
||||
{'loss': '0.03058', 'grad_norm': '0.4254', 'learning_rate': '8.769e-05', 'epoch': '9.167'}
|
||||
{'loss': '0.01423', 'grad_norm': '0.04442', 'learning_rate': '8.748e-05', 'epoch': '9.222'}
|
||||
{'loss': '0.02278', 'grad_norm': '1.237', 'learning_rate': '8.727e-05', 'epoch': '9.278'}
|
||||
{'loss': '0.03703', 'grad_norm': '0.5286', 'learning_rate': '8.705e-05', 'epoch': '9.333'}
|
||||
{'loss': '0.02075', 'grad_norm': '0.7312', 'learning_rate': '8.683e-05', 'epoch': '9.389'}
|
||||
{'loss': '0.01099', 'grad_norm': '0.933', 'learning_rate': '8.661e-05', 'epoch': '9.444'}
|
||||
{'loss': '0.01046', 'grad_norm': '0.2793', 'learning_rate': '8.639e-05', 'epoch': '9.5'}
|
||||
{'loss': '0.02538', 'grad_norm': '1.843', 'learning_rate': '8.617e-05', 'epoch': '9.556'}
|
||||
{'loss': '0.02904', 'grad_norm': '2.633', 'learning_rate': '8.594e-05', 'epoch': '9.611'}
|
||||
{'loss': '0.03254', 'grad_norm': '0.04969', 'learning_rate': '8.572e-05', 'epoch': '9.667'}
|
||||
{'loss': '0.0275', 'grad_norm': '2.421', 'learning_rate': '8.549e-05', 'epoch': '9.722'}
|
||||
{'loss': '0.01437', 'grad_norm': '0.4819', 'learning_rate': '8.526e-05', 'epoch': '9.778'}
|
||||
{'loss': '0.006621', 'grad_norm': '0.5603', 'learning_rate': '8.503e-05', 'epoch': '9.833'}
|
||||
{'loss': '0.01574', 'grad_norm': '0.1494', 'learning_rate': '8.48e-05', 'epoch': '9.889'}
|
||||
{'loss': '0.01828', 'grad_norm': '1.458', 'learning_rate': '8.457e-05', 'epoch': '9.944'}
|
||||
{'loss': '0.03175', 'grad_norm': '0.0801', 'learning_rate': '8.434e-05', 'epoch': '10'}
|
||||
{'eval_loss': '0.1252', 'eval_accuracy': '0.758', 'eval_f1_macro': '0.7554', 'eval_runtime': '106.1', 'eval_samples_per_second': '2.065', 'eval_steps_per_second': '0.264', 'epoch': '10'}
|
||||
{'loss': '0.01547', 'grad_norm': '0.05208', 'learning_rate': '8.41e-05', 'epoch': '10.06'}
|
||||
{'loss': '0.02259', 'grad_norm': '0.06858', 'learning_rate': '8.386e-05', 'epoch': '10.11'}
|
||||
{'loss': '0.02182', 'grad_norm': '1.297', 'learning_rate': '8.362e-05', 'epoch': '10.17'}
|
||||
{'loss': '0.01751', 'grad_norm': '0.511', 'learning_rate': '8.338e-05', 'epoch': '10.22'}
|
||||
{'loss': '0.02615', 'grad_norm': '0.2301', 'learning_rate': '8.314e-05', 'epoch': '10.28'}
|
||||
{'loss': '0.01886', 'grad_norm': '1.289', 'learning_rate': '8.29e-05', 'epoch': '10.33'}
|
||||
{'loss': '0.00789', 'grad_norm': '0.07528', 'learning_rate': '8.266e-05', 'epoch': '10.39'}
|
||||
{'loss': '0.00409', 'grad_norm': '0.9508', 'learning_rate': '8.241e-05', 'epoch': '10.44'}
|
||||
{'loss': '0.01602', 'grad_norm': '3.103', 'learning_rate': '8.216e-05', 'epoch': '10.5'}
|
||||
{'loss': '0.02292', 'grad_norm': '0.9874', 'learning_rate': '8.192e-05', 'epoch': '10.56'}
|
||||
{'loss': '0.01431', 'grad_norm': '2.612', 'learning_rate': '8.167e-05', 'epoch': '10.61'}
|
||||
{'loss': '0.02169', 'grad_norm': '0.1059', 'learning_rate': '8.142e-05', 'epoch': '10.67'}
|
||||
{'loss': '0.01996', 'grad_norm': '0.09859', 'learning_rate': '8.116e-05', 'epoch': '10.72'}
|
||||
{'loss': '0.02897', 'grad_norm': '0.04338', 'learning_rate': '8.091e-05', 'epoch': '10.78'}
|
||||
{'loss': '0.02495', 'grad_norm': '0.1942', 'learning_rate': '8.066e-05', 'epoch': '10.83'}
|
||||
{'loss': '0.009281', 'grad_norm': '1.979', 'learning_rate': '8.04e-05', 'epoch': '10.89'}
|
||||
{'loss': '0.01778', 'grad_norm': '0.05166', 'learning_rate': '8.014e-05', 'epoch': '10.94'}
|
||||
{'loss': '0.005439', 'grad_norm': '0.0107', 'learning_rate': '7.988e-05', 'epoch': '11'}
|
||||
{'eval_loss': '0.1359', 'eval_accuracy': '0.7717', 'eval_f1_macro': '0.7718', 'eval_runtime': '105.9', 'eval_samples_per_second': '2.067', 'eval_steps_per_second': '0.264', 'epoch': '11'}
|
||||
{'loss': '0.01016', 'grad_norm': '0.005502', 'learning_rate': '7.962e-05', 'epoch': '11.06'}
|
||||
{'loss': '0.01504', 'grad_norm': '5.932', 'learning_rate': '7.936e-05', 'epoch': '11.11'}
|
||||
{'loss': '0.01613', 'grad_norm': '4.961', 'learning_rate': '7.91e-05', 'epoch': '11.17'}
|
||||
{'loss': '0.03184', 'grad_norm': '2.615', 'learning_rate': '7.884e-05', 'epoch': '11.22'}
|
||||
{'loss': '0.01815', 'grad_norm': '3.035', 'learning_rate': '7.857e-05', 'epoch': '11.28'}
|
||||
{'loss': '0.02053', 'grad_norm': '0.8841', 'learning_rate': '7.831e-05', 'epoch': '11.33'}
|
||||
{'loss': '0.01506', 'grad_norm': '0.4513', 'learning_rate': '7.804e-05', 'epoch': '11.39'}
|
||||
{'loss': '0.001491', 'grad_norm': '0.324', 'learning_rate': '7.777e-05', 'epoch': '11.44'}
|
||||
{'loss': '0.00905', 'grad_norm': '0.02892', 'learning_rate': '7.75e-05', 'epoch': '11.5'}
|
||||
{'loss': '0.01546', 'grad_norm': '0.1166', 'learning_rate': '7.723e-05', 'epoch': '11.56'}
|
||||
{'loss': '0.01899', 'grad_norm': '0.02845', 'learning_rate': '7.696e-05', 'epoch': '11.61'}
|
||||
{'loss': '0.01518', 'grad_norm': '0.1284', 'learning_rate': '7.669e-05', 'epoch': '11.67'}
|
||||
{'loss': '0.01559', 'grad_norm': '0.5628', 'learning_rate': '7.641e-05', 'epoch': '11.72'}
|
||||
{'loss': '0.01559', 'grad_norm': '1.986', 'learning_rate': '7.614e-05', 'epoch': '11.78'}
|
||||
{'loss': '0.007582', 'grad_norm': '0.18', 'learning_rate': '7.586e-05', 'epoch': '11.83'}
|
||||
{'loss': '0.01779', 'grad_norm': '0.09533', 'learning_rate': '7.559e-05', 'epoch': '11.89'}
|
||||
{'loss': '0.02005', 'grad_norm': '0.02764', 'learning_rate': '7.531e-05', 'epoch': '11.94'}
|
||||
{'loss': '0.0105', 'grad_norm': '0.2502', 'learning_rate': '7.503e-05', 'epoch': '12'}
|
||||
{'eval_loss': '0.1306', 'eval_accuracy': '0.7671', 'eval_f1_macro': '0.7666', 'eval_runtime': '106', 'eval_samples_per_second': '2.065', 'eval_steps_per_second': '0.264', 'epoch': '12'}
|
||||
{'loss': '0.02529', 'grad_norm': '1.387', 'learning_rate': '7.475e-05', 'epoch': '12.06'}
|
||||
{'loss': '0.005053', 'grad_norm': '0.03735', 'learning_rate': '7.447e-05', 'epoch': '12.11'}
|
||||
{'loss': '0.006847', 'grad_norm': '2.675', 'learning_rate': '7.418e-05', 'epoch': '12.17'}
|
||||
{'loss': '0.01695', 'grad_norm': '1.011', 'learning_rate': '7.39e-05', 'epoch': '12.22'}
|
||||
{'loss': '0.02034', 'grad_norm': '0.2724', 'learning_rate': '7.362e-05', 'epoch': '12.28'}
|
||||
{'loss': '0.005324', 'grad_norm': '2.115', 'learning_rate': '7.333e-05', 'epoch': '12.33'}
|
||||
{'loss': '0.002621', 'grad_norm': '0.01744', 'learning_rate': '7.304e-05', 'epoch': '12.39'}
|
||||
{'loss': '0.0177', 'grad_norm': '0.6538', 'learning_rate': '7.276e-05', 'epoch': '12.44'}
|
||||
{'loss': '0.006162', 'grad_norm': '0.1963', 'learning_rate': '7.247e-05', 'epoch': '12.5'}
|
||||
{'loss': '0.01943', 'grad_norm': '4.31', 'learning_rate': '7.218e-05', 'epoch': '12.56'}
|
||||
{'loss': '0.01834', 'grad_norm': '0.009528', 'learning_rate': '7.189e-05', 'epoch': '12.61'}
|
||||
{'loss': '0.009164', 'grad_norm': '0.02772', 'learning_rate': '7.16e-05', 'epoch': '12.67'}
|
||||
{'loss': '0.009574', 'grad_norm': '4.845', 'learning_rate': '7.131e-05', 'epoch': '12.72'}
|
||||
{'loss': '0.02951', 'grad_norm': '0.0584', 'learning_rate': '7.101e-05', 'epoch': '12.78'}
|
||||
{'loss': '0.0177', 'grad_norm': '0.1512', 'learning_rate': '7.072e-05', 'epoch': '12.83'}
|
||||
{'loss': '0.01241', 'grad_norm': '0.3222', 'learning_rate': '7.043e-05', 'epoch': '12.89'}
|
||||
{'loss': '0.0135', 'grad_norm': '0.02367', 'learning_rate': '7.013e-05', 'epoch': '12.94'}
|
||||
{'loss': '0.01088', 'grad_norm': '1.636', 'learning_rate': '6.983e-05', 'epoch': '13'}
|
||||
{'eval_loss': '0.1271', 'eval_accuracy': '0.7854', 'eval_f1_macro': '0.7845', 'eval_runtime': '106.7', 'eval_samples_per_second': '2.052', 'eval_steps_per_second': '0.262', 'epoch': '13'}
|
||||
{'loss': '0.01551', 'grad_norm': '0.3399', 'learning_rate': '6.954e-05', 'epoch': '13.06'}
|
||||
{'loss': '0.01869', 'grad_norm': '0.04705', 'learning_rate': '6.924e-05', 'epoch': '13.11'}
|
||||
{'loss': '0.01117', 'grad_norm': '0.03859', 'learning_rate': '6.894e-05', 'epoch': '13.17'}
|
||||
{'loss': '0.02566', 'grad_norm': '0.1825', 'learning_rate': '6.864e-05', 'epoch': '13.22'}
|
||||
{'loss': '0.007216', 'grad_norm': '0.9025', 'learning_rate': '6.834e-05', 'epoch': '13.28'}
|
||||
{'loss': '0.005052', 'grad_norm': '0.2419', 'learning_rate': '6.804e-05', 'epoch': '13.33'}
|
||||
{'loss': '0.02049', 'grad_norm': '0.2686', 'learning_rate': '6.774e-05', 'epoch': '13.39'}
|
||||
{'loss': '0.01055', 'grad_norm': '0.05016', 'learning_rate': '6.743e-05', 'epoch': '13.44'}
|
||||
{'loss': '0.0143', 'grad_norm': '0.05017', 'learning_rate': '6.713e-05', 'epoch': '13.5'}
|
||||
{'loss': '0.01368', 'grad_norm': '2.059', 'learning_rate': '6.683e-05', 'epoch': '13.56'}
|
||||
{'loss': '0.005512', 'grad_norm': '0.05989', 'learning_rate': '6.652e-05', 'epoch': '13.61'}
|
||||
{'loss': '0.006226', 'grad_norm': '0.7136', 'learning_rate': '6.622e-05', 'epoch': '13.67'}
|
||||
{'loss': '0.006618', 'grad_norm': '0.007432', 'learning_rate': '6.591e-05', 'epoch': '13.72'}
|
||||
{'loss': '0.01074', 'grad_norm': '0.1246', 'learning_rate': '6.56e-05', 'epoch': '13.78'}
|
||||
{'loss': '0.003471', 'grad_norm': '0.001922', 'learning_rate': '6.53e-05', 'epoch': '13.83'}
|
||||
{'loss': '0.0003102', 'grad_norm': '0.04363', 'learning_rate': '6.499e-05', 'epoch': '13.89'}
|
||||
{'loss': '0.0006633', 'grad_norm': '0.03808', 'learning_rate': '6.468e-05', 'epoch': '13.94'}
|
||||
{'loss': '0.0119', 'grad_norm': '2.759', 'learning_rate': '6.437e-05', 'epoch': '14'}
|
||||
{'eval_loss': '0.1682', 'eval_accuracy': '0.7534', 'eval_f1_macro': '0.7541', 'eval_runtime': '106.6', 'eval_samples_per_second': '2.055', 'eval_steps_per_second': '0.263', 'epoch': '14'}
|
||||
{'loss': '0.0133', 'grad_norm': '1.193', 'learning_rate': '6.406e-05', 'epoch': '14.06'}
|
||||
{'loss': '0.01642', 'grad_norm': '0.2833', 'learning_rate': '6.375e-05', 'epoch': '14.11'}
|
||||
{'loss': '0.00481', 'grad_norm': '0.02297', 'learning_rate': '6.344e-05', 'epoch': '14.17'}
|
||||
{'loss': '0.002218', 'grad_norm': '1.638', 'learning_rate': '6.313e-05', 'epoch': '14.22'}
|
||||
{'loss': '0.003484', 'grad_norm': '0.008354', 'learning_rate': '6.282e-05', 'epoch': '14.28'}
|
||||
{'loss': '0.00768', 'grad_norm': '0.014', 'learning_rate': '6.25e-05', 'epoch': '14.33'}
|
||||
{'loss': '0.002859', 'grad_norm': '0.005389', 'learning_rate': '6.219e-05', 'epoch': '14.39'}
|
||||
{'loss': '0.00363', 'grad_norm': '0.01703', 'learning_rate': '6.188e-05', 'epoch': '14.44'}
|
||||
{'loss': '0.004527', 'grad_norm': '4.999', 'learning_rate': '6.156e-05', 'epoch': '14.5'}
|
||||
{'loss': '0.01228', 'grad_norm': '0.001673', 'learning_rate': '6.125e-05', 'epoch': '14.56'}
|
||||
{'loss': '0.01024', 'grad_norm': '1.325', 'learning_rate': '6.093e-05', 'epoch': '14.61'}
|
||||
{'loss': '0.002511', 'grad_norm': '2.234', 'learning_rate': '6.062e-05', 'epoch': '14.67'}
|
||||
{'loss': '0.002677', 'grad_norm': '0.005474', 'learning_rate': '6.03e-05', 'epoch': '14.72'}
|
||||
{'loss': '0.008674', 'grad_norm': '0.002243', 'learning_rate': '5.998e-05', 'epoch': '14.78'}
|
||||
{'loss': '0.01416', 'grad_norm': '0.00276', 'learning_rate': '5.967e-05', 'epoch': '14.83'}
|
||||
{'loss': '0.001077', 'grad_norm': '0.1665', 'learning_rate': '5.935e-05', 'epoch': '14.89'}
|
||||
{'loss': '0.004752', 'grad_norm': '0.02118', 'learning_rate': '5.903e-05', 'epoch': '14.94'}
|
||||
{'loss': '0.006503', 'grad_norm': '1.967', 'learning_rate': '5.871e-05', 'epoch': '15'}
|
||||
{'eval_loss': '0.1228', 'eval_accuracy': '0.79', 'eval_f1_macro': '0.7896', 'eval_runtime': '105.7', 'eval_samples_per_second': '2.071', 'eval_steps_per_second': '0.265', 'epoch': '15'}
|
||||
{'loss': '0.00756', 'grad_norm': '0.004638', 'learning_rate': '5.84e-05', 'epoch': '15.06'}
|
||||
{'loss': '0.002511', 'grad_norm': '0.006597', 'learning_rate': '5.808e-05', 'epoch': '15.11'}
|
||||
{'loss': '0.002242', 'grad_norm': '0.8027', 'learning_rate': '5.776e-05', 'epoch': '15.17'}
|
||||
{'loss': '0.0002855', 'grad_norm': '0.02001', 'learning_rate': '5.744e-05', 'epoch': '15.22'}
|
||||
{'loss': '0.00473', 'grad_norm': '0.01003', 'learning_rate': '5.712e-05', 'epoch': '15.28'}
|
||||
{'loss': '0.002294', 'grad_norm': '0.00268', 'learning_rate': '5.68e-05', 'epoch': '15.33'}
|
||||
{'loss': '0.01172', 'grad_norm': '0.002129', 'learning_rate': '5.648e-05', 'epoch': '15.39'}
|
||||
{'loss': '0.001938', 'grad_norm': '3.331', 'learning_rate': '5.616e-05', 'epoch': '15.44'}
|
||||
{'loss': '0.0007251', 'grad_norm': '0.01041', 'learning_rate': '5.584e-05', 'epoch': '15.5'}
|
||||
{'loss': '0.00259', 'grad_norm': '0.005297', 'learning_rate': '5.552e-05', 'epoch': '15.56'}
|
||||
{'loss': '0.001559', 'grad_norm': '0.005115', 'learning_rate': '5.519e-05', 'epoch': '15.61'}
|
||||
{'loss': '0.00113', 'grad_norm': '0.03056', 'learning_rate': '5.487e-05', 'epoch': '15.67'}
|
||||
{'loss': '0.005897', 'grad_norm': '0.003646', 'learning_rate': '5.455e-05', 'epoch': '15.72'}
|
||||
{'loss': '0.003432', 'grad_norm': '0.006152', 'learning_rate': '5.423e-05', 'epoch': '15.78'}
|
||||
{'loss': '0.003579', 'grad_norm': '0.001413', 'learning_rate': '5.391e-05', 'epoch': '15.83'}
|
||||
{'loss': '0.01223', 'grad_norm': '0.05825', 'learning_rate': '5.358e-05', 'epoch': '15.89'}
|
||||
{'loss': '0.00897', 'grad_norm': '5.674', 'learning_rate': '5.326e-05', 'epoch': '15.94'}
|
||||
{'loss': '0.00431', 'grad_norm': '3.035', 'learning_rate': '5.294e-05', 'epoch': '16'}
|
||||
{'eval_loss': '0.1812', 'eval_accuracy': '0.7534', 'eval_f1_macro': '0.7498', 'eval_runtime': '135.6', 'eval_samples_per_second': '1.615', 'eval_steps_per_second': '0.206', 'epoch': '16'}
|
||||
{'train_runtime': '1.94e+04', 'train_samples_per_second': '8.906', 'train_steps_per_second': '0.278', 'train_loss': '0.6819', 'epoch': '16'}
|
||||
Training complete! Model saved to ./byt5-taglish-nli-final-v3
|
||||
Reference in New Issue
Block a user