Using GPU: Quadro RTX 8000 Loading training data from new_dataset.csv... Loading benchmark data from benchmark_dataset.csv... Loading tokenizer and model from local path: ./byt5_local_weights... Tokenizing datasets... Starting training... {'loss': '14.11', 'grad_norm': '7201', 'learning_rate': '0.0002992', 'epoch': '0.05556'} {'loss': '3.037', 'grad_norm': '992.4', 'learning_rate': '0.0002984', 'epoch': '0.1111'} {'loss': '0.9589', 'grad_norm': '285', 'learning_rate': '0.0002976', 'epoch': '0.1667'} {'loss': '0.6585', 'grad_norm': '238.9', 'learning_rate': '0.0002967', 'epoch': '0.2222'} {'loss': '0.5985', 'grad_norm': '489.7', 'learning_rate': '0.0002959', 'epoch': '0.2778'} {'loss': '0.6002', 'grad_norm': '1114', 'learning_rate': '0.0002951', 'epoch': '0.3333'} {'loss': '0.5507', 'grad_norm': '330.2', 'learning_rate': '0.0002942', 'epoch': '0.3889'} {'loss': '0.4983', 'grad_norm': '50.29', 'learning_rate': '0.0002934', 'epoch': '0.4444'} {'loss': '0.4855', 'grad_norm': '91.86', 'learning_rate': '0.0002926', 'epoch': '0.5'} {'loss': '0.4765', 'grad_norm': '721.2', 'learning_rate': '0.0002917', 'epoch': '0.5556'} {'loss': '0.4662', 'grad_norm': '81.06', 'learning_rate': '0.0002909', 'epoch': '0.6111'} {'loss': '0.456', 'grad_norm': '50.21', 'learning_rate': '0.0002901', 'epoch': '0.6667'} {'loss': '0.4549', 'grad_norm': '52.37', 'learning_rate': '0.0002892', 'epoch': '0.7222'} {'loss': '0.4547', 'grad_norm': '67.93', 'learning_rate': '0.0002884', 'epoch': '0.7778'} {'loss': '0.4319', 'grad_norm': '482.8', 'learning_rate': '0.0002876', 'epoch': '0.8333'} {'loss': '0.452', 'grad_norm': '58.43', 'learning_rate': '0.0002867', 'epoch': '0.8889'} {'loss': '0.4354', 'grad_norm': '44.05', 'learning_rate': '0.0002859', 'epoch': '0.9444'} {'loss': '0.4351', 'grad_norm': '57.75', 'learning_rate': '0.0002851', 'epoch': '1'} {'eval_loss': '0.1095', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1667', 'eval_runtime': '65.98', 'eval_samples_per_second': '3.319', 'eval_steps_per_second': '0.424', 'epoch': '1'} {'loss': '0.4244', 'grad_norm': '47.99', 'learning_rate': '0.0002842', 'epoch': '1.056'} {'loss': '0.4279', 'grad_norm': '101.2', 'learning_rate': '0.0002834', 'epoch': '1.111'} {'loss': '0.4098', 'grad_norm': '31.89', 'learning_rate': '0.0002826', 'epoch': '1.167'} {'loss': '0.4387', 'grad_norm': '46.5', 'learning_rate': '0.0002817', 'epoch': '1.222'} {'loss': '0.4289', 'grad_norm': '166.7', 'learning_rate': '0.0002809', 'epoch': '1.278'} {'loss': '0.4625', 'grad_norm': '52.09', 'learning_rate': '0.0002801', 'epoch': '1.333'} {'loss': '0.4373', 'grad_norm': '120.8', 'learning_rate': '0.0002792', 'epoch': '1.389'} {'loss': '0.4322', 'grad_norm': '433.9', 'learning_rate': '0.0002784', 'epoch': '1.444'} {'loss': '0.4293', 'grad_norm': '82.03', 'learning_rate': '0.0002776', 'epoch': '1.5'} {'loss': '0.4218', 'grad_norm': '102.6', 'learning_rate': '0.0002767', 'epoch': '1.556'} {'loss': '0.4113', 'grad_norm': '55.52', 'learning_rate': '0.0002759', 'epoch': '1.611'} {'loss': '0.4283', 'grad_norm': '62.15', 'learning_rate': '0.0002751', 'epoch': '1.667'} {'loss': '0.4203', 'grad_norm': '131.4', 'learning_rate': '0.0002742', 'epoch': '1.722'} {'loss': '0.4139', 'grad_norm': '111.7', 'learning_rate': '0.0002734', 'epoch': '1.778'} {'loss': '0.4165', 'grad_norm': '30.79', 'learning_rate': '0.0002726', 'epoch': '1.833'} {'loss': '0.4187', 'grad_norm': '83.58', 'learning_rate': '0.0002717', 'epoch': '1.889'} {'loss': '0.4115', 'grad_norm': '68.28', 'learning_rate': '0.0002709', 'epoch': '1.944'} {'loss': '0.4194', 'grad_norm': '35.55', 'learning_rate': '0.0002701', 'epoch': '2'} {'eval_loss': '0.1012', 'eval_accuracy': '0.3014', 'eval_f1_macro': '0.2297', 'eval_runtime': '66.11', 'eval_samples_per_second': '3.313', 'eval_steps_per_second': '0.424', 'epoch': '2'} {'loss': '0.4339', 'grad_norm': '16.67', 'learning_rate': '0.0002692', 'epoch': '2.056'} {'loss': '0.4157', 'grad_norm': '22.26', 'learning_rate': '0.0002684', 'epoch': '2.111'} {'loss': '0.4532', 'grad_norm': '12.54', 'learning_rate': '0.0002676', 'epoch': '2.167'} {'loss': '0.4235', 'grad_norm': '35.55', 'learning_rate': '0.0002667', 'epoch': '2.222'} {'loss': '0.4243', 'grad_norm': '21.34', 'learning_rate': '0.0002659', 'epoch': '2.278'} {'loss': '0.4247', 'grad_norm': '62.95', 'learning_rate': '0.0002651', 'epoch': '2.333'} {'loss': '0.4187', 'grad_norm': '17.24', 'learning_rate': '0.0002642', 'epoch': '2.389'} {'loss': '0.4082', 'grad_norm': '39.54', 'learning_rate': '0.0002634', 'epoch': '2.444'} {'loss': '0.4198', 'grad_norm': '35.25', 'learning_rate': '0.0002626', 'epoch': '2.5'} {'loss': '0.4153', 'grad_norm': '122.6', 'learning_rate': '0.0002617', 'epoch': '2.556'} {'loss': '0.4176', 'grad_norm': '17.69', 'learning_rate': '0.0002609', 'epoch': '2.611'} {'loss': '0.4064', 'grad_norm': '19.56', 'learning_rate': '0.0002601', 'epoch': '2.667'} {'loss': '0.4194', 'grad_norm': '103.3', 'learning_rate': '0.0002592', 'epoch': '2.722'} {'loss': '0.4155', 'grad_norm': '58.62', 'learning_rate': '0.0002584', 'epoch': '2.778'} {'loss': '0.4105', 'grad_norm': '20.83', 'learning_rate': '0.0002576', 'epoch': '2.833'} {'loss': '0.4139', 'grad_norm': '85.4', 'learning_rate': '0.0002567', 'epoch': '2.889'} {'loss': '0.411', 'grad_norm': '92.04', 'learning_rate': '0.0002559', 'epoch': '2.944'} {'loss': '0.4344', 'grad_norm': '533.7', 'learning_rate': '0.0002551', 'epoch': '3'} {'eval_loss': '0.1006', 'eval_accuracy': '0.3151', 'eval_f1_macro': '0.2072', 'eval_runtime': '66.31', 'eval_samples_per_second': '3.303', 'eval_steps_per_second': '0.422', 'epoch': '3'} {'loss': '0.4114', 'grad_norm': '78.27', 'learning_rate': '0.0002542', 'epoch': '3.056'} {'loss': '0.4175', 'grad_norm': '123', 'learning_rate': '0.0002534', 'epoch': '3.111'} {'loss': '0.4136', 'grad_norm': '922.3', 'learning_rate': '0.0002526', 'epoch': '3.167'} {'loss': '0.4055', 'grad_norm': '101.1', 'learning_rate': '0.0002517', 'epoch': '3.222'} {'loss': '0.4084', 'grad_norm': '147.2', 'learning_rate': '0.0002509', 'epoch': '3.278'} {'loss': '0.4076', 'grad_norm': '110.8', 'learning_rate': '0.0002501', 'epoch': '3.333'} {'loss': '0.3936', 'grad_norm': '431', 'learning_rate': '0.0002492', 'epoch': '3.389'} {'loss': '0.4118', 'grad_norm': '129.1', 'learning_rate': '0.0002484', 'epoch': '3.444'} {'loss': '0.4223', 'grad_norm': '37.17', 'learning_rate': '0.0002476', 'epoch': '3.5'} {'loss': '0.42', 'grad_norm': '31.41', 'learning_rate': '0.0002468', 'epoch': '3.556'} {'loss': '0.4275', 'grad_norm': '33.66', 'learning_rate': '0.0002459', 'epoch': '3.611'} {'loss': '0.4111', 'grad_norm': '60.32', 'learning_rate': '0.0002451', 'epoch': '3.667'} {'loss': '0.4101', 'grad_norm': '286.2', 'learning_rate': '0.0002443', 'epoch': '3.722'} {'loss': '0.4168', 'grad_norm': '64.4', 'learning_rate': '0.0002434', 'epoch': '3.778'} {'loss': '0.403', 'grad_norm': '61.76', 'learning_rate': '0.0002426', 'epoch': '3.833'} {'loss': '0.4106', 'grad_norm': '123.2', 'learning_rate': '0.0002417', 'epoch': '3.889'} {'loss': '0.4207', 'grad_norm': '226.2', 'learning_rate': '0.0002409', 'epoch': '3.944'} {'loss': '0.406', 'grad_norm': '95.46', 'learning_rate': '0.0002401', 'epoch': '4'} {'eval_loss': '0.1008', 'eval_accuracy': '0.3425', 'eval_f1_macro': '0.3014', 'eval_runtime': '67.91', 'eval_samples_per_second': '3.225', 'eval_steps_per_second': '0.412', 'epoch': '4'} {'loss': '0.4103', 'grad_norm': '91.96', 'learning_rate': '0.0002392', 'epoch': '4.056'} {'loss': '0.4149', 'grad_norm': '80.87', 'learning_rate': '0.0002384', 'epoch': '4.111'} {'loss': '0.4118', 'grad_norm': '45.06', 'learning_rate': '0.0002376', 'epoch': '4.167'} {'loss': '0.4192', 'grad_norm': '245.2', 'learning_rate': '0.0002367', 'epoch': '4.222'} {'loss': '0.3978', 'grad_norm': '100.5', 'learning_rate': '0.0002359', 'epoch': '4.278'} {'loss': '0.3969', 'grad_norm': '62.08', 'learning_rate': '0.0002351', 'epoch': '4.333'} {'loss': '0.4174', 'grad_norm': '37.23', 'learning_rate': '0.0002343', 'epoch': '4.389'} {'loss': '0.4199', 'grad_norm': '56.3', 'learning_rate': '0.0002334', 'epoch': '4.444'} {'loss': '0.4092', 'grad_norm': '38.33', 'learning_rate': '0.0002326', 'epoch': '4.5'} {'loss': '0.4203', 'grad_norm': '234.5', 'learning_rate': '0.0002317', 'epoch': '4.556'} {'loss': '0.4144', 'grad_norm': '173.2', 'learning_rate': '0.0002309', 'epoch': '4.611'} {'loss': '0.4104', 'grad_norm': '863.3', 'learning_rate': '0.0002301', 'epoch': '4.667'} {'loss': '0.4157', 'grad_norm': '134.3', 'learning_rate': '0.0002292', 'epoch': '4.722'} {'loss': '0.4163', 'grad_norm': '366.6', 'learning_rate': '0.0002284', 'epoch': '4.778'} {'loss': '0.3967', 'grad_norm': '65.24', 'learning_rate': '0.0002276', 'epoch': '4.833'} {'loss': '0.424', 'grad_norm': '66.93', 'learning_rate': '0.0002267', 'epoch': '4.889'} {'loss': '0.4062', 'grad_norm': '276', 'learning_rate': '0.0002259', 'epoch': '4.944'} {'loss': '0.4067', 'grad_norm': '103.1', 'learning_rate': '0.0002251', 'epoch': '5'} {'eval_loss': '0.1007', 'eval_accuracy': '0.3105', 'eval_f1_macro': '0.2474', 'eval_runtime': '65.58', 'eval_samples_per_second': '3.339', 'eval_steps_per_second': '0.427', 'epoch': '5'} {'loss': '0.4044', 'grad_norm': '179', 'learning_rate': '0.0002243', 'epoch': '5.056'} {'loss': '0.4011', 'grad_norm': '67', 'learning_rate': '0.0002234', 'epoch': '5.111'} {'loss': '0.4129', 'grad_norm': '130.2', 'learning_rate': '0.0002226', 'epoch': '5.167'} {'loss': '0.4079', 'grad_norm': '35.83', 'learning_rate': '0.0002217', 'epoch': '5.222'} {'loss': '0.4137', 'grad_norm': '24.63', 'learning_rate': '0.0002209', 'epoch': '5.278'} {'loss': '0.4126', 'grad_norm': '50.54', 'learning_rate': '0.0002201', 'epoch': '5.333'} {'loss': '0.4123', 'grad_norm': '52.41', 'learning_rate': '0.0002192', 'epoch': '5.389'} {'loss': '0.4221', 'grad_norm': '170.3', 'learning_rate': '0.0002184', 'epoch': '5.444'} {'loss': '0.4068', 'grad_norm': '287.1', 'learning_rate': '0.0002176', 'epoch': '5.5'} {'loss': '0.4096', 'grad_norm': '31.48', 'learning_rate': '0.0002167', 'epoch': '5.556'} {'loss': '0.4026', 'grad_norm': '52.11', 'learning_rate': '0.0002159', 'epoch': '5.611'} {'loss': '0.4181', 'grad_norm': '29.5', 'learning_rate': '0.0002151', 'epoch': '5.667'} {'loss': '0.4102', 'grad_norm': '101.8', 'learning_rate': '0.0002142', 'epoch': '5.722'} {'loss': '0.408', 'grad_norm': '36.18', 'learning_rate': '0.0002134', 'epoch': '5.778'} {'loss': '0.4096', 'grad_norm': '27.68', 'learning_rate': '0.0002126', 'epoch': '5.833'} {'loss': '0.4192', 'grad_norm': '271.1', 'learning_rate': '0.0002117', 'epoch': '5.889'} {'loss': '0.4076', 'grad_norm': '63.8', 'learning_rate': '0.0002109', 'epoch': '5.944'} {'loss': '0.4198', 'grad_norm': '34.42', 'learning_rate': '0.0002101', 'epoch': '6'} {'eval_loss': '0.1004', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1744', 'eval_runtime': '65.39', 'eval_samples_per_second': '3.349', 'eval_steps_per_second': '0.428', 'epoch': '6'} {'loss': '0.4138', 'grad_norm': '91.28', 'learning_rate': '0.0002092', 'epoch': '6.056'} {'loss': '0.4224', 'grad_norm': '91.96', 'learning_rate': '0.0002084', 'epoch': '6.111'} {'loss': '0.4095', 'grad_norm': '45.7', 'learning_rate': '0.0002076', 'epoch': '6.167'} {'loss': '0.4228', 'grad_norm': '1074', 'learning_rate': '0.0002067', 'epoch': '6.222'} {'loss': '0.4123', 'grad_norm': '194.2', 'learning_rate': '0.0002059', 'epoch': '6.278'} {'loss': '0.4059', 'grad_norm': '17.51', 'learning_rate': '0.0002051', 'epoch': '6.333'} {'loss': '0.412', 'grad_norm': '16.6', 'learning_rate': '0.0002042', 'epoch': '6.389'} {'loss': '0.4021', 'grad_norm': '28.19', 'learning_rate': '0.0002034', 'epoch': '6.444'} {'loss': '0.4105', 'grad_norm': '184.6', 'learning_rate': '0.0002026', 'epoch': '6.5'} {'loss': '0.4099', 'grad_norm': '53.71', 'learning_rate': '0.0002017', 'epoch': '6.556'} {'loss': '0.4152', 'grad_norm': '130.6', 'learning_rate': '0.0002009', 'epoch': '6.611'} {'loss': '0.4114', 'grad_norm': '48.4', 'learning_rate': '0.0002001', 'epoch': '6.667'} {'loss': '0.4116', 'grad_norm': '31.63', 'learning_rate': '0.0001992', 'epoch': '6.722'} {'loss': '0.4179', 'grad_norm': '64.32', 'learning_rate': '0.0001984', 'epoch': '6.778'} {'loss': '0.4109', 'grad_norm': '45.12', 'learning_rate': '0.0001976', 'epoch': '6.833'} {'loss': '0.4196', 'grad_norm': '224.8', 'learning_rate': '0.0001967', 'epoch': '6.889'} {'loss': '0.4073', 'grad_norm': '82.61', 'learning_rate': '0.0001959', 'epoch': '6.944'} {'loss': '0.4035', 'grad_norm': '58.54', 'learning_rate': '0.0001951', 'epoch': '7'} {'eval_loss': '0.1015', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1667', 'eval_runtime': '65.58', 'eval_samples_per_second': '3.34', 'eval_steps_per_second': '0.427', 'epoch': '7'} {'loss': '0.4047', 'grad_norm': '278.9', 'learning_rate': '0.0001942', 'epoch': '7.056'} {'loss': '0.414', 'grad_norm': '507.7', 'learning_rate': '0.0001934', 'epoch': '7.111'} {'loss': '0.4044', 'grad_norm': '425.9', 'learning_rate': '0.0001926', 'epoch': '7.167'} {'loss': '0.412', 'grad_norm': '101.5', 'learning_rate': '0.0001917', 'epoch': '7.222'} {'loss': '0.4019', 'grad_norm': '99.56', 'learning_rate': '0.0001909', 'epoch': '7.278'} {'loss': '0.4158', 'grad_norm': '34.15', 'learning_rate': '0.0001901', 'epoch': '7.333'} {'loss': '0.4121', 'grad_norm': '125.1', 'learning_rate': '0.0001892', 'epoch': '7.389'} {'loss': '0.4076', 'grad_norm': '96.14', 'learning_rate': '0.0001884', 'epoch': '7.444'} {'loss': '0.4174', 'grad_norm': '53.44', 'learning_rate': '0.0001876', 'epoch': '7.5'} {'loss': '0.4054', 'grad_norm': '32.7', 'learning_rate': '0.0001868', 'epoch': '7.556'} {'loss': '0.404', 'grad_norm': '63.24', 'learning_rate': '0.0001859', 'epoch': '7.611'} {'loss': '0.4132', 'grad_norm': '104', 'learning_rate': '0.0001851', 'epoch': '7.667'} {'loss': '0.4009', 'grad_norm': '89.86', 'learning_rate': '0.0001842', 'epoch': '7.722'} {'loss': '0.4071', 'grad_norm': '70.11', 'learning_rate': '0.0001834', 'epoch': '7.778'} {'loss': '0.4116', 'grad_norm': '36.62', 'learning_rate': '0.0001826', 'epoch': '7.833'} {'loss': '0.408', 'grad_norm': '291.6', 'learning_rate': '0.0001817', 'epoch': '7.889'} {'loss': '0.4101', 'grad_norm': '59.4', 'learning_rate': '0.0001809', 'epoch': '7.944'} {'loss': '0.4098', 'grad_norm': '152.1', 'learning_rate': '0.0001801', 'epoch': '8'} {'eval_loss': '0.1004', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1753', 'eval_runtime': '66.68', 'eval_samples_per_second': '3.284', 'eval_steps_per_second': '0.42', 'epoch': '8'} {'loss': '0.4135', 'grad_norm': '36.38', 'learning_rate': '0.0001792', 'epoch': '8.056'} {'loss': '0.401', 'grad_norm': '288', 'learning_rate': '0.0001784', 'epoch': '8.111'} {'loss': '0.4063', 'grad_norm': '52.41', 'learning_rate': '0.0001776', 'epoch': '8.167'} {'loss': '0.4046', 'grad_norm': '19.2', 'learning_rate': '0.0001767', 'epoch': '8.222'} {'loss': '0.4081', 'grad_norm': '36.77', 'learning_rate': '0.0001759', 'epoch': '8.278'} {'loss': '0.4028', 'grad_norm': '130.7', 'learning_rate': '0.0001751', 'epoch': '8.333'} {'loss': '0.4124', 'grad_norm': '71.84', 'learning_rate': '0.0001742', 'epoch': '8.389'} {'loss': '0.4017', 'grad_norm': '64.63', 'learning_rate': '0.0001734', 'epoch': '8.444'} {'loss': '0.4161', 'grad_norm': '112.4', 'learning_rate': '0.0001726', 'epoch': '8.5'} {'loss': '0.405', 'grad_norm': '82.75', 'learning_rate': '0.0001718', 'epoch': '8.556'} {'loss': '0.4001', 'grad_norm': '78.48', 'learning_rate': '0.0001709', 'epoch': '8.611'} {'loss': '0.4117', 'grad_norm': '65.27', 'learning_rate': '0.0001701', 'epoch': '8.667'} {'loss': '0.4068', 'grad_norm': '62.38', 'learning_rate': '0.0001692', 'epoch': '8.722'} {'loss': '0.4089', 'grad_norm': '141.5', 'learning_rate': '0.0001684', 'epoch': '8.778'} {'loss': '0.4043', 'grad_norm': '186.9', 'learning_rate': '0.0001676', 'epoch': '8.833'} {'loss': '0.414', 'grad_norm': '42.31', 'learning_rate': '0.0001667', 'epoch': '8.889'} {'loss': '0.4125', 'grad_norm': '34.83', 'learning_rate': '0.0001659', 'epoch': '8.944'} {'loss': '0.4094', 'grad_norm': '104.9', 'learning_rate': '0.0001651', 'epoch': '9'} {'eval_loss': '0.1022', 'eval_accuracy': '0.3333', 'eval_f1_macro': '0.1667', 'eval_runtime': '65.64', 'eval_samples_per_second': '3.336', 'eval_steps_per_second': '0.427', 'epoch': '9'} {'train_runtime': '6517', 'train_samples_per_second': '17.67', 'train_steps_per_second': '0.552', 'train_loss': '0.5254', 'epoch': '9'} Training complete! Model saved to ./byt5-taglish-nli-final