bedwards · September 25, 2025 16:41
diff --git a/01_insights.md b/01_insights.md
diff --git a/02_code.py b/02_code.py
 import os
 from datetime import datetime

 import numpy as np

 import catboost as cb  # CPU - no Apple MPS support
 import lightgbm as lgb  # CPU - no Apple MPS support
 import xgboost as xgb  # CPU - no Apple MPS support

 import torch
 import torch.nn as nn
 import torch.optim as optim
 from pytorch_tabnet.tab_model import TabNetRegressor
 import pytorch_lightning as lightning

 os.environ['OMP_NUM_THREADS'] = str(os.cpu_count())

 # Initial mps sanity check
 assert torch.backends.mps.is_available()
 print(f'torch mps is available: {torch.backends.mps.is_available()}')
 device_name = 'mps'
 device = torch.device(device_name)

 # The data
 n_samples = 10_000
 X = np.random.random((n_samples, 10)).astype(np.float32)
 n_features = X.shape[1]
 y = np.random.random(n_samples).astype(np.float32)
 X_tensor = torch.tensor(X, dtype=torch.float32).to(device)
 y_tensor = torch.tensor(y, dtype=torch.float32).to(device)

 timings = {}

 # Gradient Boosting models ==================================================

 # number of boosting rounds
 #   individual decision trees added sequentially to the ensemble model
 n_boost_rounds = 100

 # CatBoost ------------------------------------------------------------------
 model = cb.CatBoostRegressor(
    task_type='CPU',
    thread_count=os.cpu_count(),
    iterations=n_boost_rounds,
    # verbose=1,
 )

 start = datetime.now()
 model.fit(X, y, verbose=False)
 timings['CatBoost'] = (datetime.now()-start).total_seconds()
 print(f'CatBoost training: {timings["CatBoost"]}')

 # LightGBM ------------------------------------------------------------------
 model = lgb.LGBMRegressor(
    n_estimators=n_boost_rounds,
    device='cpu',
    n_jobs=os.cpu_count(),
 )

 lgb_device_name = model.get_params()['device']
 print(f'LightGBM device: {lgb_device_name}')
 start = datetime.now()
 model.fit(X, y)
 timings['LightGBM'] = (datetime.now()-start).total_seconds()
 print(f'LightGBM training: {timings["LightGBM"]}')

 # XGBoost (no mps support) --------------------------------------------------
 xgb_params = {
    'tree_method': 'hist',  # or for very large datasets use 'approx'
    # 'sketch_eps': 0.1,  # used with 'approx'
    'nthread': os.cpu_count(),
    'max_bin': 512,
    'grow_policy': 'lossguide',
    'subsample': 0.8,
    'colsample_bytree': 0.8,
 }

 print(f'XGBoost version: {xgb.__version__}')
 print(f'XGBoost built with: {xgb.build_info()}')
 dtrain = xgb.DMatrix(X, label=y)
 start = datetime.now()
 print(f'training start')
 model = xgb.train(xgb_params, dtrain, num_boost_round=n_boost_rounds)
 timings['XGBoost'] = (datetime.now()-start).total_seconds()
 print(f'XGBoost training: {timings["XGBoost"]}')


 # PyTorch-based Neural Networks =============================================

 n_epochs = n_boost_rounds // 2  # roughly a fair performance comparison

 def torch_training(model):
    criterion = nn.MSELoss()

    optimizer = optim.Adam(
        model.parameters(),
        lr=0.001,
    )

    for epoch in range(n_epochs):
        optimizer.zero_grad()
        outputs = model(X_tensor).squeeze()
        loss = criterion(outputs, y_tensor)
        loss.backward()
        optimizer.step()

 # torch ---------------------------------------------------------------------
 model = nn.Sequential(
    nn.Linear(n_features, 128),
    nn.ReLU(),
    nn.Dropout(0.2),
    nn.Linear(128, 64),
    nn.ReLU(),
    nn.Linear(64, 1)
 ).to(device)

 start = datetime.now()
 torch_training(model)
 timings['torch'] = (datetime.now()-start).total_seconds()
 print(f'torch training: {timings["torch"]}')

 # TabNet --------------------------------------------------------------------
 model = TabNetRegressor(device_name=device_name)
 start = datetime.now()
 model.fit(X, y.reshape(-1, 1), max_epochs=n_epochs, patience=10)
 timings['TabNet'] = (datetime.now()-start).total_seconds()
 print(f'TabNet training: {timings["TabNet"]}')

 # DIY torch TabularNet ------------------------------------------------------
 class TabularNet(nn.Module):
    def __init__(self, hidden_dims=(128, 64, 32)):
        super().__init__()
        layers = []
        prev_dim = n_features
        
        for dim in hidden_dims:
            layers.extend([
                nn.Linear(prev_dim, dim),
                nn.BatchNorm1d(dim),
                nn.ReLU(),
                nn.Dropout(0.2)
            ])
            prev_dim = dim
        
        layers.append(nn.Linear(prev_dim, 1))  # Output layer
        self.network = nn.Sequential(*layers)
    
    def forward(self, x):
        return self.network(x)

 model = TabularNet().to(device)
 start = datetime.now()
 torch_training(model)
 timings['DIY torch'] = (datetime.now()-start).total_seconds()
 print(f'DIY torch training: {timings["DIY torch"]}')

 # Lightning -----------------------------------------------------------------
 class TabularLightning(lightning.LightningModule):
    def __init__(self):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(n_features, 128),
            nn.ReLU(),
            nn.Linear(128, 64),
            nn.ReLU(),
            nn.Linear(64, 1)
        )
    
    def forward(self, x):
        return self.model(x)
    
    def training_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self(x).squeeze()
        loss = nn.MSELoss()(y_hat, y)
        return loss
    
    def configure_optimizers(self):
        return optim.Adam(self.parameters())


 trainer = lightning.Trainer(
    accelerator=device_name,
    devices=1,
    max_epochs=n_epochs,
    enable_progress_bar=False,
    enable_checkpointing=False,
 )

 train_loader = torch.utils.data.DataLoader(
    list(zip(X_tensor, y_tensor)),
    batch_size=32,
 )

 model = TabularLightning()
 start = datetime.now()
 trainer.fit(model, train_loader)
 timings['Lightning'] = (datetime.now()-start).total_seconds()
 print(f'Lightning training: {timings["Lightning"]}')


 # Timing report =============================================================
 print('\n' + '='*50)
 print('TRAINING TIME REPORT')
 print('='*50)
 sorted_times = sorted(timings.items(), key=lambda x: x[1])
 for i, (name, time) in enumerate(sorted_times, 1):
    print(f'{i}. {name:<15} {time:.4f}s')
diff --git a/03_tabnet.md b/03_tabnet.md
diff --git a/04_workers.md b/04_workers.md
Rank	Framework	Time (seconds)	Acceleration
1	CatBoost	0.205	CPU
2	DIY torch	0.578	🟢 MPS GPU
3	torch (simple)	0.877	🟢 MPS GPU
4	LightGBM	1.319	CPU
5	XGBoost	2.568	CPU
6	Lightning	26.305	🟢 MPS GPU
7	TabNet	29.142	🟢 MPS GPU
	import os
	from datetime import datetime

	import numpy as np

	import catboost as cb # CPU - no Apple MPS support
	import lightgbm as lgb # CPU - no Apple MPS support
	import xgboost as xgb # CPU - no Apple MPS support

	import torch
	import torch.nn as nn
	import torch.optim as optim
	from pytorch_tabnet.tab_model import TabNetRegressor
	import pytorch_lightning as lightning

	os.environ['OMP_NUM_THREADS'] = str(os.cpu_count())

	# Initial mps sanity check
	assert torch.backends.mps.is_available()
	print(f'torch mps is available: {torch.backends.mps.is_available()}')
	device_name = 'mps'
	device = torch.device(device_name)

	# The data
	n_samples = 10_000
	X = np.random.random((n_samples, 10)).astype(np.float32)
	n_features = X.shape[1]
	y = np.random.random(n_samples).astype(np.float32)
	X_tensor = torch.tensor(X, dtype=torch.float32).to(device)
	y_tensor = torch.tensor(y, dtype=torch.float32).to(device)

	timings = {}

	# Gradient Boosting models ==================================================

	# number of boosting rounds
	# individual decision trees added sequentially to the ensemble model
	n_boost_rounds = 100

	# CatBoost ------------------------------------------------------------------
	model = cb.CatBoostRegressor(
	task_type='CPU',
	thread_count=os.cpu_count(),
	iterations=n_boost_rounds,
	# verbose=1,
	)

	start = datetime.now()
	model.fit(X, y, verbose=False)
	timings['CatBoost'] = (datetime.now()-start).total_seconds()
	print(f'CatBoost training: {timings["CatBoost"]}')

	# LightGBM ------------------------------------------------------------------
	model = lgb.LGBMRegressor(
	n_estimators=n_boost_rounds,
	device='cpu',
	n_jobs=os.cpu_count(),
	)

	lgb_device_name = model.get_params()['device']
	print(f'LightGBM device: {lgb_device_name}')
	start = datetime.now()
	model.fit(X, y)
	timings['LightGBM'] = (datetime.now()-start).total_seconds()
	print(f'LightGBM training: {timings["LightGBM"]}')

	# XGBoost (no mps support) --------------------------------------------------
	xgb_params = {
	'tree_method': 'hist', # or for very large datasets use 'approx'
	# 'sketch_eps': 0.1, # used with 'approx'
	'nthread': os.cpu_count(),
	'max_bin': 512,
	'grow_policy': 'lossguide',
	'subsample': 0.8,
	'colsample_bytree': 0.8,
	}

	print(f'XGBoost version: {xgb.__version__}')
	print(f'XGBoost built with: {xgb.build_info()}')
	dtrain = xgb.DMatrix(X, label=y)
	start = datetime.now()
	print(f'training start')
	model = xgb.train(xgb_params, dtrain, num_boost_round=n_boost_rounds)
	timings['XGBoost'] = (datetime.now()-start).total_seconds()
	print(f'XGBoost training: {timings["XGBoost"]}')


	# PyTorch-based Neural Networks =============================================

	n_epochs = n_boost_rounds // 2 # roughly a fair performance comparison

	def torch_training(model):
	criterion = nn.MSELoss()

	optimizer = optim.Adam(
	model.parameters(),
	lr=0.001,
	)

	for epoch in range(n_epochs):
	optimizer.zero_grad()
	outputs = model(X_tensor).squeeze()
	loss = criterion(outputs, y_tensor)
	loss.backward()
	optimizer.step()

	# torch ---------------------------------------------------------------------
	model = nn.Sequential(
	nn.Linear(n_features, 128),
	nn.ReLU(),
	nn.Dropout(0.2),
	nn.Linear(128, 64),
	nn.ReLU(),
	nn.Linear(64, 1)
	).to(device)

	start = datetime.now()
	torch_training(model)
	timings['torch'] = (datetime.now()-start).total_seconds()
	print(f'torch training: {timings["torch"]}')

	# TabNet --------------------------------------------------------------------
	model = TabNetRegressor(device_name=device_name)
	start = datetime.now()
	model.fit(X, y.reshape(-1, 1), max_epochs=n_epochs, patience=10)
	timings['TabNet'] = (datetime.now()-start).total_seconds()
	print(f'TabNet training: {timings["TabNet"]}')

	# DIY torch TabularNet ------------------------------------------------------
	class TabularNet(nn.Module):
	def __init__(self, hidden_dims=(128, 64, 32)):
	super().__init__()
	layers = []
	prev_dim = n_features

	for dim in hidden_dims:
	layers.extend([
	nn.Linear(prev_dim, dim),
	nn.BatchNorm1d(dim),
	nn.ReLU(),
	nn.Dropout(0.2)
	])
	prev_dim = dim

	layers.append(nn.Linear(prev_dim, 1)) # Output layer
	self.network = nn.Sequential(*layers)

	def forward(self, x):
	return self.network(x)

	model = TabularNet().to(device)
	start = datetime.now()
	torch_training(model)
	timings['DIY torch'] = (datetime.now()-start).total_seconds()
	print(f'DIY torch training: {timings["DIY torch"]}')

	# Lightning -----------------------------------------------------------------
	class TabularLightning(lightning.LightningModule):
	def __init__(self):
	super().__init__()
	self.model = nn.Sequential(
	nn.Linear(n_features, 128),
	nn.ReLU(),
	nn.Linear(128, 64),
	nn.ReLU(),
	nn.Linear(64, 1)
	)

	def forward(self, x):
	return self.model(x)

	def training_step(self, batch, batch_idx):
	x, y = batch
	y_hat = self(x).squeeze()
	loss = nn.MSELoss()(y_hat, y)
	return loss

	def configure_optimizers(self):
	return optim.Adam(self.parameters())


	trainer = lightning.Trainer(
	accelerator=device_name,
	devices=1,
	max_epochs=n_epochs,
	enable_progress_bar=False,
	enable_checkpointing=False,
	)

	train_loader = torch.utils.data.DataLoader(
	list(zip(X_tensor, y_tensor)),
	batch_size=32,
	)

	model = TabularLightning()
	start = datetime.now()
	trainer.fit(model, train_loader)
	timings['Lightning'] = (datetime.now()-start).total_seconds()
	print(f'Lightning training: {timings["Lightning"]}')


	# Timing report =============================================================
	print('\n' + '='*50)
	print('TRAINING TIME REPORT')
	print('='*50)
	sorted_times = sorted(timings.items(), key=lambda x: x[1])
	for i, (name, time) in enumerate(sorted_times, 1):
	print(f'{i}. {name:<15} {time:.4f}s')