Transaction Categorization Engine

Hybrid ML pipeline for intelligent accounting transaction categorization using FAISS, BM25, and GPT-4.

Overview

This engine automatically categorizes financial transactions by matching them against a general ledger using a multi-stage hybrid search approach:

Fuzzy Matching — Token-based similarity for typo tolerance
TF-IDF Semantic Search — Traditional text similarity
Dense Retrieval (FAISS) — OpenAI embeddings with vector similarity
Sparse Retrieval (BM25) — Keyword-based ranking
Hybrid Re-ranking — Combines dense + sparse results
GPT-4 Classification — Final categorization with explanation

Architecture

Transaction Input
       │
       ▼
┌──────────────────┐
│  Preprocessing   │  ← Clean names, memos, normalize amounts
└────────┬─────────┘
         │
         ▼
┌──────────────────┐     ┌──────────────────┐
│  Dense Search    │     │  Sparse Search   │
│  (FAISS + Ada)   │     │  (BM25 + TF-IDF) │
└────────┬─────────┘     └────────┬─────────┘
         │                        │
         └──────────┬─────────────┘
                    │
                    ▼
         ┌──────────────────┐
         │  Hybrid Re-rank  │
         └────────┬─────────┘
                  │
                  ▼
         ┌──────────────────┐
         │  GPT-4 Classify  │  ← Final decision with explanation
         └────────┬─────────┘
                  │
                  ▼
         Categorized Transaction

Features

Multi-Algorithm Matching — Falls back through multiple strategies
Embedding Cache — Pickle-based caching for corpus embeddings
Configurable Thresholds — Tune fuzzy/semantic match thresholds
Explainable Results — GPT provides reasoning for each categorization
Batch Processing — Process entire transaction files at once

Quick Start

Installation

pip install -r requirements.txt

Environment Variables

export AZURE_OPENAI_API_KEY="your_api_key"
export AZURE_OPENAI_ENDPOINT="https://your-resource.openai.azure.com/"
export AZURE_OPENAI_API_VERSION="2024-05-01-preview"

Usage

from matching_algorithms import (
    fuzzy_search,
    semantic_search,
    hybrid_search,
    gpt_categorize
)

# Fuzzy match
matches = fuzzy_search("AMAZON WEB SERVICES", corpus, threshold=70)

# Hybrid search (dense + sparse)
matches = hybrid_search(
    query="AWS monthly subscription",
    corpus=ledger_descriptions,
    corpus_embeddings=embeddings,
    faiss_index=index,
    bm25=bm25_model,
    k=5
)

# GPT categorization
result = gpt_categorize(transaction, potential_matches, api_key)
print(result["category"])       # "Cloud Services"
print(result["explanation"])    # "AWS is a cloud provider..."

Run Full Pipeline

python main.py

Tech Stack

Component	Technology
Embeddings	Azure OpenAI `text-embedding-3-large`
Vector Index	FAISS (Facebook AI Similarity Search)
Sparse Search	BM25Okapi (rank_bm25)
Fuzzy Match	FuzzyWuzzy (token_sort_ratio)
Classification	GPT-4o-mini
Data Processing	Pandas, NumPy

File Structure

├── main.py                  # Entry point
├── matching_algorithms.py   # Core search algorithms
├── category_mapping.py      # Category mapping logic
├── data_processing.py       # Data loading and preprocessing
├── transaction.py           # Transaction data model
├── utils.py                 # Utility functions
├── constants.py             # Configuration constants
└── requirements.txt         # Dependencies

Performance

On a test set of 220 transactions:

Match Rate: ~85%+ with hybrid search
Embedding Generation: ~0.5s per transaction
Search Latency: <100ms with cached embeddings

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.DS_Store		.DS_Store
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
category_mapping.py		category_mapping.py
constants.py		constants.py
converter.py		converter.py
data_processing.py		data_processing.py
faisstest.py		faisstest.py
main.py		main.py
matching_algorithms.py		matching_algorithms.py
naam.py		naam.py
requirements.txt		requirements.txt
transaction.py		transaction.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Transaction Categorization Engine

Overview

Architecture

Features

Quick Start

Installation

Environment Variables

Usage

Run Full Pipeline

Tech Stack

File Structure

Performance

License

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Transaction Categorization Engine

Overview

Architecture

Features

Quick Start

Installation

Environment Variables

Usage

Run Full Pipeline

Tech Stack

File Structure

Performance

License

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages