pyproject.toml

[tool.poetry]
name = "splink"
version = "3.9.9"
description = "Fast probabilistic data linkage at scale"
authors = ["Robin Linacre <robinlinacre@hotmail.com>", "Sam Lindsay", "Theodore Manassis", "Tom Hepworth", "Andy Bond", "Ross Kennedy"]
license = "MIT"
homepage = "https://github.com/moj-analytical-services/splink"
repository = "https://github.com/moj-analytical-services/splink"
readme = "README.md"

[tool.poetry.dependencies]
python = ">=3.7.1,<4.0.0"
jsonschema = ">=3.2,<5.0"
# 1.3.5 is the last version supporting py 3.7.1
pandas = ">1.3.0"
duckdb = ">=0.8.0"
sqlglot = ">=13.0.0, <19.0.0"
altair = "^5.0.1"
Jinja2 = ">=3.0.3"
phonetics = "^1.0.5"

# Optional installs
pyspark = {version="^3.2.1", optional=true}

awswrangler = [
    {version = "2.18.0,<3.0.0", python = ">=3.7.1,<3.8", optional=true},
    {version=">=3.0.0,<4.0.0", python = "^3.8", optional=true}
]

# sqlalchemy >= 2.0.0 not working well with older pandas
sqlalchemy = {version=">=1.4.0,<2.0.0", optional=true}
psycopg2-binary = {version=">=2.8.0", optional=true}

[tool.poetry.group.dev]
[tool.poetry.group.dev.dependencies]
tabulate = "0.8.9"
pyspark = "^3.2.1"
# sqlalchemy >= 2.0.0 not working well with older pandas
sqlalchemy = ">=1.4.0,<2.0.0"
# temporarily use binary version, to avoid issues with pg_config path
psycopg2-binary = ">=2.8.0"

[tool.poetry.group.linting]
[tool.poetry.group.linting.dependencies]
black = "22.6.0"
ruff = "0.0.257"

[tool.poetry.group.testing]
[tool.poetry.group.testing.dependencies]
# pin to reduce dependencies
pytest = "7.3"
pyarrow = ">=7.0.0"
networkx = "2.5.1"
rapidfuzz = "^2.0.3"

[tool.poetry.group.benchmarking]
optional = true
[tool.poetry.group.benchmarking.dependencies]
pytest-benchmark = "^4"
lzstring = "1.0.4"

[tool.poetry.group.typechecking]
optional = true
[tool.poetry.group.typechecking.dependencies]
mypy = "1.7.0"

[tool.poetry.group.demos]
[tool.poetry.group.demos.dependencies]
importlib-resources = "5.4.0"
jupyterlab = "3.6.1"
pyarrow = ">=7.0.0"
ipywidgets = "8.0.4"
nbmake = "1.3.4"
pytest = "^7.0"
pyspark = "^3.2.1"

[tool.poetry.extras]
pyspark = ["pyspark"]
spark = ["pyspark"]
athena = ["awswrangler"]
postgres = ["sqlalchemy", "psycopg2-binary"]

[build-system]
requires = ["poetry-core>=1.0.8"]
build-backend = "poetry.core.masonry.api"

[tool.isort]
profile = "black"

[tool.ruff]
line-length = 88
select = [
    # Pyflakes
    "F",
    # Pycodestyle
    "E",
    "W",
    # isort
    "I001",
    # bugbear
    "B",
    # flake8-print
    "T20"
]
ignore = [
    "B905", # `zip()` without an explicit `strict=` parameter
    "B006", # Do not use mutable data structures for argument defaults"
]

[tool.pytest.ini_options]
addopts = ["-m default"]
markers = [
# only tests where backend is irrelevant:
    "core",
# see tests/decorator.py::dialect_groups for group details:
    "default",
    "all",
# backend-specific sets
    "duckdb",
    "duckdb_only",
    "spark",
    "spark_only",
    "sqlite",
    "sqlite_only",
]

[tool.mypy]
packages = "splink"
# temporary exclusions
exclude = [
    # modules getting substantial rewrites:
    '.*comparison_imports\.py$',
    '.*comparison.*library\.py',
    'comparison_level_composition',
    # modules with large number of errors
    '.*linker\.py',
]
# for now at least allow implicit optionals
# to cut down on noise. Easy to fix.
implicit_optional = true
# for now, ignore missing imports
# can remove later and install stubs, where existent
ignore_missing_imports = true