lawrenceadams · October 3, 2024 09:37
diff --git a/loader.py b/loader.py
 import duckdb

 from glob import glob
 from pathlib import Path

 conn = duckdb.connect()

 for file_path in glob("*.csv"):
    file = Path(file_path)

    print(f" {file.stem}")

    query = f"""
        CREATE TABLE {file.stem} AS (
            SELECT * FROM read_csv('{file}', delim='\t', quote='')
        );
        """

    conn.execute(query)

    inspect_query = f"""
        DESCRIBE {file.stem};
        """

    columns = conn.query(inspect_query)
    columns = columns.fetchall()

    for col in columns:
        col = col[0]

        if "date" in col:
            alter_query = f"""
            ALTER TABLE {file.stem} ALTER COLUMN {col}
                SET DATA TYPE DATE 
                USING strptime({col}::VARCHAR, '%Y%m%d');
            """

            conn.execute(alter_query)

    export_query = f"COPY (SELECT * FROM {file.stem}) TO '{file.stem.lower()}.parquet';"

    conn.query(export_query)

 conn.close()
	import duckdb

	from glob import glob
	from pathlib import Path

	conn = duckdb.connect()

	for file_path in glob("*.csv"):
	file = Path(file_path)

	print(f" {file.stem}")

	query = f"""
	CREATE TABLE {file.stem} AS (
	SELECT * FROM read_csv('{file}', delim='\t', quote='')
	);
	"""

	conn.execute(query)

	inspect_query = f"""
	DESCRIBE {file.stem};
	"""

	columns = conn.query(inspect_query)
	columns = columns.fetchall()

	for col in columns:
	col = col[0]

	if "date" in col:
	alter_query = f"""
	ALTER TABLE {file.stem} ALTER COLUMN {col}
	SET DATA TYPE DATE
	USING strptime({col}::VARCHAR, '%Y%m%d');
	"""

	conn.execute(alter_query)

	export_query = f"COPY (SELECT * FROM {file.stem}) TO '{file.stem.lower()}.parquet';"

	conn.query(export_query)

	conn.close()
No results found