jaclynsaunders · April 22, 2021 04:00
diff --git a/parse_taxa_CAT.py b/parse_taxa_CAT.py
 import pandas as pd
 import re

 INPUT_FILE = "CAT-taxa-out.txt"
 OUTPUT_FILE = "formatted_CAT-taxa-out.txt"

 ORF_list = []
 taxid_list = []
 no_hits = []

 with open(INPUT_FILE, "r") as f:
    next(f)
    for line in f:
        
        data = line.split("\t")
        
        if ("ORF has no hit to database") in line:
            no_hits.append(data[0])
            
        else:
            ORF_list.append(data[0])

            taxaStr = data[2]
            z = re.match("(.*);{1,1}(.+)", taxaStr)
            try:
                lastTax = z.group(2)
            except:
                lastTax = taxaStr
            taxid_list.append(str(lastTax).replace("*", ""))

 ORF_list = ORF_list + no_hits
 taxid_list = taxid_list + (len(no_hits) * ['-1']) #Give ORFs without hits taxid -1
 df = pd.DataFrame(list(zip(ORF_list, taxid_list)), columns = ['Taxon_name', 'NCBI_taxon_id'])
 fake_name = [""]*len(df)
 df.insert(loc=0, column='Taxon_fasta_file_name', value=fake_name)
 df['NCBI_taxon_id'] = df['NCBI_taxon_id'].astype(str)

 df.to_csv(OUTPUT_FILE, index=False)
	import pandas as pd
	import re

	INPUT_FILE = "CAT-taxa-out.txt"
	OUTPUT_FILE = "formatted_CAT-taxa-out.txt"

	ORF_list = []
	taxid_list = []
	no_hits = []

	with open(INPUT_FILE, "r") as f:
	next(f)
	for line in f:

	data = line.split("\t")

	if ("ORF has no hit to database") in line:
	no_hits.append(data[0])

	else:
	ORF_list.append(data[0])

	taxaStr = data[2]
	z = re.match("(.*);{1,1}(.+)", taxaStr)
	try:
	lastTax = z.group(2)
	except:
	lastTax = taxaStr
	taxid_list.append(str(lastTax).replace("*", ""))

	ORF_list = ORF_list + no_hits
	taxid_list = taxid_list + (len(no_hits) * ['-1']) #Give ORFs without hits taxid -1
	df = pd.DataFrame(list(zip(ORF_list, taxid_list)), columns = ['Taxon_name', 'NCBI_taxon_id'])
	fake_name = [""]*len(df)
	df.insert(loc=0, column='Taxon_fasta_file_name', value=fake_name)
	df['NCBI_taxon_id'] = df['NCBI_taxon_id'].astype(str)

	df.to_csv(OUTPUT_FILE, index=False)
No results found