mogumogu2333 · June 1, 2017 18:08
diff --git a/tfidf_keywords b/tfidf_keywords
 from sklearn.feature_extraction.text import TfidfVectorizer

 def get_tfidf_features(docs):
    tf = TfidfVectorizer(min_df=1, max_df=0.8)
    tfidf_matrix = tf.fit_transform(docs)
    idf = tf.idf_
    feature_names = tf.get_feature_names()

    keywords_list = []

    for doc in range(len(docs)):
        feature_index = tfidf_matrix[doc, :].nonzero()[1]
        tfidf_scores = zip(feature_index, [tfidf_matrix[doc, x] for x in feature_index])
        tfidf_scores.sort(key=lambda t: t[1], reverse=True)
        data = []
        for w, s in [(feature_names[i], s) for (i, s) in tfidf_scores]:
            if s < 0.1:
                break
            # print w, s
            data.append(w)
        keywords_list.append(','.join(data))
    return keywords_list
	from sklearn.feature_extraction.text import TfidfVectorizer

	def get_tfidf_features(docs):
	tf = TfidfVectorizer(min_df=1, max_df=0.8)
	tfidf_matrix = tf.fit_transform(docs)
	idf = tf.idf_
	feature_names = tf.get_feature_names()

	keywords_list = []

	for doc in range(len(docs)):
	feature_index = tfidf_matrix[doc, :].nonzero()[1]
	tfidf_scores = zip(feature_index, [tfidf_matrix[doc, x] for x in feature_index])
	tfidf_scores.sort(key=lambda t: t[1], reverse=True)
	data = []
	for w, s in [(feature_names[i], s) for (i, s) in tfidf_scores]:
	if s < 0.1:
	break
	# print w, s
	data.append(w)
	keywords_list.append(','.join(data))
	return keywords_list
No results found