moontidef relic-yuexi

Hugging Face 模型/数据集下载工具

一个用于从 Hugging Face 下载模型和数据集的高效 Bash 脚本，支持断点续传、多线程下载和灵活的文件过滤。

本项目提供了一个使用多GPU并行处理PDF文件的Python脚本。它基于 MinerU 库，能够将PDF文件转换为 Markdown/JSON 格式，并支持在多GPU环境下高效处理大量文件。

该脚本专为高吞吐量场景设计，通过多进程（Multiprocessing）与 CUDA 上下文隔离技术，实现了稳定的并行解析。

考虑到官方的 huggingface-cli 缺乏多线程下载支持,以及 hf_transfer 错误处理不足的问题,这个命令行工具巧妙地利用 wget 或 aria2 下载 LFS 文件,并使用 git clone 下载其他文件。

⏯️ 断点续传: 你可以随时重新运行或使用 Ctrl+C 中断下载。
🚀 多线程下载: 利用多线程加速下载过程。
🚫 文件排除: 使用 --exclude 或 --include 跳过或指定要下载的文件,节省时间以避免下载模型的重复格式文件(例如 .bin 和 .safetensors)。
🔐 认证支持: 对于需要 Huggingface 登录的私有模型,使用 --hf_username 和 --hf_token 进行身份验证。
🪞 镜像站点支持: 通过设置 HF_ENDPOINT 环境变量使用镜像站点。

	import os
	import re
	import argparse
	from pathlib import Path

	os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'

	from PIL import Image
	from pdf2image import convert_from_path
	from transformers import AutoProcessor

	import random
	from faker import Faker

	class HTMLGenerator:
	"""
	A class to generate random HTML content using Faker library.
	"""

	def __init__(self, language='en_US'):
	"""