Stirling-PDF 是一款基于 Docker 容器的开源 PDF 处理工具,专为OCR设计,能够将扫描的 PDF 文件中的图像或文字转换为可编辑的文本。通过集成 Tesseract OCR 引擎,Stirling-PDF 使得用户能够轻松提取 PDF 文件中的文字,无论是扫描文档、图像还是其他类型的图文混合内容。
该工具提供了一个简洁的 Web 界面,用户可以上传 PDF 文件进行批量处理、OCR 识别和文本提取。它支持多语言识别,适用于不同语言的 OCR 数据包,能够帮助用户处理多种语言的文档。
1. 创建 stirling-pdf
目录并进入
首先,我们需要在你的服务器上创建一个新的目录来存放相关文件,并进入该目录。
mkdir stirling-pdf && cd stirling-pdf
2. 下载 Tesseract OCR 库
Stirling-PDF 使用 Tesseract OCR 库进行文字识别。因此,我们需要下载其相关的语言数据。
git clone https://github.com/tesseract-ocr/tessdata.git
3. 创建 docker-compose.yml
文件
创建 docker-compose.yml
文件,以便使用 Docker Compose 部署 Stirling-PDF 服务。
在 stirling-pdf
目录下,创建并编辑 docker-compose.yml
文件:
services:
stirling-pdf:
restart: always
image: frooodle/s-pdf:latest
ports:
- '8080:8080' # 映射容器内的 8080 端口到宿主机的 8080 端口
volumes:
- ./tessdata:/usr/share/tessdata
- ./extraConfigs:/configs
- ./customFiles:/customFiles/
- ./logs:/logs/
environment:
- DOCKER_ENABLE_SECURITY=false
- INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false
- LANGS=en_GB
4. 启动 Stirling-PDF
创建完 docker-compose.yml
文件后,可以使用以下命令启动 Stirling-PDF 服务:
docker compose up -d
该命令会自动下载所需的 Docker 镜像并启动容器。启动完成后,Stirling-PDF 服务将开始运行。
5. 使用浏览器访问 Stirling-PDF
启动成功后,你可以在浏览器中通过以下地址访问 Stirling-PDF:
http://<IP>:8080
- 替换
<IP>
为你的服务器的 IP 地址,你就可以在浏览器中访问并使用 Stirling-PDF 进行 PDF 文件的处理了。
发表回复