From e274e7faa2db28eb59b96d7cdf77bec4452a33d7 Mon Sep 17 00:00:00 2001 From: junlan <15167915727@163.com> Date: Sat, 18 Apr 2026 20:33:58 +0800 Subject: [PATCH] =?UTF-8?q?=E5=8F=AA=E4=BF=9D=E7=95=99LLM=E6=8F=90?= =?UTF-8?q?=E5=8F=96=E6=A8=A1=E5=BC=8F=EF=BC=8C=E4=BF=AE=E6=94=B9=E6=8F=90?= =?UTF-8?q?=E5=8F=96=E9=80=BB=E8=BE=91?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 45 +- config.yaml | 92 ++- json_to_excel.py | 10 +- main.py | 123 +++- src/document_parser.py | 223 +++++-- src/json_generator.py | 4 +- src/requirement_extractor.py | 1178 +++++++++++++++++++++++++--------- src/requirement_splitter.py | 21 +- src/settings.py | 134 ++++ 9 files changed, 1427 insertions(+), 403 deletions(-) diff --git a/README.md b/README.md index 6b6b6e7..f37c0ad 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ # SRS需求文档解析工具 -一个智能的SRS(软件需求规格说明书)文档解析工具,支持PDF和Docx格式,能够自动提取需求并生成结构化JSON输出。 +一个基于大模型的SRS(软件需求规格说明书)文档解析工具,支持PDF和Docx格式,能够自动提取需求并生成结构化JSON输出。 ## 特性 @@ -12,6 +12,8 @@ - **表格需求识别**:支持从表格中提取功能/接口/其他需求 - **PDF表格提取**:支持从PDF中提取表格并自动挂接到章节 - **长句原子拆分**:自动将包含多个需求点的长句拆分为多个可验证需求项 +- **章节筛选提取**:支持按章节号提取(如输入`3`提取第3章及其全部子章节) +- **LLM-only**:当前版本仅支持LLM提取链路,不再提供规则提取模式 ## 快速开始 @@ -27,7 +29,7 @@ pip install dashscope pip install pdfplumber ``` -### 配置API密钥(LLM模式) +### 配置API密钥(必需) ```bash # 方式1:环境变量(推荐) @@ -45,11 +47,11 @@ llm: ### 运行 ```bash -# LLM增强模式 +# LLM增强模式(唯一模式) python main.py -i ".\input\DC-SRS.pdf" -o ".\output\output.json" -# 纯规则模式(不使用LLM) -python main.py -i DC-SRS.pdf -o output.json --no-llm +# 按章节提取(输入3表示提取第3章及3.x子章节) +python main.py -i ".\input\DC-SRS.pdf" -o ".\output\output_ch3.json" --chapters 3 ```