MathFormulaProcessor.php 16 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435
  1. <?php
  2. namespace App\Services;
  3. class MathFormulaProcessor
  4. {
  5. /**
  6. * 处理数学公式,确保有正确的 LaTeX 标记
  7. *
  8. * 优化策略:最小化干预,只修复真正需要修复的问题
  9. * 1. 检查是否已有正确的 LaTeX 标记,如有则直接返回
  10. * 2. 只在检测到明显错误时才进行修复
  11. * 3. 优先保护正确的数学表达式不被破坏
  12. */
  13. public static function processFormulas(string $content): string
  14. {
  15. if (empty($content)) {
  16. return $content;
  17. }
  18. // 0. 基础清理:解码 HTML 实体
  19. $decoded = html_entity_decode($content, ENT_QUOTES, 'UTF-8');
  20. while ($decoded !== $content) {
  21. $content = $decoded;
  22. $decoded = html_entity_decode($content, ENT_QUOTES, 'UTF-8');
  23. }
  24. $content = trim($content);
  25. // 0.5 将自定义 <image> 标签转换为标准 <img> 标签
  26. $content = self::convertImageTags($content);
  27. // 1. 【关键修复】处理公式内的双反斜杠 -> 单反斜杠
  28. // 数据库存储时 \sqrt 变成 \\sqrt,需要还原
  29. $content = self::normalizeBackslashesInDelimiters($content);
  30. // 2. 如果内容中包含定界符,清理内部 HTML
  31. if (self::containsDelimiters($content)) {
  32. $content = self::cleanInsideDelimiters($content);
  33. }
  34. // 3. 检测内容类型:纯数学、混合内容还是纯文本
  35. $contentType = self::detectContentType($content);
  36. // 4. 根据内容类型采取不同的处理策略
  37. switch ($contentType) {
  38. case 'pure_math':
  39. // 纯数学表达式,如 "4x^2 - 25y^2" 或 "f(x) = x^2 - 4x + 5"
  40. return self::wrapPureMath($content);
  41. case 'mixed_content':
  42. // 混合内容,如 "已知函数 f(x) = x^2 - 4x + 5,求最小值"
  43. return self::smartWrapMixedContent($content);
  44. case 'delimited':
  45. // 已包含定界符的内容($...$, $$...$$, \(...\), \[...\])
  46. // 直接返回,cleanInsideDelimiters() 已经清理了内部内容
  47. // 渲染工作由客户端 KaTeX 或服务端 KatexRenderer 完成
  48. return $content;
  49. case 'plain_text':
  50. default:
  51. // 纯文本,不需要处理
  52. return $content;
  53. }
  54. }
  55. /**
  56. * 将自定义 <image> 标签转换为标准 <img> 标签
  57. * 例如:<image src="https://example.com/1.png"/> => <img src="https://example.com/1.png" />
  58. */
  59. private static function convertImageTags(string $content): string
  60. {
  61. // 匹配 <image src="..." /> 或 <image src="..."></image> 格式
  62. return preg_replace(
  63. '/<image\s+src=["\']([^"\']+)["\'](?:\s*\/>|><\/image>)/i',
  64. '<img src="$1" />',
  65. $content
  66. );
  67. }
  68. /**
  69. * 【新增】将公式定界符内被JSON双重转义的LaTeX命令还原
  70. * 例如:\\sqrt -> \sqrt, \\frac -> \frac
  71. * 但保留矩阵换行符 \\ (后面不跟字母的情况)
  72. */
  73. private static function normalizeBackslashesInDelimiters(string $content): string
  74. {
  75. // 只替换 \\+小写字母 的情况(被JSON转义的LaTeX命令,如 \\sqrt -> \sqrt)
  76. // 保留 \\+大写字母 的情况(换行符后跟文本,如 \\CD 应保持为 \\CD)
  77. // 保留 \\+数字 或 \\+空白 的情况(矩阵换行符)
  78. $fixEscapedCommands = function ($tex) {
  79. // 保护 cases 环境中的换行符 \\,避免被误判为 LaTeX 命令
  80. $placeholder = '__KATEX_CASES_BR__';
  81. $tex = preg_replace_callback('/\\\\begin\{cases\}([\s\S]*?)\\\\end\{cases\}/', function ($m) use ($placeholder) {
  82. $content = str_replace('\\\\', $placeholder, $m[1]);
  83. return '\\begin{cases}' . $content . '\\end{cases}';
  84. }, $tex);
  85. // \\sqrt -> \sqrt, \\frac -> \frac, 但 \\CD 或 \\2 保持不变
  86. // 【修复】只匹配小写字母,因为 LaTeX 命令都是小写
  87. $tex = preg_replace('/\\\\\\\\([a-z])/', '\\\\$1', $tex);
  88. // 还原 cases 换行
  89. return str_replace($placeholder, '\\\\', $tex);
  90. };
  91. // 1. 处理 $$...$$ 块级公式
  92. $content = preg_replace_callback('/\$\$([\s\S]*?)\$\$/', function ($matches) use ($fixEscapedCommands) {
  93. return '$$'.$fixEscapedCommands($matches[1]).'$$';
  94. }, $content);
  95. // 2. 处理 $...$ 行内公式(避免与$$冲突)
  96. $content = preg_replace_callback('/(?<!\$)\$([^$\n]+?)\$(?!\$)/', function ($matches) use ($fixEscapedCommands) {
  97. return '$'.$fixEscapedCommands($matches[1]).'$';
  98. }, $content);
  99. // 3. 处理 \(...\) 行内公式
  100. $content = preg_replace_callback('/\\\\\(([\s\S]*?)\\\\\)/', function ($matches) use ($fixEscapedCommands) {
  101. return '\\('.$fixEscapedCommands($matches[1]).'\\)';
  102. }, $content);
  103. // 4. 处理 \[...\] 块级公式
  104. $content = preg_replace_callback('/\\\\\[([\s\S]*?)\\\\\]/', function ($matches) use ($fixEscapedCommands) {
  105. return '\\['.$fixEscapedCommands($matches[1]).'\\]';
  106. }, $content);
  107. return $content;
  108. }
  109. /**
  110. * 【新增】检查内容中是否包含任意定界符(不要求整个字符串被包裹)
  111. */
  112. private static function containsDelimiters(string $content): bool
  113. {
  114. // 检查是否包含 $...$, $$...$$, \(...\), \[...\]
  115. return preg_match('/\$\$[\s\S]*?\$\$|\$[^$\n]+?\$|\\\\\([\s\S]*?\\\\\)|\\\\\[[\s\S]*?\\\\\]/', $content) === 1;
  116. }
  117. /**
  118. * 检测内容类型
  119. * 优化:加入中文检测,避免包裹包含中文的混合内容
  120. */
  121. private static function detectContentType(string $content): string
  122. {
  123. // 优先检查是否包含定界符(使用 containsDelimiters 检测混合内容中的公式)
  124. if (self::containsDelimiters($content)) {
  125. return 'delimited';
  126. }
  127. // 检查是否包含数学特征
  128. $hasMathFeatures = self::containsMathFeatures($content);
  129. // 如果不包含数学特征,返回纯文本
  130. if (! $hasMathFeatures) {
  131. return 'plain_text';
  132. }
  133. // 检查是否包含中文字符
  134. if (preg_match('/[\x{4e00}-\x{9fa5}]/u', $content)) {
  135. // 包含中文 + 数学特征 = 混合内容,需要智能提取数学部分
  136. return 'mixed_content';
  137. }
  138. // 检查是否包含长文本(超过一定长度的字母组合)
  139. $hasLongText = preg_match('/[a-zA-Z]{8,}/', $content);
  140. if ($hasLongText) {
  141. // 包含长文本,可能是混合内容,但不包裹(保守策略)
  142. return 'plain_text';
  143. }
  144. // 检查是纯数学还是混合内容
  145. // 混合内容:同时包含数学特征和普通英文单词
  146. $hasPlainText = preg_match('/\b[a-zA-Z]{3,7}\b/', $content) &&
  147. ! preg_match('/^[a-zA-Z0-9\+\-\*\/\=\s\.\^\(\)\_\{\}]+$/', $content);
  148. if ($hasPlainText) {
  149. return 'mixed_content';
  150. }
  151. return 'pure_math';
  152. }
  153. /**
  154. * 包裹纯数学表达式
  155. * 优化:只添加定界符,不修改内容本身
  156. */
  157. private static function wrapPureMath(string $content): string
  158. {
  159. // 已经是纯数学格式,直接用 $ 包裹
  160. return '$'.$content.'$';
  161. }
  162. /**
  163. * 清理定界符内部的 HTML 标签
  164. */
  165. private static function cleanInsideDelimiters(string $content): string
  166. {
  167. // 修复:使用更精确的正则表达式,避免模式冲突
  168. // 先处理 $$...$$ 模式,然后处理单个 $...$ 模式(但确保不被$$包含)
  169. // 1. 处理 $$...$$ 显示公式
  170. $content = preg_replace_callback('/\$\$([\s\S]*?)\$\$/', function ($matches) {
  171. $cleanContent = strip_tags($matches[1]);
  172. $cleanContent = html_entity_decode($cleanContent, ENT_QUOTES, 'UTF-8');
  173. $cleanContent = trim($cleanContent);
  174. return '$$'.$cleanContent.'$$';
  175. }, $content);
  176. // 2. 处理 \(...\) 行内公式
  177. $content = preg_replace_callback('/\\\\\(([\s\S]*?)\\\\\)/', function ($matches) {
  178. $cleanContent = strip_tags($matches[1]);
  179. $cleanContent = html_entity_decode($cleanContent, ENT_QUOTES, 'UTF-8');
  180. $cleanContent = trim($cleanContent);
  181. return '\\('.$cleanContent.'\\)';
  182. }, $content);
  183. // 3. 处理 \[...\] 显示公式
  184. $content = preg_replace_callback('/\\\\\[([\s\S]*?)\\\\\]/', function ($matches) {
  185. $cleanContent = strip_tags($matches[1]);
  186. $cleanContent = html_entity_decode($cleanContent, ENT_QUOTES, 'UTF-8');
  187. $cleanContent = trim($cleanContent);
  188. return '\\['.$cleanContent.'\\]';
  189. }, $content);
  190. // 4. 最后处理 $...$ 行内公式(避免与$$冲突)
  191. $content = preg_replace_callback('/(?<!\$)\$([^$\n]+?)\$(?!\$)/', function ($matches) {
  192. $cleanContent = strip_tags($matches[1]);
  193. $cleanContent = html_entity_decode($cleanContent, ENT_QUOTES, 'UTF-8');
  194. $cleanContent = trim($cleanContent);
  195. return '$'.$cleanContent.'$';
  196. }, $content);
  197. return $content;
  198. }
  199. /**
  200. * 智能识别并包裹富文本中的数学公式
  201. * 支持:函数定义、导数表达式、LaTeX命令、数学运算
  202. */
  203. private static function smartWrapMixedContent(string $content): string
  204. {
  205. // 匹配策略:只匹配明确的数学表达式,避免误判
  206. $tagPattern = '<[^>]+>';
  207. $existingDelimiterPattern = '(?:\$\$[\s\S]*?\$\$|\$[\s\S]*?\$|\\\\\([\s\S]*?\\\\\)|\\\\\[[\s\S]*?\\\\\])';
  208. // 数学公式模式(按优先级排列)
  209. $patterns = [
  210. // 1. 函数定义: f(x) = 2x^3 - 3x^2 + 4x - 5
  211. "[a-zA-Z]'?\\([a-zA-Z0-9,\\s]+\\)\\s*=\\s*[a-zA-Z0-9\\+\\-\\*\\/\\^\\s\\.\\(\\)\\_\\{\\}]+",
  212. // 2. 导数/函数调用: f'(1), g(5), sin(x)
  213. "[a-zA-Z]+'?\\([a-zA-Z0-9\\+\\-\\*\\/\\^\\s\\.]+\\)",
  214. // 3. LaTeX 命令: \frac{1}{2}
  215. '\\\\[a-zA-Z]+\\{[^}]*\\}(?:\\{[^}]*\\})?',
  216. // 4. 数学表达式: x^2 + y^2, 2x - 3
  217. '[a-zA-Z0-9]+[\\^_][a-zA-Z0-9\\{\\}]+(?:\\s*[\\+\\-\\*\\/]\\s*[a-zA-Z0-9\\^_\\{\\}\\.]+)*',
  218. ];
  219. $mathPattern = '(?:'.implode('|', $patterns).')';
  220. $pattern = "/($tagPattern)|($existingDelimiterPattern)|($mathPattern)/u";
  221. return preg_replace_callback($pattern, function ($matches) {
  222. // HTML 标签,原样返回
  223. if (! empty($matches[1])) {
  224. return $matches[1];
  225. }
  226. // 已有的定界符,原样返回
  227. if (! empty($matches[2])) {
  228. return $matches[2];
  229. }
  230. // 数学公式,添加 $ 包裹
  231. if (! empty($matches[3])) {
  232. $math = trim($matches[3]);
  233. // 再次检查是否已经包裹
  234. if (str_contains($math, '$')) {
  235. return $math;
  236. }
  237. return '$'.$math.'$';
  238. }
  239. return $matches[0];
  240. }, $content);
  241. }
  242. /**
  243. * 检查是否已有定界符
  244. */
  245. private static function hasDelimiters(string $content): bool
  246. {
  247. $content = trim($content);
  248. // 检查 $$...$$
  249. if (str_starts_with($content, '$$') && str_ends_with($content, '$$')) {
  250. return true;
  251. }
  252. // 检查 $...$
  253. if (str_starts_with($content, '$') && str_ends_with($content, '$')) {
  254. return true;
  255. }
  256. // 检查 \[...\]
  257. if (str_starts_with($content, '\\[') && str_ends_with($content, '\\]')) {
  258. return true;
  259. }
  260. // 检查 \(...\)
  261. if (str_starts_with($content, '\\(') && str_ends_with($content, '\\)')) {
  262. return true;
  263. }
  264. return false;
  265. }
  266. /**
  267. * 检测数学特征
  268. * 优化:更精确的检测,减少误判
  269. */
  270. private static function containsMathFeatures(string $content): bool
  271. {
  272. // 1. 检查是否有 LaTeX 命令
  273. if (preg_match('/\\\\[a-zA-Z]+\{?/', $content)) {
  274. return true;
  275. }
  276. // 2. 检查函数定义或等式(如 f(x) =, g(x) =)
  277. // 必须是:字母+括号+等号+数学内容
  278. if (preg_match('/[a-zA-Z]\([a-zA-Z0-9,\s]+\)\s*=\s*[a-zA-Z0-9\+\-\*\/\^\.\(\)\s\\\\_\{]+/', $content)) {
  279. return true;
  280. }
  281. // 3. 检查纯数学表达式(只包含数字、变量、运算符、括号)
  282. // 严格的数学表达式:必须包含字母和运算符,且没有中文字符
  283. if (preg_match('/^[a-zA-Z0-9\+\-\*\/\=\s\.\^\(\)\_\{\}]+$/', $content) &&
  284. preg_match('/[a-zA-Z]/', $content) &&
  285. preg_match('/[\+\-\*\/\=\^]/', $content)) {
  286. return true;
  287. }
  288. // 4. 检查包含变量的数学表达式(带约束)
  289. // 必须有明确的运算符连接,且周围是数学内容
  290. if (preg_match('/[a-zA-Z0-9\.\^\_\{\}]\s*[\+\-\*\/]\s*[a-zA-Z0-9\.\^\_\{\}\(\)]/', $content)) {
  291. return true;
  292. }
  293. // 5. 检查分数形式(如 \frac{}{})
  294. if (preg_match('/\\\\frac\{/', $content)) {
  295. return true;
  296. }
  297. // 6. 检查上标或下标(仅当与数字/字母组合时)
  298. if (preg_match('/[a-zA-Z0-9]\s*[\^_]\s*[a-zA-Z0-9]/', $content)) {
  299. return true;
  300. }
  301. return false;
  302. }
  303. /**
  304. * 批量处理
  305. */
  306. public static function processArray(array $data, array $fieldsToProcess): array
  307. {
  308. foreach ($data as $key => &$value) {
  309. if (in_array($key, $fieldsToProcess)) {
  310. if (is_string($value)) {
  311. $value = self::processFormulas($value);
  312. } elseif (is_array($value)) {
  313. // 【修复】当字段在处理列表中且值是数组时(如 options),处理数组中的每个字符串元素
  314. $value = self::processArrayValues($value);
  315. }
  316. } elseif (is_array($value)) {
  317. $value = self::processArray($value, $fieldsToProcess);
  318. }
  319. }
  320. return $data;
  321. }
  322. /**
  323. * 【新增】递归处理数组中的所有字符串值
  324. * 用于处理 options 等数组类型的字段
  325. */
  326. private static function processArrayValues(array $arr): array
  327. {
  328. foreach ($arr as $key => &$value) {
  329. if (is_string($value)) {
  330. $value = self::processFormulas($value);
  331. } elseif (is_array($value)) {
  332. $value = self::processArrayValues($value);
  333. }
  334. }
  335. return $arr;
  336. }
  337. /**
  338. * 处理题目数据
  339. */
  340. public static function processQuestionData(array $question): array
  341. {
  342. $fieldsToProcess = [
  343. 'stem', 'content', 'question_text', 'answer',
  344. 'correct_answer', 'student_answer', 'explanation',
  345. 'solution', 'question_content', 'options',
  346. ];
  347. return self::processArray($question, $fieldsToProcess);
  348. }
  349. /**
  350. * 修复被污染的数学公式(包含重复的转义字符)
  351. */
  352. private static function fixCorruptedFormulas(string $content): string
  353. {
  354. // 简化的修复策略,只处理明确的问题
  355. // 1. 将超过2个连续的$符号减少为2个
  356. $content = preg_replace('/\${3,}/', '$$', $content);
  357. // 2. 修复$$B . - \frac{1}{2}$$ 这种格式,在选项前加空格
  358. $content = preg_replace('/\$\$([A-Z])\s*\.\s*/', '$$ $1. ', $content);
  359. // 3. 修复不完整的frac命令:\frac{1}{2} -> \frac{1}{2}
  360. $content = preg_replace('/\\\\frac\\\\({[^}]+)([^}]*)\\\\/', '\\\\frac$1}{$2}', $content);
  361. // 4. 移除孤立的反斜杠(在非LaTeX命令前的)
  362. $content = preg_replace('/\\\\(?![a-zA-Z{])/', '', $content);
  363. return $content;
  364. }
  365. }