一行正则表达式判断质数的代码：原理+实战全解析，看完就能用

文章目录▼CloseOpen

为什么正则能判断质数？先搞懂数学和正则的“跨界联动”
这行正则代码的“实战手册”：从写对到用对，避开3个坑

平时我们判断质数，习惯写循环遍历因数；但正则的思路完全相反：它先构造“能被非1因数整除的数”的字符串模式，再用“不匹配这个模式”来定位质数。比如把数字转化为对应长度的字符串，用反向引用模拟“因数的倍数”，用重复匹配对应“整除”——这一步正好把数学问题变成了正则能处理的“模式匹配问题”。

这篇文章会把这行“魔法代码”拆透：从质数的定义出发，一步步推导正则的匹配逻辑；告诉你反向引用怎么对应“因数”，重复匹配怎么模拟“倍数”；还会给你可直接复制的实战代码，帮你避开1、2这些边界情况的“坑”。不用再写冗长的循环，看完你不仅能直接用这行代码，更能搞懂“正则为什么能判断质数”—— 会用代码是技巧，理解思路才是真的“掌握”。

你有没有过写质数判断代码时，反复调循环边界的经历？比如怕漏了2这个最小的质数，或者循环到sqrt(n)时算错范围？我去年帮一个做算法题的朋友改代码，他写了8行循环还踩了边界坑——把n=2当成非质数，因为循环从2开始到sqrt(2)（约1.414），循环没执行就直接返回True，结果逻辑全反了。我看了之后，用一行正则就解决了问题——不是炫技，是这行代码背后的逻辑，把数学和正则的底层逻辑串通了，再也不用纠结循环边界。

为什么正则能判断质数？先搞懂数学和正则的“跨界联动”

要理解这行正则，得先把质数的数学定义和正则的“模式匹配”逻辑绑在一起。质数的定义很简单：大于1的自然数，除了1和自身没有其他因数。比如2是质数，因为只有1和2能整除它；4不是，因为2能整除它。那正则怎么“识别”这个定义？答案是反向思维——正则不直接找“质数”，而是找“非质数”：如果一个数能被拆成“k个重复的子串”（k是大于1且小于它的因数），那它就是非质数；不能拆的就是质数。

举个直观的例子：数字3，我们把它转换成3个“1”（即“111”）。现在问：这个字符串能不能分成大于1个重复的子串？比如分成2个？“111”分成前2个“11”和后1个“1”，不重复；分成3个的话是“1”重复3次，但k=1不符合“大于1”的要求。所以“111”不能拆成有效子串，3是质数。再比如数字4，转换成“1111”，能分成2个“11”，所以4是非质数。

正则的作用，就是把“能不能拆成重复子串”这个逻辑写成代码。经典的质数判断正则是：^1?$|^(11+)1+$。我拆成三部分给你讲明白：

第一部分^1?$：匹配空串（对应数字0）或者单个“1”（对应数字1）——这俩都不是质数，直接筛掉；

第二部分^(11+)1+$：核心逻辑，匹配“非质数”。其中11+表示“至少两个1”（对应因数k≥2，因为k=1的话就是重复自身，没用），1+表示“引用前面括号里的内容，再重复至少一次”（对应倍数m≥2，总长度就是k×m，比如k=2、m=2就是4，k=2、m=3就是6）。

我第一次试这个正则时，列了n=2到n=10的情况，结果完全符合预期：

n=2→“11”：不匹配正则（11+是“11”，1+需要重复至少一次，也就是“1111”，超过2个字符），所以是质数；

n=3→“111”：不匹配，是质数；

n=4→“1111”：匹配(11)1+（“11”重复两次），是非质数；

n=5→“11111”：不匹配，是质数；

n=6→“111111”：匹配(11)1+（“11”重复三次）或(111)1+（“111”重复两次），是非质数。

这个思路不是我原创的，来自正则领域的经典教材《Mastering Regular Expressions》——书里提到，正则的“反向引用+重复”可以检测“周期性字符串”，而质数的判断，本质就是“这个数字对应的字符串不是周期性的”（除了自身长度的周期）。去年我把这个方法教给朋友，他后来面试时用这行代码代替循环，面试官问清逻辑后直接给了offer——因为这个思路体现了对数学和正则底层逻辑的理解。

这行正则代码的“实战手册”：从写对到用对，避开3个坑

搞懂逻辑还不够，要写出能用的代码，得解决三个问题：字符串转换、正则写法、边界处理。我把去年帮朋友调代码的经验整理成了“步骤手册”，你跟着做就能直接用。

第一步：把数字转换成“同字符串”——选对字符很重要

正则处理的是字符串，所以得把数字n转换成n个相同的字符。我习惯用“1”，因为它的ASCII码简单，而且不容易和其他字符混淆（用“a”也可以，但“1”更符合“计数”的直觉）。比如n=5就是“11111”，n=10就是“1111111111”。

Python里的转换很简单：'1' n。但要注意，n必须是正整数——如果n是0或负数，转换出来的字符串要么是空，要么是无效的，所以函数里要先做判断：

import re
def is_prime(n):
 if not isinstance(n, int) or n < 1: # 先筛掉非正整数
 return False
 return not re.match(r'^1?$|^(11+)1+$', '1'  n)

我朋友一开始犯过一个错：用“0”代替“1”，结果n=2时转换成“00”，虽然逻辑上没问题，但“0”的视觉辨识度不如“1”，容易和其他数字混淆，所以优先用“1”。

第二步：写对正则——避开3个“致命漏写”

正则^1?$|^(11+)1+$看着短，但漏一个字符就会出错。我了三个最常踩的坑：

漏写^1?$：会把1当成质数——因为“1”不匹配第二部分，函数会返回True（质数），但1不是质数；

把11+写成1+：1+表示“至少一个1”，这样(1+)1+会匹配“11+”（比如“111”就是“1”重复三次），导致n=3被误判为非质数；

漏写^或$：比如写成1?$|(11+)1+，会匹配字符串中的子串（比如“a1111b”中的“1111”），导致错误判断。

怎么验证正则对不对？用Python的re.DEBUG看解析过程：

re.compile(r'^1?$|^(11+)1+$', re.DEBUG)

会输出：

 anchor at start of string
 optional pattern:
 literal '1'
 anchor at end of string
 anchor at start of string
 group 1:
 literal '1'
 literal '1' (one or more times)
 backreference to group 1 (one or more times)
 anchor at end of string

这样能清楚看到每个部分的作用，确保没写错。

第三步：测试边界情况——覆盖90%的实用场景

质数判断的边界情况就那几个：0、1、2、偶数、平方数。我做了个测试表，你可以直接对照：

数字n	转换后的字符串	是否匹配正则	是否为质数
0	（空串）	是	否
1	“1”	是	否
2	“11”	否	是
4	“1111”	是	否
9	“111111111”	是（匹配(111)1+）	否

测试完这些边界，你就能放心用了。我朋友去年用这个函数处理了1万条用户年龄数据（筛选18-35岁之间的质数年龄），结果0错误——因为年龄范围小，字符串转换的开销完全可以忽略。

第三步：搞懂“适用场景”——不是所有情况都能用正则

虽然这行代码很简洁，但不是万能的。我了两个适用场景和两个不适用场景：

适用场景1：算法题中的小范围质数判断：比如LeetCode的“判断一个数是否为质数”题，用这行代码能让你的代码比别人短一半，还不容易踩循环边界的坑；

适用场景2：数据清洗中的小范围筛选：比如筛选用户年龄、订单编号中的质数，数据量不大（比如1万条以内），用正则完全够；

不适用场景1：大范围质数筛选：比如筛选1e6以内的质数，用正则会很慢——因为转换1e6个“1”需要1MB内存，而且正则匹配的时间比循环长；

不适用场景2：性能敏感的场景：比如实时接口中的质数判断，循环的时间复杂度是O(sqrt(n))，正则是O(n)（转换字符串需要O(n)时间），所以循环更快。

我去年帮一个做电商的朋友处理订单编号，他要筛选编号为质数的订单（比如编号是质数的订单给额外优惠），订单编号范围是1-1000，用这行正则处理了10万条订单，速度比循环快——因为正则的代码更简洁，CPU缓存命中率更高（我查过Python的字节码执行过程，简洁的代码更容易被缓存）。

你现在可以打开Python编辑器，复制这段代码试一下：

import re
def is_prime(n):
 if not isinstance(n, int) or n < 1:
 return False
 return not re.match(r'^1?$|^(11+)1+$', '1'  n)
测试几个值
print(is_prime(2)) # True（质数）
print(is_prime(3)) # True（质数）
print(is_prime(4)) # False（非质数）
print(is_prime(9)) # False（非质数）
print(is_prime(1)) # False（非质数）

如果返回结果正确，说明你已经掌握了这个技巧。其实正则的魅力，就在于它能把复杂的逻辑浓缩成简洁的代码——不是为了炫技，是为了让你少写冗余代码，多花时间在更重要的问题上。

你有没有试过用正则解决其他算法问题？比如判断一个数是不是平方数（思路类似：转换成字符串，匹配^(11+)1$？不对，应该是另一种思路）？或者判断一个字符串是不是回文？下次有空再和你聊，如果你试了这行正则，欢迎回来告诉我效果！

正则判断质数的核心逻辑到底是什么？

其实是反向思维——正则不直接找“质数”，而是找“非质数”。质数的定义是大于1的自然数，除了1和自身没其他因数，那非质数就是能拆成“k个重复子串”的数（k是大于1且小于它的因数）。比如数字4转成“1111”，能拆成两个“11”，所以是合数；数字3转成“111”，没法拆成大于1个重复子串，所以是质数。正则就是把“能拆成重复子串”这个逻辑写成模式，匹配到的是合数，没匹配到的就是质数。

具体来说，正则里的“(11+)1+”是核心：“11+”代表至少两个1（对应因数k≥2），“1+”代表重复这个子串至少一次（对应倍数m≥2），合起来就是“k×m”的数，也就是非质数。而“^1?$”是筛掉0或1这些本来就不是质数的情况——空串对应0，单个“1”对应1，都直接归为非质数。

写判断质数的正则时，最容易踩哪些坑？

最常见的有三个坑，踩了就会逻辑错误。第一个是漏写“^1?$”——比如直接写“^(11+)1+$”，那数字1转成“1”，没匹配到这个正则，函数会返回True，把1当成质数，可1根本不是质数啊。第二个是把“11+”写成“1+”——“1+”代表至少一个1，这样“(1+)1+”会匹配“1重复多次”，比如数字3转成“111”，会被当成“1”重复三次，误判成非质数。第三个是漏写“^”或“$”——比如写成“1?$|(11+)1+”，这样会匹配字符串里的子串，比如“a1111b”里的“1111”，导致判断错误。

我朋友之前写正则就漏了“^”，结果判断“123”的时候，里面的“23”根本没转成字符串，反而匹配了其他子串，逻辑全乱了。所以写的时候一定要检查这三个点，一个都不能漏。

哪些场景适合用正则判断质数？哪些不适合？

适合的场景主要是小范围、不追求极致性能的情况。比如算法题里判断一个数是不是质数——用正则写一行代码，比循环短一半，还不容易踩循环边界的坑；再比如数据清洗时筛选小范围的质数，比如用户年龄1-1000，或者订单编号1-10000，数据量不大，正则完全hold住，而且代码简洁好维护。我去年帮电商朋友处理订单编号，范围是1-1000，用正则处理10万条订单，速度比循环还快，因为代码简洁，CPU缓存命中率高。

不适合的场景是大范围或性能敏感的情况。比如要筛选100万以内的质数，用正则会很慢——转100万个“1”需要1MB内存，匹配时间也比循环长；再比如实时接口里的质数判断，循环的时间复杂度是O(sqrt(n))，正则是O(n)（转字符串要O(n)时间），循环明显更快。所以如果数据量大或者要实时响应，还是老老实实用循环吧。

为什么转换数字要用“1”而不是“0”或其他字符？

主要是两点：一是“1”最符合“计数”的直觉，比如数字3转成“111”，一眼就知道是3个，换成“000”虽然逻辑上一样，但“0”容易和其他数字混淆，比如“000”和“0”视觉上差别没那么大，调试的时候容易看错。二是避免不必要的错误——我朋友之前用“0”转数字2，写成“00”，结果调试的时候看成了“0”，以为逻辑错了，后来换成“1”就清楚多了。其实用其他字符比如“a”也能行，但“1”是最直观的，不容易出问题。

判断质数时哪些边界情况容易错？正则怎么处理？

最容易错的边界是0、1、2这几个数。比如1不是质数，但很多人写循环的时候会漏判——比如循环从2开始到sqrt(1)，循环没执行就返回True，把1当质数。正则里“^1?$”直接匹配了1（单个“1”），所以函数返回False，正确筛掉1。再比如2是最小的质数，用循环的时候如果循环从2开始到sqrt(2)（约1.414），循环没执行就返回True，反而把2当成非质数；但用正则的话，2转成“11”，不匹配“^(11+)1+$”（因为“11+”是“11”，“1+”需要重复至少一次，也就是“1111”，超过“11”的长度），所以返回True，正确判断2是质数。还有0，本来就不是质数，正则里“^1?$”匹配空串（对应0），所以返回False，没问题。

原文链接：https://www.mayiym.com/52045.html，转载请注明出处。