正規表現 – 雛形

2021-02-16 / tau / コメントする

一般

文字列の先頭と末尾の位置指定には^と$ではなく\Aと\zと用いる。

参考：【PHP】マルチバイト(全角スペース等)対応のtrim処理

半角英数記号
- [!-~] ASCII-code
n文字以上m文字以下
- \A(文字){n,m}\z
patternを含む
- (?=.*pattern).*
patternを含まない
- (?!.*pattern).*
pattern1を含みpattern2を含まない
- (?=.*pattern)(?!.*pattern).*

雛形

英数字

英文字のみ
- [a-zA-Z]
英数字
- [0-9a-zA-Z]
\wはアンダースコアを含むので注意
- [0-9a-zA-Z_]

正の整数

/\A[1-9][0-9]*\z/
- 01や+1は通らない
/\A\+?[0-9]*[1-9][0-9]*\z/
- +001を通す
/\A\+?0*[1-9]+(,?[0-9]+)*\z/
- 先頭に+を許可、その後0の連続を許可、桁内任意位置のカンマを許可

スペース

先頭／末尾の連続するスペース（半角・全角とも）。エスケープ解釈のためダブルクォート
- "/\A[\x20\xE3\x80\x80]+|[\x20\xE3\x80\x80]+\z/u"

メールアドレス

ローカル部は英数字、_、+、-でドットは間に1つずつ、ドメインは英数字、-でドットは間に1つずつ
- \A([\w+-]+.?[\w+-]+)+@([\w-]+.?[\w-]+)+\z

/*…*/→/\*[\s\S]*?\*/
- 複数行にわたる場合も可

Python3 – 正規表現 – シンタックス

2016-10-07 / tau / コメントする

文字にマッチするもの

一覧

文字	それぞれの文字にマッチする。Python3ではUnicode文字も対象。
`.`	`'\n'`以外の任意の一文字にマッチする。`re.S`/`re.DOTALL`フラグが設定されると’\n’にもマッチする。
`[...]`	文字クラス。`[]`内に含まれる文字のいずれか一文字マッチする。`'-'`で範囲指定も可能。たとえば`[abc]`は`a`、`b`、`c`にマッチ。`[a-z]`は全ての小文字のアルファベット文字にマッチ。`[abcx-z]`は`a`、`b`、`c`、`x`、`y`、`z`にマッチ。Unicode文字にも対応していて`[０-９]`は全角の数字にマッチ。先頭に`'^'`記号があると、その文字クラス以外の文字列がマッチする。たとえば`[^abc]`は`a`、`b`、`c`以外にマッチする。
`\d`	数字[0-9]にマッチ。Unicode文字の数字も対象となり、全角の数字`[０-９]`なども対象となる。`re.A`/`re.ASCII`フラグが設定されると[0-9]にのみマッチする。バイト列に対しては`[0-9]`と等価。
`\D`	数字以外の文字にマッチ。Unicode文字の数字も除外対象となる。
`\w`	任意のUnicode単語文字にマッチ。あらゆる単語の一部になりうる文字で、文字・数字・アンダースコアが含まれる。re.ASCIIフラグが設定された場合`[a-zA-Z0-9_]`にマッチ。バイト列に対しては[a-zA-Z0-9_]と等価。
`\W`	Unicode単語文字以外の文字にマッチ。
`\s`	任意の空白文字とマッチ。`[ \t\n\r\f\v]`など。
`\S`	空白以外の文字にマッチ。

Pythonの標準エスケープも正規表現で認識される。

\a、\b、\f、\n、\r、\t、\u、\U、\v、\x、\\

ただし\bは単語境界を表し、文字クラス内でのみバックスペース文字を表す。

文字クラス

文字クラスはUnicode文字にも対応。

import re
print(re.findall(r'[あ-ん]', "我考える故に我あり"))
print(re.findall(r'[^あ-ん]', "我考える故に我あり"))
# ['え', 'る', 'に', 'あ', 'り']
# ['我', '考', '故', '我']

import re

print(re.findall(r'[あ-ん]', "我考える故に我あり"))

print(re.findall(r'[^あ-ん]', "我考える故に我あり"))

# ['え', 'る', 'に', 'あ', 'り']

# ['我', '考', '故', '我']

文字クラス内では特殊文字は意味を失い、1つの文字として扱われる。たとえば[(*+)]は'('、'*'、'+'、')'のいずれかとマッチする。

import re
print(re.findall(r'[(*+?)]', "(1+2)*3=9?"))
# ['(', '+', ')', '*', '?']

import re

print(re.findall(r'[(*+?)]', "(1+2)*3=9?"))

# ['(', '+', ')', '*', '?']

'^'と、']'は例外で、'^'は先頭の場合のみ否定の意味でそれ以外の位置では文字'^'を表し、']'は末尾では無視されそれ以外の位置では文字']'を表す。

import re

s = "array[n]=var^2"

print(re.findall(r'[^a]',s))
# ['r', 'r', 'y', '[', 'n', ']', '=', 'v', 'r', '^', '2']
print(re.findall(r'[a^]',s))
# ['a', 'a', 'a', '^']

print(re.findall(r'[[]',s))
# ['[']
print(re.findall(r'[[a]',s))
# ['a', 'a', '[', 'a']

print(re.findall(r'[]]',s))
# [']']
print(re.findall(r'[a]]',s))
# []
print(re.findall(r'[]a]',s))
# ['a', 'a', ']', 'a']

import re

s = "array[n]=var^2"

print(re.findall(r'[^a]',s))

# ['r', 'r', 'y', '[', 'n', ']', '=', 'v', 'r', '^', '2']

print(re.findall(r'[a^]',s))

# ['a', 'a', 'a', '^']

print(re.findall(r'[[]',s))

# ['[']

print(re.findall(r'[[a]',s))

# ['a', 'a', '[', 'a']

print(re.findall(r'[]]',s))

# [']']

print(re.findall(r'[a]]',s))

# []

print(re.findall(r'[]a]',s))

# ['a', 'a', ']', 'a']

位置にマッチするもの

一覧

`^`	文字列の先頭にマッチする。たとえば`'^A'`は先頭の文字が`'A'`であることを示す。デフォルトでは文字列全体の先頭だけにマッチするが、`re.MULTILINE`が指定されていれば、各改行の前にもマッチする。
`$`	文字列の末尾にマッチする。たとえば`’Z$'`は末尾の文字が`'Z'`であることを示す。デフォルトでは文字列全体の末尾だけにマッチするが、`re.MULTILINE`が指定されていれば、各改行の後にもマッチする。
\b	単語境界にマッチする。単語境界は`[^a-zA-Z0-9]`。

MULTILINE

re.MULTILINEフラグ指定の有無による動作の違いを確認する。

import re

s1 = "Some people feel the rain.\nOthers just get wet."

s2 = """Love the life you live.
Live the life you love."""

print(re.findall(r'^.+', s1))
print(re.findall(r'.+$', s1))
# ['Some people feel the rain.']
# ['Others just get wet.']

print(re.findall(r'^.+', s2))
print(re.findall(r'.+$', s2))
# ['Love the life you live.']
# ['Live the life you love.']

print(re.findall(r'^.+', s1, flags=re.MULTILINE))
print(re.findall(r'.+$', s1, flags=re.MULTILINE))
# ['Some people feel the rain.', 'Others just get wet.']
# ['Some people feel the rain.', 'Others just get wet.']

print(re.findall(r'^.+', s2, flags=re.MULTILINE))
print(re.findall(r'.+$', s2, flags=re.MULTILINE))
# ['Love the life you live.', 'Live the life you love.']
# ['Love the life you live.', 'Live the life you love.']

import re

s1 = "Some people feel the rain.\nOthers just get wet."

s2 = """Love the life you live.

Live the life you love."""

print(re.findall(r'^.+', s1))

print(re.findall(r'.+$', s1))

# ['Some people feel the rain.']

# ['Others just get wet.']

print(re.findall(r'^.+', s2))

print(re.findall(r'.+$', s2))

# ['Love the life you live.']

# ['Live the life you love.']

print(re.findall(r'^.+', s1, flags=re.MULTILINE))

print(re.findall(r'.+$', s1, flags=re.MULTILINE))

# ['Some people feel the rain.', 'Others just get wet.']

print(re.findall(r'^.+', s2, flags=re.MULTILINE))

print(re.findall(r'.+$', s2, flags=re.MULTILINE))

# ['Love the life you live.', 'Live the life you love.']

\b – 文字列境界

文字列境界が[^a-zA-Z0-9]であることが、以下の例で分かる。

import re
[print(match) for match in re.finditer(r'\bab\b', "ab_ab0ab ab-ab,ab;ab(ab)")]
# <_sre.SRE_Match object; span=(9, 11), match='ab'>
# <_sre.SRE_Match object; span=(12, 14), match='ab'>
# <_sre.SRE_Match object; span=(15, 17), match='ab'>
# <_sre.SRE_Match object; span=(18, 20), match='ab'>
#<_sre.SRE_Match object; span=(21, 23), match='ab'>

import re

[print(match) for match in re.finditer(r'\bab\b', "ab_ab0ab ab-ab,ab;ab(ab)")]

# <_sre.SRE_Match object; span=(9, 11), match='ab'>

# <_sre.SRE_Match object; span=(12, 14), match='ab'>

# <_sre.SRE_Match object; span=(15, 17), match='ab'>

# <_sre.SRE_Match object; span=(18, 20), match='ab'>

#<_sre.SRE_Match object; span=(21, 23), match='ab'>

繰り返し

`*`	直前の文字の0回以上でできるだけ多くの繰り返し。`'ab*'`は`abbc`に対して`a`や`ab`ではなく`abb`としてマッチする。
`+`	直前の文字の1回以上でできるだけ多くの繰り返し。`'ab+'`は`abbbc`に対して`ab`や`abb`ではなく`abbb`としてマッチする。`'ab?'`は`abb...`に対して`ab`としてマッチする。
`?`	直前の文字が0個か1個でできるだけ多くの場合にマッチ。
`{m}`	直前の文字の`m`回の繰り返し。
`{m,n}`	直前の文字の`m`回以上`n`回以下でできるだけ多くの繰り返し。
`{m,}`	直前の文字の`m`回以上でできるだけ多くの繰り返し。
`{,n}`	直前の文字のn回以下でできるだけ多くの繰り返し。

実行例

import re

print(re.findall(r'a*', "a aa aaa"))
# ['a', '', 'aa', '', 'aaa', '']

print(re.findall(r'a+', "a aa aaa"))
# ['a', 'aa', 'aaa']

print(re.findall(r'aa?', "a aa aaa"))
# ['a', 'aa', 'aa', 'a']

print(re.findall(r'a{2}', "a aa aaa aaaa"))
# ['aa', 'aa', 'aa', 'aa']

print(re.findall(r'a{2,3}', "a aa aaa aaaa"))
# ['aa', 'aaa', 'aaa']

print(re.findall(r'a{2,}', "a aa aaa aaaa"))
# ['aa', 'aaa', 'aaaa']

print(re.findall(r'a{,3}', "a aa aaa aaaa"))
# ['a', '', 'aa', '', 'aaa', '', 'aaa', 'a', '']

import re

print(re.findall(r'a*', "a aa aaa"))

# ['a', '', 'aa', '', 'aaa', '']

print(re.findall(r'a+', "a aa aaa"))

# ['a', 'aa', 'aaa']

print(re.findall(r'aa?', "a aa aaa"))

# ['a', 'aa', 'aa', 'a']

print(re.findall(r'a{2}', "a aa aaa aaaa"))

# ['aa', 'aa', 'aa', 'aa']

print(re.findall(r'a{2,3}', "a aa aaa aaaa"))

# ['aa', 'aaa', 'aaa']

print(re.findall(r'a{2,}', "a aa aaa aaaa"))

# ['aa', 'aaa', 'aaaa']

print(re.findall(r'a{,3}', "a aa aaa aaaa"))

# ['a', '', 'aa', '', 'aaa', '', 'aaa', 'a', '']

'a*'は長さ0の文字列にもマッチする。マッチした文字列の直後の空文字列にマッチすることが、以下の例でもわかる。

print(re.findall(r'c*', "abbcccdddd"))
# ['', '', '', 'ccc', '', '', '', '', '']

1 2	print(re.findall(r'c*', "abbcccdddd")) # ['', '', '', 'ccc', '', '', '', '', '']

'aa?'はaとaaにマッチするが、最後のaaaに対しては、先頭のaaにマッチした後、残ったaにマッチしている。

'a{2}'は先頭からaaにマッチしていき、最後のaaaaには2回マッチしている。

'a{,3}'は各マッチの後の長さ0の文字列にもマッチしていて、最後のaaaaに対しては先頭のaaaにマッチした後、残ったaにマッチしている。

選択演算子(|)

'|'で区切られた要素のどれかとマッチすればよいことを表す。

import re

print(re.findall(r"bi|di", r"bibbidi bobbidi boo"))
# ['bi', 'bi', 'di', 'bi', 'di']

import re

print(re.findall(r"bi|di", r"bibbidi bobbidi boo"))

# ['bi', 'bi', 'di', 'bi', 'di']

注意点としては、'|'で区切られた要素の左から右へマッチング評価され、ある要素がマッチしたと評価されると、その部分列に対してそれ以降の要素の評価は行われない。

import re

print(re.findall(r"aa|aaaa", r"a,aa,aaa,aaaa"))
# ['aa', 'aa', 'aa', 'aa']
# 先に'aa'で評価されると'aaaa'で評価されない

print(re.findall(r"aaaa|aa", r"a,aa,aaa,aaaa"))
# ['aa', 'aa', 'aaaa']

import re

print(re.findall(r"aa|aaaa", r"a,aa,aaa,aaaa"))

# ['aa', 'aa', 'aa', 'aa']

# 先に'aa'で評価されると'aaaa'で評価されない

print(re.findall(r"aaaa|aa", r"a,aa,aaa,aaaa"))

# ['aa', 'aa', 'aaaa']

グループ(…)

()で囲んだ要素はグループ化されて、1つの文字と同じ様に扱われる。たとえば次の例では、'Aa'というパターンを1つのグループとして、それが繰り返される回数でマッチングさせている。

import re

def match_list(ptn, s, flags=0):
    return [a.group() for a in re.finditer(ptn, s, flags)]

print(match_list(r"(Aa)+", r"Aa-AaAa-AaAaAa"))
print(match_list(r"(Aa){2}", r"Aa-AaAa-AaAaAa"))

# ['Aa', 'AaAa', 'AaAaAa']
# ['AaAa', 'AaAa']

import re

def match_list(ptn, s, flags=0):

return [a.group() for a in re.finditer(ptn, s, flags)]

print(match_list(r"(Aa)+", r"Aa-AaAa-AaAaAa"))

print(match_list(r"(Aa){2}", r"Aa-AaAa-AaAaAa"))

# ['Aa', 'AaAa', 'AaAaAa']

# ['AaAa', 'AaAa']

後方参照

()囲った部分には、先頭から順番に番号nがふられて、そのあとで'\n'のようにマッチした内容を再利用できる。

import re
print(re.search(r'\d{3}-(\d{4})-\1', "090-1234-5678"))
# None
print(re.search(r'\d{3}-(\d{4})-\1', "090-1234-1234"))
# <_sre.SRE_Match object; span=(0, 13), match='090-1234-1234'>

import re

print(re.search(r'\d{3}-(\d{4})-\1', "090-1234-5678"))

# None

print(re.search(r'\d{3}-(\d{4})-\1', "090-1234-1234"))

# <_sre.SRE_Match object; span=(0, 13), match='090-1234-1234'>

Python3 – 正規表現 – 選択演算子’|’とfindall/finditerの注意点

2016-10-06 / tau / コメントする

findall()、finditer()のパターン文字列で選択演算子'|'を用いるとき、選択文字列の順序によって結果が変わってくる点に注意が必要。

たとえばreモジュール関数の場合、以下の例のようになる。

import re

s = "a,aa,aaa,aaaa,aaaaa"

print(re.findall(r'aa|aaa', s))
# ['aa', 'aa', 'aa', 'aa', 'aa', 'aa']

print(re.findall(r'aaa|aa', s))
# ['aa', 'aaa', 'aaa', 'aaa', 'aa']

[print(x.group(0), end=' ') for x in re.finditer('aa|aaa', s)]; print()
# aa aa aa aa aa aa

[print(x.group(0), end=' ') for x in re.finditer('aaa|aa', s)]; print()
# aa aaa aaa aaa aa

import re

s = "a,aa,aaa,aaaa,aaaaa"

print(re.findall(r'aa|aaa', s))

# ['aa', 'aa', 'aa', 'aa', 'aa', 'aa']

print(re.findall(r'aaa|aa', s))

# ['aa', 'aaa', 'aaa', 'aaa', 'aa']

[print(x.group(0), end=' ') for x in re.finditer('aa|aaa', s)]; print()

# aa aa aa aa aa aa

[print(x.group(0), end=' ') for x in re.finditer('aaa|aa', s)]; print()

# aa aaa aaa aaa aa

'aa|aaa'とした場合以下の順番でマッチしていく。

"a,|aa|,|aa|a,aaaa,aaaaa"
"a,|aa|,|aa|a,|aa|aa,aaaaa"
"a,|aa|,|aa|a,|aa|aa|,aaaaa"
"a,|aa|,|aa|a,|aa|aa|,|aa|aaa"
"a,|aa|,|aa|a,|aa|aa|,|aa|aa|a"

'aaa|aa'とした場合は以下の順番でマッチしていく

"a,|aa|,aaa,aaaa,aaaaa"
"a,|aa|,|aaa|,aaaa,aaaaa"
"a,|aa|,|aaa|,|aaa|a,aaaaa"
"a,|aa|,|aaa|,|aaa|a,aaaaa"
"a,|aa|,|aaa|,|aaa|a,|aaa|aa"
"a,|aa|,|aaa|,|aaa|a,|aaa|aa|"

つまり、各マッチングの段階で選択演算子'|'の左側からマッチする部分をまず探し、該当しなければ演算子の右へと判定パターンを変えていく。

このため、演算子の左のパターンが右のパターンより短いと、先にそちらがマッチングされるので右の長いパターンがマッチしなくなることがある。

この動作は、正規表現オブジェクトのメソッドについても同じ。

import re

s = "a,aa,aaa,aaaa,aaaaa"

matchobj1 = re.compile(r'aa|aaa')
matchobj2 = re.compile(r'aaa|aa')

print(matchobj1.findall(s))
# ['aa', 'aa', 'aa', 'aa', 'aa', 'aa']

print(matchobj2.findall(s))
# ['aa', 'aaa', 'aaa', 'aaa', 'aa']

[print(x.group(0), end=' ') for x in matchobj1.finditer(s)]; print()
# aa aa aa aa aa aa

[print(x.group(0), end=' ') for x in matchobj2.finditer(s)]; print()
# aa aaa aaa aaa aa

import re

s = "a,aa,aaa,aaaa,aaaaa"

matchobj1 = re.compile(r'aa|aaa')

matchobj2 = re.compile(r'aaa|aa')

print(matchobj1.findall(s))

# ['aa', 'aa', 'aa', 'aa', 'aa', 'aa']

print(matchobj2.findall(s))

# ['aa', 'aaa', 'aaa', 'aaa', 'aa']

[print(x.group(0), end=' ') for x in matchobj1.finditer(s)]; print()

# aa aa aa aa aa aa

[print(x.group(0), end=' ') for x in matchobj2.finditer(s)]; print()

# aa aaa aaa aaa aa

Python3 – 正規表現 – エスケープとraw文字列

2016-10-06 / tau / コメントする

エスケープの問題

正規表現ではいくつかの文字がパターンとしての特別の意味を持つが、その文字そのものをマッチングの対象としたいときにはバックスラッシュ(\）でエスケープする。

import re

s = "Does it work?"
print(re.search("\?", s))

# <_sre.SRE_Match object; span=(12, 13), match='?'>

import re

s = "Does it work?"

print(re.search("\?", s))

# <_sre.SRE_Match object; span=(12, 13), match='?'>

さらに検索対象の文字列にバックスラッシュが含まれている場合には、バックスラッシュ自身をエスケープしなければならない(\\)。このようなケースは、ファイルパスの区切りにバックスラッシュが使われている場合やLATexの\begin～\endなど多くある。

下の例は”\bigin”という文字列を検索する場合。

import re

s = "\\begin"
print(s)
print(re.search("\begin", s))
print(re.search("\\begin", s))
print(re.search("\\\\begin", s))

# \begin
# None
# None
# <_sre.SRE_Match object; span=(0, 6), match='\\begin'>

import re

s = "\\begin"

print(s)

print(re.search("\begin", s))

print(re.search("\\begin", s))

print(re.search("\\\\begin", s))

# \begin

# None

# <_sre.SRE_Match object; span=(0, 6), match='\\begin'>

検索される側の文字列のバックスラッシュをエスケープしなければならない(3行目)
- その文字列をprintしてみると意図した内容になっている(4行目と9行目)
次にパターン文字の方で、”\begin”とそのまま試してみるとヒットしない(5行目と10行目)
- これは最初の”\b”がPythonのエスケープシーケンス(バックスペース)として解釈されたため
そこでバックスラッシュをエスケープしてもヒットしない(6行目と11行目)
- Pythonでは文字としてのバックスラッシュとして解釈されるが、今度は正規表現として解釈したとき単独の特殊文字としての’\’となるため
2つのバックスラッシュそれぞれをエスケープするようにしてやっとヒットさせることができる(7行目と11行目)

raw文字列

Pythonでは、バックスラッシュを単なる文字として解釈するためのraw文字列が組み込まれていて、文字列リテラルの前に’r’か’R’を付けるだけでよい。”””で囲まれた複数行文字列でも同じ。

print("Hello\nPython")
# Hello
# Python

print(r"Hello\nPython")
# Hello\nPython

print("""abcd\nefgh
ijkl\nmnop""")
# abcd
# efgh
# ijkl
# mnop

print(r"""abcd\nefgh
ijkl\nmnop""")
# abcd\nefgh
# ijkl\nmnop

print("Hello\nPython")

# Hello

# Python

print(r"Hello\nPython")

# Hello\nPython

print("""abcd\nefgh

ijkl\nmnop""")

# abcd

# efgh

# ijkl

# mnop

print(r"""abcd\nefgh

ijkl\nmnop""")

# abcd\nefgh

# ijkl\nmnop

また、Python3で文字列変数の文字列をraw文字列に変換するには、repr()関数を使う。ただしその結果はシングルクォートで囲まれているため、それを取り除かなくてはいけない。

s = "Hello\nPython"
print(s)
# Hello
# Python

print(repr(s))
# 'Hello\nPython'

print(repr(s)[1:-2])
# Hello\nPytho

s = "Hello\nPython"

print(s)

# Hello

# Python

print(repr(s))

# 'Hello\nPython'

print(repr(s)[1:-2])

# Hello\nPytho

また複数行文字列の場合は、リテラルでのr指定と変数へのrepr()適用で結果が異なってくる。

s = """abc\ndef
ghi\njkl"""

print(s)
# abc
# def
# ghi
# jkl

print(repr(s))
# 'abc\ndef\nghi\njkl'

s = r"""ABC\nDEF

GHI\nJKL"""
print(s)
# ABC\nDEF
# GHI\nJKL

print(repr(s))
# 'ABC\\nDEF\nGHI\\nJKL'

s = """abc\ndef

ghi\njkl"""

print(s)

# abc

# def

# ghi

# jkl

print(repr(s))

# 'abc\ndef\nghi\njkl'

s = r"""ABC\nDEF

GHI\nJKL"""

print(s)

# ABC\nDEF

# GHI\nJKL

print(repr(s))

# 'ABC\\nDEF\nGHI\\nJKL'

Python3 – 正規表現 – MatchObject

2016-10-06 / tau / コメントする

概要

search()などのreモジュール関数や正規表現オブジェクトメソッドが実行の結果マッチした場合に、MatchObjectオブジェクトが返される。以下、MatchObjectのオブジェクトをmatchオブジェクトと表現する。matchオブジェクトは常にブール値Trueを持ち、matchオブジェクトそのものを判定式に使ってマッチしたかどうかの判定ができる。

match = re.search(pattern, string)
if match:
    # マッチした場合の処理
else:
    # マッチしなかった場合の処理

match = re.search(pattern, string)

if match:

# マッチした場合の処理

else:

# マッチしなかった場合の処理

matchオブジェクトの文字列表現には、(最初に)ヒットした場所の範囲と、マッチした内容が含まれている。

import re

s = "The rain in Spain stays mainly in the plain."

print(re.search(r"in", s))
# <_sre.SRE_Match object; span=(6, 8), match='in'>

import re

s = "The rain in Spain stays mainly in the plain."

print(re.search(r"in", s))

# <_sre.SRE_Match object; span=(6, 8), match='in'>

正規表現・文字列情報

re

match.re

matchを生成した正規表現オブジェクト。

string

match.string

matchを生成したsearch()、match()へ渡された文字列。

import re

match = re.search(r'\b\w{4}\b', "The rain in Spain")
print(match.string)
# The rain in Spain
print(match.re)
# re.compile('\\b\\w{4}\\b')

import re

match = re.search(r'\b\w{4}\b', "The rain in Spain")

print(match.string)

# The rain in Spain

print(match.re)

# re.compile('\\b\\w{4}\\b')

グループ指定しない場合のマッチング結果

group()、start()、end()、span()

match.group()、match.start()、match.end()、match.span()

group（）はマッチした部分文字列、start()とend()はマッチした部分文字列の開始位置と終了位置、span()は(開始位置, 終了位置)のタプル。

import re
match = re.search(r'in', "The rain in Spain")
print(match.group()) # in
print(match.start()) # 6
print(match.end())   # 8
print(match.span())  # (6, 8)

import re

match = re.search(r'in', "The rain in Spain")

print(match.group()) # in

print(match.start()) # 6

print(match.end()) # 8

print(match.span()) # (6, 8)

グループ指定した場合のマッチング結果

group()

match.group()、match.group([group1, ...])

引数がない場合は、マッチしたもの全てが返される。引数がある場合はグループを指定(数字のほかグループ名でも可)。

groups()

match.groups()

マッチしたグループを要素とするタプルとする。

lastindex

match.lastindex

複数グループの最終インデックス。

import re

match = re.search(r'(\w+) (\w+)', "The rain in Spain")
print(match.group())   # The rain
print(match.groups())  # ('The', 'rain')
print(match.lastindex) # 2
print(match.group(0))  # The rain
print(match.group(1))  # The
print(match.group(2))  # rain

import re

match = re.search(r'(\w+) (\w+)', "The rain in Spain")

print(match.group()) # The rain

print(match.groups()) # ('The', 'rain')

print(match.lastindex) # 2

print(match.group(0)) # The rain

print(match.group(1)) # The

print(match.group(2)) # rain

Python3 – 正規表現 – モジュール定数

2016-10-06 / tau / コメントする

ここでは正規表現の操作に使われるモジュール定数を整理する。

re.A/re. ASCII

\b、\B、\d、\D、\s、\S、\w、\Wにおいて、ASCII文字のみでマッチングを行う。Unicodeパターンでのみ意味があり、バイト列パターンでは無視される。

import re

ptn = r'\b\w+\b'
regex_obj = re.compile(ptn)
regex_obj_ascii = re.compile(ptn, flags=re.ASCII)

s = "プログラミング言語Python"
print(regex_obj.findall(s))
# ['プログラミング言語Python']
print(regex_obj_ascii.findall(s))
# ['Python']

s = "プログラミング言語　Python"
print(regex_obj.findall(s))
# ['プログラミング言語', 'Python']
print(regex_obj_ascii.findall(s))
# ['Python']

import re

ptn = r'\b\w+\b'

regex_obj = re.compile(ptn)

regex_obj_ascii = re.compile(ptn, flags=re.ASCII)

s = "プログラミング言語Python"

print(regex_obj.findall(s))

# ['プログラミング言語Python']

print(regex_obj_ascii.findall(s))

# ['Python']

s = "プログラミング言語　Python"

print(regex_obj.findall(s))

# ['プログラミング言語', 'Python']

print(regex_obj_ascii.findall(s))

# ['Python']

re.I/re.IGNORECASE

英大文字・小文字を区別せずにマッチングを行う。{A-Z]のような表現で小文字ともマッチする。現在のロケールに影響を受けず、Unicode文字に対しても動作する。

import re

s = "abc DEF"
print(re.findall(r'\b[A-Z]+\b', s))
# ['DEF']
print(re.findall(r'\b[A-Z]+\b', s, flags=re.IGNORECASE))
# ['abc', 'DEF']

s = "abc DEF ｇｅｈ ＩＪＫ"
print(re.findall(r'\b[A-ZＡ-Ｚ]+\b', s))
# ['DEF', 'ＩＪＫ']
print(re.findall(r'\b[A-ZＡ-Ｚ]+\b', s, flags=re.IGNORECASE))
# ['abc', 'DEF', 'ｇｅｈ', 'ＩＪＫ']

import re

s = "abc DEF"

print(re.findall(r'\b[A-Z]+\b', s))

# ['DEF']

print(re.findall(r'\b[A-Z]+\b', s, flags=re.IGNORECASE))

# ['abc', 'DEF']

s = "abc DEF ｇｅｈＩＪＫ"

print(re.findall(r'\b[A-ZＡ-Ｚ]+\b', s))

# ['DEF', 'ＩＪＫ']

print(re.findall(r'\b[A-ZＡ-Ｚ]+\b', s, flags=re.IGNORECASE))

# ['abc', 'DEF', 'ｇｅｈ', 'ＩＪＫ']

re.L/re.LOCALE

\b、\B、\s、\S、\w、\Wにおいて、現在のロケールに従ったマッチングを行う。バイト列でのみ意味を持つ。非推奨。

re.M/re.MULTILINE

デフォルトでは'^'は文字列全体の先頭に、'$'は文字列全体の末尾にのみマッチするが、このフラグにより、'^'は文字列の先頭と各行の先頭(各改行の直後)、'$'は文字列の末尾と各行の末尾(各改行のの直前)とマッチする。

import re

s = """Love the life you live.
Live the life you love."""

print(re.findall(r'^L\w*', s))
# ['Love']
print(re.findall(r'\w*e.$', s))
# ['love.']

print(re.findall(r'^L\w*', s, flags=re.MULTILINE))
# ['Love', 'Live']
print(re.findall(r'\w*e.$', s, flags=re.MULTILINE))
# ['live.', 'love.']

import re

s = """Love the life you live.

Live the life you love."""

print(re.findall(r'^L\w*', s))

# ['Love']

print(re.findall(r'\w*e.$', s))

# ['love.']

print(re.findall(r'^L\w*', s, flags=re.MULTILINE))

# ['Love', 'Live']

print(re.findall(r'\w*e.$', s, flags=re.MULTILINE))

# ['live.', 'love.']

re.S/re.DOTALL

デフォルトでは'.'は改行にマッチしないが、このフラグにより'.'を改行を含む任意の文字とマッチさせる。

import re

s = """Love the life you live.
Live the life you love."""

print(re.findall(r'.+', s))
['Love the life you live.', 'Live the life you love.']

print(re.findall(r'.+', s, flags=re.DOTALL))
['Love the life you live.\nLive the life you love.']

import re

s = """Love the life you live.

Live the life you love."""

print(re.findall(r'.+', s))

['Love the life you live.', 'Live the life you love.']

print(re.findall(r'.+', s, flags=re.DOTALL))

['Love the life you live.\nLive the life you love.']

re.X/re.VERBOSE

このフラグにより、パターン文字列内に改行・インデントを入れたりコメントを入れるなど、より読みやすい正規表現を書くことができる。コメントには'#'を使う。

Python3 – 正規表現 – 正規表現オブジェクトメソッド

2016-10-06 / tau / コメントする

概要

reモジュールではre.RegexObjectクラスが定義されている。パターン文字列をコンパイルするとRegexObjectのオブジェクトが生成され、そのパターンはそのプロパティとして保持される。このクラスの各メソッドで、パターンを任意のテキストに適用する。

reモジュール関数を使う場合は実行のたびにパターン文字列とフラグを指定し、その都度コンパイルされる。一方、正規表現オブジェクトのメソッドを使う場合は、一度パターンをコンパイルしておけば、その後の操作でコンパイルのオーバーヘッドが生じない。フラグはコンパイル時に指定する。

import re

regex = re.compile(r'life')

print(regex.search("Love the life you live."))
# <_sre.SRE_Match object; span=(9, 13), match='life'>

print(regex.search("Live the life you love."))
# <_sre.SRE_Match object; span=(9, 13), match='life'>

import re

regex = re.compile(r'life')

print(regex.search("Love the life you live."))

# <_sre.SRE_Match object; span=(9, 13), match='life'>

print(regex.search("Live the life you love."))

# <_sre.SRE_Match object; span=(9, 13), match='life'>

パターンの検索

search()

regex.search(string,[ pos[, endpos]])

re.search()関数と同じ機能で、stringの任意の位置で、最初にregexにマッチした時にMatchObjectのオブジェクトを返す。マッチしなければNoneを返す。

posは検索開始位置で先頭が0。デフォルト値は0で先頭から検索する。

endposは検索範囲の終了位置で、endpos-1文字目までが検索範囲となる。デフォルトでは文字列の最後まで検索する。

import re

regex1 = re.compile(r'ab')
regex2 = re.compile(r'cd')
regex3 = re.compile(r'ef')
s = r"abcdabcd"

print(re.search(regex1, s))
# <_sre.SRE_Match object; span=(0, 2), match='ab'>
print(re.search(regex2, s))
# <_sre.SRE_Match object; span=(2, 4), match='cd'>
print(re.search(regex3, s))
# None

print(regex1.search(s, 2))
# <_sre.SRE_Match object; span=(4, 6), match='ab'>
print(regex1.search(s, 2, 5))
# None

import re

regex1 = re.compile(r'ab')

regex2 = re.compile(r'cd')

regex3 = re.compile(r'ef')

s = r"abcdabcd"

print(re.search(regex1, s))

# <_sre.SRE_Match object; span=(0, 2), match='ab'>

print(re.search(regex2, s))

# <_sre.SRE_Match object; span=(2, 4), match='cd'>

print(re.search(regex3, s))

# None

print(regex1.search(s, 2))

# <_sre.SRE_Match object; span=(4, 6), match='ab'>

print(regex1.search(s, 2, 5))

# None

match()

regex.match(string[, pos[, endpos]])

re.match()関数と同じ機能で、regexがstringの先頭でマッチするときだけMatchObjectオブジェクトを返す。pos、endposはregex.search()と同じ意味。

import re

regex1 = re.compile(r'ab')
regex2 = re.compile(r'cd')
s = r"abcdabcd"

print(re.match(regex1, s))
# <_sre.SRE_Match object; span=(0, 2), match='ab'>
print(re.match(regex2, s))
# None

import re

regex1 = re.compile(r'ab')

regex2 = re.compile(r'cd')

s = r"abcdabcd"

print(re.match(regex1, s))

# <_sre.SRE_Match object; span=(0, 2), match='ab'>

print(re.match(regex2, s))

# None

fullmatch()

regex.fullmatch(string[, pos[, endpos]])

re.fullmatch()関数と同じ機能で、regexがstring全体にマッチするときだけMatchObjectオブジェクトを返す。pos、endposはregex.search()と同じ意味。

import re

s = r"abcdabcd"

regex = re.compile(r'abcdabcd')
print(re.fullmatch(regex, s))
# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>

regex = re.compile(r'abcd')
print(re.fullmatch(regex, s))
# None

regex = re.compile(r'.*')
print(re.fullmatch(regex, s))
# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>

regex = re.compile(r'.{5}')
print(re.fullmatch(regex, s))
# None

import re

s = r"abcdabcd"

regex = re.compile(r'abcdabcd')

print(re.fullmatch(regex, s))

# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>

regex = re.compile(r'abcd')

print(re.fullmatch(regex, s))

# None

regex = re.compile(r'.*')

print(re.fullmatch(regex, s))

# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>

regex = re.compile(r'.{5}')

print(re.fullmatch(regex, s))

# None

findall()

regex.findall(string[, pos[, endpos]])

re.findall()関数と同じ機能でregexにマッチする部分列のリストを返す。pos、endposはregex.search()と同じ意味。

import re

s = r"abcdabcd"

regex = re.compile(r'ab')
print(regex.findall(s))
# ['ab', 'ab']

regex = re.compile(r'ef')
print(regex.findall(s))
# []

regex = re.compile(r'.{3}')
print(regex.findall(s))
# ['abc', 'dab']

import re

s = r"abcdabcd"

regex = re.compile(r'ab')

print(regex.findall(s))

# ['ab', 'ab']

regex = re.compile(r'ef')

print(regex.findall(s))

# []

regex = re.compile(r'.{3}')

print(regex.findall(s))

# ['abc', 'dab']

finditer()

regex.finditer(string[, pos[, endpos]])

re.finditer()関数と同じ機能で、regexにマッチする部分列のイテレータを返す。pos、endposはsearch()と同じ意味。

import re

s = r"abcdabcd"

regex = re.compile(r'ab')
[print(x) for x in regex.finditer(s)]
# <_sre.SRE_Match object; span=(0, 2), match='ab'>
# <_sre.SRE_Match object; span=(4, 6), match='ab'>

regex = re.compile(r'ef')
[print(x) for x in regex.finditer(s)]
# 空のイテレータ

regex = re.compile(r'.{3}')
[print(x) for x in regex.finditer(s)]
# <_sre.SRE_Match object; span=(0, 3), match='abc'>
# <_sre.SRE_Match object; span=(3, 6), match='dab'>

regex = re.compile(r'ab')
[print(x) for x in regex.finditer(s, 2, 6)]
# <_sre.SRE_Match object; span=(4, 6), match='ab'>

import re

s = r"abcdabcd"

regex = re.compile(r'ab')

[print(x) for x in regex.finditer(s)]

# <_sre.SRE_Match object; span=(0, 2), match='ab'>

# <_sre.SRE_Match object; span=(4, 6), match='ab'>

regex = re.compile(r'ef')

[print(x) for x in regex.finditer(s)]

# 空のイテレータ

regex = re.compile(r'.{3}')

[print(x) for x in regex.finditer(s)]

# <_sre.SRE_Match object; span=(0, 3), match='abc'>

# <_sre.SRE_Match object; span=(3, 6), match='dab'>

regex = re.compile(r'ab')

[print(x) for x in regex.finditer(s, 2, 6)]

# <_sre.SRE_Match object; span=(4, 6), match='ab'>

分割

split()

regex.split(string, maxsplit=0)

re.split()関数と同じ機能で、regexにマッチする部分列でstringを切り分ける。pos、endposはsearch()と同じ意味。

置換

sub()

regex.sub(repl, string, count=0)

re.sub()関数と同じ機能でstring中のregexにマッチする部分をreplで置き換える。replには文字列を返す関数も指定可能。pos、endposはsearch()と同じ意味。

subn()

regex.subn(repl, string, count=0)

re.subn()関数と同じ機能で、置換後にタプルで(置換後の文字列, 置換数)を返す。pos、endposはsearch()と同じ意味。

Python3 – 正規表現 – モジュール関数

2016-10-06 / tau / コメントする

概要

reモジュールの関数は、パターンと文字列を直接指定してマッチングなどの操作を行う。

引数の中のflagsについては、reモジュールで定義された定数を指定する。複数のflagsを指定する場合は、ビットごとのOR('|'演算子)を使って組み合わせる。

パターンは実行に先立ってコンパイルされるので、同じパターンを複数回用いる場合には、re.compile()関数でパターンをコンパイルし、コンパイルされたRegexObjectオブジェクトのメソッドを用いる方がよい。

正規表現のコンパイル

compile()

re.compile(pattern, flags=0)

正規表現パターンを正規表現オブジェクトにコンパイルする。正規表現オブジェクトのメソッド群で、以下のモジュール関数と同等の操作を行うことができる。

以下のモジュール関数を使う場合はflagsを関数ごとに指定するが、正規表現オブジェクトを使う場合は、compile()関数の引数でflagsを指定する。

パターンの検索

search()

re.search(pattern, string, flags=0)

stringの任意の位置で、最初にpatternにマッチした時にMatchObjectのオブジェクトを返す。マッチしなければNoneを返す。

import re
s = r"abcdabcd"
print(re.search(r'ab', s))
# <_sre.SRE_Match object; span=(0, 2), match='ab'>
print(re.search(r'cd', s))
# <_sre.SRE_Match object; span=(2, 4), match='cd'>
print(re.search(r'ef', s))
# None

import re

s = r"abcdabcd"

print(re.search(r'ab', s))

# <_sre.SRE_Match object; span=(0, 2), match='ab'>

print(re.search(r'cd', s))

# <_sre.SRE_Match object; span=(2, 4), match='cd'>

print(re.search(r'ef', s))

# None

match()

re.match(pattern, string, flags=0)

stringの先頭でpatternにマッチすればMatchObjectのオブジェクトを返す。マッチしなければNoneを返す。stringの途中ではマッチしない。

import re
s = r"abcdabcd"
print(re.match(r'ab', s))
# <_sre.SRE_Match object; span=(0, 2), match='ab'>
print(re.match(r'cd', s))
# None

import re

s = r"abcdabcd"

print(re.match(r'ab', s))

# <_sre.SRE_Match object; span=(0, 2), match='ab'>

print(re.match(r'cd', s))

# None

fullmatch()

re.fullmatch(pattern, string, flags=0)

patternがstring全体にマッチしたときだけMatcObjectのオブジェクトを返し、それ以外はNoneを返す。

import re
s = r"abcdabcd"
print(re.fullmatch(r'abcdabcd', s))
# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>
print(re.fullmatch(r'abcd', s))
# None
print(re.fullmatch(r'.*', s))
# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>
print(re.fullmatch(r'.{5}', s))
# None

import re

s = r"abcdabcd"

print(re.fullmatch(r'abcdabcd', s))

# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>

print(re.fullmatch(r'abcd', s))

# None

print(re.fullmatch(r'.*', s))

# <_sre.SRE_Match object; span=(0, 8), match='abcdabcd'>

print(re.fullmatch(r'.{5}', s))

# None

findall()

re.findall(pattern, string, flags=0)

string中でpatternにマッチする全ての部分文字列を要素とするリストを返す。マッチする部分がなければ空のリスト([])を返す。先頭からマッチした部分を取り除きながらサーチしていく。

import re
s = r"abcdabcd"
print(re.findall(r'ab', s))
# ['ab', 'ab']
print(re.findall(r'ef', s))
# []
print(re.findall(r'.{3}', s))
# ['abc', 'dab']

import re

s = r"abcdabcd"

print(re.findall(r'ab', s))

# ['ab', 'ab']

print(re.findall(r'ef', s))

# []

print(re.findall(r'.{3}', s))

# ['abc', 'dab']

finditer()

re.finditer(pattern, string, flags=0)

string中でpatternにマッチした結果のMatchObjectオブジェクトのイテレータを返す。マッチする部分がなければ空のイテレータを返す。先頭からマッチした部分を取り除きながらサーチしていく。

import re
s = r"abcdabcd"
[print(x) for x in re.finditer(r'ab', s)]
# <_sre.SRE_Match object; span=(0, 2), match='ab'>
# <_sre.SRE_Match object; span=(4, 6), match='ab'>
[print(x) for x in re.finditer(r'ef', s)]
# 空のイテレータ
[print(x) for x in re.finditer(r'.{3}', s)]
# <_sre.SRE_Match object; span=(0, 3), match='abc'>
# <_sre.SRE_Match object; span=(3, 6), match='dab'>

import re

s = r"abcdabcd"

[print(x) for x in re.finditer(r'ab', s)]

# <_sre.SRE_Match object; span=(0, 2), match='ab'>

# <_sre.SRE_Match object; span=(4, 6), match='ab'>

[print(x) for x in re.finditer(r'ef', s)]

# 空のイテレータ

[print(x) for x in re.finditer(r'.{3}', s)]

# <_sre.SRE_Match object; span=(0, 3), match='abc'>

# <_sre.SRE_Match object; span=(3, 6), match='dab'>

分割

split()

re.split(pattern, string, maxsplit=0, flags=0)

stringをすべてのpatternにマッチする部分で分割し、それらを要素とするリストを返す。patternにマッチする部分は除かれる。マッチする部分がなければ、stringを1つの要素とするリストが返される。

maxsplitに1以上の数nを指定すると、先頭から最大n個の分割が発生し、残りはリストの最後の要素となる。

import re
s =r"she sells sea shells by the seashore"
print(re.split(r' ', s))
# ['she', 'sells', 'sea', 'shells', 'by', 'the', 'seashore']
print(re.split(r'se', s))
# ['she ', 'lls ', 'a shells by the ', 'ashore']
print(re.split(r'xyz', s))
# ['she sells sea shells by the seashore']
print(re.split(r' ', s, maxsplit=3))
# ['she', 'sells', 'sea', 'shells by the seashore']
print(re.split(r' ', s, maxsplit=10))
# ['she', 'sells', 'sea', 'shells', 'by', 'the', 'seashore']

import re

s =r"she sells sea shells by the seashore"

print(re.split(r' ', s))

# ['she', 'sells', 'sea', 'shells', 'by', 'the', 'seashore']

print(re.split(r'se', s))

# ['she ', 'lls ', 'a shells by the ', 'ashore']

print(re.split(r'xyz', s))

# ['she sells sea shells by the seashore']

print(re.split(r' ', s, maxsplit=3))

# ['she', 'sells', 'sea', 'shells by the seashore']

print(re.split(r' ', s, maxsplit=10))

# ['she', 'sells', 'sea', 'shells', 'by', 'the', 'seashore']

patternが先頭の部分に一致する場合は、リストの最初は空文字列から始まり、最後の部分に一致する場合はリストの最終要素が空文字列になる。

import re
s = "abracadabra"
print(re.split(r'ab', s))
# ['', 'racad', 'ra']
print(re.split(r'ra', s))
# ['ab', 'cadab', '']

import re

s = "abracadabra"

print(re.split(r'ab', s))

# ['', 'racad', 'ra']

print(re.split(r'ra', s))

# ['ab', 'cadab', '']

空文字列('')では分割されない。patternとして空文字1文字を指定するとエラー。

置換

sub()

re.sub(pattern, repl, string, count=0, flags=0)

string中でpatternにマッチする部分文字列をreplの文字列で置換する。countで正の整数値を指定すると、先頭から最大その回数だけ置換を行う。

import re
s = "she sells sea shells by the seashore"
print(re.sub(r'sh', "++", s))
# ++e sells sea ++ells by the sea++ore
print(re.sub(r'sh', "++", s, count=2))
# ++e sells sea ++ells by the seashore

import re

s = "she sells sea shells by the seashore"

print(re.sub(r'sh', "++", s))

# ++e sells sea ++ells by the sea++ore

print(re.sub(r'sh', "++", s, count=2))

# ++e sells sea ++ells by the seashore

空文字列とのマッチは、前のマッチの直後以外に置換される。

import re
print(re.sub(r'x*', '-', "abcde"))
# -a-b-c-d-e-

import re

print(re.sub(r'x*', '-', "abcde"))

# -a-b-c-d-e-

replには文字列を返す関数を指定できる。

import re

def repl_func(matchobj):
    if matchobj.group(0).isalpha():
        return 'A'
    else:
        return '0'

print(re.sub(r'[A-Z0-9]', repl_func, "TK-80-BS"))
# AA-00-AA

import re

def repl_func(matchobj):

if matchobj.group(0).isalpha():

return 'A'

else:

return '0'

print(re.sub(r'[A-Z0-9]', repl_func, "TK-80-BS"))

# AA-00-AA

subn()

re.subn(pattern, repl, string, count=0, fkags=0)

sub()と同じ操作を行うが、タプルで(置換後の文字列, 置換数)を返す。

import re
s = "she sells sea shells by the seashore"
print(re.subn(r'sh', "++", s))
# ('++e sells sea ++ells by the sea++ore', 3)
print(re.subn(r'sh', "++", s, count=2))
# ('++e sells sea ++ells by the seashore', 2)

import re

s = "she sells sea shells by the seashore"

print(re.subn(r'sh', "++", s))

# ('++e sells sea ++ells by the sea++ore', 3)

print(re.subn(r'sh', "++", s, count=2))

# ('++e sells sea ++ells by the seashore', 2)

Python3 – 正規表現

2016-10-06 / tau / コメントする

Pythonでの正規表現の扱い

Pythonでは、パターン・マッチングを以下のいずれかの方法で行い、その結果をMatchObjectオブジェクトとして返す。

パターンと文字列を指定して、reモジュールで定義された関数を実行する
パターン文字列を正規表現オブジェクトとしてコンパイルしておき、そのメソッドで文字列を指定して実行する

reモジュール関数を使う方法

モジュール関数で実行する例は次の通り。実行結果はMatchObjectのオブジェクトとして返されるが、その文字列表現のspanのところに4文字目～8-1文字目でヒットしたことが記録されている。

import re

s = "The rain in Spain stays mainly in the plain."

print(re.search(r"rain", s))

# <_sre.SRE_Match object; span=(4, 8), match='rain'>
# マッチオブジェクトが返される

import re

s = "The rain in Spain stays mainly in the plain."

print(re.search(r"rain", s))

# <_sre.SRE_Match object; span=(4, 8), match='rain'>

# マッチオブジェクトが返される

パターン文字列を正規表現オブジェクトにコンパイルする方法

正規表現オブジェクトにコンパイルして検索する方法は次の通り。検索結果は先と同じMatchObjectオブジェクト。

import re

s = "The rain in Spain stays mainly in the plain."

ptnobj = re.compile(r"rain")
print(ptnobj)
print(ptnobj.search(s))

# re.compile('rain')
# <_sre.SRE_Match object; span=(4, 8), match='rain'>

import re

s = "The rain in Spain stays mainly in the plain."

ptnobj = re.compile(r"rain")

print(ptnobj)

print(ptnobj.search(s))

# re.compile('rain')

# <_sre.SRE_Match object; span=(4, 8), match='rain'>