php regex to python, preg_match($x,$y,$z) to re.search(x,y,z


php regex to python, preg_match($x,$y,$z) to re.search(x,y,z)

Mr。维克托,这个问题决不是你在证明这是一个重复的问题时并列的问题的重复。也就是说,您指向的问题问python中preg_match的计数部分是多少。I、 甚至在标题本身中提到了"re.search",这是您提到的线程的答案。我知道重新搜索我的问题特别是如何使用re.search中的第三个参数,就像我提供的例子中使用php中的第二个参数一样。维克托先生,我谨请你把我的线头揭成副本,谢谢你,先生。

我想做的是在python中为希腊语编写Stemming(NLP)。php代码是这样的:

protected static $step1list = array(
    "φαγια"=>"φα",
    "φαγιου"=>"φα",
    "φαγιων"=>"φα",
    "σκαγια"=>"σκα",
    "σκαγιου"=>"σκα",
    "σκαγιων"=>"σκα",
    "ολογιου"=>"ολο",
    "ολογια"=>"ολο",
    "ολογιων"=>"ολο",
    "σογιου"=>"σο",
    "σογια"=>"σο",
    "σογιων"=>"σο",
    "τατογια"=>"τατο",
    "τατογιου"=>"τατο",
    "τατογιων"=>"τατο",
    "κρεασ"=>"κρε",
    "κρεατοσ"=>"κρε",
    "κρεατα"=>"κρε",
    "κρεατων"=>"κρε",
    "περασ"=>"περ",
    "περατοσ"=>"περ",
    "περατα"=>"περ",
    "περατων"=>"περ",
    "τερασ"=>"τερ",
    "τερατοσ"=>"τερ",
    "τερατα"=>"τερ",
    "τερατων"=>"τερ",
    "φωσ"=>"φω",
    "φωτοσ"=>"φω",
    "φωτα"=>"φω",
    "φωτων"=>"φω",
    "καθεστωσ"=>"καθεστ",
    "καθεστωτοσ"=>"καθεστ",
    "καθεστωτα"=>"καθεστ",
    "καθεστωτων"=>"καθεστ",
    "γεγονοσ"=>"γεγον",
    "γεγονοτοσ"=>"γεγον",
    "γεγονοτα"=>"γεγον",
    "γεγονοτων"=>"γεγον"
);
protected static $step1regexp="/(.*)(φαγια|φαγιου|φαγιων|σκαγια|σκαγιου|σκαγιων|ολογιου|ολογια|ολογιων|σογιου|σογια|σογιων|τατογια|τατογιου|τατογιων|κρεασ|κρεατοσ|κρεατα|κρεατων|περασ|περατοσ|περατα|περατων|τερασ|τερατοσ|τερατα|τερατων|φωσ|φωτοσ|φωτα|φωτων|καθεστωσ|καθεστωτοσ|καθεστωτα|καθεστωτων|γεγονοσ|γεγονοτοσ|γεγονοτα|γεγονοτων)$/u";
$w;
$stem="";
$suffix="";
$firstch="";
if (preg_match($step1regexp, $w, $fp)) {
    $stem = $fp[1];
    $suffix = $fp[2];
    $w = $stem.$step1list[$suffix];
}

我最近尝试过的一件事是这样的(我的列表上没有废话,它们和php的一样):

import re
step1list = {
    u"φαγια": u"φα",
    blah blah blah blah
    }
stem = ""
suffix=""
firstch=""
s = u"σογια"
reg = re.compile(r'/(.*)(φαγια|φαγιου|φαγιων|σκαγια|σκαγιου|σκαγιων|ολογιου|ολογια|ολογιων|σογιου|σογια|σογιων|τατογια|τατογιου|τατογιων|κρεασ|κρεατοσ|κρεατα|κρεατων|περασ|περατοσ|περατα|περατων|τερασ|τερατοσ|τερατα|τερατων|φωσ|φωτοσ|φωτα|φωτων|καθεστωσ|καθεστωτοσ|καθεστωτα|καθεστωτων|γεγονοσ|γεγονοτοσ|γεγονοτα|γεγονοτων)$');
m = reg.search(s)
if m:
    stem = m.group(1);
    suffix = m.group(2);
    s = "{0}{1}".format(stem, step1list[suffix])
print(s)
print(stem)
print(suffix)

我得到的结果是:

σογια

(后面有两个空行),这意味着这两个组没有成功识别:(

我该怎么修?

来自文档:(另请参阅匹配与搜索)

import re
p = re.compile( regex )
m = p.search( 'string goes here' ) #p.match() to find from start of string only
if m:
    print 'Match found: ', m.group() # group(1...n) for capture groups
else:
    print 'No match'