# -*- coding: utf-8 -*-
#Corribot, bot da galipedia para corrixir pequenos erros ortográficos e o que se vaia podendo.
#A lista de erros ortográficos a tratar vaise collendo de
# http://gl.wikipedia.org/wiki/Wikipedia:Erros_de_ortograf%C3%ADa
#
#Uso:
# - En Windows: replace.py -start:! -fix:orto-gl -recursive
# - En Linux : python replace.py -start:! -fix:orto-gl -recursive
#
#### ¡Non uses a función "-always" para executar este script automaticamente!, a non ser que
#### estés TOTALMENTE seguro de que fará ben tódolos cambios. É mellor que cambie de menos que
#### de máis, pero no caso de que estés totalmente seguro de que non vai fastidiar nada
#### podes usar: replace.py -start:! -fix:orto-gl -recursive -always
#
# 07-10-2010:Versión 0.1
#Hoxe comezo só cunha palabriña, unha pequena verba para un bot, pero un gran paso para o seu operador ;).
#Este bot está baseado no Bigsus-bot da wikipedia en castelán con código licenciado coa GNU GPL V.3,
#por esta razón o meu código tamén ten a mesma licenza.
#Pode consultarse o código orixinal en:
# http://es.wikipedia.org/wiki/Usuario:Bigsus-bot/Corrector_ortogr%C3%A1fico/C%C3%B3digo que fai varias
#cousas máis que eu pero que espero poder facer máis adiante e que están aquí:
# http://es.wikipedia.org/wiki/Usuario:Bigsus-bot/Corrector_ortogr%C3%A1fico
fixes['orto-gl']={
'regex': True,
'msg': {
'es':u'[[Usuario:Corribot|Corribot]]: Facendo probas de correccións ortográficas sinxelas: ademáis -> ademais segundo: [[Wikipedia:Erros_de_ortograf%C3%ADa_revisados]]',
},
'replacements': [
## A ##
# (ur'abandoa', ur'abandona'), # listo o 11-10-2010
# (ur'Abandoa', ur'Abandona'), # listo o 11-10-2010
# (ur'b(ogad[ao]s?)\b', ur'v\1'), # abogad* -> avogad* listo o 11-10-2010
# (ur'ábside\b', ur'ábsida'), #ábside -> ábsida listo o 11-10-2010
# (ur'Ábside\b', ur'Ábsida'), #ábside -> ábsida listo o 11-10-2010
# (ur'abside\b', ur'ábsida'), #ábside -> ábsida listo o 11-10-2010
# (ur'Abside\b', ur'Ábsida'), #ábside -> ábsida listo o 11-10-2010
(ur'Ademáis\b', ur'Ademais'), #ademáis -> ademais listo o -10-2010
(ur'ademáis\b', ur'ademais'), #ademáis -> ademais listo o -10-2010
],
'exceptions': {
'inside-tags': [
### Outras posibilidades para as excepcións son: ###
### header, includeonly, noinclue, table, gallery, link ###
'nowiki',
'comment',
'interwiki',
# 'ref', #Non funciona ben. Omite máis texto que o das referencias e non está mal reparar errores ortográficos dentro destas.
# 'template',
'math',
'pre',
'source',
# 'startspace',
'hyperlink',
'gallery',
'timeline',
],
'text-contains': [
ur'Castelanismo',
ur'Hipergaleguismo',
ur'\{\{\s?[Tt]raducción\|', #non revisar os artigos en tradución
],
'inside': [
#### ELEMENTOS WIKI #####
#ur'\[\[:? *([Ff]ile|[Ii]mag\w*|[Aa]rchivo):[\w\d\s()\-\._]*[\|\]]', #Evitar modificar imaxes
ur'\[\[:? *([Ff]ile|[Ii]mag\w*|[Aa]rchivo|[Ff]icheiro):.*?[\|\]]', #Evitar modificar imaxes
ur'\[\[[^I]\w*:.*?\]', #Evitar modificar categorías e interwikis
ur'<cite>[^<]*</cite>', #Evitar as citas
ur'(?i)\|[\w\d\s()\-_=]*?\.(?:gif|png|jpg|svg)\b', #Evitar parámetros de plantillas con imaxes embebidas
# ur'[a-z]\.[a-z]', #Evitar parámetros de plantillas con imaxes embebidas
# ur'(?:www\.[\w\d_/?=. ]+|\w+)\.(?:html?|com?|asp|es|pt|net|org|gov)', #Evitar vínculos externos
ur'(?:www\.[\w\d_\.]+|\w+)\.(?:html?|com?|asp|es|pt|net|org|gov)', #Evitar vínculos externos
ur'\|[\w\d\t\s]*=', #Evitar parámetros de plantillas
# ur'\|[\w\d\t\s]*(?==)', #Evitar parámetros de plantillas
ur'[\w\s_]*=[\w\d\s_,\'\.\[\](){}<>\-/]*\|$', #Evitar parámetros de plantillas
# ur'[\w\s_]*(?==[\w\d\s_,\'\.\[\](){}<>\-/]*)\|', #Evitar parámetros de plantillas
# ur'\w *=', #Evitar parámetros de plantillas
ur'{{[^=]*?}}', #Evitar plantillas sin asignación de valores mediante igual. Só se fan correccións en valores de infobox.
ur'\[\[[|\w\s_]*\]\]\w', #Evitar enlaces internos que continúan. Facer probas.
# ur'\w\]\]\w', #Evitar enlaces internos que continúan.
#### EXCEPCIÓNS #####
ur'\b[Aa]lbums Chart', #Excepción para álbums
ur'\b[Aa]lbum Chart', #Excepción para álbums
# Dimension (exemplo)
# ur'\bFourth Dimension\b',
# pokémon (exemplo)
# ur'\b[Pp]okémon\b',
],
}
}