使用python实现汉字转拼音

2022-09-14 11:29:14

在浏览博客时,偶然看到了用python将汉字转为拼音的第三方包,但是在实现的过程中发现一些参数已经更新,现在将两种方法记录一下。

xpinyin

在一些博客中看到,如果要转化成带音节的拼音,需要传递参数,‘show_tone_marks=True’,但我在实际使用时发现,已经没有这个参数了,变成了tone_marks,其它的参数和使用方法,一看就明白了,写的很清楚。
看下源码:

classPinyin(object):"""translate chinese hanzi to pinyin by python, inspired by flyerhzm’s
    `chinese\_pinyin`_ gem

    usage
    -----
    ::

        >>> from xpinyin import Pinyin
        >>> p = Pinyin()
        >>> # default splitter is `-`
        >>> p.get_pinyin(u"上海")
        'shang-hai'
        >>> # show tone marks
        >>> p.get_pinyin(u"上海", tone_marks='marks')
        'shàng-hǎi'
        >>> p.get_pinyin(u"上海", tone_marks='numbers')
        >>> 'shang4-hai3'
        >>> # remove splitter
        >>> p.get_pinyin(u"上海", '')
        'shanghai'
        >>> # set splitter as whitespace
        >>> p.get_pinyin(u"上海", ' ')
        'shang hai'
        >>> p.get_initial(u"上")
        'S'
        >>> p.get_initials(u"上海")
        'S-H'
        >>> p.get_initials(u"上海", u'')
        'SH'
        >>> p.get_initials(u"上海", u' ')
        'S H'

    请输入utf8编码汉字
    .. _chinese\_pinyin: https://github.com/flyerhzm/chinese_pinyin
    """
  • 安装:pip install xpinyin
  • 代码:
from xpinyinimport Pinyin# 实例拼音转换对象
p= Pinyin()# 进行拼音转换
ret= p.get_pinyin(u"汉语拼音转换", tone_marks='marks')
ret1= p.get_pinyin(u"汉语拼音转换", tone_marks='numbers')print(ret+'\n'+ret1)# 得到转化后的结果# hàn-yǔ-pīn-yīn-zhuǎn-huàn# han4-yu3-pin1-yin1-zhuan3-huan4

pypinyin

  • 与xpinyin相比,pypinyin更强大。
  • 安装:pip install pypinyin
  • 使用:
import pypinyin# 不带声调的(style=pypinyin.NORMAL)defpinyin(word):
    s=''for iin pypinyin.pinyin(word, style=pypinyin.NORMAL):
        s+=''.join(i)return s# 带声调的(默认)defyinjie(word):
    s=''# heteronym=True开启多音字for iin pypinyin.pinyin(word, heteronym=True):
        s= s+''.join(i)+" "return sif __name__=="__main__":print(pinyin("忠厚传家久"))print(yinjie("诗书继世长"))
  • 源码:
#!/usr/bin/env python# -*- coding: utf-8 -*-from __future__import unicode_literalsfrom copyimport deepcopyfrom itertoolsimport chainfrom pypinyin.compatimport text_type, callable_checkfrom pypinyin.constantsimport(
    PHRASES_DICT, PINYIN_DICT,
    RE_HANS, Style)from pypinyin.contribimport mmsegfrom pypinyin.utilsimport simple_seg, _replace_tone2_style_dict_to_defaultfrom pypinyin.styleimport auto_discover, convertas convert_style

auto_discover()defseg(hans):
    hans= simple_seg(hans)
    ret=[]for xin hans:ifnot RE_HANS.match(x):# 没有拼音的字符,不再参与二次分词
            ret.append(x)elif PHRASES_DICT:
            ret.extend(list(mmseg.seg.cut(x)))else:# 禁用了词语库,不分词
            ret.append(x)return retdefload_single_dict(pinyin_dict, style='default'):"""载入用户自定义的单字拼音库

    :param pinyin_dict: 单字拼音库。比如: ``{0x963F: u"ā,ē"}``
    :param style: pinyin_dict 参数值的拼音库风格. 支持 'default', 'tone2'
    :type pinyin_dict: dict
    """if style=='tone2':for k, vin pinyin_dict.items():
            v= _replace_tone2_style_dict_to_default(v)
            PINYIN_DICT[k]= velse:
        PINYIN_DICT.update(pinyin_dict)

    mmseg.retrain(mmseg.seg)defload_phrases_dict(phrases_dict, style='default'):"""载入用户自定义的词语拼音库

    :param phrases_dict: 词语拼音库。比如: ``{u"阿爸": [[u"ā"], [u"bà"]]}``
    :param style: phrases_dict 参数值的拼音库风格. 支持 'default', 'tone2'
    :type phrases_dict: dict
    """if style=='tone2':for k, valuein phrases_dict.items():
            v=[list(map(_replace_tone2_style_dict_to_default, pys))for pysin value]
            PHRASES_DICT[k]= velse:
        PHRASES_DICT.update(phrases_dict)

    mmseg.retrain(mmseg.seg)defto_fixed(pinyin, style, strict=True):"""根据拼音风格格式化带声调的拼音.

    :param pinyin: 单个拼音
    :param style: 拼音风格
    :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母
    :return: 根据拼音风格格式化后的拼音字符串
    :rtype: unicode
    """return convert_style(pinyin, style=style, strict=strict, default=pinyin)def_handle_nopinyin_char(chars, errors='default'):"""处理没有拼音的字符"""if callable_check(errors):return errors(chars)if errors=='default':return charselif errors=='ignore':returnNoneelif errors=='replace':iflen(chars)>1:return''.join(text_type('%x'%ord(x))for xin chars)else:return text_type('%x'%ord(chars))defhandle_nopinyin(chars, errors='default', heteronym=True):
    py= _handle_nopinyin_char(chars, errors=errors)ifnot py:return[]ifisinstance(py,list):# 包含多音字信息ifisinstance(py[0],list):if heteronym:return py# [[a, b], [c, d]]# [[a], [c]]return[[x[0]]for xin py]return[[i]for iin py]else:return[[py]]defsingle_pinyin(han, style, heteronym, errors='default', strict=True):"""单字拼音转换.

    :param han: 单个汉字
    :param errors: 指定如何处理没有拼音的字符,详情请参考
                   :py:func:`~pypinyin.pinyin`
    :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母
    :return: 返回拼音列表,多音字会有多个拼音项
    :rtype: list
    """
    num=ord(han)# 处理没有拼音的字符if numnotin PINYIN_DICT:return handle_nopinyin(han, errors=errors, heteronym=heteronym)

    pys= PINYIN_DICT[num].split(',')# 字的拼音列表ifnot heteronym:return[[to_fixed(pys[0], style, strict=strict)]]# 输出多音字的多个读音# 临时存储已存在的拼音,避免多音字拼音转换为非音标风格出现重复。# TODO: change to use set# TODO: add test for cache
    py_cached={}
    pinyins=[]for iin pys:
        py= to_fixed(i, style, strict=strict)if pyin py_cached:continue
        py_cached[py]= py
        pinyins.append(py)return[pinyins]defphrase_pinyin(phrase, style, heteronym, errors='default', strict=True):"""词语拼音转换.

    :param phrase: 词语
    :param errors: 指定如何处理没有拼音的字符
    :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母
    :return: 拼音列表
    :rtype: list
    """
    py=[]if phrasein PHRASES_DICT:
        py= deepcopy(PHRASES_DICT[phrase])for idx, iteminenumerate(py):
            py[idx]=[to_fixed(item[0], style=style, strict=strict)]else:for iin phrase:
            single= single_pinyin(i, style=style, heteronym=heteronym,
                                   errors=errors, strict=strict)if single:
                py.extend(single)return pydef_pinyin(words, style, heteronym, errors, strict=True):"""
    :param words: 经过分词处理后的字符串,只包含中文字符或只包含非中文字符,
                  不存在混合的情况。
    """
    pys=[]# 初步过滤没有拼音的字符if RE_HANS.match(words):
        pys= phrase_pinyin(words, style=style, heteronym=heteronym,
                            errors=errors, strict=strict)return pys

    py= handle_nopinyin(words, errors=errors, heteronym=heteronym)if py:
        pys.extend(py)return pysdefpinyin(hans, style=Style.TONE, heteronym=False,
           errors='default', strict=True):"""将汉字转换为拼音.

    :param hans: 汉字字符串( ``'你好吗'`` )或列表( ``['你好', '吗']`` ).
                 可以使用自己喜爱的分词模块对字符串进行分词处理,
                 只需将经过分词处理的字符串列表传进来就可以了。
    :type hans: unicode 字符串或字符串列表
    :param style: 指定拼音风格,默认是 :py:attr:`~pypinyin.Style.TONE` 风格。
                  更多拼音风格详见 :class:`~pypinyin.Style`
    :param errors: 指定如何处理没有拼音的字符。详见 :ref:`handle_no_pinyin`

                   * ``'default'``: 保留原始字符
                   * ``'ignore'``: 忽略该字符
                   * ``'replace'``: 替换为去掉 ``\\u`` 的 unicode 编码字符串
                     (``'\\u90aa'`` => ``'90aa'``)
                   * callable 对象: 回调函数之类的可调用对象。

    :param heteronym: 是否启用多音字
    :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 :ref:`strict`
    :return: 拼音列表
    :rtype: list

    :raise AssertionError: 当传入的字符串不是 unicode 字符时会抛出这个异常

    Usage::

      >>> from pypinyin import pinyin, Style
      >>> import pypinyin
      >>> pinyin('中心')
      [['zhōng'], ['xīn']]
      >>> pinyin('中心', heteronym=True)  # 启用多音字模式
      [['zhōng', 'zhòng'], ['xīn']]
      >>> pinyin('中心', style=Style.FIRST_LETTER)  # 设置拼音风格
      [['z'], ['x']]
      >>> pinyin('中心', style=Style.TONE2)
      [['zho1ng'], ['xi1n']]
      >>> pinyin('中心', style=Style.CYRILLIC)
      [['чжун1'], ['синь1']]
    """# 对字符串进行分词处理ifisinstance(hans, text_type):
        han_list= seg(hans)else:
        han_list= chain(*(seg(x)for xin hans))
    pys=[]for wordsin han_list:
        pys.extend(_pinyin(words, style, heteronym, errors, strict=strict))return pysdefslug(hans, style=Style.NORMAL, heteronym=False, separator='-',
         errors='default', strict=True):"""生成 slug 字符串.

    :param hans: 汉字
    :type hans: unicode or list
    :param style: 指定拼音风格,默认是 :py:attr:`~pypinyin.Style.NORMAL` 风格。
                  更多拼音风格详见 :class:`~pypinyin.Style`
    :param heteronym: 是否启用多音字
    :param separstor: 两个拼音间的分隔符/连接符
    :param errors: 指定如何处理没有拼音的字符,详情请参考
                   :py:func:`~pypinyin.pinyin`
    :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 :ref:`strict`
    :return: slug 字符串.

    :raise AssertionError: 当传入的字符串不是 unicode 字符时会抛出这个异常

    ::

      >>> import pypinyin
      >>> from pypinyin import Style
      >>> pypinyin.slug('中国人')
      'zhong-guo-ren'
      >>> pypinyin.slug('中国人', separator=' ')
      'zhong guo ren'
      >>> pypinyin.slug('中国人', style=Style.FIRST_LETTER)
      'z-g-r'
      >>> pypinyin.slug('中国人', style=Style.CYRILLIC)
      'чжун1-го2-жэнь2'
    """return separator.join(chain(*pinyin(hans, style=style, heteronym=heteronym,
                                        errors=errors, strict=strict)))deflazy_pinyin(hans, style=Style.NORMAL, errors='default', strict=True):"""不包含多音字的拼音列表.

    与 :py:func:`~pypinyin.pinyin` 的区别是返回的拼音是个字符串,
    并且每个字只包含一个读音.

    :param hans: 汉字
    :type hans: unicode or list
    :param style: 指定拼音风格,默认是 :py:attr:`~pypinyin.Style.NORMAL` 风格。
                  更多拼音风格详见 :class:`~pypinyin.Style`。
    :param errors: 指定如何处理没有拼音的字符,详情请参考
                   :py:func:`~pypinyin.pinyin`
    :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 :ref:`strict`
    :return: 拼音列表(e.g. ``['zhong', 'guo', 'ren']``)
    :rtype: list

    :raise AssertionError: 当传入的字符串不是 unicode 字符时会抛出这个异常

    Usage::

      >>> from pypinyin import lazy_pinyin, Style
      >>> import pypinyin
      >>> lazy_pinyin('中心')
      ['zhong', 'xin']
      >>> lazy_pinyin('中心', style=Style.TONE)
      ['zhōng', 'xīn']
      >>> lazy_pinyin('中心', style=Style.FIRST_LETTER)
      ['z', 'x']
      >>> lazy_pinyin('中心', style=Style.TONE2)
      ['zho1ng', 'xi1n']
      >>> lazy_pinyin('中心', style=Style.CYRILLIC)
      ['чжун1', 'синь1']
    """returnlist(chain(*pinyin(hans, style=style, heteronym=False,
                              errors=errors, strict=strict)))
  • 作者:高岩_deal
  • 原文链接:https://blog.csdn.net/u013034226/article/details/85009791
    更新时间:2022-09-14 11:29:14