在好例子网,分享、交流、成长!
您当前所在位置:首页C# 开发实例C#语言基础 → C# 对中文分词以及将汉字转换成拼音(带声调)例子

C# 对中文分词以及将汉字转换成拼音(带声调)例子

C#语言基础

下载此实例
  • 开发语言:C#
  • 实例大小:4.19M
  • 下载次数:42
  • 浏览次数:863
  • 发布时间:2016-01-19
  • 实例类别:C#语言基础
  • 发 布 人:crazycode
  • 文件格式:.zip
  • 所需积分:2
 相关标签: 转换 C# 汉字 拼音

实例介绍

【实例简介】分词时 支持自定义字典

【实例截图】

【核心代码】

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using System.Text.RegularExpressions;

namespace TextToPinyin
{
    public partial class TextToPinyinForm : Form
    {
        //词典的文件名,含路径
        string filename;

        public TextToPinyinForm()
        {
            InitializeComponent();

            //初始化词典文件路径;
            filename = @"Dictionary\\Dictionary.xml";

        }



        //测试各个分词模块
        private void SegWords()
        {
            //清理输出文本框
            textBoxOutput.Text = "";

            //要检测的文本不能为空
            if (string.IsNullOrEmpty(textBoxInput.Text))
            {
                MessageBox.Show("要处理的文本不能为空");
                return;
            }

            //检测格式是否符合要求
            if (!CheckInputText(textBoxInput.Text))
            {
                MessageBox.Show("要处理的内容必须是全中文");
                return;
            }

            //生成词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);

            //只取词典中的中文词汇,无需拼音
            List<string> wordList = dict.Dictionary.Keys.ToList<string>();

            //进行正向分词
            List<string> wordsLeft = Helper.Segmentation.SegMMLeftToRight(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsLeft == null)
            {
                MessageBox.Show("正向分词模块执行失败");
                return;
            }


            //将正向分词结果显示出来
            textBoxOutput.Text  = "正向分词:";
            foreach (string word in wordsLeft)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }

            //换行
            textBoxOutput.Text  = "\r\n";

            //进行逆向分词
            List<string> wordsRight = Helper.Segmentation.SegMMRightToLeft(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsRight == null)
            {
                MessageBox.Show("逆向分词模块执行失败");
                return;
            }

            //将正向分词结果显示出来
            textBoxOutput.Text  = "逆向分词:";
            foreach (string word in wordsRight)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }

            //换行
            textBoxOutput.Text  = "\r\n";



            //进行双向分词
            List<string> wordsDouble = Helper.Segmentation.SegMMDouble(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsDouble == null)
            {
                MessageBox.Show("双向分词模块执行失败");
                return;
            }

            //将正向分词结果显示出来
            textBoxOutput.Text  = "双向分词:";
            foreach (string word in wordsDouble)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }



        }

        //测试读取词典
        private void ReadDict()
        {
            //清空输出框内容
            textBoxOutput.Text = "";

            //读取词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);

            //显示词典条数
            textBoxOutput.Text = "词典读取成功,获得词条:";
            textBoxOutput.Text  = dict.Dictionary.Count;
            textBoxOutput.Text  = "条。";
            textBoxOutput.Text  = "\r\n";

            //提示只显示前100条,不然程序会卡死
            if (dict.Dictionary.Count > 100)
            {
                textBoxOutput.Text  = "只显示词典的前100条,太多程序会卡死:";
                textBoxOutput.Text  = "\r\n";
            }
            else
            {
                textBoxOutput.Text  = "词典所有内容如下:";
                textBoxOutput.Text  = "\r\n";
            }

            //将词典内容显示在窗口中,只显示前100条
            int i = 0;
            foreach (KeyValuePair<string, string> pair in dict.Dictionary)
            {
                textBoxOutput.Text  = pair.Key;
                textBoxOutput.Text  = ", ";
                textBoxOutput.Text  = pair.Value;
                textBoxOutput.Text  = "\r\n";

                //只显示前100条
                i  ;
                if (i >= 100)
                    break;
            }
        }

        //判断输入的字符是否符合格式
        private bool CheckInputText(string inputStr)
        {
            //字符串不能为空
            if (string.IsNullOrEmpty(inputStr))
                return false;

            //判断字符串是否完全是中文
            //匹配中文字符的正则表达式
            //还要匹配换行符
            string patternCN = @"^[\u4e00-\u9fa5\r\n] $";

            //匹配表达式,如果匹配成功,说明格式符合要求
            if (Regex.IsMatch(textBoxInput.Text, patternCN))
            {
                return true;
            }
            else
                return false;
        }

        //将汉字转化为拼音
        private void ConvertCnToPinyin()
        {
            //清理输出文本框
            textBoxOutput.Text = "";

            //要转换的文本不能为空
            if (string.IsNullOrEmpty(textBoxInput.Text))
            {
                MessageBox.Show("要处理的文本不能为空");
                return;
            }

            //检测格式是否符合要求
            if (!CheckInputText(textBoxInput.Text))
            {
                MessageBox.Show("要处理的内容必须是全中文");
                return;
            }

            //生成词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);

            //只取词典中的中文词汇,无需拼音
            List<string> wordList = dict.Dictionary.Keys.ToList<string>();

            //进行正向分词
            List<string> wordsLeft = Helper.Segmentation.SegMMLeftToRight(textBoxInput.Text, ref wordList);

            //判断分词是否正常返回
            if (wordsLeft == null)
            {
                MessageBox.Show("正向分词模块执行失败");
                return;
            }

            //转为拼音
            string pinyin = "";
            foreach (string word in wordsLeft)
            {
                //如果是单字,要检测字典中是否包含该单字
                if (word.Length == 1 && !dict.Dictionary.ContainsKey(word))
                {
                    //如果词典中不包含该中文单字,就要从微软的dll库读取拼音
                    pinyin = Helper.PinyinConvert.GetFirstPinYinCount(word.ToCharArray()[0]).ToLower();
                }
                else
                {
                    //一般情况不用检测,直接取词典中的拼音即可
                    pinyin = dict.Dictionary[word].ToLower();
                }

                //但如果不需要声调,还必须去掉声调
                if (!checkBoxWithTone.Checked)
                {
                    //这个正则表达式表示,去掉字符串中的数字
                    pinyin = Regex.Replace(pinyin, @"\d", "");
                }

                //将拼音显示出来
                textBoxOutput.Text  = pinyin;

                //结尾加个空格
                textBoxOutput.Text  = " ";
            }

            //去掉最后一个空格
            textBoxOutput.Text = textBoxOutput.Text.Trim();

        }


        //测试读取词典
        private void buttonTestDict_Click(object sender, EventArgs e)
        {
            ReadDict();
        }

        //测试分词模块
        private void buttonSegm_Click(object sender, EventArgs e)
        {
            //测试分词
            SegWords();
        }

        //转换中文为拼音
        private void buttonCnToPinyin_Click(object sender, EventArgs e)
        {
            //转为拼音
            ConvertCnToPinyin();
        }

        //去掉非中文字符
        private void buttonRemoveUnCn_Click(object sender, EventArgs e)
        {
            //下面的正则表达式表示:去掉所有的非中文字符
            textBoxInput.Text = Regex.Replace(textBoxInput.Text, @"[^\u4e00-\u9fa5]*", "");
        }


        //选择用户自己的词典
        private void buttonSelectDict_Click(object sender, EventArgs e)
        {
            //将用户选择的文件名和路径,指定为用户词典文件
            if (openFileDialogDict.ShowDialog() == DialogResult.OK)
            {
                filename = openFileDialogDict.FileName;
                MessageBox.Show("词典更改为:"   filename);
            }
        }


    }
}

标签: 转换 C# 汉字 拼音

实例下载地址

C# 对中文分词以及将汉字转换成拼音(带声调)例子

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

第 1 楼 friendjoey 发表于: 2021-12-20 14:53 40
这个工程不完整,无法编译通过。

支持(0) 盖楼(回复)

第 2 楼 friendjoey 发表于: 2021-12-20 14:53 46
这个工程不完整,无法编译通过。

支持(0) 盖楼(回复)

发表评论

(您的评论需要经过审核才能显示)

查看所有2条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警