在好例子网,分享、交流、成长!
您当前所在位置:首页C# 开发实例C#语言基础 → C# 汉字转拼音源码(分词算法处理多音字,含声调 音调)

C# 汉字转拼音源码(分词算法处理多音字,含声调 音调)

C#语言基础

下载此实例
  • 开发语言:C#
  • 实例大小:4.19M
  • 下载次数:72
  • 浏览次数:2407
  • 发布时间:2015-01-03
  • 实例类别:C#语言基础
  • 发 布 人:crazycode
  • 文件格式:.zip
  • 所需积分:2
 相关标签: 算法 C# 汉字 拼音

实例介绍

【实例简介】

【实例截图】

【核心代码】


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using System.Text.RegularExpressions;
 
namespace TextToPinyin
{
    public partial class TextToPinyinForm : Form
    {
        //词典的文件名,含路径
        string filename;
 
        public TextToPinyinForm()
        {
            InitializeComponent();
 
            //初始化词典文件路径;
            filename = @"Dictionary\\Dictionary.xml";
 
        }
 
 
 
        //测试各个分词模块
        private void SegWords()
        {
            //清理输出文本框
            textBoxOutput.Text = "";
 
            //要检测的文本不能为空
            if (string.IsNullOrEmpty(textBoxInput.Text))
            {
                MessageBox.Show("要处理的文本不能为空");
                return;
            }
 
            //检测格式是否符合要求
            if (!CheckInputText(textBoxInput.Text))
            {
                MessageBox.Show("要处理的内容必须是全中文");
                return;
            }
 
            //生成词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);
 
            //只取词典中的中文词汇,无需拼音
            List<string> wordList = dict.Dictionary.Keys.ToList<string>();
 
            //进行正向分词
            List<string> wordsLeft = Helper.Segmentation.SegMMLeftToRight(textBoxInput.Text, ref wordList);
 
            //判断分词是否正常返回
            if (wordsLeft == null)
            {
                MessageBox.Show("正向分词模块执行失败");
                return;
            }
 
 
            //将正向分词结果显示出来
            textBoxOutput.Text  = "正向分词:";
            foreach (string word in wordsLeft)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }
 
            //换行
            textBoxOutput.Text  = "\r\n";
 
            //进行逆向分词
            List<string> wordsRight = Helper.Segmentation.SegMMRightToLeft(textBoxInput.Text, ref wordList);
 
            //判断分词是否正常返回
            if (wordsRight == null)
            {
                MessageBox.Show("逆向分词模块执行失败");
                return;
            }
 
            //将正向分词结果显示出来
            textBoxOutput.Text  = "逆向分词:";
            foreach (string word in wordsRight)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }
 
            //换行
            textBoxOutput.Text  = "\r\n";
 
 
 
            //进行双向分词
            List<string> wordsDouble = Helper.Segmentation.SegMMDouble(textBoxInput.Text, ref wordList);
 
            //判断分词是否正常返回
            if (wordsDouble == null)
            {
                MessageBox.Show("双向分词模块执行失败");
                return;
            }
 
            //将正向分词结果显示出来
            textBoxOutput.Text  = "双向分词:";
            foreach (string word in wordsDouble)
            {
                textBoxOutput.Text  = word;
                textBoxOutput.Text  = ", ";
            }
 
 
 
        }
 
        //测试读取词典
        private void ReadDict()
        {
            //清空输出框内容
            textBoxOutput.Text = "";
 
            //读取词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);
 
            //显示词典条数
            textBoxOutput.Text = "词典读取成功,获得词条:";
            textBoxOutput.Text  = dict.Dictionary.Count;
            textBoxOutput.Text  = "条。";
            textBoxOutput.Text  = "\r\n";
 
            //提示只显示前100条,不然程序会卡死
            if (dict.Dictionary.Count > 100)
            {
                textBoxOutput.Text  = "只显示词典的前100条,太多程序会卡死:";
                textBoxOutput.Text  = "\r\n";
            }
            else
            {
                textBoxOutput.Text  = "词典所有内容如下:";
                textBoxOutput.Text  = "\r\n";
            }
 
            //将词典内容显示在窗口中,只显示前100条
            int i = 0;
            foreach (KeyValuePair<string, string> pair in dict.Dictionary)
            {
                textBoxOutput.Text  = pair.Key;
                textBoxOutput.Text  = ", ";
                textBoxOutput.Text  = pair.Value;
                textBoxOutput.Text  = "\r\n";
 
                //只显示前100条
                i  ;
                if (i >= 100)
                    break;
            }
        }
 
        //判断输入的字符是否符合格式
        private bool CheckInputText(string inputStr)
        {
            //字符串不能为空
            if (string.IsNullOrEmpty(inputStr))
                return false;
 
            //判断字符串是否完全是中文
            //匹配中文字符的正则表达式
            //还要匹配换行符
            string patternCN = @"^[\u4e00-\u9fa5\r\n] $";
 
            //匹配表达式,如果匹配成功,说明格式符合要求
            if (Regex.IsMatch(textBoxInput.Text, patternCN))
            {
                return true;
            }
            else
                return false;
        }
 
        //将汉字转化为拼音
        private void ConvertCnToPinyin()
        {
            //清理输出文本框
            textBoxOutput.Text = "";
 
            //要转换的文本不能为空
            if (string.IsNullOrEmpty(textBoxInput.Text))
            {
                MessageBox.Show("要处理的文本不能为空");
                return;
            }
 
            //检测格式是否符合要求
            if (!CheckInputText(textBoxInput.Text))
            {
                MessageBox.Show("要处理的内容必须是全中文");
                return;
            }
 
            //生成词典
            Entity.PinyinDictionary dict = new Entity.PinyinDictionary(@filename);
 
            //只取词典中的中文词汇,无需拼音
            List<string> wordList = dict.Dictionary.Keys.ToList<string>();
 
            //进行正向分词
            List<string> wordsLeft = Helper.Segmentation.SegMMLeftToRight(textBoxInput.Text, ref wordList);
 
            //判断分词是否正常返回
            if (wordsLeft == null)
            {
                MessageBox.Show("正向分词模块执行失败");
                return;
            }
 
            //转为拼音
            string pinyin = "";
            foreach (string word in wordsLeft)
            {
                //如果是单字,要检测字典中是否包含该单字
                if (word.Length == 1 && !dict.Dictionary.ContainsKey(word))
                {
                    //如果词典中不包含该中文单字,就要从微软的dll库读取拼音
                    pinyin = Helper.PinyinConvert.GetFirstPinYinCount(word.ToCharArray()[0]).ToLower();
                }
                else
                {
                    //一般情况不用检测,直接取词典中的拼音即可
                    pinyin = dict.Dictionary[word].ToLower();
                }
 
                //但如果不需要声调,还必须去掉声调
                if (!checkBoxWithTone.Checked)
                {
                    //这个正则表达式表示,去掉字符串中的数字
                    pinyin = Regex.Replace(pinyin, @"\d", "");
                }
 
                //将拼音显示出来
                textBoxOutput.Text  = pinyin;
 
                //结尾加个空格
                textBoxOutput.Text  = " ";
            }
 
            //去掉最后一个空格
            textBoxOutput.Text = textBoxOutput.Text.Trim();
 
        }
 
 
        //测试读取词典
        private void buttonTestDict_Click(object sender, EventArgs e)
        {
            ReadDict();
        }
 
        //测试分词模块
        private void buttonSegm_Click(object sender, EventArgs e)
        {
            //测试分词
            SegWords();
        }
 
        //转换中文为拼音
        private void buttonCnToPinyin_Click(object sender, EventArgs e)
        {
            //转为拼音
            ConvertCnToPinyin();
        }
 
        //去掉非中文字符
        private void buttonRemoveUnCn_Click(object sender, EventArgs e)
        {
            //下面的正则表达式表示:去掉所有的非中文字符
            textBoxInput.Text = Regex.Replace(textBoxInput.Text, @"[^\u4e00-\u9fa5]*", "");
        }
 
 
        //选择用户自己的词典
        private void buttonSelectDict_Click(object sender, EventArgs e)
        {
            //将用户选择的文件名和路径,指定为用户词典文件
            if (openFileDialogDict.ShowDialog() == DialogResult.OK)
            {
                filename = openFileDialogDict.FileName;
                MessageBox.Show("词典更改为:"   filename);
            }
        }
 
 
    }
}


标签: 算法 C# 汉字 拼音

实例下载地址

C# 汉字转拼音源码(分词算法处理多音字,含声调 音调)

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

第 1 楼 a888123123 发表于: 2023-01-17 15:51 17
已下载

支持(0) 盖楼(回复)

发表评论

(您的评论需要经过审核才能显示)

查看所有1条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警