uocmo_kchodoi
Moderator
- Xu
- 132
REGULAR EXPRESSION TRONG C#
Khái niệm: Regular Expression hay tiếng Việt được gọi là Biểu thức chính quy, là một cấu trúc rất mạnh để mô tả một chuỗi theo cách thống nhất chung.
Regular Expression bao gồm tập hợp các ký tự, toán tử hay ký hiệu toán học nhằm biểu thị một chuỗi theo cấu trúc chung mà mọi người học theo. Có thể xem Regular Expression như một loại tiếng lóng dùng chung trong lập trình.
Bạn có thể trích lọc một hay nhiều chuỗi có cấu trúc chung từ một đoạn văn bản hay một chuỗi ra.
Bạn có thể tìm kiếm, thay đổi nội dung của chuỗi một cách dễ dàng. Thay vì phải ngồi cắt chuỗi mỏi mệt như trước đây.
Từ đây, với Regular Expression. Bạn hoàn toàn có thể trích lọc dữ liệu từ các đoạn html theo ý.
1. Construct cho định nghĩa Regular Expression trong C#
Có nhiều loại ký tự, toán tử và construct đa dạng mà giúp bạn định nghĩa Regular Expression trong C#. Bạn theo các link sau để có chi tiết về các construct này.
- Character escape https://vnkienthuc.com/su-dung-escape-character-trong-c-nhu-the-nao.t77322/
- Lớp Character https://vnkienthuc.com/su-dung-lop-character-trong-c-nhu-the-nao.t77323/
- Anchor
- Grouping construct https://vnkienthuc.com/grouping-construct-trong-c-la-gi.t77325/
- Quantifier https://vnkienthuc.com/quantifier-trong-c-la-gi.t77326/
- Backreference construct https://vnkienthuc.com/backreference-construct-trong-c-la-gi.t77327/
- Alternation construct https://vnkienthuc.com/alternation-construct-trong-c-la-gi.t77328/
- Subsititution https://vnkienthuc.com/substitution-trong-c-la-gi.t77329/
- Miscellaneous constructs https://vnkienthuc.com/construct-hon-hop-trong-c.t77330/
Lớp Regex trong C# được sử dụng để biểu diễn một Regular Expression. Nó có các phương thức được sử dụng phổ biến sau:
1. public bool IsMatch(string input)
Chỉ rằng có hay không Regular Expression đã cho trong Regex constructor này tìm thấy một match trong chuỗi đầu vào đã xác định
2. public bool IsMatch(string input, int startat)
Chỉ rằng có hay không Regular Expression đã cho trong Regex constructor này tìm thấy một match trong chuỗi đầu vào đã xác định, bắt đầu tại vị trí startat đã cho trong chuỗi
3. public static bool IsMatch(string input, string pattern)
Chỉ rằng có hay không Regular Expression đã cho tìm thấy một match trong chuỗi đầu vào đã xác định
4. public MatchCollection Matches(string input)
Tìm kiếm chuỗi đầu vào đã xác định về tất cả sự xuất hiện của một Regular Expression
5. public string Replace(string input, string replacement)
Trong một chuỗi đầu vào đã xác định, thay thế tất cả chuỗi mà so khớp với một Regular Expression pattern với một chuỗi thay thế đã cho
6. public string[] Split(string input)
Chia một chuỗi đầu vào thành một mảng các chuỗi phụ tại vị trí được định nghĩa bởi một Regular Expression pattern đã xác định trong Regex constructor
Để có danh sách đầy đủ các phương thức và thuộc tính, bạn vui lòng đọc Microsoft Documentation về C#.
Ví dụ 1
Ví dụ sau so khớp với các từ mà bắt đầu với 'S':
using System;
using System.Text.RegularExpressions;
namespace VietJackCsharp
{
class TestCsharp
{
private static void showMatch(string text, string expr)
{
Console.WriteLine("Expression: " + expr);
MatchCollection mc = Regex.Matches(text, expr);
foreach (Match m in mc)
{
Console.WriteLine(m);
}
}
static void Main(string[] args)
{
Console.WriteLine("Vi du minh hoa Regular Expression trong C#");
Console.WriteLine("-----------------------------------------");
string str = "Sao hom nay lai thay sao suyen son sang";
Console.WriteLine("So khop voi cac tu bat dau bang chu cai 'S': ");
showMatch(str, @"\bS\S*");
Console.ReadKey();
}
}
}
Nếu bạn không sử dụng lệnh Console.ReadKey(); thì chương trình sẽ chạy và kết thúc luôn (nhanh quá đến nỗi bạn không kịp nhìn kết quả). Lệnh này cho phép chúng ta nhìn kết quả một cách rõ ràng hơn.
Biên dịch và chạy chương trình C# trên sẽ cho kết quả sau:
Ví dụ sau so khớp với các từ mà bắt đầu với 's' và kết thúc với 'n':
using System;
using System.Text.RegularExpressions;
namespace VietJackCsharp
{
class TestCsharp
{
private static void showMatch(string text, string expr)
{
Console.WriteLine("Expression: " + expr);
MatchCollection mc = Regex.Matches(text, expr);
foreach (Match m in mc)
{
Console.WriteLine(m);
}
}
static void Main(string[] args)
{
Console.WriteLine("Vi du minh hoa Regular Expression trong C#");
Console.WriteLine("-----------------------------------------");
string str = "Sao hom nay lai thay sao suyen son sang";
Console.WriteLine("So khop voi tu bat dau bang 's' va ket thuc bang 'n':");
showMatch(str, @"\bs\S*n\b");
Console.ReadKey();
}
}
}
Biên dịch và chạy chương trình C# trên sẽ cho kết quả sau:
Ví dụ sau thay thế các white space:
using System;
using System.Text.RegularExpressions;
namespace VietJackCsharp
{
class TestCsharp
{
static void Main(string[] args)
{
Console.WriteLine("Vi du minh hoa Regular Expression trong C#");
Console.WriteLine("-----------------------------------------");
string str1 = "Hello World ";
string pattern = "\\s+";
string str2 = " ";
Regex rgx = new Regex(pattern);
string result = rgx.Replace(str1, str2);
Console.WriteLine("Chuoi ban dau: {0}", str1);
Console.WriteLine("Chuoi sau khi da thay the: {0}", result);
Console.ReadKey();
}
}
}
Biên dịch và chạy chương trình C# trên sẽ cho kết quả sau:
Nguồn: vietjack.com
Sửa lần cuối: