Text mining có thể được thể hiện là quá trình trích xuất dữ liệu rất cần thiết từ văn phiên bản ngôn ngữ chuẩn. Toàn bộ dữ liệu mà chúng tôi tạo ra thông qua tin nhắn văn bản, tài liệu, email, tệp được viết bằng văn bản ngôn ngữ chung. Text mining hầu hết được sử dụng để rút ra thông tin cụ thể hữu ích hoặc những mẫu từ tài liệu đó.

Bạn đang xem: Khai phá dữ liệu văn bản (Text Data Mining)


Text mining

Thị trường Text mining đã bao gồm sự vững mạnh và vận dụng theo cấp cho số nhân trong vài năm qua với cũng dự kiến ​​sẽ dành được mức lớn mạnh và vận dụng đáng kể về sau tới. Giữa những lý bởi vì chính phía sau việc áp dụng Text mining là sự tuyên chiến đối đầu cao hơn trên thị phần kinh doanh, nhiều tổ chức đang tra cứu kiếm các chiến thuật giá trị tăng thêm để tuyên chiến và cạnh tranh với các tổ chức khác. Với câu hỏi ngày càng hoàn thành xong trong sale và biến hóa quan điểm của khách hàng hàng, những tổ chức đang chi tiêu rất phệ để tra cứu ra chiến thuật có năng lực phân tích dữ liệu khách hàng và đối thủ tuyên chiến và cạnh tranh để nâng cấp khả năng cạnh tranh.

*
*
*
*

Text transformation

Chuyển thay đổi văn bản là một kỹ thuật được áp dụng để điều hành và kiểm soát việc viết hoa của văn bản.

Ở đây chỉ dẫn hai cách màn biểu diễn tài liệu chính.

Bag of words
Vector Space

Text Pre-processing

Xử lý trước là 1 trong nhiệm vụ đặc trưng và là một bước đặc biệt quan trọng trong Text mining, giải pháp xử lý ngôn ngữ tự nhiên (NLP) với truy xuất tin tức (IR). Trong nghành khai phá văn bản, xử lý trước tài liệu được thực hiện để trích xuất thông tin và kiến ​​thức hữu ích từ tài liệu văn bản phi cấu trúc. Truy hỏi xuất thông tin (IR) là vụ việc lựa chọn tài liệu như thế nào trong tủ đồ sẽ được tróc nã xuất để đáp ứng nhu mong của người dùng.

Feature selection:

Lựa chọn anh tài là một trong những phần quan trọng của Data mining. Tuyển lựa tính năng có thể được quan niệm là quy trình giảm nguồn vào của quá trình xử lý hoặc tra cứu kiếm những nguồn tin tức thiết yếu. Lựa chọn đối tượng người tiêu dùng địa lý còn được gọi là lựa lựa chọn biến.

Data mining:

Bây giờ, trong bước này, quá trình Text mining kết hợp với quy trình thông thường. Các thủ tục khai thác dữ liệu cổ điển được sử dụng trong cơ sở tài liệu cấu trúc.

Evaluate:

Sau đó, nó review kết quả. Khi hiệu quả được đánh giá, tác dụng sẽ bị loại bỏ.

Các ứng dụng text mining:

Đây là các ứng dụng Text mining sau:

Risk Management:

Quản lý xui xẻo ro là một trong những quy trình có hệ thống và logic nhằm mục đích phân tích, xác định, cách xử lý và đo lường và tính toán các khủng hoảng rủi ro liên quan lại đến bất kỳ hành rượu cồn hoặc quá trình nào trong tổ chức. Phân tích khủng hoảng rủi ro không khá đầy đủ thường là nguyên nhân bậc nhất gây thất vọng. Điều này đặc biệt quan trọng đúng trong số tổ chức tài bao gồm khi việc áp dụng Phần mềm thống trị Rủi ro dựa trên công nghệ Text mining bao gồm thể nâng cấp hiệu quả năng lực giảm thiểu đen đủi ro. Nó đến phép cai quản hàng triệu nguồn cùng hàng petabyte tài liệu văn bản, đồng thời cung cấp khả năng kết nối dữ liệu. Nó giúp truy vấn dữ liệu thích hợp vào đúng thời điểm.

Customer Care Service:

Các phương thức Text mining, part

đặc biệt NLP, đã ngày càng phân biệt tầm đặc trưng trong lĩnh vực chăm sóc khách hàng. Các tổ chức đang chi tiêu trong lập trình đối chiếu văn bản để nâng cấp trải nghiệm toàn diện và tổng thể của họ bằng phương pháp truy cập dữ liệu văn phiên bản từ các nguồn khác nhau như đánh giá của khách hàng hàng, khảo sát, cuộc hotline của khách hàng, v.v. Mục tiêu chính của đối chiếu văn bạn dạng là giảm thời hạn phản hồi của những tổ chức và giúp giải quyết và xử lý các năng khiếu nại của người tiêu dùng một cách gấp rút và hiệu quả.

Business Intelligence:

Các công ty và doanh nghiệp sale đã bước đầu sử dụng chiến lược Text mining như 1 khía cạnh chính của trí tuệ kinh doanh của họ. ở bên cạnh việc cung ứng những đọc biết sâu sắc về hành động và xu thế của khách hàng, kế hoạch Text mining còn hỗ trợ các tổ chức triển khai phân tích phẩm hóa học và nhược điểm của đối thủ, mang về cho họ lợi thế tuyên chiến đối đầu và cạnh tranh trên thị trường.

Social truyền thông Analysis:

Phân tích mạng xã hội giúp theo dõi dữ liệu trực con đường và có rất nhiều công nắm Text mining được thiết kế theo phong cách đặc biệt nhằm phân tích hiệu suất của các trang web truyền thông xã hội. Các công nuốm này giúp theo dõi cùng diễn giải văn phiên bản được tạo qua mạng internet từ tin tức, email, blog, v.v. Các công chũm Text mining có thể phân tích đúng chuẩn tổng số bài bác đăng, tín đồ theo dõi cùng tổng số lượt ham mê thương hiệu của doanh nghiệp trên nền tảng truyền thông media xã hội được cho phép bạn hiểu ý kiến của những cá nhân đang ảnh hưởng với chữ tín và văn bản của bạn.

Các phương pháp Text mining trong Data mining:

Đây là những cách tiếp cận Text mining dưới đây được thực hiện trong Data mining.

1. Phân tích links dựa trên từ khóa:

Nó tích lũy các tập hòa hợp từ khóa hoặc thuật ngữ thường xảy ra cùng nhau và sau đó khám phá côn trùng quan hệ link giữa chúng. Đầu tiên, nó cách xử trí trước tài liệu văn bản bằng phương pháp phân tích cú pháp, tách bóc gốc, loại bỏ các từ bỏ dừng, v.v. Sau khi xử lý trước dữ liệu, nó sẽ khởi tạo ra những thuật toán khai thác liên kết. Ở đây, không bắt buộc đến cố gắng của bé người, do đó số lượng hiệu quả không mong muốn và thời hạn thực hiện tại được sút xuống.

2. đối chiếu phân một số loại text:

Phân loại tài liệu trường đoản cú động:

Phân tích này được sử dụng để phân loại tự động số lượng bự tài liệu văn phiên bản trực con đường như trang web, email, v.v. Phân một số loại tài liệu văn phiên bản thay thay đổi theo phân loại tài liệu quan hệ vị cơ sở dữ liệu tài liệu ko được tổ chức theo các cặp cực hiếm thuộc tính.

Số hóa văn bản:

Stemming algorithms

Một bước tiền xử lý quan trọng trước khi mua hàng các tư liệu đầu vào ban đầu bằng câu hỏi bắt nguồn từ. Những thuật ngữ “bắt nguồn từ” hoàn toàn có thể được tư tưởng là sự giảm sút các từ bỏ về căn nguyên của chúng. Ví dụ, các vẻ ngoài ngữ pháp khác biệt của từ cùng được sắp xếp giống nhau. Mục tiêu chính của câu hỏi tạo gốc là đảm bảo một từ tương tự như bằng lịch trình Text mining.

Support for different languages

Có một số chuyển động phụ thuộc nhiều vào ngữ điệu như để gốc, trường đoản cú đồng nghĩa, các chữ mẫu được phép vào từ. Vị đó, cung ứng cho các ngôn ngữ khác nhau là rất quan trọng.

Exclude certain character:

Việc sa thải số, cam kết tự ví dụ hoặc chuỗi ký kết tự hoặc từ ngắn hơn hoặc dài hơn nữa một số ký tự ráng thể có thể được triển khai trước khi thu xếp thứ trường đoản cú của tài liệu đầu vào.

Xem thêm: Phần mềm bảo mật cho giải pháp điện toán đám mây là gì? bảo mật điện toán đám mây

Include lists, exclude lists (stop-words):

Một danh sách những từ ví dụ sẽ được liệt kê hoàn toàn có thể được mô tả và nó rất hữu ích khi họ muốn tìm kiếm một từ thế thể. Nó cũng phân loại các tài liệu đầu vào dựa trên tần suất xuất hiện của các từ đó. Kế bên ra, “từ dừng”, có nghĩa là các luật pháp sẽ bị khước từ khỏi 1-1 đặt hàng có thể được tế bào tả. Thông thường, một danh sách những từ ngừng tiếng Anh mặc định bao hàm “the,” “a,” “kể từ”, v.v. Phần đa từ này được thực hiện trong ngôn ngữ tương ứng rất thường xuyên nhưng truyền đạt vô cùng ít tài liệu trong tài liệu.

khoảng hơn một thập kỷtrởlại đây, lượng tin tức được giữ trữtrên những thiết bị điện tử(đĩa cứng, CD-ROM, băng từ, .v.v.) không chấm dứt tăng lên. Sựtích lũy dữliệu này xảy ra với một tốc độbùng nổ. Người ta cầu đoán rằng lượng tin tức trên thế giới tăng gấp rất nhiều lần sau khoảng hai năm và theo đó sốlượng cũng nhưkích cỡcủa những cơsởdữliệu (CSDL) cũng tăng thêm một giải pháp nhanh chóng. Nói một giải pháp hình ảnh là bọn họ đang “ngập” trong dữliệu nhưng lại lại “đói” tri thức. Thắc mắc đặt ra là liệu họ có thểkhai thác được gì từnhững “núi” dữliệu những tưởng như“bỏ đi” ấy ko ? “Necessity is the mother of invention”- Data Mining ra đời nhưmột hướng giải quyết và xử lý hữu hiệu cho câu hỏi vừa đề ra ởtrên <>. Tương đối nhiều định nghĩa về
Data Mining và sẽ tiến hành đềcập ởphần sau, tuy vậy có thểtạm hiểu đúng bản chất Data Mining nhưlà một công nghệtri thứcgiúp khai thác những tin tức hữu ích từnhững kho dữliệu được tích trữtrong suốt thừa trình hoạt động của một công ty, tổchức làm sao đó.


*
55 trang | phân chia sẻ: lvbuiluyen | Lượt xem: 2689 | Lượt tải: 2
*

Bạn vẫn xem trước trăng tròn trang tài liệu Luận văn Tổng quan khai thác dữ liệu và ứng dụng, để thấy tài liệu hoàn hảo bạn click vào nút download ở trên
Luận văn giỏi nghiệp Tổng quan khai phá dữ liệu và ứng dụng Chương 1. TỔNG quan VỀ KHAI PHÁ DỮ LIỆU website 1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU (DATAMING) VÀ KDD 1.1.1. Lý do lại cần khai thác dữ liệu (datamining) khoảng tầm hơn một thập kỷ quay trở về đây, lượng tin tức được tàng trữ trên các thiết bị năng lượng điện tử (đĩa cứng, CD-ROM, băng từ, .v.v.) không kết thúc tăng lên. Sự tích lũy tài liệu này xảy ra với một vận tốc bùng nổ. Tín đồ ta cầu đoán rằng lượng thông tin trên trái đất tăng gấp rất nhiều lần sau khoảng 2 năm và từ đó số lượng tương tự như kích cỡ của các cơ sở tài liệu (CSDL) cũng tạo thêm một giải pháp nhanh chóng. Nói một giải pháp hình hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri thức. Thắc mắc đặt ra là liệu bạn có thể khai thác được gì từ hầu hết “núi” dữ liệu tưởng như “bỏ đi” ấy ko ? “Necessity is the mother of invention” - Data Mining thành lập và hoạt động như một hướng giải quyết và xử lý hữu hiệu cho thắc mắc vừa đưa ra ở bên trên <>. Không ít định nghĩa về Data Mining và sẽ được đề cập tại vị trí sau, mặc dù nhiên hoàn toàn có thể tạm hiểu đúng bản chất Data Mining như thể một công nghệ tri thức giúp khai thác những thông tin hữu ích từ đầy đủ kho tài liệu được tích trữ nhìn trong suốt quá trình buổi giao lưu của một công ty, tổ chức triển khai nào đó. 1.1.2. Khai phá dữ liệu là gì? khai phá dữ liệu (datamining) được định nghĩa như là một quy trình chắt lọc giỏi khai phá trí thức từ một lượng bự dữ liệu. Một ví dụ thường dùng là là việc khai quật vàng từ đá cùng cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong một tập thích hợp lớn các dữ liệu đến trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm kiếm một tập hợp nhỏ có cực hiếm từ một số lượng lớn các dữ liệu thô. Có không ít thuật ngữ hiện tại được dùng cũng có thể có nghĩa tương tự với tự Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu),... Định nghĩa: khai thác dữ liệu là một trong những tập hợp các kỹ thuật được áp dụng để auto khai thác với tìm ra những mối quan hệ lẫn nhau của tài liệu trong một tập hợp dữ liệu vĩ đại và phức tạp, bên cạnh đó cũng tra cứu ra các mẫu ẩn chứa trong tập dữ liệu đó. Khai phá dữ liệu là 1 bước trong bảy cách của quy trình KDD (Knowleadge Discovery in Database) và KDD được coi như như 7 thừa trình khác nhau theo lắp thêm tự sau:s 1. Có tác dụng sạch dữ liệu (data cleaning & preprocessing)s: loại trừ nhiễu và các dữ liệu không buộc phải thiết. 2. Tích phù hợp dữ liệu: (data integration): quy trình hợp nhất dữ liệu thành hồ hết kho tài liệu (data warehouses và data marts) sau thời điểm đã làm cho sạch cùng tiền cách xử lý (data cleaning & preprocessing). 3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ đông đảo kho dữ liệu và sau đó biến đổi về dạng thích hợp cho quy trình khai thác tri thức. Quy trình này bao hàm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không khá đầy đủ (incomplete data), .v.v. 4. Thay đổi dữ liệu: những dữ liệu được thay đổi sang những dạng phù hợp cho quy trình xử lý 5. Khai phá dữ liệu(data mining): là một trong những trong công việc quan trọng nhất, trong các số đó sử dụng những phương thức thông minh để chắt lọc ra đông đảo mẫu dữ liệu. 6. Ước lượng chủng loại (knowledge evaluation): vượt trình reviews các tác dụng tìm được trải qua các độ đo như thế nào đó. 7. Biểu diễn tri thức (knowledge presentation): quy trình này sử dụng những kỹ thuật để biểu diễn và diễn tả trực quan cho tất cả những người dùng. Hình 1 - công việc trong Data Mining & KDD 1.1.3. Các tác dụng chính của khai thác dữ liệu Data Mining được chia nhỏ dại thành một số hướng thiết yếu như sau: • trình bày khái niệm (concept description): ưu tiền về mô tả, tổng hợp với tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. • Luật phối kết hợp (association rules): là dạng luật màn trình diễn tri sản phẩm ở dạng khá đối kháng giản. Ví dụ: “60 % phái nam vào nhà hàng nếu cài đặt bia thì tất cả tới 80% trong các họ sẽ sở hữu thêm thịt trườn khô”. Luật kết hợp được áp dụng nhiều trong nghành kính doanh, y học, tin-sinh, tài chính & thị phần chứng khoán, .v.v. • Phân lớp và dự kiến (classification & prediction): xếp một đối tượng người sử dụng vào trong số những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Phía tiếp cận này thường sử dụng một số trong những kỹ thuật của machine learning như cây ra quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Fan ta có cách gọi khác phân lớp là học có đo lường và thống kê (học gồm thầy). • Phân cụm (clustering): xếp các đối tượng người tiêu dùng theo từng nhiều (số lượng tương tự như tên của cụm chưa theo luồng thông tin có sẵn trước. Người ta còn được gọi phân cụm là học không đo lường và thống kê (học ko thầy). • khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật phối hợp nhưng tất cả thêm tính trang bị tự cùng tính thời gian. Phía tiếp cận này được ứng dụng nhiều trong nghành tài chủ yếu và thị phần chứng khoán bởi nó bao gồm tính đoán trước cao. 1.1.4. Ứng dụng của khai phá dữ liệu Data Mining tuy là một trong những hướng tiếp cận new nhưng gợi cảm được tương đối nhiều sự quan tâm của những nhà phân tích và trở nên tân tiến nhờ vào phần đông ứng dụng thực tiễn của nó. Bạn cũng có thể liệt kê ra đây một số trong những ứng dụng điển hình: • Phân tích tài liệu và cung ứng ra quyết định (data analysis & decision support) • Điều trị y học tập (medical treatment) • Text mining và Web mining • Tin-sinh (bio-informatics) • Tài thiết yếu và thị trường chứng khoán (finance và stock market) • bảo hiểm (insurance) • nhận dạng (pattern recognition) • .v.v. 1.2. CƠ SỞ SỮ LIỆU HYPERTEXT VÀ FULLTEXT 1.2.1. Cơ sở dữ liệu Full
Text dữ liệu dạng Full
Text là 1 trong dạng tài liệu phi kết cấu với thông tin chỉ gồm những tại liệu dạng Text. Từng tài liệu chứa tin tức về một vấn đề nào đó biểu đạt qua câu chữ của tất cả các trường đoản cú cấu thành tư liệu đó. Ý nghĩa của từng từ trong tài liệu khkông thắt chặt và cố định mà tuỳ thuộc vào từng ngữ cảnh khác biệt sẽ mang ý nghĩa sâu sắc khác nhau. Các từ trong tư liệu được links với nhau theo một ngữ điệu nào đó. Trong những dữ liệu bây giờ thì văn phiên bản là một trong những dữ liệu thịnh hành nhất, nó xuất hiện ở khắp các nơi và chúng ta thường xuyên bắt gặp do đó những bài toán về xử trí văn bạn dạng đã được đặt ra khá lâu và hiện nay vẫn là trong những vấn đề trong khai phá dữ liệu Text, trong số ấy có những việc đáng chăm chú như kiếm tìm kiếm văn bản, phân các loại văn bản, phân các văn phiên bản hoặc đi đường văn phiên bản CSDL full_text là một trong những dạng csdl phi cấu tạo mà dữ liệu bao hàm các tài liệu với thuộc tính của tài liệu. Cơ sở tài liệu Full_Text thường xuyên được tổ chức triển khai như môt tổng hợp của hai thành phần: Một csdl có cấu tạo thông thường xuyên (chứa điểm sáng của các tài liệu) và những tài liệu ngôn từ cuả tư liệu được tàng trữ gián tiếp trong database theo nghĩa hệ thống chỉ quản lí lý add lưu trữ nội dung. Cơ sở tài liệu dạng Text rất có thể chia làm cho hai một số loại sau: Dạng không có cấu tạo (unstructured): hầu hết văn phiên bản thông hay mà họ thường đọc từng ngày được biểu thị dưới dạng tự nhiên của con fan và nó cơ sở dữ liệu Full-Text csdl có kết cấu chứa điểm sáng của những tài liệu các tài liệu không tồn tại một kết cấu định dạng nào. VD: Tập đúng theo sách, Tạp chí, nội dung bài viết được cai quản trong một mạng thư viện điện tử. Dạng nửa cấu tạo (semi-structured): hầu hết văn phiên bản được tổ chức triển khai dưới dạng cấu tạo không chặt chẽ như bản ghi những ký hiệu ghi lại văn phiên bản và vẫn biểu đạt được nội dung bao gồm của văn bản, lấy ví dụ như các dạnh HTML, email,... Tuy vậy việc phân làm cho hai loại cũng không thực sự rõ ràng, trong các hệ phần mềm, bạn ta thường cần sử dụng những phần phối hợp lại nhằm thành một hệ như trong cá hệ tra cứu tin (Search Engine), hoặc trong vấn đề tìm kiếm văn bạn dạng (Text Retrieval), trong những lĩnh vực qua trọng điểm nhất hiện nay nay. Ví dụ điển hình trong hệ tra cứu kiếm như Yahoo, Altavista, Google... đều tổ chức triển khai dữ liệu theo những nhóm và thư mục, từng nhóm lại có thể có không ít nhóm nhỏ nằm trong đó. Hệ Altavista còn tích hòa hợp thêm công tác dịch tự động hóa có thể dịch thay đổi sang nhiều thứ tiếng không giống nhau và cho công dụng khá tốt. 1.2.2. Cơ sở dữ liệu Hyper
Text Theo trường đoản cú điển của Đại học tập Oxford (Oxford English Dictionary Additions Series) thì Hypertext được tư tưởng như sau: Đó là loại Text chưa phải đọc theo dạng thường xuyên đơn, nó có thể được hiểu theo các thứ tự không giống nhau, nhất là Text và hình ảnh đồ họa (Graphic) là những dạng có mối link với nhau theo cách mà bạn đọc hoàn toàn có thể không bắt buộc đọc một giải pháp liên tục. Ví dụ như khi gọi một cuốn sách tín đồ đọc chưa hẳn đọc theo lần lượt từng trang từ đầu đến cuối mà có thể nhảy cóc đến các đoạn sau để tham khảo về những vấn đề chúng ta quan tâm. Như vậy văn phiên bản Hyper
Text bao gồm dạng chữ viết không liên tục, bọn chúng được phân nhánh và cho phép người đọc bao gồm thể chọn lựa cách đọc theo nhu cầu của mình. Phát âm theo nghĩa thông thường thì Hyper
Text là 1 trong tập những trang chữ viết được liên kết với nhau bởi những liên kết và có thể chấp nhận được người đọc hoàn toàn có thể đọc theo những cách khác nhau. Như ta đã có tác dụng quen các với các trang định dạng HTML, trong số trang có những links trỏ tới từng phần khác nhau của trang kia hoặc trỏ cho tới trang khác, và người đọc đang đọc văn phiên bản dựa vào những link đó. Sát bên đó, Hyper
Text cũng là một trong dạng văn bản Text đặc biệt nên cũng có thể bao gồm các chữ viết thường xuyên (là dạng phổ biến nhất của chữ viết). Do không bị hạn chế vày tính liên tiếp trong Hyper
Text, chúng ta có thể tạo ra các dạng trình diễn mới, cho nên tài liệu đã phản ánh tốt hơn nội dung ao ước diễn đạt. Không chỉ có vậy người đọc hoàn toàn có thể chọn cho chính mình một biện pháp đọc tương xứng chẳng hạn như đi sâu vào trong 1 vấn đề mà người ta quan tâm. Sáng xây cất ra một tậpc cá văn bản cùng với những con trỏ trỏ tới các văn bản khác để link một tập các văn bạn dạng có quan hệ voiứ nhau cùng với nhau là một trong cách thực sự hay và rất bổ ích để tổ chức thông tin. Với những người viết, biện pháp này có thể chấp nhận được họ rất có thể thoải mái loại bỏ những băn khoăn về sản phẩm tự trình bày, mà rất có thể tổ chức vụ việc thành mọi phần nhỏ, rồi sử dụng kết nối để chỉ ra rằng mối tương tác giữa những phần nhỏ tuổi đó cùng với nhau. Với người đọc cách này chất nhận được họ hoàn toàn có thể đi tắt trên mạng thông tin và ra quyết định phần tin tức nào có tương quan đến vấn đề mà họ quan trọng tâm để tiêp tục tra cứu hiểu. So sánh với cách đọc con đường tính, tức là đọc lần lượt thì Hyper
Text đã cung cấp cho chúng ta một đồ họa để hoàn toàn có thể tiếp xúc với nội dung thông tin tác dụng hơn vô cùng nhiều. Theo khía cạnh của những thuật toán học máy thì Hyper
Text đã hỗ trợ cho chúng ta cơ hội nhìn ra ngoài phạm vi một tài liệu nhằm phân lớp nó, nghĩa là có tính cả đến các tài liệu có link với nó. Tất nhiên không phải tất cả các tài liệu có link đến nó đều hữu ích cho câu hỏi phân lớp, nhất là khi những siêu liên kết hoàn toàn có thể chỉ đến tương đối nhiều loại những tài liệu không giống nhau. Nhưng chắc hẳn rằng vẫn còn tồni tại tiềm năng mà con bạn cần thường xuyên nghiên cứu giúp về việc sử dụng các tài liệu liên kết đến một trang để cải thiện độ đúng mực phân lớp trang đó. Bao gồm hai khái niệm về Hyper
Text mà họ cần quan lại tâm: Hypertext Document (Tài liệu hết sức văn bản): là một tài liệu văn bản đơn trong hệ thống siêu văn bản. Nếu như tưởng tượng hệ thống siêu văn phiên bản là một vật dụng thị, thì các tài liệu tương xứng với các nút. Hypertext links (Liên kết khôn xiết văn bản): là 1 trong tham chiếu để nối một tư liệu Hyper
Text này với một tư liệu Hyper
Text khác. Những siêu link đóng vai trò như những đường nối trong đồ vật thị nói trên. Hyper
Text là các loại dữ liệu phổ biến hiện nay, với cũng là nhiều loại dữ liệu mong muốn tìm kiếm với phân lớp rấ lớn. Nó là dữ liệu phổ biến trên mạng tin tức Internet csdl Hyper
Text, nhưng có nhiều điểm khác biệt giữa nhì loại dữ liệu này. Một trong những nhận xét sau đây cho thấy thêm sự không giống nhau giữa tài liệu Web và Full
Text. Sự không giống nhau về điểm sáng là vì sao chính dẫn mang lại sự khác biệt trong khai thác hai loại dữ liệu này (phân lớp, tìm kiếm,…). Một sơ vật dụng minh hoạ Hypertext Document như là các nút và những Hypertext liên kết như là những liên kết thân chúng một vài đối sánh sau đây về điểm sáng giữa dữ liệu Fulltext với dữ liệu trang đã được trình bày trong <2>. STT website Văn bản thông hay (Fulltext) một là dạng văn bản “nửa cấu trúc”. Trong nội dung có phần tiêu đề cùng có những thẻ dấn mạnh ý nghĩa của từ bỏ hoặc nhiều từ Văn bạn dạng thường là dạng văn bạn dạng “phi cấu trúc”. Trong ngôn từ của nó không tồn tại một tiêu chuẩn nào đến ta phụ thuộc vào đó để review 2 Nội dung của các trang Web hay đườn biểu hiện ngắn gọn, cô đọng, có các siêu liên kết chỉ ra cho người đọc tới các nơi khác tất cả nội dung tương quan Nội dung của các văn phiên bản thông thường xuyên thường rất cụ thể và không hề thiếu 3 vào nội dung các trang Web gồm chứa các siêu liên kết cho phép liên kết những trang tất cả nội dung liên cùng với nhau những trng văn bản thông hay không links được cho nội dung của những trang khác 1.3. KHAI PHÁ DỮ LIỆU VĂN BẢN (TEXTMINING) VÀ KHAI PHÁ DỮ LIỆU website (WEBMINING) Như đã đề cập ở trên, Text
Mining (Khai phá tài liệu văn bản) cùng Web
Mining (Khai phá tài liệu Web) là giữa những ứng dụng quan trọng đặc biệt của Datamining. Trong phần này ta đã đi sâu hơn vào việc này. 1.3.1. Những bài toán trong khai phá dữ liệu văn bạn dạng 1. Kiếm tìm kiếm văn phiên bản a. Ngôn từ Tìm kiếm văn phiên bản là quy trình tìm tìm văn bạn dạng theo yêu ước của bạn dùng. Các yêu cầu được diễn tả dưới dạng các thắc mắc (query), dạng thắc mắc đơn giản độc nhất vô nhị là những từ khóa. Hoàn toàn có thể hình dung hệ tra cứu kiếm văn bản sắp xếp văn bản thành nhị lớp: Một lớp đã tạo ra những các văn phiên bản thỏa mãn với câu hỏi đưa ra và một lớp ko hiển thị đông đảo văn bạn dạng không được thỏa mãn. Các hệ thống thực tế hiện giờ không hiển thị do đó mà chuyển ra những danh sách văn phiên bản theo độ đặc trưng của văn bản tuỳ theo các câu hỏi đưa vào, ví dụ nổi bật là các máy kiếm tìm tin như Google, Altavista,… b. Quy trình Quá trình kiếm tìm tin được chia thành bốn quy trình chính : Đánh chỉ số (indexing): những văn bạn dạng ở dạng thô cần phải chuyển sang 1 dạng biểu diễn nào đó để xử lý. Quy trình này nói một cách khác là quá trình màn biểu diễn văn bản, dạng màn trình diễn phải có cấu tạo và dẽ dàng lúc xử lý. Định dạng câu hỏi: người dùng phải biểu lộ những yêu mong về rước thông tin cần thiết dưới dạng câu hỏi. Các câu hỏi này nên được màn trình diễn dưới dạng thịnh hành cho những hệ tìm kiếm như nhập vào các từ khóa cần tìm. Trong khi còn có các cách thức định dạng thắc mắc dưới dạng ngôn ngữ tự nhiên hoặc dưới dạng những ví dụ, so với các dạngnày thì cần có các chuyên môn xử lý tinh vi hơn. Trong số hệ tìm kiếm tin bây giờ thì đại phần lớn là dùng câu hỏi dưới dạng những từ khóa. So sánh: khối hệ thống phải tất cả sự so sánh ví dụ và trả toàn thắc mắc các thắc mắc của người tiêu dùng với những văn bạn dạng đượcl ưu trữ vào CSDL. Sau cùng hệ giới thiệu một quyết định phân loại các văn bạn dạng có độ tương quan gầnvới câu hỏi đưa vào với thứ từ bỏ của nó. Hệ đang hiển thị toàn thể văn bản hoặc chỉ một trong những phần văn bản. Phản hồi: những khi công dụng được trả về ban đầu không thỏa mãn nhu cầu yêu ước của người dùng, vì đó rất cần phải có qua trình đánh giá để người dùng có thểt hay thay đổi lại hoặc nhập mới những yêu mong của mình. Khía cạnh khác, người dùng rất có thể tương tác với những hệ về các văn bản thỏa mãn yêu thương cầu của chính bản thân mình và hệ có tác dụng cập nhậu các văn bạn dạng đó. Quy trình này được call là quy trình phản hồi tương quan (Relevance feeback). Những công thế tìm kiếm hiện giờ chủ yếu tập trung nhiều vào ba quy trình đầu, còn phần lớn chưa xuất hiện quá trình ý kiến hay cách xử trí tương tác người tiêu dùng và máy. Quá trình phản hồi hiện nay đang được nghiên cứu rộng rãi với riêng trong quy trình tương tác giao diện bạn máy đã lộ diện hướng nghiên cứu là interface agent. 2. Phân lớp văn bản(Text Categoization) a. Nội dung Phân lớp văn phiên bản được xem như là quy trình gán các văn phiên bản vào một hay những văn bản đã xác định từ trước. Bạn ta rất có thể phân lớp các văn bản mộtc ách thủ công, tức là đọc từng văn phiên bản một cùng gán nó vào một lớp như thế nào đó. Phương pháp này đã tốn không hề ít thời gian và công sức đối với tương đối nhiều văn bản và do đó không khả thi. Vì thế mà phải có các phương pháp phân lớp từ bỏ động. Để phân lớp tự động người ta thực hiện các phương thức học trang bị trong trí tuệ nhân tạo (Cây quyết định, Bayes, k người láng giềng ngay gần nhất) một trong những ứng dụng quan trọng nhất của phân lớp văn phiên bản là trong kiếm tìm kiếm văn bản. Từ 1 tập tài liệu đã phân lớp các văn bản sẽ được đánh chỉ số đô ívới từng lớp tương ứng. Fan dùng hoàn toàn có thể xác định chủ thể hoặc phân lớp văn bạn dạng mà mình mong ước tìm kiếm trải qua các câu hỏi. Một vận dụng khác của phân lớp văn bản là vào lĩnh vực tìm hiểu văn bản. Phân lớp văn bạn dạng có thể được áp dụng để lọc những văn phiên bản hoặc một trong những phần các văn phiên bản chứa tài liệu cần tìm mà lại không làm mất đi tính tinh vi của ngữ điệu tự nhiên. Vào phân lớp văn bản, một lớp có thể được gán quý giá đúng không đúng (True giỏi False hoặc văn phiên bản thuộc hay không thuộc lớp) hoặc được tính theo nấc độ phụ thuộc (văn phiên bản có môt nút độ phụ thuộc vào vào lớp). Trong trương hợp có tương đối nhiều lớp thì phân một số loại đúng sai sẽ là bài toán xem một văn phiên bản có thuộc vào trong 1 lớp nhất nào kia hay không.. B. Quá trình Quá trình phân lớp văn bản. Tuân theo công việc sau: Đánh chỉ số (Indexing): quy trình đánh chỉ số văn bạn dạng cũng hệt như trong quá trình đánh chỉ số của kiếm tìm kiếm văn bản. Vào phần này thì vận tốc đánh chỉ số nhập vai trò đặc trưng vì một số trong những các văn bạn dạng mới rất có thể cần đươc cách xử lý trong thời gían thực xác định độ phân lớp: cũng giống như trong tìm kiếm văn bản, phân lớp văn bản yêu ước quá trình miêu tả việc xác định văn phiên bản đó thuộc lớp nào đó như thế nào, dựa trên cấu trúc biểu diễn của nó. Đối với hệ phân lớp văn bản, bọn họ gọi quá trình này là bộ phân lớp (Categorization hoặc classifier). Nó đóng góp vai trò như những thắc mắc trong hệ kiếm tìm kiếm. Nhưng trong khi những thắc mắc mang tính duy nhất thời, thì bộ phân loại được áp dụng một cách bất biến và lâu hơn cho quá trình phân loại. So sánh: Trong phần lớn các bộ phân loại, từng văn phiên bản đều được yêu ước gán đúng sai vào một lớp nào đó. Sự khác biệt lớn nhất so với quá trình so sánh trong hệ tìm kiếm văn bạn dạng là từng văn bản chỉ được so sánh với một vài lượng những lớp một lần cùng việcc họn quyết đnịh cân xứng còn dựa vào vào mối quan hệ giữa các lớp văn bản. ý kiến (Hay say mê nghi): quá trình phản hồi vào vai trò vào hệ phân lớp văn bản. đầu tiên là khi phân các loại thì phải tất cả môt con số lớn các văn phiên bản đã được xếp loại bằng tay thủ công trước đó, các văn bạn dạng này được áp dụng làm mẫu huấn luyện và đào tạo để cung cấp xây dựng cỗ phân loại. Thiết bị hai là đối với việc phân loại văn bản này rất khó dàng biến hóa các yêu ước như trong quy trình phản hồi của tra cứu kiếm văn bản , fan dùng rất có thể thông tin đến người bảo trì hệ thống về vấn đề xóa bỏ, cấp dưỡng hoặc biến đổi các phân lớp văn bạn dạng nào này mà mình yêu cầu. 3. Một số trong những bài toán khác kế bên hai câu hỏi kể trên, còn tồn tại các câu hỏi sau: tóm tắt văn phiên bản Phân cụm văn bản Phân cụm những từ mục Phân lớp những từ mục Đánh chỉ mục những từ tiềm năng chỉ đường văn bản Trong các bài toán xử lý vănbản sẽ nêu làm việc trên, chúng tra thấy vai trò của màn biểu diễn văn bạn dạng rất lớn, quan trọng trong những bàit oán thù tìm kiếm, phân lớp, phân cụm, dẫn đường 1.3.2. Khai thác dữ liệu web a. Nhu yếu Sự phát triển hối hả của mạng Internet cùng Intranet đã hình thành một khối lượng khổng lồ những dữ liệu dạng khôn cùng văn bản(dữ liệu Web)