nghiên cứu và phân tích các chuẩn chỉnh OGC (open geospatial consortium) trong khối hệ thống tin địa lý và vận dụng 727 1


Bạn đang xem: Khai phá dữ liệu không gian (Spatial Data Mining)

nghiên cứu và phân tích các chuẩn OGC (open geospatial consortium) trong khối hệ thống tin địa lý và ứng dụng 482 2
NGHIÊN CỨU CÁC CHUẨN OGC (OPEN GEOSPATIAL CONSORTIUM) vào HỆ THÔNG TIN ĐỊA LÝ VÀ ỨNG DỤNG 625 0
nghiên cứu và phân tích tích phù hợp viễn thám, hệ thông tin địa lý và quy mô khai phá dữ liệu trong review nguy cơ mắc căn bệnh sốt giá buốt tại tỉnh giấc đăk nông =
phân tích tích thích hợp viễn thám, hệ thông tin địa lý và mô hình khai phá dữ liệu trong nhận xét nguy cơ mắc bệnh sốt giá tại tỉnh đăk nông = trăng tròn 72 0
Ưng dụng hệ thông tin địa lý và bốn liệu viễn thám trong review nguy hiểm cồn đất vùng tây bắc vn
Ưng dụng hệ thông tin địa lý và tứ liệu viễn thám trong review nguy hiểm cồn đất vùng tây bắc vn 288 0
Hệ thông tin địa lý và một số trong những ứng dụng trong hải dương học nguyễn hồng phương, văn đình ưu đại học tổ quốc hà nội, 2006
Hệ tin tức địa lý và một vài ứng dụng trong hải dương học nguyễn hồng phương, văn đình ưu đại học non sông hà nội, 2006 933 1
Báo cáo: Thiết lập, sử dụng CSDL hệ tin tức địa lý và kết hợp ứng dụng viễn thám ship hàng qui hoạch môi trường bền vững các thức giấc ven biển hải phòng đất cảng và quảng ninh pdf
Báo cáo: Thiết lập, sử dụng CSDL hệ tin tức địa lý và phối hợp ứng dụng viễn thám phục vụ qui hoạch môi trường bền chắc các tỉnh giấc ven biển tp. Hải phòng và tp quảng ninh pdf 803 1
thành lập bạn dạng đồ 3d phần trăm lớn trên cơ sở kết hợp công nghệ viễn thám, hệ thông tin địa lý và bản đồ số
thành lập bản đồ 3d phần trăm lớn trên cửa hàng kết hợp technology viễn thám, hệ tin tức địa lý và bản đồ số 1,093 1
1 MỞ ĐẦU hệ thống thông tin địa lý (GIS) vận dụng ngày phổ biến, không lĩnh vực giám sát, quản lí lý, lập chiến lược tài nguyên môi trường thiên nhiên mà những toán tài chính xã hội không giống Kết là, cân nặng liệu tương quan đến địa lý, gọi liệu không khí thu thập tăng lên gấp rút Một câu hỏi đặt làm cho để tận dụng, khai thác, thăm khám phá, phát trí thức hữu ích từ bỏ kho liệu này? khai phá liệu áp dụng kỹ thuật điều khoản để trích rút tri thức có ích từ mối cung cấp liệu nghành nghề dịch vụ mà ta quan tiền tâm khai phá liệu với GIS tuyệt gọi khai phá liệu không gian, mở rộng khai phá liệu csdl quan hệ, xét thêm nằm trong tính liệu không khí phản ánh hệ thông tin địa lý, ví dụ khoảng cách (gần kề hay biện pháp xa), điều kiện môi trường tự nhiên hay kinh tế xã hội (rừng núi, đồng bằng, ven biển, đô thị, v.v…) Là thầy giáo tỉnh phái mạnh Định, em tích lũy nhiều liệu thực tiễn xếp hạng trường trung học phổ thông tỉnh qua kết thi xuất sắc nghiệp, kết thi đh kết thi học viên giỏi, trong đó, các trường tất cả thành tích cao tồn không trường bao gồm kết học tập học viên thấp tại sao dẫn mang lại kết đó? Liệu đk nơi cư trú có tác động đến kết học tập học sinh? Lượng thông tin kết học tập đk cư trú địa phương những chủ yếu làm chủ dạng bảng giỏi văn Rất khó để thể mối contact điều kiện trú ngụ với kết học tập tập học viên theo hướng khai phá liệu thông thường Ứng dụng khai phá liệu với hệ thông tin địa lý cho phép nghiên cứu vấn đề, trả lời thắc mắc có liên quan trực tiếp, ví dụ “ô nhiễm môi trường xung quanh sống tác động đến sức mạnh cộng đồng” thắc mắc trực tiếp hơn, lấy một ví dụ “nơi cư trú học sinh (ở thành phố lớn, nông thôn, vùng núi,…) có ảnh hưởng đến kết học tập môn học định (về khoa học tự nhiên, công nghệ xã hội, nước ngoài ngữ, ) mang đến số học viên bỏ học, đến trung bình kết học tập tập, đến số học viên đỗ đại học, số học sinh giỏi? ” Luận văn đặt vấn đề ứng dụng khai phá liệu không gian với hệ thông tin địa lý để tìm hiểumối contact nơi cư trú kết học hành với kim chỉ nam bước đầu test nghiệm áp dụng số kỹ thuật khai thác liệu hay sử dụng với GIS vào toán thực tiễn Luận văn cấu tạo gồm chương: Chương I: trong chương khám phá khái quát khai thác liệu khai phá liệu không gian Chương II: vào chương tìm hiểu số thuật toán phân nhiều kỹ thuật phân nhiều thuật toán CLARANS Chương III: trong chương tiến hành cài đặt ứng dụng thuật toán CLARANS nhằm phân cụm liệu ko gian, mày mò mối contact điều kiện cư trú với kết học tập tập học viên Luận văn xong xuôi hướng dẫn tận tâm PGS.TS Nguyễn Đình Hóa, em xin phân bua lòng biết ơn chân thành thầy Em xin chân thành cảm ơn thầy, thầy giáo Viện technology thông tin, trường Đại học technology thông tin truyền thông - Đại học tập Thái Nguyên tham gia giảng dạy, giúp đỡ em suốt qúa trình học tập tập cải thiện trình độ kiến thức mặc dù điều kiện thời gian khả hạn chế nên luận văn tránh khỏi thiếu sót Em kính mong thầy cô giáo các bạn đóng góp ý kiến để đề tài hoàn thành xong CHƯƠNG I: KHAI PHÁ DỮ LIỆU VỚI HỆ THÔNG TIN ĐỊA LÝ 1.1 khai phá liệu 1.1.1 khai phá liệu ? 1.1.1.1 Khái niệm mày mò tri thức khai thác liệu mày mò tri thức sở liệu (Knowledge Discovery in Database-KDD) qui trình nhận ra mẫu mô hình liệu với tính năng: thích hợp thức, mới, khả ích, hiểu khai phá liệu (Data Mining-DM) l quan niệm đời vào năm thời điểm cuối thập kỷ 1980 nhiều từ “khai phá liệu” bao quát loạt kỹ thuật nhằm mục đích phát tin tức có giá trị tiềm ẩn tập liệu khủng Thuật ngữ thực tên nhầm lẫn Hãy nhớ việc khai thác vàng tự đá cat gọi khai quật vàng khai thác đá, cát Như vậy, khai phá liệu (KPDL) nên được đặt tên tương thích “khai thác kiến thức và kỹ năng từ liệu” <5>.Tuy nhiên, “khai phá liệu” sử dụng cách thông dụng Hình 1.1 minh họa đơn giản và dễ dàng trực quan cho khái niệm Hình 1.1: khai thác liệu tập liệu <5> có mang KDD KPDL nhà kỹ thuật xem tương tự Tuy nhưng, phân phân làn rành mạch chi tiết KPDL bước trình KDD mày mò tri thức CSDL lĩnh vực liên quan lại đến nhiều ngành như: tổ chức liệu, xác suất, thống kê, lý thuyết thông tin, học tập máy, CSDL, thuật toán, trí óc nhân tạo, giám sát và đo lường song tuy nhiên hiệu cao những kỹ thuật áp dụng mày mò tri thức nhiều phần thừa kế từ bỏ ngành 1.1.1.2 một trong những định nghĩa khai thác liệu Sau số tư tưởng khác KPDL <5>: Định nghĩa gs Tom Mitchell: “Khai phá liệu việc sử dụng liệu lịch sử vẻ vang để khám phá qui tắc nâng cấp định tương lai.” Định nghĩa Ferruzza: “Khai phá liệu tập hợp cách thức dùng tiến trình tìm hiểu tri thức để khác hoàn toàn mối quan hệ nam nữ mẫu chưa chắc chắn bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình giúp sức định, kiếm tìm kiếm mẫu tin tức chưa biết bất thần CSDL lớn” Với biện pháp tiếp cận vận dụng hơn, tiến sỹ Fayyad phát biểu:” khai phá liệu thường xuyên xem việc tìm hiểu tri thức sở liệu, trình trích xuất tin tức ẩn, trước chưa chắc chắn có khả hữu ích, dạng quy luật, ràng buộc, qui tắc sở liệu.” Còn công ty Thống kê xem "Khai phá liệu trình phân tích xây dựng thăm dò lượng cực đại liệu nhằm mục đích phát mẫu tương thích và/ mối quan hệ mang tính hệ thống biến sau đúng theo thức hoá kết tra cứu cách vận dụng mẫu phát cho tập liệu" tuy nhiên thực tế, KPDL coi bước cần thiết trình mày mò tri thức CSDL bao hàm thụât toán KPDL siêng dùng, số mức sử dụng hiệu tính toán gật đầu được, để tìm mẫu mô hình liệu 1.1.2 quá trình phát trí thức CSDL quy trình phát tri thức CSDL biểu lộ hình 1.2 bao hàm chuỗi lặp tái diễn bước sau <4> : làm cho liệu (Data Cleaning): đào thải nhiễu (noisy) liệu không quán Tích đúng theo liệu (Data Integration): phối kết hợp liệu từ mối cung cấp liệu khác chọn lựa liệu (Data Selection): Dữ liệu tương xứng cho thao tác làm việc phân tích rước từ sở liệu đưa dạng liệu (Data Transformation): tài liệu chuyển dạng đúng theo thành dạng cân xứng cho trình khai phá cách thực thao tác tóm tắt (summary) gộp team liệu (aggregation) Trích lựa chọn mẫu (Data Patterns Extracting): Áp dụng phương thức “thông minh” nhằm trích chọn mẫu thực đáng nhiệt tình từ liệu Đôi thân bước gọi khai phá liệu (Data Mining) (hiểu theo nghĩa hẹp) Đánh giá chủng loại (Pattern Evaluation): Dựa độ đo quánh trưng, xác định mẫu đáng thân yêu biểu diễn học thức Biểu diễn trí thức (Knowledge Presentation): sử dụng kỹ thuật biểu diễn trí thức trực quan hóa (visualization) để biểu diễn biến hóa tri thức khai phá bước thành dạng gần cận với người tiêu dùng đồ thị, cây, bảng biểu, luật, cho với người tiêu dùng Hình 1.2: Quy trình khám phá tri thức từ sở liệu <4> vào đó, quy trình tiến độ đầu gọi quá trình tiền cách xử trí liệu (data preprocessing) nhằm sẵn sàng liệu đến trình khai thác (trích chọn mẫu) các giai đoạn trình khám phá tri thức có mối quan liêu hệ nghiêm ngặt với toàn cảnh chung hệ thống Các nghệ thuật sử dụng quá trình trước ảnh hưởng đến hiệu lời giải sử dụng giai đoạn quá trình KDD ko thiết yêu cầu tuần tự, cho phép nhà phân tích cẩn thận lại cách dựa kỹ năng và kiến thức tìm tìm chất tin tức phát trình các bước tiền xử lý liệu chế tao làm sạch, sàng lọc rút gọn áp dụng theo trình tự không giống lặp lặp lại số lần 1.1.3 những kỹ thuật khai thác liệu vào thực tế có không ít kỹ thuật khai thác liệu khác nhằm mục tiêu thực hai chức tế bào tả dự đoán Kỹ thuật khai phá liệu tế bào tả: có trách nhiệm mô tả đặc điểm đặc tính bình thường liệu csdl có một vài kỹ thuật khai phá nhóm là: phân các liệu (Clustering), tổng vừa lòng (Summarisation), trực quan hoá (Visualization), đối chiếu tiến hóa (Evolution & deviation analyst),… Kỹ thuật khai phá liệu dự đoán: có nhiệm vụ đưa dự đoán dựa vào suy diễn sở liệu thời một vài kỹ thuật khai phá nhóm là: phân lớp (Classification), hồi quy (Regression), định (Decision tree), thống kê lại (statictics), mạng nơron (neural network), qui định kết hợp,… một số trong những kỹ thuật phổ biến <1>,<3>,<5> thường sử dụng để khai thác liệu : 1.1.3.1 Phân lớp liệu kim chỉ nam phân lớp liệu dự kiến nhãn lớp mang lại mẫu liệu quy trình gồm hai bước: xây dựng mô hình, sử dụng quy mô để phân lớp liệu (mỗi mẫu lớp) mô hình sử dụng để tham dự đoán nhãn lớp nhưng mà độ xác tế bào hình gật đầu đồng ý 1.1.3.2 Phân nhiều liệu kim chỉ nam phân các liệu nhóm đối tượng người sử dụng tương từ tập liệu vào cụm, cho đối tượng người sử dụng thuộc cụm tương đồng Trong luận người sáng tác sử dụng nghệ thuật phân các thuật toán CLARANS tò mò mối tương tác điều kiện cư trú với kết học tập học viên Vì chuyên môn thuật toán bao gồm liên quan trình bày chương II 1.1.3.3 khai phá luật phối hợp Mục tiêu cách thức phát gửi mối liên hệ giá điều trị sở liệu Đầu giải thuật luật phối kết hợp tập luật phối hợp tìm phương pháp khai phá luật kết hợp gồm tất cả hai bước: bước 1: tìm kiếm tất tập mục phổ biến Một tập mục phổ biến khẳng định thông qua tính độ cung cấp thoả mãn độ cung ứng cực tiểu cách 2: Sinh luật phối hợp mạnh trường đoản cú tập mục phổ biến, luật yêu cầu thoả mãn độ cung ứng độ tin tưởng cực đái 1.1.3.4 Hồi quy phương pháp hồi quy tương tự như phân lớp liệu tuy nhiên khác vị trí dùng để dự đoán giá trị thường xuyên phân lớp liệu dùng để tham dự đoán quý giá rời rộc rạc 1.1.3.5 Mạng nơ-ron (neural network) Đây kỹ thuật KPDL ứng dụng phổ cập Kỹ thuật cải cách và phát triển dựa tảng toán học vững vàng, khả huấn luyện và giảng dạy kỹ thuật dựa quy mô thần kinh trung ương người Kết nhưng mà mạng nơ-ron học bao gồm khả tạo mô hình dự báo, dự đoán với độ xác độ tin cậy cao Nó tất cả khả phát xu hướng phức tạp mà kỹ thuật thường thì khác khó phát mặc dù nhiên cách thức neural network phức hợp trình tiến hành gặp nhiều khó khăn khăn: đòi hỏi nhiều thời gian, nhiều DL, nhiều lần khám nghiệm thử nghiệm 1.1.3.6 Cây định nghệ thuật định công cụ mạnh mẽ hiệu vấn đề phân lớp dự báo Các đối tượng người tiêu dùng DL tạo thành lớp những giá trị đối tượng người tiêu dùng DL không biết dự đoán, dự báo tri thức rút nghệ thuật thường miêu tả dạng tường minh, solo giản, trực quan, dễ dàng hiểu người sử dụng Trong năm qua, nhiều mô hình phân lớp DL nhà kỹ thuật nhiều nghành khác đề xuất, nghệ thuật định với ưu điểm đánh giá công núm mạnh, phổ biến quan trọng thích hợp cho DM nói thông thường phân lớp liệu dành riêng 1.2 khai thác liệu GIS 1.2.1 Khái niệm tài liệu địa lý trang bị sộ liên tiếp thu thập technology thu thập liệu đại hệ thống xác định toàn mong (GPS), độ phân giải cảm ứng từ xa, dịch vụ địa điểm nhận biết vị trí, điều tra, tin tức địa lý tình nguyện internet có nhu cầu cấp thiết cho phương thức hiệu kịp thời hiệu để trích xuất tin tức tiềm ẩn bất thần từ liệu không gian rộng mập độ tinh vi cao Để giải thách thức này, khai quật liệu ko gian tò mò tri thức địa lý lên nghành nghiên cứu vớt hoạt động, tập trung vào cải cách và phát triển lý thuyết, cách thức thực hành mang đến việc khai thác thông tin hữu ích kỹ năng từ sở liệu không gian lớn phức hợp <6>, <9> khai thác liệu với GIS tốt gọi khai thác liệu không gian, không ngừng mở rộng khai phá liệu database quan hệ, xét thêm thuộc tính liệu không khí phản ánh hệ thông tin địa lý phương pháp khai phá liệu thường thì không phù hợp với liệu không gian chúng không hỗ trợ liệu địa chỉ địa lý quan hệ tiềm ẩn đối tượng người sử dụng địa lý do đó, cần trở nên tân tiến 10 phương pháp bao hàm mối quan hệ không khí xử lý liệu không gian tính toán mối quan tiền hệ không gian tốn thời gian, khối lượng lớn liệu tạo mã hóa địa chỉ hình học Việc màn trình diễn toàn cầu tinh vi Sử dụng GIS, người tiêu dùng truy vấn liệu không khí thực trọng trách phân tích đơn giản dễ dàng cách thực hiện chương trình truy tìm vấn tuy nhiên, GIS không thi công để thực đối chiếu liệu phức tạp khám phá tri thức bọn chúng không cung cấp phương pháp chung để thực so sánh suy luận quy tắc mặc dù nhiên, yêu cầu tích hợp phương pháp có không ngừng mở rộng chúng cách kết hợp phương thức khai thác liệu ko gian cách thức GIS đặc biệt quan trọng để truy cập liệu, kết nối không gian hiển thị đồ hình ảnh Ngày nay, có khá nhiều sở liệu không khí sử dụng nhiều ứng dụng khác nhau, tự viễn thám hệ thống thông tin địa lý, môi trường thiên nhiên quy hoạch câu hỏi phân tích sở liệu không gian rộng mập vượt xa khả người Do cần tự động hóa việc tò mò thông tin (tri thức) để cung ứng người khai thác liệu không khí thể quán vài lĩnh vực tò mò máy móc, hệ thống sở liệu, hiển thị thống kê liệu, lý thuyết thông tin hình học năng lượng điện toán Kỹ thuật khai thác liệu không gian có ứng dụng rộng rãi khối hệ thống thông tin địa lý viễn thám Những cách thức sử dụng để mày mò liệu không gian, tìm hiểu mối liên quan liệu không khí phi không gian, thiết lập sở học thức không gian, tối ưu hóa truy vấn vấn, đặc thù hóa liệu không gian Một biệt lập lớn khai thác liệu trong sở liệu không gian với sở liệu quan liêu hệ thông thường thuộc tính đối tượng người tiêu dùng gần kề số đối tượng người sử dụng quan tâm, có ảnh hưởng đến đối tượng người dùng coi hữu ích những vị trí tàng ẩn phần mở rộng đối tượng người tiêu dùng không gian xác minh mối quan liêu hệ tiềm ẩn vùng không gian (chẳng hạn quan hệ topo, khoảng cách hướng) sử dụng thuật toán khai thác liệu không gian 71 TÀI LIỆU THAM KHẢO tiếng Việt Hoàng Văn Dũng (2007), khai phá liệu Web nghệ thuật phân cụm, Luận văn thạc sỹ khoa học, trường Đại học tập sư phạm Hà Nội, tp. Hà nội Trương dũng mạnh Hà (2009), nghiên cứu số kỹ thuật đem tin tự động Internet, Luận văn thạc sĩ technology thông tin, trường Đại học Thái Nguyên Ngô Quốc tạo thành (2011), bài giảng môn Data Mining, Lớp CK09D ĐH Thái Nguyên Nguyễn vương Thịnh (2011), bài xích giảng môn học khai thác liệu, Đại học hàng hải Việt Nam, hải phòng đất cảng Trương Minh Văn (2012), khai phá liệu gồm canh tác liệu ứng dụng khai thác liệu y khoa, Luận văn thạc sĩ technology thông tin, trường Đại học Lạc Hồng, Biên Hòa tiếng Anh Diansheng Guo, Jeremy Mennis (2009), “Spatial data mining and geographic knowledge discovery”, Computers, Environment và Urban Systems 33, pp 403 - 408 Deepti Joshi (2011), Polygonal Spatial Clustering, Ph.D Dissertation, University of Nebraska Ch.N.Santhosh Kumar, V Sitha Ramulu, K.Sudheer Reddy, Suresh Kotha, Ch Mohan Kumar (2012), Spatial Data Mining using Cluster Analysis, International Journal of Computer Science và Information giải pháp công nghệ (IJCSIT) Vol (4) 72 Imam Mukhlash, Benhard Sitohang, (2007), Spatial Data Preprocessing for Mining Spatial Association Rule with Conventional Association Mining Algorithms, Proceeding of the International Conference on Electrical Engineering và Informatics Institut Teknologi Bandung, Indonesia 10 Raymond T Ng, Jiawei Han (1994), Efficient và Effective Clustering Methods for Spatial Data Mining, Proceeding VLDB ’94 Proceeding of 20th International Conference on Very Large Data Bases, Morgan Kaufmann Publishers inc San Francisco, CA, USA, pp.144-155 11 Raymond T Ng, Jiawei Han (2002), “CLARANS: A Method for Clustering Objects for Spatial Data Mining”, IEEE Computer Society, IEEE Transactions on Knowledge và Data Engineering, vol 14 (5) 73 PHỤ LỤC privatevoid Load
Data() KQHT kqht1 = new KQHT(); Data
Table dt = kqht1.Lay
Danh
Sach
Xa(); //Thêm liệu nguồn vào Dieu
Kien
Cu
Tru _obj
CT = new Dieu
Kien
Cu
Tru(); Kq
HT = new
List(); foreach (Data
Row vật phẩm in dt.Rows) KQHT kq = new KQHT(); kq.maxa = Convert.To
Int32(item<"maxa">); kq.tenxa = item<"tenxa">.To
String(); kq.kq
Anh
Van = kqht1.Lay
Diem
Anh
Van
Theo
Ma
Xa(kq.maxa); kq.kq
Toan = kqht1.Lay
Diem
Toan
Theo
Ma
Xa(kq.maxa); kq.kq
Ly = kqht1.Lay
Diem
Ly
Theo
Ma
Xa(kq.maxa); kq.kq
Hoa = kqht1.Lay
Diem
Hoa
Theo
Ma
Xa(kq.maxa); kq.kq
Van = kqht1.Lay
Diem
Van
Theo
Ma
Xa(kq.maxa); kq.Thu
Nhap = kqht1.Lay
Thu
Nhap
Theo
Ma
Xa(kq.maxa); kq.Lang
Nghe = kqht1.Lay
Lang
Nghe
Theo
Ma
Xa(kq.maxa); kq.Mat
Do
Dan
Cu = kqht1.Lay
Mat
Do
Dan
Cu
Theo
Ma
Xa(kq.maxa); kq.Dien
Tich = kqht1.Lay
Dien
Tich
Theo
Ma
Xa(kq.maxa); kq.Tong
Dan
So = kqht1.Lay
Tong
Dan
So
Theo
Ma
Xa(kq.maxa); 74 Kq
HT.Add(kq); //Thiết lập trung khu cho đơn vị chức năng hành Thiet
Lap
Tam
Cho
Tung
Xa(); //Chuẩn hóa liệu double m
Tong
Anh
Van = 0.0; double m
Tong
Toan = 0.0; double m
Tong
Ly = 0.0; double m
Tong
Hoa = 0.0; double m
X = 0.0; double m
Y = 0.0; double m
TN = 0.0; double m
DS = 0.0; double m
MD = 0.0; double m
LN = 0; double m
DT = 0.0; foreach (KQHT item1 in Kq
HT) foreach (KQHT item in Kq
HT) 75 m
Tong
Anh
Van += item.kq
Anh
Van; m
Tong
Toan += item.kq
Toan; m
Tong
Ly += item.kq
Ly; m
Tong
Hoa += item.kq
Hoa; m
X += item.c
X; m
Y += item.c
Y; m
TN += item.Thu
Nhap; m
DS += item.Tong
Dan
So; m
MD += item.Mat
Do
Dan
Cu; m
LN += item.Lang
Nghe; m
DT += item.Dien
Tich; double mf
AV = (m
Tong
Anh
Van / Kq
HT.Count); double mf
T = (m
Tong
Toan / Kq
HT.Count); double mf
L = (m
Tong
Ly / Kq
HT.Count); double mf
H = (m
Tong
Hoa / Kq
HT.Count); double mf
X = (m
X / Kq
HT.Count); double mf
Y = (m
Y / Kq
HT.Count); double mf
TN = (m
TN / Kq
HT.Count); double mf
DS = (m
DS / Kq
HT.Count); double mf
MD = (m
MD / Kq
HT.Count); double mf
LN = (m
LN / Kq
HT.Count); double mf
DT = (m
DT / Kq
HT.Count); 76 double t
AV = 0.0; double t
T = 0.0; double t
L = 0.0; double t
H = 0.0; double t
X = 0.0; double t
Y = 0.0; double t
TN = 0.0; double t
DS = 0.0; double t
MD = 0.0; double t
LN = 0.0; double t
DT = 0.0; foreach (KQHT thắng lợi in Kq
HT) t
AV += Math.Abs(item.kq
Anh
Van - mf
AV); t
T += Math.Abs(item.kq
Toan - mf
T); t
L += Math.Abs(item.kq
Ly - mf
L); t
H += Math.Abs(item.kq
Hoa - mf
H); t
X += Math.Abs(item.c
X - mf
X); t
Y += Math.Abs(item.c
Y - mf
Y); t
TN += Math.Abs(item.Thu
Nhap - mf
TN); t
DS += Math.Abs(item.Tong
Dan
So - mf
DS); 77 t
MD += Math.Abs(item.Mat
Do
Dan
Cu - mf
MD); t
LN += Math.Abs(item.Lang
Nghe - mf
LN); t
DT += Math.Abs(item.Dien
Tich - mf
DT); double sf = (t
AV / Kq
HT.Count); item1.kq
Anh
Van
Qc = (item1.kq
Anh
Van - mf
AV) / sf; sf = (t
T / Kq
HT.Count); item1.kq
Toan
Qc = (item1.kq
Toan - mf
T) / sf; sf = (t
L / Kq
HT.Count); item1.kq
Ly
Qc = (item1.kq
Ly - mf
L) / sf; sf = (t
H / Kq
HT.Count); item1.kq
Hoa
Qc = (item1.kq
Hoa - mf
H) / sf; sf = (t
X / Kq
HT.Count); item1.c
XQc = (item1.c
X - mf
X) / sf; sf = (t
Y / Kq
HT.Count); item1.c
YQc = (item1.c
Y - mf
Y) / sf; sf = (t
TN / Kq
HT.Count); item1.Thu
Nhap
Qc = (item1.Thu
Nhap - mf
TN) / sf; 78 sf = (t
DS / Kq
HT.Count); item1.Tong
Dan
So
Qc = (item1.Tong
Dan
So - mf
DS) / sf; sf = (t
MD / Kq
HT.Count); item1.Mat
Do
Dan
Cu
Qc = (item1.Mat
Do
Dan
Cu - mf
MD) / sf; //sf = (t
LN / Kq
HT.Count); //item1.Lang
Nghe
Qc = (item1.Lang
Nghe - mf
LN) / sf; sf = (t
DT / Kq
HT.Count); item1.Dien
Tich
Qc = (item1.Dien
Tich - mf
DT) / sf; //Tính khoảng cách điểm privatedouble dist(KQHT P1, KQHT P2) double dkq; if (cbo
Field.Selected
Value.To
String().Equals("1")) dkq = P2.kq
Toan
Qc - P1.kq
Toan
Qc; elseif (cbo
Field.Selected
Value.To
String().Equals("2")) dkq = P2.kq
Ly
Qc - P1.kq
Ly
Qc; 79 elseif (cbo
Field.Selected
Value.To
String().Equals("3")) dkq = P2.kq
Hoa
Qc - P1.kq
Hoa
Qc; elseif (cbo
Field.Selected
Value.To
String().Equals("4")) dkq = P2.kq
Anh
Van
Qc - P1.kq
Anh
Van
Qc; ; else dkq = P2.kq
Van
Qc - P1.kq
Van
Qc; double dx = P2.c
XQc - P1.c
XQc; double dy = P2.c
YQc - P1.c
YQc; double d
TN = P2.Thu
Nhap
Qc - P1.Thu
Nhap
Qc; double d
DT = P2.Dien
Tich
Qc - P1.Dien
Tich
Qc; double d
MD = P2.Mat
Do
Dan
Cu
Qc - P1.Mat
Do
Dan
Cu
Qc; //double d
LN = P2.Lang
Nghe
Qc - P1.Lang
Nghe
Qc; double d
DS = P2.Tong
Dan
So
Qc - P1.Tong
Dan
So
Qc; //double kq = Math.Sqrt(dkq * dkq); double kq = Math.Sqrt(dx * dx + dy * dy + d
TN * d
TN + d
DT * d
DT + d
DS * d
DS + d
MD * d
MD + dkq * dkq); 80 return kq; //Khởi tạo lúc đầu cụm privatevoid init_k(List p
Out) { các mục obj
Kqht = new
List(); obj
Kqht = Kq
HT.To
List(); Random rd = new

Presentation on theme: "Chương 1: Tổng quan tiền về khai thác dữ liệu"— Presentation transcript:

1 Chương 1: Tổng quan tiền về khai thác dữ liệuKhoa Khoa Học và Kỹ Thuật máy tính Trường Đại học Bách Khoa tp hcm Chương 1: Tổng quan tiền về khai thác dữ liệu khai thác dữ liệu (Data mining) học tập kỳ 1 –

*

2 Nội dung 1.0. Trường hợp 1.1. Quá trình khám phá tri thức1.2. Những khái niệm 1.3. Ý nghĩa cùng vai trò của khai thác dữ liệu 1.4. Ứng dụng của khai thác dữ liệu 1.5. Cầm tắt

*

3 Tài liệu xem thêm <1> Jiawei Han, Micheline Kamber, “Data Mining: Concepts và Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. <2> David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. <3> David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008. <4> Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, & Applications”, Springer-Verlag, 2006. <5> Zhao
Hui Tang, Jamie Mac
Lennan, “Data Mining with SQL hệ thống 2005”, Wiley Publishing, 2005. <6> Oracle, “Data Mining Concepts”, B , 2008. <7> Oracle, “Data Mining Application Developer’s Guide”, B , 2008.

*
Jiawei Han, Micheline Kamber, Data Mining: Concepts & Techniques , Second Edition, Morgan Kaufmann Publishers," title="<2> David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining , MIT Press, <3> David L. Olson, Dursun Delen, Advanced Data Mining Techniques , Springer-Verlag, <4> Graham J. Williams, Simeon J. Simoff, Data Mining: Theory, Methodology, Techniques, & Applications , Springer-Verlag, <5> Zhao
Hui Tang, Jamie Mac
Lennan, Data Mining with SQL server 2005 , Wiley Publishing, <6> Oracle, Data Mining Concepts , B , <7> Oracle, Data Mining Application Developer’s Guide , B ,">

4 1.0. Tình huống 1 tín đồ đang áp dụng thẻ ID = 1234 thật sự là người sở hữu của thẻ hay 1 tên trộm?

*

5 1.0. Tình huống 2 Ông A (Tid = 100) có khả năng trốn thuế???

*

6 1.0. Tình huống 3 Ngày mai cổ phiếu STB đã tăng???

*

7 1.0. Trường hợp 4 Khóa Mã
SV Môn
Học1 Môn
Học2 … Tốt


Xem thêm: Toán Rời Rạc (Giải Đề Thi Toán Rời Rạc Uet, Toán Rời Rạc (Giải Đề)

*

8 1.0. Tình huống … We are data rich, but information poor.“Necessity is the mother of invention”. - Plato

*

9 1.1. Vượt trình tò mò tri thứcKnowledge Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Selection/Transformation Data Warehouse Data Cleaning Data Integration Data Sources

*

10 1.1. Vượt trình tò mò tri thức“Knowledge discovery in databases is the nontrivial process of identifying valid, novel, potentially useful, và ultimately understandable patterns in data.” Frawley, W. J et al. (1991). Knowledge discovery in databases: an overview. “Knowledge discovery from databases is the process of using the database along with any required selection, preprocessing, sub-sampling, và transformations of it; to apply data mining methods (algorithms) lớn enumerate patterns from it; and to evaluate the products of data mining lớn identify the subset of the enumerated patterns deemed knowledge.” Fayyad, U.M et al. (1996). Advances in Knowledge Discovery and Data Mining. MIT Press.

*

11 1.1. Thừa trình khám phá tri thứcQuá trình khám phá tri thức là một chuỗi lặp gồm những bước: Data cleaning (làm sạch mát dữ liệu) Data integration (tích thích hợp dữ liệu) Data selection (chọn lựa dữ liệu) Data transformation (biến đổi dữ liệu) Data mining (khai phá dữ liệu) Pattern evaluation (đánh giá mẫu) Knowledge presentation (biểu diễn tri thức)

*

12 1.1. Quá trình tò mò tri thứcQuá trình khám phá tri thức là 1 chuỗi lặp gồm quá trình được thực thi với: Data sources (các mối cung cấp dữ liệu) Data warehouse (kho dữ liệu) Task-relevant data (dữ liệu ví dụ sẽ được khai phá) Patterns (mẫu công dụng từ khai thác dữ liệu) Knowledge (tri thức đạt được)

*

13 1.1. Vượt trình mày mò tri thứcIncreasing potential to tư vấn business decisions kết thúc User Making Decisions Data Presentation Business Analyst Visualization Techniques Data Mining Data Analyst Information Discovery Data Exploration Statistical Analysis, Querying & Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP

*

14 1.2. Các khái niệm 1.2.1. Khai phá dữ liệu (data mining)Các tác vụ khai thác dữ liệu (data mining tasks/functions) những quy trình khai thác dữ liệu (data mining processes) Các hệ thống khai phá dữ liệu (data mining systems)

*

15 1.2.1. Khai phá dữ liệu khai thác dữ liệumột quy trình trích xuất trí thức từ lượng lớn tài liệu “extracting or mining knowledge from large amounts of data” “knowledge mining from data” một quy trình không dễ dàng trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ tài liệu “the nontrivial extraction of implicit, previously unknown, và potentially useful information from data” các thuật ngữ thường được dùng tương đương: knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence

*

16 1.2.1. Khai thác dữ liệu Lượng lớn tài liệu sẵn tất cả để khai pháBất kỳ loại tài liệu được tàng trữ hay nhất thời thời, có cấu tạo hay bán kết cấu hay phi cấu tạo Dữ liệu được lưu lại trữ các tập tin truyền thống (flat files) những cơ sở dữ liệu quan hệ (relational databases) tốt quan hệ đối tượng (object relational databases) những cơ sở dữ liệu giao tác (transactional databases) giỏi kho tài liệu (data warehouses) những cơ sở dữ liệu hướng ứng dụng: các đại lý dữ liệu không gian (spatial databases), cửa hàng dữ liệu thời gian (temporal databases), cơ sở tài liệu không thời hạn (spatio-temporal databases), cơ sở tài liệu chuỗi thời hạn (time series databases), cơ sở tài liệu văn phiên bản (text databases), cơ sở tài liệu đa phương tiện đi lại (multimedia databases), … những kho thông tin: the World Wide Web, … tài liệu tạm thời: các dòng dữ liệu (data streams)

*

17 1.2.1. Khai thác dữ liệu học thức đạt được từ quy trình khai pháMô tả lớp/khái niệm (đặc trưng hóa và rõ ràng hóa) mẫu mã thường xuyên, các mối quan hệ nam nữ kết hợp/tương quan quy mô phân nhiều loại và dự đoán mô hình gom các Các phần tử biên xu hướng hay nút độ liên tục của các đối tượng có hành vi biến hóa theo thời hạn …

*

18 1.2.1. Khai thác dữ liệu học thức đạt được từ quy trình khai pháTri thức đạt được hoàn toàn có thể có tính biểu đạt hay dự kiến tùy nằm trong vào quy trình khai phá vậy thể. Miêu tả (Descriptive): có tác dụng đặc trưng hóa các thuộc tính thông thường của tài liệu được khai thác (Tình huống 1) dự kiến (Predictive): có chức năng suy luận từ dữ liệu hiện có để tham dự đoán (Tình huống 2, 3, và 4) học thức đạt được có thể có cấu trúc, buôn bán cấu trúc, hoặc phi cấu trúc. Học thức đạt được rất có thể được/không được người dùng quan trung khu  những độ đo nhận xét tri thức đạt được. Học thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điều khiển quy trình, cai quản thông tin, xử trí truy vấn …

*

19 1.2.1. Khai thác dữ liệu (characterization and discrimination)(trends, regularities, …)

*

trăng tròn khai phá dữ liệu Statistics Machine Learning Data Mining Database technology Visualization Other Disciplines khai thác dữ liệu là một nghành liên ngành, chỗ hội tụ của nhiều học thuyết với công nghệ. “Data mining as a confluence of multiple disciplines”

*

21 1.2.1. Khai thác dữ liệu khai phá dữ liệu và technology cơ sở dữ liệuKhả năng đóng góp của công nghệ cơ sở dữ liệu công nghệ cơ sở tài liệu cho việc cai quản dữ liệu được khai phá. Dữ liệu rất lớn, hoàn toàn có thể vượt quá kĩ năng của bộ nhớ chính (main memory). Tài liệu được tích lũy theo thời gian. Các hệ đại lý dữ liệu có tác dụng xử lý hiệu quả lượng lớn dữ liệu với những cơ chế phân trang (paging) cùng hoán đưa (swapping) dữ liệu vào/ra bộ lưu trữ chính. Những hệ cơ sở dữ liệu hiện đại có chức năng xử lý nhiều các loại dữ liệu tinh vi (spatial, temporal, spatiotemporal, multimedia, text, Web, …). Các công dụng khác (xử lý đồng thời, bảo mật, hiệu năng, buổi tối ưu hóa, …) của các hệ cơ sở dữ liệu đã được cải cách và phát triển tốt. Imielinski, T., và Mannila, H. 1996, A database perspective on knowledge discovery. Communications of the ACM, 39(11), M.S. Sousa, M.L.Q. Mattoso, N.F.F. Ebecken, Data Mining: a Database Perspective, in: Proc. Of the 1st Int. Conf. On Data Mining, (1998), pp ISO/IEC :2006, International Standard, Information công nghệ – Database Languages – SQL Multimedia & Application Packages, Part 6: Data Mining. Pp <2>

*
">

22 1.2.1. Khai phá dữ liệu khai thác dữ liệu và technology cơ sở dữ liệuThực trạng góp phần của công nghệ cơ sở dữ liệu những hệ quản ngại trị cơ sở dữ liệu (DBMS) cung ứng khai phá dữ liệu. Oracle Data Mining (Oracle 9i, 10g, 11g) các công cụ khai phá dữ liệu của Microsoft (MS SQL vps 2000, 2005, 2008) Intelligent Miner (IBM) các hệ cơ sở tài liệu qui hấp thụ (inductive database) hỗ trợ khám phá tri thức. Chuẩn SQL/MM 6:Data Mining của ISO/IEC :2006 hỗ trợ khai phá dữ liệu. Đặc tả giao diện SQL cho các ứng dụng và thương mại dịch vụ khai phá tài liệu từ những cơ sở dữ liệu quan hệ Imielinski, T., & Mannila, H. 1996, A database perspective on knowledge discovery. Communications of the ACM, 39(11), M.S. Sousa, M.L.Q. Mattoso, N.F.F. Ebecken, Data Mining: a Database Perspective, in: Proc. Of the 1st Int. Conf. On Data Mining, (1998), pp ISO/IEC :2006, International Standard, Information công nghệ – Database Languages – SQL Multimedia and Application Packages, Part 6: Data Mining. Pp <2>

*
">

23 1.2.1. Khai phá dữ liệu khai thác dữ liệu và triết lý thống kêStatistics Descriptive Statistics Inductive Statistics Dự báo và suy luận mô tả dữ liệu pp. 25, 26, <2>, Data Mining in Bioinformatics, Dr. Peter Bajcsy S. Sumathi, S. N. Sivanandam. Data Warehousing, Data Mining, and OLAP. Studies in Computational Intelligence (SCI) 29, (2006). Data mining differs from traditional statistics in several ways: Statistics has focused on datasets far smaller than most that are the target of data mining researchers. Formal statistical inference is assumption driven in the sense that a hypothesis is formed và validated against the data. Data mining in contrast is discovery driven in the sense that patterns và hypothesis are automatically extracted from data.  data mining is data driven while statistics is human driven. The goal of data mining is khổng lồ extract qualitative models, which can easily be translated into logical rules or visual representations; in this sense data mining is human centered & is sometimes coupled with human-computer interface research. The branch of statistics that data mining resembles most is exploratory data analysis. Nhị tập tài liệu mẫu có cùng phân bố?

*
, Data Mining in Bioinformatics, Dr. Peter Bajcsy S. Sumathi, S. N. Sivanandam. Data Warehousing, Data Mining, & OLAP. Studies in Computational Intelligence (SCI) 29, (2006). Data mining differs from traditional statistics in several ways: Statistics has focused on datasets far smaller than most that are the target of data mining researchers. Formal statistical inference is assumption driven in the sense that a hypothesis is formed and validated against the data. Data mining in contrast is discovery driven in the sense that patterns & hypothesis are automatically extracted from data.  data mining is data driven while statistics is human driven. The goal of data mining is lớn extract qualitative models, which can easily be translated into logical rules or visual representations; in this sense data mining is human centered và is sometimes coupled with human-computer interface research. The branch of statistics that data mining resembles most is exploratory data analysis. Nhì tập tài liệu mẫu tất cả cùng phân bố">

24 1.2.1. Khai thác dữ liệu khai thác dữ liệu và học thiết bị Machine LearningUnsupervised Supervised “Natural groupings” Reinforcement Data Mining in Bioinformatics, Dr. Peter Bajcsy “machine learning is the ability of a computer program lớn improve its own performance, in some domain, based on past experience” “machine learning is an ability of a program to generate a new data structure that is different from an old one, lượt thích production if..then.. Rules from đầu vào numerical or nominal data” Reasons why there is a big interest in pursuing ML research: ML can help in making sense of information by generating production rules from databases. In domains in which the experts are not available, as in emerging medical & industrial applications, ML algorithms can generate “expert” rules from available data; this could overcome the problem of the “knowledge bottleneck”. ML algorithms can help in defining fuzzy sets from numerical data for various fuzzy lô ghích applications by generating production rules that can be easily “fuzzyfied”. ML can help in understanding human cognitive processes và enable further development of machine-human learning strategies, while taking into tài khoản accumulated knowledge, analogical reasoning, theory formation, etc. ML can also help in a neural network design & in deciphering knowledge stored in terms of the network’s weights and connections.

*

25 1.2.1. Khai phá dữ liệu khai phá dữ liệu cùng trực quan liêu hóaDữ liệu: 3d cubes,distribution charts, curves, surfaces, links graphs, image frames & movies, parallel coordinates kết quả (tri thức): pie charts, scatter plots, box plots, association rules, parallel coordinates, dendograms, temporal evolution Data Mining in Bioinformatics, Dr. Peter Bajcsy Pie chart Parallel coordinates Temporal evolution

*

26 1.2.1. Khai thác dữ liệu khai phá dữ liệu cùng trực quan lại hóaFeature Selection Data Mining in Bioinformatics, Dr. Peter Bajcsy Mean Feature Image

*

27 1.2.1. Khai thác dữ liệu khai thác dữ liệu với trực quan tiền hóaGán nhãn những lớp Isodata (K-means) Clustering Data Mining in Bioinformatics, Dr. Peter Bajcsy Mean Feature Image Label Image

*

28 1.2.2. Những tác vụ khai phá dữ liệuKhai phá diễn đạt lớp/khái niệm (đặc trưng hóa và rành mạch hóa dữ liệu) khai phá luật kết hợp/tương quan lại Phân nhiều loại dữ liệu dự kiến Gom cụm dữ liệu Phân tích xu thế Phân tích độ lệch và thành phần biên đối chiếu độ tựa như …

*

29 1.2.2. Các tác vụ khai thác dữ liệuData Clustering Classification Anomaly Detection Association Rules others Milk

*

30 1.2.2. Các tác vụ khai phá dữ liệuNăm thành tố cơ phiên bản để quánh tả một tác vụ khai thác dữ liệu Dữ liệu cụ thể sẽ được khai thác (task-relevant data) Loại học thức sẽ có được (kind of knowledge) học thức nền (background knowledge) những độ đo (interestingness measures) các kỹ thuật màn trình diễn tri thức/trực quan tiền hóa chủng loại (pattern visualization and knowledge presentation) pp. 31 <1>

*
">

31 1.2.2. Các tác vụ khai thác dữ liệuDữ liệu cụ thể sẽ được khai thác (task-relevant data) Phần tài liệu từ những dữ liệu mối cung cấp được quan tâm khớp ứng với những thuộc tính tốt chiều tài liệu được thân thương Bao gồm: tên kho dữ liệu/cơ sở dữ liệu, các bảng dữ liệu hay các khối dữ liệu, các điều kiện chọn dữ liệu, những thuộc tính tốt chiều dữ liệu được tâm, các tiêu chuẩn gom nhóm dữ liệu

*

32 1.2.2. Các tác vụ khai thác dữ liệuLoại trí thức sẽ dành được (kind of knowledge) Bao gồm: đặc trưng hóa dữ liệu, rành mạch hóa dữ liệu, quy mô phân tích phối hợp hay tương quan, quy mô phân lớp, quy mô dự đoán, mô hình gom cụm, quy mô phân tích bộ phận biên, mô hình phân tích tiến hóa tương xứng với tác vụ khai thác dữ liệu cụ thể sẽ được triển khai

*

33 1.2.2. Những tác vụ khai phá dữ liệuTri thức nền (background knowledge) khớp ứng với lĩnh vực ví dụ sẽ được khai thác Hướng dẫn quá trình tìm hiểu tri thức cung cấp khai phá dữ liệu ở nhiều mức trừu tượng khác nhau Đánh giá những mẫu được tra cứu thấy Bao gồm: các phân cấp ý niệm, tinh thần của người sử dụng về các mối quan hệ nam nữ của tài liệu

*

34 1.2.2. Các tác vụ khai phá dữ liệuCác độ đo (interestingness measures) Thường kèm theo với các ngưỡng quý hiếm (threshold) chỉ đường cho quy trình khai phá hoặc nhận xét các mẫu được tìm kiếm thấy tương ứng với loại trí thức sẽ đã đạt được và bởi vì đó, tương ứng với tác vụ khai thác dữ liệu cụ thể sẽ được tiến hành Kiểm tra: tính dễ dàng (simplicity), tính chắc chắn là (certainty), tính có ích (utility), tính bắt đầu (novelty)

*

35 1.2.2. Các tác vụ khai phá dữ liệuCác kỹ thuật màn trình diễn tri thức/trực quan liêu hóa mẫu (pattern visualization & knowledge presentation) xác minh dạng những mẫu/tri thức được tra cứu thấy để biểu đạt đến người tiêu dùng Bao gồm: lý lẽ (rules), bảng (tables), report (reports), biểu vật dụng (charts), trang bị thị (graphs), cây (trees), và khối (cubes)

*

36 1.2.2. Những tác vụ khai thác dữ liệuPhân các loại dữ liệu giải thuật phân các loại với cây quyết định Giải thuật phân một số loại với mạng Bayes … Gom cụm dữ liệu giải thuật gom nhiều k-means giải thuật gom các phân cấp cho nhóm khai thác luật kết hợp Giải thuật Apriori

*

37 1.2.2. Các tác vụ khai phá dữ liệuGiải Thuật lời giải Giải Thuật Task-relevant Data Interesting Patterns (Knowledge) Tác Vụ khai thác Dữ Liệu khai phá Dữ Liệu

*

38 1.2.2. Những tác vụ khai phá dữ liệuBốn yếu tắc cơ bản của một giải thuật khai phá dữ liệu cấu tạo mẫu hay cấu trúc mô hình (model or pattern structure) Hàm tỉ số (score function) phương thức tìm tìm và về tối ưu hóa (optimization and search method) Chiến lược thống trị dữ liệu (data management strategy) pp. 20, 24, 25 <2>

*
">

39 1.2.2. Các tác vụ khai phá dữ liệuCấu trúc chủng loại hay cấu tạo mô hình (model or pattern structure) quy mô là bộc lộ của tập dữ liệu, với tính cục bộ ở mức cao. Mẫu là điểm sáng (đặc trưng) của dữ liệu, mang ý nghĩa cục bộ, chỉ cho một vài bản ghi/đối tượng giỏi vài biến. Cấu trúc biểu diễn những dạng tính năng chung cùng với các thông số chưa được xác minh trị. Cấu tạo mô hình là 1 tóm tắt tổng thể về dữ liệu. Ví dụ: Y = a
X + b là một kết cấu mô hình và Y = 3X + 2 là một mô hình rõ ràng được khái niệm dựa trên cấu trúc này. Kết cấu mẫu là những cấu trúc liên quan một phần tương đối bé dại của tài liệu hay của không khí dữ liệu. Ví dụ: p(Y>y1|X>x1) = p1 là một cấu trúc mẫu cùng p(Y>5|X>10) = 0.5 là 1 trong mẫu được xác định dựa trên cấu tạo này.

*
y1|X>x1) = p1 là một kết cấu mẫu và p(Y>5|X>10) = 0.5 là một trong những mẫu được xác minh dựa trên cấu tạo này.">

40 1.2.2. Các tác vụ khai thác dữ liệuHàm tỉ số (score function) Hàm tỉ số là hàm khẳng định một cấu tạo mô hình/mẫu đáp ứng nhu cầu tập dữ liệu đã cho xuất sắc ở nút độ như thế nào đó. Hàm tỉ số cho biết liệu một quy mô có giỏi hơn các quy mô khác tuyệt không. Hàm tỉ số không nên phụ thuộc vào nhiều vào tập dữ liệu, không nên chiếm nhiều thời hạn tính toán. Một vài hàm tỉ số thông dụng: likelihood, sum of squared errors, misclassification rate, …

*

41 1.2.2. Những tác vụ khai phá dữ liệuPhương pháp tìm kiếm kiếm và tối ưu hóa (optimization and search method) phương châm của phương pháp tìm kiếm và về tối ưu hóa là xác định cấu trúc và giá trị các thông số đáp ứng rất tốt hàm tỉ số từ tài liệu sẵn có. Search kiếm các mẫu cùng mô hình không khí trạng thái: tập tránh rạc các trạng thái việc tìm kiếm: ban đầu tại một node (trạng thái) thay thể, di chuyển hẳn sang không gian trạng thái nhằm tìm thấy node khớp ứng với tâm lý đáp ứng tốt nhất có thể hàm tỉ số. Phương thức tìm kiếm: kế hoạch tham lam, tất cả dùng heuristics, kế hoạch nhánh-cận buổi tối ưu hóa thông số kỹ thuật

*

42 1.2.2. Các tác vụ khai phá dữ liệuChiến lược cai quản dữ liệu (data management strategy) dữ liệu được khai phá Ít, toàn thể được xử trí đồng thời trong bộ nhớ lưu trữ chính Nhiều, trên đĩa, một phần được xử trí đồng thời trong bộ nhớ lưu trữ chính Chiến lược làm chủ dữ liệu cung cấp cách dữ liệu được lưu trữ, đánh chỉ mục, và truy xuất giải thuật khai phá dữ liệu công dụng (efficiency) và tất cả tính giãn nở (scalability) với dữ liệu được khai phá. Công nghệ cơ sở tài liệu

*

43 1.2.3. Các quy trình khai phá dữ liệuQuy trình khai phá dữ liệu là 1 trong những chuỗi lặp (iterative) (và tương tác(interactive)) gồm các bước (giai đoạn) ban đầu với dữ liệu thô (raw data) và dứt với học thức (knowledge of interest) đáp ứng được sự thân thiết của bạn sử dụng. Cross Industry Standard Process for Data Mining (CRISP-DM at SEMMA (Sample, Explore, Modify, Model, Assess) at the SAS Institute pp <3> (Cross Industry Standard Process for Data Mining (CRISP-DM))

*
(Cross Industry Standard Process for Data Mining (CRISP-DM))">

44 1.2.3. Những quy trình khai thác dữ liệuSự quan trọng của một quy trình khai phá dữ liệu phương pháp tiến hành (hoạch định cùng quản lý) dự án khai phá tài liệu có khối hệ thống Đảm bảo nỗ lực giành cho một dự án công trình khai phá dữ liệu được về tối ưu hóa Việc đánh giá và cập nhật các quy mô trong dự án được ra mắt liên tục.

*

45 1.2.3. Tiến trình CRISP-DM chuẩn chỉnh quy trình công nghiệpĐược đề xướng từ 09/1996 và được hỗ trợ bởi rộng 200 thành viên chuẩn chỉnh mở cung cấp công nghiệp/ứng dụng và công cụ khai thác dữ liệu hiện nay có tập trung vào các vấn đề nghiệp vụ cũng giống như phân tích kỹ thuật tạo ra một khung thức chỉ dẫn qui trình khai phá dữ liệu Có căn cơ kinh nghiệm tự các nghành nghề dịch vụ ứng dụng

*

46 quy trình CRISP-DM (Cross Industry Standard Process for Data Mining (CRISP-DM))

*

47 quy trình CRISP-DM tiến trình CRISP-DM là 1 trong những quy trình lặp, có tác dụng quay lui (backtracking) tất cả 6 giai đoạn: khám phá nghiệp vụ (Business understanding) khám phá dữ liệu (Data understanding) chuẩn bị dữ liệu (Data preparation) quy mô hoá (Modeling) Đánh giá bán (Evaluation) thực thi (Deployment)

*

48 1.2.4. Các khối hệ thống khai phá dữ liệuHệ thống khai thác dữ liệu được cải tiến và phát triển dựa trên khái niệm rộng của khai phá dữ liệu. Khai thác dữ liệu là 1 quá trình tìm hiểu tri thức được thân mật từ lượng phệ dữ liệu trong những cơ sở dữ liệu, kho dữ liệu, hay các kho thông tin khác. Những thành phần chính hoàn toàn có thể có Database, data warehouse, World Wide Web, với information repositories Database tuyệt data warehouse server Knowledge base Data mining engine Pattern evaluation module User interface

*

49 1.2.4. Kiến trúc của một khối hệ thống khai phá dữ liệu

*

50 1.2.4. Các khối hệ thống khai phá dữ liệuDatabase, data warehouse, World Wide Web, cùng information repositories nguyên tố này là những nguồn dữ liệu/thông tin sẽ được khai phá. Trong những tình huống nỗ lực thể, nguyên tố này là nguồn nhập (input) của các kỹ thuật tích phù hợp và làm sạch dữ liệu. Database xuất xắc data warehouse vps Thành phần chịu đựng trách nhiệm sẵn sàng dữ liệu thích hợp cho các yêu cầu khai phá dữ liệu.

*

51 1.2.4. Các khối hệ thống khai phá dữ liệuKnowledge base yếu tố chứa trí thức miền, được dùng để hướng dẫn quy trình tìm kiếm, nhận xét các mẫu công dụng được tra cứu thấy. Tri thức miền có thể là những phân cung cấp khái niệm, ý thức của tín đồ sử dụng, các ràng buộc hay các ngưỡng giá trị, siêu dữ liệu, … Data mining engine nguyên tố chứa các khối tác dụng thực hiện các tác vụ khai thác dữ liệu.

*

52 1.2.4. Các khối hệ thống khai phá dữ liệuPattern evaluation module yếu tố này làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và reviews các mẫu sao để cho các mẫu được search thấy là đầy đủ mẫu được niềm nở bởi bạn sử dụng. Thành phần này hoàn toàn có thể được tích hợp vào nhân tố Data mining engine.

*

53 1.2.4. Các hệ thống khai phá dữ liệuUser interface Thành phần hỗ trợ sự liên hệ giữa người tiêu dùng và hệ thống khai phá dữ liệu. Bạn sử dụng có thể chỉ định câu tróc nã vấn giỏi tác vụ khai thác dữ liệu. Fan sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm kiếm, triển khai khai phá tài liệu sâu hơn thông qua các công dụng khai phá trung gian. Người sử dụng cũng rất có thể xem những lược đồ đại lý dữ liệu/kho dữ liệu, các kết cấu dữ liệu; nhận xét các mẫu khai thác được; trực quan lại hóa những mẫu này ở những dạng khác nhau.

*

54 1.2.4. Các hệ thống khai phá dữ liệuCác đặc điểm được dùng để làm khảo liền kề một khối hệ thống khai phá dữ liệ